Buang duplicate lines dalam sesuatu file

Kali ini saya akan tunjuk bagaimana membuang duplicate lines dalam sesebuah dokumen. Tapi setakat ni saya sudah cuba pada .txt file sahaja.  Katakan saya ada list url dalam format txt dan list url didalam file txt tu ada yang sama, dan ada juga yang unik. Masih tidak faham? Baik, sila lihat gambar di bawah.

delete duplicate lines notepad++

Terdapat 4 URL tetapi ada 2 yang sama iaitu pada line1 dan line4 (google.com). Jika setakat 4 URL, kita tidak perlu bimbang sebab kita boleh buang secara manual – sebab dah memang nampak jelas kat situ! Tapi, bayangkan jika anda ada 1000, 2000 atau 10K list URL. Nak cari satu2? Oh..letih~ Jadi bagaimana cara penyelesaiannya?

*Saya guna Windows.

Apa yang anda perlukan? Notepad++. Itu sahaja. Software yang berguna untuk saya sebagai seorang developer.
Download Notepad++ di sini- http://sourceforge.net/projects/notepad-plus/files/

Mula dari barisan ini, saya anggap anda sudah tahu apa masalahnya.

Langkah 1:
Open file .txt pada Notepad++

Langkah 2:
Hilangkan semua blank lines jika ada. Select all [Ctrl+A], TextFX > TextFX Edit > Delete Blank Lines

2

Langkah 3:
TextFX > TextFX Tools > +Sort outputs only UNIQUE (at column) lines
Pastikan ia ditanda (right)

3

Langkah 4:
Select All [Ctrl+A], TextFX > TextFX Tools > Sort lines case sensitive (at column)

4

——Habis—-

Apa hasilnya? Notepad++ telah membuang baris-baris kosong (jika ada), membuang duplicate URL dan menyusun URL dari A-Z.
Saya telah cuba cara ini pada 2400 URL, dan akhirnya saya hanya dapat 1800 sahaja URL yang unik. Tiada URL yang sama.
2400-1800 = 600 (600 URL telah dibuang!)

Tidak ada masalah lagi jika terdapat URL yang sama dapat satu database, ya kan? :D

Post a Comment

Your email is never shared. Required fields are marked *

*
*

Spam Protection by WP-SpamFree