17
Jurnal Ilmu Komputer dan Sistem Informasi
18
Jurnal Ilmu Komputer dan Sistem Informasi
3.1 Tokenizing / Tokenisasi dimasukkan dalam hitungan DF. Sehingga kata makan
yang ada di dokumen A dan dokumen B, akan hanya
Pertama-tama dokumen akan mengalami proses dianggap ada di dokumen B saja.
tokenisasi. Tokenisasi adalah proses membagi teks
menjadi bagian-bagian yang lebih kecil yang disebut Tabel 2 Document Frequency (DF)
token. Proses tokenisasi umumnya memisahkan kata- Kata DF
kata dari spasi dan juga semua huruf akan dibuat makan 1
menjadi huruf kecil semuanya. Ini terlihat efisien, nasi 1
karena kalimat umumnya terdiri dari spasi, sehingga ikan 1
dapat dipisahkan menjadi token.[9] Jadi, setelah sayur 1
melalui tahap tokenisasi, suka 1
• Dokumen A: “saya makan nasi”
• Dokumen B: “saya makan ikan dan sayur” Inverse Document Frequency (IDF) adalah
• Dokumen C: “saya tidak suka nasi” pengukuran seberapa penting informasi yang terdapat
pada suatu kata. IDF berfungsi untuk mengurangi bobot
3.2 Stopword Removal suatu term atau kata jika kemunculannya banyak tersebar
di seluruh koleksi dokumen. Hampir sama dengan
Stopword adalah kata-kata fungsional khusus yang konsep DF, apabila ada tiga dokumen, maka jumlah N
tidak membawa informasi apapun, yaitu contohnya kata adalah 3 (termasuk dokumen pembanding). Jika jumlah
ganti, kata depan, dan kata hubung. Daftar stopword seluruh dokumen adalah N, dan jumlah dokumen yang
dalam bahasa Indonesia berkisar lebih dari 500 kata. memuat kata adalah t adalah , maka IDF dari suatu
Stopword banyak digunakan di kalimat atau paragraf, kata adalah[6]:
sehingga sangat penting dalam melakukan pendeteksian
tingkat kemiripan.[10] Dokumen-dokumen tersebut
setelah melalui tahap stopword removal akan menjadi:
• Dokumen A: makan nasi ....(4)
• Dokumen B: makan ikan sayur Keterangan:
• Dokumen C: suka nasi : Inverse Document Frequency suatu kata
N: jumlah seluruh dokumen
3.3 Pre-processing : jumlah dokumen yang memuat suatu kata
Tahap pre-processing terdiri dari 4 tahap yaitu Term Tabel 3 Inverse Document Frequency (IDF)
Frequency (TF), Document Frequency (DF), Inverse Kata DF
Document Frequency (IDF), dan Term Frequency – makan 0.301
Inverse Document Frequency (TF-IDF). nasi 0.301
Term Frequency (TF) adalah jumlah frekuensi suatu ikan 0.301
kata pada dokumen. Jika ingin melambangkan jumlah sayur 0.301
frekuensi kata t pada dokumen d dengan , maka TF suka 0.301
suatu kata adalah[6]:
Term Frequency – Inverse Document Frequency
....(3) (TF-IDF) adalah sebuah perhitungan statistik yang
Keterangan: bertujuan untuk menggambarkan seberapa penting
: jumlah frekuensi kata pada dokumen sebuah kata terhadap sebuah koleksi dokumen. TF-IDF
Nantinya dokumen dokumen tersebut akan menjadi sering digunakan sebagai pembobotan dalam Information
pada Tabel 1 seperti berikut: Retrieval (IR) dan text mining. Nilai TF-IDF meningkat
seiring dengan banyaknya jumlah kata tersebut muncul di
Tabel 1 Term Frequency (TF) dalam dokumen, tetapi diimbangi dengan jumlah
Kata Dokumen A Dokumen B Dokumen C dokumen yang memuat kata tersebut. Semakin banyak
makan 1 1 dokumen yang memuat kata tersebut, nilai TF-IDF kata
nasi 1 1 tersebut akan semakin kecil. Nilai TF-IDF suatu kata
ikan 1 pada dokumen dihitung dengan cara mengalikan TF
sayur 1 suatu kata pada dokumen dengan IDF kata tersebut,
suka 1 sehingga dapat ditulis sebagai berikut[6]:
19
Jurnal Ilmu Komputer dan Sistem Informasi
20
Jurnal Ilmu Komputer dan Sistem Informasi
21