Jelajahi eBook
Kategori
Jelajahi Buku audio
Kategori
Jelajahi Majalah
Kategori
Jelajahi Dokumen
Kategori
PENDAHULUAN
Dengan banyaknya dokumen teks seperti jurnal, buku, dan berita yang sudah
tersimpan secara digital, muncul permasalahan dimana informasi yang tadinya tersedia
dengan baik menjadi kabur/hilang karena terlalu banyak dokumen/berkas yang tersimpan
dalam media penyimpanan digital. Imbasnya, proses mencari informasi tertentu yang
dibutuhkan dari berkas-berkas tersebut menjadi makin sulit dan lama.
Masalah lain akan terjadi ketika setiap dokumen tersebut ingin dikategorikan ke dalam
kelas-kelas tertentu, karena harus dilihat, dibaca, dan dipahami isi tiap dokumen dalam korpus,
barulah bisa ditentukan kelas-kelas bagi dokumen dan membagi dokumen dalam kelas
tersebut.
Sebuah kajian ilmu yang bernama Information Retrieval (IR) memunculkan beberapa
metodologi yang memudahkan pencarian informasi dari sejumlah besar dokumen digital,
salah satunya adalah dengan proses clustering/classification, yaitu pengelompokan
data/berkas berbasis teks berdasarkan kemiripannya.
Beberapa metode clustering telah dikembangkan untuk mengelompokkan data
terstruktur sejenis relational database seperti k-Means, decision tree, Nave Bayes, dan
sebagainya. Salah satu metode clustering, k-Means, terkenal simpel dan cepat dalam
perhitungannya (Arthur, 2006), serta menjadi dasar pengembangan metode clustering yang
ISBN : 978-602-97491-4-4
C-1-1
lain (Kanungo, 2002; Bhatia, 2004; Pham, 2004, Mahdavi, 2008; Tarpey 2007). Metode kMeans yang dipadukan dengan pembobotan TF-IDF menjadi solusi untuk pengelompokan
data tak terstruktur seperti dokumen teks secara otomatis.
Penelitian ini bermaksud menggabungkan dan mengevaluasi kinerja perpaduan
metode k-Means dan TF-IDF dalam proses clustering dokumen teks ke dalam suatu aplikasi
clustering dokumen teks digital. Aplikasi ini diharapkan mampu melakukan klasifikasi secara
otomatis bagi dokumen-dokumen dalam korpus.
Bagian kedua akan menjelaskan tentang metode k-Means clustering. Selanjutnya, konsep TFIDF dan normalisasinya dijelaskan pada bagian ketiga. Bagian keempat adalah merupakan
konstribusi utama dari paper ini, yaitu memperkenalkan integrasi pembobotan TF-IDF ke
metode k-Means clustering beserta hasil pengujian dan penelitian yang telah dilakukan.
METODE
TF-IDF (terms frequency inverse document frequency)
Metode TF-IDF (Robertson, 2004) merupakan suatu cara untuk memberikan bobot
hubungan suatu kata (token) terhadap suatu dokumen. Metode ini menggabungkan dua
konsep dalam perhitungan bobot yaitu, frekuensi kemunculan sebuah kata di dalam sebuah
dokumen dan inverse dari frekuensi dokumen yang mengandung kata tersebut. Frekuensi
dokumen yang mengandung kata tersebut menunjukkan seberapa umum kata tersebut. Bobot
hubungan antara sebuah kata dan sebuah dokumen akan tinggi apabila frekuensi kata tersebUt
tinggi didalam dokumen dan frekuensi keseluruhan dokumen yang mengandung kata tersebut
yang rendah pada kumpulan dokumen (database).
Rumus umum untuk pembobotan TF-IDF:
wtd tf td idf
wtd tf td log(
N
)
df t
(1)
(2)
Keterangan:
wtd
= bobot kata/token tt terhadap dokumen dd
tftd
= jumlah kemunculan kata/token tt dalam dokumen dd
N
= jumlah semua dokumen dalam database
dft
= jumlah dokumen yang mengandung kata/token tt
Berdasarkan rumus (2), berapapun besarnya nilai tftd, apabila N = dft dimana sebuah
kata/token muncul di semua dokumen, maka akan didapatkan hasil 0 (nol) untuk perhitungan
idf, sehingga perhitungan bobotnya diubah menjadi sebagai berikut:
wtd tf td (log(
N
) 1)
df t
(3)
Rumus (3) dapat dinormalisasi dengan rumus (4) dengan tujuan menstandarisasi nilai bobot
(wtd) ke dalam interval 0 s.d. 1, seperti yang ditulis oleh Intan (2006):
ISBN : 978-602-97491-4-4
C-1-2
w td
tf td (log( N
t
(tf td )
k 1
df t
) 1)
(log( N
) 1)
df t
(4)
1
1 4 16
w 11 0 . 21822
Tabel 2. Hasil normalisasi TF-IDF
Doc Token tf
w
D1 t1
1 0.21822
D1 t2
2 0.43643
D1 t3
4 0.87287
D2 t1
1 0.26726
D2 t2
2 0.53452
D2 t3
3 0.80178
D3 t1
2 0.37139
D3 t2
3 0.55708
D3 t3
4 0.74278
Dapat dilihat pada hasil perhitungan normalisasi TF-IDF di Tabel 2, semakin sedikit
sebuah kata/token ditemukan dalam dokumen di database dan semakin banyak token tersebut
ditemukan dalam sebuah dokumen, maka bobot hubungan antara token terhadap dokumen
akan semakin besar.
ISBN : 978-602-97491-4-4
C-1-3
K-MEANS CLUSTERING
K-Means clustering (Llyoid, 1982) merupakan metode clustering/pengelompokan data
yang terkenal simpel dan cepat (Arthur, 2006). k-Means clustering adalah metode clustering
yang mengelompokkan semua data yang dimiliki ke dalam k cluster, dimana nilai k sudah
ditentukan sebelumnya. k-Means mengelompokkan data berdasarkan jarak vektor/parameter
dari tiap data ke vektor/parameter dari pusat cluster (centroid) yang sudah ditentukan
sebanyak k, dan mengelompokkan data-data ke pusat cluster yang terdekat.
Algoritma dari metode k-Means itu seperti yang digambarkan pada Gambar 1 adalah sebagai
berikut:
a. Pilih secara acak vektor data yang akan digunakan sebagai centroid awal sebanyak k.
b. Cari centroid yang paling dekat dari setiap data dengan cara menghitung jarak setiap
data dengan setiap centroid cluster.
c. Hitung ulang untuk menentukan centroid baru dari setiap cluster dengan menghitung
rata-rata nilai vektor semua data dalam cluster tersebut.
d. Lakukan langkah b dan c hingga centroid tidak mengalami perubahan lagi (Tidak ada
data yang berpindah cluster lagi) atau perubahan centroid lebih kecil dari nilai
error/threshold yang ditetapkan.
Dalam menentukan jarak antara sebuah data dengan centroid sebuah cluster, digunakan rumus
euclidean distance seperti pada rumus (5).
d ij (| xi1 x j1 | 2 | xi 2 x j 2 | 2 ...)
(5)
Keterangan:
dij
= jarak dari data i terhadap data j
xi(n)
= nilai vektor ke-n pada data i
xj(n)
= nilai vektor ke-n pada data i
INTEGRASI TF-IDF DALAM K-MEANS CLUSTERING
Mengintegrasikan pembobotan TF-IDF ke dalam k-Means clustering dilakukan
dengan cara menggunakan nilai wtd (bobot token) yang didapat dalam perhitungan TF-IDF
sebagai vektor/parameter dalam proses clustering menggunakan k-Means clustering, sehingga
banyaknya vektor data akan didapat dari jumlah token unik di dalam kamus token (lexicon)
seluruh dokumen dalam database.
Berikut ini diberikan contoh penerapan k-Means clustering yang diintegrasikan
dengan pembobotan TF-IDF seperti yang sudah dijelaskan sebelumnya untuk mempermudah
pemahaman. Sebagai sampel, terdapat 4 buah dokumen sebagai berikut yang akan
dikelompokkan ke dalam 2 cluster:
ISBN : 978-602-97491-4-4
C-1-4
D1
D2
D3
D4
Nilai k adalah 2 dan centroid awal diletakkan secara acak, dalam contoh ini, centroid 1
diletakkan pada dokumen D1 dan centroid 2 pada dokumen D2.
Berdasarkan data sampel di atas, pertama-tama dilakukan proses pembangunan indeks untuk
membentuk lexicon (kamus token) dan pembobotan dengan TF-IDF hingga didapat nilai wtd
(bobot) sesuai dengan rumus TF-IDF standar yang belum dinormalisasi seperti pada rumus (2).
Berikut ini diberikan lexicon yang terbentuk dan contoh perhitungan untuk token shipment.
Token shipment dimiliki oleh Dokumen D1 sebanyak 1, dan dokumen D3 sebanyak 1. Jadi
df untuk token shipment adalah 2. Hasil perhitungan tf dan idf ditunjukkan pada Tabel 3.
Tabel 3. Tabel perhitungan tf dan idf
shipment
of
gold
damage
in
a
fire
delivery
silver
arrived
truck
the
city
tf t,D1
1
1
1
1
1
1
1
0
0
0
0
0
0
tf t,D2
0
1
0
0
1
1
0
1
2
1
1
0
0
tf t,D3
1
1
1
0
1
1
0
0
0
1
1
0
0
tft,D4
0
0
0
0
1
0
0
0
2
1
1
1
1
idf
0.301
0.125
0.301
0.602
0
0.125
0.602
0.602
0.301
0.125
0.125
0.602
0.602
dft
2
3
2
1
4
3
1
1
2
3
3
1
1
Setelah diketahui nilai tf, df, dan idf untuk masing-masing dokumen dan masingmasing token, kemudian dihitung nilai w untuk tiap token dalam tiap dokumen.
Contoh perhitungan:
wsilver ,D 2 2 0.301
wsilver , D 2 0.602
Hasil perhitungan keseluruhannya terlihat pada Tabel 4.
ISBN : 978-602-97491-4-4
C-1-5
wt,D4
0
0
0
0
0
0
0
0
0.602
0.125
0.125
0.602
0.602
Dengan data pembobotan tersebut, maka dapat dihitung jarak antara masing-masing
dokumen dengan masing-masing centroid menggunakan rumus euclidean distance. Hasil
perhitungannya ditunjukkan pada Tabel 3.
Tabel 3. perhitungan jarak dokumen dengan centroid
Dokumen
Centroid
Jarak
D1
Centroid 1
0
D1
Centroid 2
1.2892
D2
Centroid 1
1.2892
D2
Centroid 2
0
D3
Centroid 1
0.86958
D3
Centroid 2
0.9519
D4
Centroid 1
1.4338
D4
Centroid 2
1.0576
Nilai w yang dihasilkan dari rumus (2) ternyata menunjukkan hasil clustering yang
tidak baik. Terjadi anomali hasil clustering dimana hampir seluruh dokumen masuk ke dalam
satu cluster tertentu saja. Namun setelah perhitungan w menggunakan rumus normalisasi TFIDF, maka hasil clustering menunjukkan peningkatan presisi.
Percobaan juga dilakukan pada perubahan nilai centroid awal. Dari percobaan tersebut
didapatkan bahwa untuk centroid awal yang berbeda, akan dihasilkan cluster yang berbeda
pula.
Pengujian akurasi dilakukan dengan parameter precision dan recall (Buckland, 1994). Nilai
precision didapat dari melihat berapa persen dokumen dalam suatu cluster yang masuk ke
cluster yang benar, sedangkan nilai recall didapat dari berapa persen dokumen yang
seharusnya masuk ke dalam satu cluster benar-benar berada di cluster tersebut.
Tabel 4. Hasil Pengujian Clustering
Cluster
Jumlah
Dokumen
Cluster 1
(ekonomi)
13 dokumen
Cluster 2
(politik-hukum)
18 dokumen
Cluster 3
(olahraga)
14 dokumen
Isi Cluster
11 berita ekonomi,
85%
2 berita politik-hukum
13 berita politik-hukum,
4 berita ekonomi, dan 1 berita 72%
olahraga
14 berita olahraga
100%
R
73%
87%
93%
Contoh perhitungan nilai precision dan recall dari hasil pengujian yang ditunjukkan
oleh Tabel 4 adalah: Pada cluster 1, dari 13 dokumen yang masuk, 11 dokumen adalah berita
ekonomi dan sisanya adalah 2 berita politik hukum, sehingga didapat nilai precision adalah
11/13 = 0.85 = 85%, sedangkan nilai recall-nya didapat dari 11 berita ekonomi yang masuk
ke cluster 1 dibagi dengan 15 berita ekonomi yang seharusnya masuk semua ke cluster 1.
11/15 = 0.73 = 73%.
Tingkat precision dan recall yang didapat dari percobaan-percobaan lain yang sudah
dilakukan cukup tinggi (di atas 50%). Hasil percobaan juga menunjukkan bahwa semakin
besar jumlah dokumen dalam database, semakin tinggi pula rata-rata precision dan recall dari
hasil clustering yang dilakukan. Rata-rata nilai precision dan recall dari tiap pengujian
ditunjukkan pada Tabel 5.
Tabel 5. Rata-rata nilai precision dan recall
Proses clustering yang dilakukan oleh sistem juga tidak memakan waktu lama. Pada
saat uji coba dengan 45 dokumen dalam korpus, sistem hanya membutuhkan waktu 3 menit
untuk melakukan clustering meskipun membutuhkan waktu sampai 3 jam dalam melakukan
proses penghitungan w (bobot) token dari seluruh dokumen dalam database.
ISBN : 978-602-97491-4-4
C-1-7
ISBN : 978-602-97491-4-4
C-1-8