Anda di halaman 1dari 1

PENGELOMPOKAN TERJEMAHAN AYAT-AYAT ALQURAN DALAM BAHASA INDONESIA DENGAN ALGORITMA K-MEANS CLUSTERING ABSTRAK Pengelompokan terjemahan ayat-ayat

Al-Quran dalam bahasa Indonesia adalah salah satu implementasi dari text clustering yang merupakan bidang khusus dari text mining. Proses pengelompokan ini dapat dilakukan secara otomatis dengan memanfaatkan algoritma k-means clustering yang bertujuan untuk mengelompokkan terjemahan ayat-ayat Al-Quran dalam bahasa Indonesia yang mempunyai kesamaan isi. Tahapan proses yang dilakukan untuk menghasilkan sebuah sistem peng-cluster terjemahan ayat-ayat Al-Quran meliputi beberapa tahap, yaitu text prepocessing, text transformation dan pattern discovery. Text prepocessing dilakukan dengan Case folding dan parsing. Text transformation dilakukan dengan penghilangan stopword, stemming serta proses pembobotan. Sedangkan pattern discovery merupakan tahapan terpenting. Pada tahap ini, algoritma k-means clustering digunakan untuk melakukan pengelompokan dengan cara mencari terjemahan ayat yang paling mirip dengan centroid. Kemiripan dapat diperoleh melalui perhitungan jarak menggunakan angular separation atau pengukuran cos. Nilai kemiripan yang paling tinggi akan digunakan untuk menentukan terjemahan ayat Al-Quran tersebut masuk ke dalam cluster mana. Evaluasi terhadap sistem peng-cluster terjemahan ayat AlQuran ini menggunakan CS measure dan pengamatan visual terhadap cluster yang dihasilkan. Hasil cluster terbaik pada k = 50 pada uji coba I, II dan III dengan nilai CS Measure 0.0167541629921499 pada uji coba I, 0.0163081183394216 pada uji coba II dan 0.0159520619328425 pada uji coba III. Pada uji coba IV, jumlah cluster (k) terbaik yaitu pada k = 60 dengan nilai CS Measure 0.0178579246300294. Akan tetapi pada saat nilai CS Measure dari keempat proses uji coba tersebut dihitung rata-ratanya, maka nilai k terbaik yang dihasilkan adalah k = 50. Sedangkan hasil proses evaluasi secara pengamatan visual pada cluster yang dihasilkan dari proses k-means clustering adalah tidak semua hasil dalam satu cluster membahas topik yang sama.

vii

Anda mungkin juga menyukai