Anda di halaman 1dari 3

The 6th International Conference on Cyber and IT Service Management (CITSM 2018)

Inna Parapat Hotel – Medan, August 7-9, 2018

Information Retrieval pada Dokumen Hadits


Terjemahan Bahasa Indonesia Menggunakan
Language Modelling
Ika Rahayu Ponilan, S.T1, Dr. Agus Suyadi Raharusun, M.Ag2
1
Fakultas Informatika, 2Fakultas Ushuluddin
1
Universitas Telkom, 2Universitas Islam Negeri Sunan Gunung Djati Bandung
1
ikaponilan@student.telkomuniversity.ac.id, 2agussuyadi@uinsgd.ac.id

Abstract- Hadits adalah perkataan (sabda), perbuatan, ketetapan I. PENDAHULUAN


dan persetujuan dari Nabi Muhammad SAW yang dijadikan
landasan hukum syariat Islam setelah al-Qur'an. Saat ini telah A. Latar Belakang
banyak website yang menyediakan informasi mengenai hadits Hadits adalah perkataan (sabda), perbuatan, ketetapan dan
untuk memudahkan pengguna dalam proses pembelajaran persetujuan dari Nabi Muhammad SAW yang dijadikan
hadits, seperti website Lidwa Pustaka yang digunakan untuk
landasan hukum syariat Islam setelah al-Qur’an. Dalam hal
pencarian hadits terjemahan Bahasa Indonesia atau yang biasa
kita kenal sebagai Information Retrieval (IR). ini, hadits mempunyai kedudukan kedua sebagai sumber
hukum Islam setelah al-Qur'an. Mengingat kedudukan hadits
Pada dasarnya, IR menyediakan kotak pencarian bagi pengguna yang sangat penting bagi umat Islam, maka sangat penting
untuk memasukan query yang mencerminkan kebutuhan pula mempelajari pengetahuan tentang hadits. Dalam hal
informasi pengguna. Query yang dimasukan oleh pengguna memudahkan pengguna untuk proses pembelajaran hadits, saat
dicocokan (match) dengan indeks koleksi dokumen hadits untuk ini telah banyak website yang menyediakan informasi
menemukan hadits yang mengandung query tersebut, yang mengenai hadits. Oleh karena itu, Information Retrieval (IR)
kemudian diurutkan (ranking) berdasarkan berbagai metode seperti search engine telah menjadi alat penting bagi
atau model. Namun demikian, proses pencarian hadits pada
pengguna untuk mengambil informasi di website (Syazhween
Lidwa Pustaka menggunakan metode exact string matching, yang
mana dalam proses pencarian hadits terhadap query pengguna Zulkefli, Rahman, & Bakar, 2016).
harus sama seperti dokumen hadits secara berurutan per kata Pada dasarnya, IR menyediakan kotak pencarian bagi
(term), sehingga untuk pencarian secara partial matching pengguna untuk memasukan query yang mencerminkan
(pencocokan query pada masing-masing kata tanpa berurutan) kebutuhan informasi pengguna, kemudian menemukan hadits
belum dapat dilakukan. yang mengandung query tersebut, yang kemudian diurutkan
(ranking) berdasarkan berbagai metode atau model. Salah satu
Penelitian ini bertujuan untuk memperbaiki sistem pencarian model IR dari sisi pengguna (user task) adalah model klasik.
hadits terjemahan Bahasa Indonesia tersebut, menggunakan Konsep dari model klasik yaitu, dokumen direpresentasikan
pendekatan probabilistik atau Language Modelling (LM), yaitu
dengan menggunakan indeks term dan bobot indeks term
Jelinerk-Mercer Smoothing, Dirichlet Smoothing dan Absolute
Discounting Smoothing. Metode smoothing tersebut dapat menunjukkan spesifikasi untuk dokumen tertentu. Model
melakukan pencarian hadits terhadap query pengguna secara klasik terdiri dari model Boolean, model Vektor (Vector Space
partial matching dan mengestimasi relevansi dokumen hadits Model) dan model Probabilistik atau LM (Song & Croft,
dengan menghitung nilai probabilitas kata yang tidak terlihat 1999).
(unseen word) pada masing-masing dokumen hadits terhadap Pada penelitian (Amirah, Nur, Rahim, Mabni, Hanum, &
query, sehingga menghindari probabilitas 0 untuk proses Rahman, 2016), untuk mendapatkan dokumen hadits yang
retrieval dokumen. Penelitian ini menghasilkan nilai relevansi relevan dengan query, menggunakan model Vector Space
dokumen hadits terhadap query pengguna sebesar 26.54% untuk Model (VSM) dengan metode Latent Semantic Indexing (LSI).
Mean Average Precision di seluruh hadits, 24.16% untuk Mean
Namun demikian, metode LSI ini memiliki kekurangan yaitu,
Average Precision@30 pada top 30 dokumen dan nilai recall@30
pada top 30 dokumen adalah sebesar 34.71% untuk metode harus menentukan nilai k dimensi untuk pemotongan VSM
Dirichlet Smoothing. antara query dengan dokumen hadits, sehingga jika penentuan
nilai k kurang tepat, maka dokumen hadits yang relevan tidak
Keywords—Information Retrieval, Hadits, Language Modelling, di-retrieeve oleh sistem. Pada penelitian (Amirah, Nur, Rahim,
Jelinerk-Mercer Smoothing, Dirichlet Smoothing, Absolute Mabni, Hanum, & Rahman, 2016) menghasilkan nilai recall
Discounting Smoothing sebesar 0.49, namun terlalu banyak dokumen yang
ditampilkan oleh sistem, sehingga nilai precision-nya hanya
0.029.
The 6th International Conference on Cyber and IT Service Management (CITSM 2018)
Inna Parapat Hotel – Medan, August 7-9, 2018

Sistem pencarian hadits terjemahan Bahasa Indonesia yang query, juga tidak memiliki struktur. Hal inilah yang
ada saat ini adalah website Lidwa Pustaka. Pencarian dalam membedakan IR dengan sistem basis data. Dokumen adalah
Lidwa Pustaka belum dapat menyelesaikan partial matching, salah satu contoh informasi yang tidak terstruktur, karena isi
artinya tidak dapat menangani query yang hanya memiliki dari suatu dokumen sangat tergantung pada pembuat dokumen
kesamaan sebagian term saja dengan dokumen. Sebagai tersebut.
contohnya adalah, pencarian menggunakan query “dilarang
kikir” menghasilkan nol dokumen hadits yang di-retrive oleh B. Preprocessing
sistem, sedangkan jika query-nya diubah menjadi “kikir” saja, Preprocessing adalah strategi dan teknik yang saling
menghasilkan 18 dokumen hadits (terlalu umum). Artinya, berkaitan untuk membuat data lebih mudah atau cocok untuk
query “dilarang kikir” hanya memiliki kesamaan sebagian digunakan dalam proses mining (Garcia, 2015). Preprocessing
terhadap term “kikir” saja, sehingga sistem belum bisa atau text processing berfungsi untuk mengubah data teks yang
menangani pencarian partial matching. tidak terstruktur atau sembarang menjadi data yang terstruktur.
Berdasarkan permasalahan yang telah dijelaskan di atas, Secara umum proses yang dilakukan dalam tahapan
penelitian ini menggunakan pendekatan LM untuk preprocessing adalah sebagai berikut:
menyelesaikannya. Berbeda dari kedua model sebelumnya, 1. Clean Symbols
LM mengasumsikan setiap term dalam query dianggap pasti Clean Symbols adalah proses penghapusan suatu
akan memiliki term yang sama dalam dokumen. Setiap term karakter yang bukan huruf atau angka di sebuah
dalam query diinisialisasi kemungkinan pasti memiliki dokumen.
kemunculan dalam dokumen yang disebut sebagai term 2. Case Folding
frequency (tf) sesuai banyaknya term pada sebuah dokumen Case folding adalah proses penyamaan case dalam
yang dikenal dengan istilah inverted document frequency (idf) sebuah dokumen. Hal ini dilakukan untuk
sebagai acuan perankingan dokumen yang akan ditampilkan. mempermudah pencarian. Tidak semua dokumen teks
Hal ini menjelaskan bahwa, selain mampu melakukan konsisten dalam penggunaan huruf kapital. Oleh karena
perangkingan dokumen, model ini juga mampu melakukan itu peran case folding dibutuhkan dalam mengkonversi
partial matching query dengan dokumen yang dianggap sesuai keseluruhan teks dalam dokumen menjadi suatu bentuk
(Fuhr, 1992). standar (dalam huruf kecil/lowercase).
Pada penelitian ini menggunakan tiga metode probabilistik 3. Tokenizing
(LM), yaitu Jelinerk-Mercer Smoothing, Dirichlet Smoothing Tokenizing adalah proses pemotongan sebuah dokumen
dan Absolute Discounting Smoothing. Penelitian ini menjadi bagian-bagian yang disebut dengan token.
diharapkan dapat menghasilkan sistem pencarian relevan Pada saat bersamaan tokenizing juga berfungsi untuk
hadits berdasarkan query pengguna, sehingga dapat membuang beberapa karakter tertentu yang dianggap
bermanfaat untuk pembalajaran hadits terutama bagi umat sebagai tanda baca.
muslim di Indonesia. 4. Stopword Removal
Stopword Removal adalah proses penghilangan kata-
B. Tujuan kata yang tidak memiliki kontribusi banyak pada isi
Mencari dokumen hadits yang relevan terhadap query dokumen (Baeza-Yates, Ricardo, & Berthier, 1999).
pengguna menggunakan pendekatan LM dan Kata-kata yang termasuk kedalam stopword
membandingkannya dengan beberapa metode lain, seperti dihilangkan karena memberikan pengaruh tidak baik
pencarian menggunakan Lidwa Pustaka, LSI dan Cosine pada data teks seperti kata-kata “dan”, “pada”, “ke”,
Similarity. dan lain-lain (Gustafson & Ng, 2008).
5. Stemming
II. LANDASAN TEORI Stemming adalah proses yang bertujuan untuk
melakukan normalisasi pada teks/kata berdasarkan
A. Information Retrieval (IR) pada bentuk dasar. Normalisasi di sini dalam artian
IR paling sering ditafsirkan sebagai masalah pemilihan mengidentifikasikan dan menghapus prefiks serta
dokumen (teks) dari database sebagai respons terhadap query. suffiks dari sebuah kata (Nirenburg, 2009).
Dari sudut pandang ini, isu utama yang menjadi perhatian IR
adalah representasi dokumen dan query, dan teknik untuk C. Term Weighting
perbandingan representasi dokumen dan query (Belkin, 1993). Term weighting adalah metode pembobotan term (kata)
Pengertian lain menyatakan bahwa information retrieval yang memberikan sebuah bobot nilai bagi term yang terdapat
adalah proses yang berhubungan dengan representasi, dalam sebuah dokumen. Bobot nilai ini menjadi sebuah
penyimpanan, pencarian dengan pemanggilan informasi yang ukuran besarnya jumlah dan tingkat konstribusi sebuah term
relevan dengan kebutuhan informasi yang diinginkan terhadap suatu dokumen. Besar atau kecilnya bobot suatu term
pengguna. Sistem IR utamanya berhubungan dengan pada suatu dokumen, tergantung pada metode pembobotan
pencarian informasi yang isinya tidak memiliki struktur, yang digunakan dan persebaran term tersebut di seluruh
demikian pula ekspresi kebutuhan pengguna yang disebut kumpulan dokumen (Lan, 2006).
The 6th International Conference on Cyber and IT Service Management (CITSM 2018)
Inna Parapat Hotel – Medan, August 7-9, 2018

Terdapat beberapa metode pembobotan dalam text mining C. Language Modelling


diantaranya adalah TF, TF·IDF, WIDF, TF·CHI, dan TF·RF, Define abbreviations and acronyms the first time they are
namun dalam penelitian ini menggunakan metode pembobotan used in the text, even if they have been defined in the abstract.
TF untuk LM dan TF.IDF untuk LSI dan Cosine Similarity. Abbreviations such as IEEE, SI, MKS, CGS, ac, dc, and rms
1. Term Frequency do not have to be defined. Do not use abbreviations in the title
Term Frequency atau sering disebut juga TF, adalah unless they are unavoidable.
salah satu metode pembobotan term yang paling
sederhana. Pada metode ini, setiap term diasumsikan D. Performance Evaluation
memiliki proporsi kepentingan sesuai dengan jumlah
terjadinya (munculnya) term tersebut dalam dokumen.
Dengan metode ini, nilai kontribusi (bobot) suatu term III. METODOLOGI PENELITIAN DAN
pada suatu dokumen adalah sama dengan jumlah RANCANGAN SISTEM
munculnya term tersebut pada dokumen. Bobot term (t)
pada dokumen (d) diberikan dengan persamaan 1
sebagai berikut (Tokunaga, 1994):
! ", $ = &'(", $) (1)
IV. HASIL DAN ANALISIS

Keterangan:
V. KESIMPULAN DAN SARAN
TF (d, t) adalah frekuensi munculnya term t pada
dokumen d.
ACKNOWLEDGMENT
2. Inverse Documents Frequency(IDF)
Pembobotan menganggap bahwa term yang sering The preferred spelling of the word “acknowledgment” in
muncul kurang informatif dibanding term yang jarang America is without an “e” after the “g.” Try to avoid the
muncul. Sehingga pembobotan ini memanfaatkan stilted expression, “One of us (R. B. G.) thanks …” Instead,
document frequency (DF) sebagai komponen try “R.B.G. thanks …” Put sponsor acknowledgments in the
perhitungan. DF berisi jumlah dokumen yang unnumbered footnotes on the first page.
didalamnya terdapat term t. Semakin sering muncul,
maka term tersebut dianggap kehilangan keunikannya
dan tidak merepresentasikan topik dari dokumen.
Rumus IDF dapat dilihat pada persamaan 2 sebagai
berikut:
𝑁 REFERENCES
𝐼𝐷𝐹(𝑡) = 𝑙𝑜𝑔 (2)
df (𝑡)
Keterangan: [1] G. Eason, B. Noble, and I.N. Sneddon, “On certain integrals of
Lipschitz-Hankel type involving products of Bessel functions,” Phil.
N: jumlah dokumen. Trans. Roy. Soc. London, vol. A247, pp.529-551, April 1955.
df (t): jumlah dokumen yang mengandung kata t. [2] J. Clerk Maxwell, A Treatise on Electricity and Magnetism, 3rd ed., vol.
2. Oxford: Clarendon, 1892, pp.68-73.
3. Kombinasi TF.IDF [3] I.S. Jacobs and C.P. Bean, “Fine particles, thin films and exchange
anisotropy,” in Magnetism, vol. III, G.T. Rado and H. Suhl, Eds. New
Ini adalah pembobotan yang paling populer dan sering York: Academic, 1963, pp.271-350.
digunakan untuk pengolahan data teks. Pembobotan ini [4] K. Elissa, “Title of paper if known,” unpublished.
menggabungkan pembobotan TF yang menjadikan [5] R. Nicole, “Title of paper with only first word capitalized,” J. Name
dokumen sebagai titik acuan secara parsial dengan IDF Stand. Abbrev., in press.
[6] Y. Yorozu, M. Hirano, K. Oka, and Y. Tagawa, “Electron spectroscopy
yang mengacu pada seluruh dokumen yang ada. studies on magneto-optical media and plastic substrate interface.” IEEE
Kombinasi ini akan membuat kata yang sering muncul Transl. J. Magn. Japan, vol. 2, pp.740-741, August 1987 [Digests 9th
pada sebuah dokumen tapi jarang muncul di dokumen Annual Conf. Magnetics Japan, p.301, 1982].
lain, akan memiliki bobot yang tinggi. Namun tidak [7] M. Young, The Technical Writer’s Handbook. Mill Valley, CA:
University Science, 1989.
untuk kata yang frekuensi kemunculannya tinggi, dan
ada di seluruh dokumen, bobotnya akan rendah karena
tidak unik, sehingga akan menghasilkan pembobotan
yang proporsional. Formula untuk metode ini terdapat
pada persamaan 2.4 berikut ini:
!". $%" &, ( = !" &, ( . $%"(() (3)

Anda mungkin juga menyukai