AEK 03RakhmadMaulidi
AEK 03RakhmadMaulidi
net/publication/311532738
CITATIONS READS
0 1,144
1 author:
Rakhmad Maulidi
STIKI (Sekolah Tinggi Informatika & Komputer Indonesia), Malang, Indonesia
4 PUBLICATIONS 0 CITATIONS
SEE PROFILE
Some of the authors of this publication are also working on these related projects:
All content following this page was uploaded by Rakhmad Maulidi on 09 December 2016.
Abstrak — Bahasa Madura memiliki morfologi yang unik dan komplek baik dari sisi sosiolinguistik, morfologi dan
fonologi, dari sisi fonologi bahasa Madura memiliki fonem yang unik pada vokal dan konsonan. Stemming
merupakan teknik ekstrasi suatu kata yang memiliki imbuhan dengan tujuan untuk mendapatkan kata dasarnya.
Algoritma Enhanced Confix Stripping Stemmer (ECS) untuk teks berbahasa Indonesia yang memiliki tingkat
keakuratan yang tinggi, algoritma ini akan dimodifikasi pada rule base-nya disesuaikan dengan morfologi bahasa
Madura, selanjutnya akan diujicoba dengan menggunakan data uji berupa teks/puisi berbahasa Madura dan
akhirnya akan dievaluasi hasilnya dari tingkat akurasi, precison, recall dan F-Measure.
Prosiding Seminar Nasional FDI 2016, hal : AEK 12–15. ISSN. 2460-5271 AEK 12
dengan morfologi bahasa Madura, dataset yang
digunakan adalah kata-kata dalam dialek Sumenep,
Pamekasan dan Bangkalan yakni dialek paling sering
digunakan di dalam bahasa Madura, yakni kata-kata
dari puisi berbahasa Madura, pemilihan puisi sebagai
dataset/datauji karena variasi kata-katanya lebih
beragam, terutama kata yang mengandung sisipan.
Prosiding Seminar Nasional FDI 2016, hal : AEK 12–15. ISSN. 2460-5271 AEK 13
4. Tandhuk, yakni imbuhan yang meluruhkan kata Stopword, yakni kumpulan kata dalam bahasa
dasarnya, diantaranya: ma-, na-, nya-, nga-, Madura yang kurang memiliki arti atau tidak
contoh: masang (memasang), mukka’(membuka), relevan, seperti kata tanya, kata petunjuk, kata
noles (menulis), namen (menanam), nyaba’ sambung, dll. kumpulan kata ini nantinya akan
(menaruh), nyokor (mencukur), ngarang digunakan sebelum proses stemming dilakukan.
(mengarang), ngakan (memakan) (c) Data kamus, yakni kumpulan kata diluar data
5. Sisipan(sesselan), yakni kata yang mendapatkan stopword, kumpulan kata ini terdiri dari kata
sisipan di tengah kata dasar misalnya: al, ar, en, kerja, kata sifat, kata benda, dll.
om, um, contoh: bhâlâtra(menjadi rata), karépé’ B. Pengembangan Algoritma Stemming
(terhimpit), pénalang (penghalang), Tahapan ini merupakan inti dari penelitian ini,
tomekka(terkabul), ghumancang(cepat). yakni tahap pengembangan algoritma stemming
6. Kata ulang / Reduplikasi (oca’ rangkebbhân) untuk bahasa Madura. Terdapat dua jenis
pada bahasa Madura terdiri dari tiga-macam kata algoritma stemmer yang dijadikan rujukan utama,
ulang, yaitu: (a) Kata ulang sempurna (Oca’ yakni algoritma stemmer Tala yang tidak berbasis
rangkep buto), yakni kata ulang dengan kamus dan algortima stemmer Enhanced Confix
pengulangan penuh pada bentuk kata dasarnya, Stripping Stemmer yang berbasis kamus.
contoh: kéra-kéra (kira-kira), moghâ-moghâ C. Pengujian
(moga-moga); (b) Kata ulang depan (Oca’ Pada tahapan ini dilakukan pengujian terhadap
rangkep ada’), yakni kata ulang tidak sempurna algoritma yang dikembangkan pada tahap
yang suku kata depan diambil untuk diulang, sebelumnya, pengujian dilakukan dengan
contoh: lalaké (laki-laki), papareng(pemberian). menggunakan sebagian dataset yang sudah
(c) Kata ulang belakang(Oca‟ rangkep budhi), disiapkan pada tahap pertama. Penggunaan
yakni kata ulang tidak sempurna yang suku kata sebagian data untuk pengujian bertujuan untuk
belakang diambil untuk diulang, contoh: mempermudah proses debuging dari algoritma
ca‟oca‟(kata-kata), nibenni(bukan-bukan) yang dikembangkan, yakni menemukan
kesalahan pada algoritma sehingga bisa
III. PENELITIAN TERKAIT diperbaiki sehingga menghasilkan algoritma yang
Penelitian tentang stemming bahasa Indonesia paling optimal.
sudah banyak dilakukan, yakni dengan menggunakan D. Evaluasi
pendekatan rule base tanpa menggunakan kamus Tahapan ini merupakan pengujian lanjutan dari
sebagai acuan [9] [10]. Penelitian lain yang algoritma yang dikembangkan dengan
menggunakan kamus sebagai acuan dilakukan oleh menggunakan dataset yang jauh lebih banyak
Nazief dan Adriani dan disempurnakan oleh Jelita dibandingkan pada tahap pengujian, pada tahap
Asian dengan nama Confix-Stripping [8]. Perbaikan ini akan dihitung tingkat akurasinya yakni
Confix-Stripping dengan nama Enhanced Confix prosentase dari total kata yang benar
Stripping Stemmer dilakukan oleh Arifin dkk [7]. dibandingkan jumlah total kata yang diuji coba,
Penelitian stemming bahasa Daerah lebih sedikit persamaannya sebagai berikut:
dilakukan jika dibandingkan stemming bahasa
Indonesia, yakni penelitian stemming bahasa Jawa
dilakukan oleh Amin, dkk [11] serta Madia [12] Selain itu akan dihitung nilai precison-nya, yaitu
dengan menggunakan Rule Based Approach, nilai perbandingan jumlah dokumen relevan dari
penelitian stemming bahasa Sunda oleh Junaedi dkk hasil pencarian oleh sistem terhadap jumlah total
[13] dan Purwoko [14] dengan menggunakan dokumen relevan maupun tidak relevan hasil
dictionary approach, sedangkan penelitian stemming pencarian/stem, persamaannya sebagai berikut:
bahasa Madura dilakukan oleh Sholihin dkk [6]
dengan menggunakan Enhanced Confix Stripping
Selanjutnya akan dihitung nilai recall-nya yaitu
Stemmer.
perbandingan jumlah dokumen relevan dari hasil
pencarian/stem terhadap jumlah total dokumen
IV. METODOLOGI
relevan dalam relevan set, persamaannya sebagai
Metodologi dalam penelitian ini, terdiri dari
berikut:
empat tahapan utama, yaitu:
A. Pengumpulan data
Data yang akan disiapkan terdiri dari (a) Dataset, F-Measure, merupakan parameter keberhasilan
yakni data yang akan digunakan untuk menguji retrieval yang menggabungkan nilai recall dan
model stemming yang akan dikembang, data ini precision, range nilai dari F-measure antara 0
berasal dari kumpulan puisi berbahasa Madura, sampai 1, persamaannya sebagai berikut:
pemilihan puisi sebagai dataset karena diksi yang
digunakan dalam puisi lebih bervariasi. (b) Data
Prosiding Seminar Nasional FDI 2016, hal : AEK 12–15. ISSN. 2460-5271 AEK 14
Evaluasi terhadap hasil stemming berdasarkan untuk stemmer bahasa Madura dengan melakukan
tingkat akurasi, precision, recall dan f-measure penyesuaian pada rule base-nya sesuai dengan
merupakan pendekatan yang diajukan oleh morfologi bahasa Madura.
Powers [15].
DAFTAR PUSTAKA
V. DISKUSI
Metode Enhanced Confix Stripping Stemmer [1] Ethnologue.com, “Languages of Indonesia An Ethnologue
Country Report,” 7 11 2016. [Online]. Available:
mungkin bisa diterapkan untuk melakukan proses
https://www.ethnologue.com/country/ID/languages.
stemming teks berbahasa Madura dengan melakukan
[2] Republika.co.id, “139 Bahasa Daerah di Indonesia
modifikasi rule base yang disesuaikan dengan Terancam Punah,” 7 11 2016. [Online]. Available:
morfologi bahasa Madura, pemilihan metode ini http://nasional.republika.co.id/berita/nasional/umum/16/08/
karena bahasa Madura masih satu rumpun dengan 02/ob9t2h383-139-bahasa-daerah-di-indonesia-terancam-
bahasa Indonesia [5] dan juga metode ini sudah punah.
terbukti bisa digunakan untuk stemming dokumen [3] A. Sofyan, “Perilaku Dan Makna Verba Dalam Bahasa
Madura,” Humaniora, pp. 333 - 344, 2012.
berbahasa Indonesia [7], dokumen berbahasa Sunda
[4] B. dan I. Y. Fiandarti, Kosa Kata Bhasa Madhura Lengkap,
[13] [14] dan dokumen berbahasa Madura [6]. Surabaya: Karya Simpati Mandiri, 2009.
Bahasa Madura secara sosiolinguistik memiliki
[5] A. Sofian, “Beberapa Keunikan Linguistik Bahasa
delapan tingkat tutur, yang terdiri dari empat tingkat Madura,” Humaniora, Volume 19, pp. 232 - 240, 2007.
tutur utama dan empat tingkat tutur turunan, serta [6] A. Sholihin, F. Solihin dan F. H. Rachman, “Penerapan
memiliki enam dialek yang terdiri empat dialek Modifikasi Metode Enhanced Confix Stripping Stemmer
utama dan dua dialek tambahan [3] [4], penelitian Pada Teks Berbahasa Madura,” Jurnal Sarjana Teknik
stemmer bahasa Madura yang menggunakan metode Informatika Vol. 2, No. 1, pp. 305-324, 2013.
ECS yang dilakukan hanya sebatas menggunakan [7] A. Z. Arifin, I. P. A. K. Mahendra dan H. T. Ciptaningtyas,
“Enhanced Confix Stripping Stemmer And Ants Algorithm
bahasa Madura dialek Bangkalan dan menggunakan For Classifying News Document In Indonesian Language,”
data uji yang terbatas, yakni hanya 400 kata. dalam The 5th International Conference on Information &
Pengujian suatu algoritma stemmer dengan Communication Technology and Systems, Irbid, Jordan,
menggunakan data uji dalam jumlah besar dan 2014.
bervarisi akan menunjukkan kualitas algoritma [8] M. Adriani, J. Asian, B. Nazief, S. Tahaghoghi dan H. E.
tersebut, sehingga algortima tersebut bisa dilakukan Williams, “Stemming Indonesian : A Confix-Stripping
Approach,” ACMTransactions onAsian Language
evaluasi untuk diukur tingkat akurasinya atau error InformationProcessing, Vol. 6,No. 4,Article 13, pp. 13-33,
rate-nya secara statistik dengan menggunakan 2007.
metode/pendekatan tertentu, misalnya dengan [9] F. Z. Tala, “A Study of Stemming Effects on Information
menggunakan pendekatan yang diajukan oleh Powers Retrieval in bahasa Indonesia,” Institut for logic, Language
[15] dengan mengukur nilai akurasi, precision, recall and Computation Universiteit van Amsterdam The
Netherlands, Amsterdam, 2003.
dan f-measure.
[10] V. Vega, “Information retrieval for the Indonesian
Minimnya jumlah penelitian stemming bahasa language,” National Uni- versity of Singapore, Singapore,
Madura dan hanya terbatas pada satu dialek saja 2001.
yang melatar belakangi rencana penelitian ini, [11] F. Amin, Purwatiningtyas, P. Utomo, S. Ramadhanu dan S.
sehingga perlu diteliti lebih dalam tentang stemming E. Cahya, ““Stemmer Bahasa Jawa Ngoko dengan Metode
bahasa Madura yang bisa digunakan untuk dialek Affix Removal Stemmers (Rule Based Approach),”
lainnya, terutama dialek utamanya yang banyak Fakultas Teknologi Informasi Universitas Stikubank
(Unisbank) Semarang., Semarang, 2016.
digunakan oleh masyarakat pengguna bahasa Madura,
[12] M. Madia, “Stemming Bahasa Jawa Untuk Mencari Akar
sehingga diharapkan hasil dari rencana penelitian ini Kata Dalam Bahasa Jawa Dengan Aturan Analisis
yakni algoritma stemming bahasa Madura bisa Kontrasif Afiksasi Verba,” Jurusan Teknik Informatika
dimanfaatkan untuk penelitian lainnya, misalnya Fakultas Sains Dan Teknologi Universitas Islam Negeri
untuk klasifikasi, translasi/terjemahan atau ringkasan Maulana Malik Ibrahim, Malang, 2016.
dokumen bahasa Madura secara otomatis seperti [13] D. Junaedi, I. O. Herlistiono dan D. Akbar, “Stemmer for
"Basa Sunda",” dalam Seminar Nasional Ilmu Komputer
yang dilakukan pada bahasa Indoneasia [8]. Universitas Diponegoro, Semarang, 2010.
[14] A. Purwoko, “Model Stemming Berbasis Kamus Untuk
VI. KESIMPULAN Dokumen Berbahasa Sunda,” Sekolah Pascasarjana Institut
Stemming merupakan sebuah teknik yang Pertanian Bogor Bogor, Bogor, 2011.
penting dalam information retrieval, dimana teknik [15] D. M. W. Powers, “Evaluation: from precision, recall and
tersebut bisa digunakan dalam proses klasifikasi, F-measure to ROC, informedness, markedness and
translasi atau ringkasan dokumen secara otomatis. correlation,” International Journal of Machine Learning
Technology Volume 2 Issue 1, pp. 37-63, 2011.
Bahasa Madura merupakan salah satu bahasa Daerah
yang memiliki tingkat kompleksitas yang beragam
terutama dari sisi morfologinya. Metode Enhanced
Confix Stripping Stemmer memungkinkan digunakan
Prosiding Seminar Nasional FDI 2016, hal : AEK 12–15. ISSN. 2460-5271 AEK 15