Anda di halaman 1dari 2

Identifikasi Kesalahan Penulisan Kata (Typographical Error) pada

Dokumen Berbahasa Indonesia Menggunakan Metode N-gram dan


Levenshtein Distance
Metode Levenshtein Distance digunakan untuk mendeteksi
banyaknya kandidat kata sesuai dengan typographical error yang sudah teridentifikasi. Dikarenakan
kandidat kata hasil dari Levenshtein Distance masih belum terurut, metode N-gram digunakan untuk
mengurutkan kandidat kata berdasarkan nilai cosine similarity. Di dalam penelitian ini, nilai N pada
N-gram yang digunakan adalah 2 sehingga pada prosesnya, N-gram melakukan pemisahan setiap dua
karakter pada kata yang teridentifikasi sebagai typographical error beserta kandidat katanya. Setelah
karakter dipisah, perhitungan tf-idf digunakan untuk mendapatkan nilai cosine similarity. Dari hasil
pengujian sistem, didapatkan nilai presisi terbaik sebesar 0.97 pada uji coba typographical error jenis
insertion dan untuk nilai recall terbaik sebesar 1 yang didapatkan dari hasil uji coba typographical
error jenis substitution.

Deteksi Kesalahan Ejaan dan Penentuan Rekomendasi Koreksi Kata yang


Tepat Pada Dokumen Jurnal JTIIK Menggunakan Dictionary Lookup dan
Damerau-Levenshtein Distance
Pada skenario pengujian jumlah kesalahan ejaan kata didapatkan nilaipresisi dan recall terbaik
sebesar 0.76 dan 0.99. sedangkan nilai presisi dan recall terbaik sebesar 0.78 dan 1. Berdasarkan hasil
pada kedua skenario menunjukkan bahwa nilai recall lebih tinggi daripada nilai presisi. Hasil tersebut
menunjukkan bahwa semua koreksi kata yang diharapkan berhasil diambil oleh sistem sebagai hasil
koreksi kata. Selain itu berdasarkan hasil pengujian yang didapatkan, jumlah kesalahan ejaan kata dan
jumlah kata dalam dokumen tidak terlalu berpengaruh secara signifikan terhadap kinerja koreksi
sistem. Hasil koreksi kesalahan kata lebih dipengaruhi oleh kelengkapan kata pada kamus sebagai
acuan kandidat koreksi kata dan tipe kesalahan ejaan kata.

Perbaikan Ejaan Kata pada Dokumen Bahasa Indonesia dengan Metode


Cosine Similarity
Pada penelitian ini dilakukan perbaikan kata pada dokumen bahasa Indonesia berbasis kemiripan kata
menggunakan metode n-gram dan cosine similarity. Proses dimulai dengan melakukan pembentukan
data latih dengan metode n-gram dalam pemotongan sejumlah kata. Pada proses pengujian dilakukan
tahapan pra proses terlebih dahulu dan dilakukan pengecekan kata berdasarkan kamus kata dan data
latih yang ada. Kata yang diasumsi salah dilakukan perbaikan kata dengan mencari kemiripan katanya
dengan metode n-gram dan cosine similarity. Hasil kemiripan kata yang tertinggi disesuaikan dengan
data latih, bila tidak sesuai maka kata dengan kemiripan tertinggi dianggap kata benar yang dilakukan
perbaikan. Pada penelitian ini hasil percobaan dari 3 tingkatan kesalahan kata yaitu 20 %, 50 %, dan
70 % dengan masing-masing 20 dokumen menghasilkan perbaikan kata yang tepat diatas 70 %. Hasil
penelitian dapat dilihat bahwa perbaikan kata sangat bergantung pada kamus kata trigram dan latih
yang ada. Ini menunjukkan bahwa metode n-gram dan cosine similarity baik dalam penelitian ini.

Koreksi Ejaan Istilah Komputer Berbasis Kombinasi Algoritma Damerau


Levenshtein dan Algoritma Soundex
Berdasarkan hasil pengujian, Algoritma Damerau-Levenshtein tidak bisa dikatakan lebih baik
dari algoritma Soundex begitu pula sebaliknya, sistem yang didalamnya terdapat algoritma
DamerauLevenshtein yang dikombinasikan dengan algoritma Soundex dapat meningkatkan
kemampuan dalam pengkoreksian ejaan istilah komputer dengan persentasi keberhasilan
sebesar 92% dengan menggunakan kata kunci yang mempunyai bunyi yang sama dengan
kata sumber. Selama bunyi dan karakter pertama dari kata kunci sama dengan kata sumber maka
efektivitas algoritma Soundex sedikit lebih baik dibandingkan dengan algoritma Damerau-Levenstein,
dengan tingkat keberhasilan sebesar 74% sedangkan tingkat keberhasilan Damerau-Levenstein
sebesar 70%, kombinasi dari algoritma DamerauLevenstein dan algoritma Soundex terbukti dapat
meningkatkan tingkat akurasi koreksi ejaan untuk istilah komputer, dengan tingkat akurasi sebesar
92% sedangkan 2% Damerau-Levenstein dan Soundex menyarankan kata atau istilah komputer yang
tidak relevan

Anda mungkin juga menyukai