Anda di halaman 1dari 9

Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer e-ISSN: 2548-964X

Vol. 1, No. 6, Juni 2017, hlm. 498-506 http://j-ptiik.ub.ac.id

Deteksi Kesalahan Ejaan dan Penentuan Rekomendasi Koreksi Kata yang


Tepat Pada Dokumen Jurnal JTIIK Menggunakan Dictionary Lookup dan
Damerau-Levenshtein Distance
Tusty Nadia Maghfira1, Imam Cholissodin2, Agus Wahyu Widodo3

Program Studi Teknik Informatika, Fakultas Ilmu Komputer, Universitas Brawijaya


Email: 1tustynadia@gmail.com, 2imamcs@ub.ac.id, 3a_wahyu_w@ub.ac.id

Abstrak
Menulis merupakan sarana penyampaian dan bertukar informasi antar manusia. Kegiatan tersebut saat
ini semakin mudah dilakukan dengan adanya perangkat canggih dan internet. Salah satu contohnya yaitu
penulisan dan publikasi jurnal penelitian yang dibuat untuk mengembangkan ilmu pengetahuan.
Publikasi jurnal penelitian umumnya ditampung oleh lembaga pendidikan baik nasional maupun
internasional, salah satunya yaitu website JTIIK (Jurnal Teknologi Informasi & Ilmu Komputer)
Fakultas Ilmu Komputer UB. Sebelum dipublikasi, jurnal yang masuk harus melalui tahap editing untuk
mengoreksi apabila ada kesalahan dan kekurangan seperti adanya kesalahan ejaan kata. Namun, dalam
kerjanya seorang editor juga dapat melakukan kesalahan yang berdampak dengan masih adanya
kesalahan setelah editing. Adanya kesalahan ejaan kata dapat mengubah makna pengetahuan yang
disampaikan penulis dan menimbulkan salah pemahaman informasi pada pembaca. Berdasarkan
pemasalahan tersebut, peneliti bermaksud membantu kerja editor dalam analisis jurnal dengan
mengusulkan sebuah sistem deteksi dan koreksi kesalahan ejaan kata menggunakan metode Dictionary
Lookup dan Damerau-Levenshtein Distance. Metode Dictionary Lookup dinilai efektif dalam
menentukan suatu ejaan kata bernilai benar atau salah berdasarkan Lexical Resource. Selain itu metode
Damerau-Levenshtein Distance dapat mengoreksi kesalahan penulisan kata dengan tepat dan lebih
unggul dibandingkan Levenshtein Distance. Hasil pengujian koreksi terbaik didapatkan pada skenario
pengujian kedua yaitu presisi sebesar 0.78 dan recall sebesar 1.
Kata Kunci: koreksi kata bahasa Indonesia, non-word error, kesalahan ejaan, deteksi kesalahan ejaan, koreksi
kesalahan ejaan, dictionary lookup, damerau-levenshtein distance
Abstract
Writing is a way to deliver and share information among people. It is now even easier to do because of
the help of technology such as computers, smartphones and internet. For example, writing and
publication of research journal is made to share and enhance knowledge. Generally, the publication of
research journal is accommodated by educational institutions both national and international such as
JTIIK (Jurnal Teknologi Informasi & Ilmu Komputer) Faculty of Computer Science UB. Before journal
is published, a journal should pass editing process by editor to check if there is some mistake and
deficiency such as spelling error. However, in their work, editor also accidentally making mistake that
will lead to many error spelling that still exist even though editing process has been done. Some
misspelled word can change the meaning of knowledge that the author want to deliver and cause
misunderstanding of information among the readers. Based on these problems, researcher propose
error spelling detection and correction system using Dictionary Lookup and Damerau-Levenshtein
Distance. Dictionary Lookup method is considered effective in determining a word including validity or
invalidity of the word based on availability or unavailability of the word in Lexical Resource. In
addition, Damerau-Levenshtein Distance can provide better correction than Levenshtein Distance. The
best precision and recall result for correction simultaneously are 0.78 and 1 from second test scenario.
Keywords: Indonesian spell checker, non-word error, spelling error, spelling error detection, spelling error
correction, dictionary lookup, damerau-levenshtein distance

Fakultas Ilmu Komputer


Universitas Brawijaya 498
Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer 499

bidang Teknologi Informasi dan Ilmu Komputer


1. PENDAHULUAN yang belum pernah diterbitkan di media
Kegiatan tulis menulis sebagai media manapun. Setiap jurnal yang masuk, diwajibkan
komunikasi dan informasi dalam peradaban untuk melalui tahap editing untuk mengecek
manusia telah dikenal lama yaitu sejak masa apabila ada kekurangan dan kesalahan pada
sebelum Masehi. Pada masa tersebut, manusia jurnal seperti adanya kesalahan ejaan kata atau
berkomunikasi hanya dengan membuat tulisan informasi yang belum lengkap. Namun seperti
gambar (hieroglif) dan simbol-simbol pada manusia pada umumnya, seorang editor dalam
berbagai objek di alam seperti pada batu, kayu, tugasnya juga tidak luput dari kesalahan yang
daun, dan dinding-dinding gua (Muradmaulana, tidak disengaja. Kesalahan ejaan kata dapat saja
2014). Namun, seiring waktu berjalan tradisi ditemukan lagi setelah tahap editing dikarenakan
tulis menulis pun juga ikut mengalami kealpaan editor atau pengetahuan yang kurang
perkembangan. Di awal Masehi, manusia mulai terhadap penulisan ejaan kata yang paling
menemukan kertas serta mengenal bermacam update dan sesuai dengan KBBI. Selain itu
bahasa dan huruf berdasarkan daerah mereka seorang editor lebih berfokus pada kesalahan
tinggal. Tidak berhenti sampai disitu, hingga besar terkait isi jurnal sehingga proses deteksi
sampai saat ini di mana perkembangan teknologi kesalahan ejaan kata dapat luput dari
semakin canggih di mana masyarakat mulai pengecekan. Padahal hal kecil seperti kesalahan
banyak menggunakan komputer, smartphone ejaan kata dapat berpengaruh terhadap informasi
dan internet, budaya tulis menulis juga terus dan pengetahuan yang disajikan dalam jurnal.
berkembang. Hanya saja penggunaan kertas Kemudian waktu pengecekan dokumen yang
mulai berkurang dan beralih pada tulis menulis terbatas dan banyaknya naskah jurnal yang
menggunakan media-media canggih seperti masuk dengan jumlah halaman yang berbeda-
komputer dan smartphone. Contohnya banyak beda memungkinkan editor kurang teliti dan
berbagai diktat kuliah, jurnal, dan ilmu cenderung tergesa-gesa dalam menganalisis
pengetahuan yang disimpan dalam electronic dokumen. Kesalahan penulisan ejaan kata yang
book (E-book), berita dan surat kabar yang fatal dapat mengubah makna pengetahuan yang
tersaji dalam website-website, serta surat ingin disampaikan penulis dalam jurnalnya dan
menyurat dengan menggunakan electronic mail menimbulkan penyerapan informasi yang salah
(email). pada pembaca. Oleh karena itu untuk membantu
Dengan penggunaan komputer, kerja tim editor dalam melakukan editing
smartphone dan internet yang saat ini semakin dibutuhkan suatu sistem otomatis yang dapat
luas tersebut, memberikan lebih banyak mendeteksi apabila ada kesalahan ejaan kata
kemudahan bagi masyarakat dalam kegiatannya pada jurnal serta memberikan rekomendasi
sehari-hari termasuk kegiatan yang melibatkan kandidat kata yang benar untuk kata yang salah
tulis menulis. Hal tersebut mendorong ejaan tersebut.
meningkatnya jumlah masyarakat yang mampu Banyak peneliti yang terdorong untuk
menulis dengan baik sehingga permintaan melakukan penelitian guna menentukan solusi
dokumen tertulis pun juga ikut meningkat pada permasalahan dengan menyusun aplikasi
berbagai aspek (N et al. 2011). Salah satunya automatic spell checker. Salah satu penelitian
yaitu pada bidang pendidikan. Banyak peneliti di tentang deteksi dan koreksi adalah deteksi dan
kalangan mahasiswa, ilmuan dan dosen yang koreksi non-word error kata Bahasa Indonesia
berlomba-lomba dalam menyumbangkan idenya dilakukan oleh Soleh & Purwarianti pada tahun
untuk peningkatan pendidikan dan teknologi 2011 dengan menggunakan metode Dictionary
melalui penyusunan jurnal penelitian. Jurnal Lookup untuk deteksi dan untuk proses koreksi
penelitian umumnya berisi usulan solusi yang menggunakan metode Probability of Similarity
baru atau perbaikan dari solusi yang sudah ada dan Forward Reversed Dictionary sebagai
terhadap suatu masalah. Banyak lembaga baik pembanding. Hasil menunjukkan bahwa metode
nasional maupun internasional yang Probability of Similarity lebih unggul dengan
menyediakan wadah bagi peneliti untuk nilai akurasi sebesar 98.55%. Berdasarkan latar
mengakses dan mengusulkan jurnal, salah belakang masalah yang ada dan analisis penulis
satunya yaitu website JTIIK (Jurnal Teknologi terhadap penelitian sebelumnya, penulis
Informasi & Ilmu Komputer) FILKOM UB. mengusulkan penelitian untuk deteksi dan
JTIIK memuat naskah hasil-hasil penelitian di penentuan rekomendasi kandidat kata yang

Fakultas Ilmu Komputer, Universitas Brawijaya


Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer 500

benar pada dokumen jurnal yang diusulkan pada analisis teks yang ingin dilakukan. Setelah
JTIIK menggunakan teknik Dictionary Lookup preprocessing selesai, data teks dapat
untuk deteksi kesalahan kata dan koreksi dilanjutkan pada proses analisis untuk
kesalahan menggunakan salah satu metode dari menentukan informasi penting pada teks. Pada
Minimum Edit Distance yaitu Damerau- Text Mining terdapat beberapa kategori analisis
Levenshtein Distance. Penulis berharap sistem teks yang umum digunakan meliputi:
ini dapat membantu editor jurnal dalam pengorganisasian dan clustering dokumen,
mendeteksi dan memberikan rekomendasi klasifikasi dokumen, Information Extraction
kandidat koreksi kesalahan kata yang tepat pada (IE), Web Mining, Named Entity Recognition
kesalahan penulisan ejaan kata yang tanpa (NER), Natural Language Processing (NLP),
sengaja sering dilakukan oleh manusia dan dapat Information Retrieval (IR). Analisis teks yang
menambah wawasan pengetahuan terutama di berperan penting dalam proses deteksi dan
bidang Text Mining. koreksi kesalahan penulisan kata yaitu Natural
Language Processing (NLP) dan Information
2. DASAR TEORI Retrieval (IR).

2.1. Text Mining 2.2. Natural Language Processing (NLP)


Text Mining merupakan proses pencarian Natural Language Processing (NLP)
pola atau penggalian informasi dari data teks merupakan salah satu komponen dari Text
untuk menghasilkan informasi baru. Tujuan dari Mining yang berfokus pada hubungan antara
text mining adalah menemukan informasi yang komputer dan bahasa alami manusia. Tujuan dari
penting dari teks dengan mengubah teks menjadi NLP adalah untuk mendesain dan membangun
data yang dapat digunakan untuk analisis yang perangkat lunak yang dapat menganalisis,
lebih lanjut (Expertsystem, 2016). Berbeda memahami, dan menghasilkan bahasa manusia
dengan Data Mining, Text Mining mengolah yang dapat digunakan secara alami, sehingga
data berupa teks yang tidak terstruktur, tidak saat berkomunikasi dengan komputer seakan-
memiliki bentuk, dan sulit ditangani secara akan berkomunikasi dengan manusia lain
algoritme (Witten 2002). Oleh karena itu pada (Mishra & Kaur 2013). Dalam mencapai tujuan
proses Text Mining memerlukan beberapa tahap tersebut NLP menggunakan beberapa metode
awal (preprocessing) yang bertujuan untuk yaitu Automatic Summarization, Part-of-Speech
mempersiapkan agar teks dapat diubah menjadi Tagging, Disambiguation, Machine Translation,
bentuk yang lebih terstruktur. Beberapa tahapan Parsing, Optical Recognition, dan Question
dari preprocessing yaitu: Answering. Kerja dari NLP membutuhkan basis
- Tokenisasi pengetahuan yang isinya konsisten dan benar
- Filtering seperti thesaurus, lexicon of words, dan berbagai
- Stemming macam data set lainnya yang berisi aturan
Proses tokenisasi merupakan proses linguistik dan gramatikal yang valid dan terbaru
pemisahan setiap kata dari dokumen. Pada (Expertsystem, 2016). Aplikasi Text Mining
proses ini juga dilakukan penghilangan angka tidak dapat terpisah dengan konsep NLP karena
dan simbol pada dokumen yang dinilai tidak secara tidak langsung NLP bekerja pada
berpengaruh terhadap pengambilan informasi background aplikasi untuk membantu sistem
dari dokumen. Selain itu juga dilakukan dapat membaca teks. Suatu aplikasi text mining
pengubahan setiap huruf menjadi huruf kecil. yang menggunakan konsep NLP, tidak hanya
Selanjutnya hasil proses tokenisasi berupa aplikasi pencarian yang sederhana
diseleksi lagi dengan menghilangkan kata-kata memberikan daftar hasil pencarian yang sesuai
tidak penting (stop word). Proses ini disebut namun juga memberikan informasi detil tentang
sebagai proses filtering. teks tersebut dan mengungkap pola dari
Hasil dari proses filtering diproses lagi pada dokumen pada data set.
tahap selanjutnya yaitu proses stemming
(mengubah setiap kata menjadi kata dasar). 2.3. Information Retrieval (IR)
Dari beberapa tahapan preprocessing yang
Information Retrieval (IR) adalah aktivitas
sebelumnya dijelaskan, tidak semua tahapan
untuk memperoleh sumber informasi (biasanya
harus dilaksanakan. Tahapan preprocessing
dokumen) dari sebuah data tidak terstruktur
yang dilakukan bergantung pada kebutuhan
(biasanya teks) yang relevan atau memenuhi

Fakultas Ilmu Komputer, Universitas Brawijaya


Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer 501

kebutuhan informasi dari sebuah data berukuran pemanfaatan IR yang dapat dijumpai dalam
besar (biasanya tersimpan pada komputer) kehidupan sehari-sehari. Salah satu institusi
(Manning et al. 2009). IR didesain untuk yang mengadopsi sistem IR adalah
memfasilitasi pengguna dalam mendapatkan perpustakaan. Penggunaan IR pada perpustakaan
kembali informasi yang behubungan dengan apa terletak pada sistem pencarian buku, jurnal atau
yang dibutuhkan pengguna secara efektif dan majalah pada komputer yang memungkinkan
efisien (Liyana et al. 2010). Di dalam sistem IR pencarian berdasarkan judul dan nama
menggabungkan metode penyimpanan, pengarang. Hasil dari pencarian akan
indeksasi, filtering, pengorganisasian, pencarian menampilkan sejumlah daftar buku, jurnal atau
dan menampilkan informasi. Berikut ini adalah majalah yang terdaftar pada sistem perpustakaan
fungsi utama sistem IR: Selain itu penerapan lain dari IR yang umum
- Untuk mengidentifikasi sumber digunakan yaitu pada web search engine.
informasi yang relevan dengan target
pengguna 2.4. Spelling Error
- Untuk menganalisis isi dari sumber Spelling error merupakan keadaan di mana
dokumen terjadi kesalahan penulisan susunan kata.
- Untuk merepresentasikan isi dari Berdasarkan sejarahnya, awalnya keadaan ini
berhubungan dengan kesalahan penulisan kata
sumber yang dianalisis sehingga dapat
secara manual, namun saat ini hal tersebut juga
sesuai dengan query dari pengguna dapat terjadi pada proses pengetikan yang
- Untuk menganalisis query pengguna dilakukan dengan bantuan mesin ketik dan
dan untuk merepresentasikannya ke komputer. Hal tersebut dapat terjadi dikarenakan
dalam bentuk yang sesuai dengan kesalahan mekanik atau keluputan tangan atau
database jari saat mengetik, selain itu terkadang juga
- Untuk mencocokkan statemen disebabkan oleh ketidaktahuan seseorang
tentang bagaimana pengejaan tulisan yang
pencarian dengan yang tersimpan dalam
benar.
database Berdasarkan jenis katanya spelling error
- Untuk mendapatkan kembali informasi dapat dibedakan menjadi 2 tipe yaitu non-word
yang relevan spelling error dan real-word spelling error.
- Untuk membuat pengaturan yang Non-word spelling error merupakan kesalahan
dibutuhkan dalam sistem berdasarkan penulisan kata di mana kata tersebut tidak dapat
feedback dari pengguna. ditemukan dalam kamus (tidak memiliki
makna). Sedangkan real-word spelling error
Pada IR sebuah query tidak hanya merupakan kesalahan penulisan kata di mana
mengidentifikasi satu objek unik dalam kata tersebut dapat ditemukan dalam kamus
kumpulan data, melainkan satu query dapat (memiliki makna) namun bukan kata yang
sesuai dengan beberapa objek namun dengan dimaksud dalam dokumen (N et al. 2011).
derajat kesesuaian yang berbeda. Sebuah objek Dalam menangani non-word spelling error,
merupakan satu entitas yang merepresentasikan dibutuhkan kandidat kata real-word yang mirip
informasi dari kumpulan data atau database. dengan kata yang salah dengan ketentuan
Berbeda dengan hasil yang disajikan pada sistem memiliki nilai edit distance terpendek.
klasik query SQL database, hasil pada IR Sedangkan untuk mengatasi real-word spelling
disajikan dalam bentuk peringkat. Sistem IR error dibutuhkan kandidat kata dengan
pada umumnya melakukan komputasi untuk pengucapan pengejaan yang mirip.
menghitung seberapa besar nilai kecocokan
setiap objek yang ada di dalam database dengan 2.5. Error Spelling Detection
query, dan membuat sistem peringkat untuk hasil
tersebut berdasarkan hasil perhitungan. Hasil Error Spelling Detection merupakan proses
dengan peringkat tertinggi ditampilkan pada pengecekan validitas suatu kata dalam bahasa
pengguna dan dianggap sebagai hasil yang tertentu, suatu kata disebut valid jika kata
paling relevan. tersebut dapat ditemukan dalam lexical resource
Information Retrieval secara cepat (N et al. 2011). Lexical resource merupakan
mendominasi akses informasi, menggantikan database di mana data di dalamnya dapat berupa
metode pencarian tradisional database. Banyak corpus, lexicon, wordlist atau bentuk lain. Proses

Fakultas Ilmu Komputer, Universitas Brawijaya


Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer 502

utama dari error detection adalah metode yang dapat digunakan untuk koreksi
membandingkan kata dalam teks dengan kata non-word error antara lain rule based methods,
yang terdapat pada lexical resource. Banyak similarity key techniques, dan Minimum Edit
metode yang dapat digunakan untuk proses Distance yang terdiri dari metode Levenshtein,
deteksi kesalahan penulisan kata, namun yang Hamming, Damerau-Levenshtein, dan Longest
umumnya digunakan untuk deteksi non-word Common Subsequence (LCS). Pada penelitian
error adalah deteksi menggunakan Dictionary ini metode koreksi yang digunakan adalah
Lookup dan N-Gram Analysis. Damerau-Levenshtein.
Metode dictionary lookup merupakan
metode yang sering digunakan dalam 2.6.1 Damerau-Levenshtein Distance
menentukan non-word error. Proses yang Algoritme Damerau-Levenshtein Distance
dilakukan pada metode ini yaitu melakukan merupakan algoritme pengembangan dari
pengecekan apakah kata yang dimaksud algoritme Levenshtein Distance. Damerau-
terdaftar dalam kamus atau tidak, jika tidak ada Levenshtein Distance menentukan jumlah
maka kata ini dianggap sebagai non-word. Cara minimum operasi yang dibutuhkan untuk
ini termasuk cara yang efektif untuk menentukan mengubah satu string menjadi string lain, di
kata termasuk salah penulisannya atau tidak, mana operasi yang digunakan sama dengan
namun jumlah kata dalam kamus yang banyak Levenshtein Distance yaitu insertion, deletion,
dapat berakibat pada proses pengecekan menjadi substitution namun dengan penambahan operasi
lama, oleh karena itu dibutuhkan teknik optimasi transposition diantara dua karakter (Damerau
pada teknik pencarian kata. Teknik optimasi dalam Jupin, Shi, & Obradovic, 2013). Damerau
dapat dilakukan dengan penggunaan binary tidak hanya membedakan 4 operasi edit tersebut,
search dan hash seperti pada penelitian (Soleh & namun juga menyatakan bahwa operasi pada
Purwarianti 2011) dan (N et al. 2011). algoritme yang dikembangkan dapat sesuai
Permasalahan lain dari penggunaan kamus yaitu dengan sekitar 80% dari semua kesalahan
adanya kata yang sudah diberi imbuhan pada penulisan manusia. Setiap kesalahan berupa
kamus, serta adanya kata asing, turunan kata dan hilangnya karakter huruf, kelebihan karakter
kata baru yang tidak dapat diprediksi huruf, atau kesalahan urutan huruf dari dua
kemunculannya pada dokumen, selain itu pada karakter huruf yang berbeda (contoh: seharusnya
beberapa bidang seperti kesehatan, ekonomi, tertulis “ka”, diketik dengan “ak”) dianggap
biologi memiliki istilah khusus yang terkadang sebagai 1 kesalahan sedangkan pada Levenshtein
tidak ada dalam kamus umum. Menanggapi dianggap sebagai 2 kesalahan (Thang & Huy
masalah tersebut, untuk mendapatkan kata yang 2010).
relevan sesuai kebutuhan pengguna dibutuhkan Berikut ini merupakan perhitungan
domain specificity yaitu menentukan domain algoritme Damerau-Levenshtein Distance
atau tema dokumen secara spesifik. (Setiadi 2013).
2.6. Error Spelling Correction D[0,0]=0 (1)

Error spelling correction merupakan proses D[i,0]=i for i ∈ 0…m (2)


yang dilakukan setelah proses error spelling D[0,j]=j for j ∈ 0…n (3)
detection selesai. Setelah menentukan bahwa
suatu kata memiliki ejaan penulisan yang salah, if s[i]==t[j] then cost =0 else cost=1 (4)
pada proses ini dilakukan pencarian kata sebagai 𝐷[𝑖 − 1][𝑗] + 1
kandidat untuk mengoreksi kata yang salah ejaan D[i,j]=min { 𝐷[𝑖][𝑗 − 1] + 1 (5)
tersebut. Dalam mengatasi real-word error 𝐷[𝑖 − 1][𝑗 − 1] + 𝑐𝑜𝑠𝑡
dibutuhkan pengetahuan tambahan meliputi
if (i>1 and j>1 and s[i]==t[j-1] and s[j-1]
susunan kalimat yang benar dan sumber lain
untuk mengekstraksi konteks kalimat (N et al., ==t[i] then (6)
2011). Sedangkan pada non-word error tidak 𝐷[𝑖][𝑗]
membutuhkan pengetahuan dalam konteks D[i,j]=min { (7)
𝐷[𝑖 − 2][𝑗 − 2]
kebahasaan untuk mencari kandidat koreksi kata
karena dalam menentukan benar atau salahnya
ejaan kata dapat dilihat dari ada atau tidaknya
kata tersebut dalam lexical resource. Banyak

Fakultas Ilmu Komputer, Universitas Brawijaya


Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer 503

2.7. Penghitungan Kinerja Koreksi tidak dapat dipastikan berapa banyak dokumen
Kesalahan Penulisan Ejaan Kata yang tidak relevan yang juga dihasilkan pada
proses pencarian).
Perhitungan kinerja sistem koreksi kata
dilakukan dengan menggunakan metode presisi
3. PERANCANGAN DAN
dan recall. Presisi merupakan jumlah dokumen
IMPLEMENTASI
hasil retrieve sistem yang relevan, sedangkan
recall merupakan jumlah dokumen relevan yang Alur proses deteksi dan penentuan
dihasilkan dari proses retrieve sistem (Manning kandidat koreksi kesalahan ejaan kata
et al., 2009). Perhitungan presisi dan recall menggambarkan langkah-langkah koreksi
secara berturut-turut ditunjukkan pada kesalahan penulisan kata yang diawali
Persamaan 8 dan Persamaan 9. dengan proses deteksi kesalahan sampai
𝑇𝑃(𝑅𝑒𝑙𝑒𝑣𝑎𝑛𝑡 𝑅𝑒𝑡𝑟𝑖𝑒𝑣𝑒𝑑
Presisi= (8) dengan mendapatkan keluaran berupa
𝑇𝑃+𝐹𝑃(𝑅𝑒𝑡𝑟𝑖𝑒𝑣𝑒𝑑)
kandidat koreksi kesalahan ejaan kata yang
𝑇𝑃(𝑅𝑒𝑙𝑒𝑣𝑎𝑛𝑡 𝑅𝑒𝑡𝑟𝑖𝑒𝑣𝑒𝑑
Recall= (9) tepat. Dari sejumlah kandidat kata yang
𝑇𝑃+𝐹𝑁(𝑅𝑒𝑙𝑒𝑣𝑎𝑛𝑡)
Persamaan presisi dan recall pada dihitung nilai jaraknya terhadap kata yang
Persamaan 8 dan Persamaan 9 dapat disusun salah, sistem mengambil kata dengan nilai
dengan mengacu pada tabel kontingensi yang edit distance terkecil untuk dijadikan
ditunjukkan pada Tabel 1. sebagai keluaran dari sistem. Gambar 1
Tabel 1. Tabel Kontingensi merupakan alur proses deteksi dan koreksi
kesalahan penulisan kata.
Actual
Relevant Nonrevelant
Mulai
Retrieved

True Positive False Positive


(TP) (FP)
Prediction

dokumen teks,
data kamus
retrieved

False Negative True Negative


Not

preprocessing
(FN) (TN)

Keterangan: deteksi
kesalahan kata
TP: hasil prediksi positif dan nilai sebenarnya
juga bernilai positif (true positive)
TN: hasil prediksi negatif dan nilai sebenarnya
juga bernilai negatif (true negative) kata salah
tulis?
FN: hasil prediksi negatif sedangkan nilai
sebenarnya positif (false negative) ya
FP: hasil prediksi positif sedangkan nilai
sebenarnya negatif (false positive) Koreksi tidak
Kesalahan
Kata
Nilai presisi terhadap nilai recall
berbanding terbalik. Ketika nilai presisi
mencapai nilai optimal maka nilai recall rendah, dokumen
dengan kata
hal tersebut berlaku sebaliknya. Kondisi presisi yang valid
yang tinggi berarti bahwa setiap hasil yang
didapatkan dari hasil pencarian merupakan hasil
yang relevan (namun tidak dapat dipastikan Selesai

apakah semua dokumen relevan didapatkan pada Gambar 1. Alur Proses Deteksi dan Koreksi
hasil pencarian). Sedangkan kondisi recall yang Kesalahan Penulisan Kata Menggunakan Dictionary
tinggi berarti bahwa semua dokumen yang Lookup dan Damerau-Levenshtein Distance
relevan didapatkan pada hasil pencarian (namun

Fakultas Ilmu Komputer, Universitas Brawijaya


Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer 504

Berdasarkan Gambar 1, proses deteksi dan 𝑠[5] = 𝑡[6]−> 𝑐𝑜𝑠𝑡 = 0


koreksi kesalahan penulisan kata diawali dengan 𝐷[6 − 1][5] + 1
memberi masukan pada sistem yaitu berupa data 𝐷[6,5] = 𝑚𝑖𝑛 { 𝐷[6][5 − 1] + 1
dokumen jurnal yang ingin dideteksi 𝐷[6 − 1][5 − 1] + 𝑐𝑜𝑠𝑡
kesalahannya dan data kamus Bahasa Indonesia D[6 − 1][5] + 1
sebagai pedoman ejaan kata yang tepat. Pada D[6,5] = min { D[6][5 − 1] + 1
penelitian ini kamus yang digunakan didapatkan D[6 − 1][5 − 1] + cost
dari penelitian Sholeh & Purwarianti (2011). 4
Setelah itu, proses dilanjutkan dengan D[6,5] = min {4 = 2
preprocessing. Pertama dilakukan proses 2
tokenisasi yaitu memisahkan setiap kata dari 4. PENGUJIAN DAN ANALISIS
dokumen, menghilangkan angka dan simbol
serta mengubah setiap huruf menjadi huruf kecil. Pada penelitian ini dilakukan pengujian
Selanjutnya dilakukan filtering untuk terhadap hasil koreksi kesalahan dengan dua
menyeleksi kata-kata berbahasa Inggris. Hasil skenario pengujian yaitu pengujian untuk
dari proses ini digunakan sebagai masukan pada mengetahui pengaruh jumlah kesalahan ejaan
proses deteksi kesalahan kata. Untuk kata dan jumlah kata terhadap nilai presisi dan
menentukan suatu kata salah atau tidak yaitu recall.
dengan melakukan pencarian kata yang
dimasukkan pada kamus. Jika kata ada dalam 4.1. Pengujian Jumlah Kesalahan Ejaan Kata
kamus maka kata tersebut termasuk kata yang Pengujian jumlah kesalahan ejaan kata
valid atau benar. Sedangkan jika tidak ada dalam digunakan untuk mengetahui pengaruh jumlah
kamus maka kata tersebut dianggap sistem kesalahan ejaan kata terhadap nilai presisi dan
sebagai kata yang salah. Dari proses deteksi recall proses koreksi sistem. Pada pengujian ini
kesalahan kata maka akan didapatkan daftar kata data diambil dari 5 jurnal berbeda yang
yang salah. Setiap kata yang salah menjadi data bersumber dari JTIIK dengan mengecualikan
masukan untuk proses koreksi dengan mencari persamaan dan daftar pustaka jurnal. Pengujian
kata pada kamus yang memiliki jarak edit dilakukan dengan membuat variasi jumlah
minimum terhadap kata yang salah. Keluaran kesalahan kata yang diujikan yaitu 50%, 60%,
dari sistem adalah kandidat kata dengan jarak 70%, 80%, 90%, dan 100% dari keseluruhan
edit terkecil. kesalahan kata pada setiap dokumen. Pada
Perhitungan nilai jarak edit Damerau- Gambar 2 dipaparkan grafik hasil pengujian
Levenshtein Distance dapat diilustrasikan pada jumlah kesalahan ejaan kata.
matriks seperti pada Tabel 2 dengan kata yang
salah adalah “HUSUS” dan kata target
“KURSUS”. Nilai jarak edit dihitung pada setiap Pengujian Jumlah Kesalahan
pertemuan baris dan kolom dimulai dari posisi
indeks baris dan kolom pertama hingga baris dan
Ejaan Kata
kolom terakhir sebagai hasil akhir nilai jarak 1,5
edit. Berikut ini merupakan contoh perhitungan
1
nilai jarak edit pada posisi baris dan kolom
terakhir. 0,5
Tabel 2. Contoh Manualisasi Perhitungan Nilai Jarak
0
Edit Damerau-Levenshtein Distance
50% 60% 70% 80% 90% 100%
s/t H U S U S Presisi Recall
0 1 2 3 4 5
K 1 1 2 3 4 5 Gambar 2. Grafik Hasil Uji Coba Jumlah
Kesalahan Ejaan Kata
U 2 2 1 2 3 4
R 3 3 2 2 3 4 Berdasarkan grafik hasil pengujian pada
S 4 4 3 2 3 3 Gambar 2 menunjukkan bahwa nilai recall
U 5 5 4 3 2 3 cenderung menurun dengan nilai tertinggi
sebesar 0.99, sedangkan nilai presisi cenderung
S 6 6 5 4 3 2 stabil dengan nilai tertinggi yaitu 0.76 pada

Fakultas Ilmu Komputer, Universitas Brawijaya


Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer 505

dokumen dengan jumlah kesalahan ejaan kata benar sesuai kondisi aktual berhasil diambil oleh
sebesar 60%. Berdasarkan hasil tersebut, sistem sebagai hasil koreksi sistem. Nilai recall
tingginya nilai recall dibandingkan nilai presisi yang menurun pada pengujian ini disebabkan
menandakan bahwa setiap kata yang relevan terdapat hasil koreksi sistem yang salah atau
atau benar berhasil diambil oleh sistem sebagai tidak sama dengan kata yang diharapkan. Hal
hasil koreksi kata. Nilai recall yang tidak tersebut dapat terjadi dikarenakan koreksi kata
mencapai nilai optimal dikarenakan terdapat yang tepat bukanlah kata dengan nilai jarak edit
hasil koreksi kata sistem yang salah atau tidak minimum terhadap kata yang salah. Sedangkan
relevan terhadap koreksi kata yang tepat. nilai presisi yang lebih rendah dibandingkan
Sedangkan nilai presisi yang kurang tinggi nilai recall disebabkan terdapat hasil koreksi
disebabkan hasil koreksi sistem yang tidak sistem yang lebih dari 1 kandidat kata dengan
hanya menampilkan koreksi kata yang tepat jarak edit minimum. Nilai presisi dapat
sesuai dengan nilai aktual namun juga mencapai optimal pada setiap titik recall jika
memberikan kandidat koreksi kata lain dengan hasil koreksi sistem memberikan koreksi kata
nilai jarak edit minimum yang sama. yang tepat sesuai yang diharapkan (Sutisna &
Adisantoso 2010).
4.2. Pengujian Jumlah Kata
5. KESIMPULAN DAN SARAN
Pengujian jumlah kata digunakan untuk
mengetahui pengaruh jumlah kata dalam Kesimpulan dari penelitian ini yaitu Metode
dokumen terhadap nilai presisi dan recall proses Dictionary Lookup dan Damerau-Levenshtein
koreksi sistem. Pada pengujian ini menggunakan Distance dapat diimplementasikan dengan baik
data yang sama dengan pengujian skenario pada proses deteksi dan koreksi kesalahan ejaan
pertama. Proses pengujian dilakukan dengan kata pada jurnal JTIIK. Pada skenario pengujian
menentukan variasi jumlah dokumen yaitu 10%, jumlah kesalahan ejaan kata didapatkan nilai
20%, 30%, … , 100% dari seluruh kata dalam presisi dan recall terbaik sebesar 0.76 dan 0.99.
setiap dokumen. Gambar 3 merupakan grafik sedangkan nilai presisi dan recall terbaik sebesar
hasil pengujian jumlah kata. 0.78 dan 1. Berdasarkan hasil pada kedua
skenario menunjukkan bahwa nilai recall lebih
tinggi daripada nilai presisi. Hasil tersebut
Pengujian Jumlah Kata menunjukkan bahwa semua koreksi kata yang
1,5 diharapkan berhasil diambil oleh sistem sebagai
hasil koreksi kata. Selain itu berdasarkan hasil
1 pengujian yang didapatkan, jumlah kesalahan
ejaan kata dan jumlah kata dalam dokumen tidak
0,5
terlalu berpengaruh secara signifikan terhadap
0 kinerja koreksi sistem. Hasil koreksi kesalahan
kata lebih dipengaruhi oleh kelengkapan kata
pada kamus sebagai acuan kandidat koreksi kata
dan tipe kesalahan ejaan kata.
Presisi Recall Aplikasi Deteksi Kesalahan Ejaan dan
Gambar 3. Grafik Hasil Uji Coba Jumlah Kata Penentuan Rekomendasi Koreksi Kata yang
Tepat Pada Dokumen Jurnal JTIIK
Berdasarkan grafik hasil pengujian pada Menggunakan Dictionary Lookup dan Damerau-
Gambar 3, didapatkan bahwa bahwa nilai recall Levenshtein Distance dapat dikembangkan lagi
cenderung menurun dengan nilai tertinggi untuk mendapatkan hasil yang lebih baik dengan
sebesar 1 pada dokumen dengan jumlah kata penggunaan kamus Bahasa Indonesia yang
10%, 20%, 30%, dan 40%, sedangkan nilai lengkap dan terbaru serta dapat juga
presisi cenderung stabil dengan nilai tertinggi ditambahkan kamus khusus yang berisi istilah-
yaitu 0.78 pada dokumen dengan jumlah kata istilah dalam penelitian bidang komputer.
80% dari seluruh kata. Secara keseluruhan nilai Metode yang digunakan juga dapat
recall lebih tinggi terhadap nilai presisi dengan dikembangkan lagi sehingga dapat mendeteksi
beberapa hasil recall mencapai nilai optimal. nama orang, nama tempat, dan istilah-istilah lain
Berdasarkan hasil tersebut dapat diambil dalam topik tertentu. Selain itu dapat juga
kesimpulan bahwa hampir semua kata yang ditambahkan metode lain untuk memberikan

Fakultas Ilmu Komputer, Universitas Brawijaya


Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer 506

peringkat pada hasil penentuan kandidat koreksi Word Error Spell Checker for Indonesian
dengan jarak minimum sehingga dapat diambil 1 using Morphologically Analyzer and
kata terbaik. Hasil juga dapat lebih optimal HMM. , (July).
dengan mempertimbangkan kata sebelum dan
Sutisna, U. & Adisantoso, J., 2010. Koreksi
sesudah kata yang salah, kalimat sebelum dan
Ejaan Query Bahasa Indonesia
kalimat sesudah, serta paragraf sebelum dan
Menggunakan Algoritme Damerau
sesudah untuk menentukan topik bahasan dari
Levenshtein. , 15(2), pp.25–29.
dokumen. Topik bahasan yang didapatkan
berguna untuk menentukan kata mana yang tepat Thang, D.Q. & Huy, P.T., 2010. Determining
untuk dijadikan koreksi kata dari seluruh restricted Damerau-Levenshtein edit-
kandidat koreksi sistem dengan nilai jarak edit distance of two languages by extended
terkecil. automata.
Witten, I.H., 2002. Text mining.
DAFTAR PUSTAKA
Expertsystem, 2016. Natural Language
Processing and Text Mining. [online]
Tersedia di:
<http://www.expertsystem.com/natural-
language-processing-and-text-mining>
[Diakses 26 September 2016]
Jupin, J., Shi, J.Y. & Obradovic, Z., 2013.
Understanding Cloud Data Using
Approximate String Matching and Edit
Distance. , pp.1234–1243.
Liyana, N., Shuib, M. & Abdullah, N., 2010. The
Use of Information Retrieval Tools : a
Study of Computer Science Postgraduate
Students. , (Cssr), pp.379–384.
Manning, C.D., Raghavan, P. & Schütze, H.,
2009. An Introduction to Information
Retrieval Online Edi., Cambridge
University Press. Available at:
http://www.informationretrieval.org/.
Mishra, R. & Kaur, N., 2013. A Survey of
Spelling Error Detection and Correction
Techniques. , 4, pp.372–374.
Muradmaulana, 2014. Sejarah Tradisi Tulis:
Dari Masa ke Masa. [online] Tersedia di:
<http://www.muradmaulana.com/2014/06/
sejarah-tradisi-tulis-menulis-dari-
masa.html> [Diakses 25 September 2016]
N, A.R. et al., 2011. Application of Document
Spelling Checker for Bahasa Indonesia. ,
pp.978–979.
Setiadi, I., 2013. Damerau-Levenshtein
Algorithm and Bayes Theorem for Spell
Checker Optimization Damerau-
Levenshtein Algorithm and Bayes
Theorem for Spell Checker Optimization. ,
(November).
Soleh, M.Y. & Purwarianti, A., 2011. A Non

Fakultas Ilmu Komputer, Universitas Brawijaya

Anda mungkin juga menyukai