Anda di halaman 1dari 15

PROPOSAL TUGAS AKHIR

Penerapan Levenshtein Distance untuk


Pengoreksian Kesalahan OCR pada
Dokumen Teks Bahasa Indonesia

Disusun Oleh:

Sekar Rini Abidin


NIM. M0511045

JURUSAN INFORMATIKA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
UNIVERSITAS SEBELAS MARET
2014

UNIVERSITAS SEBELAS MARET


JURUSAN INFORMATIKA

PROPOSAL TUGAS AKHIR


Nama
No. Mhs

: Sekar Rini Abidin


: M0511045

PERSETUJUAN PEMBIMBING
Proposal Tugas Akhir ini telah disetujui oleh :

Sari Widya Sihwi, S.Kom, MTI


NIP. 198304122009122003

1. JUDUL/ TOPIK
Penerapan Levenshtein Distance untuk Pengoreksian Kesalahan OCR pada Dokumen Teks
Bahasa Indonesia.
2. PENDAHULUAN
2.1 Latar Belakang
Bahasa Indonesia adalah bahasa resmi dan bahasa persatuan Republik
Indonesia (Pasal 36 UUD 1945) (Katubi, 2008). Bahasa Indonesia digunakan luas
di perguruan-perguruan, media massa, sastra, surat menyurat resmi dan dinas,
bisnis, dan berbagai forum publik lainnya (Rahayu, 2007) (Sudarsa dkk 1991).
Sehingga dapat dikatakan bahwa Bahasa Indonesia dapat digunakan oleh semua
warga Indonesia (Katubi, 2008).
Penggunaan Bahasa Indonesia dengan ejaan yang baik dan benar dapat
diartikan pemakaian ragam bahasa yang serasi dan mengikuti kaidah bahasa. Pada
kondisi tertentu, yaitu pada kondisi formal baik lisan maupun tulisan, ejaan Bahasa
Indonesia menjadi prioritas utama (Kartini, 2013). Bahasa Indonesia wajib
digunakan dalam komunikasi resmi di lingkungan kerja pemerintah dan swasta
(Pasal 33 ayat 1 UU RI No.24 tahun 2009), juga wajib digunakan dalam laporan
setiap lembaga atau perseorangan kepada instansi pemerintahan (Pasal 34 UU RI
No. 24 tahun 2009).
Dalam dunia komputer, pengecekkan ejaan merupakan proses dari deteksi.
Terkadang komputer memberikan saran ejaan pada ejaan kata yang salah pada teks.
Pada dasarnya, pengecekkan ejaan merupakan program komputer yang
menggunakan kamus (Bassil dan Alwani, 2012a). Semakin besar kamusnya,
ketelitian pendeteksian kesalahannya semakin tinggi. Fakta yang terjadi banyak
ditemukan masalah ketika pada proses pengecekkan terbatas pada koleksi kata
yang sedikit (Budhi dkk, 2006) (Bassil dan Alwani, 2012a). Hasilnya, kualitas
pendeteksian kesalahan rendah dan hal ini sering terjadi pada dokumen teks, bukan
dokumen gambar, suara, maupun video (Bassil dan Alwani, 2012a).
KBBI (Kamus Besar Bahasa Indonesia) adalah kamus ekabahasa resmi
Bahasa Indonesia yang disusun oleh tim penyusun Kamus Pusat Bahasa (Pusat
Bahasa, 2008). Kamus ini menjadi acuan tertinggi Bahasa Indonesia yang baku
(Kusmayadi, 2006), karena kamus ini merupakan kamus Bahasa Indonesia
terlengkap dan yang paling akurat yang pernah diterbitkan oleh penerbit yang
memiliki hak paten dari pemerintah Republik Indonesia (Widada dan Prayogi,
2010). Hingga saat ini KBBI adalah edisi keempat yang cetakan pertamanya
diterbitkan pada tahun 2008, memuat lebih dari 90.000 lema, yakni memuat
kosakata umum dan istilah (Pusat Bahasa, 2008). Oleh karena itu KBBI dapat
diandalkan membuat performa kamus kata yang bagus untuk pengoreksian
kesalahan kata (Widada dan Prayogi, 2006) (Pusat Bahasa, 2008).
OCR (Optical Character Recognition) adalah proses mentransformasikan
citra tulisan tangan atau dokumen ketikan yang masih berbentuk gambar menjadi
teks digital (Bassil dan Alwani, 2012b), teks yang dapat diedit menggunakan
komputer (Singh, 2013). Citra gambar tersebut didapatkan dari hasil scanner atau
kamera (Bassil dan Alwani, 2012c).
OCR mempunyai enam tahapan (Singh, 2013) (Bassil dan Alwani, 2012b).
Pertama, akuisisi gambar, dokumen pada kertas discan menggunakan scanner atau

difoto. Kedua, pre-processing, gambar hasil scan atau foto diproses dan
dimodifikasi menggunakan algoritma image processing seperti mengurangi noise,
menormalisasi data, dan kompresi data. Ketiga, segmentasi, yaitu dokumen dibagi
menjadi komponen-komponen lebih kecil, yang disebut objek gambar. Keempat,
ekstraksi gambar, mendekomposisikan beberapa gambar untuk memfasilitasi
pengenalan karakter dan kata. Kelima, klasifikasi gambar, semua gambar yang
sudah diekstrak diklasifikasikan ke kelas dan kategori yang independen. Keenam,
post-processing, tahapan terakhir dari sistem OCR yang bertujuan untuk
mendeteksi dan mengoreksi kesalahan ejaan pada teks keluaran (Bassil dan
Alwani, 2012b). Proses mengoreksi ini adalah proses yang sangat penting untuk
menghasilkan kesalahan mendekati nol (Singh, 2013).
Ada dua tipe kesalahan OCR, yaitu kesalahan kata (real-word) dan
kesalahan bukan kata (non-word) (Bassil dan Alwani, 2012c). Kesalahan kata yaitu
kesalahan mengeja kata yang tidak sesuai dengan konteks kalimat meskipun kata
tersebut ada. Sedangkan kesalahan bukan kata yaitu kesalahan mengeja kata dan
kata tersebut tidak ada (Bassil dan Alwani, 2012b).
Post-processing terdiri dari tiga macam, yaitu manual, semi otomatis, dan
otomatis (Singh, 2013). Semi otomatis dilakukan oleh manusia dengan cara
mengoreksi kesalahan. Sedangkan otomatis dilakukan dengan cara mendeteksi dan
mengoreksi kesalahan oleh sistem. Karena semi otomatis dan manual memakan
waktu dan tenaga, maka diperlukan otomatis (Sigh, 2013) (Narender dan Rao,
2012).
Sistem OCR masih salah dan tidak akurat dalam menghasilkan teks dan
banyak terjadi kesalahan pengejaan, terlebih jika kualitas dokumen rendah (Bassil
dan Alwani, 2012b) (Singh, 2013) (Bassil dan Alwani, 2012c). Penelitian yang
dilakukan oleh Yousses Bassil dan Mohammad Alwani menghasilkan bahwa
tingkat keerorran OCR lebih tinggi dibandingkan dengan metode yang
diusulkannya (Bassil dan Alwani, 2012b). Dokumen yang digunakan adalah
dokumen Bahasa Inggris dan Perancis. Metode yang digunakan pada penelitian
tersebut (Bassil dan Alwani, 2012b) adalah pendeteksian kesalahan OCR, generator
untuk memberikan kandidat kata yang salah, dan pengoreksian kesalahan OCR.
Penelitian lain yang tentang koreksi kata pada teks artikel Bahasa Indonesia
menggunakan empat tahapan (Budhi dkk, 2006) yaitu pemilihan lexeme atau
bentuk tulisan, penentuan jenis token, pemeriksaan kata, dan output kata-kata yang
salah juga kata-kata pengganti yang disarankan untuk setiap kata yang salah.
Lavenshtein distance adalah algoritma yang berguna untuk memeriksa
kemiripan dari dua buah string yang umumnya ditemukan pada aplikasi
pengecekkan suatu ejaan (Adiwidya, 2009). Lavenshtein melibatkan operasi
insertion (penambahan), deletion (penghapusan), dan atau substitution
(penggantian) (Adiwidya, 2009) (Atmajaya, 2012). Algoritma ini terbukti menjadi
algoritma yang dinamis dengan kompleksitas O( ) (Adiwidya, 2009).
Pada penelitian ini akan menggabungkan metode dari penelitian-penelitian
sebelumnya tentang koreksi kata untuk digunakan pada post-processing OCR.
Metode yang akan digunakan ada tiga tahap, yaitu deteksi kesalahan OCR,
penyaranan kandidate kata, dan pengoreksian kesalahan OCR. Pada tahap deteksi
kesalahan OCR terdiri dari dua tahap, yaitu pemilihan lexeme dan penentuan jenis
token (tokenize). Pada tahap penyaranan kandidate kata menggunakan algoritma
Lavenshtein distance.

2.2 Rumusan Masalah


Seberapa besar tingkat error dan efektivitas metode yang diusulkan apabila
KBBI dan Levenshtein Distance diterapkan pada pengoreksian kesalahan Optical
Character Recognition pada dokumen teks Bahasa Indonesia?
2.3 Batasan Masalah
Pembatasan masalah pada penelitian ini adalah sebagai berikut.
1. Sistem OCR yang digunakan adalah OmniPage.
2. Dokumen teks yang digunakan dari dokumen teks ketikan, bukan tulisan
tangan.
3. Bahasa Indonesia yang diterapkan adalah Bahasa Indonesia baku, bukan
yang tidak baku.
3. Pengoreksian hanya sebatas kata, bukan tata bahasa.
2.4 Tujuan Penelitian
Menerapkan KBBI dan Levenshtein Distance untuk pengoreksian kesalahan
Optical Character Recognition post-processing pada dokumen teks Bahasa
Indonesia, sehingga dapat diketahui nilai error dan efektivitasnya.
2.5 Manfaat Penelitian
Manfaat dari penelitian ini diharapkan dapat membantu mengoreksi
kesalahan pada Optical Character Recognition dan mengurangi kesalahan pada
teks yang dihasilkan.
3. PENELITIAN TERKAIT
Penelitian yang digunakan sebagai acuan adalah penelitian yang dilakukan
oleh Youssef Bassil dan Mohammad Alwani dengan judul OCR Context Sensitive
Error Correction Based on Google Web 1T 5-Gram Data Set (Bassil dan Alwani,
2012b). Masalah yang dibahas adalah OCR post-processing belum sempurna
karena masih banyak kesalahan dan tidak akurat dalam mengeja kata pada teks
yang dihasilkan, terlebih jika gambar hasil scan berkualitas rendah. Metode yang
diusulkan terdiri dari tiga algoritma yaitu, OCR error detection, candidate
spelling generation, dan OCR error correction. Data set yang digunakan adalah
google web 1T 5-gram karena mempunyai kosa kata yang luas. Dokumen yang
digunakan sebagai bahan adalah dokumen teks Bahasa Inggris dan dokumen teks
Bahasa Perancis. Hasilnya menunjukkan peningkatan drastis dalam mendeteksi
dan mengoreksi kesalahan OCR, yaitu 5 kali lipat (504%) pada dokumen teks
Bahasa Inggris dan 4 kali lipat (405) pada dokumen teks Bahasa Perancis.
Penelitian lain yang mendukung adalah penelitian yang juga dilakukan oleh
Youssef Bassil dan Mohammad Alwani dengan judul Context-sensitive Spelling
Correction Using Google Web 1T 5-gram Information (Bassil dan Alwani,
2012a). Masalah yang dibahas masih seputar pengoreksian kesalahan kata dan
ejaan pada dokumen teks yang disebabkan minimnya kosa-kata pada kamus di
dalam program computer. Penelitian yang dilakukan ini terlepas dari OCR.
Metode yang diusulkan untuk mengoreksi kesalahan ejaan non-word dan realword, yaitu error detection, candidate spelling generation, dan error correction.
Data set yang digunakan google web 1T 5-gram. Dokumen yang digunakan
sebagai contributor adalah 300 artikel dari berbagai domain, yaitu keuangan,
bisnis, IT, politik, kesehatan, olahraga, dan sebagainya. Semua artikel tersebut

ditotal terdiri dari 200.000 kata, termasuk kata, nama, domain, terminologi,
akronim, dan jargon. Hasilnya membuktikan bahwa metode yang diusulkan untuk
mendeteksi dan mengoreksi kesalahan jauh lebih efektif. Jika menggunakan GNU
Aspell, total error 49%, non word error 38%, real-word error 92%. Jika
menggunakan Ghotic test result, total error 38%, non word error 30%, real-word
error 71%. Ketika menggunaka metode yang diusulkan, total error menjadi 7%,
non word error 1%, dan real word error 30%.
Kedua penelitian yang dilakukan Youssef Bassil dan Mohammad Alwani
tersebut metode yang digunakan secara prinsip sama, hanya saja yang satu
diterapkan pada OCR dan yang satu dari dokumen teks biasa.
Terdapat penelitian mengenai spelling checker pada teks artikel Bahasa
Indonesia yang dilakukan oleh Gregorius S. Budi, Irwan Kristianto, dan Elvi
Suhartono (Budi dkk, 2006). Masalah yang dibahas adalah bahwa seperti bahasabahasa lainnya, Bahasa Indonesia juga memiliki struktur yang membentuk bahasa
tersebut sehingga banyak orang dapat memahaminya. Tetapi pada penerapannya
dalam tulisan, banyak orang yang masih salah saat menulis kata Bahasa
Indonesia. Dari hal tersebut muncul ide pembuatan aplikasi untuk memeriksa kata
dalam Bahasa Indonesia yang benar dari sebuah inputan teks. Metode yang
digunakan terdiri dari empat tahap, yaitu pemilihan lexeme (bentuk tulisan),
penetuan jenis token (tokenize), pemeriksaan kata, dan output kata-kata yang
salah juga kata-kata pengganti yang disarankan untuk setiap kata yang salah.
Hasilnya dapat disimpulkan bahwa program aplikasi ini dapat digunakan untuk
memeriksa kebenaran kata Bahasa Indonesia.
Penelitian yang mendukung penggunaan Levenshtein distance adalah
penelitian yang dilakukan oleh Bernadino Madaharsa Dito Adiwidya dengan
judul Algoritma Levenshtein Dalam Pendekatan Approximate String Matching
(Adiwidya, 2009). Masalah yang dibahas adalah banyaknya mesin pencari yang
tersedia di internet. Ketika kita ingin mencari suatu kata kunci yang terletak
dalam suatu halaman web yang berisi berita, artikel, atau informasi lainnya,
seringkali dalam kata yang kita masukkan tidak sesuai dengan tata Bahasa
Indonesia yang benar. Benar disini dalam artian ejaan yang baku, memiliki suatu
imbuhan yang komponen katanya berbeda, ataupun salah ketik. Oleh karena itu
diperlukan suatu metode pendekatan pencarian string yang dapat memenuhi
keinginan tersebut. Algoritma yang digunakan adalah levenshtein distance dengan
pendekatan approximate string matching, yang meliputi operasi penghapusan,
penyisipan, dan penggantian. Hasilnya membuktikan bahwa pencarian jumlah
operasi string dalam approximate string matching yang diperlukan untuk
mentransformasikan suatu string menjadi string lain memerlukan algoritma yang
mangkus seperti algoritma Levenshtein Algoritma ini merupakan program
dinamis dengan kompleksitas O( ).
4. DASAR TEORI
4.1
Optical Character Recognition
Optical Character Recognition (OCR) adalah proses mengubah dari
tulisan tangan atau dokumen ketikan ke dalam teks yang editable pada
komputer (Cheriet, Kharma, Liu, dan Suen, 2007). Citra gambar tersebut
didapatkan dari hasil scanner atau kamera (Basil dan Alwani, 2012a).
OCR mempunyai enam tahapan (Basil dan Alwani, 2012b), yaitu:

1. Akuisisi gambar, dimana dokumen pada kertas discan menggunakan


scanner atau difoto menggunakan kamera digital. Gambar yang dihasilkan
disimpan di komputer dalam mode gambar grayscale atau hitam putih untuk
memudahkan tahapan selanjutnya dalam mengenali karakter.
2. Pre-processing, yaitu gambar hasil scan atau kamera digital diproses
dan dimodifikasi menggunakan image processing algorithm seperti
mengurangi noise, menormalisasi data, dan kompresi data.
3. Segmentasi yaitu dokumen dibagi menjadi komponen-komponen lebih
kecil, yang disebut objek gambar. Ada dua tipe segmentasi, yaitu segmentasi
eksternal yang membagi dokumen menjadi paragraf, kalimat, dan kata; dan
segmentasi internal yang membagi sebuah dokumen menjadi karakter, huruf,
dan angka, disebut glyphs (blok dasar yang merepresentasikan satu atau lebih
karakter).
4. Ekstraksi gambar yaitu mendekomposisikan beberapa gambar untuk
memfasilitasi pengenalan karakter dan kata. Setiap karakter pada alphabet
mempunyai gambar unik yang dapat membedakan dengan karakter lainnya.
Namun ada karakter yang mirip sehingga membuat sulit. Maka dalam proses
ini setiap karakter akan diekstrak lebar, tinggi, bentuk, panjang, sudut, dan
lekukannya.
5. Post-processing, yaitu tahapan terakhir dari sistem OCR yang
bertujuan untuk mendeteksi dan mengoreksi kesalahan ejaan pada teks
keluaran. Proses mengoreksi ini adalah proses yang sangat penting untuk
menghasilkan kesalahan mendekati nol. Ada dua jenis kesalahan ejaan, yaitu
non-word error yang merupakan kesalahan ejaan yang menghasilkan kata
tersebut tidak valid. Yang kedua yaitu real-word error, kesalahan mengeja
kata yang menghasilkan kata yang valid, namun secara grammatical atau
semantic tidak sesuai konteks.
4.2

Kamus Besar Bahasa Indonesia


Kamus Besar Bahasa Indonesia (KBBI) adalah kamus ekabahasa resmi
Bahasa Indonesia yang disusun oleh tim penyusun Kamus Pusat Bahasa (Pusat
Bahasa, 2008). Kamus ini menjadi acuan tertinggi bahasa Indonesia yang baku
(Kusmayadi, 2006), karena kamus ini merupakan kamus bahasa Indonesia
terlengkap dan yang paling akurat yang pernah diterbitkan oleh penerbit yang
memiliki hak paten dari pemerintah Republik Indonesia (Widada dan Prayogi,
2010). Hingga saat ini sejak KBBI terbit pertama kali pada tahun 1988 sudah
mengalami tiga kali revisi. Edisi pertama (1988) adalah hasil pengembangan
dari Kamus Bahasa Indonesia yang terbit pada tahun 1983. Kamus ini baru
memuat 62.100 lema. Edisi kedua (1991) adalah revisi pertama KBBI dan
memuat 72.000 lema. Edisi ketiga (2005), memuat 78.000 lema. Menurut Dr.
Dendy Sugono, Kepala Pusat Bahasa, kamus ketiga ini masih terasa banyak
sekali kosakata yang belum masuk. Tetapi harap diingat bahwa KBBI adalah
Kamus Umum berisi kosakata umum, sehingga dalam kamus tidak termasuk
berbagai istilah. Untuk penggunaan kamus bidang ilmu tertentu Pusat Bahasa
juga memiliki kamus Istilah. Edisi keempat (2008) memuat lebih dari 90.000
lema. Pada edisi ini KBBI diperkaya kosakata yang berasal dari kamus istilah,
pada edisi ini kamus disusun berdasarkan paradigm. Edisi kelima,
kemungkinan besar akan dirilis pada tahun 2013, dengan perkiraan
penambahan kata sekitar 2.000 kata (Pusat Bahasa, 2008).

4.3

Levenshtein Distance
Algoritma Levenshtein merupakan algoritma yang berguna untuk
memeriksa kemiripan dari dua buah string yang umumnya ditemukan pada
aplikasi pengecekkan suatu ejaan (Adiwidya, 2009). Lavenshtein melibatkan
operasi insertion (penambahan), deletion (penghapusan), dan atau substitution
(penggantian) (Adiwidya, 2009) (Atmajaya, 2012). Dengan algoritma ini, tidak
perlu dilakukan seluruh percobaan kemungkinan penghapusan, penyisipan,
atau penggantian terhadap string. Oleh karena itu, algoritma ini dapat
digolongkan sebagai program dinamis. Nilai edit distance dapat diperoleh
hanya dengan menyediakan matriks cost yang ukurannya tergantung panjang
kedua string (Adikara, 2011).
Algoritma Levenshtein, atau sering disebut dengan Levenshtein Distance
atau Edit Distance merupakan algoritma pencarian jumlah perbedaan string
yang ditemukan oleh Vladimir Levenshtein, seorang ilmuwan Rusia, pada
tahun 1965. Algoritma ini digunakan secara luas dalam berbagai bidang,
misalnya mesin pencari, pengecek ejaan (spell checking), pengenal
pembicaraan (speech recognition), pengucapan dialek, analisis DNA,
pendeteksi pemalsuan, dan lain-lain (Adiwidya, 2006).
Langkah-langkah Algoritma
Pada dasarnya, algoritma ini menghitung jumlah minimum
pentransformasian suatu string menjadi string lain yang meliputi penggantian,
penghapusan, dan penyisipan. Algoritma ini digunakan untuk mengoptimalkan
pencarian tersebut karena sangat tidak efisien jika dilakukan pencarian setiap
kombinasi operasioperasi string tersebut. Oleh karena itu, algoritma ini
tergolong program dinamis dalam pencarian nilai minimal tersebut.
Dalam algoritma ini, dilakukan penyeleksian panjang kedua string
terlebih dahulu. Jika salah satu atau kedua string merupakan string kosong,
jalannya algoritma ini berhenti dan memberikan hasil edit distance yang
bernilai nol atau panjang string yang tidak kosong. Jika panjang string
keduanya tidak nol, setiap string memiliki sebuah karakter terakhir, misalnya
c1 dan c2. Misalnya bagian string pertama tanpa c1 adalah s1 dan bagian string
kedua tanpa c2 adalah s2, dapat dikatakan penghitungan yang dilakukan adalah
cara mentransformasikan s1+c1 menjadi s2+c2. Jika c1 sama dengan c2, dapat
diberikan nilai cost 0 dan nilai edit distance-nya adalah nilai edit distance dari
pentransformasian s1 menjadi s2. Jika c1 berbeda dengan c2, dibutuhkan
pengubahan c1 menjadi c2 sehingga nilai cost-nya 1. Akibanya, nilai edit
distance-nya adalah nilai edit distance dari pentransformasian s1 menjadi s2
ditambah 1. Kemungkinan lain adalah dengan menghapus c1 dan mengedit s1
menjadi s2+c2 sehingga nilai edit distance-nya dari pentransformasian s1
menjadi s2+c2 ditambah 1. Begitu pula dengan penghapusan c2 dan mengedit
s1+c1 menjadi s2. Dari kemungkinan-kemungkinan tersebut, dicarilah nilai
minimal sebagai nilai edit distance.
Untuk lebih jelasnya, dapat dilihat pada pseudocode berikut ini. Di
bawah ini digunakan s sebagai string sumber dan t sebagai string target.
Pseudocode ini berupa suatu fungsi yang nilai kembaliannya adalah nilai edit
distance.

n <m <if n
else
else

length(s)
length(t)
= 0 then return m
if m = 0 then return n
for i = 0 to n do
cost[0][i] <- i
for i = 0 to m do
cost[i][0] <- i
for i = 1 to n do
for j = 1 to m do
if (s[i-1]=t[j-1]) then
cost[j][i] <- 0
else cost[j][i] <- 1
a1 <- cost[j][i-1]+1
a2 <- cost[j-1][i]+1
a3 <- cost[j-1][i-1]+cost[j][i]
cost[j][i] <- min(t1,t2,t3)
return cost[m][n]

Berdasarkan pseudocode di atas, dapat ditunjukkan kompleksitas


algoritmanya adalah O(|s|*|t|) atau dapat dianggap O( ) (Adiwidya, 2009).
Misalkan s = malamram dan t = aram. Di bawah ini merupakan sebagian
dari operasi transformasi s ke t dengan berpatokan pada kesamaan string
berurutan am pada keduanya.
1.

s: m a l a m r a m
t: - a r a m - - -

String s ditransformasikan menjadi t dengan melakukan 4


penghapusan dan 1 penggantian. Jumlah perubahannya adalah 5.
2.

s: m a l a m r a m
t: - - - - a r a m

String s ditransformasikan menjadi t dengan 4 penghapusan dan 1


penggantian. Jumlah perubahannya adalah 5.
3.

s: m a l a m r a m
t: - a - - - r a m

String s ditransformasikan menjadi t dengan melakukan 4


penghapusan. Jumlah perubahannya adalah 4.
4.

s: m a l a m r a m
t: - - - a - r a m

String s ditransformasikan menjadi t dengan melakukan 4


penghapusan. Jumlah perubahannya adalah 4.

5. METODOLOGI
INDICATORS

PROPOSED METHOD

OBJECTIVES

MEASUREMENT

KBBI
(Pusat Bahasa,
2008)

Dokumen
Teks
Bahasa
Indonesia
hasil OCR

Tingkat
error

x 100%

Deteksi Kesalahan OCR

Pemilihan
lexeme

Token
ize

Penyaranan kata

Efektivitas

x 100%

Error a = nilai error jika


menggunakan metode yang
diusulkan
Error b = nilai error jika
menggunakan OmniPage

Koreksi kesalahan
OCR

Levenshtein
distance

Pada penelitian ini, data set yang digunakan adalah data set KBBI (Kamus
Besar Bahasa Indonesia), bisa didapat dari Pusat Bahasa, Departemen Pendidikan
Nasional. Sedangkan indikator (indicators) yang diobservasi adalah dokumen
teks Bahasa Indonesia hasil OCR.
Metode yang diusulkan (proposed method) terdiri dari tiga tahap yaitu:
1. Deteksi kesalahan OCR
Kata yang dianggap salah adalah kata yang tidak sesuai dengan kaidah
penggunaan pengejaan Bahasa Indonesia, termasuk imbuhan dan akhiran.
Proses ini terdiri dari dua langkah:
a. Pemilihan Lexeme (bentuk kata)
Pada proses pemilihan ini, inputan teks akan dipilah-pilahkan berdasarkan
kriteria tertentu, yaitu:
- Kumpulan angka. Misalnya: 1, 23, 435, dan sebagainya.
- Kumpulan huruf. Misalnya: abc, pisang, mereka, dan sebagainya.
- Gabungan angka dan tanda, seperti tanda ., / , ,. Misalnya: 45.000,
3/4 , 20,7, dan sebagainya.
- Gabungan huruf dan angka. Misalnya: sepuluh2 , B403, sinema21, dan
sebagainya.
- Tanda baca. Tanda baca tersebut adalah yang berlaku menurut tata Bahasa
Indonesia, yaitu spasi ( ), tanda titik (.), tanda koma (,), tanda seru (!),
tanda Tanya (?), tanda titik dua (:), tanda hubung (-), tanda petik dua (),
dan tanda garis miring (/).

b. Tokenize (penentuan jenis token)


Token terdiri dari:
- Separator, yang terdiri dari tanda baca. Masing-masing tanda baca dianggap
sebagai token.
- Kata, token ini masih dibedakan lagi ke dalam jenis-jenis kata yang terdapat
format-format lexeme.
Angka (numeralia), yang terdiri dari angka romawi (VII, IX, M, dan
sebagainya) dan angka arab (1, 2, 43, 645, dan sebagainya).
Tanggal
Nama (pronomia)
Identifier, yaitu lexeme-lexeme yang tidak termasuk ke dalam jenis
token lainnya.
Apabila pada proses pemilihan lexeme dan tokenize tetap tidak ditemukan
kata dasar, maka akan dianggap kata yang salah. Langkah berikutnya adalah
penyaranan kata.
2. Penyaranan kata
Pada proses penyaranan kata menggunakan Levenshtence distance. Kata
yang disarankan sebanyak 5, yakni yang mempunyai kemiripan, didapatkan dari
data set KBBI. Hasil dari proses penyaranan kata ini akan digunakan untuk
menentukan proses berikutnya, yaitu koreksi kesalahan OCR.
3. Koreksi kesalahan OCR
Pada proses pengoreksian kesalahan OCR ini yang diambil adalah memilih
1 kata yang mempunyai kemiripan tertinggi kemudian menggantikan kata yang
salah tersebut.
Tujuan (objectives) pada penelitian ini adalah adanya penurunan nilai error
dan peningkatan efektivitas pada pengoreksian kesalahan OCR, dimana
pengukuran akan menggunakan rumus yang ada pada measurement.
Hasil dari penelitian adalah tingkat error dan efektifitas yang dihitung
menggunakan rumus pada measurement.

6. JADWAL
Aktivitas
No

Waktu
Maret

April

Mei

Juni

Juli

Agustus

2014

2014

2014

2014

2014

2014

Minggu

Minggu

Minggu

Minggu

Minggu

Minggu

1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4
1

Pengajuan
Judul

Penyusuna
n Pra
Proposal

Bmbingan
/
konsultasi

Penyusuna
n Proposal

Pengumpu
lan
proposal
Seminar
proposal

Penulisan
Bab I

Penulisan
Bab II

Pengumpu
lan data

Penulisan
Bab III

10

Analisa
Sistem

11

Perancang
an Sistem

12

Penulsan
Bab IV

13

Implement
asi

14

Pengujian
Sistem

15

Penulisan
Bab V

16

Seminar
Hasil

17

Revisi

18

Sidang TA

DAFTAR PUSTAKA
Adikara, Putra Pandu, Rekomendasi Kata Berbahasa Alay ke Bahasa Indonesia
Menggunakan Algoritma Fonetik dan Levenshtein Distance, Universitas
Brawijaya, 2011.
Adiwidya, Bernardino, Algoritma Levenshtein Dalam Pendekatan Approximate
String Matching, Strategi Algoritma Teknik Informatika Institut Teknologi
Bandung, 2009.
Atmajaya, Gede, Pembuatan Spelling Checker untuk Bahasa Indonesia dengan
Java 2 Stanard Edition, Teknik Informatika Universitas Gunadarma, 2012.
Bassil, Y., Alwani, M., Context-sensitive Spelling Correction Using Google Web
1T 5-Gram Information, Computer and Information Science, Volume 5, No. 3,
Mei 2012.
Bassil, Y., Alwani, M., OCR Context-Sensitive Error Correction Based on
Google Web 1T 5-Gram Data Set, American Journal of Scientific Research, ISSN
1450-223X, Issue 50, Februari 2012.
Bassil, Y., Alwani, M., OCR Post-Processing Error Correction Algorithm Using
Googles Online Speliing Suggestion, Journal of Emerging Trends in Computing
and Information Sciences, ISSN 2079-8407, Volume 3, No. 1, Januari 2012.
Budhi, Gregorius, dkk. ,Aplikasi Pemeriksan Kebenaran Kata (Spelling Checker)
Bahasa Indonesia Pada Teks Artikel Berbahasa Indonesia, Teknik Informatika UK
Petra Surabaya, 2006.
Cheriet, Kharma, Liu, Suen, Character Recognition Systems: A Guide for
Students and Practitioners, Wiley-Interscience Publication, 2007.
Kartini, Ari, Sikap Bahasa Dan Kemampuan Berbahasa Masyarakat Dwi
Bahasawan, Universitas Pendidikan Indonesia, 2013.
Katubi, Bahasa dan Nasionalisme di Indonesia, Lembaga Ilmu Pengetahuan
Indonesia, ISSN 0125-9989, Jilid XXXIV, Nomer 2, 2008.
Kusmayadi, Ismail, dkk, Be Smart Bahasa Indonesia, PT Grafindo Media
Pratama, 2006.
Narender, G dan Rao, Meda Sriniva, Parallel OCR Error Correction,
International Journal of Computer Science and Information Technologies, Volume
3, No. 6, 2012.
Pasal 33 ayat 1 UU RI No. 24 tahun 2009 tentang BBLNLK.
Pasal 34 UU RI No. 24 tahun 2009 tentang BBLNLK.
Pasal 36 UUD 1945 tentang Bahasa Negara.
Pusat Bahasa, Kamus Besar Bahasa Indonesia, Gramedia Pustaka Utama, 2008.

Rahayu, Minto, Bahasa Indonesia di Perguruan Tinggi, Grasindo, 2007.


Singh, Sukhpreet, Optical Character Recognition Techniques: A Survey, Journal
of Emerging Trends in Computing and Information Sciences, ISSN 2079-8407,
Volume 4, No. 6, Juni 2013.
Sudarsa, Caca dkk, Surat menyurat dalam Bahasa Indonesia Seri Penyuluhan 2,
Pusat Pembinaan dan Pengembangan Bahasa, 1981.
Widada, R dan Prayogi, Icuk, Kamus Saku Bahasa Indonesia, Bentang Pustaka,
2010.

Anda mungkin juga menyukai