Anda di halaman 1dari 3

1.

Pendahuluan
1.1

Latar belakang

Optical Character Recognition (OCR) dibutuhkan ketika informasi harus dapat


dibaca bagi manusia maupun mesin. Perbandingan dengan tehnik pengenalan
otomatis, OCR unik dengan tidak membutuhkan kontrol proses yang
menghasilkan informasi. Adanya sistem pengenalan huruf ini memberikan
kemudahan tersendiri dalam dokumentasi karena tidak perlu untuk mengetik
ulang. Selama ini teknologi OCR menggunakan dua metode pengenalan yaitu
matric matching dan feature extraction. Metode matric matching memiliki
keakuratan lebih rendah karena sistem hanya akan mengenali dengan cara
menyamakan karakter huruf yang disimpan dalam citra bitmap dengan citra yang
disimpan dalam database, sedangkan database memiliki kemampuan yang terbatas
baik dalam jumlah variasi bentuk karakter dan beraneka pola. Namun, ketelitian
sistem OCR juga tergantung pada kualitas data masukan.
Kesulitan utama yang ditemukan pada dokumen yang berbeda disebabkan
karena data masukan memiliki variasi bentuk, deformation atau kerusakan
karakter, dan variasi jarak antar karakter serta campuran dari teks dan grafik.
Ketidaksempurnaan ini dapat terjadi pada proses pengenalan yang berbeda pada
sistem OCR yang menghasilkan penolakan atau kesalahan pegnenalan. Sebagian
besar kesalahan pada system OCR terjadi pada pemindaian yang selanjutnya
disegmentasi dan menghasilkan bergabung atau rusaknya karakter. Kesalahan ini
menyebabkan keambiguan dalam teks dan grafik ataupun teks dan noise. Selain
itu, dengan citra yang tersegmentasi dengan baik pun pada proses klasifikasi dapat
terjadi kesalahan karena bentuk karakter yang sama dan pemilihan ciri yang tidak
cukup baik untuk membedakan kelas yang berbeda.
Dengan ketidaksempurnaan ini, telah banyak dilakukan riset yang
menghasilkan usulan metode untuk meminimalkan kesalahan dalam pengenalan.
Salah satu metode yang digunakan adalah menentukan proses yang tepat dalam
preprocessing dan maksimalkan eksplorasi kontur karakter sebagai pilihan untuk
digunakan sebagai fitur ciri, dan selanjutnya menjadi penentu pengenalan. Dalam
penelitian yang dilakukan Debi Prasad Bhattacharya dan Susmita Koner (2012)
telah merancang prapengolahan alphabet inggris, dan memanfaatkan kontur
karakter pada ekstraksi ciri, yaitu dengan freeman chain code. Penelitian tersebut
menghasilkan akurasi pengenalan yang baik, yaitu 95% pengujian alphabet
inggris dapat dikenali dengan baik.[4]. Dalam penelitian lain, Abdel- Badeeh
melakukan penelitian untuk pendekatan pengenalan citra, yaitu dengan Vertex
chain code yang membuktikan kemampuan vertex chain code lebih baik dalam
pengenalan citra dibandingkan chain code freeman karena mampu menangani
keterbatasan chain code freeman untuk karakter yang telah mengalami perubahan
posisi yaitu pergeseran, rotasi dan dengan bebas memilih posisi mulai pengkodean
serta perubahan bayangan karakter.[2]
Dalam penelitian ini, digunakan vertex chain code sebagai metode
ekstraksi ciri (feature extraction) dalam mengenali huruf latin komputer. Dengan
kelebihan vertex chain code ini sangat dimungkinkan untuk memperoleh hasil
pengenalan lebih teliti dan efektif. Selain pemaksimalan hasil ekstraksi ciri,
penelitian ini juga menggunakan metode jaringan syaraf tiruan Learning Vector
1

Quantization dalam klasifikasi. Metode ini melakukan pembelajaran pada lapisan


kompetitif yang terawasi yang akan secara otomatis belajar untuk
mengklasifikasikan vektor- vektor masukan. Kelas- kelas yang didapatkan sebagai
hasil hanya tergantung pada jarak antara vektor- vektor masukan tersebut. Pada
penelitian tulisan tangan yang dilakukan oleh Asworo yang membandingkan
metode LVQ dan Kohonen Neural Network (KNN), menunjukkan hasil bahwa
pengenalan LVQ lebih baik dalam pengenalan, yaitu 86% pengenalan. Hal ini
karena dalam penentuan bobot LVQ menentukan dari bobot awal sedangkan KNN
menentukan bobot secara acak. Penelitian ini menjadi referensi yang cukup
menarik untuk mendukung ketelitian hasil ciri yang dihasilkan vertex chain code
terlebih huruf latin komputer lebih standar dibandingkan dengan tulisan tangan
yang memiliki kerumitan atau pola yang cukup beragam.

1.2

Perumusan Masalah

Berdasarkan penjelasan diatas, berikut perumusan masalah tugas akhir ini.


1. Bagaimana merancang suatu sistem OCR yang dapat mengenali huruf latin
dengan interpretasi yang benar terhadap masukan berupa citra huruf latin.
2. Bagaimana mengoptimalkan proses latih dan uji sehingga ciri yang dihasilkan
dapat merepresentasikan setiap huruf dengan baik.
Dalam pengerjaan ada permasalahan yang akan dibatasi dalam penelitian ini,
yaitu sebagai berikut.
1. Sistem yang dibangun merupakan sistem pengenalan huruf latin komputer
secara offline.
2. Citra huruf latin merupakan gambar hasil scan huruf latin komputer dengan
file citra bertipe (*.png) dengan resolusi 300dpi.
3. Citra huruf latin yang digunakan adalah huruf latin komputer bertipe Arial,
Calibri, Cambria,Times New Roman, Tahoma, verdana, Ms Ghotic dan Agency
Fb.
4. Ukuran font yang akan digunakan yaitu, 8pt, 12pt, 14 pt, 16 pt, 20 dan 24pt

1.3

Tujuan

Berdasarkan perumusan masalah diatas, tujuan penelitian pada tugas akhir ini
meliputi:
1. Menganalisis dan merancang suatu sistem OCR menggunakan Vertex
Chain Code dan LVQ yang dapat mengenali huruf latin komputer.
2. Mengkaji dan menganalisis unjuk kerja sistem yang sudah dibangun
berdasarkan akurasi.

1.4

Metodologi Penyelesaian Masalah

Dalam penelitian ini, penulis menggunakan metodologi sebagai berikut :


a) Studi Literatur dan eksplorasi
Pada tahap ini, dilakukan kajian dari buku, artikel, jurnal dan sumber- sumber
lain dari internet yang relevan dengan penelitian ini.
Adapun materi yang yang dicari atau dikaji meliputi: perkembangan penelitian
mengenai pengenalan huruf latin dengan OCR, vertex chain code sebagai
ekstraksi ciri, jaringan syaraf tiruan (JST) dan LVQ sebagai metode

klasifikasi. Referensi utama yang digunakan yaitu Optical character


Recognition (Eikvil, Linel 1993).
b) Pengumpulan Data
Pada tahap ini, dilakukan pengumpulan data huruf latin dengan font komputer
yang terdiri dari times new roman, arial, Calibri, Tahoma, verdana, ms ghotic,
agency fb. Untuk setiap data huruf latin terdiri dari 26 huruf yang selanjutnya
dilakukan pengelana dengan OCR.
c) Analisis dan Perancangan Sistem
Pada tahap ini, dilakukan analisis dan perancangan dari sistem OCR pada
huruf latin. Perancangan sistem tersebut meliputi penentuan metode yang
digunakan untuk ekstraksi ciri menggunakan vertex chain Code dan Learning
Vector quantization untuk klasifikasi, arsitektur system untuk implementasi,
lingkungan pengembangan, dan bahasa pemrograman yang akan digunakan.
d) Implementasi dan Pengujian Sistem
Pada tahap ini, dilakukan implementasi OCR pada huruf latin dengan
menggunakan bahasa pemrograman Matlab. dilakukan pengujian untuk
mengetahui pengaruh algoritma vertex chain code dan algoritma LVQ
terhadap performansi sistem OCR pada huruf latin, serta untuk mengukur
apakah sistem yang dibuat telah memenuhi tujuan penelitian.
e) Penarikan kesimpulan
Pada tahap ini, dilakukan penarikan kesimpulan dari hasil pengujian dan
analisis yang telah dilakukan.