Anda di halaman 1dari 13

OPTICAL CHARACTER RECOGNITION PADA CETAKAN TEKS ARAB

MENGGUNAKAN BIO INSPIRED F-KNN CLASSIFIER

PROPOSAL TUGAS AKHIR


Diajukan Untuk Memenuhi Salah Satu Syarat
Dalam Menempuh Ujian Sidang Sarjana
Di Program Studi Informatika

NPM : 0616103019
Nama : SHOFARI BAGUS
Konsentrasi : APPLIED NETWORKING

PROGRAM STUDI INFORMATIKA – FAKULTAS TEKNIK

UNIVERSITAS WIDYATAMA

BANDUNG

2022
REVIEW PROPOSAL TUGAS AKHIR

NPM : 0616103019
Nama : Shofari Bagus
Konsentrasi : Applied Networking
Judul : Optical Character Recognition pada Cetakan Teks Arab
Menggunakan Bio Inspired F-KNN Classifier

Aspek Penilaian Hasil Review


Originalitas

Kelegkapan Informasi

Kelayakan Ilmu dan Waktu


Pelaksanaan

Kesimpulan:
Diterima/Ditolak/Diperbaiki
Alasan:

Bandung, 9 Januari 2023


Menyetujui Mengetahui
Ka. Lab. Applied Networking Sek. Program Studi Informatika

Ulil Surtia Zulpratita, S.T., M.T Yan Puspitarani, S.T., M.T


1. LATAR BELAKANG MASALAH

Optical character recognition (OCR) merupakan sebuah sistem yang


memungkinkan komputer untuk merekognisi huruf atau kata dari sebuah
gambar teks menjadi sebuah teks dokumen tanpa perlu melakukan pengetikan
ulang[1]. OCR pada gambar teks cetakan Arab memiliki beberapa kesulitan
karena karakteristik karakter Arab yang berbeda dari kebanyakan karakter
lainnya. Karakter Arab memiliki 28 karakter yang tidak memiliki huruf kecil
maupun kapital, penulisan karakter yang dimulai dari kanan ke kiri, bentuk
karakter yang berbeda berdasarkan posisi huruf dalam kata, serta terdapat
beberapa karakter yang memiliki kesamaan bentuk[1].
Secara umum proses OCR terbagi kedalam enam proses : image
acquisition (scanning), segmentation, preprocessing, feature extraction,
classification dan post-processing. Dalam enam proses OCR terdapat tiga
proses yang menentukan tingkat rekognisi OCR yaitu preprocessing, feature
extraction, dan classification. Proses preprocessing image bertujuan untuk
menyiapkan gambar untuk diproses pada tahap selanjutnya, salah satu tahapan
yang dilakukan pada proses ini adalah thresholding yang bertujuan untuk
memisahkan objek dan background serta noise removal untuk menghilangkan
noise dan memperbaiki kualitas citra yang akan diproses[2].
Genetic Algorithm (GA) merupakan sebuah metode optimasi yang
berdasarkan teori evolusi dan genetik sehingga bisa disebut juga bio inspired
algorithm. Genetic Algorithm merupakan algoritma yang popular dan dikenal
baik untuk optimisasi pada noisy environments. Hal ini menjadikan Genetic
Algorithm sebagai algoritma yang cocok untuk melakukan feature extraction
pada teks kata arab yang memiliki cukup banyak noise represented yang
overlap antar kata dikarenakan banyaknya karakter yang memiliki
kemiripan[3].
Dalam OCR klasifikasi merupakan penentu keputusan berdasarkan hasil
features extraction pada tahap sebelumnya. Algoritma klasifikasi akan melalui
proses training menggunakan dataset dan selanjutnya diberikan testing
dataset untuk merekognisi perbedaan setiap class (class adalah kata). Fuzzy
K-Nearest Neighbor (F-KNN) merupakan metode klasifikasi pengembangan
dari metode K-Nearest Neighbor (KNN) metode ini memfokuskan class
membership ke dalam suatu pattern (pola) daripada menempatkan pattern
(pola) ke dalam kelas[3]. Kelebihan utama dari F-KNN adalah tidak akan ada
assignment acak yang dibuat oleh algoritma, karena nilai vector membership
harus menyediakan level of assurance yang digunakan untuk resultant
classification.
Dalam penelitian ini penulis akan menggunakan gabungan metode
Genetic Algorithm dan Fuzzy K-Nearest Neighbor untuk membangun sistem
OCR yang dapat digunakan untuk melakukan rekognisi gambar dokumen arab
menjadi sebuah file dokumen. Berdasarkan permasalahan dan penelitian
terkait yang dibahas sebelumnya, maka penulis laporan tugas akhir ini dengan
judul “OPTICAL CHARACTER RECOGNITION PADA CETAKAN
TEKS ARAB MENGGUNAKAN BIO INSPIRED FUZZY
CLASSIFIER”

2. RUMUSAN MASALAH

Berdasarkan pada permasalahan yang telah dijelaskan pada bagian latar


belakang masalah, maka dapat dirumushkan permasalahan sebagai berikut :
1. Bagaimana merekognisi gambar dokumen arab menjadi file dokumen?
2. Bagaimana Genetic Algorithm mempengaruhi nilai akurasi OCR?
3. Bagaimana tingkat akurasi OCR yang menggunakan gabungan metode
Genetic Algorithm dan Fuzzy K-Nearest Neighbor?

3. TUJUAN
Penelitian pada permasalahan yang telah dijelaskan pada bagian latar
belakang masalah, bertujuan sebagai berikut:
1. Untuk melakukan rekognisi gambar dokumen arab menjadi file dokumen.
2. Untuk mengetahui pengaruh genetic algorithm pada nilai akurasi OCR
3. Untuk mengetahui tingkat akurasi OCR yang menggunakan gabungan
metode Genetic Algorithm dan Fuzzy K-Nearest Neighbor.
4. BATASAN MASALAH
Batasan permasalahan yang ada dalam penelitian ini dibatasi oleh hal-
hal sebagai berikut :
a. Penelitian menggunakan dataset PATS-A01 dan APTI berupa citra teks
arab
b. Penelitian menggunakan metode Genetic Algorithm dan Fuzzy K-Nearest
Neighbor
c. Penelitian hanya terbatas pada rekognisi gambar dokumen hasil scan dari
teks cetak yang telah ada.

5. LANDASAN TEORI

Berikut ini merupakan teori-teori yang menunjang terhadap bahasan dari


proposal riset yang dilakukan penulis.
5.1 Optical Character Recognition

Optical character recognition (OCR) merupakan sebuah sistem yang


memungkinkan komputer untuk merekognisi huruf atau kata dari sebuah
gambar teks menjadi sebuah teks dokumen tanpa perlu melakukan pengetikan
ulang[1]. Menurut Ismail Bouazizi, dkk. [4] OCR terdiri dari 6 tahapan seperti
terlihat pada gambar 1 yaitu :

Image
Segmentation Preprocessing
Acquisition

Feature Post
Classification
Extraction Processing

Gambar 1. Tahapan Proses OCR


1. Image Acquisition
Image Acquisition (scanning) merupakan tahap pertama dari sebuah proses
OCR pada tahapan ini dokumen cetak maupun tulisan tangan akan melalui
proses scanning agar didapatkan file gambar digital. File gambar digital ini
kemudian dikonversi menjadi bi-level image black and white untuk
memudahan proses rekognisi dengan cara memperbaiki grey level
threshold. Grey level dibawah threshold dinyatakan hitam dan grey level
di atas threshold dinyatakan putih[4].
2. Segmentation
Segmentation adalah proses untuk memisahkan setiap karakter yang
terdapat pada berkas gambar. Pada teks yang menggunakan alfabet latin
segmentasi dilakukan dengan cara memisahkan setiap connected black
component yang dianggap sebagai sebuah karakter[4].
3. Preprocessing
Proses preprocessing berfungsi untuk memperbaiki berkas gambar karena
berkas gambar bisa saja memiliki beberapa defect yang dapat disebabkan
oleh beberapa hal seperti, jenis dokumen, posisi dokumen pada scanner
saat proses scanner, dll. Hal ini diperbaiki dengan beberapa metode seperti
noise removal, rotation, scaling dll[4].
4. Feature Extraction
Tahapan feature extraction merupakan tahapan yang cukup penting dalam
OCR. Tahap ini menangkap karakteristik penting pada sebuah karakter,
dan mengesampingkan karakteristik lain yang tidak penting teknik
ekstraksi dapat dilakukan dengan 3 metode yaitu : distribution of points,
transformation and series expansions, dan structural Analysis[4].
5. Classification
Setelah tahap feature extraction dilakukan tahap selanjutnya adalah
classification yang merupakan tahap mengidentifikasi setiap karakter dan
melakukan assigning pada class. Tahap ini menggunakan common
characteristics dari sebuah simbol untuk menentukan class membership.
Relasi antar keduanya kemudian di analisa untuk mengidentifikasi
karakter[4].
6. Post Processing
Rekognisi setiap karakter tidak cukup untuk mengekstrak informasi,
simbol individual perlu disusun dengan simbol lainnya untuk dapat
membentuk sebuah kata proses ini dinamakan grouping. Grouping
mengumpulkan setiap karakter yang berdekatakan untuk Menyusun
sebuah kata. Setelah proses grouping proses selanjutnya adalah
mendeteksi error dan memperbaikinya[4].
5.2 Algoritma Genetik
Genetic Algorithm (GA) atau Algoritma Genetik merupakan bagian dari
evolutionary algorithm yang menjadi salah satu bagian dari artificial
inteligence yang berkembang cukup pesat. Terinspirasi dari teori evolusi
Darwin GA menerapkan proses evolusi untuk menyelesaikan permasalahan
yang ada[5].
GA dapat dipahami sebagai teknik optimisasi yang berdasarkan populasi
serta algoritma pencarian yang heuristik yang meniru proses evolusi alami
manusia. Operasi yang terdapat pada GA adalah prosedur berulang yang
memanipulasi satu populasi kromosom (kandidat solusi) untuk menghasilkan
populasi baru melalui proses genetik seperti crossover dan mutasi seperti pada
prinsip evolusi reproduksi, rekombinasi genetik serta survival of the fittest
yang dikemukakan oleh Charles Darwin. Perbandingan antara terminologi
yang digunakan pada genetik manusia dan GA dapat dilihat pada Tabel 1[6].
Tabel 1 Perbandingan Terminologi Genetik Manusia dan GA

No Genetik Terminologi GA
Manusia
1 Chromosomes Bit strings
2 Genes Features
3 Allele Feature Value
4 Locus Bit position
5 Genotype Encoded string
6 Phenotype Decoded genotype

5.2.1 Proses pada Algoritma Genetik


Menurut Ahmed A[5]. Secara sederhana GA terdiri dari 4 proses yaitu
inisialisasi, evaluasi, seleksi, dan GA Operator, alur kerja dari 4 proses ini
dapat dilihat pada flowchart yang terdapat pada Gambar 2.
Gambar 2. Flowchart GA

1. Inisialisasi
Proses pertama pada GA adalah inisialisasi. Inisialisasi kandidat populasi
kromosom dapat dibuat secara acak atau dengan mendefinisikan input
chromosome. Bagaimana proses inisialisasi dilakukan bukanlah sebuah hal
yang bersifat critical selama initial population mencakup berbagai
pengaturan design variable. Jika informasi mengenai bagaimana sistem
dapat dioptimasi dapat diketahui, hal tersebut dapat dimasukan kedalam
initial population. Dalam binary representation setiap kromosom adalah
sebuah string yang terdiri dari bit 0 dan 1. Panjang dari sebuah string
bergantung pada required precision[5].
2. Evaluasi
Setelah populasi kromosom di inisialiasi proses selanjutnya adalah proses
evaluasi dimana pada proses ini nilai fitness mulai dihitung. Tujuan dari
fitness adalah untuk meng-encode secara numerical performa dari setiap
kromosom[5].
3. Seleksi
Pada tahap ini kromosom dengan nilai fitness terbesar akan ditempatkan
satu atau beberapa kali pada mating pool subset dengan cara semi-random.
Kromosom yang memiliki nilai fitness yang rendah akan dihapus dari
populasi. Terdapat beberapa metode untuk menjalankan seleksi, salah satu
metode yang biasa digunakan adalah roulette wheel selection dimana
setiap kromosom di tempatkan sesuai dengan nilai fitness function. Metode
ini dapat disimulasikan dengan menggunakan algoritma sebagai berikut :
1. [SUM] Menghitung total semua fitness kromosom ( f i) pada populasi
pop−¿f i ¿
F= ∑ ¿ (1)
i=1

2. [COMPUTE] menghitung probabilitas dari seleksi untuk setiap


individual i sebagai
p
i=
fi (2)
F

3. [Loop] melalui semua populasi dari i=1 to pop-size(N).


a. [COMPUTE] menghitung probabilitas kumulatif setiap i sebagai,
i
Q i=∑ p j (3)
j=1

b. [SELECT] Men-generate nomor acak dari r ∈[0,1]


c. [DECISION] ketika Qi−1 ≤ r i ≤Qi pilih kromosom i
4. Exploration
Tahapan exploration terdiri dari proses crossover dan mutasi.
1. Crossover
Crossover merupakan proses perkawinan silang untuk mencari nilai-
nilai baru dengan cara menggabungkan dua kromosom atau lebih
untuk membentuk sebuah kromosom baru. Crossover akan
menghasilkan keanekaragaman string pada satu populasi dengan
melakukan penyilangan antar string yang didapat dari reproduksi
sebelumnya. Hal ini akan menghasilkan 2 offspring dari 2 kromosom
induk, sehingga populasi akan meningkat dua kali populasi awal[7].
2. Mutasi
Proses mutasi memilih secara acak kromosom yang akan dimutasi dan
secara acak menentukan titik mutasinya. Jumlah kromosom yang
dimutasi dihitung berdasarkan probabilitas mutasi yang ditentukan
terlebih dahulu. Semua kromosom akan mengalami mutase jika
probabilitas mutasi mencapai 100%[7].
5.3 Fuzzy K-Nearest Neighbor
Fuzzy K-Nearest Neighbor (F-KNN) algorithm merupakan algoritma yang
menggabungkan prinsip logika fuzzy ke dalam algoritma k-Nearest Neighbor
(K-NN) yang bertujuan untuk menghindari sifat kekakuan yang ada pada
hubungan antara setiap data dan kelas. Pada F-KNN relas antara data dan
kelas tidak bersifat kaku karena setiap kelas dan data memiliki hubungan
keanggotaan atau membership dengan tingkatan tertentu[8].
Dasar dari algoritma ini adalah untuk memberlakukan membership sebagai
fungsi dari vectors distance dari K-nearest neighbor dan neighbors
membership pada kelas yang memungkinkan[9]. Algoritma perhitungan F-
KNN dapat didefinisikan sebagai berikut :

( )
K 2
1
∑ u ij ∥ x−x j ∥
m−1
j=1
ui ( x ) = (1)
( )
K 2
1
∑ ∥ x− x j ∥
m−1
j=1

Keterangan :
ui ( x ) = Nilai keanggotan data x ke kelas i
K = Jumlah neighbor terdekat yang digunakan
uij = Nilai keanggotaan kelas i pada vektor j
x−x j = Selisih jarak dari data x ke data x j dalam K-neighbor terdekat
m = Weight exponent

6. METODOLOGI

Metodologi penelitian yang diterapkan dalam penulisan tugas akhir ini


meliputi:
6.1 Identifikasi Masalah
Berdasarkan latar belakang yang telah dijelaskan di atas, penulis
memberikan informasi berikut tentang masalah yang akan digunakan sebagai
bahan penelitian :
1. Sistem OCR untuk merekognisi teks cetakan arab masih perlu
dikembangkan untuk menghasilkan tingkat akurasi yang tinggi.
2. Metode genetic algorithm diperlukan untuk meningkatkan tingkat
akurasi pada proses feature selection untuk OCR pada teks cetakan
arab yang memiliki karakteristik noisy environment.
3. Diperlukan metode Fuzzy K-Nearest Neighbors sebagai algoritma
klasifikasi untuk proses OCR pada teks cetakan arab.
6.2 Studi Literatur
Melakukan pencarian referensti teori yang relevan, dengan kasus atau
permasalahan yang ditemukan berdasarkan sumber penelitian sebelumnya
seperti paper, jurnal, dan buku-buku untuk menunjang penyusunan laporan
tugas akhir.
6.3 Analisis dan Perancangan
Pada penelitian ini akan dibuat sistem OCR yang dapat merekognisi teks
cetakan huruf arab menggunakan Genetic Algorithm sebagai metode feature
extraction serta Fuzzy K-Nearest Neighbors sebagai metode klasifikasi teks.
Pembahasan akan beralih pada analisis dari rancangan sistem. Diantaranya
adalah kebutuah yang harus disiapkan dan jenis data yang dibutuhkan dalam
sistem yang akan dirancang.
6.4 Implementasi
Berdasarkan analisis dan perancangan maka akan dibuat sistem OCR yang
dapat merekognisi teks yang kemudian akan diterapkan serta pengurjian guna
mengetahui presentasi hasil dari sistem itu sendiri.
6.5 Kesimpulan
Membuat kesimpulan berdasarkan data hasil implementasi.

7. JADWAL PENELITIAN TUGAS AKHIR

Tabel 2. Jadwal Penelitian Tugas Akhir

Minggu
NO Kegiatan 1 1 1
1 2 3 4 5 6 7 8 9 0 11 2 13 4 15 16
Studi
Literatur dan
Pengumpulan
1 data
Pengerjaan
2 Tugas Akhir
Analisis dan
3 Perancangan
4 Implementasi
5 Pengujian
6 Sidang
Pembuatan
7 Laporan

8. USULAN PEMBIMBING

- Ulil Surtia Zulpratita, S.T., M.T.


- Helmy Faisal Muttaqin, S.Kom., M.T.
DAFTAR PUSTAKA

[1] Lawgali Ahmed. (2015). A Survey on Arabic Character Recognition.


International Journal of Signal Processing, Image Processing and Pattern
Recognition Vol. 8, No. 2 (2015), pp. 401-426
[2] Althobaiti Hassan, Lu Chao . (2017). A Survey on Arabic Optical
Character Recognition and an Isolated Handwritten Arabic Character
Recognition Algorithm using Encoded Freeman Chain Code. 2017 51st
Annual Conference on Information Sciences and Systems (CISS)
[3] Elzoghaly K.O, Darwish S. M. (2020). An Enhanced Offline Printed
Arabic OCR Model Based on Bio-Inspired Fuzzy Classifier. IEEE
ACCESS Volume 8 2020
[4] I. Bouazizi, F. Bouriss, Y. Salih-Alj. (2013). ‘Arabic reading machine for
visually impaired people using TTS and OCR. Proc. 4th Int. Conf. Intell.
Syst., Modeling Simulation, Jan. 2013, pp. 225–229.
[5] A. El-Sawy, M. Hussein, E. Zaki, and A. A. Mousa. (2014)An
introduction to genetic algorithms: A survey, a practical issues. Int. J. Sci.
Eng. Res. vol. 5, no. 1, pp. 252–262
[6] B. Oluleye, A. Leisa, J. Leng, and D. Dean. (2014). A genetic algorithm—
Based feature selection. Brit. J. Math. Comput. Sci., vol. 4., no. 21, pp.
889–905, 2014
[7] Syafiral F, Rolly M A, Esi V. R., Seta P. (2019) “Implementasi Algoritma
Genetika untuk Optimalisasi Pelayanan Kependudukan”. Jurnal Tekno
Insentif
[8] Rimbun S, Resianta P. (2017). Hibridisasi Metode Fuzzy K-Nearest
NeighborDengan MetodeModified Particle Swarm Optimization Pada
Pengklasifikasian Penyakit Tanaman Kedelai. Jurnal & Penelitian Teknik
Informatika Volume 2 Nomor 2, Oktober 2017
[9] M. Amir fakhrian, S. Sajadi. (2013). Fuzzy K-Nearest Neighbor Method to
Classify Data in a Closed Area. International Journal of Mathematical
Modelling & Computation Vol. 3, No. 02, 2013, 109-114

Anda mungkin juga menyukai