Anda di halaman 1dari 6

PENGENALAN TULISAN TANGAN AKSARA SUNDA MENGGUNAKAN KOHONEN NEURAL NETWORK

Mubarok
Ilmu Komputer Universitas Pendidikan Indonesia Jl. Dr. Setiabudhi 229 Bandung ayox060457@yahoo.co.id

Lala Septem Riza MT.


Ilmu Komputer Universitas Pendidikan Indonesia Jl. Dr. Setiabudhi 229 Bandung lala_s_riza@yahoo.com

Dr. Wawan Setiawan M.Kom.


Ilmu Komputer Universitas Pendidikan Indonesia Jl. Dr. Setiabudhi 229 Bandung pik@upi.edu

ABSTRAK
Aksara Sunda merupakan ciri khas dan warisan leluhur dari suku Sunda yang perlu dilestarikan keberadaannya. Aksara Sunda telah ada sejak 5 abad yang lalu. Saat ini aksara Sunda telah memiliki standar dari Unicode. Oleh karena itu, penulis mengembangkan model dan perangkat lunak p engenalan tulisan tangan aksara Sunda secara real time. Real time atau online merupakan cara pengenalan dari OCR (Optical Character Recognize). Aksara Sunda yang digunakan dalam peneltian ini adalah aksara Sunda Ngalagena yang memiliki 23 jenis karakter. Model dan perangkat lunak yang dibangun menggu nakan feature extraction zoning dan mempertimbangkan panjang guratan. Algoritma yang digunakan adalah algoritma kohonen neural network. Kohonen neural network termasuk unsupervised learning (pembelajaran tak terawasi) dengan mempelajari himpunan distribusi pola-pola tanpa informasi kelas. Dari hasil pengujian dengan guratan normal didapat akurasi tertinggi sebesar 77,39% dengan akurasi rata-rata sebesar 75,36%. Pengujian terhadap guratan noise diperoleh akurasi sebesar 76,52% dengan akurasi rata-rata sebesar 75,36%.

Ketentuan Umum
Teori

Kata Kunci
Unicode aksara Sunda, Kohonen Neural Network, Unsupervised learning, OCROnline

1.

PENDAHULUAN

ABSTRACT
Sundanese script is typical and Sundanese heritage of the need to preserve its existence. Sundanese script has been around since the 5th century ago. Currently Sundanese script has the Unicode standard. Therefore, the authors develop ed a model and handwriting recognition software Sundanese script in real time. Real time or online is a way of introduction of OCR ( Optical Character Recognize). Sundanese script used in this research is Ngalagena Sundanese script that has 23 types of char acters. Models and software that is built using feature extraction to zoning and consider the long strokes. The algorithm used is the Kohonen neural network algorithm. Kohonen neural network, including unsupervised learning (unsupervised learning) by studying the distribution patterns of the set without class information. From the test results obtained with normal strokes in the highest accuracy of 77.39% with an average accuracy of 75.36%. Tests on the stroke of noise obtained accuracy of 76.52% with an average accuracy of 75.36%.

Kategori dan Deskripsi Subjek


D.3.3 [Kecerdasan Buatan]: Pengenalan Tulisan Tangan Aksara Sunda; menghitung akurasi sistem.

Perkembangan teknologi saat ini mempunyai peranan penting dalam kehidupan manusia. Teknologi merupakan hasil dari pemikiran dan ide manusia. Teknologi diciptakan bukan untuk mempersulit, melainkan untuk membantu dan mempermudah kehidupan manusia serta dapat memanusiakan manusia. Kecanggihan teknologi telah membuat banyak perubahan pada diri manusia. Salah satu kecanggihan teknologi tersebut adalah komputer dengan input-an dari keyboard. Dahulu komputer merupakan alat hitung dan alat ketik. Namun seiring dengan berjalan waktu, komputer telah berubah menjadi alat yang dapat melakukan berbagai proses antara lain menghitung, menyimpan data, mengolah data, pengolahan citra atau gambar, sistem pakar, sistem cerdas, game dan sebagainya. Perkembangan teknologi saat ini tidak hanya terpaku pada teknologi dengan input-an dari keyboard. Saat ini telah diciptakan teknologi dengan input-an berupa touchscreen atau menulis langsung pada layar tanpa menggunakan bantuan keyboard. Namun, dalam aplikasin ya belum terdapat konten berupa aksara aksara kuno seperti aksara Sunda. Oleh karena itu, penulis dalam paper ini mencoba mengembangkan model dan aplikasi dengan aksara Sunda sebagai studi kasus serta menggunak an algoritma kohonen . Kohonen atau Self Organizing Map (SOM) pertama kali dikenalkan oleh Teuvo Kohonen pada awal tahun 1980 -an. Metode kohonen termasuk unsupervised learning dengan memperlajari himpunan distribusi pola -pola tanpa informasi kelas. Aksara Sunda merupakan studi kasus dalam penelitian ini. Saat ini penelitian mengenai pengenalan tulisan tangan aksara Sunda masih relatif sedikit, karena aksara Sunda di gunakan hanya pada kalangan tertentu (misalnya masyarakat Jawa Barat). Aksara Sunda telah ada sejak 5 abad yang lalu yang merupakan hasil karya ortografi masyarakat Sunda. Saat ini aksara Sunda telah memiliki standar dari Unicode.

Penelitian ini diharapkan dapat menjadi langkah awal dalam pengembangan aplikasi selanjutnya yang menggunakan karakter aksara Sunda, dan juga diharapkan dapat melestarikan kebudayaan Sunda.

2.

PENGEMBANGAN SISTEM MODEL

2.1 Pengenalan Aksara Sunda aksara Sunda adalah hasil karya ortografi masyarakat Sunda. Aksara Sunda sudah ada sejak sekitar abad 5 M yang lalu pada masa Kerajaan Tarumanagara. Hal itu tampak pada prasastiprasasti dari zaman itu yang sebagian besar telah dibicarakan oleh Kern (1917) dalam buku yang berjudul Versvreide Geschriften; Inschripties van den Indichen Archipel. Karya tersebut memuat cukup lengkap data-data inskripsi dan facsimile disertai peta arkeologis yang cukup jelas [2] Secara umum lambang aksara Sunda dapat digolongkan ke dalam kelompok aksara swara, aksara Ngalagena, aksara khusus, aksara rarangken, pasangan, dan angka [2]. Berikut ini adalah daftar aksara Sunda Ngalagena yang telah distandardisasi Unicode: Tabel 2.1 Daftar aksara Sunda Ngalagena (http://www.unicode.org/charts/PDF/U1B80.pdf ) [2] NAMA KODE KARAKTER AKSARA SUNDA 1B8A KA 1B8B QA 1B8C GA 1B8D NGA 1B8E CA 1B8F JA 1B90 ZA 1B91 NYA 1B92 TA 1B93 DA 1B94 NA 1B95 PA 1B96 FA 1B97 VA 1B98 BA 1B99 MA 1B9A YA 1B9B RA 1B9C LA 1B9D WA 1B9E SA 1B9F XA 1BA0 HA Dilihat dari kebiasaan cara penulisan , berikut adalah cara panulisan aksara Sunda Ngalagena:

Gambar 2.1 Cara penulisan Aksara Sunda Ngalagena [2] 2.2 OCR (Optical Character Recognize) Optical Character Recognition (OCR) merupakan sistem yang dapat mengenali tulisan baik itu tulisan cetak (ketik, scan) maupun tulisan tangan. Untuk mengenali tulisan, O CR memiliki 2 cara, yaitu off-line dan on-line. Off-line merupakan cara pengenalan tulisan dengan input-an berupa gambar hasil scan. Sedangkan on-line adalah cara pengenalan tulisan dengan mengenali tulisan tangan langsung dengan input-an berupa coretan atau guratan tulisan yang ditulis real time pada media penulisan digital. Secara umum tahapan pengenalan tulisan sistem OCR on-line dapat dilihat pada gambar berikut: Online input

Image processing

Feature extraction

Classifier/Clustering

Classifier/Clustering Result Gambar 2.2 Tahapan sistem OCR on-line [4] 2.3 Image Processing Image prosesing memiliki beberapa tipe untuk memproses gambar, namun dalam penelitian ini yang digunakan dalam proses pengolahan gambar antara lain segmentasi dan scalling,

2.3.1 Segmentasi Bertujuan untuk men-segmen atau capture gambar agar dapat dilakukan proses pemotongan gambar [1]. Proses segmentasi dilakukan dengan mencari batas daerah gambar yang akan di-capture, mulai dari batas atas, batas bawah, batas kanan dan batas kiri. Proses segmentasi diawali dengan men-scan gambar dari kiri ke kanan dan dari atas ke bawah. Proses scan adalah untuk mengetahui awal terdapatnya pi ksel hitam sampai selanjutnya bertemu pada pixel hitam yang terakhir pada gamabr. S etelah proses scan selesai, selanjutnya melakukan pengkotakan atau pembatasan daerah gambar ya ng memiliki pixel hitam. 2.3.2 Scalling scalling adalah proses untuk mengubah ukuran suatu image [1]. Scalling merupakan proses menormalisasikan ukuran sehingga ukuran yang diperoleh selalu sama walaupun ukuran tulisan atau gambar tidak sama (besar atau kecil). Dalam penelitian ini ukuran gambar dari hasil scalling di-set ke dalam dimensi 11x11. . 2.4 Feature Extraction Feature extraction bertujuan untuk mendapatkan karakteristik suatu karakter yang membedakannya dari karakter lain, yang disebut dengan feature [5]. Pada penelitian ini feature extraction yang digunakan adalah zoning. Zoning merupakan salah satu Feature Extraction dari tipe statistical feature. Metode zoning adalah membagi karakter menjadi N x M wilayah. Dari setiap wilayah, feature diekstraksi untuk membentuk feature vector. Tujuan zoning yaitu memperoleh karakteristik lokal disamping karakteristik global.

Guratan

Feature extraction

Hasil
11111110000 0000011000000000100000000 0110000000001000000 00011011111000100 00001 0001000000100110000001001000000 0100111111111 000110110010

Gambar berikut adalah gambaran mengenai proses penghitungan panjang guratan.

Gambar 2.4 Hitung panjang guratan [7] Gambar 2.4 menjelaskan mengenai bagaiman a representasi dari penghitungan panjang guratan. Sebelum melangkah jauh pada proses penghitungan panjang guratan, terlebih dahulu penulis mencerita bagaiman a representasi image pada aplikasi yang dibangun. Terlihat pada gambar 2.4 titik pusat (0,0) terdapat di atas. Panjag dari sumbu x adalah semakin ke kanan nilai x akan sema kin besar. Sedangkan pada sumbu y, semakin ke bawah maka nilai y akan semakin bertambah. Ini berpeangaruh pada penghitungan panjang guratan yang mana pada proses penghitungan panjang guratan akan membutuhkan koordinat (x,y) untuk mendapat hasil penghitunga n akhir. Proses penghitungan panjang guratan dimulai dari awal dilakukannya pengguratan (pertama kali mouse diguratkan) dilakukan sampai terus menerus hingga berakhirnya di lakukannya guratan. Proses penghitungan guratan menggunakan eucledian distance. Berikut adalah rumus eucledian distance yang digunakan. (2.1)

Gambar 2.3 Metode Zoning [7] Untuk mendapatkan karakteristik karakter, digunakan pula menghitung panjang guratan. Hasil dari penghitungan panjang guratan adalah angka desimal yang dikonversi ke biner(0,1) sebanyak 12 digit. Jadi, hasil dari feture extraction (zoning dan hitung panjang guratan) adalah sebanyak 133 digit. Berikut adalah contoh dari hasil feature extraction (zoning dan hitung panjang guratan). Tabel 2.2 contoh hasil feature extraction Feature Guratan Hasil extraction
1111111100000000011000000000100000000 0110000000011000000001100000000110000 0000010000000001100000000010000000001 11 11111111 000110010110 001111111100010000000000100000000011 000000000100001111101000000001010000 000011100000000110000000001100000000 011 1111111111 001011101010

. 2.5 Kohonen Kohonen atau Self Organizing Map (SOM) pertama kali dikenalkan oleh Teuvo Kohonen pada awal tahun 1980 -an. Metode kohonen termasuk unsupervised learning dengan memperlajari himpunan distribusi pola -pola tanpa informasi kelas.

Gambar 2.5 Struktur kohonen [1]

Algoritma kohonen yang digunakan adalah sebagai berikut: Mulai Sebelum melakukan proses pelatihan dan pengenalan, nilai parameter yang digunakan dalam algoritma kohonen meliputi bobot(acak) dengan bilangan random antara 0 dan 1, learning rate = 0.5, pengurang learning rate = 0.3, MaxEpoch = 1000. Proses pengujian akurasi dilakukan sebanyak 3 kali dengan jumlah data training masing-masing 230, 460, dan 690. Pengujian dilakukan oleh tiga penguji yang berbeda dan memiliki karkateristik penulisan yang berbeda. Data uji yang dimasukkan oleh setiap penguji berjumlah 115 per data training. Untuk data training 230, data uji yang digunakan berjumlah 345 (dari 3 penguji) begitu pun untuk data training 460 dan 690, data uji yang digunakan berjumlah 345. Berikut adalah contoh penulisan guratan normal yang digunakan dalam pengujian. 3.1 Akurasi Pengenalan Tulisan Tangan Aksara Sunda Ngalagena Dengan Guratan Normal

Data masukan:

Data hasil feature extraction

Inisialisasi 1.Bobot (acak) 2.Learning rate () 3.Pengurang learning rate 4.MaxEpoch

Berhenti = salah

Selesai

Gambar 3.1 Contoh penulisan guratan normal Hitung kedekatan dengan: Tabel berikut memperlihatkan akurasi pengenalan dengan guratan normal. Tabel 3.1 Akurasi pengenalan dengan guratan normal Jumlah Data Pengenalan No Pengujian Akurasi Training Uji Benar Salah Tentukan indeks j sedemikian sehingga dj minimum 1 2. 3 Modifikasi bobot dengan: 1 2 3 230 460 690 345 345 345 267 259 254 78 86 91 77,39% 75,07% 73,62% 75,36%

Rata-rata

Modifikasi learning rate dengan:

Dari tabel 3.1 dapat dilihat bahwa hasil akurasi tertinggi sebesar 77,39% dan rata-rata akurasi sebesar 75,36%. Dari hasil pengamatan, hasil akurasi yang didapat dipengaruhi ol eh mood penguji yang pada saat itu dirasa kurang menikmati pengujian yang terlalu lama dan banyak data yang diuji. Juga dipengaruhi oleh hasil ekstraksi ciri dan cluster yang dihasilkan yang berakibat pada pengenalan sering mengalami kesalahan. Tidak hanya itu hasil yang didapat juga dipengaruhi oleh kualitas data sample yang digunakan. 3.2 Akurasi Pengenalan Tulisan Tangan Aksara Sunda dengan Noise Nilai parameter yang digunakan dalam pengujian ini sama dengan pengujian dengan guratan normal yakni bobot (a cak), learning rate = 0.5, pengurang learning rate = 0.3 dan MaxEpoch = 1000. Proses pengujian akurasi dilakukan sebanyak 3 kali dengan jumlah data training masing-masing 230, 460, dan 690. Pengujian dilakukan oleh seorang penguji. Data uji yang

Gambar 2.6 Alur algoritma kohonen (modifikasi)[5]

3.

PENGUJIAN

Pengujian dilakukan dengan menggunakan perang kat lunak yang telah dibuat dengan skenario sebagai berikut: 1. Pengujian untuk mengetahui akurasi pengenalan tulisan tangan aksara Sunda Ngalagena dengan menggunakan algoritma kohonen neural network 2. Pengujian untuk mengetahui akurasi pengenalan tulisan tangan aksara Sunda Ngalagena dengan menggunakan algoritma kohonen neural network dengan noise.

berjumlah 115 per data training. Berikut adalah contoh sampel tulisan tangan dengan noise.

[3]

Heaton, Jeff. 2005. Introduction to Neural Networks with Java. New York: Heaton Research, Inc. Karundeng, brian,dkk. An Evaluation Of Feature Extraction Algorithms For Automatic Language Transcription System For Ancient Handwriting Javanese Manuscripts. Jakarta: Swiss German University. Kusumadewi, Sri. 2009. Pengenalan Artificial Neural Network. Handout kuliah. Bandung: Institut Teknologi Bandung. Siong, Ang Wie., Resmana. 1999. Pengenalan Citra Objek Sederhana Dengan Menggunakan Metode Jaringan Saraf Tiruan Som. Prosiding Seminar Nasional I Kecerdasan Komputasional Universitas Indonesia, 20 21 Juli 1999. Surabaya: Universitas Kristen Petra. [Online]. Tersedia: http://fportfolio.petra.ac.id/user_files/91 -024/somimage-recog.doc [27 Februari 2010] Vamvakas, Giorgos. Optical Character Recognition for Handwritten Characters. Athens: Institute of Informatics and Telecommunications.

[4]

Gambar 3.2 Contoh penulisan dengan noise Tabel berikut memperlihatkan akurasi pengenalan dengan guratan normal. Tabel 3.3 akurasi pengenalan tulisan tangan dengan noise Jumlah Data Pengenalan No Pengujian Akurasi Training Uji Benar Salah 1 2. 3 1 2 3 230 460 690 115 115 115 88 88 84 27 27 31 76,52% 76,52% 73,04% 75,36%

[5]

[6]

Rata-rata

[7]

Dari tabel 3.2 didapat hasil akurasi tertinggi sebesar 76,52% dan akurasi rata-rata sebesar 75,36%. Hasil yang dicapai ini dipengaruhi oleh noise yang dilakukan pada waktu pengujian sehingga saat dilakukan ekstraksi ciri tidak dapat menghasilkan ciri yang sesuai atau yang seharusnya pada penulisan normal.

KESIMPULAN

Dari pembahasan dan analisis pengujian di atas dapat disimpulkan bahwa model dan aplikasi yang dikembangkan telah mampu menjalankan proses pengenalan tulisan tangan aksara Sunda dengan akurasi tertinggi pada pengujian guratan normal adalah sebesar 77,30% dan rata -rata akurasi sebesar 75,36% sedangkan pada pengujian menggunakan noise didapat akurasi tertinggi sebesar 76,52% dengan rata -rata akurasi sebesar 75,36%

5.
[1]

DAFTAR PUSTAKA
Asworo. 2010. Perbandingan antara metode kohonen Neurall network dan learning vector Quan tization pada sistem pengenalan Tulisan tangan secara real time . Surabaya: Institut Teknologi Sepuluh November. [Online]. Tersedia: http://digilib.its.ac.id/bookmark/9299/real [26 Mei 2010] Baidillah, Idin, dkk. 2008. Direktori Aksara Sunda untuk Unicode. [Online]. Tersedia : http://sabilulungan.org/aksara/.../Direktori_Aksara_Sun da_untuk_ Unicode.pdf [14 Maret 2010]

[2]