Anda di halaman 1dari 11

HUG1M2 - PENGANTAR TEKNIK INFORMATIKA Semester Genap 2012-2013 Intelli ent Appli!

ati"ns # $"mp%ter &isi"n' O$R' Te(t T" Spee!)' *an Spee!) t" Te(t

Tujuan Pembelajaran: Tujuan Umum:


1. Memberikan pemahaman mengenai aplikasi cerdas terinspirasi oleh kemampuan manusia untuk dapat melihat, mendengar, dan mengucap.

Tujuan Khusus
Setelah mengikuti bagian kuliah ini, mahasiswa dapat: 1. Menjelaskan mengenai Computer vision yang merupakan adaptasi dari penglihatan manusia, beserta aplikasi-aplikasinya, . Menjelaskan mekanisme aplikasi pengenalan tulisan, !. Menjelaskan langkah-langkah pembacaan te"t menjadi suara, #. Menjelaskan langkah-langkah pengenalan suara menjadi suatu te"t.

MATERI
Pendahuluan Manusia diberikan anugerah panca indera yang sangat sempurna oleh Allah (Tuhan). Selain panca indra, manusia juga dikaruniai akal yang mendorong pada proses karya, cipta dan karsa. Hasil dari proses akal adalah semakin berkembangnya berbagai teknologi hingga saat ini. Salah satu teknologi yang berkembang pesat adalah komputer. Komputer sebagai ciptaan manusia diidam idamkan menjadi suatu asisten (pembantu) manusia dalam bekerja. !erangkat komputer dibekali dengan berbagai kemampuan termasuk menirukan proses kerja dari panca indera. Suara dan mata, adalah hal yang sukses ditirukan oleh manusia. Komputer dengan meman"aatkan ilmu gelombang (signal) mampu menyimpan dan mengeluarkan suara. Speaker adalah alat khusus yang diciptakan untuk mengeluarkan gelombang ini. Komputer juga meman"aatkan micro"on sebagai pengganti telinga. Mata untuk komputer ditirukan dalam suatu teknologi kamera. Kamera digital, #eb cam, cct$ adalah contoh alat yang menjadi %mata& bagi komputer. 'engan peralatan itu, komputer dapat menyimpan pandangan, untuk kemudian %dikenali&. Manusia diberikan anugrah akal yang juga dapat ber"ikir dengan sangat cepat. Sebagai contoh seorang bayi mungil yang masih belum bisa berjalan sekalipun bisa menangis manakala dirinya digendong oleh orang lain yang bukan anggota keluarganya. Hal ini dapat

terjadi karena sang bayi dapat melihat, kemudian mengenali apakah orang yang menggendong adalah orang yang dia kenal. !roses pengenalan pada komputer memerlukan suatu perhitungan yang tidak mudah. (erbagai algoritma diciptakan oleh manusia untuk menirukan kemampuan ini. (erbagai aplikasi ini banyak dibahas pada ranah kecerdasan buatan. Computer Vision Melihat bagi manusia adalah satu hal yang mudah. Sebagai contoh pada saat kita melihat gambar di ba#ah ini, maka kita dapat dengan mudah mengenali beberapa hal sebagai berikut ) a. berapa banyak orang yang ada pada gambar, b. siapa yang sedang berjalan di atas api, atau c. ekspresi apa yang ditunjukkan oleh orang yang berjalan di atas api, apakah sedih, gembira, marah, tenang, atau kha#atir*

(agi manusia, pertanyaan pertanyaan tadi dapat dija#ab dengan mudah (kecuali pertanyaan b bagi yang belum mengetahui+kenal). ,amun pertanyaan pertanyaan tadi akan sangat sulit apabila ditanyakan kepada komputer. 'alam menja#ab pertanyaan pertanyaan tadi, komputer memerlukan proses ber"ikir yang sangat panjang, dan berbagai kombinasi algoritma khusus yang didesain untuk menyelesaikan salah satu dari permasalahan tersebut. Algoritma algoritma itu banyak dibahas pada cabang computer vision. Tidak hanya pertanyaan di atas saja, computer $ision juga diaplikasikan pada berbagai hal seperti contoh di ba#ah ini )

Aplikasi pada dunia industry yang meman"aatkan computer $ision) (a) optical character recognition (-./) http)++yann.lecun.com+e0db+lenet+1 (b) mechanical inspection http)++###.cognitens.com+1 (c) retail http)++###.e$oretail.com+1 (d) medical imaging http)++###.clarontech.com+1 (e) automoti$e sa"ety http)++###.mobileye.com+1 (") sur$eillance and tra""ic monitoring http)++###.honey#ell$ideo.com+, courtesy o" Honey#ell 2nternational 2nc 345. (eberapa aplikasi lain pada computer $ision yakni 345 ) Motion capture (mocap)) proses menangkap pergerakan dengan beberapa kamera untuk menggerakkan actors pada animasi komputer1 Sur$eillance) pemantauan penyusup (maling), menganalisa tingkat kepadatan jalan, menganalisa kejadian kebakaran, dlsb1 6ingerprint recognition and biometrics) digunakan untuk proses otentikasi dengan meman"aatkan ciri ciri bagian dari tubuh (sidik jari, $ena, iris, atau #ajah). Stitching) menggabungkan beberapa "oto menjadi "oto panorama1

Morphing) mengubah satu salah #ajah menjadi #ajah orang yang lain1 7' modeling) mengkon$ersi satu image+multi image menjadi suatu model 7' dari objek yang di "oto1 8ideo match mo$e and stabili9ation) menyisipkan "oto : ' atau model 7' pada $ideo dengan melacak titik titik acuan sehingga terlihat halus (tidak terasa apabila disisipi)1 6ace detection) banyak dipergunakan pada kamera untuk auto "ocus sehingga hasil image lebih rele$an (pada orang)1 8isual authentication) otentikasi otomatis berdasarkan #ajah, ataupun iris. dlsb.

Optical Character Recognition -ptical .haracter /ecognition (-./) merupakan aplikasi dari .omputer 8ision yang melakukan pengenalan terhadap tulisan yang discan atau tersimpan pada suatu image. !ada image dapat tersimpan in"ormasi tulisan tangan, ataupun tulisan hasil cetakan. (eberapa perangkat keras telah menggunakan aplikasi -./ ini sebagai "itur mereka. Sebagai contoh pada Samsung ;ala0y ,ote 22, (lackberry, 2!hone, dan hard#are lainnya. <ang perlu dipahami adalah penyimpanan image dengan te0t sangat berbeda. Sebagai contoh pada pengiriman data dari handphone, biaya pengiriman sms (te0t melalui #hatsapp+aplikasi sejenis lainnya) jauh lebih murah daripada biaya pengiriman MMS (2mage melalui koneksi data). (iaya yang dikeluarkan untuk media penyimpan pun jauh lebih murah apabila disimpan dalam bentuk teks.

!enggunaan lain terlihat pada saat kita memiliki data berupa teks, akan dapat kita man"aatkan untuk proses lebih lanjut sebagai contoh translate.google.com, atau untuk proses kompilasi kode. 'engan alas an alasan itulah teknologi -./ dikembangkan. !ermasalahan permasalahan yang dihadapai pada -./ cukup banyak. (eberapa diantaranya ) background, symbol, tulisan tangan, bentuk tulisan, posisi hasil scan, orientasi, dan sebagainya.

(a) Minoru Mori, =.haracter /ecognition=, Scio croatia :>4>

(b) http://www.indsenz.com/design/images/screens/full/hindiocr_03.gif

(c) http://www.jiscdigitalmedia.ac.uk/images/OCR_hand.jpg 'alam memproses image menjadi suatu teks, komputer akan melakukan beberapa tahap pemrosesan. Masing masing computer scientist mungkin akan menerapkan tahap berbeda, namun secara umum tahap pengenalan pada -./ dapat dilakukan dengan ) 4. !re !rocessing :. .haracter /ecognition 7. !ost !rocessing (A) !re !rocessing Tahap pre processing ber"ungsi untuk mempersiapkan data pada image agar dapat dipergunakan untuk proses pengenalan. (eberapa tahap ini antara lain dapat melibatkan satu atau lebih tahap 3?ikipedia, cari source langsung5) 4. 'e Ske# ) !ada dokumen yang tidak tegak lurus saat di scan, maka harus dilakukan proses rotasi beberapa derajat untuk memastikan bah#a teks berada pada posisi $ertical ataupun hori9ontal yang sempurna1 :. (inari9ation ) Mengkon$ersikan image dari "ormat ber#arna (/;() atau grayscale menjadi "ormat hitam putih. Sebagai logika bah#a pada saat mengenali tulisan, maka yang lebih penting untuk dikenali adalah bentuk, bukan #arna tulisan1 7. @ine /emo$al ) memberihkan kotak dan garis yang tidak berhubungan dengan tulisan. Sebagai contoh pada saat -./ diterapkan pada "orm isian (biodata, "orm sur$ey) maka kotak akan dihilangkan terlebih dahulu1 A. @ayout Analysis (9oning) mengidenti"ikasi lokasi kolom, paragraph, lokalisasi teks. (iasa dipergunakan untuk -./ pada suatu tabel1 B. @ine and ?ord detection ) melihat posisi garis maya dari suatu tulisan, bentuk karakter, dan bila diperlukan memisahkan antar kata1 C. .haracter 2solation ) digunakan untuk memisahkan antar symbol dari tulisan apabila masing masing symbol saling terhubung. Sebagai contoh pada tulisan tangan, huru" Arab, Hindi, Hanacaraka, dan sebagainya perlu dipisahkan masing masing symbol sebelum dikenali1 D. ,ormalisasi aspect ratio dan skala1 E. 'an berbagai algoritma lain (untuk pemahaman lebih lanjut baca materi mengenai image processing) Tambahkan ilustrasi pre processing

(() .haracter /ecognition 'alam proses pengenalan karakter diperlukan suatu algoritma khusus. (eberapa algoritma yang biasa dipergunakan adalah algoritma algoritma learning (pada A2) seperti ,earest ,eighbour, Faringan Syara" Tiruan, dan algoritma algoritma lainnya. Masing masing algoritma memiliki perhitungan khusus, dan karakteristik yang berbeda beda dari sisi kecepatan, akurasi, dan perlakukan proses pembelajaran. Gntuk pemahaman lebih lanjut dapat melakukan studi literatura mengenai algoritma pada machine learning. (.) !ost !rocessing Tahap akhir dari -./ adalah melakukan pengecekan terhadap kesalahan dari hasil scan. Apabila dilihat huru" per huru", maka belum tentu semua huru" benar dalam dideteksi. Sebagai contoh pada ilustrasi di atas, kata HdariI dideteksi menjadi kata HdoriI. Gntuk itu proses pencocokan dengan meman"aatkan kamus dapat dilakukan. Tidak hanya pada le$el kata saja, pencocokan antar kalimat juga dapat dilakukan. Sebagai contoh apabila terdapat kalimat tertulis ) Hbayi yang baru disarankan meminum asiI namun terdeteksi sebagai Hbayi yang haru disarankan meminum asiI juga dapat dilakukan proses koreksi. (erbagai macam algoritma koreksi dikemukakan, salah satunya adalah co ocurance. 'etail mengenai algoritma akan banyak dibahas pada MK pilihan.

Text To Speech Teknologi pemrosesan suara telah menjadi topic penelitian selama lebih dari B> tahun. Tujuan utama dari penelitian pemrosesan suara adalah untuk membangun kemampuan dalam memahami manusia, menghasilkan suara bagi berbagai interaksi manusia ke manusia (human to human), dan interaksi manusia ke mesin (human to machine). Salah satu contoh mimpi peman"aatan teknologi ini tergambar dengan "ilm HS4m>neI yang dibintangi oleh Al !acino. !ada "ilm tesebut, Al !acino menjadi sutradara dari suatu produksi "ilm. 'alam memproduksi "ilm tersebut, Al !acino tidak puas dengan hasil dan sikap yang ditunjukkan oleh aktor utama. Apabila diperbolehkan, Al !acino menginginkan seorang pemeran pengganti, namun hal ini tidak dapat dengan mudah dilakukan di tengah tengah produksi. Tidak dinyana, tidak diduga, seorang penggemar Al !acino memberikan .' berisikan program mengenai program S4m>ne (Sumulator -ne) yang mampu memodelkan karakter (7') dan membantu mela"alkan dialog yang dikehendakinya. 'engan teknologi computer $ision (Motion .apture) terdapat riset diarahkan pada bagian pertama dari aplikasi tersebut yakni bagaimana menggerakkan model dengan pergerakan manusia lain (dalam "ilm tersebut pergerakan Al !acino). Apabila berangan angan, maka dengan teknologi Te0t to Speech, script naskah dapat dila"alkan dan ditirukan sesuai dengan intonasi yang diinginkan. Terdapat banyak sekali produk teks to speech di pasaran, diantaranya apabila kita cari pada site ###.do#nload.com maka akan terdapat sekitar 7>>> lebih aplikasi yang berhubungan dengan teks to speech.

.ontoh peman"aatan lain dari teks to speech ini terjadi pada human to human translation. (ayangkan kasus kita (orang 2ndonesia) yang tidk mengetahui bahasa /usia ingin berangkat dan memesan hotel dan beberapa peralatan lainnya di suatu pedesaan modern di /usia. !ada saat kita menel"on ke orang rusia, kecil sekali kemungkinan mereka memahami bahasa 2nggris, terlebih bahasa 2ndonesia. 'engan teknologi Human to human translation (yang dibangun dari Human to Machine, dan Machine to Human) hal di atas tidaklah menjadi masalah. Secara teknis kita dapat menel"on dengan menggunakan bahasa 2ndonesia, kemudian dengan teknologi Speech to Text akan diubah suara kita menjadi teks (kita sebut teks 2ndonesia). Teks 2ndonesia ini dengan bantuan mesin translasi (semacam http)++translate.google.com) mampu dikon$ersikan ke bahasa /usia. (ahasa /usia ini

dengan teknologi Text to Speech dapat dihasilkan suara dalam bahasa /usia dengan intonasi yang baik. /iset riset di atas memang masih menjadi impian bagi computer scientist, namun beberapa hasil sudah mulai dapat diterapkan dan dinikmati. Teknologi Te0t to Speech (TTS) atau dikenal suga dengan Speech Synthesis, sebenarnya adalah teknolgi yang membangun ucapan berdasarkan suatu teks input. (erbagai sistem teks to speech telah dikembangkan, dan pada bahasa 2ndonesia dapat kita temui 2ndoTTS sebagai salah satu library untuk teks to speech. Model yang umum dikembangkan dalam TTS terdiri dari dua komponen ) Te0t Analysis System (mendekode te0t dan mengungkapkan bentuk), dan Speech Synthesis. 2nput dari sistem ini adalah teks yang direpresentasikan dalam seJuence karakter AS.22 dengan panjang bebas. SeJuence teks tersebut kemudian dapat dipisahkan menjadi beberapa kalimat (sentence) dengan menggunakan sentence splitting Algorithm. Gntuk setiap kalimat kemudian dibagi menjadi beberapa token berdasarkan kemunculan spasi, punctuation, dan sebagainya. Seringkali token merepresentasikan sebuah kata, namun terkadang dapat merepresentasikan serangkaian angka, tanggal, dan type lainnya. Gntuk data yang bersi"at non linguistic (seperti angka, tanggal dan lain sebagainya) akan diproses lebih lanjut agar lebih natural. Sebagai contoh kita dapat mengubah H>::I menjadi Hkosong dua duaI. (agian Speech Synthesis term term tadi akan dipisah menjadi bentuk "onem nya. (agian synthesis kemudian mengambil pre recorded speech dan mencari unit yang cocok untuk masing masing "onem. 'engan teknologi signal processing, masing masing pre recorded phonem tadi disatukan dan disuarakan untuk menghasilkan suatu speech. Ada tambahan dalam proses speech synthesis, bah#a masih diperlukan pengubahan bentuk suara dari penggabungan ini agar intonasi dapat diucapkan dengan baik. Sebagai contoh pada saat ditemukan tanda tanya, titik, atau koma pada suatu kalimat, maka intonasi akan berbeda. 2lustrasi dapat dilihat pada tabel berikut ) @angkah 2nput Teks 'ata Tolong tele"on ibu /ina di nomor >:: DCBA7:4. (eritahukan bah#a pesanan barang sudah dikirim. Tolong tele"on ibu /ina di nomor >:: DCBA7:4. (eritahukan bah#a pesanan barang sudah dikirim. Tolong tele"on ibu /ina di nomor >:: DCBA7:4. K Kosong 'ua 'ua

Sentence Splitting

Token ;eneration

!emrosesan ,on linguistic (contoh >:: DCBA7:4)

!emecahan "onem

Search pre recorded database

!enggabungan dan !enambahan intonasi

K Ko So -ng Ko ko.#a$ So so.#a$ -ng ong.#a$ ;elombang suara kalimat.

yang

mengucapkan

Speech To Text (erbeda dengan TTS, Speech to Te0t dikenal juga dengan speech recognition atau automatic speech recognition (AS/) memiliki kompleksitas kasus yang lebih rumit. Tujuan dari speech recognition adalah untuk mengubah dari gelombang suara menjadi seJuence o" #ord. Aplikasi lain dari riset yang mendekati hal ini adalah speaker recognition dengan tujuan mengenai siapa pengucap dari suara. Kombinasi dari keduanya bisa menjadi teknologi $oice pass#ord yang dapat digunakan pada proses othentikasi. Secara garis besar AS/ menerima inputan berupa gelombang suara dalam bentuk !ulse .ode Modulation (!.M) yakni dokumen Ludio dalam "ormat digital. @angkah langkah yang dilakukan adalah 3http://project.uet.itgo.com/speech.htm]) 4. :. 7. A. Mengubah !.M menjadi representasi akustik yang lebih baik, Menerapkan aturan grammer sehingga AS/ dapat mendeteksi "onem yang muncul. Mendeteksi "onem mana yang muncul untuk diucapkan, Menggabungkan "onem yang muncul menjadi suatu kata.

@angkah pertama dalam proses AS/ mengubah !.M menjadi akustik yang lebih baik. Gntuk dipahami bah#a dalam kasus audio digital, untuk merepresentasikan 4 detik suara, terdapat 4C.>>> sampling gelombang (bisa 7:.>>>, atau CA.>>> dlsb). 'alam data 4 detik, terdapat berbagai kombinasi input suara yang sangat beragam. ;elombang 4 detik tersebut kemudian dibagi bagi dalam satuan #aktu yang lebih sedikit sebagai contoh 4+4>> detik. Gntuk setiap satu unit 4+4>> detik akan di ubah menjadi bentuk lain yakni dalam domain "reJuency (akan banyak dibahas pada materi image processing). !ola yang didapat dari 4+4>> detik tersebut akan dicocokkan dengan database a#al yang berupa codebook. @angkah kedua adalah mendeteksi "onem yang muncul. !ada langkah ini masalah menjadi lebih rumit karena beberapa hal yang perlu diperhatikan sebagai berikut ) a. Setiap kali user mengucapkan sebuah kata, user tidak dapat menghasilkan gelombang suara yang tepat sama seperti sebelumnya, b. ,oise yang ada pada saat suara diucapkan juga akan terrekam pada audio digital, c. Suara "onem berbeda tergantung pada kalimat yang diucapkan, d. 6onem juga diucapkan dengan durasi yang tidak sama.

Gntuk mendeteksi "onem, kita dapat mempergunakan beberapa pendekatan berbasiskan suatu nilai probabilistik. (eberapa algoritma dikembangkan untuk mendeteksi "one mini seperti Hidden Marko$ Model (HMM) dan algoritma lainnya.

/e"erences
4.

:. Famali Hamadi, =Separation o" Touching .haracter in -ptical .haracter /ecognition=, GS


!atent MB.DCE.A4A, Fun 4C, 4NNE

Anda mungkin juga menyukai