Tujuan Kuliah
Mempelajari teknik-teknik penanganan Teks Memberikan pengertian ttg masalah masalah dasar dan prinsip-prinsip yang mendasari aplikasi dari pemrosesan teks
Apa Maksud dari Pemrosesan? Empiris Teks tidak hanya sekumpulan kata Analisa data dan mengetes hipotesa Temukan fakta baru ttg bahasa Teknik Pengembangan aplikasi berbasis teks Dapat dilatih secara otomatis Cakupannya luas, tepat
Melacak Teks
Temukan semua baris yang mengandung kata Subang
Sejak awal Januari hingga 28 Agustus jumlah penderita demam Agustus, berdarah di Kabupaten Subang mencapai 797 orang, 11 di antaranya meninggal dunia. Dengan jumlah itu berarti dalam sebulan terjadi sekitar 100 kasus atau 3-4 kasus per hari. "Jumlah itu termasuk kasus-kasus demam berdarah dengue yang baru diduga atau suspect. CFR (crude fatality rate) atau angka kematiannya mencapai 1,5 persen," ujar Ananta Rahayu, Kepala Seksi Penanggulangan Penyakit Dinas Kesehatan Kabupaten Subang, Senin (28/8).
Menghitung Kata
Jumlah Kata Seberapa besar korpus yang ada (N) Jenis kata Berapa jumlah kata yang unik? Berapa besar perbendaharaan kata pada korpus? Token kata Berapa jumlah kata pada korpus? Berapa frekuensi dari setiap jenis kata? Kata apa yang paling sering muncul pada korpus?
Menghitung Kata
Kata bigrams apa yang paling sering muncul pada korpus? Mis. Bukit Barisan, Iniversitas Indonesia Kata trigrams apa yang paling sering muncul pada korpus? Mis. seperti yang telah, presiden republik indonesia Kata 4-grams apa yang paling sering muncul pada korpus?
Mis. daftar mata uang asing, daerah khusus ibukota jakarta
Aplikasi : IR IR mempelajari algoritma dan model untuk Memperoleh informasi dari koleksi dokumen Contoh : google
Aplikasi : Ringkasan
Bagaimana cara membuat ringkasan? Ambil 25% dari dokumen aslinya
Kalimat Frase Kata
Aplikasi : Ringkasan
Bagaimana cara memilihnya?
Pilih secara random Pilih awal dari dokumen Pilih bagian yang penting
Pertemuan 2
Korpus
Korpus
Masalah pada perancangan korpus
Ukuran Jenis Bahasa Register
Korpus
Korpus adalah badan dari teks yang muncul secara alami, biasanya dipilih dengan cara tertentu. Korpus yang seimbang mencoba mewakili semua bahasa atau suatu domain. Apakah baik untuk mempunyai korpus yang seimbang
Korpus Brown
Korpus awal yang terkenal Dibuat oleh Nelson Francis & Henry Kucera di Universitas Brown tahun 1960an Merupakan korpus seimbang yang ditulis dalam bahasa Inggris Amerika Terdiri dari sejuta kata
Isi Korpus
Jenis bahasa: Teks : artikel, berita kawat, buku Pidato spontan: pembicaraan (dialog), siaran Jenis Novel bahasa Inggris pada abad 18 Teks suratkabar, laporan berita kawat Pembicaraan pemesanan penerbangan
Isi Korpus
Media: teks, audio, transkripsi, video Anotasi Tokenisasi, struktur dokumen Anotasi linguistik, format (markup language)
Tokenisasi Tokenisasi adalah suatu tahap pemrosesan di mana teks input dibagi menjadi unit-unit yang disebut token yg merupakan suatu kata atau suatu angka atau suatu tanda baca. Perlu mengenali unit secara otomatis Apakah kata itu? Apakah suatu kata itu?
Segmentasi Kata
Bagaimana dengan kata yang bukan bahasa Inggris? Bahasa-bahasa di Asia Timur (Jepang, Cina), bahasa daerah Indonesia (Jawa, Bali), tidak memecah kata dengan whitespace Hard disk harddisk disk, Kata gabungan dalam bhs Jerman: Lebensversicherungsgesellschaftsangestellter (pegawai perusahaan asuransi jiwa) Meskipun tokenisasi sederhana tidak terlepas dari kesalahan
PERTEMUAN 3
Pengenalan PERL
PERL
Practical Extraction and Report Language Dikembangkan oleh Larry Wall pada tahun 1987 Mengembangkan suatu bahasa script yang lebih baik daripada Unix shell tetapi tidak serumit C. Berguna untuk memanipulasi teks yang tidak dapat dilakukan oleh awk ataupun unix.
#!/usr/local/bin/perl #Ini adalah program untuk menulis kata halo print Halo\n;
Suatu program untuk menulis Halo Tulis pada suatu file bernama halo.p Untuk me-run pada Unix/Linux: > perl halo.p
Jenis Data
Perl mempunyai 3 jenis data: Scalar Array dari data scalar Associative array atau hashes dari data scalar
Nama variabel Nama variabel scalar dimulai dengan $ (mis. $kelas) Nama variabel array dimulai dengan @ (mis. @mahasiswa) Nama variabel hash dimulai dengan % (mis. %tabel) Nama variabel adalah case sensitive ($kelas $KELAS)
Operator Dasar Operator untuk angka arithmatic + - / * $x = (5+7) * (6+6); exponential ** $x = 2 ** 3; modulus % $x = 9 % 2; Operator untuk string Binary assignment += ; -= $x = $x + 5; sama dengan $x += 5 Unary assignment ++ ; -- $x = $x + 1; sama dengan ++$x; concatenation . $x = halo . juga halojuga repetition x $x = ui x 3; uiuiui
Operator Scalar Dasar Operator untuk membandingkan Perbandingan Numerik String Sama == eq Kurang dari < lt L bihb d i > t Lebih besar dari gt Lebih kecil dari atau sama <= le Lebih besar dari atau sama >= ge Tidak sama != ne Operator untuk membandingkan AND (&&), OR (||), NOT EQUAL (!)
Data Scalar Interpolasi variabel $harga = Rp 100 print Harga gula satu kilo adalah $harga\n; Hasil : Harga gula satu kilo adalah Rp 100
Array & Data List Suatu list adalah data scalar yang berturutan Suatu array adalah suatu variabel yang berisi list Suatu array bisa berisi sejumlah elemen (tidak perlu ditentukan panjangnya) (1, 2, 3) (Senin, Selasa, Rabu) ()
Array @namahari = (Senin, Selasa, Rabu); @x = (1,2, 3) @y = @x copy nilai x ke y @y = (@x 4 5) nilai@y=(1 2 3 4 5) x, 4, nilai @y = (1, 2, 3, 4, $z = @y panjang dari @y =5 ($z) = @y $z = 1 mendapat elemen pertama dari @y
Akses ke Array Indeks pada array dimulai dari 0 @nama = (dani, irma, jojon, lili); $x = $nama[0] # $x = dani $nama[2] = gugun # mengganti jojon menjadi gugun gugun jojon gugun @siswa = $nama[0,1] # @siswa berisi dani dan irma $i = 2 $x = $nama[$i] # @nama = jojon $x = $nama[$i-1] #nama = irma
Control Structures Penggunaan IF / UNLESS if ($nilai > 60) { print Lulus dengan ujian\n; } else Fakultas Ilmu Komputer Universitas Indonesia MA-39 { print Tidak lulus ujian\n; } unless ($nilai > 60) { print Tidak lulus ujian\n; }
Control Structures Penggunaan WHILE / UNTIL $i = 10; while ($i > 5) { $x = $i**; print Kuadrat dari $i adalah $x\n; } until ($i < 5) { print Kuadrat dari $i adalah $i**\n; }
Control Structures Penggunaan for for ($i = 1; $i <= 10; $i++) { print $i \n; } for ($i=0 ; $i<=$#nama; $i++) { $siswa = $nama[$i]; $siswa =~ tr/a-z/A-Z/; print "$siswa"; }
Tokenizing
Menyusun kata-kata dari serangkaian karakter. Sulit dilakukan pada Bahasa Inggris, tetapi lebih sulit lagi pada bahasa lainnya. Sistem IR awal: 1. Beberapa rangkaian alphanumerik yang terdiri dari 3 karakter atau lebih. 2. Diakhiri dengan spasi atau karakter khusus lainnya. 3. Huruf besar diubah menjadi huruf kecil.
Tokenizing
Contoh (dalam Bahasa Inggris): Bigcorp's 2007 bi-annual report showed profits rose 10%. Diubah menjadi: bigcorp 2007 annual report showed profits rose Terlalu sederhana untuk aplikasi-aplikasi pencarian bahkan untuk uji coba berskala besar. Kenapa? Terlalu banyak informasi yang hilang. 1. Keputusan kecil saat proses tokenizing akan berpengaruh besar pada keefektifan beberapa query.
Proses Tokenizing
Langkah pertamanya adalah menggunakan parser untuk mengidentifikasi bagian-bagian dokumen yang sesuai untuk dijadikan token. Membedakan keputusan yang rumit pada komponen lainnya: Yang termasuk kata adalah serangkaian karakter alphanumerik, diakhiri dengan spasi atau karakter khusus, setiap huruf diubah menjadi huruf kecil. Setiap karakter harus diindeks. Contoh: 92.3 hasil proses tokenizingnya adalah 92 dan 3. Memadukan beberapa kaidah untuk mengurangi ketergantungan pada beberapa komponen transformasi query.
Proses Tokenizing
Tidak jauh berbeda dengan proses tokenizing yang digunakan pada masa lalu. Contoh kaidah yang digunakan pada TREC: Tanda aposthrope/koma diatas (`) pada kata-kata diabaikan, misalnya: O`Connor menjadi oconnor Bob`s menjadi bobs Tanda titik (period) pada singkatan diabaikan, misalnya: I.B.M. menjadi ibm Ph.D menjadi phd
Stopping
Kata fungsi (determiner dan preposisi) hanya memiliki sedikit makna asalnya. Memiliki frekuensi kemunculan yang tinggi (banyak ditemukan dalam dokumen). Dianggap sebagai kata henti (stop word) dan biasanya dihilangkan. Mengurangi penggunaan indeks, mempercepat waktu tanggap (response time) dan meningkatkan efektivitas. Tapi bisa menjadi sangat penting saat berada dalam suatu kombinasi, misalnya: to be or not to be
Stopping
Daftar kata henti bisa dibuat dari kata-kata yang sering muncul (memiliki frekuensi tinggi) atau berdasarkan sebuah daftar standar. Daftarnya bisa disesuaikan dengan aplikasi, domain dan bahkan bagian-bagian dokumen. Sebagai contoh, click adalah kata henti yang baik untuk teks anchor (hyper link). Cara yang paling baik adalah dengan mengindeks seluruh kata dalam dokumen, kemudian membuat keputusan kata apa yang akan digunakan saat melakukan query.
Stemming
Banyak variasi morpologis dari kata-kata. Inflectional, contohnya kata jamak (plural) dan bentuk waktu (tenses). Derivational, contohnya pembentukan kata kerja, kata benda, dll. Pada banyak kasus, variasi morpologis ini memiliki arti yang sama. Stemmer digunakan untuk mengurangi variasi morpologis dari kata-kata menjadi bentuk stem yang umum. Biasanya dilakukan dengan menghilangkan akhiran (sufiks). Bisa dilakukan saat mengindeks atau sebagai bagian dari proses query (seperti kata henti/stop word).
Stemming
Secara umum sangat kecil tapi signifikan untuk meningkatkan efektivitas. Bisa menjadi sangat krusial pada beberapa bahasa. Sebagai contoh, 5% s.d 10% peningkatan pada Bahasa Inggris, sampai 50% pada Bahasa Arab.
Stemming
Dua tipe dasar: Dictionary-based, menggunakan daftar kata-kata yang berhubungan. Algorithmic, menggunakan program untuk menentukan kata-kata yang berhubungan. Algorithmic stemmer Akhiran s: menghilangkan akhiran 's' yang diasumsikan kata jamak (plural). Contoh: cats menjadi cat, lakes menjadi lake, wiis menjadi wii. Bisa menjadi false negative, misalnya supplies menjadi suplie. Bisa menjadi false positive, misalnya ups menjadi up.
Frasa
Banyak query merupakan frasa dari 2-3 kata. Frasa merupakan: Lebih teliti daripada kata tunggal. Contoh: dokumen yang berisi Laut Hitam bila dibandingkan dengan dua kata laut dan hitam. Tidak terlalu ambigu (bermakna ganda). Contoh: apel yang besar dibandingkan dengan apel.
Menyulitkan proses pemeringkatan (ranking). Sebagai contoh, diberikan sebuah query fishing supplies. Bagaimana cara kita me-ranking dokumen dengan: Frasa keseluruhan berulang kali, frase keseluruhan hanya sekali, kata individual pada kalimat yang sama, paragraf yang sama, dokumen yang sama atau variasi pada kata ?
Frasa
Isu pada pemrosesan teks adalah bagaimana frasa dikenali. Tiga pendekatan yang mungkin: Mengidentifikasi sintaksis frasa menggunakan tanda part-of-speech (POS). Menggunakan kata n-gram. Menyimpan posisi kata dalam indeks dan menggunakan kedekatan operator dalam query.
PENGINDEKSAN
Pertemuan 5
Indeks
Pengorganisasian berkas atau indeks digunakan untuk meningkatkan unjuk kerja dari sistem perolehan informasi Pengindeksan teks adalah proses yang memutuskan apa yang akan digunakan untuk merepresentasikan dokumen tertentu Indeks kata ini yang digunakan untuk mengindeks dokumen
Tahapan Pengindeks
1. Lihat dokumen untuk mengenali strukturnya Mis. Judul, tanggal, dll. 2. Tokenisasi 3. Pembuangan stopwords 4. Proses pemotongan imbuhan (stemming) 5. Pembobotan kata 6. Pembuatan indeks
Pembuangan Stopwords
Semua kata yang termasuk dalam daftar stopwords, yaitu daftar kata yg umum (kata yang mempunyai fungsi tapi tidak mempunyai arti) mis.: dan, atau, sebuah, yang Jumlahnya bisa ratusan kata Perhatikan kata yang menjadi bagian dari frase: Yang Maha kuasa, vitamin A, gerbang dan-atau (and-or gate) Berguna untuk menghemat penyimpanan indeks (efisiensi)
Pembobotan Kata
Kata yang penting seharusnya diberi bobot yang lebih berat Menggunakan frekuensi dalam dokumen dan koleksi
Pertemuan 6
Information Model
Perolehan Informasi
Jenis indeks Manual Indeks ditentukan secara manual oleh manusia berdasarkan suatu perbendaharaan kata yang sudah ditentukan Pencari informasi menggunakan daftar perbendaharaan kata yang sama Ketepatannya sangat tinggi
Perolehan Informasi
Jenis indeks Otomatis Indeks berisi kata-kata yang ada pada dokumen (inverted index)Kata-kata pada dokumen mengindikasikan isi dokumen Pencari informasi menggunakan bahasa alami Ketepatan pada perolehan dokumen ditentukan oleh bobot kata-kata pada dokumen
Model Boolean
Model Boolean adalah salah satu model pencocokan secara tepat (exact-match) Query mempunyai kriteria perolehan yang tepat Setiap dokumen bisa cocok atau tidak cocok dengan query Hasilnya adalah suatu set dokumen (tidak ada urutan)
Model Boolean
Operator Boolean yang murni: AND, OR, dan NOT Kebanyakan sistem mempunyai operator proximity Mengapa exact match masih banyak digunakan di bidang komersial? Perbedaan budaya Biaya pelatihan dan pengoperasian sistem baru Tidak jelas perbedaan hasil penelitian pada koleksi besar dan kecil Untuk beberapa query atau koleksi, seringkali hasil Boolean lebih baik (mis., menggunakan AND di web)
Model Boolean
Set kata-kata hanya berisi tidak ada dan ada Nilai-nilai Boolean direpresentasikan sebagai 0 dan 1 Kombinasikan barisnya dengan operator Boolean AND, OR, NOT Hasil: setiap dokumen yang nilainya 1
Kelebihan dari Model Boolean Query sederhana, mudah dimengerti Relatif mudah untuk diimplementasikan
Ada 3 bidang studi utama yg menangani data berbentuk gambar atau citra Grafika komputer Pengolahan Citra Pengenalan Pola/visi komputer
Grafika Komputer Melakukan proses yg bersifat sintesis Data masukan berbentuk deskriptif Keluaran hasil proses yg berbentuk gbr Contoh Proses penggambaran prespektif suatu objek tiga dimensi, yg menggunakan data masukan berupa koordinat titik titik yg membentuk objek tsb.
Pengenalan pola/ Visi komputer Data masukan berupa citra / gambar Proses yg dilakukan adl proses penggalian strutur gambar dgn hasil keluaran berupa deskriptif Contoh Pengenalan jenis penyakit paru melalui citra sinar X paru penderita
Pengolahan citra Merupakan proses pengolahan dan analisis citra yg banyak melibatkan persepsi visual Proses ini mempunyai ciri data masukan dan informasi keluaran berbentuk citra.
Dalam kenyataanya, batasan antara ketiga bidang studi diatas sulit untuk ditentukan Contoh Proses pembuatan film animasi, objek dan proses animasinya diciptakan dgn teknik grafika komputer sedangkan pembuatan latar belakangnya dilakukan dgn pengolahan citra.
Citra sbg keluaran suatu sistem perekaman data : Bersifat Optik berupa foto Bersifat analog berupa sinyal analog ( gbr pd monitor TV ) Bersifat Digital yg dpt langsung di simpan pd suatu pita magnetik
Secara teoritis citra dpt dikelompokan pd kelas : Kontinu kontinu Kontinu diskrit Diskrit kontinu Diskrit diskrit Label pertama menyatakan presisi dari titik titik koordinat pada bidang citra Label kedua menyatakan presisi nilai keabuan(warna)
Kontinu dinyatakan dgn presisi angka tak terhingga Diskrit dinyatakan dgn presisi angka terhingga Komputer digital bekerja dgn angka presisi terhingga ( kelas diskrit-diskrit yg diolah dgn komputer)
Untuk mengubah citra yg bersifat kontinu menjadi digital diperlukan pembuatan kisikisi arah horizontal dan vertikal, sehingga diperoleh gbr dlm bentuk array 2 dimensi. Proses tsb dikenal dgn proses digitasi atau sampling.
Proses kuantisasi, menyatakan tingkat keabuan piksel akan menentuekan resolusi kecerahan dari gbr yg diperoleh. Gambar dari memori citra kebentuk peragaan pd monitor TV dikenal sbg konversi digital ke - analog
Citra monokrom(hitam-putih)
Citra monokrom(hitam-putih) merupakan citra satu kanal, dimana citra f(x,y) merupakan tingkat fungsi keabuan dari hitam ke putih. X menyatakan variabel baris/garis jelajah Y menyatakan variabel kolom/posisi piksel
Citra berwarna
Dikenal dgn citra multi-spektral Warna citra dinyatakan dgn 3 komponen (merah, hijau dan biru ). Citra berwarna {fmerah(x,y),fhijau(x,y),fbiru(x,y)} merupakan fungsi harga vektor tingkat keabuan merah, hijau dan biru.
Bila suatu masukan bentuk impuls dilakukan pd suatu filter, mk keluaran yg diperoleh dikenal dgn sebutan respon impuls. Respon impuls adl citra hasil rekaman pd bidang keluaran dari suatu sumber titik ideal pd bidang masukan.
Suatu Filter disebut sbg filter linear bila memenuhi : Alpha f(x) Alpha g(x) f1(x) + f2(x) g1(x) + g2 Alpha1 f1(x) + Alpha2 f2(x) Alpha1 g1(x) + Alpha2 g2(x)
Pertemuan 10
Perangkat Pengolah Citra
Sistem penangkap citra digital terdiri dari tiga komponen dasar : Sensor citra bekerja sbg pengukur intensitas cahaya. Perangkat penjelajah bertugas merekam hasil pengukuran intensitas pada seluruh bagian citra. Pengubah analog ke digital Yang mengubah harga kontinu ke diskrit sehingga dpt diproses komputer.
Perangkat keras yg dibutuhkan sebagai pengolah citra : Prosesor dengan kecepatan tinggi. Pararell pipelined
Komputer merupakan bagian perangkat keras yg bersifat multiguna. Bagian ini terdiri dari sistem komputer yg dilengkapi : Alat masukan Alat keluaran Terminal , digunakan untuk komunikasi antara pemakai dan sistem komputer
Sub sistem masukan video digunakan untuk memasukan data citra yang berasal dari suatu alat perekam dan pembaca video, hasil foto melalui sistem kamera. Keluaran video yang mengeluarkan hasil proses pengolahan citra, seperti dlm bentuk cetak film alat fotografi, cetak gbr hasil plotter, ataupun bentuk peragaan melalui layar peraga suatu monitor video seperti Televisi.
Sistem kontrol proses interaktif terdiri dari peralatan yg digunakan utk melaksanakan komunikasi antar pemakai dengan mesin. Alat yang paling sederhana berupa suatu terminal dan papan kuncinya untuk memasukan suatu karakter. Komunikasi dpt dilakukan antara lain melalui trackball sbg alat penunjuk pd posisi layar peraga.
jenis paket lain yg dikombinasikan dgn perangkat keras tertentu dan membentuk suatu sistem turnkey: Sistem ERDAS yg digunakan pd aplikasi penginderaan jauh yg dikembangkan oleh Gould Company dari Kanada Meridian Image Analysis, utk aplikasi penginderaan jauh ataupun biomedis yg dikembangkan oleh MDA Macdonald Dettwiller and associates LTD dari Kanada
Tujuh modul yg merupakan pengelompokan rutin menurut fungsi yg sejenis : Modul proses berkas masukan dan keluaran. Terdiri dari proses pemindahan berkas citra dan penyimpanan diluar seperti pita magnetik atau disk ke memori komputer, atau sebaliknya menurut format tertentu.
Modul proses filtering dan koreksi radiometris. Merupakan modul yang menangani peningkatan mutu citra yang dilakukan dgn operasi kernel dan penggunaan looking up table. Modul yg berfungsi melakukan proses koreksi geometris.menyediakan proses registrasi citra berdasarkan titik kontrol yg telah diketahui koordinatnya
Modul klasifikasi citra utk melakukan: Pembentukan set sample Proses pengelompokan data Menghitung statistik ciri setiap kelas atau kelompok pola dari objek yg sama.
Modul yg berfungsi menghitung segala nilai-nilai statistik citra yg biasanya dibutuhkan dlm proses analisis citra. nilai statistik yg sering dibutuhkan adalah: Harga rata-rata Standar deviasi Varian Matrik Vektor histrogram
Modul operasi matematika meliputi segala operasi yg yang bersifat arimatik seperti : Tambah, kurang, kali, rasio, akar Bersifat logik : AND, OR, NOT dan XOR
Pertemuan 11
Aplikasi penginderaan jauh
Aplikasi Robotik Pengolahan citra pd aplikasi dibidang robotik banyak menggunakan proses pengenalan objek. Contoh Dlm penyusunan program sebuah robot yg direncanakan utk dpt berjalan melalui jalur tertentu dan dpt menghindari objek objek dgn bentuk tertentu.
Jalur transmisi, dalam sistem ini dilakukan melalui atmosfir. Sasaran, dlm hal ini adl suatu daerah pd permukaan bumi.
Tahapan proses pengolahan citra digital : Koreksi geometris Peningkatan mutu citra Reduksi data Klasifikasi dan segmentasi citra Kombinasi peta
Aplikasi biomedis Proses proses pengolahan biomedis secara digital umumnya bertujuan utk mendeteksi objek dan utk melakukan pengukuran yg lebih lanjut kemudian digunakan utk mendukung proses diagnosis
Aplikasi industri Proses pemeriksaan kualitas suatu produk industri, misalnya pemeriksaan wiring yg putus pd rangkaian elektronik atau penempatan dari suatu komponen elektronik yg tidak tepat.
Aplikasi Arsip citra dan dokumen Proses yg dibutukan pada pengaturantata letak gbr pd dokumen adalah : Proses peningkatan mutu gbr Proses pengaturan posisi, ukuran dan orientasi gambar.
Pertemuan 12
Peningkatan Mutu Citra
Proses pengolahan citra yg termasuk dlm katergori peningkatan mutu citra dari proses proses yg bertujuan utk memperoleh keindahan gambar Kepentingan analisis citra Mengkoreksi citra dari segala gangguan yg terjadi pd waktu perekaman data.
Penambahan nilai intensitas piksel dgn suatu harga konstanta dgn memberikan efek gambar menjadi lebih terang. Pengurangan mempunyai efek yg berlawanan, dimana gambar kelihatan menjadi lebih gelap.
Pelebaran histogram dgn cara pengalian tingkat keabuan asli dgn sesuatu harga konstanta tertentu, akan memberikan efek serupa dgn proses penggeseran histogram cara penambahan. Gambar akan cenderung lebih terang. Cara pembagian , gambar yg diperoleh cenderung lebih gelap, krn intensistas tingkat keabuan baru yang lebih rendah.
Kontras Biner Yaitu penggunaan hanya dua tingkat keabuan. Objek yg akan diteliti diberi warna yg jelas misalnya hitam dengan intensitas tingkat keabuan 1, sedangkan objek lainnya diberi warna yg sama dgn warna latar belakang misalnya putih dgn intensitas tingkat keabuan 0.
Pertemuan 13
Pengelompokan dan pengenalan pola
Manusia memiliki kemampuan yg luar biasa untuk mengenali objek objek berdasarkan ciri ciri atau pengetahuan yg pernah diamatinya dari objek objek yg bersangkutan. Contoh Penulisan huruf dgn tangan: a , a,A,T Tidak sulit bagi manusia untuk membedakan bentuk huruf yg dicetak, tetapi apakah komputer akan sanggup melakukan proses pengenalan tsb.
Suatu alat yg mampu mengenali bentuk karakter terbatas telah dpt dibuat oleh manusia. Alat itu dikenal dgn sebutan Optical Character Recognation (OCR), namun sampai sekarang belum berhasil diperoleh suatu OCR yg mampu mengenali bentuk karakter sembarang. Usaha usaha tersebut telah mendukung berkembangnya suatu disiplin dan metodelogi yg kemudian dikenal dgn nama pengenalan pola
Pola adalah intensitas yg terdefinisi dan dpt diberi sesuatu atau nama. contoh : gelombang suara sidik jari Raut wajah ,dan lain sebagainya. misalnya utk identifikasi seorang pembicara berdasarkan suaranya, maka digunakan pola hasil trasnformasi gelombang suara
Teknik teknik pengenalan pola telah mengakibatkan revolusi pemrosesan data satelit dlm menghasilkan informasi mengenai kondisi tanah, ragam vegetasi, pola cuaca, topografi permukaan bumi.
Terdpt 2 pendekatan utama : Pendekatan geometrik(statistik) pembedaan antara objek dilakukan berdasarkan ciri objek dan fungsi kerapatan pola. proses pengelompokan polanya dilakukan melalui proses estimasi dan klasifikasi.
Pendekatan struktural(sintatik) dilakukan melalui penentuan primitif yg dpt menggambarkan objek bersangkutan dan penyusunan tata bahasa. pengelompokan pola dilakukan melalui proses inferensi dan deskripsi.
Sistem pengenalan pola beroperasi dlm 2 fase: 1. Fase Latih 2. Fase Pengenalan
Fase Latih pengekstrasi ciri menentukan ruang ciri yg sesuai utk mempresentasikan pola. Pembuatan aturan klasifikasi mempartisi ruang sedemikian rupa shg jumlah tumpang tindih antara kategori menjadi sekecil mungkin.
Fase pengenalan pengklasifikasian menentukan suatu pola masukan sbg salah satu kategori objek yg telah dispesifikasikan menurut ciri ciri pengukuran objek.
Pertemuan 14
Klasifikasi dan Segmentasi Citra
Tujuan dari proses klasifikasi citra adalah utk mendapatkan gam bar atau peta tematik. Gambar tematik adalah suatu gambar yg terdiri bagian-bagian yg menyatakan suatu objek atau tema. Setiap objek pd gambar tersebut mempunyai simbol yg unik , yg dpt dinyatakan dgn warna atau pola tertentu.
Contoh Citra hasil suatu foto instrumen biomedis dpt diklasifikasikan menjadi bagian tulang, jaringan sehat, dan jaringan sakit.
Segmentansi citra itu sendiri mempunyai arti membagi suatu citra menjadi wilayah wilayah yg homogen berdasarkan kriteria kesamaan yg tertentu antara tingkat keabuan suatu piksel dgn tingkat keabuan piksel piksel tetangganya.
Segmentasi citra berdasarkan histogram Merupakan teknik citra yg paling mudah diterapkan. Proses diawali dgn pembuatan histogram dari citra yg akan disegmentasi. Proses segmentasi dilakukan dgn membagi citra kedlm beberapa kategori objek sesuai dgn pengelompokan tingkat keabuan yg terjadi pd histogram.
Karakteristik setiap objek pada pengamatan mempunyai pola tertentu. Sebagai contoh diambil citra hasil pengamatan sistem satelit sumber daya alam. Objek objek permukaan bumi seperti tumbuhan , tanah dan air bisa dianggap sbg objek yg mempunyai pola tingkat keabuan yg dpt dibedakan.
Pada rekaman satelit cuaca, peta liputan awan yg diperoleh dpt di lihat bahwa semakin putih tingkat keabuanya makin besar jumlah awan yg menutupi wilayah bersangkutan. Besarnya curah hujan disuatu daerah juga dpt ditentukan melalui karakteristik dari awan.