Anda di halaman 1dari 138

Pertemuan 1

Pengantar Text Processing

Tujuan Kuliah
Mempelajari teknik-teknik penanganan Teks Memberikan pengertian ttg masalah masalah dasar dan prinsip-prinsip yang mendasari aplikasi dari pemrosesan teks

Apakah Teks itu?


Teks Korpus Koleksi dokumen yang bisa dibaca oleh mesin Apakah 1 email itu adalah korpus? Apakah 1000 email itu adalah korpus? Berapa besar sebuah korpus? Korpus apa yang paling besar?

Apa Maksud dari Pemrosesan? Empiris Teks tidak hanya sekumpulan kata Analisa data dan mengetes hipotesa Temukan fakta baru ttg bahasa Teknik Pengembangan aplikasi berbasis teks Dapat dilatih secara otomatis Cakupannya luas, tepat

Apa Maksud Pemrosesan Teks


Secara Statistik
Kenali karakteristik dari sampel teks Yang diperlukan adalah korpus dan cara untuk Memrosesnya

Buat aplikasi yang berguna yang dapat mengerti Teks


Perolehan Informasi (Information Retrieval) Pembuat ringkasan (Summarization) Mesin Penerjemah (Machine Translation)

Bagaimana cara melakukannya: probabilitas, statistik, teori informasi, machine learning


Model-model statistik Metode-metode statisti

Melacak Teks
Temukan semua baris yang mengandung kata Subang
Sejak awal Januari hingga 28 Agustus jumlah penderita demam Agustus, berdarah di Kabupaten Subang mencapai 797 orang, 11 di antaranya meninggal dunia. Dengan jumlah itu berarti dalam sebulan terjadi sekitar 100 kasus atau 3-4 kasus per hari. "Jumlah itu termasuk kasus-kasus demam berdarah dengue yang baru diduga atau suspect. CFR (crude fatality rate) atau angka kematiannya mencapai 1,5 persen," ujar Ananta Rahayu, Kepala Seksi Penanggulangan Penyakit Dinas Kesehatan Kabupaten Subang, Senin (28/8).

Menghitung Kata
Jumlah Kata Seberapa besar korpus yang ada (N) Jenis kata Berapa jumlah kata yang unik? Berapa besar perbendaharaan kata pada korpus? Token kata Berapa jumlah kata pada korpus? Berapa frekuensi dari setiap jenis kata? Kata apa yang paling sering muncul pada korpus?

Menghitung Kata
Kata bigrams apa yang paling sering muncul pada korpus? Mis. Bukit Barisan, Iniversitas Indonesia Kata trigrams apa yang paling sering muncul pada korpus? Mis. seperti yang telah, presiden republik indonesia Kata 4-grams apa yang paling sering muncul pada korpus?
Mis. daftar mata uang asing, daerah khusus ibukota jakarta

Aplikasi : IR IR mempelajari algoritma dan model untuk Memperoleh informasi dari koleksi dokumen Contoh : google

Aplikasi : Ringkasan
Bagaimana cara membuat ringkasan? Ambil 25% dari dokumen aslinya
Kalimat Frase Kata

Aplikasi : Ringkasan
Bagaimana cara memilihnya?
Pilih secara random Pilih awal dari dokumen Pilih bagian yang penting

Aplikasi : Mesin Penerjemah


Menerjemahkan dari satu bahasa ke bahasa yang lain (Mis. bhs Indonesia ke bhs Inggris) Menulis program untuk melakukan penerjemahan Masalah yang sangat sulit Perlu pengetahuan yang sangat banyak mengenai bahasa-2 tsb (linguistik yang mendalam). Mempelajari korpus yang merupakan terjemahan dari bahasa-2 tsb (menggunakan korpus paralel).

Pertemuan 2
Korpus

Korpus
Masalah pada perancangan korpus
Ukuran Jenis Bahasa Register

Tokenisasi pada korpus Anotasi pada korpus

Korpus
Korpus adalah badan dari teks yang muncul secara alami, biasanya dipilih dengan cara tertentu. Korpus yang seimbang mencoba mewakili semua bahasa atau suatu domain. Apakah baik untuk mempunyai korpus yang seimbang

Korpus Brown
Korpus awal yang terkenal Dibuat oleh Nelson Francis & Henry Kucera di Universitas Brown tahun 1960an Merupakan korpus seimbang yang ditulis dalam bahasa Inggris Amerika Terdiri dari sejuta kata

Isi Korpus
Jenis bahasa: Teks : artikel, berita kawat, buku Pidato spontan: pembicaraan (dialog), siaran Jenis Novel bahasa Inggris pada abad 18 Teks suratkabar, laporan berita kawat Pembicaraan pemesanan penerbangan

Isi Korpus
Media: teks, audio, transkripsi, video Anotasi Tokenisasi, struktur dokumen Anotasi linguistik, format (markup language)

Tokenisasi Tokenisasi adalah suatu tahap pemrosesan di mana teks input dibagi menjadi unit-unit yang disebut token yg merupakan suatu kata atau suatu angka atau suatu tanda baca. Perlu mengenali unit secara otomatis Apakah kata itu? Apakah suatu kata itu?

Apakah Kata itu?


Karakter alfanumerik yang bersambungan yang dipisahkan oleh whitespace. Whitespace: spasi, tab, newline Bagaimana dengan p2p, mazon.com,Micro$oft? Bagaimana dengan Johns, isnt, Jumat? Bagaimana dengan pro-aktif? Tanda sambung pada akhir baris?

Segmentasi Kata
Bagaimana dengan kata yang bukan bahasa Inggris? Bahasa-bahasa di Asia Timur (Jepang, Cina), bahasa daerah Indonesia (Jawa, Bali), tidak memecah kata dengan whitespace Hard disk harddisk disk, Kata gabungan dalam bhs Jerman: Lebensversicherungsgesellschaftsangestellter (pegawai perusahaan asuransi jiwa) Meskipun tokenisasi sederhana tidak terlepas dari kesalahan

PERTEMUAN 3

Pengenalan PERL

PERL
Practical Extraction and Report Language Dikembangkan oleh Larry Wall pada tahun 1987 Mengembangkan suatu bahasa script yang lebih baik daripada Unix shell tetapi tidak serumit C. Berguna untuk memanipulasi teks yang tidak dapat dilakukan oleh awk ataupun unix.

#!/usr/local/bin/perl #Ini adalah program untuk menulis kata halo print Halo\n;

Suatu program untuk menulis Halo Tulis pada suatu file bernama halo.p Untuk me-run pada Unix/Linux: > perl halo.p

Jenis Data
Perl mempunyai 3 jenis data: Scalar Array dari data scalar Associative array atau hashes dari data scalar

Nama variabel Nama variabel scalar dimulai dengan $ (mis. $kelas) Nama variabel array dimulai dengan @ (mis. @mahasiswa) Nama variabel hash dimulai dengan % (mis. %tabel) Nama variabel adalah case sensitive ($kelas $KELAS)

JENIS DATA (Lanjut)


Data Scalar Angka digits, desimal, eksponensial dll. $nilai = 350; $nilai = 3.50 St i Strings Berada dalam tanda petik single / double; Interpolasi dengan backslash \n (newline) ; \t (tab) ; \U (Uppercase) ; \L (Lower case) print \Uhalo\n; HALO print ha\Ulo\n; haLO

Operator Dasar Operator untuk angka arithmatic + - / * $x = (5+7) * (6+6); exponential ** $x = 2 ** 3; modulus % $x = 9 % 2; Operator untuk string Binary assignment += ; -= $x = $x + 5; sama dengan $x += 5 Unary assignment ++ ; -- $x = $x + 1; sama dengan ++$x; concatenation . $x = halo . juga halojuga repetition x $x = ui x 3; uiuiui

Operator Scalar Dasar Operator untuk membandingkan Perbandingan Numerik String Sama == eq Kurang dari < lt L bihb d i > t Lebih besar dari gt Lebih kecil dari atau sama <= le Lebih besar dari atau sama >= ge Tidak sama != ne Operator untuk membandingkan AND (&&), OR (||), NOT EQUAL (!)

Data Scalar Interpolasi variabel $harga = Rp 100 print Harga gula satu kilo adalah $harga\n; Hasil : Harga gula satu kilo adalah Rp 100

Array & Data List Suatu list adalah data scalar yang berturutan Suatu array adalah suatu variabel yang berisi list Suatu array bisa berisi sejumlah elemen (tidak perlu ditentukan panjangnya) (1, 2, 3) (Senin, Selasa, Rabu) ()

Array @namahari = (Senin, Selasa, Rabu); @x = (1,2, 3) @y = @x copy nilai x ke y @y = (@x 4 5) nilai@y=(1 2 3 4 5) x, 4, nilai @y = (1, 2, 3, 4, $z = @y panjang dari @y =5 ($z) = @y $z = 1 mendapat elemen pertama dari @y

Akses ke Array Indeks pada array dimulai dari 0 @nama = (dani, irma, jojon, lili); $x = $nama[0] # $x = dani $nama[2] = gugun # mengganti jojon menjadi gugun gugun jojon gugun @siswa = $nama[0,1] # @siswa berisi dani dan irma $i = 2 $x = $nama[$i] # @nama = jojon $x = $nama[$i-1] #nama = irma

Control Structures Penggunaan IF / UNLESS if ($nilai > 60) { print Lulus dengan ujian\n; } else Fakultas Ilmu Komputer Universitas Indonesia MA-39 { print Tidak lulus ujian\n; } unless ($nilai > 60) { print Tidak lulus ujian\n; }

Control Structures Penggunaan WHILE / UNTIL $i = 10; while ($i > 5) { $x = $i**; print Kuadrat dari $i adalah $x\n; } until ($i < 5) { print Kuadrat dari $i adalah $i**\n; }

Control Structures Penggunaan for for ($i = 1; $i <= 10; $i++) { print $i \n; } for ($i=0 ; $i<=$#nama; $i++) { $siswa = $nama[$i]; $siswa =~ tr/a-z/A-Z/; print "$siswa"; }

Pertemuan 4 Manipulasi Teks

Tokenizing
Menyusun kata-kata dari serangkaian karakter. Sulit dilakukan pada Bahasa Inggris, tetapi lebih sulit lagi pada bahasa lainnya. Sistem IR awal: 1. Beberapa rangkaian alphanumerik yang terdiri dari 3 karakter atau lebih. 2. Diakhiri dengan spasi atau karakter khusus lainnya. 3. Huruf besar diubah menjadi huruf kecil.

Tokenizing
Contoh (dalam Bahasa Inggris): Bigcorp's 2007 bi-annual report showed profits rose 10%. Diubah menjadi: bigcorp 2007 annual report showed profits rose Terlalu sederhana untuk aplikasi-aplikasi pencarian bahkan untuk uji coba berskala besar. Kenapa? Terlalu banyak informasi yang hilang. 1. Keputusan kecil saat proses tokenizing akan berpengaruh besar pada keefektifan beberapa query.

Proses Tokenizing
Langkah pertamanya adalah menggunakan parser untuk mengidentifikasi bagian-bagian dokumen yang sesuai untuk dijadikan token. Membedakan keputusan yang rumit pada komponen lainnya: Yang termasuk kata adalah serangkaian karakter alphanumerik, diakhiri dengan spasi atau karakter khusus, setiap huruf diubah menjadi huruf kecil. Setiap karakter harus diindeks. Contoh: 92.3 hasil proses tokenizingnya adalah 92 dan 3. Memadukan beberapa kaidah untuk mengurangi ketergantungan pada beberapa komponen transformasi query.

Proses Tokenizing
Tidak jauh berbeda dengan proses tokenizing yang digunakan pada masa lalu. Contoh kaidah yang digunakan pada TREC: Tanda aposthrope/koma diatas (`) pada kata-kata diabaikan, misalnya: O`Connor menjadi oconnor Bob`s menjadi bobs Tanda titik (period) pada singkatan diabaikan, misalnya: I.B.M. menjadi ibm Ph.D menjadi phd

Stopping
Kata fungsi (determiner dan preposisi) hanya memiliki sedikit makna asalnya. Memiliki frekuensi kemunculan yang tinggi (banyak ditemukan dalam dokumen). Dianggap sebagai kata henti (stop word) dan biasanya dihilangkan. Mengurangi penggunaan indeks, mempercepat waktu tanggap (response time) dan meningkatkan efektivitas. Tapi bisa menjadi sangat penting saat berada dalam suatu kombinasi, misalnya: to be or not to be

Stopping
Daftar kata henti bisa dibuat dari kata-kata yang sering muncul (memiliki frekuensi tinggi) atau berdasarkan sebuah daftar standar. Daftarnya bisa disesuaikan dengan aplikasi, domain dan bahkan bagian-bagian dokumen. Sebagai contoh, click adalah kata henti yang baik untuk teks anchor (hyper link). Cara yang paling baik adalah dengan mengindeks seluruh kata dalam dokumen, kemudian membuat keputusan kata apa yang akan digunakan saat melakukan query.

Stemming
Banyak variasi morpologis dari kata-kata. Inflectional, contohnya kata jamak (plural) dan bentuk waktu (tenses). Derivational, contohnya pembentukan kata kerja, kata benda, dll. Pada banyak kasus, variasi morpologis ini memiliki arti yang sama. Stemmer digunakan untuk mengurangi variasi morpologis dari kata-kata menjadi bentuk stem yang umum. Biasanya dilakukan dengan menghilangkan akhiran (sufiks). Bisa dilakukan saat mengindeks atau sebagai bagian dari proses query (seperti kata henti/stop word).

Stemming
Secara umum sangat kecil tapi signifikan untuk meningkatkan efektivitas. Bisa menjadi sangat krusial pada beberapa bahasa. Sebagai contoh, 5% s.d 10% peningkatan pada Bahasa Inggris, sampai 50% pada Bahasa Arab.

Stemming
Dua tipe dasar: Dictionary-based, menggunakan daftar kata-kata yang berhubungan. Algorithmic, menggunakan program untuk menentukan kata-kata yang berhubungan. Algorithmic stemmer Akhiran s: menghilangkan akhiran 's' yang diasumsikan kata jamak (plural). Contoh: cats menjadi cat, lakes menjadi lake, wiis menjadi wii. Bisa menjadi false negative, misalnya supplies menjadi suplie. Bisa menjadi false positive, misalnya ups menjadi up.

Frasa
Banyak query merupakan frasa dari 2-3 kata. Frasa merupakan: Lebih teliti daripada kata tunggal. Contoh: dokumen yang berisi Laut Hitam bila dibandingkan dengan dua kata laut dan hitam. Tidak terlalu ambigu (bermakna ganda). Contoh: apel yang besar dibandingkan dengan apel.

Menyulitkan proses pemeringkatan (ranking). Sebagai contoh, diberikan sebuah query fishing supplies. Bagaimana cara kita me-ranking dokumen dengan: Frasa keseluruhan berulang kali, frase keseluruhan hanya sekali, kata individual pada kalimat yang sama, paragraf yang sama, dokumen yang sama atau variasi pada kata ?

Frasa
Isu pada pemrosesan teks adalah bagaimana frasa dikenali. Tiga pendekatan yang mungkin: Mengidentifikasi sintaksis frasa menggunakan tanda part-of-speech (POS). Menggunakan kata n-gram. Menyimpan posisi kata dalam indeks dan menggunakan kedekatan operator dalam query.

PENGINDEKSAN
Pertemuan 5

Indeks
Pengorganisasian berkas atau indeks digunakan untuk meningkatkan unjuk kerja dari sistem perolehan informasi Pengindeksan teks adalah proses yang memutuskan apa yang akan digunakan untuk merepresentasikan dokumen tertentu Indeks kata ini yang digunakan untuk mengindeks dokumen

Pengindeksan Secara Manual vs. Otomatis


Pengindeksan secara manual (dilakukan oleh manusia) Pengindeks menentukan kata kunci yang diberikan kepada suatu dokumen berdasarkan perbendaharaan kata yang terkontrol (controlled vocabulary) Biaya mahal Pengindeksan secara otomatis Program pengindeks menentukan kata atau frase tertentu dari teks pada dokumen Prosesnya cepat

Tahapan Pengindeks
1. Lihat dokumen untuk mengenali strukturnya Mis. Judul, tanggal, dll. 2. Tokenisasi 3. Pembuangan stopwords 4. Proses pemotongan imbuhan (stemming) 5. Pembobotan kata 6. Pembuatan indeks

Tahapan Pengindeksan : Tokenisasi


Hilangkan karakter yang tidak penting / tanda-tanda(mis. HTML tags, tanda baca, karakter khusus), huruf besar, nomor Potong menjadi token Bahasa seperti non-latin perlu segmentasi Catat informasi posisi kata untuk operator proximity

Pembuangan Stopwords
Semua kata yang termasuk dalam daftar stopwords, yaitu daftar kata yg umum (kata yang mempunyai fungsi tapi tidak mempunyai arti) mis.: dan, atau, sebuah, yang Jumlahnya bisa ratusan kata Perhatikan kata yang menjadi bagian dari frase: Yang Maha kuasa, vitamin A, gerbang dan-atau (and-or gate) Berguna untuk menghemat penyimpanan indeks (efisiensi)

Proses Pemotongan Imbuhan (Stemming)


Pemrosesan morfologi terhadap sekelompok variasi kata: perubahan kata berimbuhan menjadi kata dasar Misalnya: diberikan beri Bisa salah tetapi banyak digunakan pada IR system

Pembobotan Kata
Kata yang penting seharusnya diberi bobot yang lebih berat Menggunakan frekuensi dalam dokumen dan koleksi

Efek Penggunaan Stemmer


Apakah penggunaan Stemmer dapat meningkatkan unjuk kerja dari sistem perolehan informasi? Hasil penelitian penggunaan stemmer sangat beragam Ada yang dapat membantu meningkatkan jumlah dokumen pada suatu koleksi tapi pada koleksi yang lain dapat menurunkan jumlah dokumen yang diperoleh Kurang berguna untuk koleksi Web yang sangat besar

Stemmer untuk Bahasa Indonesia


Imbuhan (afiks): Prefiks / awalan (meng, di, ber, peng, ke, se, ter) Mis. di + beri diberi Sufiks / akhiran (I, kan, an) Mis. makan + an makanan Confiks / gabungan prefiks & sufiks (me-kan, ber-an) Mis. meng + beli + kan membelikan Prefiks & Sufiks dapat ditambahkan pada kata yang telah mempunyai prefiks atau confiks Mis. mem + per + hati + kan memperhatikan

Stemmer untuk Bahasa Indonesia


Algoritma stemmer : Kata dasar Kata berakhiran infleksional Kata berimbuhan Tidak ada Menggunakan kamus yang berisi daftar kata dasar

Stemmer untuk Bahasa Indonesia


Kata berakhiran infleksional Akhiran ku, mu, nya harus mendahului kah, lah, tah Hasil : kata dasar atau kata berimbuhan Kata berimbuhan Lihat apakah prefiks & sufiks sudah sesuai aturan Mis. Prefiks ber tidak dapat digabung dengan sufiks i Setelah dihilangkan konfiksnya, teliti apakah fonemnya perlu diubah (mis. meng + ambil mengambil ; meng + satukan menyatukan)

Stemmer untuk Bahasa Indonesia


Evaluasi: Dari 18,590 kata berimbuhan, 95 % bisa diperoleh kata dasarnya dengan benar dan 5 %-nya diperoleh kata yang salah Kesalahan: Salah melakukan perubahan fonem Mis: mengawani = meng + awan + i atau meng + kawan + i Mis-stemming (salah melakukan pemotongan kata)Mis. berikan = beri + kan atau ber-ikan

Stemmer untuk Bahasa Indonesia


Understemming (kata terlalu sedikit yang dipotong) Mis. beruangkah = beruang + kah atau ber + uang +kah

Pertemuan 6
Information Model

Model Perolehan Informasi


Model adalah suatu idealisasi / abstraksi dari proses yang sesungguhnya Model matematika digunakan untuk mempelajari properti dari proses, mengambil kesimpulan, membuat ramalan

Model Perolehan Informasi


Suatu Model Perolehan Informasi berisi : Representasi dokumen Representasi query Fungsi Perolehan (Retrieval)

Perolehan Informasi
Jenis indeks Manual Indeks ditentukan secara manual oleh manusia berdasarkan suatu perbendaharaan kata yang sudah ditentukan Pencari informasi menggunakan daftar perbendaharaan kata yang sama Ketepatannya sangat tinggi

Perolehan Informasi
Jenis indeks Otomatis Indeks berisi kata-kata yang ada pada dokumen (inverted index)Kata-kata pada dokumen mengindikasikan isi dokumen Pencari informasi menggunakan bahasa alami Ketepatan pada perolehan dokumen ditentukan oleh bobot kata-kata pada dokumen

Model Boolean
Model Boolean adalah salah satu model pencocokan secara tepat (exact-match) Query mempunyai kriteria perolehan yang tepat Setiap dokumen bisa cocok atau tidak cocok dengan query Hasilnya adalah suatu set dokumen (tidak ada urutan)

Model Boolean
Operator Boolean yang murni: AND, OR, dan NOT Kebanyakan sistem mempunyai operator proximity Mengapa exact match masih banyak digunakan di bidang komersial? Perbedaan budaya Biaya pelatihan dan pengoperasian sistem baru Tidak jelas perbedaan hasil penelitian pada koleksi besar dan kecil Untuk beberapa query atau koleksi, seringkali hasil Boolean lebih baik (mis., menggunakan AND di web)

Bahasa query sederhana: Boolean


Kata + Penghubung (atau operator) Kata Kata yang di-stemmed frase Kata-kata dalam thesaurus Penghubung AND OR NOT

Model Boolean
Set kata-kata hanya berisi tidak ada dan ada Nilai-nilai Boolean direpresentasikan sebagai 0 dan 1 Kombinasikan barisnya dengan operator Boolean AND, OR, NOT Hasil: setiap dokumen yang nilainya 1

Kelebihan dari Model Boolean


Operator Boolean bisa mendekati bahasa alami Cari dokumen tentang demonstrasi menentang kenaikan harga minyak tanah AND dapat menemukan hubungan antara konsep Demonstrasi mahasiswa OR dapat menemukan terminologi alternatif Demonstrasi karyawan NOT dapat menemukan arti alternatif Demonstrasi memasak

Kelebihan dari Model Boolean Query sederhana, mudah dimengerti Relatif mudah untuk diimplementasikan

Kekurangan dari Model Boolean


Bahasa alami sangat kompleks Dia melihat seseorang di pantai dengan teropong AND menemukan hubungan yang tidak ada Kata-kata di paragraf yang berbeda, bab, Menebak terminologi OR sangat sukar baik, bagus,

Kekurangan dari Model Boolean


Sering menghasilkan terlalu banyak dokumen - Semua dokumen yang cocok akan muncul - Sukar mengurutkan dokumen Sukar untuk mengekspresikan permintaan pemakai yang kompleks Pemakai harus belajar lojik Boolean Perbendaraan kata pada indeks harus sama dengan perbendaharaan kata pada query

PENGERTIAN CITRA DIGITAL PERTEMUAN 9

Ada 3 bidang studi utama yg menangani data berbentuk gambar atau citra Grafika komputer Pengolahan Citra Pengenalan Pola/visi komputer

Grafika Komputer Melakukan proses yg bersifat sintesis Data masukan berbentuk deskriptif Keluaran hasil proses yg berbentuk gbr Contoh Proses penggambaran prespektif suatu objek tiga dimensi, yg menggunakan data masukan berupa koordinat titik titik yg membentuk objek tsb.

Pengenalan pola/ Visi komputer Data masukan berupa citra / gambar Proses yg dilakukan adl proses penggalian strutur gambar dgn hasil keluaran berupa deskriptif Contoh Pengenalan jenis penyakit paru melalui citra sinar X paru penderita

Pengolahan citra Merupakan proses pengolahan dan analisis citra yg banyak melibatkan persepsi visual Proses ini mempunyai ciri data masukan dan informasi keluaran berbentuk citra.

Dalam kenyataanya, batasan antara ketiga bidang studi diatas sulit untuk ditentukan Contoh Proses pembuatan film animasi, objek dan proses animasinya diciptakan dgn teknik grafika komputer sedangkan pembuatan latar belakangnya dilakukan dgn pengolahan citra.

Citra sbg keluaran suatu sistem perekaman data : Bersifat Optik berupa foto Bersifat analog berupa sinyal analog ( gbr pd monitor TV ) Bersifat Digital yg dpt langsung di simpan pd suatu pita magnetik

Secara teoritis citra dpt dikelompokan pd kelas : Kontinu kontinu Kontinu diskrit Diskrit kontinu Diskrit diskrit Label pertama menyatakan presisi dari titik titik koordinat pada bidang citra Label kedua menyatakan presisi nilai keabuan(warna)

Kontinu dinyatakan dgn presisi angka tak terhingga Diskrit dinyatakan dgn presisi angka terhingga Komputer digital bekerja dgn angka presisi terhingga ( kelas diskrit-diskrit yg diolah dgn komputer)

Untuk mengubah citra yg bersifat kontinu menjadi digital diperlukan pembuatan kisikisi arah horizontal dan vertikal, sehingga diperoleh gbr dlm bentuk array 2 dimensi. Proses tsb dikenal dgn proses digitasi atau sampling.

Proses kuantisasi, menyatakan tingkat keabuan piksel akan menentuekan resolusi kecerahan dari gbr yg diperoleh. Gambar dari memori citra kebentuk peragaan pd monitor TV dikenal sbg konversi digital ke - analog

Citra monokrom(hitam-putih)
Citra monokrom(hitam-putih) merupakan citra satu kanal, dimana citra f(x,y) merupakan tingkat fungsi keabuan dari hitam ke putih. X menyatakan variabel baris/garis jelajah Y menyatakan variabel kolom/posisi piksel

Citra berwarna
Dikenal dgn citra multi-spektral Warna citra dinyatakan dgn 3 komponen (merah, hijau dan biru ). Citra berwarna {fmerah(x,y),fhijau(x,y),fbiru(x,y)} merupakan fungsi harga vektor tingkat keabuan merah, hijau dan biru.

Bila suatu masukan bentuk impuls dilakukan pd suatu filter, mk keluaran yg diperoleh dikenal dgn sebutan respon impuls. Respon impuls adl citra hasil rekaman pd bidang keluaran dari suatu sumber titik ideal pd bidang masukan.

Suatu Filter disebut sbg filter linear bila memenuhi : Alpha f(x) Alpha g(x) f1(x) + f2(x) g1(x) + g2 Alpha1 f1(x) + Alpha2 f2(x) Alpha1 g1(x) + Alpha2 g2(x)

Pertemuan 10
Perangkat Pengolah Citra

Sistem penangkap citra digital terdiri dari tiga komponen dasar : Sensor citra bekerja sbg pengukur intensitas cahaya. Perangkat penjelajah bertugas merekam hasil pengukuran intensitas pada seluruh bagian citra. Pengubah analog ke digital Yang mengubah harga kontinu ke diskrit sehingga dpt diproses komputer.

Perangkat keras yg dibutuhkan sebagai pengolah citra : Prosesor dengan kecepatan tinggi. Pararell pipelined

Komputer merupakan bagian perangkat keras yg bersifat multiguna. Bagian ini terdiri dari sistem komputer yg dilengkapi : Alat masukan Alat keluaran Terminal , digunakan untuk komunikasi antara pemakai dan sistem komputer

Sub sistem masukan video digunakan untuk memasukan data citra yang berasal dari suatu alat perekam dan pembaca video, hasil foto melalui sistem kamera. Keluaran video yang mengeluarkan hasil proses pengolahan citra, seperti dlm bentuk cetak film alat fotografi, cetak gbr hasil plotter, ataupun bentuk peragaan melalui layar peraga suatu monitor video seperti Televisi.

Sistem kontrol proses interaktif terdiri dari peralatan yg digunakan utk melaksanakan komunikasi antar pemakai dengan mesin. Alat yang paling sederhana berupa suatu terminal dan papan kuncinya untuk memasukan suatu karakter. Komunikasi dpt dilakukan antara lain melalui trackball sbg alat penunjuk pd posisi layar peraga.

Perangkat lunak pengolahan citra


Paket perangkat lunak pengolahan citra mencakup bidang aplikasi bidang: Riset dan pengembangan Seni grafis Film animasi Penginderaan jauh Astronomi Meteorologi Oseanografi Biomedis , dll

jenis paket lain yg dikombinasikan dgn perangkat keras tertentu dan membentuk suatu sistem turnkey: Sistem ERDAS yg digunakan pd aplikasi penginderaan jauh yg dikembangkan oleh Gould Company dari Kanada Meridian Image Analysis, utk aplikasi penginderaan jauh ataupun biomedis yg dikembangkan oleh MDA Macdonald Dettwiller and associates LTD dari Kanada

Tujuh modul yg merupakan pengelompokan rutin menurut fungsi yg sejenis : Modul proses berkas masukan dan keluaran. Terdiri dari proses pemindahan berkas citra dan penyimpanan diluar seperti pita magnetik atau disk ke memori komputer, atau sebaliknya menurut format tertentu.

Modul proses filtering dan koreksi radiometris. Merupakan modul yang menangani peningkatan mutu citra yang dilakukan dgn operasi kernel dan penggunaan looking up table. Modul yg berfungsi melakukan proses koreksi geometris.menyediakan proses registrasi citra berdasarkan titik kontrol yg telah diketahui koordinatnya

Modul klasifikasi citra utk melakukan: Pembentukan set sample Proses pengelompokan data Menghitung statistik ciri setiap kelas atau kelompok pola dari objek yg sama.

Modul yg berfungsi menghitung segala nilai-nilai statistik citra yg biasanya dibutuhkan dlm proses analisis citra. nilai statistik yg sering dibutuhkan adalah: Harga rata-rata Standar deviasi Varian Matrik Vektor histrogram

Modul operasi matematika meliputi segala operasi yg yang bersifat arimatik seperti : Tambah, kurang, kali, rasio, akar Bersifat logik : AND, OR, NOT dan XOR

Modul proses pembuatan laporan dan peragaan secara grafis

Pertemuan 11
Aplikasi penginderaan jauh

Aplikasi penginderaan jauh


Merupakan suatu sistem yg digunakan utk merekam data mengenai permukaan bumi berdasarkan pengukuran yang dilakukan dari jarak jauh, dlm hal ini menggunakan pesawat terbang atau sistem satelit. Tujuan agar dpt merekam data daerah bumi yg cukup luas , utk kepentingan survai maupun pemantauan sumber daya alam

Komponen sistem penginderaan jauh


Sumber radiasi menggunakan sinar matahari , mk perekaman data hanya dpt dilakukan pada pagi sampai sore hari. kecuali perekam data dgn sensor infrared panas berdasarkan perbedaan temperatur. Sensor, data yg direkam dpt berupa gbr pd layar peraga, berbentuk foto atau data digital yg direkam pada pita magnetik.

Aplikasi Robotik Pengolahan citra pd aplikasi dibidang robotik banyak menggunakan proses pengenalan objek. Contoh Dlm penyusunan program sebuah robot yg direncanakan utk dpt berjalan melalui jalur tertentu dan dpt menghindari objek objek dgn bentuk tertentu.

Jalur transmisi, dalam sistem ini dilakukan melalui atmosfir. Sasaran, dlm hal ini adl suatu daerah pd permukaan bumi.

Tahapan proses pengolahan citra digital : Koreksi geometris Peningkatan mutu citra Reduksi data Klasifikasi dan segmentasi citra Kombinasi peta

Aplikasi biomedis Proses proses pengolahan biomedis secara digital umumnya bertujuan utk mendeteksi objek dan utk melakukan pengukuran yg lebih lanjut kemudian digunakan utk mendukung proses diagnosis

Aplikasi industri Proses pemeriksaan kualitas suatu produk industri, misalnya pemeriksaan wiring yg putus pd rangkaian elektronik atau penempatan dari suatu komponen elektronik yg tidak tepat.

Aplikasi Arsip citra dan dokumen Proses yg dibutukan pada pengaturantata letak gbr pd dokumen adalah : Proses peningkatan mutu gbr Proses pengaturan posisi, ukuran dan orientasi gambar.

Pertemuan 12
Peningkatan Mutu Citra

Proses pengolahan citra yg termasuk dlm katergori peningkatan mutu citra dari proses proses yg bertujuan utk memperoleh keindahan gambar Kepentingan analisis citra Mengkoreksi citra dari segala gangguan yg terjadi pd waktu perekaman data.

Peningkatan Kontras Citra


Kontras yg tidak baik karena terlalu terang, yg dlm istilah fotografi disebut over exposed Kontras yg kurang baik di mana gbr mengalami underexposed Kontras baik dimana tingkat keabuan secara penuh dgn distribusi piksel yg hampir merata pd setiap harga intensitas piksel.

Penggeseran dan pelebaran histogram


Teknik penggeseran histogram dilakukan dengan cara penambahran atau pengurangan nilai intensitas setiap piksel citra berhubungan dengan suatu harga konstanta integer. Teknik pelebaran histogram dilakukan dengan cara pengalian atau pembagian nilai intensitas setiap piksel dengan suatu harga konstanta integer tertentu.

Penambahan nilai intensitas piksel dgn suatu harga konstanta dgn memberikan efek gambar menjadi lebih terang. Pengurangan mempunyai efek yg berlawanan, dimana gambar kelihatan menjadi lebih gelap.

Pelebaran histogram dgn cara pengalian tingkat keabuan asli dgn sesuatu harga konstanta tertentu, akan memberikan efek serupa dgn proses penggeseran histogram cara penambahan. Gambar akan cenderung lebih terang. Cara pembagian , gambar yg diperoleh cenderung lebih gelap, krn intensistas tingkat keabuan baru yang lebih rendah.

Kontras Biner Yaitu penggunaan hanya dua tingkat keabuan. Objek yg akan diteliti diberi warna yg jelas misalnya hitam dengan intensitas tingkat keabuan 1, sedangkan objek lainnya diberi warna yg sama dgn warna latar belakang misalnya putih dgn intensitas tingkat keabuan 0.

Pertemuan 13
Pengelompokan dan pengenalan pola

Manusia memiliki kemampuan yg luar biasa untuk mengenali objek objek berdasarkan ciri ciri atau pengetahuan yg pernah diamatinya dari objek objek yg bersangkutan. Contoh Penulisan huruf dgn tangan: a , a,A,T Tidak sulit bagi manusia untuk membedakan bentuk huruf yg dicetak, tetapi apakah komputer akan sanggup melakukan proses pengenalan tsb.

Suatu alat yg mampu mengenali bentuk karakter terbatas telah dpt dibuat oleh manusia. Alat itu dikenal dgn sebutan Optical Character Recognation (OCR), namun sampai sekarang belum berhasil diperoleh suatu OCR yg mampu mengenali bentuk karakter sembarang. Usaha usaha tersebut telah mendukung berkembangnya suatu disiplin dan metodelogi yg kemudian dikenal dgn nama pengenalan pola

Pola adalah intensitas yg terdefinisi dan dpt diberi sesuatu atau nama. contoh : gelombang suara sidik jari Raut wajah ,dan lain sebagainya. misalnya utk identifikasi seorang pembicara berdasarkan suaranya, maka digunakan pola hasil trasnformasi gelombang suara

Tahapan dan tujuan proses pengenalan pola


1. Memasukan pola kedalam suatu pola kelas yg belum dikenal prosesnya disebut clustering atau klasifikasi tidak terawasi. 2. Mengidentifikasi pola sebagai anggota dari kelas yg sudah dikenal, prosesnya disebut klasifikasi terawasi

Teknik teknik pengenalan pola telah mengakibatkan revolusi pemrosesan data satelit dlm menghasilkan informasi mengenai kondisi tanah, ragam vegetasi, pola cuaca, topografi permukaan bumi.

Terdpt 2 pendekatan utama : Pendekatan geometrik(statistik) pembedaan antara objek dilakukan berdasarkan ciri objek dan fungsi kerapatan pola. proses pengelompokan polanya dilakukan melalui proses estimasi dan klasifikasi.

Pendekatan struktural(sintatik) dilakukan melalui penentuan primitif yg dpt menggambarkan objek bersangkutan dan penyusunan tata bahasa. pengelompokan pola dilakukan melalui proses inferensi dan deskripsi.

Sistem pengenalan pola beroperasi dlm 2 fase: 1. Fase Latih 2. Fase Pengenalan

Fase Latih pengekstrasi ciri menentukan ruang ciri yg sesuai utk mempresentasikan pola. Pembuatan aturan klasifikasi mempartisi ruang sedemikian rupa shg jumlah tumpang tindih antara kategori menjadi sekecil mungkin.

Fase pengenalan pengklasifikasian menentukan suatu pola masukan sbg salah satu kategori objek yg telah dispesifikasikan menurut ciri ciri pengukuran objek.

Pertemuan 14
Klasifikasi dan Segmentasi Citra

Tujuan dari proses klasifikasi citra adalah utk mendapatkan gam bar atau peta tematik. Gambar tematik adalah suatu gambar yg terdiri bagian-bagian yg menyatakan suatu objek atau tema. Setiap objek pd gambar tersebut mempunyai simbol yg unik , yg dpt dinyatakan dgn warna atau pola tertentu.

Contoh Citra hasil suatu foto instrumen biomedis dpt diklasifikasikan menjadi bagian tulang, jaringan sehat, dan jaringan sakit.

Segmentansi citra itu sendiri mempunyai arti membagi suatu citra menjadi wilayah wilayah yg homogen berdasarkan kriteria kesamaan yg tertentu antara tingkat keabuan suatu piksel dgn tingkat keabuan piksel piksel tetangganya.

Segmentasi citra berdasarkan histogram Merupakan teknik citra yg paling mudah diterapkan. Proses diawali dgn pembuatan histogram dari citra yg akan disegmentasi. Proses segmentasi dilakukan dgn membagi citra kedlm beberapa kategori objek sesuai dgn pengelompokan tingkat keabuan yg terjadi pd histogram.

Karakteristik setiap objek pada pengamatan mempunyai pola tertentu. Sebagai contoh diambil citra hasil pengamatan sistem satelit sumber daya alam. Objek objek permukaan bumi seperti tumbuhan , tanah dan air bisa dianggap sbg objek yg mempunyai pola tingkat keabuan yg dpt dibedakan.

Pada rekaman satelit cuaca, peta liputan awan yg diperoleh dpt di lihat bahwa semakin putih tingkat keabuanya makin besar jumlah awan yg menutupi wilayah bersangkutan. Besarnya curah hujan disuatu daerah juga dpt ditentukan melalui karakteristik dari awan.

Anda mungkin juga menyukai