Kuliah Pertemuan Ke 3 Dan 4 - NLP
Kuliah Pertemuan Ke 3 Dan 4 - NLP
D
Pengolahan Bahasa Alami
Natural Language Processing (NLP)
Definisi Natural Language Processing??
EKSTRAK
Bahasa INFORMASI
Bahasa
Alami Alami
Pengolahan Bahasa Alami
Natural Language Processing (NLP)
Tujuan dari pengolahan bahasa alami
Summarization
Pembuatan ringkasan dari sekumpulan konten dokumen atau
email. Aplikasi membantu user mengkonversikan dokumen teks
yang besar ke dalam bentuk slide presentasi.
Machine Translation
Produk yang dihasilkan adalah aplikasi yang dapat memahami
bahasa manusia dan menerjemahkannya ke bahasa lain. Termasuk
di dalamnya adalah google translate yang apabila dicermati
semakin membaik dalam penerjemahan bahasa.
Pengolahan Bahasa Alami
Natural Language Processing (NLP)
Area Penelitian Bahasa Alami (NLP)
Speech Recognition
Bagian ini merupakan cabang dari ilmu bahasa alami yang cukup
sulit. Mekanisme pembangunan model untuk digunakan telepon
atau komputer dalam mengenali bahasa yang diucapkan sudah
banyak dikerjakan. Bahasa yang sering digunakan berupa
pertanyaan dan perintah.
Pengolahan Bahasa Alami
Natural Language Processing (NLP)
Area Penelitian Bahasa Alami (NLP)
Document Classification
Aplikasi ini merupakan area penelitian bahasa alami (NLP) yang
paling sukses. Pekerjaan yang dilakukan aplikasi ini adalah
menentukan dimana tempat terbaik dokumen yang baru
diinputkan ke dalam sistem. Hal ini sangat berguna pada aplikasi
spam filtering, news article classification dan movie review.
Pengolahan Bahasa Alami
Natural Language Processing (NLP)
Terminologi NLP
Pragmatics
Komponen pragmatics menjelaskan hubungan pernyataan yang
ada dengan dunia. Untuk memahami bahasa, agen harus
mempertimbangkan lebih lanjut, tidak hanya sekadar kalimat.
Agen harus melihat lebih ke dalam konteks kalimat, keadaan dunia,
tujuan dari speaker, listener, konvensi khusus dan sejenisnya.
Pengolahan Bahasa Alami
Natural Language Processing (NLP)
Terminologi NLP
Semantics
Semantics menjelaskan arti dari kalimat dalam satu bahasa,
meskipun teori semantic secara umum telah ada, ketika
membangun sistem bahasa alami untuk aplikasi tertentu, akan
digunakan representasi yang paling sederhana.
Pengolahan Bahasa Alami
Natural Language Processing (NLP)
Terminologi NLP
Fonetik,
adalah segala hal yang berhubungan dengan suara yang
menghasilkan kata yang dapat dikenali. Fonetik digunakan dalam
pengembangan NLP khususnya bidang speech based system.
Sampai bertemu MD!
Pengolahan Bahasa Alami
Natural Language Processing (NLP)
Information Retrieval
A corpus of documents
Setiap sistem harus memutuskan dokumen yang ada akan
diperlakukan sebagai apa. Bisa sebagai sebuah paragraf, halaman,
atau teks multipage.
A result set
Ini adalah bagian dari dokumen yang dinilai oleh sistem IT sebagai
yang relevan dengan query
Semantic
Semantic analyzer mempunyai hubungan rule dalam basis
pengetahuan untuk menginterpretasikan sebuah kalimat.
Rule 1 :
If determiner adalah bagian pertama dalam kalimat dan diikuti
oleh noun then noun ersebut dianggap sebagai subyek
Rule 2 :
If verb diikuti subyek then verb menjelaskan tentang apa yang
dikerjakan oleh subyek
Pengolahan Bahasa Alami
Natural Language Processing (NLP)
Information Retrieval
Rule 3 :
If noun diikuti subyek dan verb then noun tersebut dianggap
sebagai obyek
Rule 4 :
If kalimat mempunyai bentuk subyek, ver, obyek then subyek
mengerjakan (verb) yang ada hubungannya dengan obyek.
Pengolahan Bahasa Alami
Natural Language Processing (NLP)
Information Retrieval
K-Gram
Pembentukan rangkaian gram dengan ukuran K. Nilai K di-input oleh
pengguna untuk menentukan batas toleransi kesamaan kata yang
terdapat dalam dokumen. Dengan asumsi 1 kata sama dengan 5 K-Gram,
pengguna dapat mengatur ukuran menjadi 25 K-Gram apabila pengguna
ingin batas toleransi sebanyak 5 kata. Dengan begini, bagian kata
(substring) baru akan sama apabila mereka memiliki 5 atau lebih kata yg
sama.
Pengolahan Bahasa Alami
Natural Language Processing (NLP)
Information Retrieval
Hashing
Setelah rangkaian gram telah dibentuk, perhitungan nilai hash dari setiap
gram dilakukan. Dengan hashing, rangkaian gram diubah menjadi nilai
atau kode yang menjadi penanda dari rangkaian gram tersebut,
Window
Nilai-nilai hash tersebut dibagi ke dalam window tersebut.
Pengolahan Bahasa Alami
Natural Language Processing (NLP)
Information Retrieval
Finger print
Seteleh pembentukan window yang berisi nilai-nilai hash, maka dipilih
nilai hash yang paling kecil dari setiap window. Apabila ada lebih dari
satu nilai yang paling kecil dimekanisme windowing, maka nilai yang
terkecil pada window sebelumnya itu dipilih untuk dijadikan document’s
fingerprints sebagai dasar pembanding antar dokumen.
Pengolahan Bahasa Alami
Natural Language Processing (NLP)
Information Retrieval