Anda di halaman 1dari 32

PEMROSESAN BAHASA ALAMI

Mitra Unik, M.Kom

Teknik Informatika
Fakultas Ilmu Komputer
Universitas Muhammadiyah Riau

DESKRIPSI MATA KULIAH


Tujuan Belajar
Setelah mempelajari mahasiswa
diharapkan:
1. Memahami definisi dari

pengelolaan bahasa Alami.


2. Megetahui Aplikasi dalam

pengolahan Bahasa Alami


3. Mengerti bidang pengetahuan dari

Pegolahan Bahasa Alami yaitu


Grammatika, parsing dan
Semantik

Pokok Bahasan
1. Aplikasi pengolahan

bahasa alami
2. Grammatika
3. Parsing
4. Semantik

PENGANTAR
Bahasa sebagai bagian yang penting dari kehidupan manusia :
o TULISAN dapat merupakan catatan dari pengetahuan yang di dapat oleh

umat manusia dari satu generasi ke generasi berikutnya.


o LISAN merupakan sarana komunikasi antar individu dalam suatu

masyarakat

o TUJUAN:
o Dalam bidang Bahasa Alami ini adalah melakukan pemrosesan

pembuatan model komputasi dari bahasa, sehingga dapat terjadi suatu


interaksi antara manusia dengan komputer dengan perantara bahasa
alami.
3

MENGAPA MENJADI PENTING


1. Sebagian besar pengetahuan sekarang tersedia

dalam mesin yang dapat dibaca sebagai teks bahasa


alami.
2. Agen percakapan menjadi bentuk penting dari

komunikasi manusia komputer.


3. Banyak dari komunikasi manusia-manusia sekarang

dimediasi oleh komputer.

PEMROSESAN BAHASA ALAMI


Natural language processing (NLP) atau dalam
bahasa Indonesia berarti Pemrosesan Bahasa Alami
(PBA) merupakan cabang dari ilmu komputer dan
linguistik yang membahas tentang interaksi antara
bahasa manusia (bahasa alami) dan komputer.
NLP juga sering disebut sebagai cabang dari
kecerdasan buatan (Artificial Inteligence) dan
memiliki kajian yang berhubungan dengan linguistik
komputasional.

PEMROSESAN BAHASA ALAMI


Pemrosesan bahasa Alami (Natural Language Processing)

harus memperhatikan pengetahuan terhadap bahasa itu


sendiri, baik dari segi kata yang digunakan, bagaimana
kata-kata tersebut digabung dan menghasilkan satu
kalimat dan sebagainya.
Mempertimbangkan kemampuan manusia untuk mengerti

dan kemampuan untuk itu didapat dari pengetahuan yang


didapat secara terus menerus sewaktu hidup.

Paham kontek komunikasi,


dapat menjawab pertanyaan

Contoh: - mampu berbahasa,

DEFINISI ++
Pemroses bahasa alami (Natural Language
Processing/NLP) adalah suatu aplikasi (program) dalam
bidang AI yang dapat mengartikan suatu bahasa baik
bahasa tulisan maupun bahasa lisan atau memproses
masukan yang berupa bahasa menjadi suatu informasi
atau pengetahuan
Yang menjadi pembahasan bukan bagaimana bahasa
diinput atau dimasukkan kedalam program, tetapi lebih
kepada bagaimana mengartikan suatu bahasa atau

PEMBAGIAN MASALAH NLP

Masalah pemrosesan bahasa alami dibagi menjadi dua


bagian besar, yaitu :
1. Pemrosesan Naskah

Tertulis
menggunkan pengetahuan

tentang leksikal, sintax, dan


semantik

2. Pemrosesan Bahasa

Lisan

menggunakan semua

pengetahuan dari
pemrosesan naskah tertulis
ditambah pengetahuan
tentang phonology.

MASALAH DALAM NLP


Beberapa masalah yang dihadapi dalam pemrosesan bahasa
alami antara lain adalah :
1. Suatu kalimat sering kali tidak lengkap, artinya tidak memberi

informasi yang jelas atau lengkap


2. Satu kalimat dapat memiliki lebih dari satu pengertian dalam

konteks yang berbeda


3. Tidak ada program pemroses bahasa alami yang cukup lengkap

karena bahasa selalu berkembang, kosa kata selalu bertambah.


4. Bisa terdapat lebih dari satu cara (lebih dari satu kalimat) untuk

mengungkapkan hal(maksud) yang sama.

TERAPAN APLIKASI NLP


Chatbot
Apliakasi yang membuat user seolah-olah melakukan
komunikasi dengan komputer.
Stemming / Lemmatization
Pemotongan kata dalam bahasa tertentu menjadi bentuk
dasar pengenalan bahasa tertentu menjadi bentuk dasar
pengenalan fungsi setiap kata dalam kalimat.
Summarization
Ringkasan dari bacaan

TERAPAN APLIKASI NLP


Translation
Menterjemahkan bahasa
Serta aplikasi-aplikasi lain yang memungkinkan

komputer mampu memahami instruksi bahasa yang di


inputkan oleh user.

CONTOH APLIKASI
NLP
Chatterbot, robot obrolan
adalah jenis agen
percakapan, program
komputer yang dirancang
untuk mensimulasikan
sebuah percakapan cerdas
dengan satu atau lebih
pengguna manusia melalui
metode pendengaran atau
tekstual.

AREA PENELITIAN PEMROSESAN


BAHASA ALAMI
Area utama penelitian pada field Pemrosesan
Bahasa Alami

AREA PENELITIAN
1. QUESTION ANSWERING SYSTEM (QAS)
Kemampuan komputer unutk menjawab pertanyaan yang
diberikan kepada user. Daripada memasukkan keyword dalam
browser pencarian/mengetikkan pertanyaan, dengan QAS,
user dapat langsung bertanya daloam bahasa natural yang
digunakannya baik inggris, mandarin atau indonesia.

Internet Relay Chat bot, satu set script atau program


independen yang terhubung ke Internet Relay Chat
sebagai klien, dan begitu tampaknya pengguna lain
IRC sebagai pengguna lain
www.mitsuku.com, www.Alicebot.org

CONTOH QAS:
INTERNET RELAY
CHAT BOT

SUMMARIZATION
Pembuatan ringkasan dari
sekumpulan konten
dokumen atau email.
Aplikasi membantu user
mengkonversi dokumen tex
yang besar ke dalam bentuk
slide presentasi.
www.tools4noobs.com

Bahasa merupakan fenomena yang rumit yang

melibatkan proses pengenalan bunyi atau huruf,


sintaksis, kalimat, inferensi semantik tingkat tinggi
bahkan komunikasi emosi lewat irama bicara.

Untuk mengelola kerumitan ini, para ahli bahasa telah

mendefinisikan tingkat analisis yang berbeda untuk


bahasa alami yaitu persanjakan, fonologi, morfologi,
sintaksis, semantik, pragmatik, dan pengetahuan
tentang dunia sekitar.

FONETIK DAN FONOLOGI


Fonetik mengacu pada artikulasi bunyi bahasa. Berhubungan

dengan suara yang menghasilkan kata yang dapat dikenali.


Bidang ini menjadi sangat penting dalam proses aplikasi yang
memakai metoda speech based system.

Para ahli fonetik telah berhasil menentukan cara artikulasi dari

berbagai bunyi bahasa dan membuat abjad fonetik


internasional sehingga memudahkan seseorang untuk
mempelajari dan mengucapkan bunyi yang tidak ada dalam
bahasa ibunya. Misalnya dalam bahasa Inggris ada perbedaan
yang nyata antara bunyi tin dan thin, dan antara they dan day,
sedangkan dalam bahasa Indonesia tidak.

Dengan mempelajari fonetik, orang Indonesia akan dapat


mengucapkan kedua bunyi tersebut dengan tepat.

INFORMATION RETRIEVAL
Information Retrieval (IR) adalah pekerjaan

menemukan dokumen yang relevan dengan


kebutuhan informasi user.

Contoh IR ynag paling populer adalah serach engine

pada World Wide Web


1. A corpus of document

Setiap sistem harus memutuskan dokumen yang ada ajan diperlakukan


sebagai apa. Bisa sebagai paragraf, halaman atau teks multipage

2. Queries posed in a query language


Sebuah query menjelaskan tentang apa yang user ingin peroleh Query
langguage dapat berupa list dari kata-kata atau dapat juga
menspesifikasikan sebuah fase dari kata-kata yang harus berdekatan.

INFORMATION
RETRIEVAL
3.

A Result set
Ini adalah bagian dari
dokumen yang dinilai oleh
sistem IR sebagai yang
relevan dengan query

4.

A presentation of result
set
Maksud dari bagian ini adalah
tampilan list judul dokumen
yang sudah dirangking

MORFOLOGI
Morfologi menyimak

komponenkomponen (morfem)
yang memiliki makna
yang membentuk
kata, antara lain
melibatkan awalan
dan akhiran yang
mengubah arti katakata akar.

makan

main

makanan

mainan

dimakan

bermain

termakan

main-main

makan-

bermain-

makan

main

dimakankan

permainan

rumah

memainkan

makan

SINTAKSIS
Sintaksis merupakan studi yang menyimak tentang

aturan penggabungan kata menjadi frase dan kalimat


yang diperkenankan dan pemakaian aturan-aturan
tersebut menjadi kalimat.

Secara umum struktur sintaksis itu terdiri dari susunan subjek

(S), predikat (P), objek (O), dan keterangan.

SEMANTIK
Semantik adalah cabang linguistik yang mempelajari

makna / arti yang terkandung dalam bahasa, kode,


atau jenis lain dari representasi.

Semantik menyimak arti kata, frase dan kalimat serta

cara penyampaiannya dalam bahasa alami.

Linguistik Semantik adalah studi tentang makna yang

digunakan untuk memahami ekspresi manusia melalui


bahasa. Bentuk lain dari semantik termasuk semantik
bahasa pemrograman, logika formal, dan semiotika.

PRAGMATIK
Pragmatik merupakan studi tentang cara penggunaan bahasa

dan pengaruhnya pada pendengar.

PENGETAHUAN TTG DUNIA SEKITAR


Pengetahuan tentang dunia sekitar mencakup

pengetahuan dunia fisis, dunia interaksi sosial, dan


peranan tujuan dalam komunikasi.

TAHAPAN PROSES
Untuk memproses bahasa alami diperlukan 5 langkah sebagai berikut :
1. Analisis Morpology

Pada tahap ini dilakukan analisa untuk setiap kata dan komponen
yang dimiliki tiap kata termasuk token non kata seperti spasi, tanda
baca, tanda pemisah.
2. Analisis Sintax

Pada tahap ini sederetan kata disusun kedalam struktur yang


memperlihatkan bagaimana hubungan satu kata dengan kata lainnya.
Deretan kata akan ditolak bila tidak memenuhi aturan penyusunan
kata yang ada

TAHAPAN PROSES
3. Analisis semantic
Pada tahap ini struktur deretan kata yang sudah terbentuk akan diberi
arti. Dengan kata lain pemetaan dibuat antara struktur sintax dengan
object yang berhubungan.
4. Penyatuan Arah (konteks)
Pada tahap ini arti dari suatu kalimat disesuaikan dengan kalimatkalimat lain, karena arti dari suatu kalimat biasanya berhubungan
dengan kalimat sebelumnya dan kalimat sesudahnya.
5. Analisis Pragmatis
Struktur yang terbentuk menghasilkan interpretasi ulang dari apa yang
sudah dikatakan atau ditulis sebelumnya dengan arti yang sebenarnya.

GRAMMAR DAN PARSERS


Grammar adalah suatu aturan yang menentukan bagaimana suatu

kalimat dalam suatu bahasa dibentuk. Grammar berisi kumpulan


sintax yang baku/benar dari suatu bahasa.

Contoh : Dalam bahasa Indonesia, suatu kalimat biasanya terdiri dari


Subject-Predikat-Object-Keterangan
Parsers adalah suatu metode atau suatu program (sering disebut

suatu mesin) yang dapat memproduksi/menghasilkan kalimat atau


bahasa yang sesuai dengan Grammar yang sudah ditentukan atau
diinginkan. Parsers juga dapat memeriksa apakah suatu kalimat yang
dimasukkan sesuai dengan Grammar atau tidak.

JENIS PARSERS
Parsers terdiri dari dua jenis, yaitu :
1. Top-Down Parsing

memulai proses parsing dari simbol start dan menggunakan aturan


grammar sampai simbol-simbol terminal pada tree terhubung ke
komponen kalimat yang di parsing
2. Bottom-Up Parsing

memulai proses parsing dari kalimat yang akan di parsing dan


menggunakan aturan grammar secara terbalik untuk memproduksi
kata menjadi terminal, terminal menjadi kalimat sampai tree/ pohon
lengkap dan simbol start tercapai

KELOMPOK PRESENTASI

ATURAN MAIN
Terdiri dari 5 kelompok besar.
Masing-masing kelompok besar terbagi menjadi 2 kelompok.

Cth: Kelompok 1 (1a & 1b), Kelompok 2 (2a & 2b) dan Kelompok
N (Na & Nb)

Kelompok membuat Paper (tulisan yang membahas mengenai

sebuah topik tertentu) dan slide presentasi dengan topik yang


telah ditentukan.

Pembahasan Topik pada Paper dibagi menjadi 2 kelompok (a &

b) pada setiap kelompok.

Paper dikumpulkan dalam 168 Jam kedepan / Pertemuan

berikutnya.

LANJUTAN..
Paper harus memiliki minimal bagian:
I. PENDAHULUAN

II. PEMBAHASAN
III. PENUTUP
IV. DAFTAR PUSTAKA

SLIDE dikumpulkan saat presentasi dalam bentuk softfile

dan hardcopy

Masing-masing mahasiswa wajib memiliki salinan PAPER

yang dibuat oleh kelompok masing-masing dan


dimasukkan kedalam MAP tugas yang telah ditetapkan.

TOPIK PRESENTASI
Case Study 1 : Lemmatization pada bahasa Indonesia
Case Study 2 : Pendeteksian kesamaan dokumen
Case Study 3 : Aplikasi peringkas Dokumen Teks
Case Study 4 : Sistem Predictive text pada bahasa

indonesia

Case Study 5 : Question Answering System (Qas) pada

layanan

komunikasi

Anda mungkin juga menyukai