Natural Processing Language - Fahmi Faturrohman

Natural Processing Language ( Pemrosesan Bahasa Alami)
Makalah ini disusun untuk memenuhi tugas kelompok dalam mata kuliah
Kecerdasan buatan
Diampu oleh : Victor Amrizal, M.Kom
Disusun oleh :
Fahmi Faturrohman (11170910000015)
VA
TEKNIK INFORMATIKA
FAKULTAS SAINS DAN TEKNOLOGI
UIN SYARIF HIDAYATULLAH JAKARTA
2019
1
DAFTAR ISI
BAB I : PENDAHULUAN
1.1. Latar belakang ……………………………………………………………
1.2. Rumusan Masalah ………………………………………………………..
1.3. Tujuan penulisan …………………………………………………………
1.4. Sistematika Penulisan ……………………………………………………
BAB II : PEMBAHASAN
A. Landasan Teori ………………………………………………………..
1. Pengertian Natural Processing Languague ……………………….
2. Sejarah Natural Processing Languague …………………………..
3. NLP Berbasis Aturan vs Statistik …………………………………
4. Evaluasi dan Tugas Utama ………………………………………..
5. Aplikasi dalam Bidang NPL ……………………………………..
6. Komponen Utama Natural Languague …………………………..
7. Analisis NLP ……………………………………………………..
8. Knowledge Based ………………………………………………..
BAB III : PENUTUP
A. Kesimpulan …………………………………………………………..
DAFTAR PUSTAKA
2
BAB I
PENDAHULUAN
A. Latar Belakang
Natural Language Processing (NLP) merupakan sebuah teknik yang
berfungsi untuk menganalisis dan merepresentasikan bahasa manusia secara
otomatis dengan mempelajari model matematis dan komputasi dari berbagai
macam aspek bahasa dan pengembangan pada sistem yang luas. NLP
digunakan untuk mengambil struktur gramatikal. NLP membangun output
berdasarkan aturan yang ada pada bahasa yang dijadikan objek pemrosesan
[1]. Contoh pemanfaatan NLP adalah pada deteksi plagiarisme, information
retrieval, text summarization, question answering, machine translation. Pada
kasus deteksi plagiarisme salah satu proses yang diperlukan adalah proses
pengenalan parafrasa. Parafrasa sendiri merupakan pengungkapan kembali
suatu tuturan dari sebuah tingkatan atau macam Bahasa menjadi yang lain
tanpa mengubah pengertian; Parafrasa dapat diartikan juga sebagai penguraian
kembali suatu teks dalam bentuk yang lain, dengan maksud untuk dapat
menjelaskan makna yang tersembunyi [2]. Parafrasa digunakan oleh seorang
penulis untuk menjelaskan sesuatu menggunakan pendekatan yang berbeda
namun mengandung pesan yang sama. Hal yang membuat proses pengenalan
parafrasa penting adalah perlunya mesin untuk membedakan secara otomatis
frasa-frasa yang berbeda bentuk namun memiliki makna yang sama. Misalnya
pada kalimat “penyebab kebakaran hutan”, seharusnya komputer akan
mengenali bahwa kalimat tersebut serupa dengan kalimat “sumber kebakaran
hutan”. Pada pengenalan parafrasa bahasa Indonesia terdapat prefiks, sufiks,
infiks, dan konfiks pada struktur bahasa sehingga sulit untuk menyocokan kata
3
yang berkaitan. Untuk menghadapi permasalah diatas maka dibutuhkan
sebuah proses yang dinamakan identifikasi parafrasa. Identifikasi parafrasa
adalah proses untuk mengenali ungkapan dari sepasang kalimat apakah
keduanya memiliki arti sama atau tidak. Pendekatan yang dilakukan untuk
mengidentifikasi parafrasa adalah melakukan preprocessing yang bertujuan
untuk meningkatkan kualitas data, preprocessing terdiri dari 3 tahap yaitu
tokenization, non-alphanumerical removal, dan stemming. Algoritma
stemming yang digunakan untuk preprocessing dataset parafrasa bahasa
Indonesia adalah algoritma Nazief-Adriani karena memiliki performansi
terbaik untuk dataset bahasa Indonesia. Data hasil preprocessing tersebut lalu
dilakukan proses feature extraction yang bertujuan untuk membangun fitur-
fitur baru dari data set tersebut. Fitur yang pertama adalah fitur sintaktik yang
merupakan hasil dari perhitungan jarak antara dua kalimat, perhitungan jarak
tersebut menggunakan metode Normalized Levensthein Distance. Fitur yang
kedua adalah fitur semantik, fitur ini menghitung kemiripan pasangan kalimat
berdasarkan pohon semantik, perhitungan jarak semantik dilakukan dengan
menggunakan metode Wu and Palmer. Setelah dilakukan ekstraksi fitur,
dataset tersebut dibagi menjadi dua bagian yaitu data training dan data testing.
Setelah data selesai dibagi, maka dilakukan diskritisasi nilai fitur dengan
clustering menggunakan metode K-Means. Metode yang digunakan untuk
melatih classifier adalah Bayesian Networks. Perhitungan parameter yang
digunakan classifier ini adalah MAP(Maximum A Posteriori) dan Multinomial
Distribution Probability.
Bayesian networks merupakan suatu metode pemodelan data berbasis
probabilitas yang merepresentasikan suatu himpunan variabel dan conditional
4
dependency-nya melalui suatu Directed Acyclic Graph(DAG) [4]. Ada empat
alasan mengapa mengambil bayesian networks sebagai classifier, pertama
bayesian networks dapat menangani dataset yang tidak lengkap, kedua
bayesian networks memungkinkan proses learning mengenai hubungan sebab-
akibat, yang ketiga bayesian networks sejalan dengan teknik bayesian statistik
yang memfasilitasi kombinasi antara data dan domain knowledge, yang
terakhir adalah bayesian networks menyediakan jalan yang efisien untuk
menghindari data yang bersifat over fit [5].
B. Rumusan Masalah
Penulis membatasi ruang lingkup pembahasan tentang makalah ini hanya
mencakup tentang Natural Processing Languague
C. Tujuan Penulisan
Adapun Tujuan yang ingin dicapai oleh penulis adalah :
1. Memahami pengertian Natural Processing Languague
2. Memahami tujuan dari Natural Processing Languague
3. Memahami bidang Natural Processing Languague
4. Dapat membuat dan mengaplikasikan Natural Processing Languague
D. Sistematika Penulisan
Dalam sistematika penulisan ini terdapat pembahasan yang tersusun
dalam beberapa kelompok sehingga mempermudah dalam memahami
maksud dan tujuan penulisan laporan skripsi ini. Sistematika penulisan
laporan skripsi ini adalah sebagai berikut :
5
BAB 1 PENDAHULUAN
Berisi latar belakang pemilihan judul, rumusan masalah,
tujuan penulisan
BAB II TINJAUAN PUSTAKA
Berisi uraian singkat tentang pengertian yang digunakan
untuk mengumpulkan data yang dipergunakan dan anlasis
data yang telah didapat.
BAB III PENYAJIAN DATA DAN PEMBAHASAN
Berisi uraian tentang Pembahasan Makalah.
BAB IV PENUTUP
Berisi kesimpulan dari uraian mengenai saran penulis.
6
BAB II
PEMBAHASAN
A. Landasan Teori
1. Pengetian Natural Processing Languague
Bahasa alami dalam filsafat bahasa, bahasa alami atau bahasa
natural adalah suatu bahasa yang diucapkan, ditulis,
atau diisyaratkan (secara visual atau isyarat lain)
oleh manusia untuk komunikasi umum. Bahasa jenis ini dibedakan
dengan bahasa formal – seperti bahasa pemrograman komputer atau
"bahasa" yang digunakan dalam kajian logika formal, terutama logika
matematika – serta bahasa buatan.
Dalam ilmu teknik, proses adalah urutan pelaksanaan
atau kejadian yang saling terkait yang bersama-sama mengubah masukan
menjadi keluaran. Pelaksanaan ini dapat dilakukan oleh manusia, alam,
atau mesin dengan menggunakan berbagai sumber daya.
Bahasa (dari bahasa Sanskerta भाषा, bhāṣā) adalah kemampuan yang
dimiliki manusia untuk berkomunikasi dengan manusia lainnya
menggunakan tanda, misalnya kata dan gerakan. Kajian ilmiah bahasa
disebut ilmu linguistik.
Perkiraan jumlah bahasa di dunia beragam antara 6.000–7.000 bahasa.
Namun, perkiraan tepatnya bergantung pada suatu perubahan sembarang
yang mungkin terjadi antara bahasa dan dialek. Bahasa
alami adalah bicara atau bahasa isyarat, tetapi setiap bahasa
dapat disandikan ke dalam media kedua menggunakan stimulus audio,
7
visual, atau taktil, sebagai contohnya, tulisan grafis, braille, atau siulan.
Hal ini karena bahasa manusia bersifat independen terhadap modalitas.
Sebagai konsep umum, "bahasa" bisa mengacu pada
kemampuan kognitif untuk dapat mempelajari dan menggunakan sistem
komunikasi yang kompleks, atau untuk menjelaskan sekumpulan aturan
yang membentuk sistem tersebut atau sekumpulan pengucapan yang dapat
dihasilkan dari aturan-aturan tersebut. Semua bahasa bergantung pada
proses semiosis untuk menghubungkan isyarat dengan makna tertentu.
Bahasa lisan dan bahasa isyarat memiliki sebuah
sistem fonologis yang mengatur bagaimana simbol digunakan untuk
membentuk urutan yang dikenal sebagai kata atau morfem, dan suatu
sistem sintaks yang mengatur bagaimana kata-kata
dan morfem digabungkan untuk membentuk frasa dan penyebutan.
Bahasa manusia unik karena memiliki sifat-
sifat produktivitas, rekursif, dan pergeseran, dan karena secara keseluruhan
bahasa manusia bergantung pula pada konvensi serta edukasi sosial.
Strukturnya yang kompleks mampu memberikan kemungkinan ekspresi
dan penggunaan yang lebih luas daripada sistem komunikasi hewan yang
diketahui.
Sejak zaman hominin, bahasa diperkirakan mulai secara bertahap
mengubah sistem komunikasi antarprimata. Primata kemudian mulai
memperoleh kemampuan untuk membentuk suatu teori
pikiran dan intensionalitas. Perkembangan tersebut terkadang diperkirakan
bersamaan dengan meningkatnya volume otak, dan banyak ahli bahasa
berpendapat bahwa struktur bahasa berkembang untuk melayani fungsi
8
sosial dan komunikatif tertentu. Bahasa diproses pada banyak lokasi yang
berbeda pada otak manusia, terutama di area Broca dan area Wernicke.
Manusia mengakuisisi bahasa lewat interaksi sosial pada masa balita,
dan anak-anak sudah dapat berbicara secara fasih kurang lebih pada umur
tiga tahun. Penggunaan bahasa telah berakar dalam kultur manusia. Oleh
karena itu, selain digunakan untuk berkomunikasi, bahasa juga memiliki
banyak fungsi sosial dan kultural, misalnya untuk
menandakan identitas suatu kelompok, stratifikasi sosial, dan
untuk dandanan sosial dan hiburan.
Bahasa-bahasa berubah dan bervariasi sepanjang waktu, dan sejarah
evolusinya dapat direkonstruksi ulang dengan membandingkan bahasa
modern untuk menentukan sifat-sifat mana yang harus dimiliki oleh
bahasa leluhurnya supaya perubahan nantinya dapat terjadi. Sekelompok
bahasa yang diturunkan dari leluhur yang sama dikenal sebagai rumpun
bahasa.
Bahasa yang digunakan dunia sekarang tergolong pada keluarga Indo-
Eropa. Termasuk di dalamnya adalah bahasa
seperti Inggris, Spanyol, Portugis, Rusia, dan Hindi; Bahasa Sino-Tibet,
yang melingkupi Bahasa Mandarin, Cantonese, dan banyak
lainnya; Rumpun bahasa Afro-Asiatik yang
melingkupi Arab, Amhar, Somali, dan Hebrew; dan bahasa Bantu, yang
melingkupi Swahili, Zulu, Shona, dan ratusan bahasa lain yang digunakan
di Afrika. Konsensusnya adalah antara 50–90% bahasa yang digunakan
sejak awal abad ke-21 kemungkinan akan punah pada tahun 2100.
9
Pemrosesan bahasa alami, disingkat PBA atau NLP (natural language
processing), adalah cabang ilmu komputer dan linguistik yang mengkaji
interaksi antara komputer dengan bahasa (alami) manusia [1]. NLP sering
dianggap sebagai cabang dari kecerdasan buatan dan bidang kajiannya
bersinggungan dengan linguistik komputasional. Kajian NLP antara lain
mencakup segmentasi tuturan (speech segmentation), segmentasi teks (text
segmentation), penandaan kelas kata (part-of-speech tagging), serta
pengawataksaan makna (word sense disambiguation). Meskipun kajiannya
dapat mencakup teks dan tuturan, pemrosesan tuturan (speech processing)
telah berkembang menjadi suatu bidang kajian terpisah.
Sejarah NLP dimulai pada tahun 1950-an, meskipun telah ada
penilitian NLP pada tahun-tahun sebelumnya. Pada tahun 1950, Alan
Turing (bapak ilmu komputer) mempublikasikan artikel terkenalnya yang
berjudul “Computing Machinery and Intelligence” yang di dalamnya Alan
Turing mengusulkan tes yang sekarang disebut dengan Turing Test. Tes
Turing adalah sebuah tes yang mengukur kemampuan mesin (dalam hal ini
program komputer) untuk menunjukan perilaku cerdas. Dalam ilustrasi
contoh aslinya, seorang juri manusia akan terlibat dalam percakapan
dengan manusia dan mesin yang akan dites. Semua peserta dipisahkan satu
sama lain. Jika juri tidak bisa membedakan antara manusia dan mesin,
maka mesin tersebut dikatakan lulus tes.
2. Sejarah Natural Processing Languague
Sejarah pemrosesan bahasa alami (NLP) umumnya dimulai pada
1950-an, meskipun pekerjaan dapat ditemukan dari periode
10
sebelumnya. Pada tahun 1950, Alan Turing menerbitkan sebuah artikel
berjudul " Mesin Komputasi dan Kecerdasan " yang mengusulkan apa
yang sekarang disebut tes Turing sebagai kriteria kecerdasan.
Eksperimen Georgetown pada tahun 1954 melibatkan terjemahan
otomatis lebih dari enam puluh kalimat Rusia ke dalam bahasa
Inggris. Para penulis mengklaim bahwa dalam tiga atau lima tahun,
terjemahan mesin akan menjadi masalah yang terpecahkan. [2] Namun,
kemajuan nyata jauh lebih lambat, dan setelah laporan ALPAC pada tahun
1966, yang menemukan bahwa penelitian selama sepuluh tahun telah gagal
memenuhi harapan, dana untuk terjemahan mesin berkurang secara
dramatis. Sedikit penelitian lebih lanjut dalam terjemahan mesin dilakukan
sampai akhir 1980-an, ketika sistem terjemahan mesin statistik pertama
dikembangkan.
Beberapa sistem pemrosesan bahasa alami yang sangat sukses yang
dikembangkan pada 1960-an adalah SHRDLU , sistem bahasa alami yang
bekerja di " blok dunia " terbatas dengan kosakata terbatas, dan ELIZA ,
simulasi psikoterapis Rogerian , yang ditulis oleh Joseph
Weizenbaum antara 1964 dan 1966. Menggunakan hampir tidak ada
informasi tentang pemikiran atau emosi manusia, ELIZA terkadang
memberikan interaksi yang mirip manusia. Ketika "pasien" melebihi basis
pengetahuan yang sangat kecil, ELIZA mungkin memberikan respons
umum, misalnya, menanggapi "Kepalaku sakit" dengan "Mengapa Anda
mengatakan kepala Anda sakit?".
Selama tahun 1970-an, banyak programmer mulai menulis
" ontologi konseptual", yang menyusun informasi dunia nyata menjadi
11
data yang dapat dimengerti komputer. Contohnya adalah MARGIE
(Schank, 1975), SAM (Cullingford, 1978), PAM (Wilensky, 1978),
TaleSpin (Meehan, 1976), QUALM (Lehnert, 1977), Politik (Carbonell,
1979), dan Unit Plot (Lehnert 1981) ). Selama waktu ini,
banyak obrolan ditulis termasuk PARRY , Racter , dan Jabberwacky .
Hingga 1980-an, sebagian besar sistem pemrosesan bahasa alami
didasarkan pada serangkaian aturan tulisan tangan yang
kompleks. Dimulai pada akhir 1980-an, bagaimanapun, ada revolusi dalam
pemrosesan bahasa alami dengan pengenalan algoritma pembelajaran
mesin untuk pemrosesan bahasa. Hal ini disebabkan oleh peningkatan
kekuatan komputasi yang stabil (lihat hukum Moore ) dan berkurangnya
dominasi teori linguistik Chomsky secara bertahap (misalnya tata bahasa
transformasional ), yang landasan teoretisnya menghalangi jenis linguistik
korpus yang mendasari pendekatan pembelajaran mesin. untuk pemrosesan
bahasa. [3] Beberapa algoritma pembelajaran mesin yang paling awal
digunakan, seperti pohon keputusan , menghasilkan sistem aturan sulit
jika-maka mirip dengan aturan tulisan tangan yang
ada. Namun, penandaan sebagian wicara memperkenalkan
penggunaan model Markov tersembunyi untuk pemrosesan bahasa alami,
dan semakin banyak, penelitian telah berfokus pada model statistik , yang
membuat keputusan yang lunak dan probabilistik berdasarkan pada
menempelkan bobot bernilai nyata ke fitur yang membuat input
data. Model bahasa cache di mana banyak sistem pengenalan
ucapan sekarang bergantung adalah contoh model statistik tersebut. Model
seperti itu umumnya lebih kuat ketika diberi input asing, terutama input
12
yang mengandung kesalahan (seperti yang sangat umum untuk data dunia
nyata), dan menghasilkan hasil yang lebih dapat diandalkan ketika
diintegrasikan ke dalam sistem yang lebih besar yang terdiri dari beberapa
subtugas.
Banyak keberhasilan awal yang menonjol terjadi di
bidang terjemahan mesin , terutama karena bekerja di IBM Research, di
mana model statistik yang lebih rumit secara berturut-turut
dikembangkan. Sistem-sistem ini dapat mengambil keuntungan
dari korpora tekstual multibahasa multibahasa yang sudah ada yang
diproduksi oleh Parlemen Kanada dan Uni Eropa sebagai hasil dari
undang-undang yang menyerukan penerjemahan semua proses
pemerintahan ke dalam semua bahasa resmi dari sistem pemerintahan yang
sesuai. Namun, sebagian besar sistem lain bergantung pada korpora yang
secara khusus dikembangkan untuk tugas-tugas yang diimplementasikan
oleh sistem ini, yang (dan sering terus menjadi) batasan utama dalam
keberhasilan sistem ini. Akibatnya, banyak penelitian telah pergi ke
metode pembelajaran yang lebih efektif dari jumlah data yang terbatas.
Penelitian terbaru semakin berfokus pada
algoritma pembelajaran tanpa pengawasan dan semi-diawasi . Algoritme
tersebut dapat belajar dari data yang belum dianotasi tangan dengan
jawaban yang diinginkan, atau menggunakan kombinasi data beranotasi
dan tidak beranotasi. Secara umum, tugas ini jauh lebih sulit
daripada pembelajaran yang diawasi , dan biasanya menghasilkan hasil
yang kurang akurat untuk sejumlah data input yang diberikan. Namun, ada
sejumlah besar data yang tidak dianotasi yang tersedia (termasuk, antara
13
lain, seluruh konten World Wide Web ), yang sering kali dapat
menggantikan hasil yang lebih rendah jika algoritma yang digunakan
memiliki kompleksitas waktu yang cukup rendah untuk menjadi praktis.
Pada tahun 2010-an, pembelajaran representasi dan metode
pembelajaran mesin neural network yang dalam menjadi meluas dalam
pemrosesan bahasa alami, sebagian karena kesibukan hasil yang
menunjukkan bahwa teknik seperti itu dapat mencapai hasil mutakhir.
dalam banyak tugas bahasa alami, misalnya dalam pemodelan
bahasa, parsing, dan banyak lainnya. Teknik populer termasuk
penggunaan embedding kata untuk menangkap sifat semantik kata, dan
peningkatan pembelajaran ujung ke ujung dari tugas tingkat yang lebih
tinggi (mis., Penjawaban pertanyaan) alih-alih mengandalkan pipa tugas
menengah yang terpisah (misalnya, penandaan sebagian pidato dan parsing
dependensi). Di beberapa daerah, pergeseran ini memerlukan perubahan
besar dalam bagaimana sistem NLP dirancang, sedemikian sehingga
pendekatan berbasis jaringan saraf yang mendalam dapat dipandang
sebagai paradigma baru yang berbeda dari pemrosesan statistik bahasa
alami. Misalnya, istilah terjemahan mesin saraf (NMT) menekankan fakta
bahwa pendekatan berbasis pembelajaran yang mendalam untuk
terjemahan mesin secara langsung mempelajari transformasi urutan-ke-
urutan, menghilangkan kebutuhan untuk langkah-langkah menengah
seperti penyelarasan kata dan pemodelan bahasa yang digunakan
dalam statistik terjemahan mesin (SMT).
3. NLP Bebasis Aturan vs Statistik
14
Pada masa-masa awal, banyak sistem pemrosesan bahasa dirancang
dengan mengkodekan tangan satu set aturan: seperti menulis tata bahasa
atau menyusun aturan heuristik untuk membendung .
Sejak apa yang disebut "revolusi statistik" pada akhir 1980-an dan
pertengahan 1990-an, banyak penelitian pemrosesan bahasa alami sangat
bergantung pada pembelajaran mesin .
Paradigma pembelajaran mesin lebih suka menggunakan inferensi
statistik untuk secara otomatis mempelajari aturan seperti itu melalui
analisis korpora besar contoh dunia nyata yang khas ( corpus (jamak,
"korpora") adalah seperangkat dokumen, mungkin dengan anotasi manusia
atau komputer ).
Banyak kelas berbeda dari algoritma pembelajaran mesin telah
diterapkan pada tugas pemrosesan bahasa alami. Algoritma ini mengambil
sebagai input serangkaian besar "fitur" yang dihasilkan dari input
data. Beberapa algoritma yang paling awal digunakan, seperti pohon
keputusan , menghasilkan sistem aturan sulit jika-maka mirip dengan
sistem aturan tulisan tangan yang kemudian umum. Namun, semakin
banyak penelitian yang berfokus pada model statistik , yang membuat
keputusan yang lunak dan probabilistik berdasarkan pada menempelkan
bobot bernilai nyata ke setiap fitur input. Model semacam ini memiliki
keunggulan karena dapat mengekspresikan kepastian relatif dari berbagai
kemungkinan jawaban yang berbeda daripada hanya satu, menghasilkan
hasil yang lebih andal ketika model tersebut dimasukkan sebagai
komponen sistem yang lebih besar.
15
Sistem yang didasarkan pada algoritma pembelajaran mesin
memiliki banyak keunggulan dibandingkan aturan yang diproduksi sendiri:
a) Prosedur pembelajaran yang digunakan selama pembelajaran
mesin secara otomatis fokus pada kasus-kasus yang paling
umum, sedangkan ketika menulis aturan dengan tangan
seringkali sama sekali tidak jelas di mana upaya harus
diarahkan.
b) Prosedur pembelajaran otomatis dapat menggunakan algoritma
statistik-inferensi untuk menghasilkan model yang kuat untuk
input yang tidak dikenal (misalnya berisi kata-kata atau struktur
yang belum pernah dilihat sebelumnya) dan untuk input yang
salah (misalnya dengan kata-kata yang salah eja atau kata-kata
dihilangkan secara tidak sengaja). Secara umum, menangani
input seperti itu dengan anggun dengan aturan tulisan tangan,
atau, lebih umum, menciptakan sistem aturan tulisan tangan
yang membuat keputusan lunak, sangat sulit, rawan kesalahan
dan memakan waktu.
c) Sistem yang didasarkan pada pembelajaran aturan secara
otomatis dapat dibuat lebih akurat hanya dengan memasok
lebih banyak data input. Namun, sistem berdasarkan aturan
tulisan tangan hanya dapat dibuat lebih akurat dengan
meningkatkan kompleksitas aturan, yang merupakan tugas
yang jauh lebih sulit. Secara khusus, ada batasan kompleksitas
sistem berdasarkan aturan buatan tangan, di luar itu sistem
menjadi semakin tidak terkelola. Namun, membuat lebih
16
banyak data untuk dimasukkan ke sistem pembelajaran mesin
hanya memerlukan peningkatan yang sesuai dalam jumlah jam
kerja, umumnya tanpa peningkatan signifikan dalam
kompleksitas proses penjelasan.
4. Evaluasi dan Tugas Utama
Berikut ini adalah daftar dari beberapa tugas yang paling sering
diteliti dalam pemrosesan bahasa alami. Beberapa dari tugas ini memiliki
aplikasi langsung di dunia nyata, sementara yang lain lebih umum
berfungsi sebagai subtugas yang digunakan untuk membantu
menyelesaikan tugas yang lebih besar.
Meskipun tugas-tugas pemrosesan bahasa alami saling terkait,
mereka sering dibagi menjadi beberapa kategori untuk
kenyamanan. Pembagian kasar diberikan di bawah ini.
1. Fonetik dan Fonologi
Fonologi adalah ilmu tentang perbendaharaan bunyi-
bunyi (fonem) bahasa dan distribusinya. Fonologi diartikan sebagai
kajian bahasa yang mempelajari tentang bunyi-bunyi bahasa yang
diproduksi oleh alat ucap manusia.. Bidang kajian fonologi adalah
bunyi bahasa sebagai satuan terkecil dari ujaran dengan gabungan
bunyi yang membentuk suku kata.
Asal kata fonologi, secara harfiah sederhana, terdiri dari
gabungan kata fon (yang berarti bunyi) dan logi (yang berarti
ilmu). Dalam khazanah bahasa Indonesia, istilah fonologi merupakan
turunan kata dari bahasa Belanda, yaitu fonologie.
17
Fonologi terdiri dari 2 (dua) bagian, yaitu Fonetik dan Fonemik.
Fonologi berbeda dengan fonetik. Fonetik mempelajari bagaimana
bunyi-bunyi fonem sebuah bahasa direalisasikan atau dilafalkan.
Fonetik juga mempelajari cara kerja organ tubuh manusia, terutama
yang berhubungan dengan penggunaan dan pengucapan bahasa.
Dengan kata lain, fonetik adalah bagian fonologi yang mempelajari
cara menghasilkan bunyi bahasa atau bagaimana suatu bunyi bahasa
diproduksi oleh alat ucap manusia. Sementara itu, Fonemik adalah
bagian fonologi yang mempelajari bunyi ujaran menurut fungsinya
sebagai pembeda arti.
Ada 3 (tiga) unsur penting ketika organ ucap manusia
memproduksi bunyi atau fonem, yaitu:
 udara - sebagai penghantar bunyi,
 artikulator - bagian alat ucap yang bergerak, dan
 titik artikulasi (disebut juga artikulator pasif) - bagian
alat ucap yang menjadi titik sentuh artikulator.
Ada beberapa istilah lain yang berkaitan dengan fonologi, antara
lain: fona, fonem, vokal, dan konsonan. Fona adalah bunyi ujaran
yang bersifat netral atau masih belum terbukti membedakan arti,
sedangkan fonem adalah satuan bunyi ujaran terkecil yang
membedakan arti.
Variasi fonem karena pengaruh lingkungan yang dimasuki
disebut alofon. Gambar atau lambang fonem dinamakan huruf, jadi
18
fonem berbeda dengan huruf. Variasi ini terdiri dari: vokal, konsonan,
diftong (vokal rangkap), dan kluster (konsonan rangkap).
Vokal adalah fonem yang dihasilkan dengan menggerakkan
udara keluar tanpa rintangan. Dalam bahasa, khususnya bahasa
Indonesia, terdapat huruf vokal. Huruf vokal merupakan huruf-huruf
yang dapat berdiri tunggal dan menghasilkan bunyi sendiri. Huruf
vokal terdiri atas: a, i, u, e, dan o. Huruf vokal sering pula disebut
huruf hidup.
Konsonan adalah fonem yang dihasilkan dengan menggerakkan
udara keluar dengan rintangan. Dalam hal ini, yang dimaksud dengan
rintangan adalah terhambatnya udara keluar oleh adanya gerakan atau
perubahan posisi artikulator. Terdapat pula istilah huruf konsonan,
yaitu huruf-huruf yang tidak dapat berdiri tunggal dan membutuhkan
keberadaan huruf vokal untuk menghasilkan bunyi. Huruf konsonan
tersebut terdiri atas: b, c, d, f, g, h, j, k, l, m, n, p, q, r, s, t, v, w, x, y,
dan z. Huruf konsonan sering pula disebut sebagai huruf mati.
2. Morfologi
Yaitu pengetahuan tentang kata dan bentuknya dimanfaatkan
untuk membedakan satu kata dengan lainnya. Pada tingkat ini juga
dapat dipisahkan antara kata dan elemen lain seperti tanda baca.
Contoh kata going :
Going (word)
Go (root)
Ing (suffix)
19
Kata understand :
Stand (prefix)
Stand (root)
3. Sintaksis
Sintaksis : yaitu pemahaman tentang urutan kata dalam
pembentukan kalimat dan hubungan antar kata tersebut dalam proses
perubahan bentuk dari kalimat menjadi bentuk yang sistematis.
Meliputi proses pengaturan tata letak suatu kata dalam kalimat akan
membentuk kalimat yang dapat dikenali. Selain itu dapat pula dikenali
bagian - bagian kalimat dalam suatu kalimat yang lebih besar. Sebagai
contoh kalimat S dibentuk dari noun phrase (NP) dan verb phrase (VP)
Ø S -> NP,VP
Dan berikutnya :
Ø NP -> DET,N
Ø VP -> V,NP
1. Induksi tata bahasa [13]
Hasilkan tata bahasa formal yang menggambarkan sintaksis
bahasa.
2. Lemmatization
Tugas menghapus ujung infleksi saja dan mengembalikan
bentuk kamus dasar dari sebuah kata yang juga dikenal sebagai
lemma.
3. Segmentasi morfologis
Pisahkan kata-kata menjadi morfem individual dan
identifikasi kelas morfem tersebut. Kesulitan tugas ini sangat
20
tergantung pada kompleksitas morfologi (yaitu struktur kata) dari
bahasa yang sedang dipertimbangkan. Bahasa Inggris memiliki
morfologi yang cukup sederhana, terutama morfologi infleksional ,
dan oleh karena itu sering mungkin untuk mengabaikan tugas ini
sepenuhnya dan hanya memodelkan semua bentuk kata yang
mungkin (misalnya "buka, buka, buka, buka") sebagai kata-kata
terpisah. Dalam bahasa-bahasa
seperti Turki atau Meitei , [14] bahasa India yang
sangat teraglutinasi , bagaimanapun, pendekatan seperti itu tidak
mungkin, karena setiap entri kamus memiliki ribuan bentuk kata
yang mungkin.
4. Penandaan bagian-of-speech
Diberi kalimat, tentukan bagian ucapan ( POS ) untuk setiap
kata. Banyak kata, terutama yang umum, dapat berfungsi sebagai
beberapa bagian ucapan . Misalnya, "buku" bisa menjadi kata
benda ("buku di atas meja") atau kata kerja ("untuk memesan
penerbangan"); "set" dapat berupa kata benda , kata kerja atau kata
sifat ; dan "keluar" dapat menjadi salah satu dari setidaknya lima
bagian pidato yang berbeda. Beberapa bahasa memiliki lebih
banyak ambiguitas daripada yang lain. [ meragukan -
mendiskusikan ] Bahasa dengan sedikit morfologi infleksional ,
seperti bahasa Inggris , sangat rentan terhadap ambiguitas seperti
itu. Bahasa Cina rentan terhadap ambiguitas seperti itu karena ini
adalah bahasa yang kuat selama verbalisasi. Infleksi seperti itu
21
tidak mudah disampaikan melalui entitas yang digunakan dalam
ortografi untuk menyampaikan makna yang dimaksud.
5. Parsing
Tentukan pohon parse (analisis tata bahasa) dari kalimat
yang diberikan. Tata bahasanya untuk bahasa
alami bersifat ambigu dan kalimat tipikal memiliki banyak
kemungkinan analisis. Faktanya, mungkin secara mengejutkan,
untuk kalimat tipikal mungkin ada ribuan potensi parse (yang
sebagian besar akan tampak sama sekali tidak masuk akal bagi
manusia). Ada dua jenis penguraian, Parsing Ketergantungan dan
Parsing Konstituensi. Dependency Parsing berfokus pada
hubungan antara kata-kata dalam sebuah kalimat (menandai hal-hal
seperti Objek Utama dan predikat), sedangkan Parsing Konstituensi
berfokus pada membangun Pohon Parse menggunakan Tata Bahasa
Bebas Konteks Probabilistik (PCFG). Lihat juga: Tata bahasa
stokastik .
6. Pemutusan kalimat (juga dikenal sebagai disambiguasi batas
kalimat )
Diberikan sepotong teks, temukan batas kalimat. Batas
kalimat sering ditandai dengan titik atau tanda baca lain, tetapi
karakter yang sama ini dapat digunakan untuk tujuan lain
(misalnya menandai singkatan ).
7. Stemming
22
Proses mengurangi infleksi kata-kata (atau kadang-kadang
berasal) ke bentuk akar mereka. (mis. "tutup" akan menjadi root
untuk "tertutup", "tutup", "tutup", "lebih dekat" dll.).
8. Segmentasi kata
Pisahkan potongan teks kontinu menjadi kata-kata yang
terpisah. Untuk bahasa seperti bahasa Inggris , ini cukup sepele,
karena kata-kata biasanya dipisahkan oleh spasi. Namun, beberapa
bahasa tertulis seperti Cina , Jepang dan Thailand tidak menandai
batas kata dengan cara seperti itu, dan dalam bahasa-bahasa itu
segmentasi teks adalah tugas penting yang membutuhkan
pengetahuan tentang kosa kata dan morfologi kata-kata dalam
bahasa tersebut. Terkadang proses ini juga digunakan dalam kasus-
kasus seperti pembuatan Bag of Words (BOW) dalam
penambangan data.
9. Ekstraksi terminologi
Tujuan dari ekstraksi terminologi adalah untuk secara
otomatis mengekstrak istilah yang relevan dari korpus yang
diberikan.
4. Semantik
yaitu pemetaan bentuk struktur sintaksis dengan memanfaatkan
tiap kata ke dalam bentuk yang lebih mendasar dan tidak tergantung
struktur kalimat. Semantik mempelajari arti suatu kata dan bagaimana
dari arti kata - arti kata tersebut membentuk suatu arti dari kalimat
23
yang utuh. Dalam tingkatan ini belum tercakup konteks dari kalimat
tersebut.
1. Semantik leksikal
Apa arti komputasi dari kata-kata individual dalam konteks?
2. Semantik distribusi
Bagaimana kita bisa belajar representasi semantik dari data?
3. Mesin penerjemah
Terjemahkan teks secara otomatis dari satu bahasa manusia
ke bahasa manusia lainnya. Ini adalah salah satu masalah yang
paling sulit, dan merupakan anggota dari kelas masalah yang secara
sehari-hari disebut " AI-complete ", yaitu membutuhkan semua
jenis pengetahuan yang berbeda yang dimiliki manusia (tata
bahasa, semantik, fakta tentang dunia nyata, dll. .) untuk
menyelesaikan dengan benar.
4. Pengenal entitas bernama (NER)
Diberikan aliran teks, tentukan item mana dalam peta teks
untuk nama yang tepat, seperti orang atau tempat, dan apa tipe dari
masing-masing nama tersebut (misalnya orang, lokasi,
organisasi). Meskipun kapitalisasi dapat membantu dalam
mengenali entitas yang disebutkan dalam bahasa seperti bahasa
Inggris, informasi ini tidak dapat membantu dalam menentukan
jenis entitas yang dinamai, dan dalam kasus apa pun seringkali
tidak akurat atau tidak memadai. Sebagai contoh, huruf pertama
dari sebuah kalimat juga ditulis dengan huruf kapital, dan entitas
yang dinamai sering span beberapa kata, hanya beberapa yang
24
ditulis dengan huruf besar. Selain itu, banyak bahasa lain dalam
skrip non-Barat (mis. Bahasa Cina atau Arab ) tidak memiliki huruf
besar sama sekali, dan bahkan bahasa dengan huruf besar mungkin
tidak secara konsisten menggunakannya untuk membedakan
nama. Misalnya, bahasa Jerman menggunakan huruf kapital
semua kata benda , terlepas dari apakah itu nama,
dan Prancis dan Spanyol tidak menggunakan huruf besar nama
yang berfungsi sebagai kata sifat .
5. Generasi bahasa alami
Ubah informasi dari basis data komputer atau maksud
semantik menjadi bahasa manusia yang mudah dibaca.
6. Pemahaman bahasa alami
Ubah potongan teks menjadi representasi yang lebih formal
seperti struktur logika orde pertama yang lebih mudah untuk
dimanipulasi oleh program komputer . Pemahaman bahasa alami
melibatkan identifikasi semantik yang dimaksudkan dari beberapa
semantik yang mungkin yang dapat diturunkan dari ekspresi bahasa
alami yang biasanya mengambil bentuk notasi terorganisir dari
konsep bahasa alami. Pengantar dan penciptaan metamodel dan
ontologi bahasa adalah solusi yang efisien namun
empiris. Formalisasi eksplisit semantik bahasa alami tanpa
kebingungan dengan asumsi implisit seperti asumsi dunia
tertutup (CWA) vs asumsi dunia terbuka , atau subjektif Ya / Tidak
vs tujuan Benar / Salah diharapkan untuk pembangunan dasar
formalisasi semantik . [15]
25
7. Pengenalan karakter optis (OCR)
Diberikan gambar yang mewakili teks cetak, tentukan teks
yang sesuai.
8. Menjawab pertanyaan
Diberi pertanyaan bahasa manusia, tentukan
jawabannya. Pertanyaan umum memiliki jawaban benar yang
spesifik (seperti "Apa ibukota Kanada?"), Tetapi terkadang
pertanyaan terbuka juga dipertimbangkan (seperti "Apa arti
hidup?"). Karya terbaru telah melihat pertanyaan yang lebih
kompleks. [16]
9. Mengakui entualment tekstual
Diberikan dua fragmen teks, tentukan apakah yang satu benar
melibatkan yang lain, melibatkan negasi yang lain, atau biarkan
yang lain benar atau salah. [17]
10. Ekstraksi hubungan
Diberikan sepotong teks, identifikasi hubungan antara entitas
yang disebutkan (misalnya siapa yang menikah dengan siapa).
11. Analisis sentimen (lihat juga analisis sentimen multimoda )
Ekstrak informasi subjektif biasanya dari kumpulan
dokumen, sering menggunakan ulasan online untuk menentukan
"polaritas" tentang objek tertentu. Ini sangat berguna untuk
mengidentifikasi tren opini publik di media sosial, untuk tujuan
pemasaran.
12. Segmentasi dan pengenalan topik
26
Diberikan potongan teks, pisahkan ke dalam segmen yang
masing-masing dikhususkan untuk suatu topik, dan identifikasi
topik dari segmen tersebut.
13. Disambiguasi arti kata
Banyak kata memiliki lebih dari satu makna ; kita harus
memilih makna yang paling masuk akal dalam konteks. Untuk
masalah ini, kami biasanya diberikan daftar kata dan indra kata
yang terkait, misalnya dari kamus atau dari sumber online
seperti WordNet .
5. Pragmantik
pengetahuan pada tingkatan ini berkaitan dengan masing – masing
konteks yang berbeda tergantung pada situasi dan tujuan pembuatan
system
6. Discourse Knowledge
melakukan pengenalan apakah suatu kalimat yang sudah dibaca dan
dikenali sebelumnya akan mempengaruhi arti dari kalimat selanjutnya.
Informasi ini penting diketahui untuk melakukan pengolahan arti
terhadap kata ganti orang dan untuk mengartikan aspek sementara dari
informasi.
7. World Knowledge
World Knowledge : mencakup arti sebuah kata secara umum dan
apakah ada arti khusus bagi suatu kata dalam suatu percakapan dengan
konteks tertentu.
27
5. Aplikasi Dalam Bidang Natural Languague
Secara umum, Jenis aplikasi yang bisa dibuat dalam bidang ilmu
NLP terbagi dua, yaitu text-based application dan dialogue-based
application.
Text-based application adalah segala macam aplikasi yang
melakukan proses terhadap teks tertulis seperti misalnya dokumen, e-
mail, buku dan sebagainya.
Dialogue-based application melibatkan bahasa lisan atau pengenalan
suara, akan tetapi bisa juga memasukan interaksi dialog dengan
mengetikkan teks pertanyaan melalui keyboard.
Jenis Text-Based Application
1. Programs for classifying and retrieving documents by content
Program yang mampu mengklasifikasi dan mengambil isi
dari suatu dokumen berdasarkan kontennya. Seperti spam
filtering (pemfilteran pesan sampah), language identification
(identifikasi bahasa), dan lain-lain.
2. Machine Translation
Program yang mampu mentranslate kalimat baik berupa
teks maupun suara dari satu bahasa alami ke bahasa lainnya.
Contoh :
1. Google Translate
28
Google Terjemahan[1] (bahasa Inggris: Google
Translate) adalah layanan yang disediakan oleh Google
Inc. untuk menerjemahkan bagian teks atau halaman
web dalam satu bahasa ke bahasa lain. Untuk beberapa
bahasa, pengguna diminta untuk memberikan
terjemahan alternatif, seperti untuk istilah teknis, yang
akan dimasukkan untuk pembaruan dalam proses
penerjemahan selanjutnya.
Tidak seperti layanan terjemahan lain
seperti Babel Fish dan AOL yang
menggunakan SYSTRAN, Google menggunakan
perangkat lunak terjemahan sendiri.
Google Terjemahan, seperti alat terjemahan
otomatis lain, memiliki beberapa keterbatasan.
Meskipun dapat membantu pembaca untuk memahami
isi umum dari teks bahasa asing, tetapi tidak
memberikan terjemahan akurat.
Google melakukan penerjemahkan dengan
pendekatan yang disebut penerjemahan berdasar
statistik. Penerjemahan demikian merupakan hasil
penelitian Franz-Josef Och yang telah memenangkan
kontes DARPA untuk kecepatan mesin terjemahan
pada tahun 2003. Sekarang Och menjadi kepala
departemen mesin penerjemah Google.
29
Menurut Och, untuk mengembangkan sistem
mesin penerjemah berdasar statistik bagi dua bahasa
diperlukan suatu koleksi teks paralel dalam dua bahasa
tersebut yang terdiri lebih dari satu juta kata dan dua
koleksi teks lainnya untuk masing-masing bahasa yang
terdiri lebih dari satu miliar kata. Model statistik dari
data ini kemudian digunakan untuk melakukan
penerjemahan antar bahasa-bahasa tersebut.
Untuk memperoleh data linguistik dalam jumlah
sangat besar ini, Google menggunakan dokumen-
dokumen Perserikatan Bangsa-Bangsa.
Tersedianya Bahasa Arab dan Tionghoa sebagai
bahasa resmi PBB mungkin menjadi salah satu alasan
mengapa Google Terjemahan pada awalnya difokuskan
pada pembuatan terjemahan antara bahasa Inggris
dengan bahasa-bahasa tersebut, dan bukan, misalnya
dengan Bahasa Jepang atau Jerman, yang bukan
merupakan bahasa resmi di PBB. Perwakilan Google
sangat aktif dalam konferensi lokal di Jepang meminta
para peneliti untuk memberi mereka koleksi teks
paralel.
Mulai 25 September 2008, Google Terjemahan
telah memasukkan Bahasa Indonesia ke dalam pilihan
bahasa yang bisa diterjemahkan.
30
Jenis Dialogue-Based Application
1. Intelligent personal assistant
Perangkat lunak yang mampu melakukan tugas sesuai apa
yang diucapkan oleh pengguna. Serta aplikasi ini memiliki
kemampuan untuk mengakses informasi dari berbagai sumber
online (seperti cuaca, keadaan lalu lintas, berita, saham, dll).
Contohnya adalah :
1. Siri
Siri adalah asisten pribadi pintar yang menolong
Anda menyelesaikan segala sesuatu cukup dengan
meminta. Siri memungkinkan Anda menggunakan suara
Anda untuk mengirim pesan, jadwal pertemuan,
melakukan panggilan telepon, dan lainnya. Tetapi Siri
31
tidak seperti perangkat lunak pengenalan suara
konvensional yang mengharuskan Anda untuk mengingat
kata kunci dan menyebutkan perintah tertentu. Siri
mengerti suara natural Anda
Pada awalnya, Siri diperkenalkan sebagai
aplikasi iOS yang tersedia di App Store oleh Siri Inc, Siri
Inc. kemudian diakuisisi oleh Apple Inc. pada tanggal 28
April 2010. Siri Inc. telah mengumumkan bahwa
perangkat lunak mereka akan tersedia
untuk BlackBerry dan Android ponsel bertenaga, tetapi
dalam upaya pengembangan semua untuk non-Apple
platform dibatalkan setelah akuisisi oleh Apple Inc.
Siri sekarang merupakan bagian integral dari iOS 5,
dan hanya tersedia pada iPhone 4S, yang diluncurkan pada
tanggal 4 Oktober 2011. Meskipun ini hanya tersedia
untuk iPhone 4S, Hacker mampu beradaptasi Siri
di iPhone 4 dan iPod Touch generasi 3 dan 4. Pada 8
November 2011, Apple Inc. mengumumkan bahwa mereka
tidak punya rencana untuk mendukung Siri pada setiap
perangkat yang lebih tua.
2. Google Assistant
32
Google Assistant adalah asisten virtual yang
didukung oleh kecerdasan buatan dan dikembangkan oleh
Google yang terutama tersedia di perangkat seluler dan
perangkat rumah pintar. Tidak seperti Google Now,
Google Assistant dapat terlibat dalam percakapan dua
arah. Google Assistant awalnya memulai debutnya pada
bulan Mei 2016 sebagai bagian dari aplikasi perpesanan
Google Allo, dan pembicara yang diaktifkan suara Google
Home. Setelah periode eksklusif pada telefon pintar Pixel
dan Pixel XL, lalu mulai dikerahkan di perangkat Android
lainnya pada bulan Februari 2017,termasuk telefon pintar
pihak ketiga dan Android Wear, dan dirilis sebagai aplikasi
yang berdiri sendiri pada operasi iOS sistem pada bulan
Mei. Di samping pengumuman perangkat pengembangan
33
perangkat lunak pada bulan April 2017, Google Assistant
telah, dan sedang, diperluas untuk mendukung berbagai
macam perangkat, termasuk mobil dan
Google Assistant adalah evolusi fitur Android yang
dikenal sebagai Google Now, yang memberi informasi
tanpa bertanya.Google Assistant diluncurkan pada Mei
2016 sebagai bagian dari aplikasi perpesanan cerdas
Google Allo. Tidak lama setelah itu, Google Assistant
melakukan lompatan ke ponsel Pixel Google. Google
Assistant hanya tersedia di Pixel line untuk sementara
waktu, tetapi sekarang gratis untuk diunduh bagi siapa pun
yang menggunakan Android 5 Lollipop atau lebih tinggi.
Selain dukungan Android Wear, ada aplikasi Google
Assistant untuk iOS. Dan jajaran speaker pintar google
Home didukung oleh Google Assistant juga.[1]
Meski hanya tersedia eksklusif di Pixel, kehadiran
asisten virtual ini cukup mencuri perhatian karena
memiliki kemampuan yang lebih baik ketimbang
pendahulunya, Google Now. Namun Google ternyata
menjawab rasa penasaran sebagian besar pengguna telefon
pintar Android. Akhir Februari 2017, raksasa internet itu
pun memastikan kehadiran Google Assistant untuk
pengguna Android selain Pixel. Setelah lama dinanti,
Google Assistant akhirnya tersedia dalam bahasa
Indonesia.
34
3. Microsoft Cortana
Microsoft Cortana (atau disebut Cortana) adalah
aplikasi asisten pribadi cerdas yang dikembangkan
oleh Microsoft untuk Windows Phone
8.1 maupun Windows 10 (dahulu menggunakan Bing
Mobile) , Microsoft Band, dan Windows 10. Aplikasi ini
akan hadir untuk iOS, Android, dan Xbox One.
Pengembangan Cortana dimulai pada tahun 2009 di
Microsoft Speech Product Team dengan manajer
umum Zig Serafin dan chief scientist Larry Heck. Heck
dan Serafin menetapkan visi, misi, dan rencana jangka
panjang untuk teknologi asisten pribadi digital Microsoft,
lalu mereka membangun sebuah tim untuk
membuat prototipe awal Cortana
Cortana memiliki kemampuan untuk mengatur
pengingat, mengenali suara secara alami, dan menjawab
pertanyaan menggunakan informasi dari Bing.
35
4. Bixby Samsung
Pada 20 Maret 2017, Samsung mengumumkan
asisten digital bertenaga suara bernama "Bixby". Bixby
diperkenalkan bersama Samsung Galaxy S8 dan S8 + ,
serta Samsung Galaxy Tab A selama acara Samsung
Galaxy Unpacked 2017, yang diselenggarakan pada 29
Maret 2017. Samsung secara resmi meluncurkan Bixby
seminggu. sebelum diluncurkan tetapi hanya muncul
pertama kali selama acara. Bixby juga dapat di-
sideload pada perangkat Galaxy yang lebih lama yang
menjalankan Android Nougat.
Bixby merupakan reboot besar untuk S Voice ,
aplikasi asisten suara Samsung yang diperkenalkan pada
2012 dengan Galaxy S III .
Pada Mei 2017, Samsung mengumumkan bahwa
Bixby akan datang ke lini kulkas Family Hub 2.0,
36
menjadikannya produk non-mobile pertama yang
memasukkan asisten virtual.
Pada bulan Oktober 2017, Samsung mengumumkan
rilis Bixby 2.0 selama konferensi pengembang tahunannya
di San Francisco. Versi baru akan diluncurkan di jajaran
produk terhubung perusahaan, termasuk smartphone, TV,
dan lemari es. Selain itu, pihak ketiga akan diizinkan untuk
mengembangkan aplikasi untuk Bixby menggunakan Kit
Pengembang Samsung.
bixby hadir dengan tiga bagian, yang dikenal
sebagai "Bixby Voice," "Bixby Vision" dan "Bixby
Home".
"Bixby Voice" adalah nama untuk metode
mengaktifkan Bixby dengan memanggilnya atau menekan
tombol Bixby yang terletak di bawah volume
rocker. Beberapa saat sebelum rilis ponsel, Tombol Bixby
diprogram ulang dan dapat diatur untuk membuka aplikasi
atau asisten lain, seperti Google Assistant . Namun, di
dekat rilis ponsel, kemampuan ini dihapus dengan
pembaruan firmware, tetapi dapat dipetakan ulang
menggunakan aplikasi pihak ketiga. "Bixby Vision"
adalah kamera augmented reality yang dapat
mengidentifikasi objek secara real time dan berpotensi
menawarkan pengguna untuk membelinya secara online,
menerjemahkan teks, membaca kode QR, dan mengenali
37
landmark. "Bixby Home" adalah daftar informasi vertikal
yang dapat berinteraksi dengan Bixby, [ klarifikasi
diperlukan ] misalnya, cuaca, aktivitas kebugaran, dan
tombol untuk mengendalikan gadget rumah pintar mereka.
Pada awalnya Bixby mendukung tiga bahasa:
Inggris, Korea dan Cina. Ini juga mendukung pencarian
kontekstual dan pencarian visual.
Samsung melaporkan bahwa Bixby tidak akan
beroperasi pada versi AS dari Samsung Galaxy S8 dan S8
+ ketika perangkat pertama kali dikirim ke pelanggan pada
21 April 2017. Samsung menyatakan bahwa fitur utama
Bixby, termasuk Vision, Home dan Reminder, akan
menjadi tersedia dengan peluncuran global
smartphone. Bixby Voice dimaksudkan untuk tersedia
di AS pada Galaxy S8 dan S8 + nanti pada musim semi
itu. Namun, rilis versi bahasa Inggris ditunda karena
Samsung memiliki masalah untuk membuat Bixby
memahami sepenuhnya bahasa tersebut.
Pada April 2018, Bixby tersedia di lebih dari 195
negara, tetapi hanya dalam bahasa Korea, Inggris (hanya
AS), dan Cina (Mandarin). Versi Cina Bixby hanya
tersedia di perangkat yang secara resmi dijual di Daratan
China. Bixby Korea diluncurkan pada 1 Mei 2017 (KST).
Pada Desember 2018, Samsung telah menggunakan
fungsi perintah suara Bixby dalam bahasa Prancis
38
Pada 20 Februari 2019 Samsung mengumumkan
penambahan bahasa lebih lanjut: Inggris (Inggris), Jerman,
Italia, dan Spanyol (Spanyol).
5. Chatbot
Chatterbot (disebut juga chatbot atau bots) adalah
sebuah program komputer yang dirancang untuk
menyimulasikan percakapan intelektual dengan satu atau lebih
manusia baik secara audio maupun teks.
Pada mulanya, program komputer (bots) ini diuji melalui
Turing Test, yaitu dengan merahasiakan identitasnya
sebagai mesin sehingga dapat mengelabui orang yang
bercakap-cakap dengannya. Jika pengguna tidak dapat
mengidentifikasi bots sebagai suatu program komputer,
maka chatterbot tersebut dikategorikan sebagai kecerdasan
buatan (atau artificial intelligence). Dewasa
ini, chatterbot telah dimanfaatkan untuk tujuan praktis seperti
bantuan online, layanan personal, atau akuisisi informasi,
dalam hal ini dapat dilihat fungsi program sebagai suatu jenis
agen percakapan (atau conversational agent). Yang
membedakan chatterbot dengan sistem pemrosesan bahasa
alami (atau Natural Language Processing System) adalah
kesederhanaan algoritme yang digunakan.
39
Meskipun banyak bots yang tampaknya dapat
mengartikan dan menanggapi input manusia,
sebenarnya bots tersebut hanya memindai kata kunci dalam
input dan membalasnya dengan kata kunci yang paling cocok,
atau pola kata-kata yang paling mirip dari basis data tekstual.
Istilah “Chatterbot” sendiri pertama kali dikemukakan
oleh Michael Mauldin (pencipta verbot pertama, Julia) pada
tahun 1994 untuk mendeskripsikan program percakapan ini.
Pada tahun 1950, Alan Turing mempublikasikan artikel
terkenalnya “Computing Machinery and Intelligence”,[2] yang
mengemukakan tes Turing sebagai suatu kriteria kecerdasan.
Kriteria ini bergantung pada kemampuan program komputer
untuk meniru manusia dalam suatu percakapan tertulis waktu
nyata (real-time) dengan manusia sebagai penilai; apakah
program komputer tersebut cukup baik sehingga manusia tidak
dapat membedakan –berdasarkan isi percakapannya saja-
sedang berhadapan dengan program komputer atau manusia
nyata. Pengujian ini terkait dengan minat Turing terhadap
ELIZA, program yang dipublikasikan oleh Joseph
Weizenbaum pada tahun 1966, yang dapat mengelabui
pengguna hingga mempercayai bahwa mereka sedang
bercakap-cakap dengan manusia nyata.
Kunci metode operasional ELIZA (dicontoh oleh
perancang chatterbot hingga kini) melibatkan rekognisi
dari isyarat kata-kata atau kalimat pada input, dan output
40
berupa tanggapan yang telah dipersiapkan atau diprogram,
yang dapat meneruskan percakapan dengan suatu cara
sehingga tampak bermakna (misalnya, menanggapi input yang
mengandung kata ‘MOTHER’ dengan ‘TELL ME MORE
ABOUT YOUR FAMILY’). Jadi terciptalah suatu ilusi
pemahaman dimana pengolahan yang terlibat tidak sampai
pada pemaknaan. ELIZA menunjukka ilusi tersebut yang
entah bagaimana dinilai “cerdas” oleh manusia. Teknik kunci
di sini – yang menjadi karakteristik
program chatterbot dibandingkan dengan sistem pemrosesan
bahasa alami yang serius adalah produksi respons yang cukup
jelas namun tidak spesifik. Penekanan biasanya pada
ketidakjelasan daripada menyampaikan informasi asli.
Baru-baru ini, perancang antarmuka (atau interface)
telah menghargai kesiapan manusia dalam menafsirkan
output komputer sebagai percakapan yang sebenarnya, bahkan
ketika program sebenarnya didasarkan pada pencocokan pola
sederhana. Hal ini dapat diberdayakan untuk tujuan yang
bermanfaat. Banyak orang lebih memilih berkonsultasi pada
program yang menyerupai manusia ini, dan hal ini
memberikan chatterbot ruang untuk berkembang dalam
fungsi-fungsi sistem interaktif dalam memberikan informasi
pada pengguna –selama informasinya bersifat langsung dan
dapat dikategorikan. Misalnya, sistem bantuan online kini
banyak menggunakan teknik chatterbot dalam
41
mengidentifikasi area bantuan yang dibutuhkan pengguna,
memberikan kesan “ramah” pada interface daripada sistem
menu bantuan formal.
Bots yang nyata mendeskripsikan fenomena ini
contohnya Depression 2.0, yaitu chatterbot dengan program
komputer berdasar pada model-model teori ilmu
psikologi yang dapat memberikan solusi masalah psikologis
pada pengguna.
Sejarah klasik dari chatterbot awal adalah ELIZA
(1966) dan PARRY (1972). Program yang baru-baru saja
dikembangkan yaitu A.L.I.C.E, Jabberwacky dan D.U.D.E.
Pada masanya, ELIZA dan PARRY digunakan untuk
menstimulasi percakapan tertulis, namun
banyak chatterbot kini mendukung fitur fungsional seperti
permainan dan kemampuan pencarian website. Tahun 1984,
sebuah buku berjudul The Policeman’s Beard is Half
Constructed dipublikasikan. Buku ini diduga ditulis oleh
sebuah chatterbot Racter –walaupun program ini dirilis untuk
tidak mampu melakukannya.
Salah satu penelitian penting di bidang kecerdasan
buatan (AI) adalah pemrosesan bahasa alami (atau Natural
Language Processing). Biasanya, bidang AI lemah
memberdayakan perangkat lunak (atau software) khusus atau
bahasa pemrograman yang dibuat secara spesifik dengan
fungsi yang lebih sempit. Contohnya, A.L.I.C.E menggunakan
42
bahasa pemrograman yang disebut sebagai AIML yang
fungsinya spesifik yaitu sebagai agen percakapan, yang
selanjutnya banyak diadopsi oleh pengembang Alicebots lain.
Meskipun demikian, A.L.I.C.E masih murni berdasarkan
teknik pencocokan pola tanpa kemampuan penalaran –teknik
yang sama yang digunakan ELIZA pada tahun 1966. Berbeda
dengan AI kuat, yang membutuhkan cita rasa dan kemampuan
penalaran logis.
Jabberwacky mempelajari respons baru dan berbasis
pada konteks interaksi pengguna waktu nyata (atau real-time),
bukan dengan digerakan basis data statis.
Beberapa chatterbot terbaru juga mengkombinasikan
pembelajaran waktu nyata dengan algoritme evolusioner yang
mengoptimalkan kemampuan komunikasi berbasis
percakapannya, dengan contoh populernya yaitu Kyle,
pemenang Penghargaan Leodis AI 2009. Meskipun, saat ini
belum ada tujuan umum percakapan kecerdasan buatan, dan
beberapa pengembang perangkat lunak berfokus pada aspek
praktis, pengambilan informasi (atau information retrieval).
Sistem percakapan otomatis kini telah berkembang, dan
perusahaan-perusahaan sudah menggunakan sitem-sistem
tersebut untuk membantu call center memberikan panduan
kontak. Chatterbot pun sudah dimplementasikan
melalui jejaring sosial, seperti twitter dan Windows Live
Messenger.
43
Portal online populer seperti eBay dan PayPal juga
menggunakan agen virtual multi bahasa untuk memudahkan
penggunanya. Misalnya, PayPal
menggunakan chatterbot Louise untuk menangani query
dalam bahasa Inggris dan chatterbot Lea untuk query dalam
bahasa Prancis. Dikembangkan oleh VirtuOz, kedua agen
tersebut menangani 400.000 percakapan setiap bulan setelah
difungsikan pada September 2008 di situs PayPal. Pada tahun
2017, SnatchBot, sebuah perusahaan Israel, meluncurkan situs
web pembuatan chatbot yang menyatakan memiliki
kemampuan membangun bot dengan analisis sentimen.
Contoh dari Chatbot :
1. Duolingo
Duolingo merupakan platform dan layanan
pembelajaran bahasa yang sangat populer dimana telah
membantu jutaan pengguna di seluruh dunia
mempelajari bahasa baru dan terhubung dengan orang
lain. Duolingo baru saja meningkatkan kemampun
pembelajaran bot mereka dengan merilis beberapa
tutor bahasa virtual yang dibuat untuk membantu
peserta didik berlatih tanpa tekanan.
Bot Duolingo terus berkembang menjadi lebih
baik seiring waktu saat pengguna mengobrol dengan
mereka. Walaupun AI yang mereka miliki masih jauh
44
dari beberapa AI terbaik yang ada, namun seiring
berjalanya waktu kemungkinan besar mereka akan
menyamai kemampuan AI terbaik lainnya.
2. Gymbot
Setiap orang yang pernah mencoba mengikuti rencana
latihan olahraga tahu betapa susahnya untuk mencatat
semua sets, reps, weights, dan exercise yang dilakukan.
Metode lama masih menggunakan pena dan kertas
ditambah dengan beberapa perhitungan matematika,
dan sekarang kita bisa menggunakan metode yang
melibatkan GymBot, bot Messenger Facebook yang
melacak latihan olahraga kamu. Untuk menggunakan
bot ini, kamu cukup membuka aplikasi Messenger,
mengirim pesan kepada GymBot dengan statistik
latihan kamu, dan GymBot akan mencatat jurnal
latihan kamu
3. Cleverbot
Tidak ada yang lebih baik bagaimana memulai daftar
aplikasi chatbot AI terbaik ini dengan sesuatu yang
berhubungan dengan percakapan manusia. Cleverbot
hampir mendekati sempurna saat tes Turing pada
festival Techniche 2011, dengan hanya memiliki
beberapa persen perbedaan bila dibandingkan dengan
percakapan asli yang dilakukan manusia.
4. Chatterbot
45
Digunakan untuk menghasilkan respon otomatis
terhadap masukan pengguna, ChatterBot berisi library
Python yang membuatnya sangat mudah bagi
pengembang aplikasi untuk membuat bot chat sendiri.
Aplikasi AI yang dibuat dengan menggunakan
ChatterBox dapat dilatih untuk berbicara bahasa apa
pun. Aplikasi AI tersebut secara alami akan melakukan
perbaikan secara otomatis sepanjang waktu tanpa harus
coding atau update.
Yang membuat ChatterBot hebat dibandingkan dengan
library lain yang digunakan untuk aplikasi AI, adalah
panduan onlinenya uang besar dan mudah dipahami.
Pengembang yang relatif tidak berpengalamanpun
dapat dengan cepat belajar bagaimana membuat
chatbot cerdas yang hampir tidak dapat dibedakan
dengan manusia.
5. Prisma
Prisma telah menempatkan dirinya dijajaran aplikasi
chatbot terbaik setelah membuat fotografi digital
kembali menyenangkan. Bot ini menawarkan pilihan
filter foto yang cukup banyak yang dapat kamu
terapkan hanya dengan mengirimkan gambar kamu ke
bot melalui Telegram dan memberitahunya tentang apa
yang harus dilakukan. Bot ini juga tersedia sebagai
aplikasi smartphone. Aplikasi ini menambahkan fitur
46
pratinjau yang berguna dimana memungkinkan kamu
melihat beberapa filter secara bersamaan.
6. Komponen Utama Natural Languague
1. Parser
Suatu system yang mengambil kalimat input bahasa alami dan
menguraikannya kedalam beberapa bagian gramatikal (kata benda,
kerja, sifat dll)
2. Sistem Representasi Pengetahuan
Suatu system yang menganalisis input untuk menentukan makna
setiap kata
3. Output Translator
Suatu terjemahan yang mempresentasikan system pengetahuan
dan melakukan langkah-langkah yang dapat berupa jawaban atas
bahasa alami atau output khusus sesuai dengan program computer
lainnya
47
7. Analisis NLP
a) Leksikal
Kamus yang mendaftar kata-kata bahasa berdasarkan abjad.
b) Sintak
Metoda penempatan kata-kata didalam urutan tertentu sehingga
suatu kalimat merupakan suatu bentuk bahasa yang benar (berkaitan
dengan grammar)
8. Knowledge Base
Yakni salah satu dari bagian utama dalam aplikasi kecerdasan buatan
yang berisi fakta-fakta, pemikiran dan hubungan.
Basis pengetahuan adalah suatu jenis basis data yang dipergunakan
untuk manajemen pengetahuan. Basis data ini menyediakan fasilitas untuk
koleksi, organisasi, dan pengambilan pengetahuan terkomputeriasai. Hal
ini terpenting dari suatu basis pengetahuan adalah kualitas informasi yang
dikandungnya. Basis pengathuan yang terbaik memiliki artikel-artikel
yang ditulis dengan baik dan dijaga untuk selalu mutakhir, memiliki
system pengammbilan (mesin pencari) yang baik, serta format isi dan
struktur klasifikasi yang dirancang dengan seksama.
Sebuah basis pengetahuan terdiri dari sekian paket data berukuran
besar, deskripsi dari data tersebut (metadata) dan serangkaian besar aturan-
aturan. Secara umum, basis pengetahuan memiliki sifat yang dinamis
dengan kemampuan dan kapasitas untuk belajar, sehingga dekat dengan
topik kecerdasan buatan.
48
Untuk mengelola suatu basis pengetahuan, dibutuhkan suatu system
manajemen basis pengetahuan yang biasanya memiliki kemampuan
sebagai berikut :
1. Membuat kesimpulan berdasarkan aturan-aturan, deskripsi
data, dan fakta untuk menghasilkan informasi yang baru
2. Mekanisme untuk melakukan perbaruan
3. Kemampuan untuk mengoptimalkan query
4. Kemampuan untuk mengintegrasikan beragam basis
pengetahuan
5. Kemampuan untuk menyediakan jawaban yang bersifat
kooperator kepada pengguna
6. Kemampuan untuk melakukan penggalian data, atau penemuan
pengetahuan di dalam basis data
49
BAB III
PENUTUP
A. Kesimpulan
Natural Language Processing (NLP) mengacu pada metode AI untuk
berkomunikasi dengan sistem cerdas dengan menggunakan bahasa alami
seperti bahasa Inggris. Pengolahan Bahasa Alami diperlukan bila Anda
menginginkan sistem cerdas seperti robot untuk melakukansesuai instruksi
Anda
50
DAFTAR PUSTAKA
https://id.wikipedia.org/wiki/Bahasa
https://id.wikipedia.org/wiki/Proses
https://id.wikipedia.org/wiki/Bahasa_alami
https://sis.binus.ac.id/2016/12/15/12113/
51

Natural Processing Language - Fahmi Faturrohman

Diunggah oleh

Informasi Dokumen

Deskripsi Asli:

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Natural Processing Language - Fahmi Faturrohman

Diunggah oleh

Hak Cipta:

Format Tersedia

Natural Processing Language ( Pemrosesan Bahasa Alami)

Diampu oleh : Victor Amrizal, M.Kom

Fahmi Faturrohman (11170910000015)

FAKULTAS SAINS DAN TEKNOLOGI

UIN SYARIF HIDAYATULLAH JAKARTA

1.1. Latar belakang ……………………………………………………………

1.2. Rumusan Masalah ………………………………………………………..

1.3. Tujuan penulisan …………………………………………………………

1.4. Sistematika Penulisan ……………………………………………………

A. Landasan Teori ………………………………………………………..

1. Pengertian Natural Processing Languague ……………………….

2. Sejarah Natural Processing Languague …………………………..

3. NLP Berbasis Aturan vs Statistik …………………………………

4. Evaluasi dan Tugas Utama ………………………………………..

5. Aplikasi dalam Bidang NPL ……………………………………..

6. Komponen Utama Natural Languague …………………………..

7. Analisis NLP ……………………………………………………..

8. Knowledge Based ………………………………………………..

BAB III : PENUTUP

Natural Language Processing (NLP) merupakan sebuah teknik yang

berfungsi untuk menganalisis dan merepresentasikan bahasa manusia secara

otomatis dengan mempelajari model matematis dan komputasi dari berbagai

digunakan untuk mengambil struktur gramatikal. NLP membangun output

[1]. Contoh pemanfaatan NLP adalah pada deteksi plagiarisme, information

retrieval, text summarization, question answering, machine translation. Pada

pengenalan parafrasa. Parafrasa sendiri merupakan pengungkapan kembali

tanpa mengubah pengertian; Parafrasa dapat diartikan juga sebagai penguraian

menjelaskan makna yang tersembunyi [2]. Parafrasa digunakan oleh seorang

penulis untuk menjelaskan sesuatu menggunakan pendekatan yang berbeda

parafrasa penting adalah perlunya mesin untuk membedakan secara otomatis

pada kalimat “penyebab kebakaran hutan”, seharusnya komputer akan

mengenali bahwa kalimat tersebut serupa dengan kalimat “sumber kebakaran

hutan”. Pada pengenalan parafrasa bahasa Indonesia terdapat prefiks, sufiks,

sebuah proses yang dinamakan identifikasi parafrasa. Identifikasi parafrasa

adalah proses untuk mengenali ungkapan dari sepasang kalimat apakah

mengidentifikasi parafrasa adalah melakukan preprocessing yang bertujuan

untuk meningkatkan kualitas data, preprocessing terdiri dari 3 tahap yaitu

tokenization, non-alphanumerical removal, dan stemming. Algoritma

stemming yang digunakan untuk preprocessing dataset parafrasa bahasa

Indonesia adalah algoritma Nazief-Adriani karena memiliki performansi

dilakukan proses feature extraction yang bertujuan untuk membangun fitur-

tersebut menggunakan metode Normalized Levensthein Distance. Fitur yang

berdasarkan pohon semantik, perhitungan jarak semantik dilakukan dengan

menggunakan metode Wu and Palmer. Setelah dilakukan ekstraksi fitur,

clustering menggunakan metode K-Means. Metode yang digunakan untuk

melatih classifier adalah Bayesian Networks. Perhitungan parameter yang

digunakan classifier ini adalah MAP(Maximum A Posteriori) dan Multinomial

Bayesian networks merupakan suatu metode pemodelan data berbasis

probabilitas yang merepresentasikan suatu himpunan variabel dan conditional

alasan mengapa mengambil bayesian networks sebagai classifier, pertama

bayesian networks dapat menangani dataset yang tidak lengkap, kedua

bayesian networks memungkinkan proses learning mengenai hubungan sebab-

yang memfasilitasi kombinasi antara data dan domain knowledge, yang

terakhir adalah bayesian networks menyediakan jalan yang efisien untuk

menghindari data yang bersifat over fit [5].

Penulis membatasi ruang lingkup pembahasan tentang makalah ini hanya

mencakup tentang Natural Processing Languague

Adapun Tujuan yang ingin dicapai oleh penulis adalah :

1. Memahami pengertian Natural Processing Languague

2. Memahami tujuan dari Natural Processing Languague

3. Memahami bidang Natural Processing Languague

4. Dapat membuat dan mengaplikasikan Natural Processing Languague