Anda di halaman 1dari 51

Natural Processing Language ( Pemrosesan Bahasa Alami)

Makalah ini disusun untuk memenuhi tugas kelompok dalam mata kuliah

Kecerdasan buatan

Diampu oleh : Victor Amrizal, M.Kom

Disusun oleh :

Fahmi Faturrohman (11170910000015)

VA

TEKNIK INFORMATIKA

FAKULTAS SAINS DAN TEKNOLOGI

UIN SYARIF HIDAYATULLAH JAKARTA

2019

1
DAFTAR ISI

BAB I : PENDAHULUAN

1.1. Latar belakang ……………………………………………………………

1.2. Rumusan Masalah ………………………………………………………..

1.3. Tujuan penulisan …………………………………………………………

1.4. Sistematika Penulisan ……………………………………………………

BAB II : PEMBAHASAN

A. Landasan Teori ………………………………………………………..

1. Pengertian Natural Processing Languague ……………………….

2. Sejarah Natural Processing Languague …………………………..

3. NLP Berbasis Aturan vs Statistik …………………………………

4. Evaluasi dan Tugas Utama ………………………………………..

5. Aplikasi dalam Bidang NPL ……………………………………..

6. Komponen Utama Natural Languague …………………………..

7. Analisis NLP ……………………………………………………..

8. Knowledge Based ………………………………………………..

BAB III : PENUTUP

A. Kesimpulan …………………………………………………………..

DAFTAR PUSTAKA

2
BAB I

PENDAHULUAN

A. Latar Belakang

Natural Language Processing (NLP) merupakan sebuah teknik yang

berfungsi untuk menganalisis dan merepresentasikan bahasa manusia secara

otomatis dengan mempelajari model matematis dan komputasi dari berbagai

macam aspek bahasa dan pengembangan pada sistem yang luas. NLP

digunakan untuk mengambil struktur gramatikal. NLP membangun output

berdasarkan aturan yang ada pada bahasa yang dijadikan objek pemrosesan

[1]. Contoh pemanfaatan NLP adalah pada deteksi plagiarisme, information

retrieval, text summarization, question answering, machine translation. Pada

kasus deteksi plagiarisme salah satu proses yang diperlukan adalah proses

pengenalan parafrasa. Parafrasa sendiri merupakan pengungkapan kembali

suatu tuturan dari sebuah tingkatan atau macam Bahasa menjadi yang lain

tanpa mengubah pengertian; Parafrasa dapat diartikan juga sebagai penguraian

kembali suatu teks dalam bentuk yang lain, dengan maksud untuk dapat

menjelaskan makna yang tersembunyi [2]. Parafrasa digunakan oleh seorang

penulis untuk menjelaskan sesuatu menggunakan pendekatan yang berbeda

namun mengandung pesan yang sama. Hal yang membuat proses pengenalan

parafrasa penting adalah perlunya mesin untuk membedakan secara otomatis

frasa-frasa yang berbeda bentuk namun memiliki makna yang sama. Misalnya

pada kalimat “penyebab kebakaran hutan”, seharusnya komputer akan

mengenali bahwa kalimat tersebut serupa dengan kalimat “sumber kebakaran

hutan”. Pada pengenalan parafrasa bahasa Indonesia terdapat prefiks, sufiks,

infiks, dan konfiks pada struktur bahasa sehingga sulit untuk menyocokan kata

3
yang berkaitan. Untuk menghadapi permasalah diatas maka dibutuhkan

sebuah proses yang dinamakan identifikasi parafrasa. Identifikasi parafrasa

adalah proses untuk mengenali ungkapan dari sepasang kalimat apakah

keduanya memiliki arti sama atau tidak. Pendekatan yang dilakukan untuk

mengidentifikasi parafrasa adalah melakukan preprocessing yang bertujuan

untuk meningkatkan kualitas data, preprocessing terdiri dari 3 tahap yaitu

tokenization, non-alphanumerical removal, dan stemming. Algoritma

stemming yang digunakan untuk preprocessing dataset parafrasa bahasa

Indonesia adalah algoritma Nazief-Adriani karena memiliki performansi

terbaik untuk dataset bahasa Indonesia. Data hasil preprocessing tersebut lalu

dilakukan proses feature extraction yang bertujuan untuk membangun fitur-

fitur baru dari data set tersebut. Fitur yang pertama adalah fitur sintaktik yang

merupakan hasil dari perhitungan jarak antara dua kalimat, perhitungan jarak

tersebut menggunakan metode Normalized Levensthein Distance. Fitur yang

kedua adalah fitur semantik, fitur ini menghitung kemiripan pasangan kalimat

berdasarkan pohon semantik, perhitungan jarak semantik dilakukan dengan

menggunakan metode Wu and Palmer. Setelah dilakukan ekstraksi fitur,

dataset tersebut dibagi menjadi dua bagian yaitu data training dan data testing.

Setelah data selesai dibagi, maka dilakukan diskritisasi nilai fitur dengan

clustering menggunakan metode K-Means. Metode yang digunakan untuk

melatih classifier adalah Bayesian Networks. Perhitungan parameter yang

digunakan classifier ini adalah MAP(Maximum A Posteriori) dan Multinomial

Distribution Probability.

Bayesian networks merupakan suatu metode pemodelan data berbasis

probabilitas yang merepresentasikan suatu himpunan variabel dan conditional

4
dependency-nya melalui suatu Directed Acyclic Graph(DAG) [4]. Ada empat

alasan mengapa mengambil bayesian networks sebagai classifier, pertama

bayesian networks dapat menangani dataset yang tidak lengkap, kedua

bayesian networks memungkinkan proses learning mengenai hubungan sebab-

akibat, yang ketiga bayesian networks sejalan dengan teknik bayesian statistik

yang memfasilitasi kombinasi antara data dan domain knowledge, yang

terakhir adalah bayesian networks menyediakan jalan yang efisien untuk

menghindari data yang bersifat over fit [5].

B. Rumusan Masalah

Penulis membatasi ruang lingkup pembahasan tentang makalah ini hanya

mencakup tentang Natural Processing Languague

C. Tujuan Penulisan

Adapun Tujuan yang ingin dicapai oleh penulis adalah :

1. Memahami pengertian Natural Processing Languague

2. Memahami tujuan dari Natural Processing Languague

3. Memahami bidang Natural Processing Languague

4. Dapat membuat dan mengaplikasikan Natural Processing Languague

D. Sistematika Penulisan

Dalam sistematika penulisan ini terdapat pembahasan yang tersusun

dalam beberapa kelompok sehingga mempermudah dalam memahami

maksud dan tujuan penulisan laporan skripsi ini. Sistematika penulisan

laporan skripsi ini adalah sebagai berikut :

5
BAB 1 PENDAHULUAN

Berisi latar belakang pemilihan judul, rumusan masalah,

tujuan penulisan

BAB II TINJAUAN PUSTAKA

Berisi uraian singkat tentang pengertian yang digunakan

untuk mengumpulkan data yang dipergunakan dan anlasis

data yang telah didapat.

BAB III PENYAJIAN DATA DAN PEMBAHASAN

Berisi uraian tentang Pembahasan Makalah.

BAB IV PENUTUP

Berisi kesimpulan dari uraian mengenai saran penulis.

6
BAB II

PEMBAHASAN

A. Landasan Teori

1. Pengetian Natural Processing Languague

Bahasa alami dalam filsafat bahasa, bahasa alami atau bahasa

natural adalah suatu bahasa yang diucapkan, ditulis,

atau diisyaratkan (secara visual atau isyarat lain)

oleh manusia untuk komunikasi umum. Bahasa jenis ini dibedakan

dengan bahasa formal – seperti bahasa pemrograman komputer atau

"bahasa" yang digunakan dalam kajian logika formal, terutama logika

matematika – serta bahasa buatan.

Dalam ilmu teknik, proses adalah urutan pelaksanaan

atau kejadian yang saling terkait yang bersama-sama mengubah masukan

menjadi keluaran. Pelaksanaan ini dapat dilakukan oleh manusia, alam,

atau mesin dengan menggunakan berbagai sumber daya.

Bahasa (dari bahasa Sanskerta भाषा, bhāṣā) adalah kemampuan yang

dimiliki manusia untuk berkomunikasi dengan manusia lainnya

menggunakan tanda, misalnya kata dan gerakan. Kajian ilmiah bahasa

disebut ilmu linguistik.

Perkiraan jumlah bahasa di dunia beragam antara 6.000–7.000 bahasa.

Namun, perkiraan tepatnya bergantung pada suatu perubahan sembarang

yang mungkin terjadi antara bahasa dan dialek. Bahasa

alami adalah bicara atau bahasa isyarat, tetapi setiap bahasa

dapat disandikan ke dalam media kedua menggunakan stimulus audio,

7
visual, atau taktil, sebagai contohnya, tulisan grafis, braille, atau siulan.

Hal ini karena bahasa manusia bersifat independen terhadap modalitas.

Sebagai konsep umum, "bahasa" bisa mengacu pada

kemampuan kognitif untuk dapat mempelajari dan menggunakan sistem

komunikasi yang kompleks, atau untuk menjelaskan sekumpulan aturan

yang membentuk sistem tersebut atau sekumpulan pengucapan yang dapat

dihasilkan dari aturan-aturan tersebut. Semua bahasa bergantung pada

proses semiosis untuk menghubungkan isyarat dengan makna tertentu.

Bahasa lisan dan bahasa isyarat memiliki sebuah

sistem fonologis yang mengatur bagaimana simbol digunakan untuk

membentuk urutan yang dikenal sebagai kata atau morfem, dan suatu

sistem sintaks yang mengatur bagaimana kata-kata

dan morfem digabungkan untuk membentuk frasa dan penyebutan.

Bahasa manusia unik karena memiliki sifat-

sifat produktivitas, rekursif, dan pergeseran, dan karena secara keseluruhan

bahasa manusia bergantung pula pada konvensi serta edukasi sosial.

Strukturnya yang kompleks mampu memberikan kemungkinan ekspresi

dan penggunaan yang lebih luas daripada sistem komunikasi hewan yang

diketahui.

Sejak zaman hominin, bahasa diperkirakan mulai secara bertahap

mengubah sistem komunikasi antarprimata. Primata kemudian mulai

memperoleh kemampuan untuk membentuk suatu teori

pikiran dan intensionalitas. Perkembangan tersebut terkadang diperkirakan

bersamaan dengan meningkatnya volume otak, dan banyak ahli bahasa

berpendapat bahwa struktur bahasa berkembang untuk melayani fungsi

8
sosial dan komunikatif tertentu. Bahasa diproses pada banyak lokasi yang

berbeda pada otak manusia, terutama di area Broca dan area Wernicke.

Manusia mengakuisisi bahasa lewat interaksi sosial pada masa balita,

dan anak-anak sudah dapat berbicara secara fasih kurang lebih pada umur

tiga tahun. Penggunaan bahasa telah berakar dalam kultur manusia. Oleh

karena itu, selain digunakan untuk berkomunikasi, bahasa juga memiliki

banyak fungsi sosial dan kultural, misalnya untuk

menandakan identitas suatu kelompok, stratifikasi sosial, dan

untuk dandanan sosial dan hiburan.

Bahasa-bahasa berubah dan bervariasi sepanjang waktu, dan sejarah

evolusinya dapat direkonstruksi ulang dengan membandingkan bahasa

modern untuk menentukan sifat-sifat mana yang harus dimiliki oleh

bahasa leluhurnya supaya perubahan nantinya dapat terjadi. Sekelompok

bahasa yang diturunkan dari leluhur yang sama dikenal sebagai rumpun

bahasa.

Bahasa yang digunakan dunia sekarang tergolong pada keluarga Indo-

Eropa. Termasuk di dalamnya adalah bahasa

seperti Inggris, Spanyol, Portugis, Rusia, dan Hindi; Bahasa Sino-Tibet,

yang melingkupi Bahasa Mandarin, Cantonese, dan banyak

lainnya; Rumpun bahasa Afro-Asiatik yang

melingkupi Arab, Amhar, Somali, dan Hebrew; dan bahasa Bantu, yang

melingkupi Swahili, Zulu, Shona, dan ratusan bahasa lain yang digunakan

di Afrika. Konsensusnya adalah antara 50–90% bahasa yang digunakan

sejak awal abad ke-21 kemungkinan akan punah pada tahun 2100.

9
Pemrosesan bahasa alami, disingkat PBA atau NLP (natural language

processing), adalah cabang ilmu komputer dan linguistik yang mengkaji

interaksi antara komputer dengan bahasa (alami) manusia [1]. NLP sering

dianggap sebagai cabang dari kecerdasan buatan dan bidang kajiannya

bersinggungan dengan linguistik komputasional. Kajian NLP antara lain

mencakup segmentasi tuturan (speech segmentation), segmentasi teks (text

segmentation), penandaan kelas kata (part-of-speech tagging), serta

pengawataksaan makna (word sense disambiguation). Meskipun kajiannya

dapat mencakup teks dan tuturan, pemrosesan tuturan (speech processing)

telah berkembang menjadi suatu bidang kajian terpisah.

Sejarah NLP dimulai pada tahun 1950-an, meskipun telah ada

penilitian NLP pada tahun-tahun sebelumnya. Pada tahun 1950, Alan

Turing (bapak ilmu komputer) mempublikasikan artikel terkenalnya yang

berjudul “Computing Machinery and Intelligence” yang di dalamnya Alan

Turing mengusulkan tes yang sekarang disebut dengan Turing Test. Tes

Turing adalah sebuah tes yang mengukur kemampuan mesin (dalam hal ini

program komputer) untuk menunjukan perilaku cerdas. Dalam ilustrasi

contoh aslinya, seorang juri manusia akan terlibat dalam percakapan

dengan manusia dan mesin yang akan dites. Semua peserta dipisahkan satu

sama lain. Jika juri tidak bisa membedakan antara manusia dan mesin,

maka mesin tersebut dikatakan lulus tes.

2. Sejarah Natural Processing Languague

Sejarah pemrosesan bahasa alami (NLP) umumnya dimulai pada

1950-an, meskipun pekerjaan dapat ditemukan dari periode

10
sebelumnya. Pada tahun 1950, Alan Turing menerbitkan sebuah artikel

berjudul " Mesin Komputasi dan Kecerdasan " yang mengusulkan apa

yang sekarang disebut tes Turing sebagai kriteria kecerdasan.

Eksperimen Georgetown pada tahun 1954 melibatkan terjemahan

otomatis lebih dari enam puluh kalimat Rusia ke dalam bahasa

Inggris. Para penulis mengklaim bahwa dalam tiga atau lima tahun,

terjemahan mesin akan menjadi masalah yang terpecahkan. [2] Namun,

kemajuan nyata jauh lebih lambat, dan setelah laporan ALPAC pada tahun

1966, yang menemukan bahwa penelitian selama sepuluh tahun telah gagal

memenuhi harapan, dana untuk terjemahan mesin berkurang secara

dramatis. Sedikit penelitian lebih lanjut dalam terjemahan mesin dilakukan

sampai akhir 1980-an, ketika sistem terjemahan mesin statistik pertama

dikembangkan.

Beberapa sistem pemrosesan bahasa alami yang sangat sukses yang

dikembangkan pada 1960-an adalah SHRDLU , sistem bahasa alami yang

bekerja di " blok dunia " terbatas dengan kosakata terbatas, dan ELIZA ,

simulasi psikoterapis Rogerian , yang ditulis oleh Joseph

Weizenbaum antara 1964 dan 1966. Menggunakan hampir tidak ada

informasi tentang pemikiran atau emosi manusia, ELIZA terkadang

memberikan interaksi yang mirip manusia. Ketika "pasien" melebihi basis

pengetahuan yang sangat kecil, ELIZA mungkin memberikan respons

umum, misalnya, menanggapi "Kepalaku sakit" dengan "Mengapa Anda

mengatakan kepala Anda sakit?".

Selama tahun 1970-an, banyak programmer mulai menulis

" ontologi konseptual", yang menyusun informasi dunia nyata menjadi

11
data yang dapat dimengerti komputer. Contohnya adalah MARGIE

(Schank, 1975), SAM (Cullingford, 1978), PAM (Wilensky, 1978),

TaleSpin (Meehan, 1976), QUALM (Lehnert, 1977), Politik (Carbonell,

1979), dan Unit Plot (Lehnert 1981) ). Selama waktu ini,

banyak obrolan ditulis termasuk PARRY , Racter , dan Jabberwacky .

Hingga 1980-an, sebagian besar sistem pemrosesan bahasa alami

didasarkan pada serangkaian aturan tulisan tangan yang

kompleks. Dimulai pada akhir 1980-an, bagaimanapun, ada revolusi dalam

pemrosesan bahasa alami dengan pengenalan algoritma pembelajaran

mesin untuk pemrosesan bahasa. Hal ini disebabkan oleh peningkatan

kekuatan komputasi yang stabil (lihat hukum Moore ) dan berkurangnya

dominasi teori linguistik Chomsky secara bertahap (misalnya tata bahasa

transformasional ), yang landasan teoretisnya menghalangi jenis linguistik

korpus yang mendasari pendekatan pembelajaran mesin. untuk pemrosesan

bahasa. [3] Beberapa algoritma pembelajaran mesin yang paling awal

digunakan, seperti pohon keputusan , menghasilkan sistem aturan sulit

jika-maka mirip dengan aturan tulisan tangan yang

ada. Namun, penandaan sebagian wicara memperkenalkan

penggunaan model Markov tersembunyi untuk pemrosesan bahasa alami,

dan semakin banyak, penelitian telah berfokus pada model statistik , yang

membuat keputusan yang lunak dan probabilistik berdasarkan pada

menempelkan bobot bernilai nyata ke fitur yang membuat input

data. Model bahasa cache di mana banyak sistem pengenalan

ucapan sekarang bergantung adalah contoh model statistik tersebut. Model

seperti itu umumnya lebih kuat ketika diberi input asing, terutama input

12
yang mengandung kesalahan (seperti yang sangat umum untuk data dunia

nyata), dan menghasilkan hasil yang lebih dapat diandalkan ketika

diintegrasikan ke dalam sistem yang lebih besar yang terdiri dari beberapa

subtugas.

Banyak keberhasilan awal yang menonjol terjadi di

bidang terjemahan mesin , terutama karena bekerja di IBM Research, di

mana model statistik yang lebih rumit secara berturut-turut

dikembangkan. Sistem-sistem ini dapat mengambil keuntungan

dari korpora tekstual multibahasa multibahasa yang sudah ada yang

diproduksi oleh Parlemen Kanada dan Uni Eropa sebagai hasil dari

undang-undang yang menyerukan penerjemahan semua proses

pemerintahan ke dalam semua bahasa resmi dari sistem pemerintahan yang

sesuai. Namun, sebagian besar sistem lain bergantung pada korpora yang

secara khusus dikembangkan untuk tugas-tugas yang diimplementasikan

oleh sistem ini, yang (dan sering terus menjadi) batasan utama dalam

keberhasilan sistem ini. Akibatnya, banyak penelitian telah pergi ke

metode pembelajaran yang lebih efektif dari jumlah data yang terbatas.

Penelitian terbaru semakin berfokus pada

algoritma pembelajaran tanpa pengawasan dan semi-diawasi . Algoritme

tersebut dapat belajar dari data yang belum dianotasi tangan dengan

jawaban yang diinginkan, atau menggunakan kombinasi data beranotasi

dan tidak beranotasi. Secara umum, tugas ini jauh lebih sulit

daripada pembelajaran yang diawasi , dan biasanya menghasilkan hasil

yang kurang akurat untuk sejumlah data input yang diberikan. Namun, ada

sejumlah besar data yang tidak dianotasi yang tersedia (termasuk, antara

13
lain, seluruh konten World Wide Web ), yang sering kali dapat

menggantikan hasil yang lebih rendah jika algoritma yang digunakan

memiliki kompleksitas waktu yang cukup rendah untuk menjadi praktis.

Pada tahun 2010-an, pembelajaran representasi dan metode

pembelajaran mesin neural network yang dalam menjadi meluas dalam

pemrosesan bahasa alami, sebagian karena kesibukan hasil yang

menunjukkan bahwa teknik seperti itu dapat mencapai hasil mutakhir.

dalam banyak tugas bahasa alami, misalnya dalam pemodelan

bahasa, parsing, dan banyak lainnya. Teknik populer termasuk

penggunaan embedding kata untuk menangkap sifat semantik kata, dan

peningkatan pembelajaran ujung ke ujung dari tugas tingkat yang lebih

tinggi (mis., Penjawaban pertanyaan) alih-alih mengandalkan pipa tugas

menengah yang terpisah (misalnya, penandaan sebagian pidato dan parsing

dependensi). Di beberapa daerah, pergeseran ini memerlukan perubahan

besar dalam bagaimana sistem NLP dirancang, sedemikian sehingga

pendekatan berbasis jaringan saraf yang mendalam dapat dipandang

sebagai paradigma baru yang berbeda dari pemrosesan statistik bahasa

alami. Misalnya, istilah terjemahan mesin saraf (NMT) menekankan fakta

bahwa pendekatan berbasis pembelajaran yang mendalam untuk

terjemahan mesin secara langsung mempelajari transformasi urutan-ke-

urutan, menghilangkan kebutuhan untuk langkah-langkah menengah

seperti penyelarasan kata dan pemodelan bahasa yang digunakan

dalam statistik terjemahan mesin (SMT).

3. NLP Bebasis Aturan vs Statistik

14
Pada masa-masa awal, banyak sistem pemrosesan bahasa dirancang

dengan mengkodekan tangan satu set aturan: seperti menulis tata bahasa

atau menyusun aturan heuristik untuk membendung .

Sejak apa yang disebut "revolusi statistik" pada akhir 1980-an dan

pertengahan 1990-an, banyak penelitian pemrosesan bahasa alami sangat

bergantung pada pembelajaran mesin .

Paradigma pembelajaran mesin lebih suka menggunakan inferensi

statistik untuk secara otomatis mempelajari aturan seperti itu melalui

analisis korpora besar contoh dunia nyata yang khas ( corpus (jamak,

"korpora") adalah seperangkat dokumen, mungkin dengan anotasi manusia

atau komputer ).

Banyak kelas berbeda dari algoritma pembelajaran mesin telah

diterapkan pada tugas pemrosesan bahasa alami. Algoritma ini mengambil

sebagai input serangkaian besar "fitur" yang dihasilkan dari input

data. Beberapa algoritma yang paling awal digunakan, seperti pohon

keputusan , menghasilkan sistem aturan sulit jika-maka mirip dengan

sistem aturan tulisan tangan yang kemudian umum. Namun, semakin

banyak penelitian yang berfokus pada model statistik , yang membuat

keputusan yang lunak dan probabilistik berdasarkan pada menempelkan

bobot bernilai nyata ke setiap fitur input. Model semacam ini memiliki

keunggulan karena dapat mengekspresikan kepastian relatif dari berbagai

kemungkinan jawaban yang berbeda daripada hanya satu, menghasilkan

hasil yang lebih andal ketika model tersebut dimasukkan sebagai

komponen sistem yang lebih besar.

15
Sistem yang didasarkan pada algoritma pembelajaran mesin

memiliki banyak keunggulan dibandingkan aturan yang diproduksi sendiri:

a) Prosedur pembelajaran yang digunakan selama pembelajaran

mesin secara otomatis fokus pada kasus-kasus yang paling

umum, sedangkan ketika menulis aturan dengan tangan

seringkali sama sekali tidak jelas di mana upaya harus

diarahkan.

b) Prosedur pembelajaran otomatis dapat menggunakan algoritma

statistik-inferensi untuk menghasilkan model yang kuat untuk

input yang tidak dikenal (misalnya berisi kata-kata atau struktur

yang belum pernah dilihat sebelumnya) dan untuk input yang

salah (misalnya dengan kata-kata yang salah eja atau kata-kata

dihilangkan secara tidak sengaja). Secara umum, menangani

input seperti itu dengan anggun dengan aturan tulisan tangan,

atau, lebih umum, menciptakan sistem aturan tulisan tangan

yang membuat keputusan lunak, sangat sulit, rawan kesalahan

dan memakan waktu.

c) Sistem yang didasarkan pada pembelajaran aturan secara

otomatis dapat dibuat lebih akurat hanya dengan memasok

lebih banyak data input. Namun, sistem berdasarkan aturan

tulisan tangan hanya dapat dibuat lebih akurat dengan

meningkatkan kompleksitas aturan, yang merupakan tugas

yang jauh lebih sulit. Secara khusus, ada batasan kompleksitas

sistem berdasarkan aturan buatan tangan, di luar itu sistem

menjadi semakin tidak terkelola. Namun, membuat lebih

16
banyak data untuk dimasukkan ke sistem pembelajaran mesin

hanya memerlukan peningkatan yang sesuai dalam jumlah jam

kerja, umumnya tanpa peningkatan signifikan dalam

kompleksitas proses penjelasan.

4. Evaluasi dan Tugas Utama

Berikut ini adalah daftar dari beberapa tugas yang paling sering

diteliti dalam pemrosesan bahasa alami. Beberapa dari tugas ini memiliki

aplikasi langsung di dunia nyata, sementara yang lain lebih umum

berfungsi sebagai subtugas yang digunakan untuk membantu

menyelesaikan tugas yang lebih besar.

Meskipun tugas-tugas pemrosesan bahasa alami saling terkait,

mereka sering dibagi menjadi beberapa kategori untuk

kenyamanan. Pembagian kasar diberikan di bawah ini.

1. Fonetik dan Fonologi

Fonologi adalah ilmu tentang perbendaharaan bunyi-

bunyi (fonem) bahasa dan distribusinya. Fonologi diartikan sebagai

kajian bahasa yang mempelajari tentang bunyi-bunyi bahasa yang

diproduksi oleh alat ucap manusia.. Bidang kajian fonologi adalah

bunyi bahasa sebagai satuan terkecil dari ujaran dengan gabungan

bunyi yang membentuk suku kata.

Asal kata fonologi, secara harfiah sederhana, terdiri dari

gabungan kata fon (yang berarti bunyi) dan logi (yang berarti

ilmu). Dalam khazanah bahasa Indonesia, istilah fonologi merupakan

turunan kata dari bahasa Belanda, yaitu fonologie.

17
Fonologi terdiri dari 2 (dua) bagian, yaitu Fonetik dan Fonemik.

Fonologi berbeda dengan fonetik. Fonetik mempelajari bagaimana

bunyi-bunyi fonem sebuah bahasa direalisasikan atau dilafalkan.

Fonetik juga mempelajari cara kerja organ tubuh manusia, terutama

yang berhubungan dengan penggunaan dan pengucapan bahasa.

Dengan kata lain, fonetik adalah bagian fonologi yang mempelajari

cara menghasilkan bunyi bahasa atau bagaimana suatu bunyi bahasa

diproduksi oleh alat ucap manusia. Sementara itu, Fonemik adalah

bagian fonologi yang mempelajari bunyi ujaran menurut fungsinya

sebagai pembeda arti.

Ada 3 (tiga) unsur penting ketika organ ucap manusia

memproduksi bunyi atau fonem, yaitu:

 udara - sebagai penghantar bunyi,

 artikulator - bagian alat ucap yang bergerak, dan

 titik artikulasi (disebut juga artikulator pasif) - bagian

alat ucap yang menjadi titik sentuh artikulator.

Ada beberapa istilah lain yang berkaitan dengan fonologi, antara

lain: fona, fonem, vokal, dan konsonan. Fona adalah bunyi ujaran

yang bersifat netral atau masih belum terbukti membedakan arti,

sedangkan fonem adalah satuan bunyi ujaran terkecil yang

membedakan arti.

Variasi fonem karena pengaruh lingkungan yang dimasuki

disebut alofon. Gambar atau lambang fonem dinamakan huruf, jadi

18
fonem berbeda dengan huruf. Variasi ini terdiri dari: vokal, konsonan,

diftong (vokal rangkap), dan kluster (konsonan rangkap).

Vokal adalah fonem yang dihasilkan dengan menggerakkan

udara keluar tanpa rintangan. Dalam bahasa, khususnya bahasa

Indonesia, terdapat huruf vokal. Huruf vokal merupakan huruf-huruf

yang dapat berdiri tunggal dan menghasilkan bunyi sendiri. Huruf

vokal terdiri atas: a, i, u, e, dan o. Huruf vokal sering pula disebut

huruf hidup.

Konsonan adalah fonem yang dihasilkan dengan menggerakkan

udara keluar dengan rintangan. Dalam hal ini, yang dimaksud dengan

rintangan adalah terhambatnya udara keluar oleh adanya gerakan atau

perubahan posisi artikulator. Terdapat pula istilah huruf konsonan,

yaitu huruf-huruf yang tidak dapat berdiri tunggal dan membutuhkan

keberadaan huruf vokal untuk menghasilkan bunyi. Huruf konsonan

tersebut terdiri atas: b, c, d, f, g, h, j, k, l, m, n, p, q, r, s, t, v, w, x, y,

dan z. Huruf konsonan sering pula disebut sebagai huruf mati.

2. Morfologi

Yaitu pengetahuan tentang kata dan bentuknya dimanfaatkan

untuk membedakan satu kata dengan lainnya. Pada tingkat ini juga

dapat dipisahkan antara kata dan elemen lain seperti tanda baca.

Contoh kata going :

Going (word)

Go (root)

Ing (suffix)

19
Kata understand :

Stand (prefix)

Stand (root)

3. Sintaksis

Sintaksis : yaitu pemahaman tentang urutan kata dalam

pembentukan kalimat dan hubungan antar kata tersebut dalam proses

perubahan bentuk dari kalimat menjadi bentuk yang sistematis.

Meliputi proses pengaturan tata letak suatu kata dalam kalimat akan

membentuk kalimat yang dapat dikenali. Selain itu dapat pula dikenali

bagian - bagian kalimat dalam suatu kalimat yang lebih besar. Sebagai

contoh kalimat S dibentuk dari noun phrase (NP) dan verb phrase (VP)

Ø S -> NP,VP

Dan berikutnya :

Ø NP -> DET,N

Ø VP -> V,NP

1. Induksi tata bahasa [13]

Hasilkan tata bahasa formal yang menggambarkan sintaksis

bahasa.

2. Lemmatization

Tugas menghapus ujung infleksi saja dan mengembalikan

bentuk kamus dasar dari sebuah kata yang juga dikenal sebagai

lemma.

3. Segmentasi morfologis

Pisahkan kata-kata menjadi morfem individual dan

identifikasi kelas morfem tersebut. Kesulitan tugas ini sangat

20
tergantung pada kompleksitas morfologi (yaitu struktur kata) dari

bahasa yang sedang dipertimbangkan. Bahasa Inggris memiliki

morfologi yang cukup sederhana, terutama morfologi infleksional ,

dan oleh karena itu sering mungkin untuk mengabaikan tugas ini

sepenuhnya dan hanya memodelkan semua bentuk kata yang

mungkin (misalnya "buka, buka, buka, buka") sebagai kata-kata

terpisah. Dalam bahasa-bahasa

seperti Turki atau Meitei , [14] bahasa India yang

sangat teraglutinasi , bagaimanapun, pendekatan seperti itu tidak

mungkin, karena setiap entri kamus memiliki ribuan bentuk kata

yang mungkin.

4. Penandaan bagian-of-speech

Diberi kalimat, tentukan bagian ucapan ( POS ) untuk setiap

kata. Banyak kata, terutama yang umum, dapat berfungsi sebagai

beberapa bagian ucapan . Misalnya, "buku" bisa menjadi kata

benda ("buku di atas meja") atau kata kerja ("untuk memesan

penerbangan"); "set" dapat berupa kata benda , kata kerja atau kata

sifat ; dan "keluar" dapat menjadi salah satu dari setidaknya lima

bagian pidato yang berbeda. Beberapa bahasa memiliki lebih

banyak ambiguitas daripada yang lain. [ meragukan -

mendiskusikan ] Bahasa dengan sedikit morfologi infleksional ,

seperti bahasa Inggris , sangat rentan terhadap ambiguitas seperti

itu. Bahasa Cina rentan terhadap ambiguitas seperti itu karena ini

adalah bahasa yang kuat selama verbalisasi. Infleksi seperti itu

21
tidak mudah disampaikan melalui entitas yang digunakan dalam

ortografi untuk menyampaikan makna yang dimaksud.

5. Parsing

Tentukan pohon parse (analisis tata bahasa) dari kalimat

yang diberikan. Tata bahasanya untuk bahasa

alami bersifat ambigu dan kalimat tipikal memiliki banyak

kemungkinan analisis. Faktanya, mungkin secara mengejutkan,

untuk kalimat tipikal mungkin ada ribuan potensi parse (yang

sebagian besar akan tampak sama sekali tidak masuk akal bagi

manusia). Ada dua jenis penguraian, Parsing Ketergantungan dan

Parsing Konstituensi. Dependency Parsing berfokus pada

hubungan antara kata-kata dalam sebuah kalimat (menandai hal-hal

seperti Objek Utama dan predikat), sedangkan Parsing Konstituensi

berfokus pada membangun Pohon Parse menggunakan Tata Bahasa

Bebas Konteks Probabilistik (PCFG). Lihat juga: Tata bahasa

stokastik .

6. Pemutusan kalimat (juga dikenal sebagai disambiguasi batas

kalimat )

Diberikan sepotong teks, temukan batas kalimat. Batas

kalimat sering ditandai dengan titik atau tanda baca lain, tetapi

karakter yang sama ini dapat digunakan untuk tujuan lain

(misalnya menandai singkatan ).

7. Stemming

22
Proses mengurangi infleksi kata-kata (atau kadang-kadang

berasal) ke bentuk akar mereka. (mis. "tutup" akan menjadi root

untuk "tertutup", "tutup", "tutup", "lebih dekat" dll.).

8. Segmentasi kata

Pisahkan potongan teks kontinu menjadi kata-kata yang

terpisah. Untuk bahasa seperti bahasa Inggris , ini cukup sepele,

karena kata-kata biasanya dipisahkan oleh spasi. Namun, beberapa

bahasa tertulis seperti Cina , Jepang dan Thailand tidak menandai

batas kata dengan cara seperti itu, dan dalam bahasa-bahasa itu

segmentasi teks adalah tugas penting yang membutuhkan

pengetahuan tentang kosa kata dan morfologi kata-kata dalam

bahasa tersebut. Terkadang proses ini juga digunakan dalam kasus-

kasus seperti pembuatan Bag of Words (BOW) dalam

penambangan data.

9. Ekstraksi terminologi

Tujuan dari ekstraksi terminologi adalah untuk secara

otomatis mengekstrak istilah yang relevan dari korpus yang

diberikan.

4. Semantik

yaitu pemetaan bentuk struktur sintaksis dengan memanfaatkan

tiap kata ke dalam bentuk yang lebih mendasar dan tidak tergantung

struktur kalimat. Semantik mempelajari arti suatu kata dan bagaimana

dari arti kata - arti kata tersebut membentuk suatu arti dari kalimat

23
yang utuh. Dalam tingkatan ini belum tercakup konteks dari kalimat

tersebut.

1. Semantik leksikal

Apa arti komputasi dari kata-kata individual dalam konteks?

2. Semantik distribusi

Bagaimana kita bisa belajar representasi semantik dari data?

3. Mesin penerjemah

Terjemahkan teks secara otomatis dari satu bahasa manusia

ke bahasa manusia lainnya. Ini adalah salah satu masalah yang

paling sulit, dan merupakan anggota dari kelas masalah yang secara

sehari-hari disebut " AI-complete ", yaitu membutuhkan semua

jenis pengetahuan yang berbeda yang dimiliki manusia (tata

bahasa, semantik, fakta tentang dunia nyata, dll. .) untuk

menyelesaikan dengan benar.

4. Pengenal entitas bernama (NER)

Diberikan aliran teks, tentukan item mana dalam peta teks

untuk nama yang tepat, seperti orang atau tempat, dan apa tipe dari

masing-masing nama tersebut (misalnya orang, lokasi,

organisasi). Meskipun kapitalisasi dapat membantu dalam

mengenali entitas yang disebutkan dalam bahasa seperti bahasa

Inggris, informasi ini tidak dapat membantu dalam menentukan

jenis entitas yang dinamai, dan dalam kasus apa pun seringkali

tidak akurat atau tidak memadai. Sebagai contoh, huruf pertama

dari sebuah kalimat juga ditulis dengan huruf kapital, dan entitas

yang dinamai sering span beberapa kata, hanya beberapa yang

24
ditulis dengan huruf besar. Selain itu, banyak bahasa lain dalam

skrip non-Barat (mis. Bahasa Cina atau Arab ) tidak memiliki huruf

besar sama sekali, dan bahkan bahasa dengan huruf besar mungkin

tidak secara konsisten menggunakannya untuk membedakan

nama. Misalnya, bahasa Jerman menggunakan huruf kapital

semua kata benda , terlepas dari apakah itu nama,

dan Prancis dan Spanyol tidak menggunakan huruf besar nama

yang berfungsi sebagai kata sifat .

5. Generasi bahasa alami

Ubah informasi dari basis data komputer atau maksud

semantik menjadi bahasa manusia yang mudah dibaca.

6. Pemahaman bahasa alami

Ubah potongan teks menjadi representasi yang lebih formal

seperti struktur logika orde pertama yang lebih mudah untuk

dimanipulasi oleh program komputer . Pemahaman bahasa alami

melibatkan identifikasi semantik yang dimaksudkan dari beberapa

semantik yang mungkin yang dapat diturunkan dari ekspresi bahasa

alami yang biasanya mengambil bentuk notasi terorganisir dari

konsep bahasa alami. Pengantar dan penciptaan metamodel dan

ontologi bahasa adalah solusi yang efisien namun

empiris. Formalisasi eksplisit semantik bahasa alami tanpa

kebingungan dengan asumsi implisit seperti asumsi dunia

tertutup (CWA) vs asumsi dunia terbuka , atau subjektif Ya / Tidak

vs tujuan Benar / Salah diharapkan untuk pembangunan dasar

formalisasi semantik . [15]

25
7. Pengenalan karakter optis (OCR)

Diberikan gambar yang mewakili teks cetak, tentukan teks

yang sesuai.

8. Menjawab pertanyaan

Diberi pertanyaan bahasa manusia, tentukan

jawabannya. Pertanyaan umum memiliki jawaban benar yang

spesifik (seperti "Apa ibukota Kanada?"), Tetapi terkadang

pertanyaan terbuka juga dipertimbangkan (seperti "Apa arti

hidup?"). Karya terbaru telah melihat pertanyaan yang lebih

kompleks. [16]

9. Mengakui entualment tekstual

Diberikan dua fragmen teks, tentukan apakah yang satu benar

melibatkan yang lain, melibatkan negasi yang lain, atau biarkan

yang lain benar atau salah. [17]

10. Ekstraksi hubungan

Diberikan sepotong teks, identifikasi hubungan antara entitas

yang disebutkan (misalnya siapa yang menikah dengan siapa).

11. Analisis sentimen (lihat juga analisis sentimen multimoda )

Ekstrak informasi subjektif biasanya dari kumpulan

dokumen, sering menggunakan ulasan online untuk menentukan

"polaritas" tentang objek tertentu. Ini sangat berguna untuk

mengidentifikasi tren opini publik di media sosial, untuk tujuan

pemasaran.

12. Segmentasi dan pengenalan topik

26
Diberikan potongan teks, pisahkan ke dalam segmen yang

masing-masing dikhususkan untuk suatu topik, dan identifikasi

topik dari segmen tersebut.

13. Disambiguasi arti kata

Banyak kata memiliki lebih dari satu makna ; kita harus

memilih makna yang paling masuk akal dalam konteks. Untuk

masalah ini, kami biasanya diberikan daftar kata dan indra kata

yang terkait, misalnya dari kamus atau dari sumber online

seperti WordNet .

5. Pragmantik

pengetahuan pada tingkatan ini berkaitan dengan masing – masing

konteks yang berbeda tergantung pada situasi dan tujuan pembuatan

system

6. Discourse Knowledge

melakukan pengenalan apakah suatu kalimat yang sudah dibaca dan

dikenali sebelumnya akan mempengaruhi arti dari kalimat selanjutnya.

Informasi ini penting diketahui untuk melakukan pengolahan arti

terhadap kata ganti orang dan untuk mengartikan aspek sementara dari

informasi.

7. World Knowledge

World Knowledge : mencakup arti sebuah kata secara umum dan

apakah ada arti khusus bagi suatu kata dalam suatu percakapan dengan

konteks tertentu.

27
5. Aplikasi Dalam Bidang Natural Languague

Secara umum, Jenis aplikasi yang bisa dibuat dalam bidang ilmu

NLP terbagi dua, yaitu text-based application dan dialogue-based

application.

Text-based application adalah segala macam aplikasi yang

melakukan proses terhadap teks tertulis seperti misalnya dokumen, e-

mail, buku dan sebagainya.

Dialogue-based application melibatkan bahasa lisan atau pengenalan

suara, akan tetapi bisa juga memasukan interaksi dialog dengan

mengetikkan teks pertanyaan melalui keyboard.

Jenis Text-Based Application

1. Programs for classifying and retrieving documents by content

Program yang mampu mengklasifikasi dan mengambil isi

dari suatu dokumen berdasarkan kontennya. Seperti spam

filtering (pemfilteran pesan sampah), language identification

(identifikasi bahasa), dan lain-lain.

2. Machine Translation

Program yang mampu mentranslate kalimat baik berupa

teks maupun suara dari satu bahasa alami ke bahasa lainnya.

Contoh :

1. Google Translate

28
Google Terjemahan[1] (bahasa Inggris: Google

Translate) adalah layanan yang disediakan oleh Google

Inc. untuk menerjemahkan bagian teks atau halaman

web dalam satu bahasa ke bahasa lain. Untuk beberapa

bahasa, pengguna diminta untuk memberikan

terjemahan alternatif, seperti untuk istilah teknis, yang

akan dimasukkan untuk pembaruan dalam proses

penerjemahan selanjutnya.

Tidak seperti layanan terjemahan lain

seperti Babel Fish dan AOL yang

menggunakan SYSTRAN, Google menggunakan

perangkat lunak terjemahan sendiri.

Google Terjemahan, seperti alat terjemahan

otomatis lain, memiliki beberapa keterbatasan.

Meskipun dapat membantu pembaca untuk memahami

isi umum dari teks bahasa asing, tetapi tidak

memberikan terjemahan akurat.

Google melakukan penerjemahkan dengan

pendekatan yang disebut penerjemahan berdasar

statistik. Penerjemahan demikian merupakan hasil

penelitian Franz-Josef Och yang telah memenangkan

kontes DARPA untuk kecepatan mesin terjemahan

pada tahun 2003. Sekarang Och menjadi kepala

departemen mesin penerjemah Google.

29
Menurut Och, untuk mengembangkan sistem

mesin penerjemah berdasar statistik bagi dua bahasa

diperlukan suatu koleksi teks paralel dalam dua bahasa

tersebut yang terdiri lebih dari satu juta kata dan dua

koleksi teks lainnya untuk masing-masing bahasa yang

terdiri lebih dari satu miliar kata. Model statistik dari

data ini kemudian digunakan untuk melakukan

penerjemahan antar bahasa-bahasa tersebut.

Untuk memperoleh data linguistik dalam jumlah

sangat besar ini, Google menggunakan dokumen-

dokumen Perserikatan Bangsa-Bangsa.

Tersedianya Bahasa Arab dan Tionghoa sebagai

bahasa resmi PBB mungkin menjadi salah satu alasan

mengapa Google Terjemahan pada awalnya difokuskan

pada pembuatan terjemahan antara bahasa Inggris

dengan bahasa-bahasa tersebut, dan bukan, misalnya

dengan Bahasa Jepang atau Jerman, yang bukan

merupakan bahasa resmi di PBB. Perwakilan Google

sangat aktif dalam konferensi lokal di Jepang meminta

para peneliti untuk memberi mereka koleksi teks

paralel.

Mulai 25 September 2008, Google Terjemahan

telah memasukkan Bahasa Indonesia ke dalam pilihan

bahasa yang bisa diterjemahkan.

30
Jenis Dialogue-Based Application

1. Intelligent personal assistant

Perangkat lunak yang mampu melakukan tugas sesuai apa

yang diucapkan oleh pengguna. Serta aplikasi ini memiliki

kemampuan untuk mengakses informasi dari berbagai sumber

online (seperti cuaca, keadaan lalu lintas, berita, saham, dll).

Contohnya adalah :

1. Siri

Siri adalah asisten pribadi pintar yang menolong

Anda menyelesaikan segala sesuatu cukup dengan

meminta. Siri memungkinkan Anda menggunakan suara

Anda untuk mengirim pesan, jadwal pertemuan,

melakukan panggilan telepon, dan lainnya. Tetapi Siri

31
tidak seperti perangkat lunak pengenalan suara

konvensional yang mengharuskan Anda untuk mengingat

kata kunci dan menyebutkan perintah tertentu. Siri

mengerti suara natural Anda

Pada awalnya, Siri diperkenalkan sebagai

aplikasi iOS yang tersedia di App Store oleh Siri Inc, Siri

Inc. kemudian diakuisisi oleh Apple Inc. pada tanggal 28

April 2010. Siri Inc. telah mengumumkan bahwa

perangkat lunak mereka akan tersedia

untuk BlackBerry dan Android ponsel bertenaga, tetapi

dalam upaya pengembangan semua untuk non-Apple

platform dibatalkan setelah akuisisi oleh Apple Inc.

Siri sekarang merupakan bagian integral dari iOS 5,

dan hanya tersedia pada iPhone 4S, yang diluncurkan pada

tanggal 4 Oktober 2011. Meskipun ini hanya tersedia

untuk iPhone 4S, Hacker mampu beradaptasi Siri

di iPhone 4 dan iPod Touch generasi 3 dan 4. Pada 8

November 2011, Apple Inc. mengumumkan bahwa mereka

tidak punya rencana untuk mendukung Siri pada setiap

perangkat yang lebih tua.

2. Google Assistant

32
Google Assistant adalah asisten virtual yang

didukung oleh kecerdasan buatan dan dikembangkan oleh

Google yang terutama tersedia di perangkat seluler dan

perangkat rumah pintar. Tidak seperti Google Now,

Google Assistant dapat terlibat dalam percakapan dua

arah. Google Assistant awalnya memulai debutnya pada

bulan Mei 2016 sebagai bagian dari aplikasi perpesanan

Google Allo, dan pembicara yang diaktifkan suara Google

Home. Setelah periode eksklusif pada telefon pintar Pixel

dan Pixel XL, lalu mulai dikerahkan di perangkat Android

lainnya pada bulan Februari 2017,termasuk telefon pintar

pihak ketiga dan Android Wear, dan dirilis sebagai aplikasi

yang berdiri sendiri pada operasi iOS sistem pada bulan

Mei. Di samping pengumuman perangkat pengembangan

33
perangkat lunak pada bulan April 2017, Google Assistant

telah, dan sedang, diperluas untuk mendukung berbagai

macam perangkat, termasuk mobil dan

Google Assistant adalah evolusi fitur Android yang

dikenal sebagai Google Now, yang memberi informasi

tanpa bertanya.Google Assistant diluncurkan pada Mei

2016 sebagai bagian dari aplikasi perpesanan cerdas

Google Allo. Tidak lama setelah itu, Google Assistant

melakukan lompatan ke ponsel Pixel Google. Google

Assistant hanya tersedia di Pixel line untuk sementara

waktu, tetapi sekarang gratis untuk diunduh bagi siapa pun

yang menggunakan Android 5 Lollipop atau lebih tinggi.

Selain dukungan Android Wear, ada aplikasi Google

Assistant untuk iOS. Dan jajaran speaker pintar google

Home didukung oleh Google Assistant juga.[1]

Meski hanya tersedia eksklusif di Pixel, kehadiran

asisten virtual ini cukup mencuri perhatian karena

memiliki kemampuan yang lebih baik ketimbang

pendahulunya, Google Now. Namun Google ternyata

menjawab rasa penasaran sebagian besar pengguna telefon

pintar Android. Akhir Februari 2017, raksasa internet itu

pun memastikan kehadiran Google Assistant untuk

pengguna Android selain Pixel. Setelah lama dinanti,

Google Assistant akhirnya tersedia dalam bahasa

Indonesia.

34
3. Microsoft Cortana

Microsoft Cortana (atau disebut Cortana) adalah

aplikasi asisten pribadi cerdas yang dikembangkan

oleh Microsoft untuk Windows Phone

8.1 maupun Windows 10 (dahulu menggunakan Bing

Mobile) , Microsoft Band, dan Windows 10. Aplikasi ini

akan hadir untuk iOS, Android, dan Xbox One.

Pengembangan Cortana dimulai pada tahun 2009 di

Microsoft Speech Product Team dengan manajer

umum Zig Serafin dan chief scientist Larry Heck. Heck

dan Serafin menetapkan visi, misi, dan rencana jangka

panjang untuk teknologi asisten pribadi digital Microsoft,

lalu mereka membangun sebuah tim untuk

membuat prototipe awal Cortana

Cortana memiliki kemampuan untuk mengatur

pengingat, mengenali suara secara alami, dan menjawab

pertanyaan menggunakan informasi dari Bing.

35
4. Bixby Samsung

Pada 20 Maret 2017, Samsung mengumumkan

asisten digital bertenaga suara bernama "Bixby". Bixby

diperkenalkan bersama Samsung Galaxy S8 dan S8 + ,

serta Samsung Galaxy Tab A selama acara Samsung

Galaxy Unpacked 2017, yang diselenggarakan pada 29

Maret 2017. Samsung secara resmi meluncurkan Bixby

seminggu. sebelum diluncurkan tetapi hanya muncul

pertama kali selama acara. Bixby juga dapat di-

sideload pada perangkat Galaxy yang lebih lama yang

menjalankan Android Nougat.

Bixby merupakan reboot besar untuk S Voice ,

aplikasi asisten suara Samsung yang diperkenalkan pada

2012 dengan Galaxy S III .

Pada Mei 2017, Samsung mengumumkan bahwa

Bixby akan datang ke lini kulkas Family Hub 2.0,

36
menjadikannya produk non-mobile pertama yang

memasukkan asisten virtual.

Pada bulan Oktober 2017, Samsung mengumumkan

rilis Bixby 2.0 selama konferensi pengembang tahunannya

di San Francisco. Versi baru akan diluncurkan di jajaran

produk terhubung perusahaan, termasuk smartphone, TV,

dan lemari es. Selain itu, pihak ketiga akan diizinkan untuk

mengembangkan aplikasi untuk Bixby menggunakan Kit

Pengembang Samsung.

bixby hadir dengan tiga bagian, yang dikenal

sebagai "Bixby Voice," "Bixby Vision" dan "Bixby

Home".

"Bixby Voice" adalah nama untuk metode

mengaktifkan Bixby dengan memanggilnya atau menekan

tombol Bixby yang terletak di bawah volume

rocker. Beberapa saat sebelum rilis ponsel, Tombol Bixby

diprogram ulang dan dapat diatur untuk membuka aplikasi

atau asisten lain, seperti Google Assistant . Namun, di

dekat rilis ponsel, kemampuan ini dihapus dengan

pembaruan firmware, tetapi dapat dipetakan ulang

menggunakan aplikasi pihak ketiga. "Bixby Vision"

adalah kamera augmented reality yang dapat

mengidentifikasi objek secara real time dan berpotensi

menawarkan pengguna untuk membelinya secara online,

menerjemahkan teks, membaca kode QR, dan mengenali

37
landmark. "Bixby Home" adalah daftar informasi vertikal

yang dapat berinteraksi dengan Bixby, [ klarifikasi

diperlukan ] misalnya, cuaca, aktivitas kebugaran, dan

tombol untuk mengendalikan gadget rumah pintar mereka.

Pada awalnya Bixby mendukung tiga bahasa:

Inggris, Korea dan Cina. Ini juga mendukung pencarian

kontekstual dan pencarian visual.

Samsung melaporkan bahwa Bixby tidak akan

beroperasi pada versi AS dari Samsung Galaxy S8 dan S8

+ ketika perangkat pertama kali dikirim ke pelanggan pada

21 April 2017. Samsung menyatakan bahwa fitur utama

Bixby, termasuk Vision, Home dan Reminder, akan

menjadi tersedia dengan peluncuran global

smartphone. Bixby Voice dimaksudkan untuk tersedia

di AS pada Galaxy S8 dan S8 + nanti pada musim semi

itu. Namun, rilis versi bahasa Inggris ditunda karena

Samsung memiliki masalah untuk membuat Bixby

memahami sepenuhnya bahasa tersebut.

Pada April 2018, Bixby tersedia di lebih dari 195

negara, tetapi hanya dalam bahasa Korea, Inggris (hanya

AS), dan Cina (Mandarin). Versi Cina Bixby hanya

tersedia di perangkat yang secara resmi dijual di Daratan

China. Bixby Korea diluncurkan pada 1 Mei 2017 (KST).

Pada Desember 2018, Samsung telah menggunakan

fungsi perintah suara Bixby dalam bahasa Prancis

38
Pada 20 Februari 2019 Samsung mengumumkan

penambahan bahasa lebih lanjut: Inggris (Inggris), Jerman,

Italia, dan Spanyol (Spanyol).

5. Chatbot

Chatterbot (disebut juga chatbot atau bots) adalah

sebuah program komputer yang dirancang untuk

menyimulasikan percakapan intelektual dengan satu atau lebih

manusia baik secara audio maupun teks.

Pada mulanya, program komputer (bots) ini diuji melalui

Turing Test, yaitu dengan merahasiakan identitasnya

sebagai mesin sehingga dapat mengelabui orang yang

bercakap-cakap dengannya. Jika pengguna tidak dapat

mengidentifikasi bots sebagai suatu program komputer,

maka chatterbot tersebut dikategorikan sebagai kecerdasan

buatan (atau artificial intelligence). Dewasa

ini, chatterbot telah dimanfaatkan untuk tujuan praktis seperti

bantuan online, layanan personal, atau akuisisi informasi,

dalam hal ini dapat dilihat fungsi program sebagai suatu jenis

agen percakapan (atau conversational agent). Yang

membedakan chatterbot dengan sistem pemrosesan bahasa

alami (atau Natural Language Processing System) adalah

kesederhanaan algoritme yang digunakan.

39
Meskipun banyak bots yang tampaknya dapat

mengartikan dan menanggapi input manusia,

sebenarnya bots tersebut hanya memindai kata kunci dalam

input dan membalasnya dengan kata kunci yang paling cocok,

atau pola kata-kata yang paling mirip dari basis data tekstual.

Istilah “Chatterbot” sendiri pertama kali dikemukakan

oleh Michael Mauldin (pencipta verbot pertama, Julia) pada

tahun 1994 untuk mendeskripsikan program percakapan ini.

Pada tahun 1950, Alan Turing mempublikasikan artikel

terkenalnya “Computing Machinery and Intelligence”,[2] yang

mengemukakan tes Turing sebagai suatu kriteria kecerdasan.

Kriteria ini bergantung pada kemampuan program komputer

untuk meniru manusia dalam suatu percakapan tertulis waktu

nyata (real-time) dengan manusia sebagai penilai; apakah

program komputer tersebut cukup baik sehingga manusia tidak

dapat membedakan –berdasarkan isi percakapannya saja-

sedang berhadapan dengan program komputer atau manusia

nyata. Pengujian ini terkait dengan minat Turing terhadap

ELIZA, program yang dipublikasikan oleh Joseph

Weizenbaum pada tahun 1966, yang dapat mengelabui

pengguna hingga mempercayai bahwa mereka sedang

bercakap-cakap dengan manusia nyata.

Kunci metode operasional ELIZA (dicontoh oleh

perancang chatterbot hingga kini) melibatkan rekognisi

dari isyarat kata-kata atau kalimat pada input, dan output

40
berupa tanggapan yang telah dipersiapkan atau diprogram,

yang dapat meneruskan percakapan dengan suatu cara

sehingga tampak bermakna (misalnya, menanggapi input yang

mengandung kata ‘MOTHER’ dengan ‘TELL ME MORE

ABOUT YOUR FAMILY’). Jadi terciptalah suatu ilusi

pemahaman dimana pengolahan yang terlibat tidak sampai

pada pemaknaan. ELIZA menunjukka ilusi tersebut yang

entah bagaimana dinilai “cerdas” oleh manusia. Teknik kunci

di sini – yang menjadi karakteristik

program chatterbot dibandingkan dengan sistem pemrosesan

bahasa alami yang serius adalah produksi respons yang cukup

jelas namun tidak spesifik. Penekanan biasanya pada

ketidakjelasan daripada menyampaikan informasi asli.

Baru-baru ini, perancang antarmuka (atau interface)

telah menghargai kesiapan manusia dalam menafsirkan

output komputer sebagai percakapan yang sebenarnya, bahkan

ketika program sebenarnya didasarkan pada pencocokan pola

sederhana. Hal ini dapat diberdayakan untuk tujuan yang

bermanfaat. Banyak orang lebih memilih berkonsultasi pada

program yang menyerupai manusia ini, dan hal ini

memberikan chatterbot ruang untuk berkembang dalam

fungsi-fungsi sistem interaktif dalam memberikan informasi

pada pengguna –selama informasinya bersifat langsung dan

dapat dikategorikan. Misalnya, sistem bantuan online kini

banyak menggunakan teknik chatterbot dalam

41
mengidentifikasi area bantuan yang dibutuhkan pengguna,

memberikan kesan “ramah” pada interface daripada sistem

menu bantuan formal.

Bots yang nyata mendeskripsikan fenomena ini

contohnya Depression 2.0, yaitu chatterbot dengan program

komputer berdasar pada model-model teori ilmu

psikologi yang dapat memberikan solusi masalah psikologis

pada pengguna.

Sejarah klasik dari chatterbot awal adalah ELIZA

(1966) dan PARRY (1972). Program yang baru-baru saja

dikembangkan yaitu A.L.I.C.E, Jabberwacky dan D.U.D.E.

Pada masanya, ELIZA dan PARRY digunakan untuk

menstimulasi percakapan tertulis, namun

banyak chatterbot kini mendukung fitur fungsional seperti

permainan dan kemampuan pencarian website. Tahun 1984,

sebuah buku berjudul The Policeman’s Beard is Half

Constructed dipublikasikan. Buku ini diduga ditulis oleh

sebuah chatterbot Racter –walaupun program ini dirilis untuk

tidak mampu melakukannya.

Salah satu penelitian penting di bidang kecerdasan

buatan (AI) adalah pemrosesan bahasa alami (atau Natural

Language Processing). Biasanya, bidang AI lemah

memberdayakan perangkat lunak (atau software) khusus atau

bahasa pemrograman yang dibuat secara spesifik dengan

fungsi yang lebih sempit. Contohnya, A.L.I.C.E menggunakan

42
bahasa pemrograman yang disebut sebagai AIML yang

fungsinya spesifik yaitu sebagai agen percakapan, yang

selanjutnya banyak diadopsi oleh pengembang Alicebots lain.

Meskipun demikian, A.L.I.C.E masih murni berdasarkan

teknik pencocokan pola tanpa kemampuan penalaran –teknik

yang sama yang digunakan ELIZA pada tahun 1966. Berbeda

dengan AI kuat, yang membutuhkan cita rasa dan kemampuan

penalaran logis.

Jabberwacky mempelajari respons baru dan berbasis

pada konteks interaksi pengguna waktu nyata (atau real-time),

bukan dengan digerakan basis data statis.

Beberapa chatterbot terbaru juga mengkombinasikan

pembelajaran waktu nyata dengan algoritme evolusioner yang

mengoptimalkan kemampuan komunikasi berbasis

percakapannya, dengan contoh populernya yaitu Kyle,

pemenang Penghargaan Leodis AI 2009. Meskipun, saat ini

belum ada tujuan umum percakapan kecerdasan buatan, dan

beberapa pengembang perangkat lunak berfokus pada aspek

praktis, pengambilan informasi (atau information retrieval).

Sistem percakapan otomatis kini telah berkembang, dan

perusahaan-perusahaan sudah menggunakan sitem-sistem

tersebut untuk membantu call center memberikan panduan

kontak. Chatterbot pun sudah dimplementasikan

melalui jejaring sosial, seperti twitter dan Windows Live

Messenger.

43
Portal online populer seperti eBay dan PayPal juga

menggunakan agen virtual multi bahasa untuk memudahkan

penggunanya. Misalnya, PayPal

menggunakan chatterbot Louise untuk menangani query

dalam bahasa Inggris dan chatterbot Lea untuk query dalam

bahasa Prancis. Dikembangkan oleh VirtuOz, kedua agen

tersebut menangani 400.000 percakapan setiap bulan setelah

difungsikan pada September 2008 di situs PayPal. Pada tahun

2017, SnatchBot, sebuah perusahaan Israel, meluncurkan situs

web pembuatan chatbot yang menyatakan memiliki

kemampuan membangun bot dengan analisis sentimen.

Contoh dari Chatbot :

1. Duolingo

Duolingo merupakan platform dan layanan

pembelajaran bahasa yang sangat populer dimana telah

membantu jutaan pengguna di seluruh dunia

mempelajari bahasa baru dan terhubung dengan orang

lain. Duolingo baru saja meningkatkan kemampun

pembelajaran bot mereka dengan merilis beberapa

tutor bahasa virtual yang dibuat untuk membantu

peserta didik berlatih tanpa tekanan.

Bot Duolingo terus berkembang menjadi lebih

baik seiring waktu saat pengguna mengobrol dengan

mereka. Walaupun AI yang mereka miliki masih jauh

44
dari beberapa AI terbaik yang ada, namun seiring

berjalanya waktu kemungkinan besar mereka akan

menyamai kemampuan AI terbaik lainnya.

2. Gymbot

Setiap orang yang pernah mencoba mengikuti rencana

latihan olahraga tahu betapa susahnya untuk mencatat

semua sets, reps, weights, dan exercise yang dilakukan.

Metode lama masih menggunakan pena dan kertas

ditambah dengan beberapa perhitungan matematika,

dan sekarang kita bisa menggunakan metode yang

melibatkan GymBot, bot Messenger Facebook yang

melacak latihan olahraga kamu. Untuk menggunakan

bot ini, kamu cukup membuka aplikasi Messenger,

mengirim pesan kepada GymBot dengan statistik

latihan kamu, dan GymBot akan mencatat jurnal

latihan kamu

3. Cleverbot

Tidak ada yang lebih baik bagaimana memulai daftar

aplikasi chatbot AI terbaik ini dengan sesuatu yang

berhubungan dengan percakapan manusia. Cleverbot

hampir mendekati sempurna saat tes Turing pada

festival Techniche 2011, dengan hanya memiliki

beberapa persen perbedaan bila dibandingkan dengan

percakapan asli yang dilakukan manusia.

4. Chatterbot

45
Digunakan untuk menghasilkan respon otomatis

terhadap masukan pengguna, ChatterBot berisi library

Python yang membuatnya sangat mudah bagi

pengembang aplikasi untuk membuat bot chat sendiri.

Aplikasi AI yang dibuat dengan menggunakan

ChatterBox dapat dilatih untuk berbicara bahasa apa

pun. Aplikasi AI tersebut secara alami akan melakukan

perbaikan secara otomatis sepanjang waktu tanpa harus

coding atau update.

Yang membuat ChatterBot hebat dibandingkan dengan

library lain yang digunakan untuk aplikasi AI, adalah

panduan onlinenya uang besar dan mudah dipahami.

Pengembang yang relatif tidak berpengalamanpun

dapat dengan cepat belajar bagaimana membuat

chatbot cerdas yang hampir tidak dapat dibedakan

dengan manusia.

5. Prisma

Prisma telah menempatkan dirinya dijajaran aplikasi

chatbot terbaik setelah membuat fotografi digital

kembali menyenangkan. Bot ini menawarkan pilihan

filter foto yang cukup banyak yang dapat kamu

terapkan hanya dengan mengirimkan gambar kamu ke

bot melalui Telegram dan memberitahunya tentang apa

yang harus dilakukan. Bot ini juga tersedia sebagai

aplikasi smartphone. Aplikasi ini menambahkan fitur

46
pratinjau yang berguna dimana memungkinkan kamu

melihat beberapa filter secara bersamaan.

6. Komponen Utama Natural Languague

1. Parser

Suatu system yang mengambil kalimat input bahasa alami dan

menguraikannya kedalam beberapa bagian gramatikal (kata benda,

kerja, sifat dll)

2. Sistem Representasi Pengetahuan

Suatu system yang menganalisis input untuk menentukan makna

setiap kata

3. Output Translator

Suatu terjemahan yang mempresentasikan system pengetahuan

dan melakukan langkah-langkah yang dapat berupa jawaban atas

bahasa alami atau output khusus sesuai dengan program computer

lainnya

47
7. Analisis NLP

a) Leksikal

Kamus yang mendaftar kata-kata bahasa berdasarkan abjad.

b) Sintak

Metoda penempatan kata-kata didalam urutan tertentu sehingga

suatu kalimat merupakan suatu bentuk bahasa yang benar (berkaitan

dengan grammar)

8. Knowledge Base

Yakni salah satu dari bagian utama dalam aplikasi kecerdasan buatan

yang berisi fakta-fakta, pemikiran dan hubungan.

Basis pengetahuan adalah suatu jenis basis data yang dipergunakan

untuk manajemen pengetahuan. Basis data ini menyediakan fasilitas untuk

koleksi, organisasi, dan pengambilan pengetahuan terkomputeriasai. Hal

ini terpenting dari suatu basis pengetahuan adalah kualitas informasi yang

dikandungnya. Basis pengathuan yang terbaik memiliki artikel-artikel

yang ditulis dengan baik dan dijaga untuk selalu mutakhir, memiliki

system pengammbilan (mesin pencari) yang baik, serta format isi dan

struktur klasifikasi yang dirancang dengan seksama.

Sebuah basis pengetahuan terdiri dari sekian paket data berukuran

besar, deskripsi dari data tersebut (metadata) dan serangkaian besar aturan-

aturan. Secara umum, basis pengetahuan memiliki sifat yang dinamis

dengan kemampuan dan kapasitas untuk belajar, sehingga dekat dengan

topik kecerdasan buatan.

48
Untuk mengelola suatu basis pengetahuan, dibutuhkan suatu system

manajemen basis pengetahuan yang biasanya memiliki kemampuan

sebagai berikut :

1. Membuat kesimpulan berdasarkan aturan-aturan, deskripsi

data, dan fakta untuk menghasilkan informasi yang baru

2. Mekanisme untuk melakukan perbaruan

3. Kemampuan untuk mengoptimalkan query

4. Kemampuan untuk mengintegrasikan beragam basis

pengetahuan

5. Kemampuan untuk menyediakan jawaban yang bersifat

kooperator kepada pengguna

6. Kemampuan untuk melakukan penggalian data, atau penemuan

pengetahuan di dalam basis data

49
BAB III

PENUTUP

A. Kesimpulan

Natural Language Processing (NLP) mengacu pada metode AI untuk

berkomunikasi dengan sistem cerdas dengan menggunakan bahasa alami

seperti bahasa Inggris. Pengolahan Bahasa Alami diperlukan bila Anda

menginginkan sistem cerdas seperti robot untuk melakukansesuai instruksi

Anda

50
DAFTAR PUSTAKA

https://id.wikipedia.org/wiki/Bahasa

https://id.wikipedia.org/wiki/Proses

https://id.wikipedia.org/wiki/Bahasa_alami

https://sis.binus.ac.id/2016/12/15/12113/

51

Anda mungkin juga menyukai