Anda di halaman 1dari 3

Nama : Galileo Hadini Prakoso

NIM : 223190010

Jawaban TAS Pemrosesan Bahasa Alami

1. NLP memiliki 2 komponen dasar yaitu Natural Language Understanding dan Natural
Language Generation.
1) NLU merupakan cabang dari NLP yang bertujuan untuk mengembangkan
sistem yang dapat memahami bahasa manusia secara alami, termasuk
dalam bentuk lisan maupun tertulis.
 Phonology adalah cabang linguistik yang mempelajari sistem
bunyi dalam suatu bahasa dan bagaimana bunyi-bunyi tersebut
digunakan untuk membentuk kata dan frasa.
 Morphology adalah tahap dilakukan analisa untuk setiap kata dan
komponen yang dimiliki tiap kata termasuk token non kata seperti
spasi, tanda baca, tanda pemisah.
 Lexical adalah proses pemahaman kata dan makna di dalam teks
dalam bahasa tertentu, dan kemudian digunakan dalam proses
pemrosesan bahasa selanjutnya seperti pengenalan suara,
penerjemahan mesin, atau analisis sentimen.
 Syntactic adalah tahap ini sederetan kata disusun kedalam
struktur yang memperlihatkan bagaimana hubungan satu kata
dengan kata lainnya.
 Semantic adalah tahap struktur deretan kata yang sudah
terbentuk akan diberi arti. Dengan kata lain pemetaan dibuat
antara struktur sintax dengan object yang berhubungan.
 Discourse adalah tahap arti dari suatu kalimat disesuaikan dengan
kalimat-kalimat lain, karena arti dari suatu kalimat biasanya
berhubungan dengan kalimat sebelumnya dan kalimat
sesudahnya.
 Pragmatik adalah struktur yang terbentuk menghasilkan
interpretasi ulang dari apa yang sudah dikatakan atau ditulis
sebelumnya dengan arti yang sebenarnya.

2) NLG merupakan cabang dari NLP yang bertujuan untuk mengembangkan


sistem yang dapat menghasilkan bahasa manusia secara otomatis, baik
dalam bentuk lisan maupun tertulis.
 Speech and generation atau Text-to-Speech (TTS) adalah
teknologi yang mengubah teks menjadi suara yang diucapkan
oleh mesin.
 Components and Levels of Representation yaitu melibatkan
beberapa tugas yang terkait antara lain pemilihan konten,
pengorganisasian teks, pemilihan sumber daya linguistik, dan
realisasi output.
 Application or Speaker, pembicara hanya memulai proses dan
tidak ikut serta dalam pembuatan bahasa.
2. Berdasarkan kedua jurnal tersebut, terdapat beberapa tantangan yang dihadapi
dalam pengembangan NLP.
 masalah memahami bahasa alami. Bahasa alami sangat kompleks dan
bervariasi, sehingga sulit untuk memahaminya dengan akurasi yang tinggi.
 kesulitan dalam memproses bahasa yang tidak terstruktur. Data bahasa
alami yang ditemukan di dunia nyata sering kali tidak terstruktur, seperti data
dari media sosial atau teks yang dihasilkan oleh manusia.
 masalah pemodelan bahasa. Beberapa masalah yang dihadapi adalah
kurangnya data pelatihan yang memadai, kompleksitas model yang sulit
diinterpretasi, dan kesulitan dalam menggabungkan konteks.
 masalah dalam menerapkan NLP pada domain khusus. Setiap domain
memiliki bahasa dan kosakata yang khas, sehingga sulit untuk membuat
model NLP yang cocok untuk semua domain.
 masalah privasi dan keamanan.

3. TF-IDF (Term Frequency-Inverse Document Frequency) adalah metode untuk


mengukur seberapa penting suatu kata dalam sebuah dokumen atau kumpulan
dokumen. Tahapan-tahapan yang dilakukan dalam metode TF-IDF adalah sebagai
berikut:
 Tokenisasi: Dokumen atau teks yang akan dihitung bobotnya dipecah
menjadi token atau unit-unit kecil seperti kata, frasa, atau karakter.
 Menghitung Frekuensi Kemunculan (Term Frequency): Setelah tokenisasi,
frekuensi kemunculan setiap token dalam dokumen dihitung. Frekuensi
kemunculan setiap token dalam dokumen adalah jumlah kemunculan token
tersebut dalam dokumen.
 Menghitung Frekuensi Kemunculan Global (Document Frequency): Frekuensi
kemunculan global token dihitung pada setiap dokumen dalam kumpulan
dokumen.
 Normalisasi: Normalisasi digunakan untuk menyeimbangkan bobot kata
dalam dokumen.

N-Gram merupakan model yang digunakan untuk memprediksi kata berikutnya yang
mungkin dari kata N-1 sebelumnya. Tahapan dari n-gram dapat dijelaskan sebagai
berikut:

 Tokenisasi: teks dimasukkan ke dalam sebuah token atau kata-kata terpisah.


 Pemilihan nilai n: pilih nilai n yang diinginkan (n dapat berupa bilangan bulat
positif).
 Pembuatan n-gram: potongan teks sepanjang n kata dibuat untuk setiap
kemungkinan posisi di dalam teks.
 Penghitungan frekuensi: hitung berapa kali setiap n-gram muncul dalam teks.
 Normalisasi: normalisasikan frekuensi n-gram dengan membaginya dengan
jumlah n-gram dalam teks untuk menghitung probabilitas kemunculannya.
4. Alur dari topic modelling jurnal tersebut:

 Pemodelan topik adalah suatu pendekatan untuk menganalisis teks yang


tidak terstruktur dengan menggunakan pendekatan secara statistik untuk
menemukan topik yang bersifat abstrak pada suatu teks.
 Cara kerja pemodelan topik adalah dengan mengelompokan teks
berdasarkan kemiripannya sehingga dapat menghasilkan topik.
 Pemodelan topik menggunakan pendekatan unsupervised learning, yaitu
memproses korpus dokumen sehingga dapat menghasilkan topik.
 Metode yang digunakan untuk melakukan pemodelan topik adalah Latent
Dirichlet Allocation (LDA), yang merupakan salah satu metode unsupervised
learning probabilistik paling stabil dalam menemukan latern struktur

Anda mungkin juga menyukai