Natural Language Processing PDF
Natural Language Processing PDF
Language
Processing
Jakarta, 26 September 2019
• Introduction
• NLP Pipeline / tehnik
AGENDA • Praktek
AI
Computer Computational
Science Linguistics
Bahasa
yang tidak
standar
ML
• Supervised
• unsupervised
Persiapan
Data
NLP Pipeline
Data Science Specialisation – Pusdiklat Keuangan Umum 11
Web site
Target text
Any format file
Persiapan Tools
Excel
Text editor
data python
tokenizer
• Memecah kata menjadi list kata
per kalimat
Custom word
• Hapus kata yang tidak removal • Bag of words,
di inginkan dengan merupakan library
bantuan dictionary • Hapus kata yang tidak yang memetakan kata
di inginkan custom) dan jumlahnya pada
sebuah dokumen
Stopword BOW
Word
Removal
Dilakukan karena kata kata ini tidak berarti
bila diproses dan menjadikan penghitungan
probabilitas menjadi tidak seimbang.
Range 5%
Kata dengan
berdasarkan
Stopword jumlah n
jumlah
huruf
dokumen.
Bag of
Biasanya berupa objek
Words Dictionary.
(BoW)
...
• TF-IDF = TF * IDF
Supervised
Regresi
Klasifikasi
Unsupervised
Clustering
Latent Variable Models