Sentimen Analisis
Sentimen Analisis
Kebijakan tentang
Covid-19 di
Indonesia
My Bio
Experience :
• Data Analyst at Tokopedia
• Data Scientist at Jabar Digital Service
• Data Science Tutor at Shift Academy
• Business Intelligence Analyst at Jabar Digital
Service
www.linkedin.com/in/akbar-maulana/
akbar.maulana2298@gmail.com
bit.ly/sentiment_analysis_covid19
Topics
• What is Machine Learning?
• Type of Machine Learning
• What is Text Mining?
• What is Social Media Analytics?
• About Sentiment Analysis
• Twitter developer account
• Use case example
Objective
• Participants understand sentiment analysis
• Participants understand how to do sentiment analysis in
python
What is Machine Learning?
“The ability of a machine to perform a specific task performed by a
human without being explicitly programmed to perform that task. "
Type of Machine Learning
Type of Machine Learning
Type of Machine Learning
Semi Supervised Learning
General Step
What is Text Mining?
Text Mining is the process of extracting patterns of useful
information and knowledge from a large number of text data
sources, such as Word documents, PDFs, text quotes, etc.
Teks Insight
What is Sentiment Analysis?
Sentimen analisis merupakan salah satu aplikasi dari text mining yang membangun sistem
untuk mengenali dan mengekstraksi opini dalam bentuk teks.
Informasi berbentuk teks saat ini banyak terdapat di internet dalam format forum, blog, media
sosial, serta situs berisi review.
• Otomatis
Labeling menggunakan dictionary atau lexicon based
Preprocessing data
1. Menghapus data yang tidak berhubungan dengan topik.
2. Menghapus HTML link, mention, username, hastag, Retweet, angka, tanda baca, spasi berlebih.
4. Stemming dan lemmatization: merubah kata-kata dalam tweet menjadi bentuk standar atau kata dasar.
6. Tokenization: proses untuk membagi teks yang dapat berupa kalimat, paragraf atau dokumen menjadi
token-token/kata-kata.
No. Output
1. “bangun”, ”infrastruktur”, “dampak”, “baik”, “ milenial”, “jokowi”
2. “Infrastruktur”, ”urgensi”, “tegak”, “ham”, “kualitas”, “lingkungan”, “hidup”,
“kualitas”
Preprocessing data
7. Bag of Words (BoW): cara paling sederhana untuk mengekstrak fitur dari teks. BoW mengubah
teks menjadi matriks kemunculan kata-kata dalam dokumen.
Doc 1: I love dogs.
Doc 2: I hate dogs and knitting.
Doc 3: Knitting is my hobby and passion.
Document-Term Matrix(DTM)
Preprocessing data
7. TF-IDF : Pembobotan kata
Algoritma Naïve Bayes adalah teknik klasifikasi berdasarkan penerapan teorema Bayes
dengan asumsi kuat bahwa semua prediktor tidak bergantung satu sama lain. Dengan
kata sederhana, asumsinya adalah bahwa keberadaan fitur di kelas tidak bergantung pada
keberadaan fitur lain di kelas yang sama.
Modeling
Naive Bayes
P(x|c):
● P(Refund=Yes, Marital Status= Divorced, Income=137K | Evade= Yes )
● P(Refund=Yes, Marital Status= Divorced, Income=137K | Evade= No )
p(c) :
● P(Evade= Yes )
● P(Evade= No)
P(x)
● P(Refund=Yes)*P( Marital Status= Divorced)*P( Income=137K )
Modeling
Naive Bayes
Evaluation
Deployment
Sentiment Analysis Applications
Covid-19 in Indonesia
Let’s Hands On
Thank You