1 Machine Learning
1 Machine Learning
Piramida Data
Problem : deksripsi
Metode : statistik deskriptif
Ilmu Data
Terminologi
• Ilmu data (data science) adalah suatu bidang ilmu interdisipliner yang
menggunakan metode saintifik, proses, algoritma dan sistem untuk
mengekstrak pengetahuan dan wawasan dari data dalam berbagai bentuk,
baik terstruktur maupun tidak terstruktur
• Ilmu data adalah suatu konsep yang
menyatukan statistika, analisis data,
machine learning dan metode terkait
untuk memahami dan menganalisis
fenomena aktual dari data
• Saintis data (data scientist) adalah
profesional pada disiplin ilmu data
dengan kualifikasi tertentu baik melalui
pendidikan maupun pengalaman yang
intens
1
8/10/2019
Ilmu Data
Alur Proses
• ASK an ineteresting question
Apa tujuan santifik
Apa yang akan Anda lakukan jika
memiliki semua data
Apa yang akan ada prediksi atau
estimasi
• GET the data
Bagaimana data disampel
Data mana saja yang relevan
Apakah ada isu privasi
Ilmu Data
Alur Proses
• EXPLORE the data
Plot data
Apakah ada anomali‐anomali
Apakah ada pola‐pola
• MODEL the data
Bangun model
Fit model
Validasi model
2
8/10/2019
Ilmu Data
Alur Proses
• COMMUNICATE and VISUALIZE the
results
Apa yang kita pelajari
Apakah hasilnya masuk akal
Dapatkan kita menjelaskan suatu
cerita
Ilmu Data
Alur Proses
3
8/10/2019
Machine Learning
Definisi
• Machine Learning adalah teknik
artificial intelligence yang dapat
belajar dari data untuk menggali
pengetahuan yang ada pada data
tersebut seperti proses belajar pada
manusia.
• Jika machine learning sudah dianggap
cerdas, maka machine learning dapat
digunakan untuk menggantikan peran
manusia terutama untuk data yang
besar, kompleks atau butuh respon
yang cepat.
http://www.businesscomputingworld.co.uk/wp-
content/uploads/2017/12/Machine-Learning.jpg
Machine Learning
Diagram Alur Proses
4
8/10/2019
Machine Learning
Metode Pembelajaran
• Supervised learning adalah metode pembelajaran untuk
membangun suatu model machine learning, dimana data
training disertai target atau label
Klasifikasi: target berupa kelas atau kategori
Regresi: target berupa nilai
• Unsupervised learning adalah metode pembelajaran untuk
membangun suatu model machine learning, dimana data
training tidak disertai target atau label
Clustering
Reduksi dimensi
10
Supervised Learning
Analisis Sentimen
• Analisis sentimen (sentiment analysis) adalah suatu kegiatan untuk
mendapatkan sentimen atau opini pada data tekstual yang
mencerminakan sentiman atau opini dari autornya tentang entitas‐
entitas tertentu (Cambria, 2013; Feldman, 2013)
• Ketika seseorang akan membeli suatu produk, maka orang tersebut
biasanya ingin mengetahui terlebih dahulu opini dari orang lain tentang
produk tersebut
• Opini terkait suatu produk biasanya menjadi dasar seseorang dalam
memutuskan apakah membeli produk tersebut atau tidak
• Sebaliknya dari sisi produsen, opini terkait suatu produk dapat menjadi
bahan evaluasi terkait produk tersebut
11
5
8/10/2019
Supervised Learning
Analisis Sentimen
• Analisis sentimen dari suatu data tekstual dapat dilakukan secara
manual, yaitu dengan cara membaca konten dari data tekstual
tersebut.
• Frekuensi sentimen positif dan negatif pada suatu koleksi data
dapat digunakan untuk perbandingan sentimen antara entitas
yang menjadi objek kasus
• Akan tetapi, untuk data yang sangat besar seperti data pada
media sosial, cara manual tersebut tidak layak digunakan
• Cara lain adalah menggunakan metode yang memungkinkan
analisis sentimen secara otomatis, yaitu machine learning
12
Supervised Learning
Analisis Sentimen
• Pertama‐tama, suatu metode machine learning dilatih dengan
menggunakan sampel data tekstual yang telah diberi nilai
sentimen secara manual oleh manusia
Tweets Kelas
Jangan plh capres xxx dh ya. Bangun kampung halaman aja dya ga -
bsa, ngarep mau bangun Tanah Air
Eyaaa, coy xxx ada dihati rakyat coy, pilpres rakyat mau xxx jadi +
presiden!!, xxx fenomenal coy !!!
• Selanjutnya, jika estimasi akurasi dari metode machine learning
tersebut cukup baik, maka metode machine learning tersebut
dapat digunakan untuk memprediksi sentimen dari semua data
tekstual yang ada
13
6
8/10/2019
Supervised Learning
Analisis Sentimen
• Pada kasus tertentu, frekuensi hasil prediksi sentimen dapat dibuat dalam
bentuk grafik, misal secara runtun waktu seperti pada gambar berikut:
14
Web Mining
Analisis Sentimen berbasis Big Data
HTTP Request
XML
Trend
http://politiekebarometer.be/ 15
7
8/10/2019
Unsupervised Learning
Pendeteksian Topik
• Pendeteksian topik adalah suatu proses yang digunakan untuk
menganalisis kata‐kata pada suatu koleksi data tekstual untuk
menentukan topik‐topik yang ada pada koleksi tersebut, bagaimana
hubungan topik‐topik tersebut satu sama lainnya, dan bagaimana
mereka berubah dari waktu ke waktu (Blei, 2012)
• Ketika seseorang membaca suatu teks, maka topik adalah hal utama
yang pertama kali ingin diketahui terkait dengan teks tersebut
• Selanjutnya, topik dapat digunakan untuk mengorganisasikan teks,
seperti: mengelompokkan, mengklasifikasikan, serta analisis lanjut
terkait dengan teks tersebut
16
Unsupervised Learning
Pendeteksian Topik
• Pendeteksian topik dari suatu data tekstual dapat dilakukan
secara manual, yaitu dengan cara membaca konten dari data
tekstual tersebut
17
8
8/10/2019
Unsupervised Learning
Pendeteksian Topik
• Akan tetapi, untuk data yang sangat besar seperti data pada
media sosial, cara manual tersebut tidak layak digunakan
• Cara lain adalah menggunakan metode yang memungkinkan
pendeteksian topik secara otomatis, yaitu menggunakan metode
machine learning
18
Unsupervised Learning
Pendeteksian Topik
• Berikut ini adalah contoh topik yang dideteksi dari berita
online pada bulan Agustus tahun 2013
• Suatu topik direpresntasikan oleh 10 kata
widodo joko dki gubernur jokowi jakarta pdip capres calon presiden
pesawat malaysia airlines hilang mas hilangnya ditemukan terbang boeing penumpang
pdip megawati ketua soekarnoputri capres surabaya dpp demokrasi perjuangan rismaharini
madrid real atletico barcelona liga spanyol ronaldo champions ancelotti schalke
liga champions babak leg bayern perempatfinal lolos arsenal munich rabu
presiden calon wakil konvensi jakarta joko widodo indonesia capres pemilihan
ihsg saham indeks gabungan harga perdagangan poin bursa bei menguat
indonesia demokrasi partai perjuangan nasional bank jakarta pdip timnas republik
pemilihan komisi kpu pemilu legislatif politik peserta kampanye partai april
…....
19
9
8/10/2019
Unsupervised Learning
Pendeteksian Topik
20
Unsupervised Learning
Penginderaan Topik berbasis Big Data
HTML Request
XML
Trend
21
10
8/10/2019
Model Machine Learning
• Supervised learning
Support vector machine
Decision tree – ensemble learning (XGBoost)
Neural network ‐ deep learning (CNN, LSTM)
• Unsupervised learning
K‐means, fuzzy C‐means, latent semantics analysis,
nonnegative matrix factorization
Neural network ‐ deep learning (autoencoder)
22
Perangkat Lunak
Python
• Python Distribution
PC: Anaconda
Cloud: Google Colab
• IDE: Jupyter Notebook
• Library
Data Analysis: Pandas
Data Visualization: Seaborn
Machine Learning: Scikit‐learn, XGBoost, Keras
23
11