Anda di halaman 1dari 12

Machine Learning

Dr. rer. nat. Hendri Murfi

Data Science Group


Departemen Matematika, FMIPA Universitas Indonesia – Depok 16424
Telp. +62 21 7862719, Fax. +62 21 7863439, Email. hendri@sci.ui.ac.id
8/10/2019

Piramida Data

Problem : prediksi, deteksi, rekomendasi


Metode : machine learning

Problem : deksripsi
Metode : statistik deskriptif

Data terstruktur : tabular


Data tidak terstruktur: gambar, teks, video

Ilmu Data
Terminologi

• Ilmu data (data science) adalah suatu bidang ilmu interdisipliner yang 
menggunakan metode saintifik, proses, algoritma dan sistem untuk 
mengekstrak pengetahuan dan wawasan dari data dalam berbagai bentuk, 
baik terstruktur maupun tidak terstruktur
• Ilmu data adalah suatu konsep yang 
menyatukan statistika, analisis data, 
machine learning dan metode terkait 
untuk memahami dan menganalisis 
fenomena aktual dari data
• Saintis data (data scientist) adalah 
profesional pada disiplin ilmu data 
dengan kualifikasi tertentu baik melalui 
pendidikan maupun pengalaman yang 
intens

1
8/10/2019

Ilmu Data
Alur Proses

• ASK an ineteresting question
 Apa tujuan santifik
 Apa yang akan Anda lakukan jika 
memiliki semua data
 Apa yang akan ada prediksi atau 
estimasi

• GET the data
 Bagaimana data disampel
 Data mana saja yang relevan
 Apakah ada isu privasi

Data Science Process by Joe Blitzstein and Hanspeter


Pfister 4

Ilmu Data
Alur Proses

• EXPLORE the data
 Plot data
 Apakah ada anomali‐anomali
 Apakah ada pola‐pola

• MODEL the data
 Bangun model
 Fit model
 Validasi model

Data Science Process by Joe Blitzstein and Hanspeter


Pfister 5

2
8/10/2019

Ilmu Data
Alur Proses

• COMMUNICATE and VISUALIZE the 
results
 Apa yang kita pelajari
 Apakah hasilnya masuk akal
 Dapatkan kita menjelaskan suatu 
cerita

Data Science Process by Joe Blitzstein and Hanspeter


Pfister 6

Ilmu Data
Alur Proses

3
8/10/2019

Machine Learning
Definisi

• Machine Learning adalah teknik 
artificial intelligence yang dapat 
belajar dari data untuk menggali 
pengetahuan yang ada pada data 
tersebut seperti proses belajar pada 
manusia.

• Jika machine learning sudah dianggap 
cerdas, maka machine learning dapat 
digunakan untuk menggantikan peran 
manusia terutama untuk data yang 
besar, kompleks atau butuh respon 
yang cepat.
http://www.businesscomputingworld.co.uk/wp-
content/uploads/2017/12/Machine-Learning.jpg

Machine Learning
Diagram Alur Proses

 Pra Pengolahan: mengelolah atau


mentransformasikan data sedemikian
sehingga data dapat digunakan atau
menjadi lebih sesuai untuk suatu
model tertentu
 Pemilihan Fitur: mendefinisikan atau
memilih fitur-fitur potensial dari data
 Pemilihan Model: memilih dan fit
model pada sub himpunan data sampel
(data training), serta mengevaluasi
model berdasarkan sub himpunan data
sampel lainnya (data testing)
 Prediksi: menggunakan model akhir
untuk data baru

4
8/10/2019

Machine Learning
Metode Pembelajaran

• Supervised learning adalah metode pembelajaran untuk 
membangun suatu model machine learning, dimana data 
training disertai target atau label
 Klasifikasi: target berupa kelas atau kategori
 Regresi: target berupa nilai

• Unsupervised learning adalah metode pembelajaran untuk 
membangun suatu model machine learning, dimana data 
training tidak disertai target atau label
 Clustering
 Reduksi dimensi
10

Supervised Learning
Analisis Sentimen

• Analisis sentimen (sentiment analysis) adalah suatu kegiatan untuk 
mendapatkan sentimen atau opini pada data tekstual yang 
mencerminakan sentiman atau opini dari autornya tentang entitas‐
entitas tertentu (Cambria, 2013; Feldman, 2013)

• Ketika seseorang akan membeli suatu produk, maka orang tersebut 
biasanya ingin mengetahui terlebih dahulu opini dari orang lain tentang 
produk tersebut

• Opini terkait suatu produk biasanya menjadi dasar seseorang dalam 
memutuskan apakah membeli produk tersebut atau tidak

• Sebaliknya dari sisi produsen, opini terkait suatu produk dapat menjadi 
bahan evaluasi terkait produk tersebut
11

5
8/10/2019

Supervised Learning
Analisis Sentimen

• Analisis sentimen dari suatu data tekstual dapat dilakukan secara 
manual, yaitu dengan cara membaca konten dari data tekstual 
tersebut.  

• Frekuensi sentimen positif dan negatif pada suatu koleksi data  
dapat digunakan untuk perbandingan sentimen antara entitas 
yang menjadi objek kasus

• Akan tetapi, untuk data yang sangat besar seperti data pada 
media sosial, cara manual tersebut tidak layak digunakan

• Cara lain adalah menggunakan metode yang memungkinkan 
analisis sentimen secara otomatis, yaitu machine learning
12

Supervised Learning
Analisis Sentimen

• Pertama‐tama, suatu metode machine learning dilatih dengan 
menggunakan sampel data tekstual yang telah diberi nilai 
sentimen secara manual oleh manusia
Tweets Kelas

Jangan plh capres xxx dh ya. Bangun kampung halaman aja dya ga -
bsa, ngarep mau bangun Tanah Air
Eyaaa, coy xxx ada dihati rakyat coy, pilpres rakyat mau xxx jadi +
presiden!!, xxx fenomenal coy !!!

• Selanjutnya, jika estimasi akurasi dari metode machine learning
tersebut cukup baik, maka metode machine learning tersebut 
dapat digunakan untuk memprediksi sentimen dari semua data 
tekstual yang ada

13

6
8/10/2019

Supervised Learning
Analisis Sentimen

• Pada kasus tertentu, frekuensi hasil prediksi sentimen dapat dibuat dalam 
bentuk grafik, misal secara runtun waktu seperti pada gambar berikut:

14

Web Mining
Analisis Sentimen berbasis Big Data

HTTP Request

XML

Trend

http://politiekebarometer.be/ 15

7
8/10/2019

Unsupervised Learning
Pendeteksian Topik

• Pendeteksian topik adalah suatu proses yang digunakan untuk 
menganalisis kata‐kata pada suatu koleksi data tekstual untuk 
menentukan topik‐topik yang ada pada koleksi tersebut, bagaimana 
hubungan topik‐topik tersebut satu sama lainnya, dan bagaimana 
mereka berubah dari waktu ke waktu (Blei, 2012)

• Ketika seseorang membaca suatu teks, maka topik adalah hal utama 
yang pertama kali ingin diketahui terkait dengan teks tersebut

• Selanjutnya, topik dapat digunakan untuk mengorganisasikan teks, 
seperti: mengelompokkan, mengklasifikasikan, serta analisis lanjut 
terkait dengan teks tersebut

16

Unsupervised Learning
Pendeteksian Topik

• Pendeteksian topik dari suatu data tekstual dapat dilakukan 
secara manual, yaitu dengan cara membaca konten dari data 
tekstual tersebut 

17

8
8/10/2019

Unsupervised Learning
Pendeteksian Topik

• Akan tetapi, untuk data yang sangat besar seperti data pada 
media sosial, cara manual tersebut tidak layak digunakan

• Cara lain adalah menggunakan metode yang memungkinkan 
pendeteksian topik secara otomatis, yaitu menggunakan metode 
machine learning

18

Unsupervised Learning
Pendeteksian Topik

• Berikut ini adalah contoh topik yang dideteksi dari berita 
online pada bulan Agustus tahun 2013
• Suatu topik direpresntasikan oleh 10 kata

widodo joko dki gubernur jokowi jakarta pdip capres calon presiden
pesawat malaysia airlines hilang mas hilangnya ditemukan terbang boeing penumpang
pdip megawati ketua soekarnoputri capres surabaya dpp demokrasi perjuangan rismaharini
madrid real atletico barcelona liga spanyol ronaldo champions ancelotti schalke
liga champions babak leg bayern perempatfinal lolos arsenal munich rabu
presiden calon wakil konvensi jakarta joko widodo indonesia capres pemilihan
ihsg saham indeks gabungan harga perdagangan poin bursa bei menguat
indonesia demokrasi partai perjuangan nasional bank jakarta pdip timnas republik
pemilihan komisi kpu pemilu legislatif politik peserta kampanye partai april
…....

19

9
8/10/2019

Unsupervised Learning
Pendeteksian Topik

20

Unsupervised Learning
Penginderaan Topik berbasis Big Data

HTML Request

XML

Trend

21

10
8/10/2019

Model Machine Learning

• Supervised learning
 Support vector machine 
 Decision tree – ensemble learning (XGBoost)
 Neural network ‐ deep learning (CNN, LSTM)

• Unsupervised learning
 K‐means, fuzzy C‐means, latent semantics analysis, 
nonnegative matrix factorization
 Neural network ‐ deep learning (autoencoder)

22

Perangkat Lunak
Python

• Python Distribution
 PC: Anaconda
 Cloud: Google Colab
• IDE: Jupyter Notebook

• Library
 Data Analysis: Pandas
 Data Visualization: Seaborn
 Machine Learning: Scikit‐learn, XGBoost, Keras

23

11

Anda mungkin juga menyukai