Progress
Week-10
Here is where our presentation begins
01
Feature Engineering
Pembentukan variable atau fitur tambahan sebagai proses mengekstrak fitur yang
berguna dari raw data menggunakan metode matematika, statistika, dan domain
knowledge.
• Pivoting.
• Aggregation.
Aggregation/ New Attributes
Creation
• Dalam pembentukan variable, sering kali kita harus melakukan aggregasi terhadap
kumpulan data “raw”.
• Sebagai contoh, data raw dapat berbentuk data history customer melihat produk di
berbagai kategori.
• Dalam melakukan modeling/data mining, kita dapat melakukan aggregasi terhadap data
untuk membentuk suatu fitur baru, seperti :
• Jumlah produk yang dilihat dalam 1 bulan.
➢ Proses normalisasi
linguistik, yang mereduksi
kata menjadi kata dasar
atau memotong imbuhan.
➢ Misalnya, Connect,
Connecting,Connected,
Connection direduksi
menjadi kata umum
“connect".
Menangani Masalah Data Teks
5. Lemmatization
01
02
Apa Itu Algoritma KNN?
K-Nearest Neighbor merupakan algoritma supervised learning yang
memiliki cara kerja mengambil sejumlah data terdekat sebagai acuan untuk
menentukan kelas data baru.
Contoh algoritma:
• IF (age<=30) and (student) OR
• IF (age = 31...40) OR
• IF (age>40) and (credit rating =
fair)
THEN
buys_computer = YES
Pemilihan Atribut Decision Tree
Metode berat Gini: Ukuran kemurnian, semakin murni, semakin homogen,
semakin rendah nilainya.
Total data = 14, Buy Computer (Yes) = 9, Buy Computer (No) = 5
Split berdasarkan masing-masing atribut.
Total berat Gini untuk Split Age adalah (5/14)*0.52 + (4/14)*1 +(5/14)*0.52 = 0.65
Pemilihan Atribut Decision Tree
Split Berdasarkan Credit Rating
Total berat Gini untuk Split credit Rating adalah (6/14)*0.5 + (8/14)*0.625 =
0.57
Karena berat Gini pada Split Age lebih tinggi daripada Gini pada split Credit
Rating maka kita menggunakan Age sebagai split lebih dahulu.
Apa itu Random Forest?
01
03
Support Vector Machine
Salah satu metode dalam supervised
learning yang biasanya digunakan untuk
klasifikasi (seperti Support Vector
Classification) dan regresi (Support
Vector Regression).
Persamaan linear :
Tipe fungsi :
● Linear
● Polynomial
● Radial Basis Function (RBF)
Support Vector Machine :
Why
Kelebihan :
● Klasifikasi dokumen/artikel.
● Klasifikasi handwritter recognition
● Klasifikasi sentiment
● Klasifikasi emosi
Multiclass Classification :
One vs Rest
● Pada kasus N class
classification akan
membentuk N binary
classifier.
● Aturan setiap classifier
dalam memprediksi :
● Positif untuk satu
kelas.
● Negatif untuk
kelas yang lain.
Multiclass Classification :
One vs One
● Menggunakan binary classifier.
● Perlu dilakukan training model dengan kelas positif dan negatif antar
dua kelas dalam N kelas yang ada.
● Jumlah classifier : [ N * (N-1) ] / 2
Multiclass Classification :
Sklearn
THANK YOU !