Anda di halaman 1dari 15

● Regression, supervised learning yang labelingnya numerik

● Classification, supervised learning yang labelnya kategorikal


● Clustering, mengkelompokkan data
● Dimentionally Reduction, menghasilkan data baru yang masih merepresentasikan
data kumulatif keseluruhannya.
REGRESI

asumsi gradasi
asumsi gauss marcov = residual harus deket dengan mean, tidak berkorelasi dan variasina
konstan

size total bill dan tip, ternya tatotal bill dipengaruhi dengan tip, ini menjadi multi kolinearitas,
ada hubungan signifikan antara variabel independent. VIF : variance inflection Factor. ini
bisa di cek dan ditanya

REGLIN
B0 =46,317 tidak bisa diinterpretasiin karena beratna 0 itu gak make sense
CLASSIFICATION
1. Logistic Regression

● Logistic Resgression mengoreksi linear regression, bisa memprediksi kata kategori


dengan jumlah 2 kategori (binary)
● yang dihasilkan logistik regression adalah probabilitas (1 atau 0)
● cara tau dia 0 atau 1, nanti akan diberikan treshold (misal 0,5, kalau lebih dari 0,1
artinya 1, kalo kurang dari 0,5 artinya 0

KNN
Melihat data yang terdekat posisinya dimana sehingga bisa masuk ke kategori yang mana

dengan nilai K, misal 3, kita akan ambil 3 titik dengan jarak yang terdekat. Lalu dilihat dari
kumpulan data yang terdekat lalu masuk ke group dengan titik yang memiliki kumpulan
paling banyak dari 3 data yang sudah dikumpulkan
DECISION TREE

ini loves soda dibawah 13 tahun sudah di eliminasi di cabang atasnya

Impurity Criterion untuk menentukan variabel mana yang menjadi cabang utama dan
seterusnya
Membagi dataset sehingga ada bagian yang untuk membuat model, ada bagian yang kita
buat untuk mengetest model yang kita buat

sehingga ketika model selesai, kita bisa memvalidasi model dengan dataset test.

9 JANUARI 2022
KNN
penentuan diatas atau dibawah (root/branch/leaf) mengunakan gini index atau entropi

feature menjadi root/branch/leaf, semakin besar gini index atau entropi, semakin mendekati
root

gini index/entropi mewakili juga kepentingan dari variabel bersangkutan


ensemble model
menggabungkan model yang ada(2)
-various type

voting : ada beberapa model, hasilnya nanti output yg terbanyak dipilih, soft berdasarkan
probability terbaik, hard berdasarkan quantity

stacking : ambil model seperti yg soft viting, tapi ambil keputusannya berdasarkan algoritma
lain, misal elastic net. hasil akhirnya dari data diputuskan berdasarkan model
istilah lainnya meta learner/meta model
estimator : gabungin model, final estomator : untuk nentuim modelnya

-similiar type
begging classifier : bagging (boostrapping aggregating)
flownya adalah
1. membuat sample yang berasal dari data asli (boostrap sample)
terbentuk beberapa kelompok sample,
2. tiap sample di model yang sama/sejenis (bisa looping lebih dari 1 mode) tiap samplenya,
3. nanti hasilnyal di voting

boosting learning

random forrest classifier : yg pake konsep begging, bedanya terletak di parameternya.


begging ga ada max depth, dkk. tapi begging ga ada parameter decission tree

konsepnya sama

boosting : mengubah / membuat weak learner jadi strong learner (model). datanya tidak
dibagi, datanya sama kaya yang di di train pake data yg sama tp setiap kali di training lagi
tefrokus di yg salah prediksi

metode learningnya berurutan, dari keseluruhan, makin banyak makin bagus karena makin
terfokus ke data yg salah prediksi dan loopingnya bisa ditentuin

data yg ga diprediksi benar, bobotnya akan di besarin supaya terfokus

semua akan di training tp di fokus ke yg salah

hasil hasil loopingnya nanti di voting/rata rata/dibobot, untuk tentuin final modelnya
kalau salah bobotnya berubah

gradient boosting adalah salah satu metode untuk melakukan optimasi


UNSUPERVISED LEARNING

clustering atau pengelompokan dan Dimensionality reduction untuk mengurangi jumlah data
agar proses pengolahannya bisa dimudahkan

unsupervised berbeda dengan supervised, di sini tidak perlu membagi data jadi training dan
test karena disini tidak ada kebutuhan untuk validasi output model karena disini tidak
menghasilkan prediksi. tapi mengelompokan data

ada juga asosiasi, memprediksi perilaku pembelian. misal beli buah biasa beli apa lagi (tidak
dipelajari)

DIMENTIONALLY REDUCTION : PCA


(phsycall component reduction)

feature selection : feature mana aja yg mau digunakan di machine learning


feature extraction : fitur di extract, lebih ke compress agar jadi berkurang (10 feature di
extract jadi 5 feature)

extraction biasanya gunanya untuk melakukan simplifikasi model dan hasil featurenya
merepresentasikan semuanya dengan nama component
selection, tidak merepresentasikan feature" yang tidak diambil

bisa pakai sckitlearn modul decomposition


CLUSTERRING 3 :
1. K Means (non hierarcy)
2. Aglomerative Clusterring : Hierarcy clusterring (hierarcy)
3. DB Scan (Dense Based Clusterring)
K Means buat titik cluster secara Random
LANGKAH :
1. data yg terdekat dalam titik cluster, akan jadi 1 cluster atau 1 kelompok
2. dalam visualisasinya, lingkaran adalah titik cluster, kotak adalah datanya
3. lalu titik cluster awal lalu dihitung ulang kembali untuk menghasilkan rata" jarak dari
group atau cluster tersebut dan kemudian dinamakan centroid
4. akan dilakukan clusterring ulang menurut titik centroid cluster dengan datanya. cara
ini akan terus looping dan akan stop ketika titiknya tidak berubah lagi
kekurangan k means : tidak bisa melihat data outlier (di solved by DB Scan)

Agglomerative Hierarchical Clustering

menggabungkan 2 titik data berdekatan, tidak bisa lebih dari 2 sehingga jadi pasangan
lalu pasangan" tsb akan jadi kelompok lagi yg berisikan 2 pasangan, dan terus sehingga
menjadi kelompok" hingga jadi 1 group semua
group ini bisa divisualisasikan dalam bentuk hierarki

DB SCAN

DB Scan
1. Core : core titik observasi awal
2. bounder adalah anggota yg masuk ke core selebar epsilon dengan anggota
maksimal 3
3. outlier anggotanya gapunya core point
ketika bounder bisa punya cluster dengan isi 3 yg berdekatan, dia akan jadi core dan
membuat cluster baru lagi sehingga bisa jadi banyak core
kumpulan cluster akan berkumpul menjadi kelompok dan akan terbagi menjadi cluster besar

ukuran lingkarannya : epsilon


titik yg ada di dlm lingkaran : (minimum points), yg membuat titik itu core

dalam prosesnya, clustering atau pengelompokan data berdasarkan jarak.

dan penentuannya bisa pakai silhouette score atau sum square atau rata" jarak kuadrat

Anda mungkin juga menyukai