Machine Learning Note Practice

● Regression, supervised learning yang labelingnya numerik
● Classification, supervised learning yang labelnya kategorikal

● Clustering, mengkelompokkan data
● Dimentionally Reduction, menghasilkan data baru yang masih merepresentasikan
data kumulatif keseluruhannya.
REGRESI
asumsi gradasi
asumsi gauss marcov = residual harus deket dengan mean, tidak berkorelasi dan variasina
konstan
size total bill dan tip, ternya tatotal bill dipengaruhi dengan tip, ini menjadi multi kolinearitas,
ada hubungan signifikan antara variabel independent. VIF : variance inflection Factor. ini
bisa di cek dan ditanya
REGLIN
B0 =46,317 tidak bisa diinterpretasiin karena beratna 0 itu gak make sense
CLASSIFICATION
1. Logistic Regression
● Logistic Resgression mengoreksi linear regression, bisa memprediksi kata kategori

dengan jumlah 2 kategori (binary)
● yang dihasilkan logistik regression adalah probabilitas (1 atau 0)
● cara tau dia 0 atau 1, nanti akan diberikan treshold (misal 0,5, kalau lebih dari 0,1
artinya 1, kalo kurang dari 0,5 artinya 0
KNN
Melihat data yang terdekat posisinya dimana sehingga bisa masuk ke kategori yang mana
dengan nilai K, misal 3, kita akan ambil 3 titik dengan jarak yang terdekat. Lalu dilihat dari
kumpulan data yang terdekat lalu masuk ke group dengan titik yang memiliki kumpulan
paling banyak dari 3 data yang sudah dikumpulkan
DECISION TREE
ini loves soda dibawah 13 tahun sudah di eliminasi di cabang atasnya
Impurity Criterion untuk menentukan variabel mana yang menjadi cabang utama dan
seterusnya
Membagi dataset sehingga ada bagian yang untuk membuat model, ada bagian yang kita
buat untuk mengetest model yang kita buat
sehingga ketika model selesai, kita bisa memvalidasi model dengan dataset test.
9 JANUARI 2022
KNN
penentuan diatas atau dibawah (root/branch/leaf) mengunakan gini index atau entropi
feature menjadi root/branch/leaf, semakin besar gini index atau entropi, semakin mendekati
root
gini index/entropi mewakili juga kepentingan dari variabel bersangkutan

ensemble model
menggabungkan model yang ada(2)
-various type
voting : ada beberapa model, hasilnya nanti output yg terbanyak dipilih, soft berdasarkan
probability terbaik, hard berdasarkan quantity
stacking : ambil model seperti yg soft viting, tapi ambil keputusannya berdasarkan algoritma
lain, misal elastic net. hasil akhirnya dari data diputuskan berdasarkan model
istilah lainnya meta learner/meta model
estimator : gabungin model, final estomator : untuk nentuim modelnya
-similiar type
begging classifier : bagging (boostrapping aggregating)
flownya adalah
1. membuat sample yang berasal dari data asli (boostrap sample)
terbentuk beberapa kelompok sample,
2. tiap sample di model yang sama/sejenis (bisa looping lebih dari 1 mode) tiap samplenya,
3. nanti hasilnyal di voting
boosting learning
random forrest classifier : yg pake konsep begging, bedanya terletak di parameternya.

begging ga ada max depth, dkk. tapi begging ga ada parameter decission tree
konsepnya sama
boosting : mengubah / membuat weak learner jadi strong learner (model). datanya tidak
dibagi, datanya sama kaya yang di di train pake data yg sama tp setiap kali di training lagi
tefrokus di yg salah prediksi
metode learningnya berurutan, dari keseluruhan, makin banyak makin bagus karena makin
terfokus ke data yg salah prediksi dan loopingnya bisa ditentuin
data yg ga diprediksi benar, bobotnya akan di besarin supaya terfokus
semua akan di training tp di fokus ke yg salah
hasil hasil loopingnya nanti di voting/rata rata/dibobot, untuk tentuin final modelnya
kalau salah bobotnya berubah
gradient boosting adalah salah satu metode untuk melakukan optimasi

UNSUPERVISED LEARNING
clustering atau pengelompokan dan Dimensionality reduction untuk mengurangi jumlah data
agar proses pengolahannya bisa dimudahkan
unsupervised berbeda dengan supervised, di sini tidak perlu membagi data jadi training dan
test karena disini tidak ada kebutuhan untuk validasi output model karena disini tidak
menghasilkan prediksi. tapi mengelompokan data
ada juga asosiasi, memprediksi perilaku pembelian. misal beli buah biasa beli apa lagi (tidak
dipelajari)
DIMENTIONALLY REDUCTION : PCA

(phsycall component reduction)
feature selection : feature mana aja yg mau digunakan di machine learning

feature extraction : fitur di extract, lebih ke compress agar jadi berkurang (10 feature di
extract jadi 5 feature)
extraction biasanya gunanya untuk melakukan simplifikasi model dan hasil featurenya
merepresentasikan semuanya dengan nama component
selection, tidak merepresentasikan feature" yang tidak diambil
bisa pakai sckitlearn modul decomposition

CLUSTERRING 3 :
1. K Means (non hierarcy)
2. Aglomerative Clusterring : Hierarcy clusterring (hierarcy)
3. DB Scan (Dense Based Clusterring)
K Means buat titik cluster secara Random
LANGKAH :
1. data yg terdekat dalam titik cluster, akan jadi 1 cluster atau 1 kelompok
2. dalam visualisasinya, lingkaran adalah titik cluster, kotak adalah datanya
3. lalu titik cluster awal lalu dihitung ulang kembali untuk menghasilkan rata" jarak dari
group atau cluster tersebut dan kemudian dinamakan centroid
4. akan dilakukan clusterring ulang menurut titik centroid cluster dengan datanya. cara
ini akan terus looping dan akan stop ketika titiknya tidak berubah lagi
kekurangan k means : tidak bisa melihat data outlier (di solved by DB Scan)
Agglomerative Hierarchical Clustering
menggabungkan 2 titik data berdekatan, tidak bisa lebih dari 2 sehingga jadi pasangan
lalu pasangan" tsb akan jadi kelompok lagi yg berisikan 2 pasangan, dan terus sehingga
menjadi kelompok" hingga jadi 1 group semua
group ini bisa divisualisasikan dalam bentuk hierarki
DB SCAN
DB Scan
1. Core : core titik observasi awal
2. bounder adalah anggota yg masuk ke core selebar epsilon dengan anggota
maksimal 3
3. outlier anggotanya gapunya core point
ketika bounder bisa punya cluster dengan isi 3 yg berdekatan, dia akan jadi core dan
membuat cluster baru lagi sehingga bisa jadi banyak core
kumpulan cluster akan berkumpul menjadi kelompok dan akan terbagi menjadi cluster besar
ukuran lingkarannya : epsilon

titik yg ada di dlm lingkaran : (minimum points), yg membuat titik itu core
dalam prosesnya, clustering atau pengelompokan data berdasarkan jarak.
dan penentuannya bisa pakai silhouette score atau sum square atau rata" jarak kuadrat

Machine Learning Note Practice

Diunggah oleh

Informasi Dokumen

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Machine Learning Note Practice

Diunggah oleh

Hak Cipta:

Format Tersedia

● Regression, supervised learning yang labelingnya numerik

● Classification, supervised learning yang labelnya kategorikal

● Logistic Resgression mengoreksi linear regression, bisa memprediksi kata kategori

ini loves soda dibawah 13 tahun sudah di eliminasi di cabang atasnya

gini index/entropi mewakili juga kepentingan dari variabel bersangkutan

random forrest classifier : yg pake konsep begging, bedanya terletak di parameternya.

data yg ga diprediksi benar, bobotnya akan di besarin supaya terfokus

semua akan di training tp di fokus ke yg salah

gradient boosting adalah salah satu metode untuk melakukan optimasi

DIMENTIONALLY REDUCTION : PCA

feature selection : feature mana aja yg mau digunakan di machine learning

bisa pakai sckitlearn modul decomposition

Agglomerative Hierarchical Clustering

ukuran lingkarannya : epsilon

dalam prosesnya, clustering atau pengelompokan data berdasarkan jarak.

Anda mungkin juga menyukai