asumsi gradasi
asumsi gauss marcov = residual harus deket dengan mean, tidak berkorelasi dan variasina
konstan
size total bill dan tip, ternya tatotal bill dipengaruhi dengan tip, ini menjadi multi kolinearitas,
ada hubungan signifikan antara variabel independent. VIF : variance inflection Factor. ini
bisa di cek dan ditanya
REGLIN
B0 =46,317 tidak bisa diinterpretasiin karena beratna 0 itu gak make sense
CLASSIFICATION
1. Logistic Regression
KNN
Melihat data yang terdekat posisinya dimana sehingga bisa masuk ke kategori yang mana
dengan nilai K, misal 3, kita akan ambil 3 titik dengan jarak yang terdekat. Lalu dilihat dari
kumpulan data yang terdekat lalu masuk ke group dengan titik yang memiliki kumpulan
paling banyak dari 3 data yang sudah dikumpulkan
DECISION TREE
Impurity Criterion untuk menentukan variabel mana yang menjadi cabang utama dan
seterusnya
Membagi dataset sehingga ada bagian yang untuk membuat model, ada bagian yang kita
buat untuk mengetest model yang kita buat
sehingga ketika model selesai, kita bisa memvalidasi model dengan dataset test.
9 JANUARI 2022
KNN
penentuan diatas atau dibawah (root/branch/leaf) mengunakan gini index atau entropi
feature menjadi root/branch/leaf, semakin besar gini index atau entropi, semakin mendekati
root
voting : ada beberapa model, hasilnya nanti output yg terbanyak dipilih, soft berdasarkan
probability terbaik, hard berdasarkan quantity
stacking : ambil model seperti yg soft viting, tapi ambil keputusannya berdasarkan algoritma
lain, misal elastic net. hasil akhirnya dari data diputuskan berdasarkan model
istilah lainnya meta learner/meta model
estimator : gabungin model, final estomator : untuk nentuim modelnya
-similiar type
begging classifier : bagging (boostrapping aggregating)
flownya adalah
1. membuat sample yang berasal dari data asli (boostrap sample)
terbentuk beberapa kelompok sample,
2. tiap sample di model yang sama/sejenis (bisa looping lebih dari 1 mode) tiap samplenya,
3. nanti hasilnyal di voting
boosting learning
konsepnya sama
boosting : mengubah / membuat weak learner jadi strong learner (model). datanya tidak
dibagi, datanya sama kaya yang di di train pake data yg sama tp setiap kali di training lagi
tefrokus di yg salah prediksi
metode learningnya berurutan, dari keseluruhan, makin banyak makin bagus karena makin
terfokus ke data yg salah prediksi dan loopingnya bisa ditentuin
hasil hasil loopingnya nanti di voting/rata rata/dibobot, untuk tentuin final modelnya
kalau salah bobotnya berubah
clustering atau pengelompokan dan Dimensionality reduction untuk mengurangi jumlah data
agar proses pengolahannya bisa dimudahkan
unsupervised berbeda dengan supervised, di sini tidak perlu membagi data jadi training dan
test karena disini tidak ada kebutuhan untuk validasi output model karena disini tidak
menghasilkan prediksi. tapi mengelompokan data
ada juga asosiasi, memprediksi perilaku pembelian. misal beli buah biasa beli apa lagi (tidak
dipelajari)
extraction biasanya gunanya untuk melakukan simplifikasi model dan hasil featurenya
merepresentasikan semuanya dengan nama component
selection, tidak merepresentasikan feature" yang tidak diambil
menggabungkan 2 titik data berdekatan, tidak bisa lebih dari 2 sehingga jadi pasangan
lalu pasangan" tsb akan jadi kelompok lagi yg berisikan 2 pasangan, dan terus sehingga
menjadi kelompok" hingga jadi 1 group semua
group ini bisa divisualisasikan dalam bentuk hierarki
DB SCAN
DB Scan
1. Core : core titik observasi awal
2. bounder adalah anggota yg masuk ke core selebar epsilon dengan anggota
maksimal 3
3. outlier anggotanya gapunya core point
ketika bounder bisa punya cluster dengan isi 3 yg berdekatan, dia akan jadi core dan
membuat cluster baru lagi sehingga bisa jadi banyak core
kumpulan cluster akan berkumpul menjadi kelompok dan akan terbagi menjadi cluster besar
dan penentuannya bisa pakai silhouette score atau sum square atau rata" jarak kuadrat