Bila diberitahu ciri-ciri dan karakteristik untuk penamaan maka itu AI.
Bila disuruh menebak dan memprediksi sendiri suatu data dari kemiripan2 yg dimiliki,
maka itu ML. ML ada 2 jenis yg kita pelajari:
1. Supervised learning → ketika mesin belajar dari data yang diberi label karakteristik,
sehingga dapat mengenali bila ada data yg sama
a. Klasifikasi → bila variabel targetnya/labelnya berbentuk data kategorik: misal
ingin memprediksi apakah peminjam dapat melunasi atau tidak
b. Regresi → bila labelnya numerik: misal ingin memprediksi harga jual rumah di
masa depan
2. Unsupervised learning → ketika mesin tidak disuapi pelabelan data, sehingga tidak
mencari karakteristik, tetapi mengobservasi sendiri untuk melihat adanya pola
kemiripan sehingga bisa mengelompokkan mana data yang serupa
a. Clustering → digunakan sbg metode agar bisa lebih memahami pola perilaku
dan kebutuhan customer, biasanya digunakan dalam CRM (Customer
Relationship Management). Benefitnya antara lain utk mengelompokkan
segmen pelanggan berdasarkan produk yg lebih diminati
b. Dimentional Reduction → proses mengurangi jumlah variabel atau fitur yang
tidak relevan dalam sebuah data set, sehingga data dapat diwakili dengan
ruang dimensi yang lebih rendah. Sehingga mempermudah analisis dan
interpretasi data, serta mengurangi biaya komputasi dalam pemrosesan
data.
R-squared → nilainya antara 0 sampai 1, tidak ada nilai optimal. Tujuannya utk
menunjukkan besar pengaruh variabel independen thd dependen, misal R-squared =
0,0741 artinya variabel independennya mempengaruhi variabel dependen sebesar 74%
scr bersama-sama, sisanya sekian persen faktor dari luar. Secara parsial/masing2
signifikansi dari feature bisa dilihat dari nilai p-value nya.
Dalam menggunakan OLS pada regresi, kita harus melakukan model diagnostic atau uji
asumsi yg harus dipenuhi agar kita yakin apakah hasil uji hipotesisnya valid atau tidak.
Gunakan Residual Analysis (Gauss Markov Assumption) → perbedaan antara hasil
prediksi dan hasil aslinya. Kriteria:
Error harus terdistribusi normal
Error harus mendekati nol, atau rata2 nol
Tidak boleh ada autocorrelation problem (hasil dari pengamatan sebelumnya yg
mempengaruhi hasil pengamatan sekarang). Error di satu variabel independen
tidak boleh berkorelasi dengan error di variabel independen lain. Karena variabel
independen hanya boleh mempengaruhi variabel dependen.
Error memiliki ragam yg homogen dan tidak melebar atau mengerucut di scatter
plot.
Persebaran dari error nya harus konstan atau tetap (bisa dilihat dari scatter plot
residual)
Memeriksa ini semua bisa pakai visualisasi dulu dng histogram, QQ plot, lalu pakai
hipotesis testing, normal test, dan uji statistik bila perlu.
Durbin Watson: untuk uji hipotesis dan melihat model yg sedang dikerjakan mengalami
autokorelasi atau tidak.
Jarque Bera : uji normalitas yg dapat menggantikan KS test dan kolmogorov smirnov,
kesimpulannya dilihat dari p-value
Apa yang terjadi jika asumsi Gauss Markov dilanggar? Estimasi model regresi tidak valid.
1. Nilai rataan tidak bernilai nol, maka akan bias pada nilai estimasi parameter dan hasil
prediksi
2. Jika error saling berkorelasi dengan error yg lain, p-value dari F-test dan T-test
cenderung bernilai kecil (underestimated) dan nilai R-squared akan overestimated.
Sehingga p-value tidak valid.
3. Jika data tidak homogen, menyebabkan tidak stabilnya nilai prediksi maupun hasil
estimasi parameter regressi. Menambah atau mengurangi salah satu variabel
independen dapat mengubah secara signifikan koefisien variabel lainnya, nilai estimasi
parameter menjadi tidak stabil. Nilai koefisien regresi bahkan dapat berubah dari negatif
menjadi positif, atau sebaliknya.
4. Nilai korelasi yang tinggi antar variabel independen, menunjukkan masalah
multikolinearitas. Artinya variabel dependen bukan satu2nya yg dipengaruhi dan bukan
satu2nya yg akan berubah nilainya setelah perubahan nilai suatu variabel independen.
kalau begini, interpretasi slope menjadi tidak berlaku. Ragam nilai estimasi parameter
regressi menjadi tidak stabil. Korelasi di antara mereka akan selalu ada, hanya saja
tidak boleh terlalu besar.
CIRI-CIRI MULTIKOLINEARITAS :
1. Nilai R-squred tinggi tapi hanya sedikit yang hasil uji T-nya signifikan
2. Hasil dari uji F tolak H0, tapi hanya sedikit atau tidak ada sama sekali variabel
independen yang hasil uji T-nya signifikan
3. Ada pasangan variabel independen yang korelasinya lebih kuat daripada korelasi setiap
variabel independen dengan variabel dependen
Cara mengecek multikolinearitas dengan VIF (Variance Inflation Factor). Nilai VIF tidak boleh
>4, kalau >10 artinya multikolinearitas luar biasa tinggi
Logistic regression dan linear regression adalah dua teknik analisis regresi yang berbeda
namun berkaitan. Linear regression digunakan untuk memodelkan hubungan antara variabel
independen yang kontinu dengan variabel dependen yang juga kontinu. Sedangkan logistic
regression digunakan untuk memodelkan hubungan antara variabel independen dengan
variabel dependen yang bersifat biner atau kategorikal.
Namun, logistic regression dapat dikaitkan dengan linear regression melalui logit transform.
Logit transform adalah transformasi matematis yang mengubah variabel dependen dalam
logistic regression menjadi variabel yang kontinu, sehingga dapat dianalisis dengan
menggunakan linear regression.
Dalam logistic regression, logit transform dari variabel dependen merupakan fungsi logaritma
natural dari odds ratio, yaitu perbandingan antara probabilitas kejadian suatu peristiwa dengan
probabilitas tidak terjadinya peristiwa tersebut. Dengan menggunakan logit transform, logistic
regression dapat diinterpretasikan sebagai bentuk linear regression, sehingga dapat dilakukan
analisis seperti analisis variasi atau analisis multivariat.
Dengan demikian, peran logistic regression dalam linear regression adalah memberikan
alternatif transformasi untuk mengubah variabel dependen yang bersifat biner atau
kategorikal menjadi variabel kontinu yang dapat dianalisis dengan menggunakan teknik
analisis regresi seperti linear regression.
Sigmoid function adalah sebuah fungsi matematika yang memiliki bentuk kurva S-shaped atau
Sigmoidal. Sigmoid function biasanya digunakan dalam model regresi logistik untuk
menghitung probabilitas dari variabel dependen yang diskrit atau kategorikal. Fungsi
sigmoidal memiliki rumus matematika sebagai berikut:
y = Bo + B1x1
f(y) = 1 / (1 + exp(-y))
Di mana x adalah input ke fungsi, dan exp(-x) adalah eksponensial (constanta) dengan nilai x
yang diubah menjadi nilai positif. Fungsi sigmoid menghasilkan output yang selalu berada
di rentang antara 0 dan 1, sehingga sering digunakan untuk memodelkan probabilitas
kejadian suatu peristiwa. Fungsi ini juga digunakan dalam jaringan saraf tiruan (neural
network) sebagai fungsi aktivasi untuk menghitung nilai output dari suatu neuron.
Kalau di Linear regression pakai OLS, maka di logistic regression pakai MLE (Maximum
Likelihood Distribution). Tujuan dari analisis likelihood function adalah untuk mencari nilai-nilai
parameter yang memaksimalkan likelihood function tersebut, yang berarti memberikan
kemungkinan paling besar untuk menjelaskan data yang diamati.
Pemilihan hipotesis alternatif yang tepat tergantung pada tujuan pengujian dan permasalahan
yang ingin dipecahkan. Hipotesis alternatif satu arah digunakan ketika ada keyakinan
sebelumnya bahwa ada perbedaan atau hubungan yang terjadi dalam satu arah tertentu,
sedangkan hipotesis alternatif dua arah digunakan ketika tidak ada keyakinan sebelumnya
tentang arah hubungan atau perbedaan yang diharapkan.
PEMILIHAN METRICS
1. Classification
a. Accuracy
b. Recall
c. Precision
d. F1 Score
e. ROC/AUC
f. PR-Curve
False negatif = type 1 error
False positive = type 2 error