Machine Learning Basic

ML adalah subset dari AI. Belum tentu AI harus ML, tapi ML sudah pasti AI.
Bila diberitahu ciri-ciri dan karakteristik untuk penamaan maka itu AI.
Bila disuruh menebak dan memprediksi sendiri suatu data dari kemiripan2 yg dimiliki,
maka itu ML. ML ada 2 jenis yg kita pelajari:
1. Supervised learning → ketika mesin belajar dari data yang diberi label karakteristik,
sehingga dapat mengenali bila ada data yg sama
a. Klasifikasi → bila variabel targetnya/labelnya berbentuk data kategorik: misal
ingin memprediksi apakah peminjam dapat melunasi atau tidak
b. Regresi → bila labelnya numerik: misal ingin memprediksi harga jual rumah di
masa depan
2. Unsupervised learning → ketika mesin tidak disuapi pelabelan data, sehingga tidak
mencari karakteristik, tetapi mengobservasi sendiri untuk melihat adanya pola
kemiripan sehingga bisa mengelompokkan mana data yang serupa
a. Clustering → digunakan sbg metode agar bisa lebih memahami pola perilaku
dan kebutuhan customer, biasanya digunakan dalam CRM (Customer
Relationship Management). Benefitnya antara lain utk mengelompokkan
segmen pelanggan berdasarkan produk yg lebih diminati
b. Dimentional Reduction → proses mengurangi jumlah variabel atau fitur yang
tidak relevan dalam sebuah data set, sehingga data dapat diwakili dengan
ruang dimensi yang lebih rendah. Sehingga mempermudah analisis dan
interpretasi data, serta mengurangi biaya komputasi dalam pemrosesan
data.
Ada 2 macam hubungan dalam regresi:

 Association/asosiasi
 Causation/kausalitas —> perubahan nilai Y bergantung pada perubahan nilai X, tapi
tidak berlaku sebaliknya. Misal Y adalah Indonesia, X adalah Sunda. X sudah pasti
mempengaruhi Y, Y belum tentu mempengaruhi X.
Untuk hubungan yg memiliki kausalitas, variabel dibagi menjadi

Y ialah response variable : target atau label, variabel dependen
X ialah explanatory variable : fitur, variabel independen (mempengaruhi variabel dependen)
Contoh-contoh kasus dengan regresi:
 sales forecasting, untuk meramalkan berapa penjualan yg akan didapat sehingga kita
tau berapa bahan yg mesti distok
 customer satisfaction, utk mengetahui apa saja yg berkaitan dengan tingkat kepuasan
pelanggan
 price estimation, utk menentukan harga yg sesuai sehingga dapat meningkatkan
penjualan dan pemasukan
 employment income, utk memperkirakan berapa income seseorang
 emisi karbon, utk menghitung emisi saat pembuatan mobil
1. Simple Regression → ketika hanya ada 1 variabel independen yg mempengaruhi

2. Multiple Regression → ada >1 variabel independen
Baik simple dan multiple masing2 dibagi mjd regresi linear dan regresi non-linear.
Selanjutnya akan fokus membahas simple dan multiple linear regression.
Regresi linear itu salah satu metode parametrik yg salah satu asumsinya bilang dia mesti
terdistribusi normal. Jika kita menggunakan metode non parametrik, maka tidak perlu cek
asumsi dan normalitas, misalnya pada KNN dan decision tree.
A. Simple Linear Regression

y = a + bx
y → hasil prediksi
a → intercept, slope, constanta
b → weight / besaran pengaruh x terhadap y
x → independent variable, feature pada dataset
kita perlu melakukan estimasi untuk nilai parameter a dan b, salah satunya yg default
dalam regresi linear adalah dengan OLS (Ordinary Least Square). OLS berfungsi
mencari kuadrat error terkecil, meminimalkan error antara data asli dan prediksinya.
R-squared → nilainya antara 0 sampai 1, tidak ada nilai optimal. Tujuannya utk
menunjukkan besar pengaruh variabel independen thd dependen, misal R-squared =
0,0741 artinya variabel independennya mempengaruhi variabel dependen sebesar 74%
scr bersama-sama, sisanya sekian persen faktor dari luar. Secara parsial/masing2
signifikansi dari feature bisa dilihat dari nilai p-value nya.
F statistic → utk melihat apakah feature secara bersama2 mempengaruhi variabel

target/dependen secara signifikan. Melihat signifikansi dari seluruh feature thd variabel
target. Utk itu bisa dilihat dari probabilitas dan p-value nya, kita gunakan utk memilih
feature mana yg paling berperan.
Dalam menggunakan OLS pada regresi, kita harus melakukan model diagnostic atau uji
asumsi yg harus dipenuhi agar kita yakin apakah hasil uji hipotesisnya valid atau tidak.
Gunakan Residual Analysis (Gauss Markov Assumption) → perbedaan antara hasil
prediksi dan hasil aslinya. Kriteria:
 Error harus terdistribusi normal
 Error harus mendekati nol, atau rata2 nol
 Tidak boleh ada autocorrelation problem (hasil dari pengamatan sebelumnya yg
mempengaruhi hasil pengamatan sekarang). Error di satu variabel independen
tidak boleh berkorelasi dengan error di variabel independen lain. Karena variabel
independen hanya boleh mempengaruhi variabel dependen.
 Error memiliki ragam yg homogen dan tidak melebar atau mengerucut di scatter
plot.
 Persebaran dari error nya harus konstan atau tetap (bisa dilihat dari scatter plot
residual)
Memeriksa ini semua bisa pakai visualisasi dulu dng histogram, QQ plot, lalu pakai
hipotesis testing, normal test, dan uji statistik bila perlu.
 Durbin Watson: untuk uji hipotesis dan melihat model yg sedang dikerjakan mengalami
autokorelasi atau tidak.
 Jarque Bera : uji normalitas yg dapat menggantikan KS test dan kolmogorov smirnov,
kesimpulannya dilihat dari p-value
Apa yang terjadi jika asumsi Gauss Markov dilanggar? Estimasi model regresi tidak valid.
1. Nilai rataan tidak bernilai nol, maka akan bias pada nilai estimasi parameter dan hasil
prediksi
2. Jika error saling berkorelasi dengan error yg lain, p-value dari F-test dan T-test
cenderung bernilai kecil (underestimated) dan nilai R-squared akan overestimated.
Sehingga p-value tidak valid.
3. Jika data tidak homogen, menyebabkan tidak stabilnya nilai prediksi maupun hasil
estimasi parameter regressi. Menambah atau mengurangi salah satu variabel
independen dapat mengubah secara signifikan koefisien variabel lainnya, nilai estimasi
parameter menjadi tidak stabil. Nilai koefisien regresi bahkan dapat berubah dari negatif
menjadi positif, atau sebaliknya.
4. Nilai korelasi yang tinggi antar variabel independen, menunjukkan masalah
multikolinearitas. Artinya variabel dependen bukan satu2nya yg dipengaruhi dan bukan
satu2nya yg akan berubah nilainya setelah perubahan nilai suatu variabel independen.
kalau begini, interpretasi slope menjadi tidak berlaku. Ragam nilai estimasi parameter
regressi menjadi tidak stabil. Korelasi di antara mereka akan selalu ada, hanya saja
tidak boleh terlalu besar.
CIRI-CIRI MULTIKOLINEARITAS :
1. Nilai R-squred tinggi tapi hanya sedikit yang hasil uji T-nya signifikan
2. Hasil dari uji F tolak H0, tapi hanya sedikit atau tidak ada sama sekali variabel
independen yang hasil uji T-nya signifikan
3. Ada pasangan variabel independen yang korelasinya lebih kuat daripada korelasi setiap
variabel independen dengan variabel dependen
Cara mengecek multikolinearitas dengan VIF (Variance Inflation Factor). Nilai VIF tidak boleh
>4, kalau >10 artinya multikolinearitas luar biasa tinggi
Logistic regression dan linear regression adalah dua teknik analisis regresi yang berbeda
namun berkaitan. Linear regression digunakan untuk memodelkan hubungan antara variabel
independen yang kontinu dengan variabel dependen yang juga kontinu. Sedangkan logistic
regression digunakan untuk memodelkan hubungan antara variabel independen dengan
variabel dependen yang bersifat biner atau kategorikal.
Namun, logistic regression dapat dikaitkan dengan linear regression melalui logit transform.
Logit transform adalah transformasi matematis yang mengubah variabel dependen dalam
logistic regression menjadi variabel yang kontinu, sehingga dapat dianalisis dengan
menggunakan linear regression.
Dalam logistic regression, logit transform dari variabel dependen merupakan fungsi logaritma
natural dari odds ratio, yaitu perbandingan antara probabilitas kejadian suatu peristiwa dengan
probabilitas tidak terjadinya peristiwa tersebut. Dengan menggunakan logit transform, logistic
regression dapat diinterpretasikan sebagai bentuk linear regression, sehingga dapat dilakukan
analisis seperti analisis variasi atau analisis multivariat.
Dengan demikian, peran logistic regression dalam linear regression adalah memberikan
alternatif transformasi untuk mengubah variabel dependen yang bersifat biner atau
kategorikal menjadi variabel kontinu yang dapat dianalisis dengan menggunakan teknik
analisis regresi seperti linear regression.
Sigmoid function adalah sebuah fungsi matematika yang memiliki bentuk kurva S-shaped atau
Sigmoidal. Sigmoid function biasanya digunakan dalam model regresi logistik untuk
menghitung probabilitas dari variabel dependen yang diskrit atau kategorikal. Fungsi
sigmoidal memiliki rumus matematika sebagai berikut:
y = Bo + B1x1
f(y) = 1 / (1 + exp(-y))
Di mana x adalah input ke fungsi, dan exp(-x) adalah eksponensial (constanta) dengan nilai x
yang diubah menjadi nilai positif. Fungsi sigmoid menghasilkan output yang selalu berada
di rentang antara 0 dan 1, sehingga sering digunakan untuk memodelkan probabilitas
kejadian suatu peristiwa. Fungsi ini juga digunakan dalam jaringan saraf tiruan (neural
network) sebagai fungsi aktivasi untuk menghitung nilai output dari suatu neuron.
Kalau di Linear regression pakai OLS, maka di logistic regression pakai MLE (Maximum
Likelihood Distribution). Tujuan dari analisis likelihood function adalah untuk mencari nilai-nilai
parameter yang memaksimalkan likelihood function tersebut, yang berarti memberikan
kemungkinan paling besar untuk menjelaskan data yang diamati.
B. Multiple Linear Regression

Digunakan ketika dependen variable dipengaruhi oleh sangat banyak independent variable.
F test → utk menguji pengaruh seluruh variabel independen thd variabel dependen
T-test → utk menguji pengaruh masing-masing tiap 1 variabel independen thd variabel
dependen, sekaligus melihat arah korelasinya positif atau negatif.
Hipotesis alternatif 1 arah : "Penambahan pupuk organik meningkatkan produksi tanaman"

Hipotesis alternatif 2 arah : "Ada perbedaan dalam produksi tanaman antara tanaman yang
diberi pupuk organik dan tanaman yang tidak diberi pupuk organik"
Pemilihan hipotesis alternatif yang tepat tergantung pada tujuan pengujian dan permasalahan
yang ingin dipecahkan. Hipotesis alternatif satu arah digunakan ketika ada keyakinan
sebelumnya bahwa ada perbedaan atau hubungan yang terjadi dalam satu arah tertentu,
sedangkan hipotesis alternatif dua arah digunakan ketika tidak ada keyakinan sebelumnya
tentang arah hubungan atau perbedaan yang diharapkan.
Performa Multiple Linear bisa dilihat seperti di bawah ini:

Klasifikasi → memprediksi data atau label yg sifatnya kategorik. Kita ingin
membedakan sebuah data point masuk ke kelas yang mana, berdasarkan karakeristik
yg ada. Contoh: churn analysis, propensity analysis, employee promotion.
churn analysis: untuk mengetahui pelanggan mana yang akan mengurangi pemakaian
atau berhenti berlangganan shg perusahaan bisa melakukan marketing yg tepat
propensity: mengidentifikasi apakah seseorang akan tertarik membeli produk atau
menggunakan jasa tertentu.
employee promotion: mempermudah proses kenaikan jabatan karyawan
1. Binary classification
2. Multiclass classification
Metode yang biasa digunakan:

1. Logistic regression
2. Decision Tree
3. Ensemble Method → bagging, random forest, boosting
4. Diskriminan analysis
5. Neural network
6. SVM dan banyak lagi
PEMILIHAN METRICS
1. Classification
a. Accuracy
b. Recall
c. Precision
d. F1 Score
e. ROC/AUC
f. PR-Curve
False negatif = type 1 error
False positive = type 2 error

Machine Learning Basic

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Machine Learning Basic

Diunggah oleh

Hak Cipta:

Format Tersedia

ML adalah subset dari AI. Belum tentu AI harus ML, tapi ML sudah pasti AI.

Ada 2 macam hubungan dalam regresi:

Untuk hubungan yg memiliki kausalitas, variabel dibagi menjadi

1. Simple Regression → ketika hanya ada 1 variabel independen yg mempengaruhi

A. Simple Linear Regression

F statistic → utk melihat apakah feature secara bersama2 mempengaruhi variabel

B. Multiple Linear Regression

Hipotesis alternatif 1 arah : "Penambahan pupuk organik meningkatkan produksi tanaman"

Performa Multiple Linear bisa dilihat seperti di bawah ini:

Metode yang biasa digunakan:

Anda mungkin juga menyukai