Anda di halaman 1dari 11

Pertemuan 2

Proses
Pembelajaran Mesin
Langkah-langkah Pembelajaran Mesin
• Persiapan Data
• Pembuatan Model
• Pengujian dan Validasi
1. Persiapan Data
• Preprocessing: Mengidentifikasi dan memperbaiki
kesalahan dalam data.
• Seleksi Fitur: Mengidentifikasi variabel input yang paling
relevan dengan tugas.
• Transformasi Data: Mengubah skala atau distribusi variabel.
• Rekayasa Fitur: Mendapatkan variabel baru dari data yang
tersedia.
• Pengurangan Dimensi: Membuat proyeksi data yang
ringkas.

https://machinelearningmastery.com/data-preparation-techniques-for-machine-learning/
2. Pembuatan Model
• Sebelum Model Machine Learning diterapkan, model tersebut
harus dilatih. Pelatihan Model Pembelajaran Mesin memungkinkan
algoritma untuk belajar dari data pelatihan. Proses ini dilakukan
secara berulang karena algoritma belajar dari iterasi sebelumnya
untuk meningkatkan kecocokannya dengan data.
• Dalam konsep pelatihan, algoritma mencari nilai parameter yang
meminimalkan perbedaan antara nilai yang dihitung dan yang
disediakan oleh data pelatihan. Setiap iterasi melalui data pelatihan
membawanya lebih dekat ke nilai optimal.
• Data dibagi menjadi: data yang digunakan untuk melatih Model
dan data yang digunakan untuk menguji dan memvalidasi model.
Validasi terjadi selama pelatihan dan pengujian dilakukan setelah
pelatihan selesai.
3. Pengujian dan Validasi
• Selama pelatihan model, penting untuk menguji dan
memvalidasi model untuk memastikan kinerjanya seperti
yang diharapkan. Proses ini menggunakan tiga jenis
dataset:
• Dataset pelatihan: data tempat model dilatih
• Dataset validasi: digunakan untuk memeriksa apakah model
berjalan sesuai rencana
• Test dataset digunakan untuk penilaian akhir Model
• Teknik pengujian dan validasi antara lain Simple Holdout
Validation dan Cross Validation. Jika data pelatihan hanya
sedikit, dapat menggunakan teknik k-fold cross-validation.
• Loss Function
Loss Function adalah ukuran kesalahan. Kesalahan
adalah perbedaan antara output yang disimpulkan
model dan nilai sebenarnya. Loss Function digunakan
untuk memperbarui model setelah setiap iterasi. Loss
Function disebut juga cost function atau objective
function. Jika inferensi model sempurna, loss sama
dengan nol.

• Teknik optimasi
Tujuan dari optimasi model adalah untuk
mengidentifikasi nilai parameter apa yang diperlukan
untuk membuat loss serendah mungkin yang disebut
dengan minima. Teknik optimasi digunakan oleh
algoritma pembelajaran mesin untuk menemukan
minima.
• Metrik Performansi Model
Semua model pembelajaran mesin memerlukan metrik
untuk menilai kinerja.
Metrik berbeda dari loss function. Loss function
menunjukkan ukuran kinerja model, digunakan untuk
melatih model pembelajaran mesin (menggunakan
semacam pengoptimalan seperti Gradient Descent), dan
biasanya dapat dibedakan dalam parameter model.
Metrik digunakan untuk memantau dan mengukur performa
model (selama pelatihan dan pengujian), dan tidak perlu
dibedakan.
Namun untuk beberapa tugas, metrik kinerja dapat
dibedakan dan dapat digunakan sebagai loss function (bisa
dengan beberapa pengaturan tambahan), seperti MSE.

https://neptune.ai/blog/performance-metrics-in-machine-learning-complete-
guide
• Metrik untuk regresi: Mean Absolute Error (MAE),
Mean Squared Error (MSE), Root Mean Squared
Error (RMSE), R² (R-Squared), MAPE (Mean
Absolute Percentage Error), sMAPE (Symetric
MAPE)

• Metrik untuk klasifikasi: Accuracy, Precision and


Recall, F1-score, AUC-ROC, Confusion Matrix
(Bukan metric tetapi menjadi dasar untuk metric
lainnya)

• Metrik untuk klastering: Silhouette Score, Calinski-


Harabaz Index, Davies-Bouldin Index, Dunn Index
Overfitting dan underfitting
• Overfitting merupakan keadaan dimana model berusaha untuk
mempelajari seluruh detail termasuk noise yang ada dalam data
dan berusaha untuk mengikutsertakan semua data point ke dalam
decision boundary (fungsi keputusan yang merupakan hasil dari
model)
• Jika overfitting berarti mempelajari data terlalu baik, underfitting
artinya tidak mempelajari data dengan baik. Underfitting
merupakan keadaan dimana model machine learning tidak bisa
mempelajari hubungan antara variabel dalam data serta
memprediksi atau mengklasifikasikan data baru.
• Overfitting dan underfitting merupakan hasil dari performa
machine learning yang buruk. Terdapat beberapa penyebab dari
terjadinya overfitting dan underfitting.
Penyebab overfitting:
• Data yang Dipakai Kurang Variatif
Data yang tersedia dalam training kurang variatif dibandingkan
dengan kompleksitas model sehingga jika ingin tetap memakai
model yang sama dan menghindari overfitting, gunakan
dataset yang lebih bervariatif saat training.
• Model Terlalu Kompleks
Seringkali, model yang dipakai saat training terlalu kompleks
untuk dataset yang cenderung tidak terlalu kompleks. Terjadi
ketidakcocokan antara model dan data sehingga terjadi
overfitting. Maka, kurangi kerumitan model agar terhindar dari
overfitting.

https://algorit.ma/blog/data-science/overfitting-underfitting/
Penyebab underfitting
• Model Terlalu Sederhana
Sebaliknya dari overfitting, model yang dipakai
terlalu sederhana untuk dataset yang cenderung
kompleks. Umumnya, model gagal untuk
mempelajari dataset karena memang tidak
diciptakan untuk bisa mempelajari dataset tersebut.

Pada dasarnya, kedua hal ini dapat diatasi dengan


memilih model yang sesuai dengan dataset yang
dimiliki.

https://algorit.ma/blog/data-science/overfitting-underfitting/

Anda mungkin juga menyukai