Anda di halaman 1dari 7

Machine Learning Model

Evaluation

Gagasan sentral dari evaluasi model adalah meminimalkan kesalahan pada data uji, di mana
kesalahan dapat didefinisikan dalam banyak cara. Dalam arti yang paling intuitif, kesalahan adalah
perbedaan antara nilai aktual dari variabel prediktor dalam data dan nilai yang diprediksi model
ML. Metrik kesalahan tidak selalu universal, dan beberapa masalah khusus memerlukan metrik
kesalahan kreatif yang sesuai dengan masalah dan pengetahuan domain.
Penting untuk ditekankan di sini bahwa metrik kesalahan yang digunakan untuk melatih model
mungkin berbeda dari metrik kesalahan evaluasi. Misalnya, untuk model klasifikasi, Anda
mungkin telah menggunakan metrik kesalahan LogLoss, tetapi untuk mengevaluasi model, Anda
mungkin ingin melihat tingkat klasifikasi menggunakan confusion matrix.
Bab ini akan mendiskusikan ide dasar di balik evaluasi model dan mendiskusikan beberapa
metode-nya secara rinci. Tujuan pembelajaran bab ini adalah sebagai berikut:
• Pengantar performance model dan evaluasi
• Indeks stabilitas populasi
• Evaluasi model untuk output berkelanjutan
• Evaluasi model untuk output diskrit
• Teknik probabilitas
• Ilustrasi metrik tingkat lanjut seperti Metrik Kesalahan Kappa

Pengantar Kinerja Model dan Evaluasi

Pengantar Kinerja Model dan EvaluasiKinerja dan evaluasi model dilakukan setelah Anda
mengembangkan model dan ingin memahami bagaimana kinerja model pada data uji / data
validasi. Sebelum dimulainya pengembangan model, Anda biasanya membagi data menjadi tiga
kategori:
• Data pelatihan: Dataset ini digunakan untuk melatih model / mesin. Pada tahap ini, fokus dari
algoritma pembelajaran mesin adalah untuk mengoptimalkan beberapa metrik yang didefinisikan
dengan baik yang mencerminkan kesesuaian model. Misalnya, dalam Ordinary Least Square, kita
akan menggunakan data pelatihan untuk melatih model regresi linier dengan meminimalkan
squared errors.
• Menguji data: Kumpulan data uji berisi titik data yang belum pernah dilihat oleh algoritma ML.
Kami menerapkan dataset ini untuk melihat bagaimana kinerja model pada data baru. Sebagian
besar kinerja model dan evaluasi dihitung dan dievaluasi terhadap ambang batas dalam langkah
ini. Di sini, pemodel dapat memutuskan apakah model perlu perbaikan dan dapat membuat
perubahan dan penyesuaian sesuai.
• Data validasi: Dalam banyak kasus, pemodel tidak menyimpan dataset ini karena beberapa alasan
(mis., Data terbatas, periode waktu singkat, set tes lebih besar, dll.). Intinya, tujuan dataset ini
adalah untuk memeriksa overfitting dari model dan memberikan wawasan tentang kebutuhan
kalibrasi.
Setelah modeller yakin model ML telah melakukan pengujian data dengan baik dan mulai
menggunakan data validasi, mereka tidak dapat kembali dan mengubah model. Mereka lebih suka
mencoba untuk mengkalibrasi model dan memeriksa overfitting. Jika model gagal untuk
menetapkan standar, kami terpaksa menjatuhkan model dan memulai proses lagi. Bergantung pada
masalah dan kendala statistik lainnya, proporsi dataset ini akan diputuskan. Secara umum, untuk
data yang cukup besar kita dapat menggunakan rasio 60:20:20 untuk data pelatihan, pengujian,
dan validasi kami.
Kinerja model diukur menggunakan data uji dan pemodel memutuskan ambang apa yang dapat
diterima untuk memvalidasi model. Metrik kinerja secara umum dihasilkan dengan menggunakan
kriteria dasar model fit, mis., Betapa berbedanya output model dari yang sebenarnya. Kesalahan
ini antara aktual dan diprediksi akan menjadi kesalahan yang harus diminimalkan untuk kinerja
yang baik. Dalam ruang lingkup buku ini, kita akan membahas cara menggunakan beberapa metrik
kinerja dan evaluasi yang umum digunakan pada dua jenis variabel keluaran model (prediktor):
• Output kontinu: Model atau serangkaian model yang memberikan nilai prediksi kontinu terhadap
variabel dependen kontinu dalam model. Misalnya, harga rumah kontinu dan, ketika digunakan
untuk memprediksi menggunakan model, akan memberikan nilai prediksi berkelanjutan.
• Output diskrit: Model atau seri model yang memberikan nilai prediksi diskrit terhadap variabel
dependen diskrit dalam model. Misalnya, untuk aplikasi kartu kredit, kelas risiko peminjam ketika
digunakan dalam model prediktif untuk klasifikasi akan memberikan nilai prediksi diskrit (mis.,
Kelas risiko yang diprediksi).

Kami dapat memperluas daftar ini berdasarkan teknik pemodelan rumit lainnya dan bagaimana
kami ingin mengevaluasinya. Misalnya, pikirkan tentang model logistik; dependennya adalah
variabel terdistribusi binomial tetapi outputnya ada pada skala probabilitas (0 hingga 1).
Bergantung pada apa tujuan akhir dari bisnis, kita harus memutuskan apa yang akan dievaluasi
dan pada langkah proses apa.

Tujuan Evaluasi Kinerja Model

Stakeholder bisnis memainkan peran penting dalam menentukan metrik kinerja. Model memiliki
implikasi langsung pada biaya untuk bisnis. Meminimalkan ukuran statistik yang rumit mungkin
tidak selalu menjadi model terbaik untuk bisnis. Untuk tujuan ilustrasi, asumsikan suatu model
risiko kredit untuk kredit yang mencetak pelamar baru. Beberapa variabel input bersifat internal
dan beberapa dibeli dari sumber eksternal. Model ini berkinerja sangat baik dengan memiliki data
eksternal dari berbagai pihak, yang memerlukan biaya. Dalam hal itu hanya memiliki model
dengan kesalahan klasifikasi minimum tidak cukup; output model juga harus masuk akal secara
ekonomi untuk bisnis.
Secara umum, kita dapat mengklasifikasikan tujuan kinerja model dan fokus evaluasi menjadi tiga
kelompok. Ketiganya adalah bagian dari kerangka umum untuk menggunakan metode statistik dan
interpretasinya.
• Akurasi: Keakuratan model mencerminkan proporsi prediksi yang benar — dalam kasus kontinu,
residu minimumnya, dan dalam diskrit, prediksi kelas yang benar. Sisa minimum dalam kasus
kontinu atau beberapa klasifikasi yang salah dalam kasus diskrit menyiratkan akurasi yang lebih
tinggi dan model yang lebih baik.
• Gain : Statistik gain memberi kita gambaran tentang kinerja model itu sendiri. Metode ini
digeneralisasikan ke teknik pemodelan yang berbeda dan sangat intuitif. Ini membandingkan
output model dengan hasil yang kita dapatkan tanpa menggunakan model (atau model acak). Jadi
pada dasarnya, ini akan memberi tahu Anda seberapa baik model dibandingkan dengan model acak
yang memiliki hasil acak. Saat membandingkan dua model, model yang memiliki statistik
perolehan lebih tinggi pada persentil tertentu lebih disukai.
• Accreditation:: Accreditation: model mencerminkan kredibilitas model untuk penggunaan aktual.
Pendekatan ini memastikan bahwa data model mana yang diterapkan mirip dengan data pelatihan.
Indeks stabilitas populasi adalah salah satu langkah untuk memastikan akreditasi sebelum
menggunakan model. Indeks stabilitas populasi adalah ukuran untuk memastikan apakah dataset
pelatihan model mirip dengan data di mana model digunakan, atau populasi stabil sehubungan
dengan fitur yang digunakan dalam model. Nilai indeks bervariasi dari 0 hingga 1, dengan nilai
tinggi menunjukkan kesamaan yang lebih besar antara prediktor dalam dua set data

1. Regresi
Bagian ini didedikasikan untuk kasus-kasus di mana kesalahan residual berada pada continuous
scale. Koefisien determinasi , dilambangkan R 2 atau r 2 dan diucapkan "R Squared", adalah
proporsi dari varians dalam variabel dependen yang dapat diprediksi dari variabel independen. R 2
adalah statistik yang digunakan dalam konteks model statistik yang tujuan utamanya
adalah prediksi hasil di masa depan atau pengujian hipotesis , berdasarkan informasi terkait
lainnya. R 2 memberikan ukuran seberapa baik hasil yang diamati direplikasi oleh model,
berdasarkan proporsi variasi total hasil yang dijelaskan oleh model.

Set data continuous scale memiliki nilai n yang ditandai y1, ...,yn (secara kolektif dikenal
sebagai yi atau sebagai vector y = [ y1, ...,yn]T), masing-masing terkait dengan yang data yang
dimodelkan(atau data prediksi) nilai f1 , ..., f n (dikenal sebagai fi , atau kadang-kadang, i , sebagai
vektor f ).

Nilai residunya sebagai ei = yi - fi (membentuk vektor e ).


maka variabilitas set data dapat diukur menggunakan tiga jumlah rumus kuadrat :
 Jumlah total kuadrat (sebanding dengan varian data):

SStot   ( yi  y )2
i

 Jumlah regresi kuadrat, juga disebut jumlah kuadrat yang dijelaskan :

SSreg   ( fi  y )2
i

SSres   ( yi  fi )2   ei 2
i i

 Definisi koefisien determinasi yang paling umum adalah

SSres
R2  1 
SStot
Misalkan R2= 0,49. Ini menyiratkan bahwa 49% dari variabilitas variabel dependen telah
diperhitungkan, dan 51% sisanya dari variabilitas masih belum dihitung.
Dalam ruang lingkup bab ini, kita akan fokus pada model Multiple R-Squared, Adjusted R-
Squared, dan Root Mean Squared Error.

a. Multiple R-Squared dan Adjusted R-Squared


Multiple R adalah koefisien korelasi. Ini memberitahu Anda seberapa kuat hubungan linier
itu. Misalnya, nilai 1 berarti hubungan positif sempurna dan nilai nol berarti tidak ada hubungan
sama sekali. Ini adalah akar kuadrat dari R kuadrat.

Penggunaan Adjusted R-Squared (satu notasi umum adalah R 2 dilafalkan "R bar squared")
adalah upaya untuk mempertimbangkan fenomena R 2 secara otomatis meningkat ketika variabel
penjelas tambahan ditambahkan ke model. Ini adalah modifikasi karena Henri Theil dari R2 yang
menyesuaikan jumlah istilah penjelas dalam model (p) relatif terhadap jumlah titik data
(n). [13] R2 yang disesuaikan didefinisikan sebagai
n 1
R 2  1  (1  R 2 )
n  p 1

di mana p adalah jumlah total variabel penjelas dalam model (tidak termasuk istilah konstan),
dan n adalah ukuran sampel. Adjusted R-Squared juga dapat ditulis sebagai:
SS res / df e
R2  1
SStot / df t
di mana dft adalah derajat kebebasan n - 1 dari estimasi varians populasi dari variabel dependen,
dan dfe adalah derajat kebebasan n - p - 1 dari estimasi varians kesalahan populasi yang
mendasarinya.

Adjusted R2 dapat diartikan sebagai penaksir yang tidak bias (atau kurang bias) dari populasi R2 ,
sedangkan sampel yang diamati R2 adalah estimasi bias positif dari nilai
populasi. Adjusted R2 lebih tepat ketika mengevaluasi kesesuaian model (varians dalam variabel
dependen yang diperhitungkan oleh variabel independen) dan dalam membandingkan model-
model alternatif dalam tahap pemilihan fitur pembuatan model.

b. RMSE (Root Mean Squared Error)


Root mean square error atau RMSE adalah salah satu metrik paling populer yang digunakan
untuk mengevaluasi model kesalahan kontinu. Seperti namanya, itu adalah akar kuadrat dari rata-
rata kesalahan kuadrat. Fitur paling penting dari metrik ini adalah bahwa kesalahan ditimbang
dengan cara mengkuadratkannya. Sebagai contoh, anggaplah nilai yang diprediksi adalah 5,5
sedangkan nilai aktual adalah 4,1. Maka kesalahannya adalah 1.4 (5.5 - 4.1). Kuadrat dari
kesalahan ini adalah 1,4 x 1,4 = 1,96. Asumsikan skenario lain, di mana nilai yang diprediksi
adalah 6,5, maka kesalahannya adalah 2,4 (6,5 - 4,1), dan kuadrat kesalahan adalah 2,4 x 2,4 =
5,76. Seperti yang Anda lihat, sementara kesalahan hanya berubah 2,4 / 1,4 = 1,7 kali, kesalahan
kuadrat berubah 5,76 / 1,96 = 2,93 kali. Oleh karena itu, RMSE menghitung kesalahan jauh lebih
ketat daripada error biasa.
n

  yˆ  yt 
2
t
RMSE  t 1

2. Klasifikasi
Matriks klasifikasi 2 kelas adalah cara paling intuitif untuk melihat kinerja dari classifier. Matriks
klasifikasi juga disebut dengan confusion matrix. Secara visual dapat dilihat pada Tabel 1 berikut.
Tabel 1. confusion matrix.
Klasifikasi dengan Kelas Prediksi
2 Kelas 1 0
Kelas 1 True Positive(TP) False Negative(FN)
Aktual 0 False Positive(FP) True Negative(TN)

True Positive adalah jumlah data dari kelas actual 1, tepat terprediksi dikelas 1 juga oleh Model.
True Negative adalah jumlah data dari kelas actual 0, tepat terprediksi di kelas 0 oleh Model. False
Positive adalah jumlah data dari kelas actual 0, namun terprediksi dikelas 1 oleh Model. False
Negative adalah jumlah data dari kelas actual 1, namun terprediksi dikelas 0 oleh Model.
1. Accuracy
Akurasi adalah fraksi dari model memberikan nilai predikasi yang benar. Secara formal, akurasi
memiliki definisi berikut.
Jumlah prediksi yang benar
Akurasi 
Total jumlah prediksi
TP  TN
Accuracy 
TP  TN  FP  FN

2. Sensitivity/ Recall
Sensitivitas dan spesifisitas digunakan untuk mengukur kinerja model pada kelas positif dan
negatif secara terpisah. Langkah-langkah ini memungkinkan Anda untuk menentukan kinerja
model pada populasi positif dan negatif secara terpisah. Notasi matematika membantu
memperjelas langkah-langkah ini bersama dengan matriks klasifikasi:
Sensitivitas: Probabilitas bahwa tes akan menunjukkan kelas True sebagai Benar di antara yang
sebenarnya benar. Disebut juga True Positive Rate (TPR) dan dalam pengenalan pola disebut
presisi. Sensitivitas dapat dihitung dari matriks klasifikasi (lihat Gambar 7-7).
Sensitivitas, True Positive Rate (TPR) = Identifikasi Positif / Total Positif
= TP / (TP + FN)
3. Specificity
Spesifisitas: Probabilitas bahwa tes akan menunjukkan bahwa kelas False adalah di antara False
yang sebenarnya. Disebut juga True Negative Rate (TNR) dan dalam pengenalan pola, disebut
recall.
Specificity, True Negative Rate (TNR) = Correctly Rejected/Total Negatives
= TN/(TN+FP)
4. PosNegative Value/ Precision
Precision mencoba menjawab pertanyaan berikut: Berapa proporsi identifikasi positif yang
benar? Precision didefinisikan sebagai berikut:
FP TP
FPR  Precision 
FP  TN TP  FP
5. Area under curve ROC
Kurva ROC (kurva karakteristik operasi penerima) adalah grafik yang menunjukkan kinerja
model klasifikasi di semua ambang klasifikasi. Kurva ini memplot dua parameter :
 True Positive Rate, dapat dilihat kembali ke point 2 (Sensitivity/ Recall)
 False Positive Rate (FPR), dimana nilai FPR dapat didefinisikan sebagai berikut :
FP
FPR 
FP  TN

Kurva ROC memplot TPR vs FPR pada ambang klasifikasi yang berbeda. Dengan
menurunkan ambang klasifikasi mengklasifikasikan lebih banyak item sebagai positif,
sehingga meningkatkan False Positives dan True Positives. Gambar berikut menunjukkan
kurva ROC yang khas.

AUC singkatan dari "Area under the ROC Curve (Area di bawah Kurva ROC)" Yaitu, AUC
mengukur seluruh area dua dimensi di bawah seluruh kurva ROC (pikirkan kalkulus integral) dari
(0,0) hingga (1,1).

AUC menyediakan ukuran kinerja keseluruhan di semua ambang klasifikasi yang memungkinkan.
Salah satu cara menafsirkan AUC adalah sebagai probabilitas bahwa model tersebut memberi
peringkat contoh positif acak lebih tinggi daripada contoh negatif acak.

Anda mungkin juga menyukai