Evaluasi
Ionia Veritawati
Evaluasi
• Issues: training, testing, tuning
• Predicting performance: confidence limits
• Holdout, cross-validation
• Comparing machine learning schemes
• Predicting probabilities
• Evaluating numeric prediction
• The minimum description length principle
• Model selection using a validation set
2
Data Mining-Practical Machine Learning Tools and Techniques Chapter 5 ,I. H. Witten, E. Frank, et. al
Evaluasi: kunci kesuksesan
4
Training dan testing I
5
Training dan testing II
6
Catatan tentang parameter tuning
(penyetelan parameter)
• Adalah penting bahwa data uji /test data tidak digunakan
dengan cara apa pun untuk membuat classifier
• Beberapa skema pembelajaran (learning) beroperasi dalam
dua tahap::
• Tahap 1: membangun struktur dasar
Tahap 2: mengoptimalkan pengaturan parameter (parameter
setting)
• Data uji /test tidak dapat digunakan untuk parameter
tuning!
• Prosedur yang tepat menggunakan tiga set: training data,
validation data, dan test data
• Validation data digunakan untuk mengoptimalkan parameter
7
Membuat sebagian besar data
• Setelah evaluasi selesai, semua data dapat digunakan untuk
membangun classifier final
• Secara umum, semakin besar data training / pelatihan,
semakin baik classifier (tetapi pengembalian berkurang)
• Semakin besar data test / uji, semakin akurat estimasi
kesalahan
• Prosedur Holdout: metode pemisahan data asli ke dalam
data training dan data test
• Dilemma: idealnya kedua set , data training dan data test harus
besar!
8
Memprediksi kinerja (performance)
9
Interval Confidence
10
Mean dan variance
• Mean dan variance untuk percobaan Bernoulli :
p, p (1–p)
• Tingkat keberhasilan yang diharapkan (Expected success
rate) f=S/N
• Mean dan variance untuk f : p, p (1–p)/N
• Untuk N yang Cukup besar, f mengikuti distribusi Normal
• c% interval confidence [–z X z] untuk variabel acak X
ditentukan menggunakan :
11
Batas Confidence
• Batas Confidence untuk distribusi normal dengan mean
0 dan variance 1: Pr[X z] z
0.1% 3.09
0.5% 2.58
1% 2.33
5% 1.65
10% 1.28
20% 0.84
40% 0.25
• Jadi :
13
Contoh
14
Estimasi Holdout
• Apa yang harus dilakukan jika hanya memiliki satu dataset?
• Metode holdout cadangkan jumlah tertentu untuk testing /
pengujian dan menggunakan sisanya untuk training /
pelatihan, setelah mengocok / shuffling
• Biasanya: sepertiga untuk pengujian, sisanya untuk pelatihan
• Masalah: sampel mungkin tidak representatif
• Contoh: kelas mungkin tidak ada dalam data test
• Versi lanjutan menggunakan stratifikasi
• Pastikan bahwa setiap kelas diwakili dengan proporsi yang kira-kira
sama di kedua himpunan bagian (subset)
15
Metode holdout berulang
• Estimate Holdout dapat dibuat lebih andal dengan
mengulangi proses dengan subsampel yang berbeda
• Dalam setiap iterasi, proporsi tertentu dipilih secara acak
untuk pelatihan (mungkin dengan stratifikasi)
• Tingkat kesalahan (Error rate) pada iterasi yang berbeda
dirata-rata untuk menghasilkan error rate keseluruhan
• Ini disebut metode holdout berulang
• Masih belum optimal: set test yang berbeda overlap
• Bisakah dicegah overlapping?
16
Cross-validation
• K-fold cross-validation menghindari set test yang overlapping
• Langkah pertama: pisahkan data menjadi k subset dengan ukuran yang
sama
• Langkah kedua: gunakan setiap subset secara bergantian untuk
pengujian, sisanya untuk pelatihan
• Ini berarti algoritma pembelajaran diterapkan untuk k set pelatihan
yang berbeda
• Seringkali himpunan bagian dikelompokkan sebelum cross-
validation (validasi silang) dilakukan untuk menghasilkan
stratified validasi k-fold
• Perkiraan kesalahan (error) dirata-rata untuk menghasilkan
perkiraan kesalahan keseluruhan; juga, standar deviasi sering
dihitung
• Atau, prediksi dan nilai target aktual dari k folds dikumpulkan
untuk menghitung satu perkiraan / estimasi
• Tidak menghasilkan estimasi standar deviasi
17
lebih lanjut tentang cross-validation
18
Leave-one-out cross-validation
• Leave-one-out:
bentuk khusus dari k-fold cross-validation:
• Atur jumlah folds ke jumlah instance pelatihan
• yaitu., untuk instance training , membangun classifier n kali
• Manfaatkan data dengan sebaik-baiknya
• Tidak melibatkan subsampling acak
• Sangat mahal secara komputasi (pengecualian:
menggunakan lazy classifiers such as the nearest-neighbor
classifier) / seperti pengklasifikasi tetangga terdekat)
19
Leave-one-out CV dan stratifikasi
20
Memprediksi probabilitas
• Ukuran kinerja sejauh ini: tingkat keberhasilan / success rate
• Disebut juga loss function 0-1:
21
loss function Kuadratik
• p1 … pk adalah estimasi probabilitas untuk suatu instance
• c adalah indeks dari kelas aktual instance
• a1 … ak = 0, kecuali untuk ac dimana adalah 1
• loss Kuadratik adalah:
• Ingin meminimumkan
22
loss function Informasi
• loss function Informasi adalah –log(pc),
di mana c adalah indeks dari kelas aktual instance
• Jumlah bit yang diperlukan untuk mengkomunikasikan
kelas yang sebenarnya
• Misal p1* … pk* adalah probabilitas kelas yang sebenarnya
• Maka nilai yang diharapkan untuk loss function adalah:
24
Menghitung biaya / cost
• confusion matrix:
Predicted class
Yes No
Actual class Yes True positive False negative
No False positive True negative
25
Lift chart
• Dalam praktiknya, biaya / cost jarang diketahui
• Keputusan biasanya dibuat dengan membandingkan
skenario yang memungkinkan
• Contoh: surat promosi ke 1.000.000 rumah tangga
• Kirim email ke semua; 0,1% merespon (1000)
• Tool Data Mining mengidentifikasi subset dari 100.000 yang paling
menjanjikan, 0,4% dari tanggapan (respon) ini (400)
• 40% dari respon untuk 10% dari biaya mungkin terbayar
• Identifikasi subset dari 400.000, respon 0,2% (800)
• lift chart memungkinkan perbandingan visual
26
Menghasilkan lift chart
• Sortir instance berdasarkan probabilitas yang diprediksi akan
positif:
29
Interactive cost-benefit analysis:
Contoh II
30
Kurva ROC
31
Contoh Kurva ROC
33
Kurva ROC untuk dua Skema
35
Pengukuran lebih lanjut...
• Persentase dokumen yang diambil (retrieved documents)
yang relevan : precision=TP/(TP+FP)
• dokumen yang relevan (relevant documents ) yang
dikembalikan (returned):
recall =TP/(TP+FN)
• Kurva Precision/recall memiliki bentuk hiperbolik
• Ringkasan pengukuran: average precision pada 20%, 50%
dan 80% recall (three-point average recall)
• F-measure=(2 × recall × precision)/(recall+precision)
• sensitivity × specificity = (TP / (TP + FN)) × (TN / (FP + TN))
• Area under the ROC curve (AUC):
probabilitas dimana instance positif yang dipilih secara
acak berada di atas instance yang negatif yang dipilih
secara acak 36
Ringkasan beberapa pengukuran
37
Mengevaluasi prediksi numerik
• Strategi yang sama : independent test set, cross-
validation, significance tests,dll.
• Perbedaan: pengukuran kesalahan / error
• Nilai target aktual : a1 a2 …an
• Nilai target yang diprediksi : p1 p2 … pn
• Pengukuran paling populer : mean-squared error
38
Pengukuran Lain
• root mean-squared error :
39
Perbaikan Rata-rata / mean
40
Koefisien korelasi
A B C D
Root mean-squared error 67.8 91.7 63.3 57.4
Mean absolute error 41.3 38.5 33.4 29.2
Root rel squared error 42.2% 57.2% 39.4% 35.8%
Relative absolute error 43.1% 40.1% 34.8% 30.4%
Correlation coefficient 0.88 0.88 0.89 0.91
• D best
• C second-best
• A, B arguable
42
Prinsip MDL
• MDL singkatan dari minimum description length
• description length didefinisikan sebagai:
ruang yang diperlukan untuk menggambarkan teori
+
ruang yang diperlukan untuk menggambarkan kesalahan teori
• Dalam kasus kita, teorinya adalah classifier dan kesalahan
(mistake) adalah kesalahan / error pada data training
• Tujuan: mencari classifier dengan DL minimal
• Prinsip MDL adalah kriteria pemilihan model / model selection
criterion
• Memungkinkan kita untuk memilih classifier dari
kompleksitas yang sesuai untuk memerangi overfitting
43
Model selection criteria
• Model selection criteria / Kriteria pemilihan model berupaya
menemukan kompromi yang baik antara:
• Kompleksitas suatu model
• Keakuratan (accuracy) prediksi pada data training
• Penalaran: model yang baik adalah model sederhana yang
mencapai akurasi (accuracy) tinggi pada data yang diberikan
• Juga dikenal sebagai Occam's Razor:
teori terbaik adalah yang terkecil yang menjelaskan semua fakta
44
Elegance vs. error
45
MDL dan kompresi
• Prinsip MDL terkait dengan kompresi data :
• Teori terbaik adalah teori yang paling mengompresi data
• Dalam supervised learning, to compress the labels of a dataset,
untuk mengompresi label dataset, dibuat model dan kemudian
disimpan model dan kesalahannya /mistake
• Kita perlu menghitung
(a) ukuran /size model, dan
(b) ruang yang diperlukan untuk mengkodekan kesalahan /
error
• (c) mudah: menggunakan informational loss function
• (d) perlu metode untuk mengkodekan model
46
MDL dan Teorema Bayes
• L[T]=“length” teori
• L[E|T]=training set dikodekan dengan teori
• Description length=
• Teorema Bayes apat digunakan untuk mendapatkan posteriori
probability dari teori yang diberikan (given) data :
• Dekivalen dengan:
constant
47
MDL dan MAP
• MAP singkatan dari maximum a posteriori probability
• Pendekatan probabilistik untuk pemilihan model / model
selection
• Menemukan teori MAP sama dengan menemukan teori
MDL, dengan asumsi skema pengkodean sesuai dengan
sebelumnya
• Agak sulit dalam menerapkan prinsip MAP: menentuka prior
probability P(T) dari teori
• Berkaitan dengan bagian yang sulit dalam menerapkan
prinsip MDL: skema pengkodean untuk teori
• Korespondensi jelas: jika kita tahu a priori bahwa teori
tertentu lebih mungkin, kita perlu lebih sedikit bit untuk
menyandikannya 48
Diskusi Prinsip MDL
49
Note : clustering – next chapter
MDL dan Clustering
• Pemilihan model dalam clustering: menemukan jumlah
cluster yang paling tepat untuk memodelkan data
• Deskripsi panjang teori:
bits yang diperlukan untuk meng-encode cluster
• mis., pusat cluster
• Description length dari data yang diberikan (given) teori:
mengkodekan keanggotaan cluster dan posisi relatif
terhadap cluster
• mis., jarak ke pusat cluster
• Bekerja jika skema pengkodean menggunakan lebih sedikit
ruang kode untuk jumlah kecil daripada untuk jumlah yang
besar
• Dengan atribut nominal, harus mengkomunikasikan
distribusi probabilitas untuk setiap cluster
50
Menggunakan set validasi untuk pemilihan
model / model selection
• Prinsip MDL adalah salah satu contoh model selection criterion
• Model selection: menemukan kompleksitas model yang
tepat
• Masalah pemilihan model klasik dalam statistik:
• Menemukan subset atribut untuk digunakan dalam model regresi
linier (ya, regresi linier dapat overfit!)
• Masalah pemilihan model lainnya: : memilih ukuran decision
tree atau artificial neural network
• Banyak kriteria pemilihan model, berdasarkan berbagai asumsi
teoritis
• Pendekatan pemilihan model sederhana: gunakan set validasi
• Gunakan kompleksitas model yang menghasilkan kinerja terbaik pada
set validasi
• Pendekatan alternatif ketika data langka / jarang: internal
cross-validation 51