Anda di halaman 1dari 51

Data Warehouse Data Mining

Evaluasi

Ionia Veritawati
Evaluasi
• Issues: training, testing, tuning
• Predicting performance: confidence limits
• Holdout, cross-validation
• Comparing machine learning schemes
• Predicting probabilities
• Evaluating numeric prediction
• The minimum description length principle
• Model selection using a validation set

2
Data Mining-Practical Machine Learning Tools and Techniques Chapter 5 ,I. H. Witten, E. Frank, et. al
Evaluasi: kunci kesuksesan

• Seberapa prediktif - model yang telah kita pelajari?


• Kesalahan (error) pada data pelatihan (training data) bukan
merupakan indikator kinerja yang baik pada data masa
depan
• Kalau tidak 1-NN akan menjadi classifier optimal!
• Solusi sederhana yang dapat digunakan jika tersedia
sejumlah besar data (berlabel):
Membagi data (split) menjadi set training (pelatihan) dan set
test (uji)
• Namun: data (berlabel) biasanya terbatas
• Teknik yang lebih canggih perlu digunakan
3
Issues in evaluation

• Statistical reliability of estimated differences in performance


( significance tests)
• Choice of performance measure:
• Number of correct classifications
• Accuracy of probability estimates
• Error in numeric predictions
• Costs assigned to different types of errors
• Many practical applications involve costs

4
Training dan testing I

• Ukuran kinerja alami untuk masalah klasifikasi: tingkat


kesalahan (error rate)
• Sukses: kelas instance diprediksi dengan benar
• Kesalahan (Error): kelas instance diprediksi salah
• tingkat kesalahan (Error rate): proporsi kesalahan yang terjadi
pada seluruh set instance
• Kesalahan penggantian (Resubstitution error): error rate
diperoleh dengan mengevaluasi model pada data
pelatihan (training data)
• Resubstitution error (tidak) optimis!

5
Training dan testing II

• Set Test : instance independen yang tidak berperan dalam


pembentukan classifier
• Asumsi: data training dan data test adalah sampel representatif
dari masalah yang mendasarinya
• DataTest dan data training (pelatihan) mungkin berbeda
sifatnya
• Contoh: pengklasifikasi dibangun menggunakan data pelanggan
dari dua kota yang berbeda A dan B
Untuk memperkirakan kinerja classifier dari kota A di kota yang
benar-benar baru, ujilah pada data dari B

6
Catatan tentang parameter tuning
(penyetelan parameter)
• Adalah penting bahwa data uji /test data tidak digunakan
dengan cara apa pun untuk membuat classifier
• Beberapa skema pembelajaran (learning) beroperasi dalam
dua tahap::
• Tahap 1: membangun struktur dasar
Tahap 2: mengoptimalkan pengaturan parameter (parameter
setting)
• Data uji /test tidak dapat digunakan untuk parameter
tuning!
• Prosedur yang tepat menggunakan tiga set: training data,
validation data, dan test data
• Validation data digunakan untuk mengoptimalkan parameter

7
Membuat sebagian besar data
• Setelah evaluasi selesai, semua data dapat digunakan untuk
membangun classifier final
• Secara umum, semakin besar data training / pelatihan,
semakin baik classifier (tetapi pengembalian berkurang)
• Semakin besar data test / uji, semakin akurat estimasi
kesalahan
• Prosedur Holdout: metode pemisahan data asli ke dalam
data training dan data test
• Dilemma: idealnya kedua set , data training dan data test harus
besar!

8
Memprediksi kinerja (performance)

• Asumsikan Perkiraan tingkat kesalahan (error rate ) adalah


25%. Seberapa dekat ini dengan tingkat kesalahan (error rate)
sebenarnya?
• Tergantung pada jumlah data test
• Prediksi seperti melempar koin (bias!)
• “Kepala” adalah “sukses”, “ekor” adalah“error”
• Dalam statistik, suksesi peristiwa independen seperti ini
disebut proses Bernoulli
• Teori statistik memberi kita interval kepercayaan (confidence) untuk
proporsi dasar yang sebenarnya

9
Interval Confidence

• Dapat dikatakan: p terletak dalam interval tertentu dengan


kepercayaan (confidence) tertentu
• Contoh: S = 750 keberhasilan dalam N = 1000 percobaan
• Perkiraan Tingkat keberhasilan ( success rate) : 75%
• Seberapa dekat ini dengan tingkat keberhasilan ( success rate) yang
benar p?
• Jawaban: dengan 80% confidence p terletak di [73.2,76.7]
• Contoh lain: S = 75 dan N = 100
• Perkiraan Tingkat keberhasilan ( success rate) : 75%
• Dengan 80% confidence p dalam [69.1,80.1]

10
Mean dan variance
• Mean dan variance untuk percobaan Bernoulli :
p, p (1–p)
• Tingkat keberhasilan yang diharapkan (Expected success
rate) f=S/N
• Mean dan variance untuk f : p, p (1–p)/N
• Untuk N yang Cukup besar, f mengikuti distribusi Normal
• c% interval confidence [–z X z] untuk variabel acak X
ditentukan menggunakan :

• Untuk distribusi simetris seperti distribusi normal yang


kami mempunyai : P(-z £ X £ z) =1- 2 ´ P(x ³ 2)

11
Batas Confidence
• Batas Confidence untuk distribusi normal dengan mean
0 dan variance 1: Pr[X  z] z
0.1% 3.09
0.5% 2.58
1% 2.33
5% 1.65
10% 1.28
20% 0.84
40% 0.25

• Jadi :

• Untuk menggunakan ini, harus diubah variabel acak f


untuk mempunyai mean 0 dan variance unit
12
Transformasi f

• Nilai yang ditransformasi untuk f :

(mis., kurangi mean dan bagi dengan deviasi standar)

• Persamaan yang dihasilkan :

• Pemecahan untuk p menghasilkan ekspresi untuk batas


confidence :

13
Contoh

• f = 75%, N = 1000, c = 80% (maka z = 1.28):

• f = 75%, N = 100, c = 80% (maka z = 1.28):


𝑝 ∈ 0.691,0.801

• Perhatikan bahwa asumsi distribusi normal hanya berlaku


untuk N yang besar (i.e., N > 100)
• f = 75%, N = 10, c = 80% (maka z = 1.28):
𝑝 ∈ 0.549,0.881

14
Estimasi Holdout
• Apa yang harus dilakukan jika hanya memiliki satu dataset?
• Metode holdout cadangkan jumlah tertentu untuk testing /
pengujian dan menggunakan sisanya untuk training /
pelatihan, setelah mengocok / shuffling
• Biasanya: sepertiga untuk pengujian, sisanya untuk pelatihan
• Masalah: sampel mungkin tidak representatif
• Contoh: kelas mungkin tidak ada dalam data test
• Versi lanjutan menggunakan stratifikasi
• Pastikan bahwa setiap kelas diwakili dengan proporsi yang kira-kira
sama di kedua himpunan bagian (subset)

15
Metode holdout berulang
• Estimate Holdout dapat dibuat lebih andal dengan
mengulangi proses dengan subsampel yang berbeda
• Dalam setiap iterasi, proporsi tertentu dipilih secara acak
untuk pelatihan (mungkin dengan stratifikasi)
• Tingkat kesalahan (Error rate) pada iterasi yang berbeda
dirata-rata untuk menghasilkan error rate keseluruhan
• Ini disebut metode holdout berulang
• Masih belum optimal: set test yang berbeda overlap
• Bisakah dicegah overlapping?

16
Cross-validation
• K-fold cross-validation menghindari set test yang overlapping
• Langkah pertama: pisahkan data menjadi k subset dengan ukuran yang
sama
• Langkah kedua: gunakan setiap subset secara bergantian untuk
pengujian, sisanya untuk pelatihan
• Ini berarti algoritma pembelajaran diterapkan untuk k set pelatihan
yang berbeda
• Seringkali himpunan bagian dikelompokkan sebelum cross-
validation (validasi silang) dilakukan untuk menghasilkan
stratified validasi k-fold
• Perkiraan kesalahan (error) dirata-rata untuk menghasilkan
perkiraan kesalahan keseluruhan; juga, standar deviasi sering
dihitung
• Atau, prediksi dan nilai target aktual dari k folds dikumpulkan
untuk menghitung satu perkiraan / estimasi
• Tidak menghasilkan estimasi standar deviasi
17
lebih lanjut tentang cross-validation

• Metode standar untuk evaluasi:stratified ten-fold cross-


validation
• Mengapa sepuluh?
• Eksperimen ekstensif telah menunjukkan bahwa ini adalah
pilihan terbaik untuk mendapatkan perkiraan yang akurat
• Ada juga beberapa bukti teoritis untuk ini
• Stratifikasi mengurangi varians estimasi
• Bahkan lebih baik: repeated stratified cross-validation
(berulang)
• misal, ten-fold cross-validation diulang sepuluh kali dan hasilnya
dirata-rata (mengurangi variance)

18
Leave-one-out cross-validation

• Leave-one-out:
bentuk khusus dari k-fold cross-validation:
• Atur jumlah folds ke jumlah instance pelatihan
• yaitu., untuk instance training , membangun classifier n kali
• Manfaatkan data dengan sebaik-baiknya
• Tidak melibatkan subsampling acak
• Sangat mahal secara komputasi (pengecualian:
menggunakan lazy classifiers such as the nearest-neighbor
classifier) / seperti pengklasifikasi tetangga terdekat)

19
Leave-one-out CV dan stratifikasi

• Kerugian CV Leave-one-out CV: stratifikasi tidak


dimungkinkan
• Ini menjamin sampel non-stratified karena hanya ada satu
instance di set test
• Contoh ekstrem: dataset acak dibagi (split) secara
merata menjadi dua kelas
• Induser terbaik memprediksi kelas mayoritas
50% akurasi pada data fresh
• Estimasi Leave-one-out CV memberikan error 100%!!

20
Memprediksi probabilitas
• Ukuran kinerja sejauh ini: tingkat keberhasilan / success rate
• Disebut juga loss function 0-1:

• Sebagian besar classifier menghasilkan probabilitas kelas


• Bergantung pada aplikasinya, kita mungkin ingin memeriksa
keakuratan (accuracy) estimasi probabilitas
• Loss (Kehilangan) 0-1 bukanlah hal yang tepat untuk digunakan
dalam kasus-kasus itu

21
loss function Kuadratik
• p1 … pk adalah estimasi probabilitas untuk suatu instance
• c adalah indeks dari kelas aktual instance
• a1 … ak = 0, kecuali untuk ac dimana adalah 1
• loss Kuadratik adalah:

• Ingin meminimumkan

• Dapat menunjukkan bahwa nilai yang diharapkan /


expected value saat ini diminimalkan pj = pj*, di mana
yang terakhir adalah probabilitas yang benar :

22
loss function Informasi
• loss function Informasi adalah –log(pc),
di mana c adalah indeks dari kelas aktual instance
• Jumlah bit yang diperlukan untuk mengkomunikasikan
kelas yang sebenarnya
• Misal p1* … pk* adalah probabilitas kelas yang sebenarnya
• Maka nilai yang diharapkan untuk loss function adalah:

• Pembenaran untuk loss informasi adalah bahwa ini


diminimalkan ketika pj = pj*:

• Kesulitan dengan loss informasi : masalah frekuensi nol


23
Menghitung biaya / cost

• Dalam praktiknya, berbagai jenis kesalahan klasifikasi


sering kali menimbulkan biaya yang berbeda
o Contoh:
• Profil teroris: "Bukan teroris" benar 99,99 ...%
• Keputusan pinjaman
• Deteksi minyak-licin
• Diagnosis kesalahan
• Surat promosi

24
Menghitung biaya / cost

• confusion matrix:

Predicted class
Yes No
Actual class Yes True positive False negative
No False positive True negative

• Biaya kesalahan klasifikasi / misclassification yang


berbeda dapat disebut false positive dan false negative
• Ada banyak jenis biaya / cost lainnya!
• Misalnya, biaya pengumpulan data training

25
Lift chart
• Dalam praktiknya, biaya / cost jarang diketahui
• Keputusan biasanya dibuat dengan membandingkan
skenario yang memungkinkan
• Contoh: surat promosi ke 1.000.000 rumah tangga
• Kirim email ke semua; 0,1% merespon (1000)
• Tool Data Mining mengidentifikasi subset dari 100.000 yang paling
menjanjikan, 0,4% dari tanggapan (respon) ini (400)
• 40% dari respon untuk 10% dari biaya mungkin terbayar
• Identifikasi subset dari 400.000, respon 0,2% (800)
• lift chart memungkinkan perbandingan visual

26
Menghasilkan lift chart
• Sortir instance berdasarkan probabilitas yang diprediksi akan
positif:

• sumbu x dalam lift chart adalah ukuran sampel untuk setiap


ambang / threshold probabilitas
• Sumbu y adalah jumlah positif sebenarnya (true positive) di atas
ambang batas /threshold 27
lift chart hipotetis

40% of responses 80% of responses


for 10% of cost for 40% of cost
28
Interactive cost-benefit analysis:
Contoh I

29
Interactive cost-benefit analysis:
Contoh II

30
Kurva ROC

• Kurva ROC mirip dengan lift charts


• Singkatan dari “receiver operating characteristic”
• Digunakan dalam deteksi sinyal untuk menunjukkan tradeoff
antara hit rate dan false alarm rate pada noisy channel
• Perbedaan terhadap lift chart:
• Sumbu y menunjukkan persentase true positive (TP) dalam sampel
daripada angka absolut
• Sumbu x menunjukkan persentase false positive (FP) dalam sampel
daripada ukuran sampel

31
Contoh Kurva ROC

• Kurva bergerigi — satu set data test


• Kurva yang lebih halus — menggunakan cross-validation
32
Cross-validation dan Kurva ROC

• Metode sederhana untuk mendapatkan kurva ROC


menggunakan cross-validation:
• Kumpulkan probabilitas untuk instance dalam test folds
• Urutkan instance sesuai dengan probabilitas
• Metode ini diterapkan di WEKA
• Namun, ini hanya satu kemungkinan
• Kemungkinan lain adalah untuk menghasilkan kurva ROC untuk
setiap fold dan merata-ratakannya

33
Kurva ROC untuk dua Skema

• Untuk sampel kecil yang fokus, gunakan metode A


• Untuk yang lebih besar, gunakan metode B
• pilih antara A dan B dengan probabilitas yang sesuai
34
convex hull
• Dengan dua skema pembelajaran, kita dapat mencapai titik
mana pun pada convex hull!
• TP and FP rates untuk skema 1: t1 dan f1
• TP and FP rates untuk skema 2: t2 dan f2
• Jika skema 1 digunakan untuk memprediksi 100 × q% dari
kasus dan skema 2 untuk sisanya, maka
• TP rate untuk skema gabungan:
q × t1 + (1-q) × t2
• FP rate untuk skema gabungan:
q × f1+(1-q) × f2

35
Pengukuran lebih lanjut...
• Persentase dokumen yang diambil (retrieved documents)
yang relevan : precision=TP/(TP+FP)
• dokumen yang relevan (relevant documents ) yang
dikembalikan (returned):
recall =TP/(TP+FN)
• Kurva Precision/recall memiliki bentuk hiperbolik
• Ringkasan pengukuran: average precision pada 20%, 50%
dan 80% recall (three-point average recall)
• F-measure=(2 × recall × precision)/(recall+precision)
• sensitivity × specificity = (TP / (TP + FN)) × (TN / (FP + TN))
• Area under the ROC curve (AUC):
probabilitas dimana instance positif yang dipilih secara
acak berada di atas instance yang negatif yang dipilih
secara acak 36
Ringkasan beberapa pengukuran

Domain Plot Explanation

Lift chart Marketing TP TP


Subset (TP+FP)/(TP+FP+TN
size +FN)
Kurva ROC Communications TP rate TP/(TP+FN)
FP rate FP/(FP+TN)
Kurva Information Recall TP/(TP+FN)
Recall- retrieval Precision TP/(TP+FP)
precision

37
Mengevaluasi prediksi numerik
• Strategi yang sama : independent test set, cross-
validation, significance tests,dll.
• Perbedaan: pengukuran kesalahan / error
• Nilai target aktual : a1 a2 …an
• Nilai target yang diprediksi : p1 p2 … pn
• Pengukuran paling populer : mean-squared error

• Mudah untuk memanipulasi secara matematis

38
Pengukuran Lain
• root mean-squared error :

• mean absolute error kurang sensitif terhadap outlier


daripada mean-squared error:

• Terkadang nilai kesalahan relatif / relative error lebih tepat


(mis. 10% untuk kesalahan / error 50 saat memperkirakan
500)

39
Perbaikan Rata-rata / mean

• Seberapa skema memperbaiki prediksi rata-rata?


• relative squared error :

• root relative squared error dan relative absolute error :

40
Koefisien korelasi

Mengukur korelasi statistik antara nilai prediksi dan nilai


aktual

• Skala independen, antara –1 dan +1


• Performa yang bagus mengarah ke nilai yang besar!
41
Pengukuran yang mana?
• Sangat baik untuk melihat semuanya
• Seringkali itu tidak masalah
• Contoh:

A B C D
Root mean-squared error 67.8 91.7 63.3 57.4
Mean absolute error 41.3 38.5 33.4 29.2
Root rel squared error 42.2% 57.2% 39.4% 35.8%
Relative absolute error 43.1% 40.1% 34.8% 30.4%
Correlation coefficient 0.88 0.88 0.89 0.91

• D best
• C second-best
• A, B arguable
42
Prinsip MDL
• MDL singkatan dari minimum description length
• description length didefinisikan sebagai:
ruang yang diperlukan untuk menggambarkan teori
+
ruang yang diperlukan untuk menggambarkan kesalahan teori
• Dalam kasus kita, teorinya adalah classifier dan kesalahan
(mistake) adalah kesalahan / error pada data training
• Tujuan: mencari classifier dengan DL minimal
• Prinsip MDL adalah kriteria pemilihan model / model selection
criterion
• Memungkinkan kita untuk memilih classifier dari
kompleksitas yang sesuai untuk memerangi overfitting

43
Model selection criteria
• Model selection criteria / Kriteria pemilihan model berupaya
menemukan kompromi yang baik antara:
• Kompleksitas suatu model
• Keakuratan (accuracy) prediksi pada data training
• Penalaran: model yang baik adalah model sederhana yang
mencapai akurasi (accuracy) tinggi pada data yang diberikan
• Juga dikenal sebagai Occam's Razor:
teori terbaik adalah yang terkecil yang menjelaskan semua fakta

William dari Ockham, lahir di desa Ockham di Surrey (Inggris)


sekitar 1285, adalah filsuf paling berpengaruh pada abad ke-
14 dan seorang teolog kontroversial.

44
Elegance vs. error

• Teori 1: teori yang sangat sederhana dan elegan yang


menjelaskan data dengan hampir sempurna
• Teori 2: teori yang jauh lebih kompleks yang mereproduksi
data tanpa kesalahan / mistake
• Teori 1 mungkin lebih disukai
• Contoh klasik: Tiga hukum Kepler tentang gerakan planet
• Kurang akurat daripada penyempurnaan terbaru Copernicus tentang
teori epolekul Ptolema pada data yang tersedia pada saat itu

45
MDL dan kompresi
• Prinsip MDL terkait dengan kompresi data :
• Teori terbaik adalah teori yang paling mengompresi data
• Dalam supervised learning, to compress the labels of a dataset,
untuk mengompresi label dataset, dibuat model dan kemudian
disimpan model dan kesalahannya /mistake
• Kita perlu menghitung
(a) ukuran /size model, dan
(b) ruang yang diperlukan untuk mengkodekan kesalahan /
error
• (c) mudah: menggunakan informational loss function
• (d) perlu metode untuk mengkodekan model

46
MDL dan Teorema Bayes
• L[T]=“length” teori
• L[E|T]=training set dikodekan dengan teori
• Description length=
• Teorema Bayes apat digunakan untuk mendapatkan posteriori
probability dari teori yang diberikan (given) data :

• Dekivalen dengan:

constant

47
MDL dan MAP
• MAP singkatan dari maximum a posteriori probability
• Pendekatan probabilistik untuk pemilihan model / model
selection
• Menemukan teori MAP sama dengan menemukan teori
MDL, dengan asumsi skema pengkodean sesuai dengan
sebelumnya
• Agak sulit dalam menerapkan prinsip MAP: menentuka prior
probability P(T) dari teori
• Berkaitan dengan bagian yang sulit dalam menerapkan
prinsip MDL: skema pengkodean untuk teori
• Korespondensi jelas: jika kita tahu a priori bahwa teori
tertentu lebih mungkin, kita perlu lebih sedikit bit untuk
menyandikannya 48
Diskusi Prinsip MDL

• Keuntungan: memanfaatkan sepenuhnya data training saat


memilih model
• Kerugian 1: skema pengkodean yang tepat / probabilitas
sebelumnya (prior probabilities) untuk teori sangat penting
Kerugian 2: tidak ada jaminan bahwa teori MDL adalah teori
yang meminimalkan kesalahan / error yang diharapkan
• Catatan: Occam’s Razor adalah aksioma!
• Prinsip Epicurus tentang berbagai penjelasan: pertahankan
semua teori yang konsisten dengan data

49
Note : clustering – next chapter
MDL dan Clustering
• Pemilihan model dalam clustering: menemukan jumlah
cluster yang paling tepat untuk memodelkan data
• Deskripsi panjang teori:
bits yang diperlukan untuk meng-encode cluster
• mis., pusat cluster
• Description length dari data yang diberikan (given) teori:
mengkodekan keanggotaan cluster dan posisi relatif
terhadap cluster
• mis., jarak ke pusat cluster
• Bekerja jika skema pengkodean menggunakan lebih sedikit
ruang kode untuk jumlah kecil daripada untuk jumlah yang
besar
• Dengan atribut nominal, harus mengkomunikasikan
distribusi probabilitas untuk setiap cluster
50
Menggunakan set validasi untuk pemilihan
model / model selection
• Prinsip MDL adalah salah satu contoh model selection criterion
• Model selection: menemukan kompleksitas model yang
tepat
• Masalah pemilihan model klasik dalam statistik:
• Menemukan subset atribut untuk digunakan dalam model regresi
linier (ya, regresi linier dapat overfit!)
• Masalah pemilihan model lainnya: : memilih ukuran decision
tree atau artificial neural network
• Banyak kriteria pemilihan model, berdasarkan berbagai asumsi
teoritis
• Pendekatan pemilihan model sederhana: gunakan set validasi
• Gunakan kompleksitas model yang menghasilkan kinerja terbaik pada
set validasi
• Pendekatan alternatif ketika data langka / jarang: internal
cross-validation 51

Anda mungkin juga menyukai