10 Top Algo DM
10 Top Algo DM
Halaman 1
Isi
Kontributor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . xiii
1 C4.5. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
Naren Ramakrishnan
2 K - Berarti. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
Joydeep Ghosh dan Alexander Liu
4 Apriori. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
Hiroshi Motoda dan Kouzou Ohara
5 EM. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
Geoffrey J. McLachlan dan Shu-Kay Ng
6 PageRank. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117
Bing Liu dan Philip S. Yu
7 AdaBoost. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127
Zhi-Hua Zhou dan Yang Yu
https://translate.googleusercontent.com/translate_f 1/188
6/24/2020 Sepuluh Algoritma Top dalam Penambangan Data
Halaman 2
vi Isi
Indeks . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 203
https://translate.googleusercontent.com/translate_f 2/188
6/24/2020 Sepuluh Algoritma Top dalam Penambangan Data
Halaman 3
Kata pengantar
Dalam upaya mengidentifikasi beberapa algoritma yang paling berpengaruh yang telah banyak
digunakan dalam komunitas data mining, Konferensi Internasional IEEE tentang Data
Penambangan (ICDM, http://www.cs.uvm.edu/∼icdm/) mengidentifikasi 10 algoritma teratas dalam
penambangan data untuk presentasi di ICDM '06 di Hong Kong. Buku ini menyajikan top ini
10 algoritma penambangan data: C4.5, k -Means, SVM, Apriori, EM, PageRank, AdaBoost,
k NN, Naıve Bayes, dan CART.
Sebagai langkah pertama dalam proses identifikasi, pada bulan September 2006 kami mengundang ACM
Pemenang KDD Innovation Award dan IEEE ICDM Research Contribution Award
masing-masing menominasikan hingga 10 algoritma paling terkenal dalam penambangan data. Semua kecuali satu
set pemenang penghargaan ini merespons undangan kami. Kami bertanya masing-masing
nominasi untuk memberikan informasi berikut: (a) nama algoritma, (b) brief
pembenaran, dan (c) referensi publikasi yang representatif. Kami juga menyarankan masing-masing
Algoritma yang dinominasikan seharusnya telah banyak dikutip dan digunakan oleh peneliti lain
di lapangan, dan nominasi dari setiap nominator sebagai kelompok harus memiliki a
representasi wajar dari berbagai bidang dalam penambangan data.
Setelah nominasi pada langkah 1, kami memverifikasi setiap nominasi untuk kutipannya pada
Google Cendekia pada akhir Oktober 2006, dan menghapus nominasi yang tidak
memiliki setidaknya 50 kutipan. Semua nominasi (18) yang tersisa kemudian diorganisir dalam
10 topik: analisis asosiasi, klasifikasi, pengelompokan, pembelajaran statistik, mengantongi
dan meningkatkan, pola berurutan, penambangan terintegrasi, set kasar, penambangan tautan, dan
penambangan grafik. Untuk beberapa dari 18 algoritma ini, seperti k- berarti, representatif
publikasi tidak harus merupakan makalah asli yang memperkenalkan algoritma, tetapi
makalah baru-baru ini yang menyoroti pentingnya teknik ini. Perwakilan ini
publikasi tersedia di situs Web ICDM (http://www.cs.uvm.edu/∼icdm/
algoritma / CandidateList.shtml).
Pada langkah ketiga dari proses identifikasi, kami memiliki keterlibatan yang lebih luas dari
komunitas penelitian. Kami mengundang anggota Komite Program KDD-06 (the
Konferensi Internasional ACM SIGKDD 2006 tentang Penemuan Pengetahuan dan Data
Mining), ICDM '06 (Konferensi Internasional IEEE 2006 tentang Penambangan Data), dan
SDM '06 (Konferensi Internasional SIAM 2006 tentang Penambangan Data), serta
ACM KDD Innovation Award dan IEEE ICDM Research Contribution Award
pemenang untuk setiap suara hingga 10 algoritma terkenal dari 18-algoritma
daftar kandidat. Hasil pemungutan suara dari langkah ini disajikan di panel ICDM '06
pada Top 10 Algoritma dalam Penambangan Data.
Di panel ICDM '06 21 Desember 2006, kami juga mengambil suara terbuka dengan semua
145 peserta pada 10 algoritma teratas dari daftar kandidat 18-algoritma di atas,
vii
Halaman 4
https://translate.googleusercontent.com/translate_f 3/188
6/24/2020 Sepuluh Algoritma Top dalam Penambangan Data
dan 10 algoritma teratas dari pemungutan suara terbuka ini sama dengan hasil pemungutan suara
dari langkah ketiga di atas. Panel tiga jam diselenggarakan sebagai sesi terakhir
konferensi ICDM '06, bersamaan dengan tujuh sesi presentasi makalah
Konferensi Web Intelligence (WI '06) dan Intelligent Agent Technology (IAT '06)
di lokasi yang sama, dan menarik 145 peserta.
Setelah ICDM '06, kami mengundang penulis asli dan beberapa panel presen-
ters dari 10 algoritma ini untuk menulis artikel jurnal untuk memberikan deskripsi masing-masing
algoritma, membahas dampak algoritma, dan meninjau penelitian saat ini dan selanjutnya
pada algoritma. Artikel jurnal diterbitkan pada Januari 2008 di Knowledge
dan Sistem Informasi [1]. Buku ini berkembang pada artikel jurnal ini, dengan a
struktur umum untuk setiap bab pada setiap algoritma, dalam hal deskripsi algoritma-
tion, perangkat lunak yang tersedia, contoh dan aplikasi ilustrasi, topik lanjutan, dan
latihan.
Setiap bab buku ditinjau oleh dua pengulas independen dan satu
dua editor buku. Beberapa bab melewati revisi besar berdasarkan ulasan ini
sebelum penerimaan terakhir mereka.
Kami berharap identifikasi 10 algoritma teratas dapat mempromosikan penambangan data
aplikasi dunia nyata yang lebih luas, dan menginspirasi lebih banyak peneliti dalam penambangan data untuk lebih lanjut
jelajahi 10 algoritma ini, termasuk dampaknya dan masalah penelitian baru. 10 ini
algoritma mencakup klasifikasi, pengelompokan, pembelajaran statistik, analisis asosiasi,
dan penambangan tautan, yang semuanya merupakan salah satu topik terpenting dalam penelitian penambangan data
dan pengembangan, serta untuk desain kurikulum untuk data mining terkait, mesin
kursus pembelajaran, dan kecerdasan buatan.
Halaman 5
https://translate.googleusercontent.com/translate_f 4/188
6/24/2020 Sepuluh Algoritma Top dalam Penambangan Data
Inisiatif mengidentifikasi 10 algoritma penambangan data teratas dimulai pada Mei 2006
keluar dari sebuah diskusi antara Dr. Jiannong Cao di Departemen Komputer di
Universitas Politeknik Hong Kong (PolyU) dan Dr. Xindong Wu, ketika Dr. Wu berada
memberikan seminar tentang 10 Masalah yang Menantang dalam Penelitian Data Mining [2] di PolyU.
Wu dan Dr. Vipin Kumar melanjutkan diskusi ini di KDD-06 pada Agustus 2006
dengan berbagai orang, dan mendapat dukungan yang sangat antusias.
Naila Elliott di Departemen Ilmu dan Teknik Komputer di
University of Minnesota mengumpulkan dan menyusun nominasi algoritma dan
hasil pemungutan suara dalam proses identifikasi tiga langkah. Yan Zhang di Departemen
Ilmu Komputer di University of Vermont mengkonversi 10 bagian yang diserahkan
Sion dalam format yang berbeda ke dalam format LaTeX yang sama, yang memakan waktu
proses.
Referensi
[1] Xindong Wu, Vipin Kumar, J. Ross Quinlan, Joydeep Ghosh, Qiang Yang,
Hiroshi Motoda, Geoffrey J. McLachlan, Angus Ng, Bing Liu, Philip S.
Yu, Zhi-Hua Zhou, Michael Steinbach, David J. Hand, dan Dan Steinberg,
10 algoritma teratas dalam penambangan data, Pengetahuan dan Sistem Informasi ,
14 (2008), 1: 1–37.
[2] Qiang Yang dan Xindong Wu (Kontributor: Pedro Domingos, Charles Elkan,
Johannes Gehrke, Jiawei Han, David Heckerman, Daniel Keim, Jiming
Liu, David Madigan, Gregory Piatetsky-Shapiro, Vijay V. Raghavan, Rajeev
Rastogi, Salvatore J. Stolfo, Alexander Tuzhilin, dan Benjamin W. Wah),
10 masalah yang menantang dalam penelitian penambangan data, International Journal of
Teknologi Informasi & Pengambilan Keputusan , 5, 4 (2006), 597–604.
ix
Halaman 6
https://translate.googleusercontent.com/translate_f 5/188
6/24/2020 Sepuluh Algoritma Top dalam Penambangan Data
Tentang Penulis
Vipin Kumar saat ini adalah profesor William Norris dan kepala Ilmu Komputer
ence dan Departemen Teknik di University of Minnesota. Dia menerima BE
gelar dalam bidang elektronik dan teknik komunikasi dari Indian Institute of Tech-
nology, Roorkee (sebelumnya, University of Roorkee), India, pada tahun 1977, gelar ME di
teknik elektronik dari Philips International Institute, Eindhoven, Belanda,
pada tahun 1979, dan PhD dalam ilmu komputer dari University of Maryland, College Park,
pada tahun 1982. Minat penelitian Kumar saat ini meliputi penambangan data, bioinformatika, dan
komputasi kinerja tinggi. Penelitiannya telah menghasilkan pengembangan
konsep isoefficiency metric untuk mengevaluasi skalabilitas algoritma paralel, sebagai
serta algoritma dan perangkat lunak paralel yang sangat efisien untuk faktorisasi matriks jarang
xi
Halaman 7
(PSPASES) dan partisi grafik (METIS, ParMetis, hMetis). Dia telah menulis
200 artikel penelitian, dan telah coedited atau coauthored 9 buku, termasuk banyak digunakan
buku teks Pengantar Komputasi Paralel dan Pengantar Penambangan Data , keduanya
diterbitkan oleh Addison-Wesley. Kumar telah menjabat sebagai kursi / kursi untuk banyak konferensi.
ences / workshop di bidang penambangan data dan komputasi paralel, termasuk IEEE
Konferensi Internasional tentang Penambangan Data (2002), Paralel Internasional dan Dis-
tributed Processing Simposium (2001), dan Konferensi Internasional SIAM tentang Data
https://translate.googleusercontent.com/translate_f 6/188
6/24/2020 Sepuluh Algoritma Top dalam Penambangan Data
Mining (2001).
Konferensi Kumar
nasional menjabat
tentang sebagai ketua
Penambangan Datakomite
, dan pengarah
merupakanSIAM Inter-
anggota komite pengarah dari
yang Konferensi Internasional IEEE pada Data Mining dan IEEE International Con-
ferensi pada Bioinformatika dan Biomedis . Kumar adalah coeditor-in-chief pendiri
dari Jurnal Analisis Statistik dan Data Mining , editor-in-chief dari IEEE Intellistudio
gent Informatics Bulletin , dan editor Data Mining dan Knowledge Discovery Book
Seri , diterbitkan oleh CRC Press / Chapman Hall. Kumar juga melayani atau telah melayani di
dewan redaksi Penambangan Data dan Penemuan Pengetahuan , Pengetahuan dan Informasi
Sistem , Buletin Intelijen Komputasi IEEE , Ulasan Tahunan Intelejen
Informatika , Komputasi Paralel , Jurnal Komputasi Paralel dan Terdistribusi ,
Transaksi IEEE Teknik Data dan Pengetahuan (1993–1997), IEEE Concur-
rency (1997-2000), dan IEEE Parallel and Distributed Technology (1995-1997). Dia
adalah sesama dari ACM, IEEE, dan AAAS, dan anggota SIAM. Kumar diterima
penghargaan Prestasi Teknis IEEE Computer Society 2005 untuk kontribusi
untuk desain dan analisis algoritma paralel, partisi-grafik, dan penambangan data.
Halaman 8
Kontributor
https://translate.googleusercontent.com/translate_f 7/188
6/24/2020 Sepuluh Algoritma Top dalam Penambangan Data
Alexander Liu, Universitas Texas di Austin, Austin, TX
Bing Liu, Universitas Illinois di Chicago, Chicago, IL
Geoffrey J. McLachlan, Universitas Queensland, Brisbane, Australia
Hiroshi Motoda, ISIR, Universitas Osaka dan AFOSR / AOARD, Penelitian Angkatan Udara
Laboratorium, Jepang
xiii
Halaman 9
Bab 1
C4.5
Naren Ramakrishnan
Isi
https://translate.googleusercontent.com/translate_f 8/188
6/24/2020 Sepuluh Algoritma Top dalam Penambangan Data
1.3.3 Menangani Nilai yang Hilang .............................................. 9
1.3.4 Menginduksi Aturan ............................................. ... 10
1.4 Diskusi tentang Implementasi Perangkat Lunak yang Tersedia ...................... 10
1.5 Dua Contoh Ilustrasi .................................................. . 11
1.5.1 Golf Dataset ............................................. ........ 11
1.5.2 Kedelai Kedelai ............................................. .... 12
1.6 Topik Tingkat Lanjut ............................................... ......... 13
1.6.1 Menambang dari Penyimpanan Sekunder ...................................... 13
1.6.2 Pohon Keputusan Miring .............................................. 13
1.6.3 Pemilihan Fitur ................................................. ... 13
1.6.4 Metode Ensemble ............................................. . 14
1.6.5 Aturan Klasifikasi ............................................. . 14
1.6.6 Redescription .................................................. ..... 15
1.7 Latihan ................................................ ............... 15
Referensi ................................................. .................. 17
1.1 Pendahuluan
C4.5 [30] adalah serangkaian algoritma untuk masalah klasifikasi dalam pembelajaran mesin dan
penambangan data. Ini ditargetkan untuk pembelajaran terawasi: Diberikan dataset bernilai atribut
di mana instance dijelaskan oleh koleksi atribut dan milik salah satu set
dari kelas yang saling eksklusif , C4.5 mempelajari pemetaan dari nilai atribut ke kelas
yang dapat diterapkan untuk mengklasifikasikan instance baru yang tidak terlihat. Sebagai contoh, lihat Gambar 1.1
di mana baris menunjukkan hari tertentu, atribut menunjukkan kondisi cuaca pada yang diberikan
hari, dan kelas menunjukkan apakah kondisinya kondusif untuk bermain golf.
Jadi, setiap baris menunjukkan sebuah instance, dijelaskan oleh nilai-nilai untuk atribut seperti Out-
look (variabel acak ternary-dihargai) Temperatur (bernilai kontinu), Kelembaban
Halaman 10
2 C4.5
(juga bernilai kontinu), dan Windy (biner), dan kelasnya adalah Boolean PlayGolf?
variabel kelas. Semua data pada Gambar 1.1 merupakan "data pelatihan," sehingga data
maksudnya adalah mempelajari pemetaan menggunakan dataset ini dan menerapkannya pada instance baru lainnya
https://translate.googleusercontent.com/translate_f 9/188
6/24/2020 Sepuluh Algoritma Top dalam Penambangan Data
yang menyajikan nilai hanya atribut untuk memprediksi nilai untuk kelas acak
variabel.
C4.5, dirancang oleh J. Ross Quinlan, dinamakan demikian karena merupakan keturunan dari
Pendekatan ID3 untuk menginduksi pohon keputusan [25], yang pada gilirannya adalah inkarnasi ketiga di Indonesia
serangkaian "dikotomisasi iteratif." Sebuah pohon keputusan adalah serangkaian pertanyaan systemat-
ically diatur sehingga setiap pertanyaan kueri atribut (misalnya, Outlook ) dan cabang
berdasarkan nilai atribut. Di daun pohon ditempatkan prediksi
variabel kelas (di sini, PlayGolf? ). Pohon keputusan karenanya tidak berbeda dengan seri
pertanyaan pemecahan masalah yang mungkin Anda temukan di manual mobil Anda untuk membantu menentukan apa
bisa salah dengan kendaraan. Selain menginduksi pohon, C4.5 juga dapat menyatakannya kembali
pohon dalam bentuk aturan yang dapat dipahami. Selanjutnya, aturan operasi postpruning didukung
oleh C4.5 biasanya menghasilkan pengklasifikasi yang tidak bisa disajikan kembali sebagai pohon keputusan.
Silsilah historis C4.5 menawarkan studi yang menarik tentang betapa berbedanya sub-
komunitas berkumpul pada solusi yang kurang lebih sama untuk klasifikasi. ID3
dikembangkan secara independen dari algoritma induksi pohon asli yang dikembangkan oleh
Friedman [13], yang kemudian berkembang menjadi CART [4] dengan partisipasi Breiman,
Olshen, dan Stone. Tapi, dari banyak referensi ke CART di [30], desain
keputusan yang mendasari C4.5 tampaknya telah dipengaruhi oleh (untuk memperbaiki) bagaimana
CART menyelesaikan masalah serupa, seperti prosedur untuk menangani jenis khusus
upeti. (Untuk alasan ini, karena tumpang tindih dalam ruang lingkup, kami akan berusaha meminimalkan dengan
materi yang dibahas dalam bab CART, Bab 10, dan tunjukkan perbedaan utama
di persimpangan yang tepat.) Dalam [25] dan [36], Quinlan juga mengakui pengaruhnya
kerangka CLS (Concept Learning System [16]) dalam pengembangan sejarah
Halaman 11
ID3 dan C4.5. Hari ini, C4.5 digantikan oleh sistem See5 / C5.0, sebuah iklan
produk yang ditawarkan oleh Rulequest Research, Inc.
Fakta bahwa dua dari 10 algoritma teratas adalah algoritma berbasis pohon membuktikan
popularitas metode tersebut dalam penambangan data yang tersebar luas. Aplikasi asli dari
pohon keputusan berada di domain dengan nilai nominal atau data kategorikal tetapi hari ini
mereka menjangkau banyak domain dengan atribut numerik, simbolik, dan tipe campuran.
Contohnya termasuk pengambilan keputusan klinis, manufaktur, analisis dokumen, bio-
informatika, pemodelan data spasial (sistem informasi geografis), dan secara praktis
domain mana batas keputusan antara kelas dapat ditangkap dalam hal
dekomposisi seperti pohon atau daerah yang diidentifikasi oleh aturan.
https://translate.googleusercontent.com/translate_f 10/188
6/24/2020 Sepuluh Algoritma Top dalam Penambangan Data
Halaman 12
4 C4.5
Pandangan
Cerah Hujan
Mendung
Kelembaban Berangin
Iya
Gambar 1.2 Pohon keputusan yang diinduksi oleh C4.5 untuk dataset Gambar 1.1 .
Gambar 1.1 menyajikan dataset “golf” klasik, yang dibundel dengan C4.5
instalasi. Seperti yang dinyatakan sebelumnya, tujuannya adalah untuk memprediksi apakah kondisi cuaca
pada hari tertentu kondusif untuk bermain golf. Ingatlah bahwa beberapa fitur adalah
bernilai kontinu sementara yang lain bersifat kategoris.
Gambar 1.2 menggambarkan pohon yang diinduksi oleh C4.5 menggunakan Gambar 1.1 sebagai data pelatihan
(dan opsi default). Mari kita lihat berbagai pilihan yang terlibat dalam mendorong hal itu
pohon dari data.
r
Apa jenis tes yang mungkin? Seperti yang ditunjukkan Gambar 1.2, C4.5 tidak dibatasi
untuk mempertimbangkan tes biner, dan memungkinkan tes dengan dua hasil atau lebih. Jika
atribut adalah Boolean, tes menginduksi dua cabang. Jika atributnya kategorikal,
tes ini multinilai, tetapi nilai yang berbeda dapat dikelompokkan ke dalam kelompok yang lebih kecil
opsi dengan satu kelas diprediksi untuk setiap opsi. Jika atributnya numerik,
https://translate.googleusercontent.com/translate_f 11/188
6/24/2020 Sepuluh Algoritma Top dalam Penambangan Data
maka tes-tes tersebut kembali bernilai biner, dan dalam bentuk {≤ θ ? ,> θ ?}, di mana θ
adalah ambang batas yang sesuai untuk atribut itu.
r
Bagaimana tes dipilih? C4.5 menggunakan kriteria informasi-teoretis seperti perolehan
(pengurangan entropi distribusi kelas karena menerapkan tes) dan
mendapatkan rasio (cara untuk mengoreksi kecenderungan mendapatkan untuk mendukung tes dengan banyak
hasil). Kriteria default adalah rasio gain. Pada setiap titik dalam penanaman pohon,
tes dengan kriteria terbaik dipilih dengan rakus.
r
Bagaimana ambang uji dipilih? Seperti yang dinyatakan sebelumnya, untuk Boolean dan kategorikal
atribut, nilai tes hanyalah contoh yang mungkin berbeda dari itu
atribut. Untuk atribut numerik, ambang diperoleh dengan mengurutkannya
atribut dan memilih pemisahan antara nilai-nilai berturut-turut yang memaksimalkan
kriteria di atas. Fayyad dan Irani [10] menunjukkan bahwa tidak semua nilai berturut-turut perlu
untuk dipertimbangkan. Untuk dua nilai berturut-turut v i dan v i +1 bernilai kontinu
Halaman 13
atribut, jika semua instance yang melibatkan v i dan semua instance yang melibatkan v i +1 milik
kelas yang sama, kemudian memisahkan di antara mereka tidak mungkin meningkatkan informasi-
gain tion (atau rasio keuntungan).
r
Bagaimana penanaman pohon dihentikan? Cabang dari sebuah simpul dinyatakan memimpin
ke daun jika semua contoh yang ditutupi oleh cabang itu murni. Cara lain
di mana penanaman pohon diakhiri adalah jika jumlah contoh jatuh di bawah a
ambang batas yang ditentukan.
r
Bagaimana label kelas ditugaskan ke daun? Kelas mayoritas instance
ditugaskan untuk daun dianggap sebagai prediksi kelas dari sub cabang dari
pohon.
Pertanyaan di atas dihadapkan pada pendekatan klasifikasi yang dimodelkan setelah pohon dan
keputusan serupa, atau masuk akal lainnya, dibuat oleh sebagian besar algoritma induksi pohon.
Utilitas praktis C4.5, bagaimanapun, berasal dari serangkaian fitur yang membangun
berdasarkan algoritma induksi pohon dasar di atas. Tetapi sebelum kami menyajikan fitur-fitur ini,
instruktif untuk instantiate Algoritma 1.1 untuk dataset sederhana seperti yang ditunjukkan pada
Gambar 1.1 .
Kami akan bekerja secara rinci bagaimana pohon Gambar 1.2 diinduksi dari
Gambar 1.1. Amati bagaimana atribut pertama yang dipilih untuk tes keputusan adalah Outlook
atribut. Untuk melihat alasannya, mari kita perkirakan entropi variabel acak kelas
( PlayGolf? ). Variabel ini mengambil dua nilai dengan probabilitas 9/14 (untuk "Ya") dan
5/14 (untuk “Tidak”). Entropi variabel acak kelas yang mengambil nilai c dengan
probabilitas p 1 , p 2 , ..., p c diberikan oleh:
∑c
- p i log 2 p i
i=1
atau 0,940. Ini berarti bahwa rata-rata 0,940 bit harus ditransmisikan untuk berkomunikasi
informasi tentang PlayGolf? variabel acak. Tujuan dari induksi pohon C4.5 adalah
untuk mengajukan pertanyaan yang tepat sehingga entropi ini berkurang. Kami mempertimbangkan setiap atribut dalam
beralih untuk menilai peningkatan dalam entropi yang diberikannya. Untuk variabel acak yang diberikan,
katakanlah Outlook , peningkatan dalam entropi, direpresentasikan sebagai Keuntungan (Outlook) , dihitung
https://translate.googleusercontent.com/translate_f 12/188
6/24/2020 Sepuluh Algoritma Top dalam Penambangan Data
sebagai: ∑ |Dv|
Entropy ( PlayGolf? Dalam D ) - Entropy ( PlayGolf? Dalam D v )
|D|
v
di mana v adalah himpunan nilai yang mungkin (dalam hal ini, tiga nilai untuk Outlook ), D menyatakan
seluruh dataset, D v adalah himpunan bagian dari dataset yang atribut Outlook memiliki yang
nilai, dan notasi | · | menunjukkan ukuran dataset (dalam jumlah instance).
Perhitungan ini akan menunjukkan bahwa Keuntungan (Outlook) adalah 0 . 940−0 . 694 = 0 . 246. Demikian pula,
kita dapat menghitung bahwa Keuntungan (Berangin) adalah 0 . 940 - 0 . 892 = 0 . 048. Mengerjakan hal di atas
perhitungan untuk atribut lainnya secara sistematis akan mengungkapkan bahwa memang Outlook
Halaman 14
6 C4.5
atribut terbaik untuk cabang. Perhatikan bahwa ini adalah pilihan serakah dan tidak mengambil
memperhitungkan efek dari keputusan masa depan. Seperti yang dinyatakan sebelumnya, pertumbuhan pohon berlanjut
sampai kriteria terminasi seperti kemurnian subdataset terpenuhi. Dalam contoh di atas,
bercabang pada nilai "Overcast" untuk Outlook menghasilkan dataset murni, yaitu, semua
contoh yang memiliki nilai ini untuk Outlook memiliki nilai "Ya" untuk variabel kelas
Bermain golf? ; karenanya, pohon itu tidak tumbuh lebih jauh ke arah itu. Namun, dua lainnya
nilai untuk Outlook masih menginduksi dataset tidak murni. Oleh karena itu algoritma berulang, tetapi
amati bahwa Outlook tidak dapat dipilih lagi (mengapa?). Untuk cabang yang berbeda, berbeda
kriteria pengujian dan pemisahan dipilih, meskipun, secara umum, duplikasi subtree dapat
mungkin terjadi untuk dataset lain.
Kami sebutkan sebelumnya bahwa kriteria pemisahan standar sebenarnya adalah rasio keuntungan, bukan
keuntungan. Untuk memahami perbedaannya, anggaplah kita memperlakukan kolom Hari pada Gambar 1.1
seolah-olah itu fitur "nyata". Selanjutnya, asumsikan bahwa kami memperlakukannya sebagai nilai nominal
atribut. Tentu saja, setiap hari adalah unik, jadi Day benar-benar bukan atribut yang berguna
cabang di. Namun demikian, karena ada 14 nilai berbeda untuk Day dan masing-masing
mereka menginduksi dataset "murni" (dataset sepele yang hanya melibatkan satu instance), Day
akan dipilih secara tidak adil sebagai atribut terbaik untuk cabang. Karena informasi
mendapatkan atribut nikmat yang mengandung sejumlah besar nilai, Quinlan mengusulkan
dapatkan rasio sebagai koreksi untuk memperhitungkan efek ini. Rasio gain untuk atribut a adalah
didefinisikan sebagai:
Keuntungan ( a )
GainRatio ( a ) =
Entropi ( a )
Perhatikan bahwa entropi ( a ) tidak bergantung pada informasi kelas dan hanya mengambil
memperhitungkan distribusi nilai yang mungkin untuk atribut a , sedangkan gain ( a ) tidak
memperhitungkan informasi kelas. (Juga, ingat bahwa semua perhitungan di sini adalah
tergantung pada dataset yang digunakan, meskipun kami belum membuat ini secara eksplisit dalam notasi.)
Misalnya, GainRatio ( Outlook ) = 0 . 246 / 1 . 577 = 0 . 156. Demikian pula, rasio keuntungan
untuk atribut lainnya dapat dihitung. Kami membiarkannya sebagai latihan bagi pembaca
lihat apakah Outlook akan kembali dipilih untuk membentuk tes keputusan root.
Pada titik ini dalam diskusi, harus disebutkan bahwa pohon keputusan tidak bisa
modelkan semua batas keputusan antar kelas secara ringkas. Misalnya,
meskipun mereka dapat memodelkan fungsi Boolean apa pun, pohon yang dihasilkan mungkin tidak perlu
kompleks. Pertimbangkan, misalnya, memodelkan XOR pada sejumlah besar Boolean
atribut. Dalam hal ini setiap atribut perlu diuji sepanjang setiap jalur dan
ukuran pohon akan eksponensial. Contoh lain dari masalah yang sulit untuk
pohon keputusan adalah fungsi yang disebut " m- of- n " di mana kelas diprediksi oleh siapa saja
m of n atribut, tanpa spesifik tentang atribut yang harus berkontribusi
keputusan. Solusi seperti pohon keputusan miring, yang disajikan kemudian, atasi itu
https://translate.googleusercontent.com/translate_f 13/188
6/24/2020 Sepuluh Algoritma Top dalam Penambangan Data
kekurangannya Selain kesulitan ini, masalah kedua dengan pohon keputusan diinduksi oleh
C4.5 adalah duplikasi subtitle karena pilihan rakus pemilihan atribut.
Di luar pencarian lengkap untuk atribut terbaik dengan sepenuhnya menumbuhkan pohon, ini
Masalahnya tidak bisa dipecahkan secara umum.
Halaman 15
https://translate.googleusercontent.com/translate_f 14/188
6/24/2020 Sepuluh Algoritma Top dalam Penambangan Data
Halaman 16
8 C4.5
X1 X2 X3
X T1 T2 T3
X1 X2 X3
T1 T2 T3
T2
Prediksi daun
kelas yang paling mungkin
Gambar 1.3. Berbagai pilihan dalam pemangkasan pohon keputusan. Pohon di sebelah kiri bisa
dipertahankan seperti itu atau digantikan oleh hanya salah satu sub pohon atau oleh satu daun.
ambang batas kepercayaan yang diberikan CI , batas atas e max dapat ditentukan sedemikian rupa
e <e max dengan probabilitas 1 - CI . (C4.5 menggunakan CI default 0,25.) Kita bisa impas
lebih jauh dan perkiraan e dengan distribusi normal (untuk N besar ), dalam hal ini
C4.5 menentukan batas atas pada kesalahan yang diharapkan sebagai:
√
e
e + z2
2N+ z N- e2 N+ z2 4N2
(1.1)
1 + z2 N
di mana z dipilih berdasarkan interval kepercayaan yang diinginkan untuk estimasi, dengan asumsi
variabel acak normal dengan nol mean dan varians unit, yaitu, N (0 , 1)).
Apa yang masih harus disajikan adalah cara yang tepat di mana pemangkasan dilakukan.
Satu bottom-up pass dilakukan. Perhatikan Gambar 1.3, yang menggambarkan pemangkasan
proses di tengah jalan sehingga pemangkasan telah dilakukan pada sub pohon T 1 , T 2 , dan
T 3 . Tingkat kesalahan diperkirakan untuk tiga kasus seperti yang ditunjukkan pada Gambar 1.3 (kanan). Itu
Kasus pertama adalah menjaga pohon itu apa adanya. Kasus kedua adalah hanya mempertahankan subtree
sesuai dengan hasil X yang paling sering (dalam hal ini, cabang tengah).
Kasus ketiga adalah hanya memiliki lembaran berlabel kelas paling sering dalam pelatihan
Himpunan data. Pertimbangan ini dilanjutkan dari bawah ke atas sampai kita mencapai akar pohon.
https://translate.googleusercontent.com/translate_f 15/188
6/24/2020 Sepuluh Algoritma Top dalam Penambangan Data
Halaman 17
contoh hampir sama, maka rasio gain minimal (karena entropi variabel
bisa jatuh dalam penyebut). Oleh karena itu, pendukung Quinlan kembali ke kebiasaan
informasi gain untuk memilih ambang batas tetapi melanjutkan penggunaan rasio gain untuk
memilih atribut di tempat pertama. Pendekatan kedua didasarkan pada Risannen
Prinsip MDL (panjang deskripsi minimum). Dengan melihat pohon sebagai teori, Quinlan
mengusulkan perdagangan kompleksitas pohon versus kinerjanya. Secara khusus,
kompleksitas dihitung karena biaya pengkodean pohon ditambah pengecualian untuk
pohon (yaitu, contoh pelatihan yang tidak didukung oleh pohon). Tes empiris
menunjukkan bahwa pendekatan ini tidak terlalu mendukung atribut bernilai kontinu.
https://translate.googleusercontent.com/translate_f 16/188
6/24/2020 Sepuluh Algoritma Top dalam Penambangan Data
Halaman 18
10 C4.5
pohon untuk kasus dengan nilai yang hilang untuk a ; atau (S) menentukan nilai yang paling mungkin
dari sebuah (seperti sebelumnya, menggunakan metode dirujuk dalam [28]) dan menetapkan ke yang sesuai
subdataset. Dalam [28], Quinlan menawarkan variasi pada (F) juga, di mana instans berada
ditugaskan hanya untuk satu subdataset tetapi sekali lagi secara proporsional dengan jumlah instance
dengan nilai yang diketahui di subdataset itu.
Akhirnya, ketika mengklasifikasikan instance dengan nilai yang hilang untuk atribut a , opsinya
adalah: (U) jika ada cabang terpisah untuk nilai yang tidak diketahui untuk a , ikuti cabang;
(C) cabang di nilai paling umum untuk sebuah ; (S) menerapkan tes seperti sebelumnya dari [28] ke
menentukan kemungkinan nilai sebagian besar yang dan cabang di atasnya; (F) jelajahi semua cabang simul-
lekat, menggabungkan hasil mereka untuk menunjukkan probabilitas relatif berbeda
hasil [27]; atau (H) mengakhiri dan menetapkan instance ke kelas yang paling mungkin.
Seperti yang mungkin ditebak pembaca, beberapa kombinasi lebih alami, dan lainnya
kombinasi tidak masuk akal. Untuk opsi penugasan proporsional, selama
karena bobot bertambah hingga 1, ada cara alami untuk menggeneralisasi perhitungan
perolehan informasi dan rasio perolehan.
Halaman 19
https://translate.googleusercontent.com/translate_f 17/188
6/24/2020 Sepuluh Algoritma Top dalam Penambangan Data
bagian dari rangkaian penambangan data Mineset SGI, dan paket penambangan data Weka [35] dari
University of Waikato, Selandia Baru (http://www.cs.waikato.ac.nz/ml/weka/). Itu
(Java) implementasi C4.5 di Weka disebut sebagai J48. Penerapan komersial
C4.5 termasuk ODBCMINE dari Intelligent Systems Research, LLC, yang
antarmuka dengan database ODBC dan Rulequest's See5 / C5.0, yang membaik
C4.5 dalam banyak hal dan yang juga dilengkapi dengan dukungan untuk konektivitas ODBC.
Pilihan:
Batang file <golf>
Pohon Keputusan:
Pohon disimpan
Halaman 20
https://translate.googleusercontent.com/translate_f 18/188
6/24/2020 Sepuluh Algoritma Top dalam Penambangan Data
12 C4.5
Mengacu kembali ke output dari C4.5, amati statistik yang disajikan terhadap
akhir pelarian. Mereka menunjukkan ukuran pohon (dalam hal jumlah node, di mana
baik node dan daun internal dihitung) sebelum dan sesudah pemangkasan. Kesalahan selesai
dataset pelatihan diperlihatkan untuk pohon yang tidak dipangkas dan ditebang seperti yang diperkirakan
kesalahan setelah pemangkasan. Dalam hal ini, seperti yang diamati, tidak ada pemangkasan dilakukan.
The v pilihan untuk C4.5 meningkatkan tingkat bertele-tele dan menyediakan rinci, langkah-demi-
informasi langkah tentang perhitungan gain. Perangkat lunak c4.5rules menggunakan yang serupa
opsi tetapi menghasilkan aturan dengan kemungkinan postpruning, seperti dijelaskan sebelumnya. Untuk golf
dataset, tidak ada pemangkasan terjadi dengan opsi default dan karenanya empat aturan adalah output
(sesuai dengan semua kecuali satu dari jalur Gambar 1.2) bersama dengan aturan default.
Pohon dan aturan yang diinduksi kemudian harus diterapkan pada dataset "test" yang tidak terlihat
menilai kinerja generalisasinya. The -u pilihan C4.5 memungkinkan penyediaan
menguji data untuk mengevaluasi kinerja pohon / aturan yang diinduksi.
Tujuan pembelajaran dari dataset ini adalah untuk membantu diagnosis penyakit kedelai berdasarkan
mengamati ciri-ciri morfologis.
Pohon yang diinduksi terlalu rumit untuk diilustrasikan di sini; oleh karena itu, kami menggambarkan evaluasi-
asi ukuran dan kinerja pohon sebelum dan sesudah pemangkasan:
Seperti dapat dilihat di sini, pohon yang tidak ditandai dengan pohon tidak dengan sempurna mengklasifikasikan data pelatihan
dan pemangkasan yang signifikan telah terjadi setelah pohon penuh diinduksi. Evaluasi yang ketat
Prosedur tion seperti validasi silang harus diterapkan sebelum sampai pada "final"
penggolong.
Halaman 21
https://translate.googleusercontent.com/translate_f 19/188
6/24/2020 Sepuluh Algoritma Top dalam Penambangan Data
Dengan penekanan data besar-besaran dari penambangan data modern, banyak penelitian menarik
masalah dalam penambangan pohon / pengklasifikasi berbasis aturan telah menjadi yang terdepan. Ada beberapa
dibahas di sini dan beberapa dijelaskan dalam latihan. Prosiding konferensi
seperti KDD, ICDM, ICML, dan SDM menampilkan yang terbaru di banyak bidang ini.
Halaman 22
14 C4.5
tidak relevan untuk memprediksi kelas yang diberikan dan fitur lainnya masih bisa berlebihan
diberikan fitur lain. Pemilihan fitur adalah ide mempersempit yang lebih kecil
set fitur untuk digunakan dalam induksi. Beberapa metode pemilihan fitur berfungsi secara bersamaan
dengan algoritma pembelajaran khusus sedangkan metode seperti yang dijelaskan dalam Koller dan
Sahami [18] adalah algoritma pembelajaran-agnostik.
Halaman 23
1.7 Latihan 15
https://translate.googleusercontent.com/translate_f 21/188
6/24/2020 Sepuluh Algoritma Top dalam Penambangan Data
utas penelitian sekarang menjadi aktif di komunitas KDD dengan varian baru dan
aplikasi.
1.6.6 Redescription
Redescription adalah generalisasi aturan untuk kesetaraan, diperkenalkan pada [32]. Sebagai
namanya menunjukkan, untuk mendeskripsikan ulang sesuatu adalah untuk menggambarkan yang baru atau untuk mengekspresikan
konsep yang sama dalam kosa kata yang berbeda. Diberikan kosakata deskriptor, tujuan dari
penambangan redescription adalah untuk membangun dua ekspresi dari kosakata yang mendorong
subset objek yang sama. Premis yang mendasarinya adalah set yang memang bisa
didefinisikan dalam (setidaknya) dua cara yang cenderung menunjukkan perilaku bersama dan, karenanya,
menarik. Algoritma CARTwheels untuk penambangan redescription tumbuh dua C4.5-
seperti pohon di arah yang berlawanan sehingga mereka cocok di dedaunan. Pada dasarnya,
satu pohon memperlihatkan partisi objek melalui pilihan subset dan pohon lainnya
mencoba tumbuh agar sesuai dengan partisi ini menggunakan pilihan himpunan bagian yang berbeda. Jika partisi
korespondensi dibuat, kemudian jalur yang bergabung dapat dibaca sebagai deskripsi ulang.
CARTwheels mengeksplorasi ruang dari kemungkinan kecocokan pohon melalui proses pergantian
di mana pohon berulang kali ditanam kembali untuk mencocokkan partisi yang diekspos oleh yang lain
pohon. Penambangan redescription telah digeneralisasi ke berbagai arah [19, 24, 37].
1.7 Latihan
1. Hitung dengan cermat kompleksitas waktu induksi pohon keputusan besar-Oh
C4.5. Jelaskan kompleksitas dalam hal jumlah atribut dan
jumlah instance pelatihan. Pertama, ikat kedalaman pohon dan kemudian dilemparkan
waktu yang diperlukan untuk membangun pohon dalam hal ikatan ini. Nilai biaya
pemangkasan juga.
2. Desain dataset dengan atribut bernilai kontinu di mana batas keputusan
antar kelas bukan isothetic, artinya tidak paralel dengan koordinat mana pun
Halaman 24
16 C4.5
kapak. Terapkan C4.5 pada dataset ini dan komentar pada kualitas yang diinduksi
pohon. Pertimbangkan faktor-faktor seperti akurasi, ukuran pohon, dan kelengkapannya
Akun.
3. Cara alternatif untuk menghindari overfitting adalah dengan membatasi pertumbuhan pohon
dari memangkas kembali pohon yang sudah dewasa ke ukuran yang diperkecil. Jelaskan mengapa demikian
persiapan awal mungkin bukan ide yang baik.
4. Buktikan bahwa ukuran pengotor yang digunakan oleh C45 (yaitu, entropi) adalah cekung. Kenapa
Apakah penting bahwa itu cekung?
5. Turunkan Persamaan (1.1). Seperti yang dinyatakan dalam teks, gunakan perkiraan normal untuk
variabel acak Bernoulli memodelkan tingkat kesalahan.
6. Alih-alih menggunakan perolehan informasi, pelajari bagaimana induksi pohon keputusan akan
terpengaruh jika kita langsung memilih atribut dengan akurasi prediksi tertinggi.
Lebih jauh, bagaimana jika kita membuat aturan dengan hanya satu pendahulunya? Petunjuk: Kamu
sedang menelusuri kembali percobaan Robert Holte seperti yang dijelaskan dalam R. Holte, Very
Aturan Klasifikasi Sederhana Berkinerja Baik pada Kumpulan Data Paling Umum Digunakan,
Pembelajaran Mesin , vol. 11, hlm. 63–91, 1993.
https://translate.googleusercontent.com/translate_f 22/188
6/24/2020 Sepuluh Algoritma Top dalam Penambangan Data
7. Dalam beberapa aplikasi pembelajaran mesin, atribut ditetapkan bernilai, misalnya, an
objek dapat memiliki beberapa warna dan untuk mengklasifikasikan objek itu mungkin penting untuk
warna model sebagai atribut set-dihargai daripada sebagai atribut bernilai instance.
Identifikasi tes keputusan yang dapat dilakukan pada atribut set-nilai dan jelaskan
yang dapat dengan mudah dimasukkan ke dalam sistem C4.5 untuk pengambilan keputusan
pohon.
8. Daripada mengklasifikasikan instance ke dalam satu kelas, anggap tujuan kita adalah untuk memperoleh
peringkat kelas sesuai dengan probabilitas (posterior) keanggotaan
contoh di berbagai kelas. Baca F. Provost dan P. Domingos, Induksi Pohon
untuk Pemeringkatan Berbasis Probabilitas, Pembelajaran Mesin , vol. 52, tidak. 3, hlm. 199–215,
2003, yang menjelaskan mengapa pohon-pohon yang diinduksi oleh C4.5 tidak cocok untuk menyediakan
estimasi probabilitas yang andal; mereka juga menyarankan beberapa cara untuk memperbaiki masalah ini
menggunakan metode pemulusan probabilitas. Lakukan keberatan dan solusi yang sama
Strategi juga berlaku untuk aturan C4.5? Eksperimen dengan set data dari UCI
gudang.
9. (Diadaptasi dari S. Nijssen dan E. Fromont, Pohon Keputusan Optimal Penambangan
dari Itemset Lattices, Prosiding ACM SIGKDD International ke-13
Konferensi Penemuan Pengetahuan dan Penambangan Data , hlm. 530–539, 2007.)
Pohon-pohon yang diinduksi oleh C4.5 didorong oleh pilihan heuristik tetapi menganggap itu milik kita
tujuannya adalah untuk mengidentifikasi pohon yang optimal. Optimalitas dapat diajukan dalam berbagai hal
pertimbangan; dua pertimbangan tersebut adalah pohon paling akurat hingga a
kedalaman maksimum tertentu dan pohon terkecil di mana setiap daun setidaknya mencakup
k instans dan akurasi yang diharapkan dimaksimalkan dari contoh yang tidak terlihat.
Jelaskan algoritma yang efisien untuk menginduksi pohon optimal tersebut.
10. Logika orde pertama adalah notasi yang lebih ekspresif daripada representasi atribut-nilai
Sentimen dipertimbangkan dalam bab ini. Diberikan koleksi hubungan tingkat pertama,
menggambarkan bagaimana pendekatan algoritmik dasar C4.5 dapat digeneralisasi untuk digunakan
Halaman 25
Referensi 17
fitur orde pertama. Solusi Anda harus memungkinkan induksi pohon atau aturan
formulir:
yaitu, X adalah kakek dari Z jika ada Y sedemikian rupa sehingga Y adalah induknya
X dan Z adalah induk dari Y . Beberapa masalah baru dihasilkan dari pilihan pertama-
memesan logika sebagai bahasa representasional. Pertama, tidak seperti nilai atribut
situasi, fitur orde pertama (seperti induk (X, Y) ) tidak siap diberikan
dan harus digeneralisasi dari instance khusus. Kedua, dimungkinkan untuk
dapatkan pohon atau aturan yang tidak masuk akal jika variabel berpartisipasi dalam kepala aturan
tetapi bukan tubuh, misalnya:
Jelaskan bagaimana Anda dapat menempatkan checks and balances ke dalam proses induksi
sehingga teori orde pertama yang lengkap dapat diinduksi dari data. Petunjuk: Anda
menjelajahi bidang pemrograman logika induktif [9], khususnya, algoritma
seperti FOIL [29].
https://translate.googleusercontent.com/translate_f 23/188
6/24/2020 Sepuluh Algoritma Top dalam Penambangan Data
Referensi
[1] R. Agrawal, T. Imielinski, dan AN Swami. Aturan asosiasi pertambangan antara
set item dalam database besar. Dalam Prosiding ACM SIGMOD International
Konferensi Nasional tentang Pengelolaan Data (SIGMOD'93) , hlm. 207–216, Mei
1993
[2] R. Agrawal dan R. Srikant. Algoritma cepat untuk aturan asosiasi pertambangan pada umumnya
basis data. Dalam Prosiding Konferensi Internasional ke-20 tentang Sangat Besar
Database (VLDB'94) , hlm. 487-499, September 1994.
[7] W. Cohen. Induksi Aturan Efisien Cepat. Dalam Prosiding Keduabelas Inter-
Konferensi nasional tentang Pembelajaran Mesin , hlm. 115–123, 1995.
Halaman 26
18 C4.5
[9] S. Dzeroski dan N. Lavrac, eds. Penambangan Data Relasional . Springer, Berlin, 2001.
[14] J. Gehrke, V. Ganti, R. Ramakrishnan, dan W.-H. Loh. PERAHU: Desain Optimis
Konstruksi Pohon cision. Dalam Prosiding ACM SIGMOD International
Konferensi Pengelolaan Data (SIGMOD'99) , hlm. 169–180, 1999.
[16] EB Hunt, J. Marin, dan PJ Stone. Eksperimen dalam Induksi . Pers Akademik,
New York, 1966.
[17] R. Kohavi, D. Sommerfield, dan J. Dougherty. Penambangan Data Menggunakan MLC ++: A
Perpustakaan Pembelajaran Mesin di C ++. Dalam Prosiding Internasional Kedelapan
https://translate.googleusercontent.com/translate_f 24/188
6/24/2020 Sepuluh Algoritma Top dalam Penambangan Data
Konferensi Alat Bantu dengan Kecerdasan Buatan (ICTAI '96) , hlm. 234–245, 1996.
[18] D. Koller dan M. Sahami. Menuju Pemilihan Fitur Optimal. Dalam Prosiding
Konferensi Internasional Ketigabelas tentang Pembelajaran Mesin (ICML'96) ,
hlm. 284–292, 1996.
[20] B. Liu, W. Hsu, dan Y. Ma. Mengintegrasikan Klasifikasi dan Aturan Asosiasi
Pertambangan. Dalam Prosiding Konferensi Internasional Keempat tentang Pengetahuan
Penemuan dan Penambangan Data (KDD'98) , hlm. 80–86, Agustus 1998.
[21] M. Mehta, R. Agrawal, dan J. Rissanen. SLIQ: Klasifikasi Scalable Cepat untuk
Penambangan Data. Dalam Prosiding Konferensi Internasional ke-5 tentang Perpanjangan
Teknologi Basis Data (EDBT'96) , hlm. 18–32, Maret 1996.
[22] SK Murthy, S. Kasif, dan S. Salzberg. Suatu Sistem untuk Induksi Oblique
Pohon Keputusan. Jurnal Riset Kecerdasan Buatan , 2: 1–32, 1994.
Halaman 27
Referensi 19
[23] DW Opitz dan R. Maclin. Metode Ensemble Populer: Sebuah Studi Empiris.
Jurnal Riset Kecerdasan Buatan , 11: 169–198, 1999.
[26] JR Quinlan. Pohon Keputusan yang Menyederhanakan. Laporan Teknis 930, MIT AI Lab
Memo, Desember 1986.
[27] JR Quinlan. Pohon Keputusan sebagai Penggolong Probabilistik. Dalam P. Langley, ed.,
Prosiding Lokakarya Internasional Keempat tentang Pembelajaran Mesin . Lebih
Gan Kaufmann, CA, 1987.
[28] JR Quinlan. Nilai Atribut Tidak Diketahui di Induksi. Laporan teknis, Basser
Departemen Ilmu Komputer, Universitas Sydney, 1989.
[30] JR Quinlan. C4.5: Program untuk Pembelajaran Mesin . Morgan Kaufmann, 1993.
[33] R. Rastogi dan K. Shim. PUBLIC: Klasifikasi Pohon Keputusan yang Terintegrasi
Bangunan dan Pemangkasan. Dalam Prosiding Konferensi Internasional ke 24 pada
Basis Data Sangat Besar (VLDB'98) , hlm. 404-415, Agustus 1998.
[34] JC Shafer, R. Agrawal, dan M. Mehta. SPRINT: Klasifikasi Paralel yang Dapat diskalakan
https://translate.googleusercontent.com/translate_f 25/188
6/24/2020 Sepuluh Algoritma Top dalam Penambangan Data
untuk Penambangan Data. Dalam Prosiding Konferensi Internasional ke-22 tentang Sangat
Basis Data Besar (VLDB'96) , hlm. 544–555, September 1996.
[35] IH Witten dan E. Frank. Penambangan Data: Alat Pembelajaran Mesin Praktis dan
Teknik . Morgan Kaufmann, 2005.
Halaman 29
28
Bab 2
K-Means
Isi
2.1 Pendahuluan
Pada bab ini, kami menggambarkan algoritma k-means , secara langsung dan luas
digunakan algoritma clustering. Diberikan seperangkat objek (catatan), tujuan pengelompokan
atau segmentasi adalah untuk membagi objek-objek ini menjadi kelompok-kelompok atau "cluster" sedemikian rupa sehingga objek
dalam suatu kelompok cenderung lebih mirip satu sama lain dibandingkan dengan objek yang dimiliki
ke berbagai kelompok. Dengan kata lain, algoritma pengelompokan menempatkan titik yang serupa di
kluster yang sama sambil menempatkan titik yang berbeda dalam kelompok yang berbeda. Perhatikan bahwa, berbeda
untuk tugas-tugas yang diawasi seperti regresi atau klasifikasi di mana ada gagasan tentang a
nilai target atau label kelas, objek yang membentuk input ke prosedur pengelompokan
jangan datang dengan target terkait. Karena itu, clustering sering disebut
sebagai pembelajaran tanpa pengawasan. Karena tidak perlu untuk data berlabel, tanpa pengawasan
https://translate.googleusercontent.com/translate_f 26/188
6/24/2020 Sepuluh Algoritma Top dalam Penambangan Data
algoritma cocok untuk banyak aplikasi di mana data berlabel sulit diperoleh.
Tugas yang tidak diawasi seperti pengelompokan juga sering digunakan untuk mengeksplorasi dan mengkarakterisasi
dataset sebelum menjalankan tugas belajar yang diawasi. Karena clustering tidak berguna
label kelas, beberapa gagasan tentang kesamaan harus didefinisikan berdasarkan atribut dari
benda. Definisi kesamaan dan metode pengelompokan poin berbeda
berdasarkan algoritma clustering yang diterapkan. Jadi, algoritma clustering berbeda
cocok untuk berbagai jenis dataset dan tujuan yang berbeda. Clustering "terbaik"
Algoritma yang digunakan karena itu tergantung pada aplikasi. Sudah lazim untuk dicoba
beberapa algoritma berbeda dan pilih tergantung mana yang paling berguna.
21
Halaman 30
22 K-Means
The k-means algoritma adalah algoritma clustering yang berulang sederhana yang partisi
dataset yang diberikan ke jumlah cluster yang ditentukan pengguna, k . Algoritma itu sederhana
untuk menerapkan dan menjalankan, relatif cepat, mudah beradaptasi, dan umum dalam praktik. ini
secara historis salah satu algoritma terpenting dalam penambangan data.
Secara historis, k-means dalam bentuk dasarnya telah ditemukan oleh beberapa peneliti.
pencari di berbagai disiplin ilmu, terutama oleh Lloyd (1957, 1982) [16], 1
Forgey (1965) [9], Friedman dan Rubin (1967) [10], dan McQueen (1967) [17]. SEBUAH
sejarah rinci k-means bersama dengan deskripsi dari beberapa variasi diberikan
dalam Jain dan Dubes [13]. Gray dan Neuhoff [11] memberikan latar belakang sejarah yang bagus
untuk k-means ditempatkan dalam konteks yang lebih besar dari algoritma mendaki bukit.
Di sisa bab ini, kami akan menjelaskan cara kerja k-means , mendiskusikan batasan
tations dari k-means , memberikan beberapa contoh dari k-means pada dataset buatan dan nyata,
dan diskusikan secara singkat beberapa ekstensi pada algoritma k-means . Kita harus perhatikan itu
daftar ekstensi kami untuk k-means masih jauh dari lengkap, dan pembaca dianjurkan
untuk melanjutkan penelitian mereka sendiri pada aspek k-means yang paling menarik bagi mereka.
1 Lloyd pertama kali menggambarkan algoritma dalam laporan teknis Bell Labs 1957, yang akhirnya diterbitkan pada
1982.
Halaman 31
Dalam algoritma pengelompokan, poin dikelompokkan berdasarkan beberapa gagasan "kedekatan" atau
"kesamaan." Dalam k-means , ukuran standar kedekatan adalah jarak Euclidean.
Secara khusus, orang dapat dengan mudah menunjukkan bahwa k-means berupaya meminimalkan hal-hal berikut
fungsi biaya tidak negatif:
∑N
Biaya = ( argmin j || x i - c j || 2 (2.1)
2)
i=1
Dengan kata lain, k-berarti upaya untuk meminimalkan jarak Euclidean kuadrat total
antara setiap titik x i dan perwakilan kluster terdekatnya c j . Persamaan 2.1 sering
disebut sebagai fungsi objektif k-means .
The k-means algoritma, digambarkan dalam Algoritma 2.1, cluster D dalam berulang
mode, bergantian antara dua langkah: (1) menugaskan kembali gugus ID dari semua titik di
D dan (2) memperbarui perwakilan klaster berdasarkan poin data di masing-masing klaster.
Algoritma bekerja sebagai berikut. Pertama, perwakilan cluster diinisialisasi oleh
memilih titik k dalam d . Teknik untuk memilih benih awal ini termasuk pengambilan sampel
secara acak dari dataset, menetapkannya sebagai solusi pengelompokan sebagian kecil
dari data, atau mengganggu rata-rata global dari data k kali. Dalam Algoritma 2.1, kita
inisialisasi dengan memilih secara acak poin k . Algoritma kemudian beralih di antara dua langkah
sampai konvergensi.
Langkah 1: Penugasan data. Setiap titik data ditugaskan ke pusat massa terdekatnya , dengan
ikatan rusak secara sewenang-wenang. Ini menghasilkan partisi data.
Langkah 2: Relokasi "berarti." Setiap perwakilan gugus dipindahkan ke
pusat (yaitu, rata-rata aritmatika) dari semua titik data yang ditetapkan untuk itu. Dasar pemikirannya
langkah ini didasarkan pada pengamatan bahwa, diberikan satu set poin, tunggal terbaik
representatif untuk set ini (dalam arti meminimalkan jumlah kuadrat
Jarak Euclidean antara setiap titik dan perwakilan) tidak lain adalah
rata-rata poin data. Ini juga mengapa perwakilan cluster sering
secara bergantian disebut sebagai cluster mean atau cluster centroid , dan di mana
algoritma mendapatkan namanya dari.
https://translate.googleusercontent.com/translate_f 28/188
6/24/2020 Sepuluh Algoritma Top dalam Penambangan Data
Halaman 32
24 K-Means
Seperti disebutkan, memilih nilai optimal k mungkin sulit. Jika seseorang memiliki pengetahuan
tentang dataset, seperti jumlah partisi yang secara alami terdiri dari dataset,
maka pengetahuan itu dapat digunakan untuk memilih k . Kalau tidak, seseorang harus menggunakan yang lain
kriteria untuk memilih k , sehingga memecahkan masalah pemilihan model . Satu solusi naif
adalah mencoba beberapa nilai k yang berbeda dan memilih pengelompokan yang meminimalkan
k-berarti fungsi objektif (Persamaan 2.1). Sayangnya, nilai tujuannya
fungsi tidak informatif seperti yang diharapkan dalam kasus ini. Misalnya biaya
dari solusi optimal berkurang dengan bertambahnya k hingga mencapai nol ketika jumlahnya
cluster sama dengan jumlah titik data yang berbeda. Ini membuatnya lebih sulit
gunakan fungsi objektif untuk (a) membandingkan secara langsung solusi dengan angka yang berbeda
cluster dan (b) menemukan nilai optimal k . Jadi, jika yang diinginkan k tidak diketahui
sebelumnya, seseorang biasanya menjalankan k-means dengan nilai k yang berbeda , dan kemudian menggunakannya
beberapa kriteria lain yang lebih cocok untuk memilih salah satu hasil. Misalnya, SAS
menggunakan kriteria cube-clustering, sedangkan X-means menambahkan istilah kompleksitas (yang
meningkat dengan k ) ke fungsi biaya asli (Persamaan 2.1) dan kemudian mengidentifikasi k
yang meminimalkan biaya yang disesuaikan ini [20]. Atau, seseorang dapat semakin meningkat
jumlah cluster, dalam hubungannya dengan kriteria berhenti yang cocok. Membelah dua
k-means [21] mencapai ini dengan pertama-tama meletakkan semua data ke dalam satu cluster, dan kemudian
secara rekursif memisahkan cluster terkecil menjadi dua kelompok menggunakan 2-cara. Itu
https://translate.googleusercontent.com/translate_f 29/188
6/24/2020 Sepuluh Algoritma Top dalam Penambangan Data
Halaman 33
merayakan algoritma LBG [11] yang digunakan untuk kuantisasi vektor menggandakan jumlah
cluster sampai ukuran kode-buku yang sesuai diperoleh. Dengan demikian kedua pendekatan ini meringankan
kebutuhan untuk mengetahui k sebelumnya. Banyak peneliti lain telah mempelajari masalah ini,
seperti [18] dan [12].
Selain keterbatasan di atas, k-means menderita beberapa masalah lain
yang bisa dipahami dengan terlebih dahulu mencatat bahwa masalah pemasangan data menggunakan campuran
dari k Gaussians dengan identik, matriks kovarians isotropik (= σ 2 I ), di mana saya berada
matriks identitas, menghasilkan versi "lunak" dari k-means . Lebih tepatnya, jika lunak
alih-alih penugasan titik data ke komponen campuran dari model semacam itu
mengeras sehingga setiap titik data semata-mata dialokasikan ke komponen yang paling mungkin
[3], maka seseorang memperoleh algoritma k-means . Dari hubungan ini terbukti bahwa
k-means secara inheren mengasumsikan bahwa dataset terdiri dari campuran bola k atau
hyperspheres data, dan masing-masing cluster k sesuai dengan salah satu campuran
komponen. Karena asumsi tersirat ini, k-means akan goyah kapan saja
data tidak dijelaskan dengan baik oleh superposisi bola yang cukup terpisah
Distribusi Gaussian. Sebagai contoh, k-means akan mengalami masalah jika ada
cluster berbentuk cembung dalam data. Masalah ini dapat diatasi dengan menyelamatkan
data untuk "memutihkan" itu sebelum pengelompokan, atau dengan menggunakan ukuran jarak yang berbeda itu
lebih tepat untuk dataset. Sebagai contoh, pengelompokan informasi-teori menggunakan
divergensi KL untuk mengukur jarak antara dua titik data yang mewakili dua
distribusi probabilitas diskrit. Baru-baru ini ditunjukkan bahwa jika seseorang mengukur
jarak dengan memilih anggota dari kelas divergensi yang sangat besar yang disebut Bregman
divergensi selama langkah penugasan dan tidak membuat perubahan lain, yang penting
sifat-sifat k-means , termasuk konvergensi yang dijamin, batas pemisahan linier-
aries, dan skalabilitas, dipertahankan [1]. Hasil ini menjadikan k-means efektif untuk a
kelas dataset yang jauh lebih besar asalkan divergensi yang sesuai digunakan.
Metode lain untuk menangani cluster nonconvex adalah dengan memasangkan k-means dengan
algoritma lain. Sebagai contoh, pertama dapat mengelompokkan data menjadi sejumlah besar
kelompok menggunakan k-means . Kelompok-kelompok ini kemudian diaglomerasi menjadi kelompok yang lebih besar menggunakan
pengelompokan hierarki tautan tunggal, yang dapat mendeteksi bentuk kompleks. Pendekatan ini
juga membuat solusi kurang sensitif terhadap inisialisasi, dan karena hirarkis
Metode memberikan hasil pada berbagai resolusi, seseorang tidak perlu khawatir
memilih nilai yang tepat untuk k juga; alih-alih, kita bisa menggunakan nilai besar untuk k
saat membuat cluster awal.
Algoritma ini juga sensitif terhadap keberadaan pencilan, karena “rata-rata” bukan a
statistik yang kuat. Langkah preprocessing untuk menghapus outlier dapat membantu. Pengolahan pasca
hasilnya, misalnya, untuk menghilangkan cluster kecil, atau untuk menggabungkan cluster dekat menjadi
sekelompok besar, juga diinginkan. Algoritma Ball and Hall ISODATA dari tahun 1967
efektif digunakan baik pra dan pasca pengolahan pada k-means .
Masalah potensial lainnya adalah masalah cluster "kosong" [4]. Saat menjalankan k-
berarti , terutama dengan nilai k yang besar dan / atau ketika data berada di tempat yang sangat tinggi
ruang dimensi, ada kemungkinan bahwa di beberapa titik eksekusi, ada sebuah cluster
representatif c j sehingga semua poin x i dalam D lebih dekat ke beberapa representasi cluster lainnya
sentatif yang bukan c j . Ketika titik dalam D ditugaskan ke kluster terdekat mereka, j th
cluster akan memiliki titik nol yang ditetapkan untuk itu. Yaitu, cluster j sekarang adalah cluster kosong.
https://translate.googleusercontent.com/translate_f 30/188
6/24/2020 Sepuluh Algoritma Top dalam Penambangan Data
Halaman 34
26 K-Means
Algoritma standar tidak melindungi terhadap cluster kosong, tetapi ekstensi sederhana
(seperti menginisialisasi ulang perwakilan klaster dari kluster kosong atau "mencuri"
beberapa poin dari cluster terbesar) dimungkinkan.
−2
−4
−6
−6 −4 −2 0 2 4 6 8
Gambar 2.1 Dataset buatan yang digunakan dalam contoh kita; data diambil dari a
campuran empat Gaussians.
Halaman 35
https://translate.googleusercontent.com/translate_f 31/188
6/24/2020 Sepuluh Algoritma Top dalam Penambangan Data
2.4 Contoh 27
2.4 Contoh
Mari kita tunjukkan contoh k-means pada dataset buatan untuk menggambarkan caranya
k-means berfungsi. Kami akan menggunakan data buatan yang diambil dari empat Gaussians 2-D dan
gunakan nilai k = 4; dataset diilustrasikan pada Gambar 2 .1. Data diambil dari a
Gaussian tertentu diplot dengan warna yang sama pada Gambar 2.1. Data biru terdiri
200 poin yang diambil dari Gaussian dengan mean at (−3 , −3) dan ma kovarian
trix . 0625 × I , di mana saya adalah matriks identitas. Data hijau terdiri dari 200 poin
diambil dari Gaussian dengan mean di (3 , -3) dan kovarians matriks saya . Akhirnya, kita
memiliki data kuning dan merah yang tumpang tindih yang diambil dari dua Gauss terdekat. Kuning
data terdiri dari 150 poin yang diambil dari Gaussian dengan rata-rata ( , 1 , 2) dan kovarian
matriks I , sedangkan data merah terdiri dari 150 poin yang diambil dari Gaussian dengan rata-rata
(1,2) dan kovarians matriks saya . Meskipun tumpang tindih antara titik merah dan kuning,
orang akan mengharapkan k-berarti melakukan dengan baik karena kita memiliki nilai k dan nilai yang tepat
data dihasilkan oleh campuran Gaussians bola, sehingga cocok dengan
asumsi yang mendasari algoritma.
Langkah pertama dalam k-means adalah menginisialisasi perwakilan cluster. Ini adalah ilus-
ditunjukkan pada Gambar 2.2a , di mana k poin dalam dataset telah dipilih secara acak. Di dalam
gambar dan gambar-gambar berikut, gugus berarti C akan diwakili oleh besar
lingkaran berwarna dengan garis hitam. Warnanya sesuai dengan ID cluster itu
cluster tertentu, dan semua titik yang ditugaskan untuk cluster tersebut diwakili sebagai poin
warnanya sama. Warna-warna ini tidak memiliki koneksi yang pasti dengan warna pada Gambar 2.1
(lihat Latihan 7). Karena poin belum ditetapkan ID cluster pada Gambar 2.2a, mereka
diplot dalam warna hitam.
Langkah selanjutnya adalah menetapkan semua poin ke perwakilan kluster terdekat; ini adalah
diilustrasikan pada Gambar 2.2b, di mana setiap titik telah diplot agar sesuai dengan warna
perwakilan klaster terdekat. Langkah ketiga dalam k-means adalah memperbarui k cluster
perwakilan untuk sesuai dengan rata-rata semua poin yang saat ini ditugaskan untuk
ter. Langkah ini diilustrasikan pada Gambar 2.2c. Secara khusus, kami telah merencanakan kluster lama
perwakilan dengan simbol "X" hitam dan perwakilan kluster yang baru dan diperbarui
sebagai lingkaran berwarna besar dengan garis hitam. Ada juga jalur penghubung yang lama
mean cluster dengan mean cluster baru yang diperbarui. Orang dapat mengamati bahwa cluster
perwakilan telah bergerak untuk mencerminkan centroid saat ini dari masing-masing cluster.
The k-means algoritma sekarang iterates antara dua langkah sampai konvergensi: reas-
menandatangani poin D untuk perwakilan kluster terdekat dan memperbarui klaster k
perwakilan. Kami telah mengilustrasikan empat iterasi pertama k-means dalam Gambar
2.2 dan 2.3. Cluster akhir setelah konvergensi ditunjukkan pada Gambar 2.3d . Catat itu
contoh ini membutuhkan delapan iterasi untuk bertemu. Namun secara visual, ada sedikit perubahan
dalam diagram antara iterasi 4 dan 8, dan gambar-gambar ini dihilangkan untuk ruang
alasan. Seperti yang dapat dilihat dengan membandingkan Gambar 2.3d dengan Gambar 2.1, cluster ditemukan
dengan k-means cocok dengan benar, distribusi yang mendasarinya.
Pada bagian sebelumnya, kami menyebutkan bahwa k-means sensitif terhadap poin awal
dipilih sebagai cluster. Pada Gambar 2 .4, kami menunjukkan apa yang terjadi ketika perwakilan k berada
Halaman 36
https://translate.googleusercontent.com/translate_f 32/188
6/24/2020 Sepuluh Algoritma Top dalam Penambangan Data
28 K-Means
4 4
2 2
0 0
−2 −2
−4 −4
−6 −6
−6 −4 −2 0 2 4 6 8 −6 −4 −2 0 2 4 6 8
(Sebuah) (b)
4
4
2
2
0 0
−2
−2
−4 −4
−6 −6
−6 −4 −2 0 2 4 6 8 −6 −4 −2 0 2 4 6 8
(c) (d)
4 4
2 2
0 0
−2 −2
−4 −4
−6 −6
−6 −4 −2 0 2 4 6 8 −6 −4 −2 0 2 4 6 8
(e) (f)
Halaman 37
2.4 Contoh 29
4 4
https://translate.googleusercontent.com/translate_f 33/188
6/24/2020 Sepuluh Algoritma Top dalam Penambangan Data
2 2
0 0
−2 −2
−4 −4
−6 −6
−6 −4 −2 0 2 4 6 8 −6 −4 −2 0 2 4 6 8
(Sebuah) (b)
4
4
2
2
0
0
−2
−2
−4
−4
−6
−6 −4 −2 0 2 4 6 8
−6
−6 −4 −2 0 2 4 6 8 (d)
(c)
Gambar 2.3 k-means pada data buatan. (Lanjutan dari Gambar 2.2.)
diinisialisasi buruk pada dataset buatan yang sama yang digunakan dalam Gambar 2.2 dan 2.3. Gambar 2.4a
dan c menunjukkan dua inisialisasi yang mengarah pada kelompok miskin pada Gambar 2.4b dan d. Ini
hasilnya dianggap buruk karena tidak sesuai dengan yang mendasarinya
distribusi.
Akhirnya, mari kita periksa kinerja k-means di bangku sederhana, klasik.
tandai dataset. Dalam contoh kami, kami menggunakan dataset Iris (tersedia dari data UCI
mining repository), yang berisi 150 titik data dari tiga kelas. Setiap perwakilan kelas
membenci spesies bunga Iris yang berbeda, dan ada 50 poin dari setiap kelas.
Sementara ada empat dimensi (mewakili lebar sepal, panjang sepal, lebar kelopak,
dan panjang petal), hanya dua dimensi (lebar petal dan panjang petal) yang diperlukan
untuk membedakan tiga kelas. Kumpulan data Iris diplot pada Gambar 2.5a di sepanjang
dimensi lebar kelopak dan panjang kelopak.
Pada Gambar 2.5b, kami menunjukkan contoh algoritma k-means yang dijalankan pada Iris
dataset dengan k = 3, hanya menggunakan atribut lebar kelopak dan panjang kelopak. Itu
Halaman 38
30 K-Means
4 4
2 2
0 0
−2 −2
https://translate.googleusercontent.com/translate_f 34/188
6/24/2020 Sepuluh Algoritma Top dalam Penambangan Data
−4 −4
−6 −6
−6 −4 −2 0 2 4 6 8 −6 −4 −2 0 2 4 6 8
(Sebuah) (b)
4 4
2 2
0 0
−2 −2
−4 −4
−6 −6
−6 −4 −2 0 2 4 6 8 −6 −4 −2 0 2 4 6 8
(c) (d)
Gambar 2.4 Contoh pengelompokan yang buruk setelah inisialisasi yang buruk; hasil ini
cluster dianggap "miskin" dalam arti bahwa mereka tidak cocok dengan yang benar,
distribusi yang mendasarinya.
Algoritma k-means mampu mengelompokkan titik-titik data sedemikian rupa sehingga masing-masing cluster terkompilasi
sebagian besar pose bunga dari spesies yang sama.
Halaman 39
2 2
1.5 1.5
1 1
Lebar Kelopak Lebar Kelopak
0,5 0,5
0 0
1 2 3 4 5 6 7 1 2 3 4 5 6 7
Panjang Petal Panjang Petal
(Sebuah) (b)
https://translate.googleusercontent.com/translate_f 35/188
6/24/2020 Sepuluh Algoritma Top dalam Penambangan Data
Gambar 2.5 (a) Iris dataset; setiap warna adalah spesies Iris yang berbeda; (B) Hasil
k-means pada dataset Iris; setiap warna adalah cluster yang berbeda; perhatikan bahwa tidak ada
tentu korespondensi antara warna dalam (a) dan (b) (lihat Latihan 7).
Seperti disebutkan sebelumnya, k-means terkait erat dengan pemasangan campuran k isotropik
Gauss untuk data. Apalagi generalisasi ukuran jarak untuk semua
Divergensi Bregman terkait dengan pemasangan data dengan campuran komponen k
dari keluarga distribusi eksponensial. Generalisasi luas lainnya adalah melihat
"berarti" sebagai model probabilistik bukan titik dalam R d . Di sini, dalam penugasan
langkah, setiap titik data ditugaskan ke model yang paling mungkin menghasilkannya. Dalam
Langkah "relokasi", parameter model diperbarui agar paling sesuai dengan dataset yang ditugaskan.
K-means berbasis model seperti itu [23] memungkinkan seseorang untuk memenuhi data yang lebih kompleks, untuk
contoh, urutan dijelaskan oleh model Hidden Markov.
Seseorang juga dapat “kernelize” k-means [5]. Padahal batas antar cluster adalah
masih linear dalam ruang dimensi tinggi implisit, mereka dapat menjadi nonlinier ketika
diproyeksikan kembali ke ruang asli, sehingga memungkinkan kernel k-means untuk berurusan dengan
cluster yang lebih kompleks. Dhillon et al. [5] telah menunjukkan hubungan yang erat antara
kernel k-means dan spektral clustering. The K-medoid [15] algoritma ini mirip dengan
k-means , kecuali bahwa centroid harus milik dataset yang dikelompokkan.
Fuzzy c-means [6] juga serupa, kecuali ia menghitung fungsi keanggotaan fuzzy
untuk setiap cluster daripada yang sulit.
Untuk menangani dataset yang sangat besar, upaya yang substansial juga telah mempercepat
meningkatkan k-means , terutama dengan menggunakan pohon-kd [19] atau mengeksploitasi segitiga
ketidaksetaraan [7] untuk menghindari membandingkan setiap titik data dengan semua centroid selama
langkah penugasan.
Akhirnya, kami membahas dua ekstensi langsung dari k-means . Yang pertama adalah a
varian k-means yang disebut soft k-means . Dalam algoritma k-means standar ,
setiap titik x i milik satu dan hanya satu cluster. Dalam k-means lunak , kendala ini
santai, dan setiap titik x i dapat menjadi milik setiap cluster dengan beberapa probabilitas yang tidak diketahui.
Dalam k-means lunak , untuk setiap titik x i , satu mempertahankan seperangkat probabilitas atau bobot k
Halaman 40
32 K-Means
yang menggambarkan kemungkinan bahwa x i milik masing-masing cluster. Bobot ini didasarkan
pada jarak x i untuk masing-masing perwakilan kelompok C , di mana probabilitas
bahwa x i adalah dari klaster j sebanding dengan kesamaan antara x i dan c j . Cluster
Perwakilan dalam hal ini ditemukan dengan mengambil nilai rata-rata dari klaster rata-rata
atas semua poin dalam dataset D .
Perpanjangan kedua dari k-means berkaitan dengan pembelajaran semi-diawasi. Dalam pengantar
Duction, kami membuat perbedaan antara pembelajaran terawasi dan pembelajaran tanpa pengawasan
ing. Singkatnya, pembelajaran terawasi menggunakan label kelas sementara pembelajaran tanpa pengawasan
tidak. The k-means algoritma adalah algoritma murni tanpa pengawasan. Di sana juga
ada kategori algoritma pembelajaran yang disebut algoritma semisupervised. Semi
Algoritma pembelajaran yang diperintahkan mampu memanfaatkan label dan tidak berlabel
data. Pembelajaran semi-diawasi adalah kompromi yang bermanfaat antara murni diawasi
metode dan metode murni tanpa pengawasan. Metode pembelajaran yang diawasi biasanya
membutuhkan jumlah data berlabel yang sangat besar; metode semi-diawasi berguna ketika
sangat sedikit contoh berlabel yang tersedia. Metode pembelajaran tanpa pengawasan, yang dapat dilakukan
tidak melihat label kelas, dapat mempelajari model yang tidak sesuai untuk aplikasi yang ada.
Saat menjalankan k-means , seseorang tidak memiliki kendali atas gugus akhir yang ditemukan.
https://translate.googleusercontent.com/translate_f 36/188
6/24/2020 Sepuluh Algoritma Top dalam Penambangan Data
ered; klaster-klaster ini mungkin cocok atau tidak sesuai dengan beberapa konsep yang mendasarinya
seseorang tertarik. Sebagai contoh, pada Gambar 2.5b , inisialisasi yang buruk mungkin dimiliki
menghasilkan cluster yang tidak sesuai dengan spesies Iris dalam dataset.
Metode semi-diawasi, yang dapat mengambil panduan dalam bentuk poin berlabel, adalah
lebih mungkin untuk membuat cluster yang sesuai dengan satu set label kelas yang diberikan.
Penelitian ke varian semisupervised dari k-means termasuk [22] dan [2]. Salah satunya
algoritma dari [2] disebut seeded k-means adalah ekstensi sederhana untuk k-means
yang menggunakan data berlabel untuk membantu menginisialisasi nilai k dan perwakilan cluster
C . Dalam pendekatan ini, k dipilih sama dengan jumlah kelas dalam label
data, sedangkan c j diinisialisasi sebagai rata-rata dari semua titik berlabel di kelas j . Perhatikan bahwa,
tidak seperti k-means yang tidak diawasi , sekarang ada korespondensi yang diketahui antara
klaster j dan kelas j . Setelah inisialisasi, seeded k-berarti iterates over
dua langkah yang sama dengan k-means (memperbarui keanggotaan klaster dan memperbarui klaster
berarti) sampai konvergensi.
2.6 Ringkasan
The k-means algoritma adalah sederhana berulang pengelompokan algoritma yang partisi sebuah
dataset ke dalam k cluster. Pada intinya, algoritma ini bekerja dengan mengulangi dua langkah: (1)
mengelompokkan semua titik dalam dataset berdasarkan jarak antara setiap titik dan titiknya
perwakilan klaster terdekat dan (2) memperkirakan ulang perwakilan klaster. Limita-
Tions dari algoritma k-means termasuk sensitivitas k-means untuk inisialisasi
dan menentukan nilai k .
Terlepas dari kekurangannya, k-means tetap menjadi klaster partisi yang paling banyak digunakan
algoritma tering dalam praktek. Algoritma ini sederhana, mudah dimengerti, dan
Halaman 41
2.7 Latihan 33
cukup skalabel, dan dapat dengan mudah dimodifikasi untuk menghadapi berbagai skenario seperti itu
sebagai pembelajaran semisupervisi atau streaming data. Perbaikan berkelanjutan dan umum-
Pengaitan algoritma dasar telah memastikan relevansinya yang berkelanjutan dan secara bertahap
meningkatkan efektivitasnya juga.
2.7 Latihan
1. Menggunakan dataset Iris tolok ukur standar (tersedia online dari UCI
dataset repository), jalankan k-means untuk mendapatkan hasil yang mirip dengan Gambar 2.5b. ini
cukup untuk melihat hanya atribut "kelopak lebar" dan "kelopak panjang."
Apa yang terjadi ketika seseorang menggunakan nilai untuk k selain tiga? Bagaimana caranya berbeda
inisialisasi klaster mempengaruhi klaster akhir? Mengapa hasil ini berpotensi
berbeda dengan hasil yang diberikan pada Gambar 2.5b?
2. Buktikan bahwa nilai fungsi objektif k-means menyatu ketika k-
berarti dijalankan.
3. Jelaskan tiga keunggulan dan tiga kelemahan k-means dibandingkan dengan
metode pengelompokan lainnya (misalnya, pengelompokan aglomeratif).
4. Jelaskan atau plot contoh dua dimensi di mana k-means tidak akan
https://translate.googleusercontent.com/translate_f 37/188
6/24/2020 Sepuluh Algoritma Top dalam Penambangan Data
cocok untuk mencari cluster.
5. Dalam k-means , setelah cluster artinya telah konvergen, seperti apa bentuknya
batas cluster? Bagaimana ini terkait dengan tesselations Voronoi?
6. Apakah k-means menjamin bahwa poin-poin dalam cluster yang sama lebih mirip
daripada poin dari berbagai kelompok? Yaitu, buktikan atau bantah bahwa, setelah k-
berarti telah konvergen, jarak Euclidean kuadrat antara dua titik di
cluster yang sama selalu kurang dari jarak Euclidean kuadrat antara
dua poin dari kelompok yang berbeda.
7. Assumeoneisgivenahypotheticaldataset D yang terdiri dari 10 poin. k-means
dijalankan dua kali pada dataset ini. Mari kita menunjukkan ID cluster dari 10 poin dalam D
sebagai vektor m , di mana m i , yang saya th masuk dalam vektor, adalah cluster ID dari i th
menunjuk D .
ID cluster 10 poin dari k-means pertama kali dijalankan adalah
m 1 = [1 , 1 , 1 , 2 , 2 , 2 , 3 , 3 , 3 , 3], sedangkan ID cluster diperoleh dari yang kedua
run of k-means adalah m 2 = [3 , 3 , 3 , 1 , 1 , 1 , 2 , 2 , 2 , 2].
Apa perbedaan antara dua set ID cluster? Lakukan yang sebenarnya
ID cluster titik-titik dalam D berarti sesuatu? Apa artinya ini saat
membandingkan hasil berbagai algoritma pengelompokan? Apa artinya ini
ketika membandingkan hasil algoritma pengelompokan dengan label kelas yang dikenal?
8. Buat implementasi k-means Anda sendiri dan metode menciptakan artifi-
data penting diambil dari k distribusi Gaussian. Uji kode Anda pada buatan
data dan melacak berapa banyak iterasi yang diperlukan untuk k-means untuk bertemu.
Halaman 42
34 K-Means
9. Menggunakan kode yang dihasilkan dalam latihan sebelumnya, plot jarak rata-rata
dari setiap titik dari rata-rata klusternya versus jumlah cluster k . Adalah
jarak rata-rata suatu titik dari kelompoknya berarti metode yang baik secara otomatis
menentukan jumlah cluster k ? Mengapa atau mengapa tidak? Apa yang berpotensi
terjadi ketika jumlah cluster k sama dengan jumlah poin dalam
Himpunan data?
10. Penelitian dan jelaskan ekstensi ke algoritma k-means standar .
Tergantung pada minat individu, ini dapat mencakup pekerjaan terbaru tentang
ing k-means lebih efisien secara komputasi, bekerja untuk memperluas k-means
untuk belajar semi-diawasi, bekerja mengadaptasi metrik jarak lain ke dalam
k-means , atau banyak kemungkinan lainnya.
Referensi
[1] A. Banerjee, S. Merugu, I. Dhillon, dan J. Ghosh. "Berkelompok dengan Bregman
divergences, ” Journal of Machine Learning Research ( JMLR ), vol. 6, hlm. 1705–
1749, 2005.
https://translate.googleusercontent.com/translate_f 38/188
6/24/2020 Sepuluh Algoritma Top dalam Penambangan Data
[4] PS Bradley, KP Bennett, dan A. Demiriz. "K-means yang terbatas mengelompok,"
Laporan Teknis MSR-TR-2000-65 , 2000.
[5] IS Dhillon, Y. Guan, dan B. Kulis. "K-means Kernel: Pengelompokan spektral dan
pemotongan yang dinormalisasi, ” KDD 2004 , hlm. 551–556, 2004.
[6] JC Dunn. “Kerabat fuzzy dari proses ISODATA dan penggunaannya dalam mendeteksi
cluster yang terpisah dengan baik, ” Journal of Cybernetics , vol. 3, hlm. 32–57,
1974.
[8] C. Elkan. “Mengelompokkan dengan k-means: Lebih cepat, lebih cerdas, lebih murah,” Keynote berbicara di
Workshop Pengelompokan Data Dimensi Tinggi, SIAM International Confer-
ence tentang Data Mining , 2004.
[10] HP Friedman dan J. Rubin. "Pada beberapa kriteria invarian untuk pengelompokan data,"
Jurnal Asosiasi Statistik Amerika , 62, hlm. 1159–1178, 1967.
Halaman 43
Referensi 35
[13] AK Jain dan RC Dubes. Algoritma untuk Data Clustering , Prentice Hall,
1988.
[15] L. Kaufman dan PJ Rousseeuw. Menemukan Grup dalam Data: Pengantar untuk
Analisis Cluster , 1990.
[16] SP Lloyd. "Kuantisasi kuadrat terkecil dalam PCM," Bell Lab tidak dipublikasikan. Tech.
Catatan, bagian disajikan di Institut Statistik Matematika.,
Atlantic City, NJ, September 1957. Juga, IEEE Trans. Memberitahu. Teori (Edisi Khusus
pada Kuantisasi), vol. IT-28, hlm. 129–137, Maret 1982.
[20] D. Pelleg dan A. Moore. “X-means: Memperluas k-means dengan estimasi efisien
jumlah cluster, ” Konferensi Internasional tentang Pembelajaran Mesin
2000 , hlm. 727-734, 2000.
https://translate.googleusercontent.com/translate_f 39/188
6/24/2020 Sepuluh Algoritma Top dalam Penambangan Data
teknik, " Proc. Lokakarya KDD tentang Penambangan Teks , 2000.
[22] K. Wagstaff, C. Cardie, S. Rogers, S. Schrödl. “K-means terkelompok
dengan latar belakang pengetahuan, ” Konferensi Internasional tentang Pembelajaran Mesin
2001 , hlm. 577–584, 2001.
[23] S. Zhong dan J. Ghosh. “Kerangka kerja terpadu untuk pengelompokan berbasis model,”
Jurnal Penelitian Pembelajaran Mesin ( JMLR ), vol. 4, hlm. 1001-1037, 2003.
Halaman 45
44
bagian 3
SVM: Mendukung Mesin Vektor
Isi
Support vector Machines (SVMs), termasuk support vector classifier (SVC) dan dukungan
port vector regressor (SVR), adalah salah satu metode yang paling kuat dan akurat di
semua algoritma penambangan data terkenal. SVM, yang awalnya dikembangkan oleh
Vapnik pada 1990-an [1-11], memiliki dasar teori yang kuat yang berakar pada statistik
teori belajar, hanya membutuhkan sedikitnya selusin contoh untuk pelatihan, dan sedang
sering tidak peka terhadap jumlah dimensi. Dalam dekade terakhir, SVM telah
dikembangkan dengan langkah cepat baik dalam teori maupun praktik.
https://translate.googleusercontent.com/translate_f 40/188
6/24/2020 Sepuluh Algoritma Top dalam Penambangan Data
37
Halaman 46
x2
x1
r*
r*
Hyperplane optimal
w x+b=0
T
Gambar 3.1 Ilustrasi hyperplane optimal dalam SVC untuk dipisahkan secara linear
kasus.
Secara intuitif, margin dapat didefinisikan sebagai jumlah ruang, atau pemisahan
dua kelas sebagaimana didefinisikan oleh hyperplane. Secara geometris, margin sesuai
ke jarak terpendek antara titik data terdekat ke titik mana pun di hyper-
pesawat. Gambar 3.1 menggambarkan konstruksi geometrik yang sesuai optimal
hyperplane dalam kondisi di atas untuk ruang input dua dimensi.
Misalkan w dan b menunjukkan vektor bobot dan bias dalam hyperplane optimal, masing-masing
secara aktif. Hyperplane yang sesuai dapat didefinisikan sebagai
wTx+b=0 (3.1)
g(x)
r= (3.2)
w
https://translate.googleusercontent.com/translate_f 41/188
6/24/2020 Sepuluh Algoritma Top dalam Penambangan Data
R m × {± 1}, kita memiliki
w T x i + b ≥ 1 untuk y i = +1
(3.3)
w T x i + b ≤ −1 untuk y i = −1
Halaman 47
∗=
2
ρ=2r (3.5)
w
Untuk memastikan bahwa hyperplane margin maksimum dapat ditemukan, SVC berupaya untuk
memaksimalkan ρ sehubungan dengan w dan b :
2
maks
b,b w (3.6)
( )
st i i wTxi+b ≥ 1 , i = 1 , ..., n
Setara,
1
min b2
b,b 2 (3.7)
st y i ( w T x i + b ) ≥ 1 , i = 1 , ..., n
∑n [ ( ) ]
1
L ( w , b, α ) = wTw- αi yi wTxi+b -1 (3.8)
2 i=1
https://translate.googleusercontent.com/translate_f 42/188
6/24/2020 Sepuluh Algoritma Top dalam Penambangan Data
Halaman 48
⎢⎢⎢⎢⎢⎝∑n (3.10)
αiyi=0
i=1
Mengganti Persamaan (3.10) ke dalam persamaan Fungsi Lagrange (3.8), bisa kita dapatkan
masalah ganda yang sesuai :
∑n ∑n ∑n
1
maks W(α)= αi- α i α j y saya y j x T
α saya x j
i=1
2 i=1 j=1
∑n
st αiyi=0
i=1
α i ≥ 0 , i = 1 , ..., n (3.11)
[ ( ) ]
αi yi wTxi+b -1 = 0 , i = 1 , ..., n (3.12)
∑n
∗= α∗
w (3.13)
iyixi
i=1
b∗ = 1 - w ∗Txs
untuk y s = +1 (3.14)
https://translate.googleusercontent.com/translate_f 43/188
6/24/2020 Sepuluh Algoritma Top dalam Penambangan Data
Halaman 49
∑n
1
min w2+C ξ saya
b,b 2
i=1
( )
st i i wTxi+b ≥ 1 - ξ i , ξ i ≥ 0 , i = 1 , ..., n (3.15)
∑n ∑n ∑n
1
maks W(α)= αi- α i α j y saya y j x T
α saya x j
i=1
2 i=1 j=1
∑n
st αiyi=0
i=1
0 ≤ α i ≤ C, i = 1 , ..., n (3.16)
https://translate.googleusercontent.com/translate_f 44/188
6/24/2020 Sepuluh Algoritma Top dalam Penambangan Data
Halaman 50
Membandingkan Persamaan (3.11) dengan Persamaan (3.16), perlu diperhatikan bahwa slack
variabel ξ i s tidak muncul dalam masalah ganda. Perbedaan utama antara
kasing tidak dapat dipisahkan dan dipisahkan secara linear adalah bahwa kendala α i ≥ 0 diganti dengan
yang lebih ketat kendala 0 ≤ a i ≤ C . Kalau tidak, kedua kasus itu serupa,
termasuk perhitungan nilai-nilai optimal dari vektor bobot w dan bias b ,
terutama definisi vektor dukungan [7,13].
Kondisi komplementer Karush-Kuhn-Tucker dalam kasus yang tidak terpisahkan adalah
[ ( ) ]
αi yi wTxi+b -1+ξi = 0 , i = 1 , ..., n (3.17)
dan
γ i ξ i = 0 , i = 1 , ..., n (3.18)
di mana γ i adalah pengganda Lagrange yang sesuai dengan ξ i yang telah diperkenalkan
untuk menegakkan nonnegativitas dari ξ i [13]. Pada titik sadel di mana turunan dari
fungsi Lagrange untuk masalah primal sehubungan dengan ξ i adalah nol, evaluasi
dari hasil turunan
αi+γi=C (3.19)
∑n
w∗= α∗ (3.21)
iyixi
i=1
∗
Bias optimal b dapat diperoleh dengan mengambil titik data apa pun ( x i , y i ) dalam pelatihan
atur yang kita miliki 0 <α ∗
i <C dan ξ i = 0 yang sesuai, dan menggunakan data
titik dalam Persamaan (3.17) [13].
Halaman 51
https://translate.googleusercontent.com/translate_f 45/188
6/24/2020 Sepuluh Algoritma Top dalam Penambangan Data
wΦ T Φ ( x ) + b = 0 (3.22)
Tanpa kehilangan keumuman, kami menetapkan bias b = 0, dan menyederhanakan Persamaan (3.22) sebagai:
wΦ T Φ ( x ) = 0 (3.23)
∗
Serupa dengan kasing linier yang dapat dipisahkan, kami mencari vektor bobot optimal di
ruang fitur berdasarkan metode pengali Lagrange yang serupa, dan dapatkan:
∑n
wΦ ∗ = α∗ (3.24)
iyiΦ ( xi)
i=1
Dengan demikian, hyperplane optimal yang dihitung dalam ruang fitur adalah:
∑n
α∗ (3.25)
iyiΦT( xi) Φ ( x ) = 0
i=1
Definisi 3.3.1 (Kernel Produk Dalam) [7]. Kernel adalah fungsi K ( x , x ), untuk semua
x , x ∈ X ⊂ R m , puas:
K(x,x)=ΦT(x)Φ(x) (3.26)
∑n
α∗ (3.27)
iyiK ( xi, x ) = 0
i=1
Seperti yang ditunjukkan, trik kernel adalah metode yang menarik untuk menyederhanakan komputasi.
Dengan demikian, kita dapat menghindari komputasi ruang fitur yang kompleks secara langsung, tidak hanya
dalam perhitungan produk dalam tetapi juga dalam desain pengklasifikasi.
Halaman 52
https://translate.googleusercontent.com/translate_f 46/188
6/24/2020 Sepuluh Algoritma Top dalam Penambangan Data
44 SVM: Mendukung Mesin Vektor
∑∞
K(x,x)= λiϕi(x)ϕi(x) (3.28)
i=1
dengan koefisien positif, λ i > 0 untuk semua i. Agar ekspansi ini valid dan untuk itu
konvergen, perlu dan cukup bahwa kondisi
∫a ∫a
K(x,x)ψ(x)ψ(x)dxdx≥0 (3.29)
b b
Dalam terang teorema, kita dapat meringkas karakteristik yang paling berguna dalam
konstruksi kernel, yang disebut kernel Mercer. Artinya, untuk sembarang acak
himpunan bagian terbatas milik ruang input X , matriks yang sesuai dibangun
oleh fungsi kernel K ( x , x )
( ( )) n
K= K x i , x j i, j = 1 (3.31)
adalah matriks simetris dan semidefinit, yang disebut matriks Gram [7].
Di bawah persyaratan ini, masih ada beberapa kebebasan dalam memilih kernel
fungsi dalam praktek. Sebagai contoh, selain fungsi kernel linear, kita juga bisa mendefinisikan
fungsi kernel polinomial atau basis radial. Lebih banyak penelitian dalam beberapa tahun terakhir telah dilakukan
penelitian kernel yang berbeda untuk klasifikasi SVC dan banyak statistik lainnya
tes. Kami akan menyebutkan ini di bagian berikut.
Dalam Bagian 3.2, kami memperkenalkan soft margin SVC untuk menyelesaikan secara linear tidak terpisahkan
masalah. Dibandingkan dengan trik kernel, jelas bahwa kedua pendekatan tersebut sebenarnya
sekutu memecahkan masalah dengan cara yang berbeda. Margin lunak mengendurkan kendala
di ruang input asli dan memungkinkan beberapa kesalahan ada. Namun, ketika masalah
lem sangat tidak dapat dipisahkan secara linear dan kesalahan klasifikasi yang terlalu tinggi, lunak
margin tidak bisa dijalankan. Trik kernel memetakan data ke fitur dimensi tinggi
ruang secara implisit oleh fungsi kernel untuk membuat masalah yang tidak terpisahkan
dapat dipisahkan. Namun, sebenarnya trik kernel tidak selalu dapat menjamin masalah
menjadi benar-benar terpisah secara linier karena kompleksitas masalah. Karena itu,
Halaman 53
dalam praktiknya kita sering mengintegrasikan mereka untuk mengerahkan keunggulan yang berbeda dari kedua teknologi tersebut.
niques dan selesaikan masalah linier yang tidak dapat dipisahkan dengan lebih efisien. Akibatnya,
bentuk ganda yang sesuai untuk masalah optimasi terbatas di kernel lunak
https://translate.googleusercontent.com/translate_f 47/188
6/24/2020 Sepuluh Algoritma Top dalam Penambangan Data
margin SVC adalah sebagai berikut:
∑n ∑n ∑n
1
maks W(α)= αi- αiαjyiyjK(xi,xj)
α
2
i=1 i=1 j=1
∑n
st αiyi=0
i=1
0 ≤ α i ≤ C, i = 1 , ..., n (3.32)
Dengan mengikuti metode pengganda Lagrange yang serupa, kita dapat memperoleh yang optimal
penggolong:
∑n
∗
f(x)= α∗ (3.33)
iyiK ( xi, x ) + b
i=1
∑n
∗= 1-
dimana b
i = 1 α ∗i y i K ( x i , x s ), untuk vektor dukungan positif y s = +1.
Contoh 3.3.4 Aplikasi Nyata Contoh algoritma SVC telah banyak digunakan
menghujani banyak bidang ilmiah penting, seperti bioinformatika, fisika, kimia,
iatrologi, astronomi, dan sebagainya. Di sini kami dengan hati-hati memilih lima dataset dalam iatrology
area dari Repositori Pembelajaran Mesin UCI (http://ida.first.fraunhofer.de/
proyek / bench / benchmarks.htm) untuk menggambarkan aplikasi nyata SVC. Kelima
Halaman 54
12
10
https://translate.googleusercontent.com/translate_f 48/188
6/24/2020 Sepuluh Algoritma Top dalam Penambangan Data
y 2
‒2
‒4
‒6
‒8
‒8 ‒6 ‒4 ‒2 0 2 4 6 8 10 12
k
(Sebuah)
12
10
y 2
‒2
‒4
‒6
‒8
‒8 ‒6 ‒4 ‒2 0 2 4 6 8 10 12
k
(b)
Gambar 3.2 Batas diskriminatif SVC dalam masalah XOR. (a) Yang sulit
margin SVC di kernel linear. (B) SVC margin lunak dalam kernel basis radial.
Halaman 55
dataset, masing-masing, adalah B.-kanker (kanker payudara data Wisconsin), diabetes (Pima
Data diabetes India), jantung (data jantung), tiroid (data penyakit tiroid), dan sambungan
https://translate.googleusercontent.com/translate_f 49/188
6/24/2020 Sepuluh Algoritma Top dalam Penambangan Data
(Data urutan gen sambungan-junction).
Dua hingga empat kolom pada Tabel 3.1 merangkum beberapa karakteristik tentang
dataset, di mana Dimensi menunjukkan dimensi sampel, dan Pelatihan dan
Pengujian menunjukkan jumlah pelatihan dan sampel pengujian dalam setiap dataset. Kita
melakukan 100 kali pengulangan secara mandiri dan 20 kali berturut-turut, untuk empat yang pertama
dataset dan splice dataset, yang telah ditawarkan oleh database. Kemudian av-
erage hasil eksperimen dari algoritma SVC telah dilaporkan di lima ke
delapan kolom pada Tabel 3.1. C dan σ adalah regularisasi optimal dan parameter kernel
eters dipilih oleh validasi silang. SV adalah jumlah rata-rata vektor dukungan.
Akurasi menunjukkan akurasi dan varian klasifikasi yang sesuai.
Seperti yang ditunjukkan pada Tabel 3.1, nilai SV biasanya kurang dari angka
sampel pelatihan, yang memvalidasi tingkat algoritma yang baik. Selanjutnya,
akurasi tinggi menunjukkan kinerja klasifikasi yang baik; sementara itu, relatif
varian rendah menunjukkan stabilitas SVC yang baik dalam aplikasi nyata.
Halaman 56
batasan generalisasi analitis yang dapat digunakan untuk memperkirakan kesalahan generalisasi
dengan mendefinisikan ukuran kompleksitas baru, yang dikenal sebagai dimensi VC [14,15].
Konkretnya, asumsikan bahwa data pelatihan dan pengujian dihasilkan sesuai dengan yang diperbaiki
tetapi distribusi probabilitas D tidak diketahui , kami mendefinisikan kesalahan err D ( h ) klasifikasi
fungsi h pada D sebagai
err D ( h ) = D {( x , y ): h ( x ) = y } (3.34)
Jika ada | H | hipotesis memiliki kesalahan besar dalam himpunan S , maka batas PAC adalah
1 |H|
https://translate.googleusercontent.com/translate_f 50/188
6/24/2020 Sepuluh Algoritma Top dalam Penambangan Data
ε = ε ( n, H, δ ) = n dalam
δ (3.36)
PAC terikat menyajikan bahwa fungsi kelas H dapat secara langsung mempengaruhi kesalahan
terikat. Teori VC selanjutnya menggeneralisasikan PAC yang terikat pada kelas fungsi tanpa batas
dan memperkenalkan konsep dimensi VC d . Dimensi VC d diukur
jumlah maksimum data pelatihan tempat kelas fungsi masih dapat digunakan
belajar dengan sempurna, dengan memperoleh tingkat kesalahan nol pada data pelatihan, untuk setiap tugas
label kelas ke titik-titik ini. Kemudian PAC umum digeneralisasikan dari sebuah classifier linier
dapat digambarkan sebagai berikut:
Teorema 3.4.1 Vapnik dan Chervonenkis [7] Biarkan H menunjukkan ruang hipotesis
yang dimensi VC-nya d. Untuk distribusi probabilitas acak D pada X × {−1 , 1} ,
dengan probabilitas 1 - δ, kesalahan generalisasi hipotesis acak h ∈ H pada
set pelatihan S tidak lebih dari
( )
2 2 2 id
err D ( h ) ≤ ε ( n, H, δ ) = catatan + d log (3.37)
n δ d
Dalam terang teorema, istilah pertama dari Persamaan (3.37) adalah kesalahan pelatihan, dan
istilah kedua sebanding dengan dimensi VC d . Jadi, teorema menunjukkan hal itu
jika kita dapat meminimalkan d , kita dapat meminimalkan kesalahan di masa depan, selama hipotesisnya h
mengontrol kesalahan risiko empiris dalam tingkat kecil.
Teorema 3.4.1 memberikan batasan kesalahan umum classifier linier dan memberikan
panduan global tentang cara mengontrol kerumitan classifier. Berikut ini, kami akan
menggeneralisasi batasan untuk algoritma SVC dan menyimpulkan general- terkait
asi kesalahan terikat dari SVC.
Halaman 57
Definisi 3.4.2 (Margin) [7]. Pertimbangkan untuk menggunakan fungsi nilai riil kelas F ke
mengklasifikasikan dalam ruang input X , dan nilai ambang adalah 0. Kami mendefinisikan margin
contoh ( x i , y i ) ∈ X × {−1 , 1} ke fungsi atau hyperplane f ∈ F sebagai:
γi=yif(xi) (3.38)
Perhatikan bahwa γ i > 0 menunjukkan bahwa contoh ( x i , y i ) diklasifikasikan dengan benar. Marginal
distribusi f yang sesuai dengan set pelatihan S adalah distribusi marginal dari
contoh dalam S . Minimum dari distribusi marginal disebut margin m S ( f )
dari f sesuai dengan training set S .
Definisi 3.4.3 (Cover of Function Class) [7]. Biarkan F menjadi fungsi nilai nyata
kelas di X . Untuk serangkaian input data
S = { x 1 , x 2 , ..., x n }
The γ -cover dari F adalah terbatas fungsi set B , sehingga untuk semua f ∈ F , yang ada
g ∈ B , ada maks 1≤ i ≤ n (| f ( x i ) - g ( x i ) |) <γ . N ( F, S, γ ) menunjukkan ukuran minimal
https://translate.googleusercontent.com/translate_f 51/188
6/24/2020 Sepuluh Algoritma Top dalam Penambangan Data
dari penutup. Jumlah data yang dicakup F adalah
N ( F, n, γ ) = maks N ( F, S, γ ) (3.39)
S∈Xn
Kemudian kita menggunakan N ( F, n, γ ) untuk merumuskan kembali Teorema 3.4.1 untuk kasus yang dihipotesiskan.
ESIS f adalah seperti yang m S ( f ) = γ pada training set S .
Teorema 3.4.4 Teorema VC dengan Margin [7] Pertimbangkan fungsi nilai riil yang dibatasi
+
ruang tion F dan perbaiki γ ∈ R . Untuk setiap distribusi probabilitas D pada X × {−1 , 1} , dengan
probabilitas 1 - δ, kesalahan generalisasi dari hipotesis f ∈ F pada set pelatihan
S, yang memiliki margin m S ( f ) ≥ gamma, memenuhi
( )
2 2
err D ( f ) ≤ ε ( n, F, δ, γ ) = catatan + log N ( F, 2 n, γ / 2) (3.40)
n δ
Teorema 3.4.4 menunjukkan bagaimana menggunakan m S ( f ) untuk terikat kesalahan generalisasi yang
dapat diperoleh dengan data pelatihan. N ( F, 2 n, γ / 2) dapat dilihat sebagai bentuk lain
dari dimensi VC, di mana lebih besar γ sesuai dengan yang lebih kecil N ( F, 2 n, γ / 2). Sebagai
hasilnya, kami dapat menarik kesimpulan bahwa margin yang besar dapat memastikan generalisasi yang baik
kinerja classifier untuk sampel ukuran kecil.
Meskipun Teorema 3.4.4 adalah generalisasi dari Teorema 3.4.1, nilai N ( F, 2 n,
γ / 2) tidak dapat diukur secara efisien dalam masalah dunia nyata. Akibatnya, kita
lebih lanjut menyimpulkan kesalahan lebih konkret terikat untuk algoritma SVC spesifik:
Halaman 58
Teorema 3.4.5 Batas Generalisasi SVC [7] Asumsikan bahwa ruang input X adalah
suatu hyperball dalam ruang produk dalam H yang jari-jarinya adalah R, X = { x ∈ H : x H ≤ R } .
Pertimbangkan kelas fungsi:
{ }
= x↦→wTx:wH≤1,x∈X
+
Perbaiki γ ∈ R. Untuk distribusi probabilitas D pada X × {−1 , 1} , dengan probabilitas 1 - δ,
kesalahan generalisasi suatu hipotesis f ∈ pada set pelatihan S, yang memiliki
margin m S ( f ) ≥ γ, tidak lebih dari
( )
2 4 64 R 2 enγ 128 nR 2
err D ( f ) ≤ ε ( n,, δ, γ ) = catatan +
n δ γ 2 catatan
4R
catatan γ 2 (3.41)
Perlu dicatat bahwa dimensi ruang input tidak muncul dalam batas.
Oleh karena itu, batas dapat digunakan dalam ruang dimensi tak terbatas, yang menunjukkan itu
batas dapat mengatasi kutukan dimensi. Selanjutnya saat sampel
mendistribusikan dengan baik, terikat dapat menjamin dalam probabilitas tinggi bahwa ada yang kecil
kesalahan untuk sampel pengujian acak. Dalam hal ini, margin γ dapat dilihat sebagai a
mengukur tentang kualitas distribusi sampel, dan dengan demikian dapat mengukur lebih lanjut
kinerja generalisasi dari algoritma SVC [7].
ε
L. ( x , y, f ) = | y - f ( x ) | ε = maks (0 , | y - f ( x ) | - ε ) (3.42)
Halaman 59
ε
Perhatikan bahwa ( x L, y, f ) = 0 jika nilai absolut dari penyimpangan tentang estimator
output f ( x ) dari respons yang diinginkan y kurang dari ε atau sama dengan nol. Itu sama dengan
nilai absolut dari deviasi dikurangi ε sebaliknya.
di mana istilah noise tambahan v secara statistik tidak tergantung dari vektor input x . Itu
Fungsi g (·) dan statistik kebisingan v tidak diketahui. Semua yang kami miliki tersedia
satu set data pelatihan
S = {( x 1 , y 1 ) , ..., ( x n , y n )}
Tujuannya adalah untuk memilih parameter yang sesuai w dan b , sehingga membuat f ( x )
perkiraan fungsi target yang tidak diketahui g ( x ). Masalah utama dapat diwakili
sebagai berikut:
∑n
1
min w2+C (Ξi+ξi)
b,b 2 i=1
( )
st wTxi+b -yi≤ε+ξi, i = 1 , ..., n
( )
yi- wTxi+b ≤ε+ξi, i = 1 , ..., n
ξi,ξi≥0 i = 1 , ..., n (3.44)
∑n
st (Αi-αi)=0
i=1
https://translate.googleusercontent.com/translate_f 53/188
6/24/2020 Sepuluh Algoritma Top dalam Penambangan Data
0 ≤ α i , α i ≤ C, i = 1 , ..., n (3,45)
Kami selanjutnya dapat memperkenalkan kernel produk dalam dalam masalah optimasi
Persamaan (3,45), dan perluas algoritma regresi ke ruang fitur untuk membuatnya
fungsi nonlinear dapat diperoleh dengan menggunakan mesin pembelajaran linier
di ruang kernel.
Dibandingkan dengan SVC, SVR memiliki parameter bebas tambahan ε . Dua bagian gratis
rameter ε dan C mengontrol dimensi VC dari fungsi aproksimasi
∑n
f(x)=wTx= (Αi-αi)K(xi,x) (3.46)
i=1
ketika kita mengatur bias b = 0. ε dan C harus dipilih oleh pengguna dan secara langsung
mempengaruhi kontrol kompleksitas untuk regresi. Cara memilih ε dan C secara bersamaan
untuk mendapatkan fungsi perkiraan yang lebih baik adalah masalah penelitian terbuka.
Halaman 60
https://translate.googleusercontent.com/translate_f 54/188
6/24/2020 Sepuluh Algoritma Top dalam Penambangan Data
Namun, masalah ini sedang diselesaikan dengan sukses besar. Salah satu pendekatan adalah mematahkan
masalah optimasi besar menjadi serangkaian masalah kecil, di mana setiap masalah
hanya melibatkan beberapa variabel yang dipilih dengan cermat sehingga optimisasi dapat dilakukan
dilakukan secara efisien. Proses ini berulang hingga semua masalah optimasi terurai
diselesaikan dengan sukses.
Pendekatan yang lebih baru adalah dengan mempertimbangkan masalah belajar SVM sebagai
menemukan perkiraan bola penutup minimum dari sekumpulan instance [18–21]. Ini
contoh, ketika dipetakan ke ruang dimensi- N , mewakili set inti yang bisa
digunakan untuk membangun perkiraan ke bola penutup minimum. Memecahkan SVM
Halaman 61
mempelajari masalah pada perangkat inti ini dapat menghasilkan solusi perkiraan yang baik di
kecepatan sangat cepat. Misalnya, mesin vektor inti [18] dan vektor bola selanjutnya
mesin [21] dapat mempelajari SVM untuk jutaan data dalam hitungan detik.
Halaman 62
Bagian dukungan di dalam rumus harapan mengukur korelasi terbaik yang bisa
dapat ditemukan antara fungsi kelas dan label acak. Selanjutnya dalam
mesin kernel, kita dapat memperoleh batas atas kompleksitas Rademacher:
https://translate.googleusercontent.com/translate_f 56/188
6/24/2020 Sepuluh Algoritma Top dalam Penambangan Data
Halaman 63
3.8 Latihan 55
Pendekatan kedua adalah dengan mengeksploitasi algoritma clustering [40] dengan mengasumsikan itu
data berisi beberapa kluster yang menyimpan informasi distribusi sebelumnya. Ini
asumsi tampaknya lebih umum daripada asumsi bermacam-macam, yang sebenarnya telah memimpin
ke beberapa mesin margin besar yang populer. Pendekatan terbaru dikenal sebagai terstruktur
mesin margin besar (SLMM) [37]. SLMM menerapkan teknik pengelompokan untuk ditangkap
informasi struktural di kelas yang berbeda terlebih dahulu. Itu kemudian menggunakan Mahalanobis
jarak sebagai pengukur jarak dari sampel ke hyperplanes keputusan, sebagai gantinya
jarak Euclidean tradisional, untuk memperkenalkan informasi struktur yang terlibat
ke dalam kendala. Beberapa mesin margin besar yang populer, seperti vektor dukungan
mesin mesin probabilitas minimum (MPM) [41], dan mesin margin maksimum
(M 4 ) [36], semuanya dapat dipandang sebagai kasus khusus SLMM. Secara eksperimental, SLMM
telah menunjukkan kinerja klasifikasi yang lebih baik. Namun, karena masalah optimasi
SLMM diformulasikan sebagai pemrograman urutan kerucut urutan kedua (SOCP)
daripada QP di SVM, SLMM memiliki biaya komputasi yang jauh lebih tinggi dalam waktu pelatihan
dibandingkan dengan SVM tradisional. Selain itu, tidak mudah untuk digeneralisasi ke
masalah skala atau multikelas. Akibatnya, mesin vektor dukungan struktural baru
(SSVM) dikembangkan pada [42] untuk mengeksploitasi kerangka kerja klasik SVM daripada
sebagai kendala dalam SLMM. Akibatnya, masalah optimasi yang sesuai bisa
masih diselesaikan oleh QP seperti pada SVM, dan menjaga solusi tidak hanya sparsity tetapi juga
skalabilitas. Selanjutnya, SSVM telah terbukti secara teoritis dan empiris
lebih baik dalam generalisasi daripada SVM dan SLMM.
3.8 Latihan
1. Pertimbangkan masalah klasifikasi biner sederhana:
c 1 : (1 , 1) T (−1 , 3) T (2 , 6) T
c 1 : (1 , 1) T (3 , 7) T (5 , 9) T
c 2 : (−1 , −2) T (1 , 6) T (2 , −1) T
Gunakan SVC margin lunak untuk membangun hyperplane optimal dan menghitung
solusi yang sesuai di ruang ganda.
3. Bangun masalah XOR sederhana yang mirip dengan Contoh 3.3.3, dan bahas caranya
pemilihan parameter kernel dalam basis radial dapat mempengaruhi
kinerja klasifikasi.
https://translate.googleusercontent.com/translate_f 57/188
6/24/2020 Sepuluh Algoritma Top dalam Penambangan Data
Halaman 64
+
4. Biarkan K 1 dan K 2 menjadi kernel di X × X , X ⊆ R n , a ∈ R , f (·) menjadi nilai riil
fungsi dalam X :
φ:X→Rm
(a) K ( x , z ) = K 1 ( x , z ) + K 2 ( x , z )
(b) K ( x , z ) = aK 1 ( x , z )
(c) K 1 ( x , z ) K 2 ( x , z )
(d) K ( x , z ) = f ( x ) f ( z )
(e) K ( x , z ) = K 3 ( φ ( x ) , φ ( z ))
(f) K ( x , z ) = x T Bz
Referensi
[1] V. Vapnik. Sifat Teori Pembelajaran Statistik , Springer Verlag, 1995.
[3] B. Schölkopf, CJC Burges, dan AJ Smola. Kemajuan dalam Metode Kernel—
Mendukung Pembelajaran Vektor , MIT Press, 1999.
[4] O. Chapelle, P. Haffner, dan V. Vapnik. Mendukung mesin vektor untuk histogram-
klasifikasi gambar berdasarkan. IEEE Trans. pada Neural Networks , vol. 10 (3.5),
1055–1064, 1999.
[5] C. Cortes dan V. Vapnik. Mendukung jaringan vektor. Pembelajaran Mesin , vol. 20,
273–297, 1995.
https://translate.googleusercontent.com/translate_f 58/188
6/24/2020 Sepuluh Algoritma Top dalam Penambangan Data
Halaman 65
Referensi 57
[8] MS Kearns, SA Solla, dan DA Cohn. Kemajuan dalam Informasi Saraf Tiruan
Sistem Pemrosesan , MIT Press, 1999.
[10] AJ Smola, P. Bartlett, B. Schölkopf, dan C. Schuurmans. Uang Muka dalam Jumlah Besar
Pengukur Margin , MIT Press, 1999.
[15] V. Cherkassky dan F. Mulier. Belajar Dari Data: Konsep, Teori dan
Metode, Wiley, 1998.
[16] C.-C. Chang dan C.-J. Lin LibSVM: Perpustakaan untuk mesin vektor dukungan.
Perangkat lunak tersedia di http://www.csie.ntu.edu.tw/∼cjlin/libsvm, 2001.
[17] T. Joachims. Membuat pembelajaran SVM skala besar menjadi praktis. Kemajuan dalam Kernel
Metode — Mendukung Pembelajaran Vektor , B. Schölkopf, C. Burges, dan A. Smola
(eds.), MIT Press, 1999.
[18] IW Tsang, JT Kwok, dan P.-M. Cheung. Mesin vektor inti: SVM Cepat
pelatihan set data yang sangat besar. Jurnal Penelitian Pembelajaran Mesin , vol. 6,
363–392, 2005.
[19] IW Tsang, JT Kwok, dan KT Lai. Regresi vektor inti untuk sangat besar
masalah regresi. ICML , 913–920, 2005.
[21] IW Tsang, A. Kocsor, dan JT Kwok. Mesin vektor inti yang lebih sederhana dengan
bola tertutup ICML , 2007.
[23] J. Bi, T. Zhang, dan K. Bennett. Metode peningkatan generasi kolom untuk
campuran kernel. KDD , 521–526, 2004.
[25] Y. Grandvalet dan S. Canu. Penskalaan adaptif untuk pemilihan fitur dalam SVM.
Sistem Pemrosesan Informasi Saraf Tiruan , 2002.
Halaman 66
https://translate.googleusercontent.com/translate_f 59/188
6/24/2020 Sepuluh Algoritma Top dalam Penambangan Data
[29] Z. Wang, S. Chen, dan T. Sun. MultiK-MHKS: A novel multiple kernel learning
algoritma. Transaksi IEEE pada Analisis Pola dan Kecerdasan Mesin ,
vol. 30 (3.2), 348–353, 2008.
[35] J. Shawe-Taylor dan N. Cristianini. Metode Kernel untuk Analisis Pola . Kamera
jembatan University Press, 2004.
[36] K. Huang, H. Yang, I. Raja, dan MR Lyu. Mempelajari pengklasifikasi margin besar
secara lokal dan global. ICML , 2004.
[37] DS Yeung, D. Wang, WWY Ng, ECC Tsang, dan X. Zhao. Terstruktur besar
mesin margin: Sensitif terhadap distribusi data. Pembelajaran Mesin , vol. 68,
171–200, 2007.
[39] M. Belkin, P. Niyogi, dan V. Sindhwani. Pada bermacam-macam regularisasi. Dalam Pro-
ceedings dari Lokakarya Internasional tentang Kecerdasan Buatan dan Statistik ,
2005
Halaman 67
https://translate.googleusercontent.com/translate_f 60/188
6/24/2020 Sepuluh Algoritma Top dalam Penambangan Data
Referensi 59
[40] P. Rigollet. Kesalahan generalisasi dibatasi dalam klasifikasi semi-diawasi di bawah
asumsi cluster. Jurnal Penelitian Pembelajaran Mesin , vol. 8, 1369–
1392, 2007.
[42] H. Xue, S. Chen, dan Q. Yang. Mesin vektor dukungan struktural. Kelima
Simposium Internasional tentang Jaringan Saraf Tiruan , Bagian I, LNCS5263, 2008.
Halaman 69
68
Bab 4
https://translate.googleusercontent.com/translate_f 61/188
6/24/2020 Sepuluh Algoritma Top dalam Penambangan Data
Apriori
Isi
61
Halaman 70
62 Apriori
4.1 Pendahuluan
Banyak algoritma pencarian pola seperti yang digunakan untuk pengambilan keputusan pohon, klasifikasi
induksi aturan sifikasi, dan pengelompokan data yang sering digunakan dalam penambangan data
telah dikembangkan di komunitas penelitian pembelajaran mesin. Pola yang sering
dan asosiasi penambangan aturan adalah salah satu dari sedikit pengecualian untuk tradisi ini. Itu memperkenalkan
Mendorong penelitian data mining dan dampaknya luar biasa. Algoritma dasar
https://translate.googleusercontent.com/translate_f 62/188
6/24/2020 Sepuluh Algoritma Top dalam Penambangan Data
sederhana dan mudah diimplementasikan. Dalam bab ini algoritma paling mendasar dari
penambangan pola dan asosiasi aturan yang sering, dikenal sebagai Apriori dan AprioriTid [3, 4],
dan perpanjangan Apriori untuk penambangan pola berurutan, yang dikenal sebagai AprioriAll [6, 5],
dijelaskan berdasarkan makalah asli dengan contoh kerja, dan kinerja
analisis Apriori ditampilkan menggunakan implementasi yang tersedia secara bebas [1] untuk dataset
dalam repositori UCI [8]. Karena Apriori sangat mendasar dan bentuk database
terbatas pada transaksi pasar, ada banyak pekerjaan untuk meningkatkan kompetensi
efisiensi nasional, menemukan representasi yang lebih kompak, dan memperluas jenis
data yang bisa ditangani. Beberapa karya penting juga dijelaskan secara singkat sebagai
topik lanjutan.
1 Definisi dukungan alternatif adalah jumlah absolut frekuensi. Dalam bab ini definisi yang terakhir adalah
juga digunakan jika perlu.
2 Kertas Apriori [3] menggunakan "besar" untuk berarti "sering," tetapi besar sering dikaitkan dengan jumlah
item dalam itemset. Jadi, kami lebih suka menggunakan "sering."
Halaman 71
4.2.1.1 Apriori
Apriori adalah algoritma untuk menemukan semua set item (itemset) yang memiliki dukungan tidak kurang
dari minsup . Dukungan untuk itemset adalah rasio jumlah transaksi itu
berisi itemset dengan jumlah total transaksi. Item yang memenuhi minimum
kendala dukungan disebut frequent itemset . Apriori dicirikan sebagai level-bijaksana
lengkap pencarian (pencarian pertama luasnya) menggunakan properti anti-monotonicity
itemset: "Jika suatu itemset tidak sering, supersetnya tidak pernah sering," yaitu
https://translate.googleusercontent.com/translate_f 63/188
6/24/2020 Sepuluh Algoritma Top dalam Penambangan Data
juga disebut properti penutupan bawah . Algoritma membuat beberapa melewati
data. Pada pass pertama, dukungan item individual dihitung dan item sering
ditentukan. Dalam setiap operan berikutnya, seperangkat set set item ditemukan sering
pada pass sebelumnya digunakan untuk menghasilkan itemset baru yang berpotensi sering, disebut
kandidat itemset , dan dukungan mereka yang sebenarnya dihitung selama melewati data.
Pada akhir pass, mereka yang memenuhi batasan dukungan minimum dikumpulkan,
yaitu, itemet yang sering ditentukan, dan mereka menjadi benih untuk lolos berikutnya.
Proses ini diulangi hingga tidak ada set item baru yang sering ditemukan.
Berdasarkan konvensi, Apriori mengasumsikan bahwa item dalam transaksi atau itemset diurutkan
dalam urutan leksikografis. Jumlah item dalam suatu itemset disebut ukuran dan
itemset ukuran k disebut k -itemset. Biarkan set item yang sering berukuran k menjadi F k
dan calon mereka menjadi C k . Kedua F k dan C k mempertahankan lapangan, jumlah dukungan.
Algoritma Apriori diberikan dalam Algoritma 4.1. Lulus pertama hanya menghitung item
kejadian untuk menentukan frekuensi 1-itemset. Lulus berikutnya terdiri dari dua
fase. Pertama, itemset yang sering F k −1 ditemukan pada ( k - 1) -th pass digunakan untuk
menghasilkan kandidat itemsets C k menggunakan fungsi apriori-gen. Selanjutnya, database
dipindai dan dukungan dari kandidat di C k dihitung. Fungsi subset digunakan
untuk penghitungan ini.
Fungsi apriori-gen mengambil argumen F k −1 , himpunan semua yang sering ( k - 1) -
itemset, dan mengembalikan superset dari himpunan semua k -itemsets yang sering . Pertama, di join
langkah-langkah, F k -1 bergabung dengan F k -1 .
masukkan ke C k
pilih p .fitemset 1 , p .fitemset 2 , ... , p .fitemset k −1 , q .fitemset k −1
dari F k −1 p, F k −1 q
di mana p .fitemset 1 = q .fitemset 1 , ..., hal .fitemset k −2 = q .fitemset k −2 ,
p .fitemset k −1 <q .fitemset k −1
Di sini, F k p berarti bahwa itemset p adalah sering k -itemset, dan p. fitemset k adalah
k -th item dari itemset sering p .
Kemudian, pada langkah prune, semua itemset c ∈ C k yang beberapa ( k - 1) -subset adalah
tidak di F k -1 dihapus.
Halaman 72
64 Apriori
F 1 = { frequent 1-itemsets } ;
untuk ( k = 2; F k −1 = ∅; k + +) mulailah
C k = apriori-gen ( F k -1 ); // Calon baru
untuk setiap transaksi t ∈ D mulai
C t = bagian ( C k , t ); // Calon yang terkandung dalam t
foreach calon c ∈ C t do
c.count + +;
akhir
Fk={c∈Ck | c.count ≥ minsup} ;
akhir
Jawaban = ∪ k F k ;
https://translate.googleusercontent.com/translate_f 64/188
6/24/2020 Sepuluh Algoritma Top dalam Penambangan Data
Fungsiitemset
kandidat bagianyang
mengambil
terdapatsebagai
dalam argumen
transaksi C dan transaksi
t .kUntuk t , dan cepat,
penghitungan kembali semuamengadopsi
Apriori
hash-pohon untuk menyimpan kandidat itemset C k . Itemet disimpan dalam dedaunan. Setiap
simpul awalnya merupakan simpul daun, dan kedalaman simpul akar didefinisikan sebagai 1. Kapan
jumlah itemset dalam simpul daun melebihi ambang yang ditentukan, simpul daun adalah
dikonversi menjadi simpul interior. Node interior pada kedalaman d menunjuk ke node pada kedalaman
d + 1. Yang cabang untuk tindak ditentukan dengan menerapkan fungsi hash ke d -th
item dari itemset. Dengan demikian, setiap simpul daun dipastikan mengandung paling banyak tertentu
jumlah itemset (tepatnya, ini benar hanya ketika membuat simpul interior
terjadi pada kedalaman d lebih kecil dari k ), dan sebuah itemet di simpul daun dapat dicapai
dengan berturut-turut hashing setiap item dalam itemset secara berurutan dari root. Setelah itu
pohon hash dibangun, fungsi himpunan bagian menemukan semua kandidat yang terkandung dalam a
transaksi t , mulai dari simpul akar. Pada simpul root, setiap item dalam t hash,
dan setiap cabang yang ditentukan diikuti satu kedalaman ke bawah. Jika simpul daun tercapai,
itemset di daun yang ada dalam transaksi t dicari dan yang ditemukan dibuat
referensi ke set jawaban. Jika simpul interior dicapai dengan mem-hashing item i , items
yang datang setelah saya dalam t hash secara rekursif sampai simpul daun tercapai. Itu terbukti
bahwa itemset di daun yang tidak pernah dijangkau tidak terkandung dalam t .
Jelas, setiap himpunan bagian dari itemset yang sering memenuhi batasan dukungan minimum.
Bergabung Operasi setara dengan memperluas F k -1 dengan setiap item dalam database dan
kemudian menghapus itemet yang setitnya ( k - 1) -items diperoleh dengan menghapus
( k −1) - item tidak dalam F k −1 . Kondisi p .fitemset k −1 <q .fitemset k −1 memastikan hal itu
tidak ada duplikasi yang dibuat. Langkah prune di mana semua itemset yang ( k - 1) -subset
tidak di F k -1 dihapus dari C k tidak menghapus itemset yang bisa di F k .
Dengan demikian, C k ⊇ F k , dan algoritma Apriori benar.
Tugas yang tersisa adalah menghasilkan aturan asosiasi yang diinginkan dari sering
itemset. Algoritma langsung untuk tugas ini adalah sebagai berikut. Untuk menghasilkan aturan,
Halaman 73
semua himpunan bagian tak kosong dari setiap frequent itemset f yang disebutkan dan untuk setiap seperti
subset a , aturan bentuk a ⇒ ( f - a ) dihasilkan jika rasio dukungan ( f ) ke
dukungan ( a ) setidaknya minconf . Di sini, catatan bahwa kepercayaan dari aturan yang ⇒ ( f - a )
tidak bisa lebih besar dari kepercayaan dari sebuah ⇒ ( f - a ) untuk setiap satu ⊂ sebuah . Ini pada gilirannya berarti
bahwa untuk aturan ( f - a ) ⇒ a untuk terus, semua aturan dari bentuk ( f - a ) ⇒ suatu pegangan keharusan. Menggunakan
properti ini, algoritma untuk menghasilkan aturan asosiasi diberikan dalam Algoritma 4.2.
H 1 = ∅ // Inisialisasi
foreach ; sering k -itemset f k , k ≥ 2 lakukan mulai
A = ( k - 1) -itemsets sebuah k -1 sehingga sebuah k -1 ⊂ f k ;
foreach a k −1 ∈ A do begin
con f = dukungan ( f k ) / support ( a k -1 );
if ( con f ≥ minconf ) maka mulailah
mengeluarkan aturan a k −1 ⇒ ( f k - a k −1 )
dengan keyakinan = conf dan dukungan = dukungan ( f k );
tambahkan ( f k - a k -1 ) untuk H 1 ;
akhir
akhir
sebut ap-genrules ( f k , H 1 );
akhir
https://translate.googleusercontent.com/translate_f 65/188
6/24/2020 Sepuluh Algoritma Top dalam Penambangan Data
Apriori mencapai kinerja yang baik dengan mengurangi ukuran set kandidat. Namun,
dalam situasi dengan itemet yang sangat sering atau dukungan minimum yang sangat rendah, tetap saja
menderita dari biaya menghasilkan sejumlah besar set kandidat dan pemindaian
database berulang kali untuk memeriksa set besar kandidat itemset.
Halaman 74
66 Apriori
4.2.1.2 AprioriTid
AprioriTid adalah variasi dari Apriori. Itu tidak mengurangi jumlah kandidat
tetapi tidak menggunakan database D untuk menghitung dukungan setelah lulus pertama. Ini menggunakan a
baru dataset C k . Setiap anggota himpunan C k adalah dalam bentuk <TID, { ID } > , di mana
setiap ID adalah pengidentifikasi dari hadiah k -itemset yang berpotensi sering muncul dalam transaksi
dengan identifier TID kecuali k = 1. Untuk k = 1, C 1 sesuai dengan database D ,
meskipun secara konseptual setiap item saya digantikan oleh itemset { i }. The anggota dari C k
sesuai dengan transaksi t adalah <t.TID, { c ∈ C k | c terkandung dalam t } > .
Intuisi untuk menggunakan C k adalah bahwa hal itu akan lebih kecil dari database D untuk besar
nilai k karena beberapa transaksi mungkin tidak mengandung kandidat k -itemset,
dalam hal C k tidak memiliki entri untuk transaksi ini, atau karena sangat sedikit
kandidat dapat dimuat dalam transaksi dan setiap entri mungkin lebih kecil dari
jumlah item dalam transaksi yang sesuai. Algoritma AprioriTid diberikan
dalam Algoritma 4.3. Di sini, c [ i ] mewakili item ke- i di k -itemset c .
F 1 = { frequent 1-itemsets } ;
C 1 = basis data D ;
untuk ( k = 2; F k −1 = ∅; k + +) mulailah
C k = apriori-gen ( F k -1 ); // Calon baru
C k = ∅;
foreach entry t ∈ C k −1 mulai
// menentukan kandidat itemsets di C k terkandung
// dalam transaksi dengan pengidentifikasi t .TID
C t = { c ∈ C k | ( c - c [ k ]) ∈ t .set-of-itemsets ∧
https://translate.googleusercontent.com/translate_f 66/188
6/24/2020 Sepuluh Algoritma Top dalam Penambangan Data
( c - c [ k - 1]) ∈ t .set-of-itemset } ;
foreach calon c ∈ C t do
c.count + +;
jika ( C t = ∅) maka C k + = < t .TID, C t >;
akhir
Fk={c∈Ck | c.count ≥ minsup} ;
akhir
Jawaban = ∪ k F k ;
Halaman 75
( k - 1) - calon yang terkandung dalam t.TID . Untuk setiap seperti calon c k -1 ekstensi
bidang memberikan T k , set ID s dari semua kandidat k -itemsets yang ekstensi dari c k -1 .
Untuk setiap c k di T k , bidang pembangkit memberikan ID s dari dua itemset yang dihasilkan c k .
Jika itemset ini hadir dalam entri untuk t .set-of-itemset, dapat disimpulkan bahwa c k
hadir dalam transaksi t.TID , dan c k ditambahkan ke C t .
AprioriTid memiliki overhead untuk menghitung C k tetapi keuntungan yang C k dapat disimpan
dalam memori ketika k besar. Dengan demikian diharapkan Apriori mengalahkan AprioriTid sebelumnya
operan ( k kecil ) dan AprioriTid mengalahkan Apriori dalam operan kemudian ( k besar ). Karena keduanya
Apriori dan AprioriTid menggunakan prosedur pembuatan kandidat yang sama dan karenanya
menghitung itemet yang sama, adalah mungkin untuk menggunakan gabungan dua algo- ini
ritme secara berurutan. AprioriHybrid menggunakan Apriori pada operan awal dan beralih ke
AprioriTid ketika mengharapkan bahwa himpunan C k pada akhir lulus akan cocok di memori.
https://translate.googleusercontent.com/translate_f 67/188
6/24/2020 Sepuluh Algoritma Top dalam Penambangan Data
dukungan untuk sekuens didefinisikan sebagai fraksi dari jumlah total sekuens-id itu
mendukung urutan ini. Demikian juga, dukungan untuk itemet i didefinisikan sebagai fraksi
urutan-id yang memiliki item di i di salah satu transaksi mereka. Perhatikan bahwa ini
definisi berbeda dari yang digunakan dalam Apriori. Jadi itemset i dan 1-sequence
〈I〉 memiliki dukungan yang sama.
Diberikan basis data transaksi D , masalah pola sekuensial penambangan adalah untuk
temukan 3 sekuens maksimal di antara semua sekuens yang memenuhi tertentu yang ditentukan pengguna
batasan dukungan minimum. Setiap urutan maksimal seperti itu mewakili berurutan
pola. Urutan yang memenuhi batasan dukungan minimum disebut sering
urutan (tidak harus maksimal), dan itemet yang memenuhi dukungan minimum
3 Kemudian R. Agrawal dan R. Srikant menghapus kendala ini dalam pola sekuensial umum (GSP) [32].
Halaman 76
68 Apriori
constraint disebut frequent itemset, atau singkatnya fitemset. Urutan yang sering
harus menjadi daftar fitemets.
Algoritma ini terdiri dari lima fase: (1) fase sortir, (2) fase fitemset, (3) trans-
fase pembentukan, (4) fase urutan, dan (5) fase maksimal. Tiga yang pertama adalah
fase preprocessing dan yang terakhir adalah fase postprocessing.
Pada fase sortir, database D diurutkan dengan urutan-id sebagai kunci utama dan
waktu transaksi sebagai kunci minor. Pada fase fitemset, himpunan semua fitemset adalah
diperoleh dengan menggunakan algoritma Apriori dengan modifikasi penghitungan yang sesuai a
mendukung, dan dipetakan ke satu set bilangan bulat yang berdekatan. Ini membuat membandingkan dua
fitemsets untuk kesetaraan dalam waktu yang konstan. Perhatikan bahwa himpunan semua 1-urutan sering
secara bersamaan ditemukan dalam fase ini. Pada fase transformasi, setiap transaksi
diganti dengan set semua fitemets yang ada dalam transaksi itu. Jika ada transaksi
tidak mengandung fitemset apa pun, tidak disimpan dalam urutan yang diubah. Jika suatu transaksi
urutan tidak mengandung fitemset, urutan ini dihapus dari yang ditransformasikan
database, tetapi masih digunakan dalam penghitungan jumlah total urutan-id. Setelah
transformasi, urutan transaksi diwakili oleh daftar set fitemets.
Setiap set fitemsets diwakili oleh { f 1 , f 2 , ..., f n }, di mana f i adalah fitemset. Ini
Transformasi dirancang untuk pengujian efisien yang diberikan urutan sering
terkandung dalam urutan transaksi. Database berubah dinotasikan sebagai D T .
Fase urutan adalah bagian utama di mana urutan yang sering harus enu-
berbatu. Dua keluarga algoritma diusulkan: count-all dan count-some. Mereka
berbeda dalam cara urutan sering dihitung. Algoritma count-all menghitung semua
urutan sering, termasuk urutan nonmaksimal yang harus dipangkas nanti,
sedangkan algoritma count-some menghindari penghitungan urutan yang terkandung dalam a
urutan lebih panjang karena tujuan akhirnya adalah hanya mendapatkan urutan maksimal. Agrawal
dan Srikant mengembangkan satu algoritma count-all yang disebut AprioriAll dan dua count-some
algoritma yang disebut AprioriSome dan DynamicSome. Di sini, hanya AprioriAll yang dijelaskan
karena keterbatasan ruang.
Pada fase maksimal terakhir, sekuens maksimal diekstraksi dari himpunan semua
urutan sering. Hash-tree (mirip dengan yang digunakan dalam fungsi subset di
Apriori) digunakan untuk dengan cepat menemukan semua urutan dari urutan yang diberikan.
4.2.2.1 AprioriAll
Algoritma diberikan dalam Algoritma 4.4. Di setiap lulus urutan sering dari
pass sebelumnya digunakan untuk menghasilkan urutan kandidat dan kemudian dukungannya
diukur dengan membuat melewati database. Di akhir umpan, dukungan
https://translate.googleusercontent.com/translate_f 68/188
6/24/2020 Sepuluh Algoritma Top dalam Penambangan Data
dari kandidat digunakan untuk menentukan urutan yang sering.
Fungsi apriori-gen-2 mengambil argumen F k −1 , himpunan semua yang sering ( k - 1) -
urutan Pertama, operasi gabungan dilakukan sebagai
masukkan ke C k
pilih p .fitemset 1 , p .fitemset 2 , ... , p .fitemset k −1 , q .fitemset k −1
dari F k −1 p, F k −1 q
di mana p .fitemset 1 = q .fitemset 1 , ... , p .fitemset k −2 = q .fitemset k −2 ,
Halaman 77
4.2.3 Diskusi
Kedua Apriori dan AprioriTid kebutuhan minsup dan minconf akan ditentukan di muka. Itu
algoritma harus dijalankan kembali setiap kali nilai-nilai ini diubah, melempar semuanya
jauh yang diperoleh pada putaran sebelumnya. Jika tidak ada nilai yang sesuai untuk ambang ini
sudah diketahui sebelumnya dan kami ingin tahu bagaimana hasilnya berubah dengan nilai-nilai ini
tanpa menjalankan kembali algoritme, yang terbaik yang dapat kita lakukan adalah menghasilkan dan menghitung saja
set item yang muncul setidaknya sekali dalam database tanpa duplikasi dan simpan
semuanya dengan cara yang efisien. Perhatikan bahwa Apriori menghasilkan kandidat yang tidak ada
dalam database.
Apriori dan AprioriTid menggunakan hash-tree untuk menyimpan kandidat itemset. Lain
struktur data yang sering digunakan adalah struktur-trie [35, 9]. Setiap node di kedalaman k dari
trie sesuai dengan kandidat k -itemset dan menyimpan item k -th dan dukungannya
dari itemset. Seperti dua k -itemset yang berbagi -itetset pertama ( k - 1)
saudara di bawah simpul orangtua mereka di kedalaman k −1 dalam trie, generasi kandidat
hanya untuk bergabung dengan dua saudara kandung, dan memperpanjang pohon ke satu kedalaman lebih di bawah
k -itemset pertama yang sering dilakukan setelah pemangkasan. Untuk menemukan kandidat k- item yang ada
https://translate.googleusercontent.com/translate_f 69/188
6/24/2020 Sepuluh Algoritma Top dalam Penambangan Data
terkandung dalam transaksi t , setiap item dalam transaksi diumpankan dari root node dan
cabang diikuti menurut item berikutnya sampai item k -th tercapai.
Banyak implementasi praktis dari Apriori menggunakan struktur tiga ini untuk menyimpan tidak hanya
kandidat tetapi juga transaksi [10, 9].
Halaman 78
70 Apriori
Jika kita melangkah lebih jauh, kita sama sekali tidak bisa menghasilkan kandidat itemet. Lebih lanjut,
tidak perlu untuk menghitung semua set item yang sering. Topik-topik ini dibahas
dalam Bagian 4.5.
Apriori dan hampir semua penambangan aturan asosiasi menggunakan strategi dua fase: pertama
menambang pola yang sering dan kemudian menghasilkan aturan asosiasi. Ini bukan satu-satunya cara.
MagnumOpus Webb menggunakan strategi lain yang segera menghasilkan subset besar
dari semua aturan asosiasi [38].
Ada ekstensi langsung dari keluarga Apriori asli. Penggunaan taksonomi dan
menggabungkan batasan waktu adalah dua contoh. Aturan asosiasi umum [30]
menggunakan serangkaian taksonomi yang ditentukan pengguna, yang memungkinkan untuk mengekstrak
beberapa item yang diungkapkan oleh konsep yang lebih tinggi bahkan ketika menggunakan level dasar
konsep hanya menghasilkan itemset yang jarang. Algoritma dasarnya adalah untuk menambahkan semua
tors dari setiap item dalam transaksi ke transaksi dan kemudian jalankan algoritma Apriori.
Beberapa optimasi dapat ditambahkan untuk meningkatkan efisiensi, salah satu contohnya
dukungan untuk itemset X yang berisi item x dan leluhurnya x adalah
sama dengan dukungan dari itemset yang X - x , dan dengan demikian tidak perlu dihitung. Disamaratakan
pola berurutan [32] terjadi, di samping pengenalan taksonomi, waktu
kendala yang menentukan periode waktu minimum dan / atau maksimum antara yang berdekatan
elemen (itemset) dalam suatu pola dan mengendurkan pembatasan item dalam suatu elemen
pola berurutan harus berasal dari transaksi yang sama dengan memungkinkan barang menjadi
hadir dalam satu set transaksi dengan urutan-id yang sama dengan waktu transaksi
dalam jendela waktu yang ditentukan pengguna. Ia juga menemukan semua pola berurutan yang sering (tidak
terbatas pada pola sekuensial maksimal). Algoritma GSP berjalan sekitar 20 kali lebih cepat
daripada AprioriAll, salah satu alasannya adalah bahwa GSP menghitung lebih sedikit kandidat daripada AprioriAll.
https://translate.googleusercontent.com/translate_f 70/188
6/24/2020 Sepuluh Algoritma Top dalam Penambangan Data
Halaman 79
Implementasi kedua adalah yang oleh Christian Borgelt [1], yang didistribusikan
di bawah ketentuan Lisensi Publik Umum GNU Lesser (Library). Ini menerapkan
mentasi pada dasarnya adalah aplikasi baris perintah, dan beberapa antarmuka pengguna grafis
tersedia secara terpisah. Ini pada dasarnya mengikuti aliran Apriori asli, tetapi telah
ekstensi sendiri, untuk membuatnya lebih cepat dan mengurangi penggunaan memorinya. Mempekerjakan
trie disebut pohon awalan untuk menyimpan transaksi dan itemet untuk dukungan yang efisien
menghitung [10]. Pohon awalan sedikit berbeda dari trie yang dijelaskan dalam Sub-
bagian 4.2.3. Secara opsional, pengguna dapat memilih untuk menggunakan daftar sederhana alih-alih awalan
pohon untuk menyimpan transaksi. Lebih jauh, implementasi ini tidak hanya sering ditemukan
itemset dan aturan asosiasi, tetapi juga itemset tertutup, dan itemset maksimal. Tutup
dan itemet maksimal dibahas dalam Bagian 4.5. Selain itu, beberapa metrik lainnya
selain kepercayaan, seperti perolehan informasi, juga tersedia dalam implementasi ini
untuk mengevaluasi dan memilih aturan asosiasi.
Implementasi ketiga adalah yang oleh Pagar Bodon, yang didistribusikan secara bebas
untuk tujuan penelitian [2]. Implementasi ini juga berbasis trie, mirip dengan Borgelt,
tetapi mengadopsi trie dengan struktur yang lebih sederhana, dan hanya menghitung itemet yang sering dan
aturan asosiasi. Ini berfungsi sebagai aplikasi baris perintah, dan menerima empat argumen.
Tiga yang pertama adalah wajib: file input, termasuk transaksi, file output, dan
minsup . Yang keempat adalah minconf , yang opsional. Jika minconf diberikan, aturan asosiasi
ditambang, dan juga itemset yang sering; jika tidak, itu hanya menghasilkan itemset yang sering.
Implementasi ini ditulis dalam C ++ untuk menyediakan komponen berorientasi objek yang
dapat dengan mudah digunakan kembali untuk mengembangkan algoritma berbasis Apriori lainnya.
Misalkan kita ingin mencari item yang sering di bawah minsup = 0 . 2 dan asosiasi
aturan dengan minconf = 0 . 6.
https://translate.googleusercontent.com/translate_f 71/188
6/24/2020 Sepuluh Algoritma Top dalam Penambangan Data
Halaman 80
72 Apriori
Selanjutnya, Apriori menghitung dukungan mereka dengan memindai basis data menggunakan subset
fungsi, yang memanfaatkan pohon hash. Gambar 4.1 mengilustrasikan secara singkat bagaimana hash-tree
dibangun dan digunakan. Misalkan elemen C 2 ditambahkan ke dalam hash-tree
dalam urutan leksikografis, dan jumlah maksimum item yang diizinkan berada dalam lembaran
node adalah 4. Dengan demikian, jumlah itemset di root (leaf) node melebihi ambang batas
kapan cd itemset kelima ditambahkan. Kemudian, node diubah menjadi interior
Dalam hal jumlah maksimum item yang dapat disimpan dalam sebuah simpul adalah 4.
CD h(x) h(x)
iklan ac CD iklan ac cd cf df dg fg
af ag af ag cg
https://translate.googleusercontent.com/translate_f 72/188
6/24/2020 Sepuluh Algoritma Top dalam Penambangan Data
Halaman 81
satu, dan setiap cabang itemset ke dalam simpul daun baru yang sesuai menurut
nilai hash yang diberikan oleh fungsi h ( x ), di mana x adalah item, item pertama di setiap itemet
pada kasus ini. Kami berasumsi bahwa h ( x ) diberikan sebelumnya dan umum untuk semua node.
Sejak empat itemset pertama berbagi sama pertama barang yang , mereka jatuh ke dalam daun yang sama
simpul, sedangkan cd jatuh ke yang berbeda. Saat memeriksa kandidat yang mana
termasuk dalam transaksi, misalnya, Transaksi 004, setiap item dalam transaksi
di-hash pada simpul root. Misalnya, dengan hashing c dalam cd f , ia mencapai kiri kedua
node daun, dan dua itemset cd dan cf ditemukan menjadi himpunan bagian dari cd f seperti yang ditunjukkan dalam
pohon kiri Gambar 4.1 (b). Selanjutnya, dengan hashing d , df ditemukan di simpul daun kiri ketiga
(pohon tengah), tetapi dengan hashing f , tidak ada himpunan bagian dari cd f ditemukan di daun paling kanan
simpul (pohon kanan). Akibatnya, jumlah dukungan dari set item ini ditemukan, cd , cf ,
dan df , bertambah 1. Perhatikan bahwa, setelah semua transaksi diproses,
frekuensi kandidat af dan ag ditemukan menjadi 0. Ini berarti Apriori
dapat menghasilkan kandidat yang tidak ada dalam database yang diberikan.
Setelah penghitungan dukungan ini, F 2 = { cd, cf, df, dg } diturunkan. Ini sering terjadi
2-itemset dalam F 2 digunakan sebagai benih 3-itemset yang sering. Cd itemet dan cf
dalam F 2 berbagi item pertama c bergabung dan menghasilkan CD kandidat baru oleh apriori-gen
karena df juga termasuk dalam F 2 . Itemfet df dan dg juga bergabung,
tapi condidate yang dihasilkan dipangkas karena bagian yang fg tidak termasuk dalam F 2 .
Akibatnya, C 3 , satu set kandidat sering 3-item, hanya terdiri dari cd f . Kemudian,
Apriori menghitung dukungannya dengan memindai basis data lagi, dan memperoleh F 3 = { cd f }.
Tidak ada kandidat yang sering 4-itemet yang dapat dihasilkan dari F 3 ini karena mengandung
hanya satu set item. Dengan demikian, Apriori berakhir.
Halaman 82
https://translate.googleusercontent.com/translate_f 73/188
6/24/2020 Sepuluh Algoritma Top dalam Penambangan Data
74 Apriori
Basis data C1 C2 C3
TID Item TID Set-of-Itemset TID Set-of-Itemset TID Set-of-Itemset
001 CD 001 {{ c }, { d }} 001 {{ cd }} 004 {{ c df }}
012 dg 012 {{ d }, { g }}
013 ef 013 {{ e }, { f }}
014 cdf 014 {{ c }, { d }, { f }}
F1 C2 F2 C3 F3
{g} 3 { cd } { fg }
Halaman 83
sebagai argumennya. Set 2-itemset { cd, cf, df } diturunkan oleh function apriori-
gen yang disebut dalam ap-genrules, masing-masing digunakan sebagai konsekuensi dari yang baru
aturan asosiasi. Tiga aturan yang dihasilkan ditunjukkan pada bagian kanan dari Tabel 4.3.
Tapi, tidak ada yang bisa menjadi output karena kepercayaan mereka kurang dari yang ditentukan
minconf = 0 . 6. Karena konsekuensi 3-item tidak dapat diperoleh dari cd f , ap-genrules
berakhir, dan Algoritma 4.2 juga berakhir karena F 4 = ∅.
Selanjutnya, kami menemukan pola sekuensial maksimal yang sering dari database transaksi yang sama
pada Tabel 4.1 dengan menggunakan AprioriAll (Algoritma 4.4) untuk minsup = 0 . 3. Gambar 4.3
menggambarkan aliran dari tiga fase pertama, yaitu, fase sortir, fase fitemset, dan
3 <( cdf ) ( dfg ) ( cdfg ) ( dg ) ( cdf )> <{( c ), ( d ), ( cd ), ( f ), ( cf )} {( d ), ( f )} <{1, 2, 3, 4, 5} {2, 4)} {1, 2, 3, 4, 5} {2} {1, 2, 3, 4, 5}>
{( c ), ( d ), ( cd ), ( f ), ( cf )} {( d )}
{( c ), ( d ), ( cd ), ( f ), ( cf )}>
Halaman 84
76 Apriori
https://translate.googleusercontent.com/translate_f 75/188
6/24/2020 Sepuluh Algoritma Top dalam Penambangan Data
〈3〉 〈23〉 〈32〉 〈24〉 〈42〉 〈25〉 〈22〉 〈32〉 〈134〉 〈144〉 〈222〉 〈224〉 〈242〉 〈324〉 〈2244〉 〈3424〉
〈4〉 〈52〉 〈33〉 〈34〉 〈43〉 〈35〉 〈24〉 〈42〉 〈242〉 〈322〉 〈324〉 〈342〉 〈342〉 〈244〉 〈2424〉
〈5〉 〈53〉 〈44〉 〈45〉 〈54〉 〈55〉 〈52〉 〈34〉 〈244〉 〈422〉 〈424〉 〈442〉 〈424〉 〈344〉 〈3244〉
〈44〉 〈522〉 〈344〉 〈444〉 〈3424〉
fase transformasi pada contoh ini. Pada fase sortir, transaksi dalam database
diurutkan dengan sequence-id (SID) sebagai kunci utama dan waktu transaksi (TT) sebagai
kunci minor. Kemudian, pada fase fitemset, fitemets diturunkan dengan cara yang mirip dengan
Apriori. Perhatikan bahwa dukungan fitemset adalah jumlah urutan transaksi,
termasuk itemset, tetapi bukan jumlah transaksi termasuk itu. Dengan demikian,
seperangkat 1-itemet yang sering dalam hal ini adalah { c, d, f }. Dalam fase transformasi,
setiap urutan transaksi ditransformasikan menjadi daftar set fitemets seperti yang ditunjukkan pada
bagian bawah Gambar 4.3 dengan mengganti setiap transaksi dalam urutan dengan satu set
fitemsets yang berisi transaksi. Perhatikan bahwa transaksi kedua dijatuhkan di
urutan transaksi 4 karena hanya terdiri dari satu set item yang tidak sering { a }.
AprioriAll menghasilkan satu set urutan kandidat C 2 dari F 1 dengan memanggil fungsi
apriori-gen-2. C 2 yang dihasilkan ditunjukkan pada Tabel 4.4. Fungsi apriori-gen-2 adalah
mirip dengan apriori-gen, tetapi berbeda dalam operasi gabungannya: Operasi gabungan apriori-
gen-2 menghasilkan dua k- followingences baru dari dua ( k −1)-followingences kapan pun mereka berada
joinable, sedangkan operasi gabungan apriori-gen hanya menghasilkan satu k -itemset dari
dua ( k - 1) -itemset. Sebagai contoh, ketika menurunkan C 2 , keduanya sequ12〉 dan 〈12
〈21〉 dihasilkan dari 〈1〉 dan 〈2〉. Selain itu, 〈11〉 juga dihasilkan dengan bergabung dengan
urutan identik 〈1〉. Ini diperlukan untuk menghasilkan urutan di mana banyak
kejadian fitemset diizinkan.
Menghitung dukungan dari setiap urutan kandidat dilakukan dengan cara yang sama seperti
Apriori menggunakan hash-tree, dan F 2 , seperangkat 2-sequence yang sering, diturunkan seperti yang ditunjukkan
pada Tabel 4.4. Ini F 2 digunakan untuk menghasilkan satu set urutan kandidat C 3 juga. Catatan
bahwa dari 〈11〉 dan 〈12〉, 3-urutan 〈112〉 dihasilkan dengan bergabung dengan mereka, tetapi tidak 〈121〉
karena selanjutnya 〈21〉 tidak termasuk dalam F 2 . Proses ini terdiri dari
generasi didat dan penghitungan dukungan diulang sampai tidak ada urutan yang lebih sering
diturunkan. Dalam contoh ini, karena tidak ada calon dari 5-urutan dapat dihasilkan
F 4 , F 5 menjadi kosong dan dengan demikian, iterasi berakhir. Akhirnya, AprioriAll mengeluarkan
〈1424〉, 〈2424〉, 〈3424〉, 〈11〉, 〈13〉, dan 〈52〉 sebagai urutan sering maksimal sebagai
urutan sering lainnya termasuk dalam salah satunya.
Halaman 85
50
minconf = 90%
45 minconf = 80%
minconf = 70%
40
minconf = 60%
35 minconf = 50%
30
25
https://translate.googleusercontent.com/translate_f 76/188
6/24/2020 Sepuluh Algoritma Top dalam Penambangan Data
Runtime
20
15
10
0
0 5 10 15 20 25 30
Minsup (%)
implementasi naif yang paling dekat dengan Apriori asli. Jadi, kami menonaktifkan fungsinya
menyortir item sehubungan dengan dukungan mereka dan memfilter item yang tidak digunakan dari
transaksi.
Sebagai dataset benchmark, kami menggunakan dataset Mushroom yang dapat diunduh dari UCI
Machine Learning Repository [8], yang berisi 8124 kasus dengan 23 nominal
upeti termasuk atribut kelas. Setiap kasus dianggap sebagai transaksi, dan masing-masing
nilai atribut dari setiap kasus dikonversi menjadi item dengan bergabung dengan korespondensi
misalnya nama atribut, “cap-shape = x,” di mana cap-shape adalah nama atribut
dan x adalah nilai atribut. Dalam 2480 kasus, nilai atribut dari satu atribut adalah miss-
ing. Karena kami mengabaikan nilai yang hilang, transaksi yang terkait dengannya memiliki 22
item, sedangkan yang lain memiliki 23 item. Beberapa nilai atribut memiliki arti berbeda
untuk atribut yang berbeda. Misalnya, "n" berarti "tidak ada" untuk atribut "bau", sementara
"Coklat" untuk "warna topi." Akibatnya, jumlah pasangan atribut dan nama yang valid
nilai atribut, yaitu, jumlah item yang berbeda, menjadi 118.
Pertama, kita menunjukkan runtime dari Apriori untuk berbagai minsup dan minconf nilai-nilai
pada Gambar 4.4. Semua runtime yang ditampilkan di bagian ini diukur pada PC yang berjalan
Windows XP dengan 2,8 GHz Pentium IV dan memori 4 GB. Dalam percobaan ini,
jumlah maksimal item per aturan diatur ke 5 untuk kenyamanan. Kami juga terbatas
jumlah minimal item per aturan ke 2 untuk mencegah aturan tanpa premis
dari yang diturunkan. Selain itu, pohon awalan tidak digunakan untuk menyimpan transaksi.
Dari hasil, jelas bahwa perubahan minconf tidak memengaruhi runtime
begitu banyak, tetapi runtime secara eksponensial meningkat sebagai minsup menjadi lebih kecil. Itu
Kecenderungan serupa diamati di Gambar 4.5 , yang menunjukkan hubungan antara minsup
dan jumlah aturan asosiasi turunan. Ini karena jumlahnya yang sering
itemset secara eksponensial meningkat sebagai minsup menjadi lebih kecil, seperti yang ditunjukkan pada Gambar 4.6 .
Halaman 86
78 Apriori
4000
minconf = 90%
minconf = 80%
3500
minconf = 70%
minconf = 60%
3000 minconf = 50%
2500
2000
1500
1000
Jumlah aturan asosiasi (k)
https://translate.googleusercontent.com/translate_f 77/188
6/24/2020 Sepuluh Algoritma Top dalam Penambangan Data
500
0
0 5 10 15 20 25 30
Minsup (%)
Gambar 4.5 Jumlah aturan asosiasi berasal untuk berbagai minsup dan minconf
nilai-nilai.
Hasil ini menunjukkan bahwa minsup , atau properti antimonotonicity dari itemset, sangat
efektif untuk memangkas itemset yang tidak sering.
Selanjutnya, kami menunjukkan hubungan antara runtime dan jumlah transaksi
pada Gambar 4.7 . Dalam evaluasi ini, kami menyalin dataset asli beberapa kali (hingga
1000
800
600
400
0
0 5 10 15 20 25 30
Dukung (%)
Halaman 87
45
minconf = 90%
minconf = 80%
40
minconf = 70%
minconf = 60%
35 minconf = 50%
30
25
Runtime
20
15
10
x1 x2 x3 x4
Ukuran dataset
https://translate.googleusercontent.com/translate_f 78/188
6/24/2020 Sepuluh Algoritma Top dalam Penambangan Data
Gambar 4.7 Runtime untuk berbagai ukuran dataset ( minsup = 5).
4 kali). Perhatikan bahwa fraksi setiap item tetap sama untuk semua dataset, jadi
adalah jumlah aturan asosiasi yang dihasilkan (frequent itemset). Gambar 4.7 menunjukkan
bahwa runtime meningkat secara linear ketika jumlah transaksi menjadi lebih besar.
Akibatnya, di bawah distribusi tertentu item, minsup jauh lebih berpengaruh
ke runtime daripada minconf dan jumlah transaksi di Apriori.
Akhirnya, kami menyebutkan secara singkat aturan asosiasi yang ditambang melalui percobaan, es-
terutama, untuk kenyamanan, mereka yang hanya memiliki satu item yang mewakili kelas
atribut dalam konsekuensinya. Nilai kelas bisa "dapat dimakan" (e) atau "beracun" (p).
Aturan tipikal ditemukan di bawah minsup = 0 . 3 dan minconf = 0 . 9 adalah “bau = n ukuran insang
= b ring-number = o ⇒ class = e, ”yang merupakan yang paling sederhana di antara mereka yang
konsekuensinya adalah "class = e," kepercayaan adalah 1.0, dan dukungan maksimum (0.331). Ini
aturan berarti jamur dapat dimakan jika urutannya tidak ada, ukuran insangnya luas, dan
jumlah cincinnya adalah satu. Atribut “bau” dan “ukuran insang” muncul sebagai yang pertama
dan node tes ketiga, masing-masing, dalam pohon keputusan yang dipelajari dari dataset ini oleh
J48, pembelajar pohon keputusan yang tersedia di Weka, di bawah pengaturan standarnya. Aturan serupa
“Bau = n spora-cetak-warna = w-ukuran-ins = b ⇒ kelas = e” dapat diturunkan dari
pohon keputusan dan kepercayaannya adalah 1,0 juga, tetapi itu benar hanya untuk 528 kasus, sedangkan
aturan asosiasi berlaku untuk 2689 kasus. Di sisi lain, tidak ada aturan yang percaya diri
adalah 1.0 dan konsekuen adalah “class = p” ditemukan di bawah pengaturan ini karena minsup
terlalu tinggi. Saat mengatur minsup = 0 . 2, 470 aturan semacam itu ditemukan.
Secara umum kita dapat memperoleh sejumlah kecil aturan asosiasi dalam waktu singkat untuk
minup tinggi , tetapi banyak dari mereka bisa sepele. Untuk menemukan aturan yang lebih menarik, kami punya
menggunakan lebih kecil minsup , tetapi mengarah ke runtime tidak dapat diterima dan sejumlah besar
aturan asosiasi, yang pada gilirannya akan membuat sulit untuk menemukan asosiasi yang menarik
Halaman 88
80 Apriori
aturan Algoritme yang lebih efisien dan ukuran yang lebih baik diperlukan agar sering ditemukan
itemset dan aturan asosiasi yang menarik, yang merupakan topik dari bagian selanjutnya.
https://translate.googleusercontent.com/translate_f 79/188
6/24/2020 Sepuluh Algoritma Top dalam Penambangan Data
Teknik berbasis hash dapat mengurangi ukuran set item kandidat. Setiap itemset
di-hash ke dalam bucket yang sesuai dengan menggunakan fungsi hash yang sesuai.
Karena ember dapat berisi set item yang berbeda, jika jumlahnya kurang dari minimum
dukungan, itemset ini dalam ember dapat dihapus dari set kandidat.
DHP [26] menggunakan ide ini.
Partisi dapat digunakan untuk membagi seluruh masalah penambangan menjadi n lebih kecil
yang [29]. Dataset dibagi menjadi n partisi yang tidak tumpang tindih sehingga
setiap partisi masuk ke memori utama dan setiap partisi ditambang secara terpisah.
Karena setiap itemset yang berpotensi sering harus terjadi sebagai itemset yang sering
di setidaknya salah satu partisi, semua itemet yang sering ditemukan dengan cara ini adalah
kandidat, yang dapat diperiksa dengan mengakses seluruh dataset hanya sekali.
Pengambilan sampel hanya untuk menambang sebagian kecil sampel acak dari seluruh data.
Karena tidak ada jaminan bahwa kami dapat menemukan semua set item yang sering, normal
praktiknya adalah menggunakan ambang dukungan yang lebih rendah. Pertukaran harus dibuat antara
akurasi dan efisiensi.
Format data vertikal menghubungkan TID dengan setiap set item, sedangkan Apriori menggunakan
format data horizontal, yaitu, item yang sering dikaitkan dengan masing-masing
transaksi. Dengan format data vertikal, penambangan dapat dilakukan dengan mengambil
persimpangan TIDs. Hitungan dukungan hanyalah panjang dari set TID
untuk itemset. Tidak perlu memindai database karena set TID membawa
informasi lengkap yang diperlukan untuk dukungan komputasi. Teknik ini membutuhkan,
Halaman 89
F [ I ] = ∅;
foreach i ∈ I yang ada di D dalam frekuensi meningkat agar mulai
F [ I ] = F [ I ] ∪ { I ∪ { i }};
D i = ∅;
H = ∅;
foreach j ∈ I dalam D sehingga j <i do begin
// ( j lebih sering daripada saya )
Pilih j yang mendukung ( saya ∪ { i, j }) ≥ minsup ;
H = H ∪ { j };
akhir
foreach ( Tid, X ) ∈ D dengan i ∈ X do
D i = D i ∪ {( Tid, { X \ { i }} ∩ H )};
Bangun FP-tree bersyarat dari D i ;
Panggil F [ I ∪ { i }] (bersyarat FP-pohon);
F [ I ] = F [ I ] ∪ F [ I ∪ { i }] (pohon FP bersyarat);
akhir
diberikan satu set kandidat item, bahwa TUT mereka tersedia di memori utama,
yang tentu saja tidak selalu demikian. Namun, sangat mungkin untuk secara signifikan
kurangi ukuran total dengan menggunakan pencarian kedalaman-pertama. Eclat [43] menggunakan strategi ini.
Dalam pendekatan mendalam-pertama, perlu untuk menyimpan paling banyak daftar TID
k -itemsets dengan pertama sama k - 1 item ( k - 1 prefix) pada kedalaman d dengan k ≤ d
dalam memori utama.
https://translate.googleusercontent.com/translate_f 80/188
6/24/2020 Sepuluh Algoritma Top dalam Penambangan Data
Halaman 90
82 Apriori
dengan memilih item dalam urutan peningkatan frekuensi dan penggalian sering
itemset yang berisi item yang dipilih dengan secara rekursif menyebut dirinya pada kondisi
FP-tree, yaitu, FP-tree dikondisikan untuk item yang dipilih. FP-growth adalah urutan
besarnya lebih cepat dari algoritma Apriori asli. Algoritma FP-growth
diberikan dalam Algoritma 4.5. F [∅] (FP-tree) mengembalikan semua set item yang sering. Seperti dicatat
dengan mudah, strategi memecah belah dan menaklukkan yang disebutkan oleh Han et al. setara dengan
pencarian mendalam-pertama tanpa pembuatan kandidat. The D i disebut i database yang -projected
dan umumnya jauh lebih kecil daripada FP-tree dari seluruh database. Dengan demikian diharapkan
bahwa D i cocok di memori utama bahkan jika yang terakhir tidak. Ide pertumbuhan pola
juga dapat diterapkan untuk penambangan itemset yang ditutup [27] (lihat Bagian 4.5.4) dan berurutan
penambangan pola [28] (lihat Bagian 4.5.8).
https://translate.googleusercontent.com/translate_f 81/188
6/24/2020 Sepuluh Algoritma Top dalam Penambangan Data
adalah A ∪ B . Seperti dapat dilihat di atas, FUP harus memindai database yang diperbarui untuk setiap k , tetapi
ukuran C k diharapkan akan sangat kecil. Percobaan menunjukkan bahwa itu hanya
sekitar 2 hingga 5% dari yang menjalankan kembali Apriori untuk database yang diperbarui, dan FUP berjalan
2 hingga 16 kali lebih cepat dari Apriori.
Halaman 91
sama, X bukan merupakan itemset tertutup. Itemet yang ditutup adalah representasi lossless,
sedangkan itemset maksimal tidak. Dengan demikian, setelah itemset tertutup ditemukan, semua
itemset sering dapat diturunkan dari mereka. Aturan X ⇒ Y adalah aturan asosiasi
pada itemset yang sering ditutup jika (1) X dan X ∪ Y merupakan itemset yang sering ditutup,
(2) tidak ada itemet yang sering ditutup Z sehingga X ⊂ Z ⊂ ( X ∪ Y ), dan
(3) kepercayaan aturan tidak kurang dari minconf . Kumpulan asosiasi lengkap
aturan dapat dihasilkan setelah itemet yang sering ditutup ditemukan.
CLOSET mem-partisi database dan menguraikan masalah menjadi satu set subprob-
kelihatannya, masing-masing dengan database bersyarat yang sesuai, dan dikenal efisien [27].
Pertama, semua item yang sering diturunkan dan diurutkan dalam urutan dukungan menurun
hitung sebagai daftar f = 〈i 1 , i 2 , ..., i n〉. The j th subproblem (1 ≤ j ≤ n ) adalah untuk menemukan com- yang
set kumpulan itemset tertutup yang sering berisi i n + 1− j tetapi tidak i k (untuk n + 1− j <k ≤ n ).
The i n + 1- j Database bersyarat adalah bagian dari transaksi yang mengandung i n + 1- j , di mana
semua kemunculan item yang jarang terjadi, item i n + 1− j , dan item yang mengikuti i n + 1− j di
daftar f dihilangkan. FP-tree yang sesuai dihasilkan dan digunakan untuk pencarian.
Setiap subproblem didekomposisi secara rekursif jika perlu. Barang yang sering ditutup -
set diidentifikasi dari database bersyarat menggunakan properti berikut. Jika
X adalah itemset yang sering ditutup, tidak ada item yang muncul di setiap transaksi di
yang X basis data -conditional. Jika suatu itemet Y adalah set maksimal item yang muncul
setiap transaksi dalam database bersyarat- X , dan X ∪ Y tidak dimasukkan oleh beberapa transaksi
sudah sering menemukan itemset tertutup dengan dukungan identik, X ∪ Y adalah sering
itemset tertutup. Seperti dalam FP-growth, optimalisasi lebih lanjut dimungkinkan.
LCM adalah algoritma lain, yang dikenal sebagai yang paling efisien, untuk menemukan pola tertutup
(itemset) [34]. Ini sering mendapatkan itemset tertutup melalui operasi penutupan tanpa
menghasilkan itemset yang tidak tertutup. Penutupan itemset X , dilambangkan dengan Clo ( X ), adalah
itemset tertutup terkecil yang unik termasuk X , yaitu, I ( T ( X )). Tanpa kehilangan
umumnya, kami menganggap semua item dalam database transaksi secara unik diindeks oleh
bilangan alami yang berdekatan. Kemudian, X ( i ) = X ∩ {1 , ..., i } disebut awalan-i dari
X , yang merupakan himpunan bagian dari X yang hanya memiliki elemen tidak lebih besar dari i . The Indeks inti
dari itemset X yang ditutup , dilambangkan dengan core i ( X ), adalah indeks minimum i sedemikian rupa sehingga
T ( X ( i )) = T ( X ). LCM menghasilkan, dari itemset X yang sering ditutup , yang lain sering
ditutup itemset Y sedemikian rupa sehingga Y = Clo ( X ∪ { i }) dan X ( i - 1) = Y ( i - 1), di mana saya adalah
item yang memenuhi i ∈ X dan i> core i ( X ). Y disebut sebagai prefix-preserving closure
ekstensi , atau ppc-ekstensi untuk jangka pendek, dari X . LCM secara rekursif menerapkan penutupan ini
operasi untuk itemset tertutup dari itemset kosong ke yang lebih besar di kedalaman-pertama
cara. Kelengkapan dan nonredundansi dari penghitungan item tertutup oleh
https://translate.googleusercontent.com/translate_f 82/188
6/24/2020 Sepuluh Algoritma Top dalam Penambangan Data
LCM dijaminada
maka hanya oleh properti
satu ditutupberikut:
itemsetJika Y adalahYitemset
X sehingga tertutup kosong, X . Sejak
adalah ppc-perpanjangan
LCM menghasilkan itemet sering ditutup baru Y dari T ( X ) dan subset dari I , its
kompleksitas waktu untuk menghitung semua item yang sering ditutup untuk X adalah O (|| T ( X ) || × | I |),
dimana || T ( X ) || adalah penjumlahan ukuran dari setiap transaksi yang termasuk dalam T ( X ). Biarkan C menjadi
satu set semua itemset tertutup sering terjadi di D . Kemudian, kompleksitas waktu LCM adalah linier
dalam | C | dengan faktor tergantung pada || T || × | Saya |. Bahkan, untuk meningkatkan waktu perhitungan
dan penggunaan memori, LCM menggabungkan tiga teknik: pengiriman kejadian, kapan saja
pengurangan basis data, dan uji pelestarian awalan cepat. Kejadian menghasilkan konstruksi
Halaman 92
84 Apriori
T ( X ∪ { i }) untuk semua i dengan memindai T ( X ) hanya sekali, bukan memindai untuk setiap i .
Pengurangan basis data kapan saja mengurangi ukuran basis data dengan menghapus yang tidak perlu
transaksi dan barang dari itu setiap kali sebelum iterasi dimulai dengan saat ini
itemset tertutup untuk mengurangi waktu komputasi dan penggunaan memori. Awalan cepat-
mempertahankan tes secara signifikan mengurangi jumlah item yang akan diakses untuk menguji
persamaan X ( i - 1) = Y ( i - 1) dengan memeriksa hanya item j sehingga j <i , j ∈ X ( i - 1)
dan mereka dimasukkan dalam transaksi dengan ukuran minimum dalam T ( X ∪ { i }) sebagai gantinya
untuk benar-benar menghasilkan penutupan saat melakukan ppc-extention. Jika item j adalah
termasuk dalam setiap transaksi dalam T ( X ∪ { i }), maka j termasuk dalam Clo ( X ∪ { i }), dengan demikian
X ( i - 1) = Y ( i - 1).
https://translate.googleusercontent.com/translate_f 83/188
6/24/2020 Sepuluh Algoritma Top dalam Penambangan Data
redundansi, produktivitas,
koefisien korelasi, daninformasi,
perolehan ukuran statistik terkenal seperti chi-square,
dan sebagainya.
Angkat dan leverage mewakili rasio dan perbedaan antara dukungan dan
dukungan yang diharapkan jika X dan Y masing-masing independen. Mereka mencoba
Halaman 93
Peningkatan aturan redundan tidak boleh lebih besar dari 0 dan karenanya merupakan kendala
bahwa aturan haruslah membuang semua aturan yang produktif secara produktif. Lebih lanjut, itu bisa membuang aturan
yang termasuk item dalam anteseden yang independen dari konsekuensinya, mengingat
item yang tersisa di anteseden.
Ukuran statistik berguna dalam menemukan pola diskriminatif (itemset). Bagaimana-
pernah, langkah-langkah ini tidak memuaskan sifat antimonotonisitas, dan menemukan yang terbaik
Pola atau aturan k tidak mudah. Jika ukuran cembung sehubungan dengan argumennya,
adalah mungkin untuk memperkirakan upperboundnya untuk superset dari pola X (itemset) untuk a
memperbaiki kesimpulan Y (biasanya, nilai kelas) [23] dan menggunakan ini untuk memangkas pencarian
ruang. Ukuran statistik yang disebutkan di atas memuaskan properti ini.
Algoritma KORD Webb [39] menemukan k- aturan optimal melalui ruang pasangan X
dan Y (tanpa memperbaiki Y ) dan menggunakan leverage sebagai ukuran untuk mengoptimalkan menggunakan berbagai
strategi pemangkasan.
https://translate.googleusercontent.com/translate_f 84/188
6/24/2020 Sepuluh Algoritma Top dalam Penambangan Data
Halaman 94
86 Apriori
dari semua EP yang dipilih dari FQFI ( cl ) berdasarkan ukuran ini. Prinsip dasar di sini
adalah memilih badan aturan yang cukup kuat untuk membedakan kelas cl dari
yang lain. Kekuatan EP a diukur dengan perbedaan relatif antara
mendukung D cl ( a ) dan support D cl ( a ): mendukung D cl ( a ) / (mendukung D cl ( a ) + mendukung
( a ))D cl=
tingkat pertumbuhan
D cl → D cl ( a ) / ( tingkat pertumbuhan
D cl → D cl ( a ) +1 Ini dapat digabungkan untuk
∑
tingkat pertumbuhan ( a )
denda skor agregat yang ditentukan oleh skor ( t, cl ) = a ⊆ t, a ∈ FEP ( cl )
tingkat pertumbuhan ( a ) + 1 ∗
dukung D cl ( a ) yang mewakili kemungkinan t untuk diklasifikasikan ke dalam cl oleh EPs di
FEP ( cl ). Karena distribusi jumlah EP tidak seragam atas cl , instance
mungkin mendapatkan skor yang lebih tinggi untuk beberapa kelas. Faktor lain, disebut skor dasar , yang
didefinisikan sebagai median dari semua skor agregat dalam {score ( t, cl ) | t ∈ D cl }, dikenalkan
dikurangi untuk mengimbangi bias ini, memberikan skor dinormalisasi yang didefinisikan oleh skor norma ( t, cl ) =
skor ( t, cl )
skor dasar ( cl ) .
The cl dimana skor dinormalisasi adalah maksimum ditugaskan ke
kelas t . Ini terbukti berkinerja sangat baik.
Masalah dengan CAEP adalah bahwa ia mendiskrit setiap atribut numerik dengan entropi
mengukur tanpa memperhitungkan ketergantungan yang ada di banyak atribut,
dan dengan demikian sekelompok instance dengan kelas yang sama sering dapat terfragmentasi. Alam
solusinya adalah menggabungkan QFIMiner dan CAEP, yaitu LSC-CAEP [37, 36].
https://translate.googleusercontent.com/translate_f 85/188
6/24/2020 Sepuluh Algoritma Top dalam Penambangan Data
Halaman 95
4.6 Ringkasan 87
algoritma penambangan pohon lainnya, Dryade mengumpulkan level sub pohon yang sering ditutup oleh
tingkat dari satu set unit dasar yang disebut ubin , yang merupakan satu subpohon tertutup kedalaman.
Sebuah grafik adalah kelas super pohon dan dapat memiliki jalur siklik. RUPS [19] adalah yang pertama
algoritma yang sering menambang subgraph dari koleksi grafik dengan lengkap
Cari. Ini didasarkan pada Apriori dan menghasilkan kandidat subgraph dengan ukuran k ( k -subgraph)
dari dua sering dikenal ( k - 1) -subgraph yang berbagi sama ( k - 2) -sgrgraph.
Karena tidak ada informasi tepi yang tersedia antara dua ( k - 1) -th,
semua kemungkinan dipertimbangkan. AGM menghasilkan dua k- subgraph dari sepasang
( k - 1) -subgraph, satu dengan tepi di antara mereka dan yang lainnya tanpa tepi
(ini adalah kasus di mana tidak ada label yang ditentukan untuk tepi). Meski berbasis Apriori
Pendekatan memungkinkan untuk melakukan pencarian lengkap sistematis dari subgraph sering, itu
harus menghasilkan sejumlah besar kandidat yang sebenarnya tidak ada dalam diberikan
mengatur grafik. RUPS menggunakan matriks adjacency untuk mewakili grafik dan memperkenalkan a
Gagasan bentuk kanonik untuk menyelesaikan isomorfisma subgraph yang dikenal sebagai NP-
lengkap. gSpan [41] adalah salah satu penambangan subgraph berbasis pola yang representatif
algoritma. Ini menemukan subgraph sering dalam cara pertama dengan menambahkan tepi ke
setiap posisi yang mungkin pada jalur paling kanan dari subgraph yang sering diketahui. gSpan
memperhitungkan hanya tepi yang benar-benar ada di set grafik yang diberikan, jadi itu
tidak pernah menghasilkan kandidat yang sebenarnya tidak ada. GBI [42] dan SUBDUE [13]
adalah algoritma serakah untuk menemukan subgraph yang sering, yang secara rekursif menggantikan setiap
Terjadinya subgraph khas dalam grafik dengan simpul baru. Khasnya adalah
didefinisikan oleh ukuran berdasarkan frekuensi, misalnya, perolehan informasi dalam GBI dan
panjang deskripsi minimum dalam SUBDUE. DT-ClGBI [25] menghasilkan keputusan
pohon yang mengklasifikasikan grafik tidak dikenal dari satu set grafik pelatihan dengan kelas yang dikenal.
Ini memanggil algoritma penambangan grafik, Cl-GBI [24], perpanjangan dari GBI, di setiap tes
simpul pohon keputusan. Subgraf sering yang dihasilkan digunakan sebagai atribut dari
grafik, dan yang paling diskriminatif dipilih untuk membagi set grafik yang mencapai
node menjadi dua himpunan bagian: mereka yang termasuk subgraph dan yang lainnya.
4.6 Ringkasan
Bereksperimen dengan algoritma seperti Apriori adalah hal pertama yang coba dilakukan penambang data
melakukan. Dalam bab ini konsep dasar dan algoritma keluarga Apriori (Apriori,
AprioriTid, AprioriAll) diperkenalkan pertama kali dan kemudian mekanisme kerjanya
dijelaskan dengan contoh ilustrasi, diikuti oleh evaluasi kinerja Apriori
menggunakan implementasi khas yang tersedia secara bebas. Karena Apriori sangat mendasar dan
mudah diimplementasikan, ada banyak varian. Keterbatasan pendekatan Apriori
dibahas dan ikhtisar kemajuan penting terbaru dalam pola sering
metodologi penambangan disediakan. Ada topik lain yang tidak bisa dibahas
Bab ini. Ini termasuk penggunaan kendala, pola kolosal, penanganan kebisingan, dan
perwakilan top-k.
https://translate.googleusercontent.com/translate_f 86/188
6/24/2020 Sepuluh Algoritma Top dalam Penambangan Data
Halaman 96
88 Apriori
4.7 Latihan
1. Buktikan bahwa Apriori dapat memperoleh semua set item yang sering dari transaksi yang diberikan
basis data.
2. Buktikan hubungan berikut:
Halaman 97
https://translate.googleusercontent.com/translate_f 87/188
6/24/2020 Sepuluh Algoritma Top dalam Penambangan Data
Referensi 89
10. Dengan diberikan database urutan yang ditunjukkan pada Tabel 4.6, temukan paten berurutan yang sering
terns oleh AprioriAll untuk minsup = 0 . 5.
Referensi
[1] http://www.borgelt.net/apriori.html.
[2] http://www.cs.bme.hu/∼bodon/en/apriori/.
[3] R. Agrawal dan R. Srikant. Algoritma cepat untuk aturan asosiasi pertambangan. Di
Proc Konferensi Internasional ke-20 tentang Pangkalan Data Sangat Besar (VLDB
1994) , halaman 487-499, 1994.
[4] R. Agrawal dan R. Srikant. Algoritma cepat untuk aturan asosiasi pertambangan. IBM
Laporan Penelitian RJ9839, Divisi Riset IBM, Pusat Penelitian Almaden,
1994
[5] R. Agrawal dan R. Srikant. Menambang pola berurutan. Laporan Penelitian IBM
RJ9910, Divisi Riset IBM, Pusat Penelitian Almaden, 1994.
[8] C. Blake dan C. Merz. Repositori UCI dari database pembelajaran mesin, 1998.
http://www.ics.uci.edu/ ~ mlearn / MLRepository.html.
[9] F. Bodon. Hasil yang mengejutkan dari algoritma fim berbasis trie. Di Proc. dari IEEE
Workshop ICDM tentang Implementasi Mining Frequent Itemset (FIMI'04) ,
volume 126 dari Prosiding Workshop CEUR , 2004. http: //ftp.informatik.
rwth-aachen.de/Publications/CEUR-WS/Vol-126/bodon.pdf.
[10] C. Borgelt. Implementasi Apriori dan Eclat yang efisien. Di Proc. dari IEEE
Workshop ICDM tentang Implementasi Mining Frequent Itemset (FIMI'03) ,
Halaman 98
90 Apriori
https://translate.googleusercontent.com/translate_f 88/188
6/24/2020 Sepuluh Algoritma Top dalam Penambangan Data
[11] S. Brin, R. Motwani, JD Ullman, dan S. Tsur. Penghitungan itemset dinamis dan
aturan implikasi untuk data keranjang pasar. Di Proc. dari ACM SIGMOD International
Konferensi Nasional tentang Pengelolaan Data (SIGMOD 1997) , halaman 255–264,
1997.
[13] DJ Cook dan Pemegang LB. Penemuan substruktur menggunakan deskripsi minimum
pengetahuan panjang dan latar belakang. Jurnal Penelitian Kecerdasan Buatan ,
Vol.1, halaman 231–255, 1994.
[14] G. Dong, X. Zhang, L. Wong, dan J. Li. Caep: Klasifikasi dengan mengagregasi
pola yang muncul. Di Proc. Konferensi Internasional ke-2 tentang Penemuan
Sains (DS '99), LNAI 1721, Springer, halaman 30–42, 1999.
[15] B. Goethals. Survei tentang penambangan pola sering, 2003. http: //www.adrem.
ua.ac.be/bibrem/pubs/fpm survey.pdf
[16] J. Han, H. Cheng, D. Xin, dan X. Yan. Penambangan pola yang sering: Status saat ini
dan arah masa depan. Penambangan Data dan Penemuan Pengetahuan , Vol. 15, No. 1,
halaman 55–86, 2007.
[17] J. Han, J. Pei, dan Y. Yin. Menambang pola yang sering tanpa calon gen-
erasi. Di Proc. Konferensi Internasional ACM SIGMOD 2000 tentang
Manajemen Data , halaman 1-12, 2000.
[18] J. Han, J. Pei, Y. Yin, dan R. Mao. Menambang pola yang sering tanpa kandidat
generasi: Pendekatan pohon yang sering berpola. Penambangan dan Pengetahuan Data
Penemuan , Vol. 8, No. 1, halaman 53–87, 2004.
[19] A. Inokuchi, T. Washio, dan H. Motoda. Kerangka umum untuk penambangan sering
subgraph dari grafik berlabel. Fundamenta Informaticae , Vol. 66, No. 1-2,
halaman 53–82, 2005.
[20] K. Kailing, H. Kriegel, dan P. Kroger. Pengelompokan ruang bagian yang terhubung dengan kepadatan
untuk data dimensi tinggi. Di Proc. Konferensi Internasional SIAM ke-4
tentang Data Mining , halaman 246–257, 2004.
[21] W. Li, J. Han, dan J. Pei. Cmar: Klasifikasi yang akurat dan efisien
pada beberapa aturan asosiasi-kelas. Di Proc. dari IEEE 1 Internasional
Konferensi tentang Penambangan Data (ICDM '01) , halaman 369–376, 2001.
[22] B. Liu, W. Hsu, dan Y. Ma. Mengintegrasikan aturan klasifikasi dan asosiasi
pertambangan. Di Proc. Konferensi Internasional ke-4 tentang Penemuan Pengetahuan
dan Data Mining (KDD-98) , halaman 80–86, 1998.
Halaman 99
Referensi 91
[23] S. Morishita dan J. Sese. Melintasi itemet kisi dengan metrik statistik
pemangkasan. Di Proc. Simposium ACM SIGMOD-SIGACT-SIGART ke-19 tentang
Prinsip Sistem Basis Data (PODS 2000) , halaman 226–236, 2000.
https://translate.googleusercontent.com/translate_f 89/188
6/24/2020 Sepuluh Algoritma Top dalam Penambangan Data
[24] PC Nguyen, K. Ohara, H. Motoda, dan T. Washio. Cl-GBI: Suatu pendekatan baru
untuk mengekstraksi pola khas dari data terstruktur grafik. Di Proc. dari
Konferensi Pasifik-Asia ke-9 tentang Kemajuan dalam Penemuan Pengetahuan dan Data
Penambangan (PAKDD 2005) , halaman 639-649, 2005.
[26] J. Park, M. Chen, dan P. Yu. Algoritme berbasis hash yang efektif untuk menambang
aturan asosiasi. Di Proc. Konferensi Internasional ACM SIGMOD 1995
tentang Manajemen Data , halaman 175–186, 1995.
[27] J. Pei, J. Han, dan R. Mao. Closet: Algoritme yang efisien untuk penambangan yang sering
itemset tertutup. Di Proc. Lokakarya Internasional ACM-SIGMOD tahun 2000
tentang Penambangan Data dan Penemuan Pengetahuan , halaman 11–20, 2000.
[29] A. Savasere, E. Omiecinski, dan S. Navathe. Algoritma yang efisien untuk min-
ing aturan asosiasi dalam basis data besar. Di Proc. Internasional ke-21
Konferensi Basa Data Sangat Besar (VLDB 1995) , halaman 432-444. Morgan
Kaufmann, 1995.
[30] R. Srikant dan R. Agrawal. Menambang aturan asosiasi umum. Di Proc. dari
Konferensi Internasional ke-21 tentang Pangkalan Data Sangat Besar (VLDB 1995) ,
halaman 407–419, 1995.
[31] R. Srikant dan R. Agrawal. Menambang aturan asosiasi kuantitatif secara besar-besaran
tabel relasional. Di Proc. Konferensi Internasional ACM SIGMOD 1996
tentang Manajemen Data , halaman 1–12, 1996.
[33] A. Termier, MC Rousset, dan M. Sebag. Dryade: Pendekatan baru untuk diskusi
ering pohon tertutup sering dalam database pohon heterogen. Di Proc. ke-4
Konferensi Internasional IEEE tentang Penambangan Data (ICDM '04) , halaman 543–546,
2004
[34] T. Uno, T. Asai, Y. Uchida, dan H. Arimura. Algoritma yang efisien untuk
sering melakukan pola tertutup dalam basis data transaksi. Di Proc. tanggal 7
Halaman 100
92 Apriori
Konferensi Internasional tentang Penemuan Sains (DS '04), LNAI 3245 , Springer,
halaman 16–30, 2004.
[35] T. Washio, H. Matsuura, dan H. Motoda. Aturan asosiasi pertambangan untuk estimasi
dan prediksi. Di Proc. Konferensi Asia Pasifik ke-2 tentang Pengetahuan
Penemuan dan Penambangan Data (PAKDD 1998) , halaman 417-419, 1998.
https://translate.googleusercontent.com/translate_f 90/188
6/24/2020 Sepuluh Algoritma Top dalam Penambangan Data
Konferensi Internasional tentang Penambangan Data (ICDM '05) , halaman 793–796, 2005.
[37] T. Washio, K. Nakanishi, dan H. Motoda. Turunkan aturan asosiasi kelas
pada pengelompokan ruang bagian levelwise. Di Proc. Konferensi Eropa ke-9 pada
Prinsip dan Praktek Penemuan Pengetahuan dalam Database (PKDD 2005),
LNAI 3721 , Springer, halaman 692–700, 2005.
[38] G. Webb. Pencarian aturan asosiasi yang efisien. Di Proc. dari ACM ke-6
SIGKDD Konferensi Internasional tentang Penemuan Pengetahuan dan Penambangan Data ,
halaman 99-107, 2000.
[39] G. Webb dan S. Zhang. Penemuan aturan K-optimal. Penambangan dan Pengetahuan Data
Penemuan , Vol. 10, No. 1, halaman 39–79, 2005.
[40] IH Witten dan E. Frank. Penambangan Data: Alat Pembelajaran Mesin Praktis
dan Teknik, Edisi ke-2 . Morgan Kaufmann, San Francisco, 2005.
http://www.cs.waikato.ac.nz/ml/weka/.
[41] X. Yan dan J. Han. gSpan: Penambangan pola substruktur berbasis grafik. Di Proc.
Konferensi Internasional IEEE ke-2 tentang Penambangan Data (ICDM'02) , halaman
721-724, 2002.
[42] K. Yoshida dan H. Motoda. Klip: Konsep belajar dari pola inferensi.
Jurnal Kecerdasan Buatan , Vol. 75, No. 1, halaman 63–92, 1995.
[43] M. Zaki. Algoritma yang dapat diukur untuk penambangan asosiasi. Transaksi IEEE aktif
Pengetahuan dan Rekayasa Data , Vol. 12, No. 3, halaman 372–390, 2000.
Halaman 101
Bab 5
EM
Isi
5.1 Pendahuluan
Algoritma ekspektasi-maksimisasi (EM) telah banyak diminati
beberapa tahun terakhir dalam pengembangan algoritma di berbagai bidang aplikasi seperti data
penambangan, pembelajaran mesin, dan pengenalan pola [20, 27, 28]. Kertas mani
dari Dempster et al. [8] pada algoritma EM sangat merangsang minat dalam penggunaan
distribusi campuran hingga untuk memodelkan data heterogen. Ini karena pemasangan
93
Halaman 102
94 EM
model campuran dengan kemungkinan maksimum (ML) adalah contoh klasik dari masalah itu
disederhanakan dengan penyatuan konseptual EM tentang estimasi ML dari
data yang dapat dilihat sebagai tidak lengkap [20]. Estimasi kemungkinan maksimum
dan inferensi berbasis kemungkinan sangat penting dalam teori statistik dan
analisis data. Estimasi kemungkinan maksimum adalah metode dengan tujuan umum
sifat menarik [6, 13, 31]. Distribusi campuran terbatas menyediakan fleksibel dan
pendekatan berbasis matematika untuk pemodelan dan pengelompokan data yang diamati pada
fenomena acak. Kami fokus di sini pada penggunaan algoritma EM untuk pemasangan
model campuran hingga melalui pendekatan ML.
Dengan pendekatan berbasis model campuran untuk pengelompokan, p- dimensi yang diamati
data y 1 , ..., y n diasumsikan berasal dari campuran yang awalnya ditentukan
jumlah g dari kepadatan komponen dalam beberapa proporsi yang tidak diketahui π 1 , ..., π g , yang
sum untuk 1. Kepadatan campuran y j dinyatakan sebagai
∑g
f(yj;Ψ)= πifi(yj;i) ( j = 1 , ..., n ) (5.1)
i=1
https://translate.googleusercontent.com/translate_f 92/188
6/24/2020 Sepuluh Algoritma Top dalam Penambangan Data
parameter ( i = 1 , ..., g ). Vektor dari semua parameter yang tidak diketahui diberikan oleh
( )T
Ψ= π 1 , ..., π g −1 , T
1 , ..., T g
∂ log L ( Ψ ) / ∂ Ψ = 0 (5.2)
dimana
∑n
log L ( Ψ ) = log f ( y j ; Ψ )
j=1
adalah fungsi log likelihood untuk Ψ yang dibentuk dengan asumsi independen
data y 1 , ..., y n . Tujuan dari estimasi ML [13] adalah untuk menentukan perkiraan Ψ untuk
masing-masing n , sehingga mendefinisikan urutan akar Persamaan (5.2) yang konsisten dan
efisien asimptotik. Urutan seperti itu diketahui ada di bawah keteraturan yang sesuai
kondisi [7]. Dengan probabilitas cenderung satu, akar ini sesuai dengan maksima lokal
di bagian dalam ruang parameter. Untuk model estimasi secara umum, kemungkinannya
biasanya memiliki maksimum global di bagian dalam ruang parameter. Maka biasanya a
urutan akar Persamaan (5.2) dengan sifat asimptotik yang diinginkan disediakan
dengan mengambil Ψ untuk setiap n menjadi akar yang secara global memaksimalkan L ( Ψ ); dalam hal ini, Ψ adalah
MLE [18]. Kami akan selanjutnya mengacu pada Ψ sebagai MLE, bahkan dalam situasi di mana
mungkin tidak memaksimalkan kemungkinan secara global. Memang, dalam contoh pada model campuran
untuk disajikan dalam Bagian 5.4.1, kemungkinannya tidak terbatas. Namun, mungkin saja ada
masih ada dalam kondisi keteraturan biasa urutan akar Persamaan (5.2)
dengan sifat konsistensi, efisiensi, dan normalitas asimptotik [16].
Halaman 103
x = ( y T , z T )T
Q ( Ψ ; Ψ ( k ) ) = E Ψ ( k ) {log L c ( Ψ ) | y }
https://translate.googleusercontent.com/translate_f 93/188
6/24/2020 Sepuluh Algoritma Top dalam Penambangan Data
Q ( Ψ ; Ψ ( k ) ), sehubungan dengan Ψ di atas ruang parameter [18]. Langkah E- dan M adalah
bergantian berulang kali sampai perubahan dalam nilai kemungkinan log kurang dari beberapa
ambang batas yang ditentukan. Seperti disebutkan dalam Bagian 5.1, algoritma EM adalah numerik
stabil dengan setiap iterasi EM meningkatkan nilai kemungkinan sebagai
L ( Ψ ( k +1) ) ≥ L ( Ψ ( k ) )
Dapat ditunjukkan bahwa kedua langkah E- dan M-akan memiliki bentuk yang sangat sederhana ketika
fungsi kepadatan probabilitas data lengkap berasal dari keluarga eksponensial [18].
Seringkali dalam praktiknya, solusi untuk langkah-M ada dalam bentuk tertutup. Dalam hal itu
jika tidak, mungkin tidak layak untuk mencoba menemukan nilai Ψ yang secara global
memaksimalkan fungsi Q ( Ψ ; Ψ ( k ) ). Untuk situasi seperti itu, EM umum (GEM)
algoritma [8] dapat diadopsi yang memerlukan langkah-M Ψ ( k +1) untuk dipilih tersebut
itu Ψ ( k +1) meningkatkan Q -fungsi Q ( Ψ ; Ψ ( k ) ) lebih nilainya di Ψ = Ψ ( k ) . Itu adalah,
Q ( Ψ ( k +1) ; Ψ ( k ) ) ≥ Q ( Ψ ( k ) ; Ψ ( k ) )
Halaman 104
96 EM
Halaman 105
Perangkat lunak campuran lainnya : Ada beberapa perangkat lunak berbasis EM lainnya untuk campuran
pemodelan melalui ML. Sebagai contoh, Fraley dan Raftery [9] telah mengembangkan
Program MCLUST untuk pengelompokan hierarkis berdasarkan campuran dari
komponen mal di bawah berbagai parameterisasi dari kovarians komponen
matriks. Ini dihubungkan ke perangkat lunak komersial S-PLUS dan memiliki opsi
tion untuk memasukkan komponen tambahan dalam model untuk latar belakang (Poisson)
kebisingan. Pembaca dirujuk ke lampiran di McLachlan dan Peel [20] untuk
ketersediaan perangkat lunak untuk pemasangan model campuran.
∑g
f(yj;Ψ)= π i φ ( y j ; i , Σ i ) ( j = 1 , ..., n ) (5.3)
i=1
https://translate.googleusercontent.com/translate_f 95/188
6/24/2020 Sepuluh Algoritma Top dalam Penambangan Data
dari proporsi pencampuran π 1 , ..., π g −1 , unsur-unsur komponen berarti i , dan
elemen-elemen yang berbeda dari matriks kovarians komponen Σ i . Kemungkinan log
karena Ψ kemudian diberikan oleh
{g }
∑n ∑
log L ( Ψ ) = catatan πiφ(yj;i,Σi)
j=1 i=1
Solusi dari persamaan kemungkinan log yang sesuai dengan maxima lokal dapat ditemukan
secara iteratif dengan penerapan algoritma EM.
Dalam kerangka EM, masing-masing y j dikonseptualisasikan untuk muncul dari salah satu
yang g komponen dari model campuran [Persamaan (5.3)]. Kita membiarkan z 1 , ..., z n menunjukkan
yang tidak teramati vektor komponen-indikator, di mana saya th elemen z ij dari z j adalah
diambil menjadi satu atau nol sesuai dengan j th pengamatan y j tidak atau tidak datang
Halaman 106
98 EM
dari komponen ke- i . Vektor data yang diamati y dianggap tidak lengkap,
karena vektor indikator-komponen yang terkait, z 1 , ..., z n , tidak tersedia. Itu
Oleh karena itu, vektor data lengkap adalah x = ( y T , z T ) T , di mana z = ( z T
1, ..., z T n) T. Itu
log data lengkap kemungkinan untuk Ψ diberikan oleh
∑g ∑n
log L c ( Ψ ) = z ij {log π i + log φ ( y j ; i , Σ i )} (5.4)
i=1 j=1
Algoritma EM diterapkan untuk masalah ini dengan memperlakukan z ij dalam Persamaan (5.4)
sebagai data yang hilang. Pada iterasi ( k + 1), langkah-E menghitung fungsi- Q ,
Q ( Ψ ; Ψ ( k ) ), yang merupakan harapan bersyarat dari kemungkinan log data lengkap
diberikan y dan perkiraan saat ini Ψ ( k ) . Sebagai data log lengkap kemungkinan [Equa-
tion (5.4)] linear dalam data yang hilang z ij , kita hanya perlu menghitung arus
harapan bersyarat Z ij mengingat data yang diamati y , di mana Z ij adalah acak
variabel yang sesuai dengan z ij . Itu adalah,
E Ψ ( k ) ( Z ij | y ) = pr Ψ ( k ) { Z ij = 1 | y }
= τ i ( y j ; Ψ (k) )
/g
( ) ∑ ( )
(k) (k)
= π (k) yj; π (k) yj; (5.5)
saya φ saya , Σ (saya
k) hφ h , Σ ( k )h
h=1
Untuk campuran dengan kerapatan komponen normal, ini menguntungkan secara komputasi
untuk bekerja dalam hal statistik yang memadai [26] yang diberikan oleh
∑n
(k)
Tsaya 1 = τ i ( y j ; Ψ (k) )
j=1
∑n
T(k) τ i ( y j ; Ψ (k) ) y j
i2=
j=1
∑n
τ i ( y j ; Ψ (k) ) y jy T
https://translate.googleusercontent.com/translate_f 96/188
6/24/2020 Sepuluh Algoritma Top dalam Penambangan Data
T (ik3)= j (5.7)
j=1
Untuk komponen normal, langkah-M ada dalam bentuk tertutup dan disederhanakan pada
dasar dari statistik yang cukup dalam Persamaan (5.7) sebagai
(k)
π ( k +1) = T
saya saya 1 /
n
( k +1)
= T(k)
saya saya 1
{ i2/ T(k) −1
= (k) T}
Σ (saya
k +1) T(k) T ( k ) saya 2 / T (saya
k)
(5.8)
saya 3 - T saya 1 i2T(k) 1
Halaman 107
lihat [20, 26]. Dalam kasus matriks kovarian komponen-tidak terbatas Σ i , L ( Ψ ) adalah
tidak terikat, karena setiap titik data memunculkan singularitas di tepi parameter
ruang eter [16, 20]. Pertimbangan harus diberikan pada masalah yang relatif besar
(palsu) maxima lokal yang terjadi sebagai akibat dari komponen yang dipasang
varian umum yang sangat kecil (tetapi bukan nol) (penentu kovarians
matriks). Komponen seperti itu berhubungan dengan sebuah cluster yang mengandung beberapa titik data
relatif berdekatan atau hampir berbaring di ruang bagian dimensi bawah dalam kasus ini
data multivarian.
Dalam praktiknya, matriks kovarians komponen Σ i dapat dibatasi menjadi
sama, Σ i = Σ ( i = 1 , ..., g ), di mana Σ tidak ditentukan. Dalam kasus ini
Komponen normal ini, estimasi terbaru dari komponen-kovarians umum
matriks Σ diberikan oleh
∑g
(k)
Σ ( k +1) = T /n (5.9)
i 1 Σ ( ksaya
+1)
i=1
dimana Σ (saya
k +1) diberikan oleh Persamaan (5.8), dan pembaruan π i dan i adalah seperti di atas pada
3 = (6 . 6 , 3 . 0 , 5 . 5 , 2 . 0) T
Σ (0)
1 = diag (0 . 1 , 0 . 1 , 0 . 03 , 0 . 01) Σ (0) 2= diag (0 . 2 , 0 . 1 , 0 . 2 , 0 . 03)
Σ (0)
3 = diag (0 . 3 , 0 . 1 , 0 . 3 , 0 . 1)
https://translate.googleusercontent.com/translate_f 97/188
6/24/2020 Sepuluh Algoritma Top dalam Penambangan Data
penerapan algoritma EM. Sebagai contoh, nilai awal Ψ (0) ditentukan
dari 10 mulai acak (menggunakan 70% subsampling data), 10 k -berarti mulai, dan 6
metode hierarkis; lihat Bagian 5.3 dan [22]. Estimasi akhir Ψ sama
seperti yang diberikan pada Tabel 5.1.
Halaman 108
100 EM
Y j = i + B i U ij + ij
https://translate.googleusercontent.com/translate_f 98/188
6/24/2020 Sepuluh Algoritma Top dalam Penambangan Data
Halaman 109
∑g
f(yj;Ψ)= πiφ(yj;i,Σi)
i=1
dimana
Σ i = B iB T ( i = 1 , ..., g )
i+ Di
Vektor dari parameter yang tidak diketahui Ψ sekarang terdiri dari elemen i , B i ,
dan D i , bersama dengan proporsi pencampuran π i ( i = 1 , ..., g - 1).
Algoritma conditional-maximization (AECM) harapan bergantian [24] dapat
digunakan agar sesuai dengan campuran model analisis faktor oleh ML; lihat Bagian 5.5. Itu
parameter yang tidak diketahui dipartisi sebagai ( Ψ T
1 , Ψ T2 ) T , di mana Ψ 1 berisi π i ( i =
1 , ..., g - 1) dan elemen i ( i = 1 , ..., g ). Subvektor Ψ 2 berisi
elemen B i dan D i ( i = 1 , ..., g ). Algoritma AECM adalah perpanjangan dari
algoritma maximation-conditional maximization (ECM) [23], di mana spesifikasinya
dari data lengkap diizinkan untuk berbeda pada setiap maksimalisasi bersyarat
(CM) langkah. Dalam aplikasi ini, satu iterasi terdiri dari dua siklus yang berkaitan dengan
partisi Ψ menjadi Ψ 1 dan Ψ 2 , dan ada satu langkah-E dan satu langkah-CM untuk masing-masing
siklus. Untuk siklus pertama algoritma AECM, kami menentukan data yang hilang menjadi adil
vektor komponen-indikator, z 1 , ..., z n ; lihat Persamaan (5.4). Langkah-E pada
siklus pertama pada iterasi ( k +1) pada dasarnya sama dengan yang diberikan dalam Persamaan (5.5)
dan (5.6). Langkah CM pertama menghitung estimasi yang diperbarui Ψ ( k +1)1 sebagai
∑n
π saya
( k +1) = τ (k)
ij / n
j=1
dan
∑n ∑n
( k +1)
= τ (k) τ (k)
saya aku j
ij y j /
j=1 j=1
untuk i = 1 , ..., g . Untuk siklus kedua untuk pembaruan Ψ 2 , kami menentukan yang hilang
data menjadi faktor U i 1 , ..., U in , serta vektor komponen-indikator,
T, Ψ(k) T
z 1 , ..., z n . Pada pengaturan Ψ ( k +1 / 2) sama dengan ( Ψ
1 ( k +1) 2 ) T , E-step pada yang kedua
siklus menghitung ekspektasi bersyarat sebagai
( k )T
E Ψ ( k +1 / 2) { Z ij ( U ij - i ) | y j } = τ ( k +1 / 2)aku j saya (yj-i)
dan
E Ψ ( k +1 / 2) { Z ij ( U ij - i ) ( U ij - i ) T | y j }
{ (k) T }
= τ ( aku
k +1 / 2)
j saya ( y j - i ) ( y j - i ) T ( k ) saya
+ Ω ( ksaya
)
dimana ( ) −1
(k) = T+ D(k)
saya B ( k ) saya saya B (saya
k)
iB(k)
https://translate.googleusercontent.com/translate_f 99/188
6/24/2020 Sepuluh Algoritma Top dalam Penambangan Data
Halaman 110
102 EM
dan
T
(k) = I q - (k)
Ω saya saya B (saya
k)
dan {
( k +1 / 2) ( k +1 / 2) T}
D ( saya
k +1) = diag V - B ( k +1) H B (saya
k +1)
saya saya saya
dimana ∑n
( y j - ( k +1) saya ) ( y j - ( k +1)saya )T
( k +1 / 2) = j = 1 τ ( aku
k +1j / 2) ∑n
V saya
aku j
j = 1 τ ( k +1 / 2)
dan
( k +1 / 2) T ( k +1 / 2) (k)
H = (k) V + Ω (k)
saya saya saya saya saya
Sebagai ilustrasi, suatu campuran model analisis faktor dengan nilai q yang berbeda adalah
dipasang pada kumpulan data anggur, mengabaikan klasifikasi data yang diketahui. Untuk menentukan
perkiraan awal Ψ , program EMMIX digunakan agar sesuai dengan campuran normal
model dengan matriks kovarians komponen-tidak terbatas menggunakan sepuluh awal acak
nilai (dengan 70% subsampling data). Estimasi π i dan i diperoleh
digunakan sebagai nilai awal untuk π i dan i dalam algoritma AECM. Estimasi
dari Σ i diperoleh (dilambangkan sebagai Σ (0)
i ) digunakan untuk menentukan estimasi awal D i ,
dimana D (0)saya diambil menjadi matriks diagonal yang terbentuk dari elemen diagonal
Σ (0)
i . Perkiraan awal B i dapat diperoleh dengan menggunakan metode yang dijelaskan dalam [20].
Hasil dari algoritma AECM dari q = 1 hingga q = 8 disajikan pada Tabel 5.2 .
Kami juga telah melaporkan nilai minus dua kali statistik uji rasio kemungkinan λ
(yaitu, dua kali peningkatan kemungkinan log), saat kami melanjutkan dari pemasangan campuran q
analisis faktor menjadi satu dengan faktor komponen q +1. Untuk tingkat nomor tertentu
komponen g , kondisi keteraturan berlaku untuk distribusi nol asimptotik dari
-2 log λ menjadi chi-kuadrat dengan d derajat kebebasan, di mana d bedanya
antara jumlah parameter di bawah nol dan hipotesis alternatif untuk
nilai q . Hal ini dapat dilihat dari Tabel 5.2 bahwa tingkat kesalahan nyata dari outright
clustering adalah terkecil untuk q = 2 dan 3. Namun, tingkat kesalahan ini tidak diketahui dalam a
konteks pengelompokan dan karena itu tidak dapat digunakan sebagai panduan untuk pilihan q . Tentang
penggunaan uji rasio kemungkinan untuk memutuskan jumlah faktor q , tes
q = q 0 = 6 vs q = q 0 1 = 7 adalah tidak signifikan ( P = 0 . 28), untuk mengambil -2 log λ ke
menjadi chi-kuadrat dengan d = g ( p - q 0 ) = 21 derajat kebebasan di bawah hipotesis nol
bahwa q = q 0 = 6.
https://translate.googleusercontent.com/translate_f 100/188
6/24/2020 Sepuluh Algoritma Top dalam Penambangan Data
Halaman 111
1 −3102.254 2 (1.12) -
2 −2995.334 1 (0,56) 213.8
3 −2913.122 1 (0,56) 164.4
4 −2871.655 3 (1.69) 82,93
5 −2831.860 4 (2.25) 79.59
6 −2811.290 4 (2.25) 41.14
7 −2799.204 4 (2.25) 24.17
8 −2788.542 4 (2.25) 21.32
∑M.
1
Q ( Ψ ; Ψ (k) ) ≈ Q M ( Ψ ; Ψ (k) ) = log L c ( Ψ ; y , z ( m k ) )
M.
m=1
Pada langkah-M, fungsi- Q dimaksimalkan di atas Ψ untuk mendapatkan Ψ ( k +1) . Varian ini adalah
dikenal sebagai algoritma Monte Carlo EM (MCEM) [33]. Sebagai kesalahan MC diperkenalkan
pada E-step, properti monotonisitas hilang. Tetapi dalam kasus-kasus tertentu, algoritma
mendekati maximizer dengan probabilitas tinggi [4]. Masalah menentukan
M dan pemantauan konvergensi merupakan hal yang sangat penting dalam penggunaan rutin
algoritma; lihat [4, 18, 33].
Dengan algoritma EM, langkah-M hanya melibatkan estimasi ML data lengkap,
yang seringkali sederhana secara komputasi. Namun, di beberapa aplikasi, seperti itu
dalam campuran analisis faktor (Bagian 5.4.2), langkah-M agak rumit.
Halaman 112
https://translate.googleusercontent.com/translate_f 101/188
6/24/2020 Sepuluh Algoritma Top dalam Penambangan Data
104 EM
Algoritma ECM [23] adalah perpanjangan alami dari algoritma EM dalam situasi
di mana proses maksimalisasi pada M-step relatif sederhana saat bersyarat
pada beberapa fungsi dari parameter yang diestimasi. Algoritma ECM mengambil
keuntungan dari kesederhanaan maksimalisasi data bersyarat lengkap dengan mengganti
langkah-rumit dari algoritma EM dengan beberapa komputasi yang lebih sederhana
Langkah CM. Secara khusus, algoritma ECM mempertahankan konvergensi yang menarik
properti dari algoritma EM [18, 23]. Algoritma AECM [24] disebutkan dalam
Bagian 5.4.2 memungkinkan spesifikasi data lengkap bervariasi bila perlu
atas CM-langkah di dalam dan di antara iterasi. Ini augmentasi data yang fleksibel dan
skema pengurangan model sangat cocok untuk aplikasi seperti campuran faktor
analisis di mana parameternya besar jumlahnya.
Kumpulan data besar jutaan pengamatan multidimensi sekarang
biasa. Ada permintaan yang semakin meningkat untuk mempercepat konvergensi
dari algoritma EM ke database besar. Tetapi pada saat yang sama, itu sangat diinginkan
jika kesederhanaan dan stabilitasnya dapat dipertahankan. Versi tambahan dari EM
Algoritma ini diusulkan oleh Neal dan Hinton [25] untuk meningkatkan tingkat konvergensi
dari algoritma EM. Algoritma EM (IEM) tambahan ini dilanjutkan dengan membagi
data ke dalam blok B dan mengimplementasikan (sebagian) E-step hanya untuk satu blok data di
waktu sebelum melakukan langkah-M. Artinya, "scan" algoritma IEM terdiri
dari B partial E-steps dan B full M-steps [26]. Ini dapat ditunjukkan dari Latihan 6 dan
7 pada Bagian 5.6 bahwa algoritma IEM secara umum bertemu dengan lebih sedikit pemindaian dan
karenanya lebih cepat daripada algoritma EM. Algoritma IEM juga meningkatkan kemungkinan
di setiap pemindaian; lihat diskusi di [27].
Dalam kerangka campuran dengan pengamatan y 1 , ..., y n , yang tidak dapat diobservasi
vektor komponen-indikator z = ( z T
1 , ..., z T n ) T dapat disebut sebagai "variabel tersembunyi
sanggup." Dalam aplikasi pengenalan suara, yang z j mungkin tidak diketahui serial bergantung
spektrum prototipikal di mana sinyal pidato diamati y j tergantung ( j = 1 , ..., n ).
Oleh karena itu urutan atau set tersembunyi nilai z j tidak dapat dianggap sebagai independen. Di
aplikasi pengenalan suara otomatis atau pemrosesan bahasa alami (NLP)
tugas, model Markovian stasioner di atas ruang keadaan terbatas umumnya dirumuskan
untuk distribusi variabel tersembunyi Z [18]. Sebagai konsekuensi dari ketergantungan
struktur Z , kepadatan Y j tidak akan memiliki perwakilan sederhana [Equa-
tion (5.1)] dari kepadatan campuran seperti dalam kasus kemerdekaan. Namun, Y 1 , ..., Y n
diasumsikan bebas bersyarat z 1 , ..., z n ; itu adalah
∏n
f ( y 1 , ..., y n | z 1 , ..., z n ;) = f ( y j | z j ;)
j=1
di mana menunjukkan vektor yang berisi parameter yang tidak diketahui dalam kondisi ini
distribusi yang dikenal apriori berbeda. Penerapan algoritma EM
untuk masalah ini dikenal sebagai algoritma Baum-Welch dalam literatur HMM. Baum
dan rekan-rekannya merumuskan algoritma ini sebelum munculnya EM
algoritma dalam Dempster et al. [8] dan menetapkan properti konvergensi untuk ini
algoritma; lihat [2] dan referensi di dalamnya. E-step dapat diimplementasikan dengan tepat,
tetapi memang membutuhkan rekursi maju dan mundur melalui data [18]. Langkah-M
Halaman 113
https://translate.googleusercontent.com/translate_f 102/188
6/24/2020 Sepuluh Algoritma Top dalam Penambangan Data
dapat diimplementasikan dalam bentuk tertutup, menggunakan rumus yang merupakan kombinasi dari
MLE untuk parameter multinomial dan probabilitas transisi rantai Markov;
lihat [14, 30].
5.6 Latihan
Sepuluh latihan diberikan di bagian ini. Mereka muncul di berbagai bidang ilmiah di Indonesia
konteks penambangan data dan pengenalan pola, di mana algoritma EM atau nya
varian telah diterapkan. Latihan-latihan tersebut termasuk masalah di mana ketidaklengkapan
data mungkin tidak sealami atau sejelas dalam dua contoh ilustrasi di
Bagian 5.4.
1. Böhning et al. [3] pertimbangkan penelitian kohort tentang status kesehatan 602 prasekolah
anak-anak dari tahun 1982 hingga 1985 di Thailand utara [32]. Frekuensi penyakit
mantra (demam, batuk, atau keduanya) selama periode penelitian disajikan pada Tabel 5.3 .
Campuran tiga komponen distribusi Poisson cocok untuk data. Itu
fungsi log likelihood diberikan oleh
{3 }
∑n ∑
log L ( Ψ ) = catatan πif(yj,θi)
j=1 i=1
di mana Ψ = ( π 1 , π 2 , θ 1 , θ 2 , θ 3 ) T dan
f ( y j , θ i ) = exp (- θ i ) θ y j ( i = 1 , 2 , 3)
i/ yj!
∑n
π ( k +1) = τ i ( y j ; Ψ (k) ) / n ( i = 1 , 2)
saya
j=1
∑n ( )
( k +1)
θ ( k +1) = τ i ( y j ; Ψ ( k ) ) y j / nπ ( i = 1 , 2 , 3)
saya saya
j=1
Halaman 114
106 EM
https://translate.googleusercontent.com/translate_f 103/188
6/24/2020 Sepuluh Algoritma Top dalam Penambangan Data
Frekuensi Penyakit Frekuensi Penyakit Frekuensi Penyakit
0 120 8 25 16 6
1 64 9 19 17 5
2 69 10 18 18 1
3 72 11 18 19 3
4 54 12 13 20 1
5 35 13 4 21 2
6 36 14 3 23 1
7 25 15 6 24 2
∑g
f(yj;Ψ)= πif(yj;i,Σi,νi)
i=1
Ψ = ( π 1 , ..., π g −1 , T , T ) T
Y j | u j , z ij = 1 ∼ N ( i , Σ i / u j )
Tunjukkan bahwa kemungkinan log data lengkap dapat ditulis dalam tiga istilah sebagai
Halaman 115
dimana
∑g ∑n
log L 1 c () = z ij log π i
i=1 j=1
∑g ∑n { }
log L 2 c () = z ij - log ( 1
2νi) +1 2 ν i log ( 12 ν i ) + 1 2 ν i (log u j - u j ) - log u j
i=1 j=1
dan
https://translate.googleusercontent.com/translate_f 104/188
6/24/2020 Sepuluh Algoritma Top dalam Penambangan Data
∑g ∑n {-1 }
log L 3 c () = z ij 2 p log (2 π ) - 1 2 ujδ(yj,i,;Σi)
2 log | Σi| -1
i=1 j=1
dimana
−1
δ(yj,i;Σi)=(yj-i)TΣ
i( yj- i)
3. Dengan mengacu pada campuran distribusi t di atas , tunjukkan bahwa E-step on
iterasi k ( 1) dari algoritma EM melibatkan perhitungan
π (k) f ( y j ; (k)
saya saya , Σ (saya
k ) , νi ()k )
E Ψ ( k ) ( Z ij | y ) = τ ( k ) (5.11)
ij = f ( y j ; Ψ (k) )
ν (k)+ p
(k) saya
E Ψ ( k ) ( U j | y , z ij = 1) = u (5.12)
ij = ν (k) + δ ( y j , (k)
saya saya ; Σ (i k))
dan
{ ( ) ( )}
(k)
ν (k)+ p ν (k)+ p
saya saya
E Ψ ( k ) (log U j | y , z ij = 1) = log u ψ - log
ij + 2 2
(5.13)
ψ ( r ) = { ∂ ( r ) / ∂r } / ( r )
adalah fungsi Digamma [29]. Petunjuk untuk Persamaan (5.12): distribusi gamma
adalah distribusi sebelum konjugasi untuk U j ; Petunjuk untuk Persamaan (5.13): jika acak
variabel S memiliki distribusi gamma ( α, β ), kemudian
E (log S ) = ψ ( α ) - log β.
Juga, mengikuti dari Persamaan (5.10) bahwa ( k +1) , ( k +1) , dan ( k +1) dapat
dihitung pada M-step secara independen satu sama lain. Tunjukkan bahwa pembaruan
rumus untuk dua yang pertama adalah
∑n
π ( k +1) = τ (k)
saya
ij / n
j=1
∑n /n ∑
( k +1) (k)
saya
= τ (k) τ ( k ) (aku
k)
j
ij kamu
ij y j ij kamu
j=1 j=1
Halaman 116
108 EM
dan ∑n
(k)
saya ) ( y j - ( k +1)saya )T
j = 1 τ ( ijk kamu
ij ( y j -∑
k +1) =
) ( k n+1)
Σ (saya
aku j
j=1τ(k)
∑n
(k)
https://translate.googleusercontent.com/translate_f 105/188
6/24/2020 Sepuluh Algoritma Top dalam Penambangan Data
dimana n saya = j = 1 τ ( ijk () i = 1 , ..., g ).
4. Program EMMIX [22] memiliki opsi untuk pemasangan campuran multi-
memvariasikan komponen t . Sekarang muat campuran dua komponen t (dengan tidak terbatas
skala matriks Σ i dan derajat kebebasan yang tidak sama ν i ) dengan kepiting Leptograpsus
set data Campbell dan Mahon [5]. Dengan data kepiting, satu spesies telah
terpecah menjadi dua spesies baru, yang sebelumnya dikelompokkan berdasarkan bentuk warna, oranye dan biru.
Data tersedia pada 50 spesimen setiap jenis kelamin masing-masing spesies. Perhatian di sini
difokuskan pada sampel n = 100 pengukuran lima dimensi pada or-
kepiting ange (dua komponen sesuai dengan jantan dan betina). Jalankan
Program EMMIX dengan nilai mulai otomatis dari 10 mulai acak (menggunakan
100% subsampling data), 10 k -berarti dimulai, dan 6 metode hirarkis
(dengan nilai awal yang disediakan pengguna ν= (0)
ν (0) = 13 . 193 yang diperoleh dalam
1 2
kasus matriks skala yang sama dan derajat kebebasan yang sama). Verifikasi perkiraan
adalah ν 1 = 12 . 2 dan ν 2 = 300 . 0 dan angka yang ditetapkan untuk setiap komponen
masing-masing adalah 47 dan 53 (tingkat kesalahan klasifikasi = 3%).
5. Untuk campuran distribusi komponen g dari model linier umum
(GLMs) dalam proporsi π 1 , ..., π g , kepadatan variabel respons j
Y j diberikan oleh
∑g
f(yj;Ψ)= π i f ( y j ; θ ij , κ i )
i=1
di mana θ ij adalah parameter alami atau kanonik dan κ i adalah parameter dispersi.
Untuk komponen ke- i GLM, tunjukkan μ ij mean bersyarat dari Y j dan η ij =
h i ( μ ij ) = T
i x j prediktor linier, di mana h i (·) adalah fungsi tautan dan x j
adalah vektor variabel penjelas pada j th respon y j [20]. Vektor
parameter yang tidak diketahui adalah Ψ = ( π 1 , ..., π g −1 , κ 1 , ..., κ g , T
1 , ..., T g ) T . Membiarkan
z ij menunjukkan variabel komponen-indikator seperti yang didefinisikan dalam Bagian 5.4.1. Itu
E-step pada dasarnya sama dengan yang diberikan dalam Persamaan (5.5) dan (5.6), dengan
Halaman 117
∑n
π ( k +1) = τ (k)
saya ij / n
j=1
dimana /g
( ) ∑ ( )
τ (k) π (k) f y j ; θ (k)
ij = π ( k ) saya f y j ; θij( ,k κ
)
( ksaya
) h hj , κ ( kh)
h=1
( k +1)
Pembaruan κ ( k +1)saya dan saya perlu dihitung secara iteratif dengan menyelesaikan
∑n
τ (k)
ij ∂ log f ( y j ; θ ij , κ i ) / ∂κ = 0
j=1
∑n
τ (k) (5.14)
ij ∂ log f ( y j ; θ ij , κ i ) / ∂ i = 0
j=1
https://translate.googleusercontent.com/translate_f 106/188
6/24/2020 Sepuluh Algoritma Top dalam Penambangan Data
Pertimbangkan campuran distribusi gamma, tempat fungsi kepadatan gamma
untuk komponen ke - i diberikan oleh
αi αi
( μ ij )α iy
( α i −1)
j exp (- μ ij yj)
f ( y j ; μ ij , α i ) =
(αi)
di mana α i > 0 adalah parameter bentuk, yang tidak bergantung pada penjelasan
variabel. Prediktor linier dimodelkan melalui log-link sebagai
η ij = h i ( μ ij ) = log μ ij = T
saya x j
Dengan mengacu pada Persamaan (5.14), tunjukkan bahwa M-step untuk campuran gamma
distribusi melibatkan penyelesaian persamaan nonlinier
∑n
τ (k)
ij {1 + log α i - log μ ij + log y j - y j / μ ij - ψ ( α i )} = 0 ,
j=1
∑n
τ (k)
ij (−1 + y j / μ ij ) α i x j = 0
j=1
Halaman 118
110 EM
di mana S b adalah bagian dari {1 , ..., n } yang berisi subscript dari orang-orang y j yang
termasuk dalam blok ( b + 1) ( b = 0 , ..., B - 1). Dari Persamaan (5.7) dan
(5.8), menunjukkan bahwa langkah-M pada iterasi ( b + 1) dari pemindaian ( k + 1) dari
Algoritma IEM melibatkan pembaruan estimasi π i , i , dan Σ i as
berikut:
π ( k + ( b +1) / B ) =T (k+b/B) /n
saya saya 1
( k + ( b +1) / B ) (k+b/B)
=T / T (k+b/B)
saya saya 2 saya 1
{ −1
( k + ( b +1) / B ) (k+b/B) (k+b/B) (k+b/B) (k+b/B) T}
Σ = T -T T T / T (k+b/B)
saya saya 3 saya 1 saya 2 saya 2 saya 1
untuk i = 1 , ..., g dan q = 1 , 2 , 3. Perlu dicatat bahwa suku pertama dan kedua aktif
sisi kanan Persamaan (5.15) sudah tersedia dari sebelumnya
iterasi dan pemindaian sebelumnya, masing-masing. Dalam praktiknya, algoritma IEM
https://translate.googleusercontent.com/translate_f 107/188
6/24/2020 Sepuluh Algoritma Top dalam Penambangan Data
diimplementasikan dengan menjalankan algoritma EM standar untuk beberapa pemindaian pertama
untuk menghindari masalah "kelaparan komponen prematur" [26]. Dalam hal ini, kita
memiliki
∑B
T(k) T (iq,k )b ( i = 1 , ..., g ; q = 1 , 2 , 3)
iq =
b=1
7. Dengan algoritma IEM, Ng dan McLachlan [26] menyediakan panduan sederhana untuk
memilih jumlah blok B untuk campuran normal. Dalam hal komponen-
matriks kovarians yang ditentukan diagonal (seperti pada Contoh 5.1), mereka
menyarankan B ≈ n 1 / 3 . Untuk Iris data dalam Contoh 5.1, ini menunjukkan bahwa B ≈ (150) 1 / 3 .
Jalankan algoritma IEM ke data Iris dengan B = 5 dan nilai awal yang sama
Ψ seperti pada Contoh 5.1. Verifikasi bahwa (a) perkiraan akhir dan kemungkinan log
nilai kira-kira sama dengan yang menggunakan algoritma EM, dan (b)
Algoritma IEM menyatu dengan lebih sedikit pemindaian daripada algoritma EM dan meningkat
kemungkinan pada setiap pemindaian; lihat diskusi di [27].
8. Ng dan McLachlan [28] menerapkan algoritma ECM untuk melatih campuran
jaringan pakar (ME) [10, 12]. Dalam jaringan ME, ada beberapa modul,
disebut sebagai jaringan pakar. Jaringan pakar ini memperkirakan distribusi
pijakan y j dalam setiap wilayah ruang input. Jaringan pakar memetakannya
input x j ke output y j , dengan kepadatan bersyarat f h ( y j | x j ; h ), di mana h adalah a
vektor parameter yang tidak diketahui untuk h th ahli jaringan ( h = 1 , ..., M ). Itu
jaringan gating menyediakan satu set koefisien skalar π h ( x j ;) yang berbobot
Halaman 119
kontribusi berbagai pakar, di mana merupakan vektor dari parameter yang tidak diketahui
di jaringan gating. Output akhir dari jaringan ME adalah jumlah tertimbang
dari semua vektor keluaran yang dihasilkan oleh jaringan ahli,
∑M.
f(yj|xj;Ψ)= π h ( x j ;) f h ( y j | x j ; h )
h=1
Dalam kerangka data yang tidak lengkap dari algoritma EM, kami memperkenalkan
variabel indikator Z hj , di mana z hj adalah 1 atau 0 sesuai dengan apakah y j termasuk atau
tidak termasuk ke dalam h ahli th. Tunjukkan bahwa log data lengkap kemungkinan
untuk Ψ diberikan oleh
∑n ∑M.
log L c ( Ψ ) = z hj {log π h ( x j ;) + log f h ( y j | x j ; h )}
j=1 h=1
dan fungsi- Q dapat didekomposisi menjadi dua istilah sehubungan dengan dan
Q ( Ψ ; Ψ (k) ) = Q + Q
dimana
∑n ∑M.
Q= τ (k)
hj log π h ( x j ;)
j=1 h=1
∑n ∑M.
Q= τ (k)
hj log f h ( y j | x j ; h )
j=1 h=1
https://translate.googleusercontent.com/translate_f 108/188
6/24/2020 Sepuluh Algoritma Top dalam Penambangan Data
dan dimana
/ M.
( ) ∑ ( )
(k)
τ (k) yj|xj; π r ( x j ; (k) ) f r y j | x j ; ( k )r
hj = π h ( x j ; ( k ) ) f h h
r=1
exp ( v T
π h ( x j ;) = ∑ M −1 h x j ) ( h = 1 , ..., M - 1)
1+ r = 1 exp ( v T rxj)
∑ M −1
dan π M ( x j ;) = 1 / (1 + r = 1 exp ( v T
r x j )). Di sini berisi elemen dalam
v h ( h = 1 , ..., M −1). Tunjukkan bahwa estimasi yang diperbarui dari ( k +1) pada langkah-M
diperoleh dengan memecahkan
( )
∑n
exp ( v T
τ (k) ∑ M −1 h x j ) xj=0
hj -
j=1 1+ r = 1 exp ( v T
rxj)
Halaman 120
112 EM
untuk h = 1 , ..., M −1, yang merupakan himpunan persamaan nonlinier. Perlu dicatat bahwa
persamaan nonlinear untuk h th ahli tidak hanya bergantung pada vektor parameter
v h , tetapi juga pada vektor parameter lain di. Dengan kata lain, setiap parameter
vektor v h tidak dapat diperbarui secara mandiri. Dengan algoritma IRLS disajikan
di [12], asumsi independensi pada vektor parameter ini digunakan
secara implisit. Ng dan McLachlan [28] mengusulkan algoritma ECM yang mana
M-step digantikan oleh ( M - 1) CM-step yang lebih sederhana secara komputasi untuk v h ( h =
1 , ..., M - 1).
10. McLachlan dan Chang [17] mempertimbangkan pendekatan berbasis model campuran untuk
analisis cluster data campuran, di mana pengamatan terdiri dari kedua
ous dan variabel kategori. Misalkan p 1 dari variabel fitur p dalam Y j
yang kategoris, di mana q th variabel kategoris mengambil m q nilai yang berbeda
( q = 1 , ..., p 1 ). Dengan pendekatan kluster berbasis model lokasi [20], p 1
variabel kategori secara unik ditransformasikan
∏ p menjadi
1
multinomial random tunggal
variabel U dengan sel S , di mana S = q = 1 m q adalah jumlah pola yang berbeda
(lokasi) dari variabel kategori p 1 . Kami membiarkan ( u j ) s menjadi label untuk s th
lokasi entitas j ( s = 1 , ..., S ; j = 1 , ..., n ), di mana ( u j ) s = 1 jika
realisasi dari variabel kategori p 1 sesuai dengan pola s th,
dan nol sebaliknya. Model lokasi mengasumsikan lebih lanjut bahwa tergantung pada
( U j ) s = 1, distribusi bersyarat dari p - p 1 variabel kontinu adalah
normal dengan mean adalah dan matriks kovarian Σ i , yang sama untuk semua S
sel. Biarkan p adalah menjadi probabilitas bersyarat bahwa ( U j ) s = 1 diberikan mem- nya
bership dari komponen ke- i dari campuran ( s = 1 , ..., S ; i = 1 , ..., g ).
Dengan mengacu pada Bagian 5.4.1, tunjukkan bahwa pada iterasi EM ( k + 1)
algoritma, estimasi yang diperbarui diberikan oleh
/
∑S ∑n
π ( k +1) = δ js τ ( k ) n
saya ijs
s=1 j=1
/S
∑n ∑ ∑n
( k +1) = δ js τ ( k ) δ jr τ ( k )
hal
adalah ijs ijr
j=1 r=1 j=1
/n
∑n ∑
https://translate.googleusercontent.com/translate_f 109/188
6/24/2020 Sepuluh Algoritma Top dalam Penambangan Data
( k +1) ∗
adalah = δ js τ ( k ) j δ js τ ijs( k )
ijs y
j=1 j=1
dan
/S
∑S ∑n ( )( )T ∑ ∑n
∗ ∗
Σ (saya
k +1) = δ js τ ( k ) y y δ js τ ( k )
ijs adalah adalah ijs
j - ( k +1) j - ( k +1)
s=1 j=1 s=1 j=1
∗
di mana δ js adalah 1 atau 0 sesuai dengan apakah ( u j ) s sama dengan 1 atau 0, y
j berisi
variabel kontinu dalam y j , dan
/g
( ∗ ) ∑ ( ∗ )
τ (k) (k) (k) π (k) (k) y (k)
saya hal y saya h
ijs = π ( k ) adalah φ j ; adalah , Σ ( k ) h p hs φ j; hs , Σ ( k )
h=1
Halaman 121
Referensi 113
Referensi
[1] A. Asuncion dan DJ Newman. Repositori Pembelajaran Mesin UCI. Universitas
of California, Sekolah Informasi dan Ilmu Komputer, Irvine, 2007.
http://www.ics.uci.edu/ mlearn / MLRepository.html.
[4] JG Booth dan JP Hobert. Memaksimalkan model campuran linier umum seperti-
kemungkinan dengan algoritma Monte Carlo EM otomatis. Jurnal Kerajaan
Masyarakat Statistik B , 61: 265–285, 1999.
[5] NA Campbell dan RJ Mahon. Sebuah studi multivariat tentang variasi dalam dua spesies
kepiting batu dari genus Leptograpsus . Australian Journal of Zoology , 22: 417–
425, 1974.
[6] DR Cox dan D. Hinkley. Statistik Teoritis . Chapman & Hall, London,
1974.
[9] C. Fraley dan AE Raftery. Mclust: Perangkat lunak untuk analisis kluster berbasis model.
Jurnal Klasifikasi , 16: 297–306, 1999.
[11] M. Jamshidian dan RI Jennrich. Kesalahan standar untuk estimasi EM. Jurnal
dari Royal Statistics Society B , 62: 257–270, 2000.
https://translate.googleusercontent.com/translate_f 110/188
6/24/2020 Sepuluh Algoritma Top dalam Penambangan Data
[13] EL Lehmann dan G. Casella. Teori Estimasi Titik . Springer-Verlag,
New York, 2003.
[15] TA Louis. Menemukan matriks informasi yang diamati ketika menggunakan algoritma EM
ritme. Jurnal Masyarakat Statistik Kerajaan B , 44: 226–233, 1982.
Halaman 122
114 EM
[17] GJ McLachlan dan SU Chang. Pemodelan campuran untuk analisis kluster. Sta-
Metode statistik dalam Penelitian Medis , 13: 347-361, 2004.
[19] GJ McLachlan dan D. Peel. Analisis cluster yang kuat melalui campuran multi-
variate t -distribusi. Dalam Catatan Kuliah dalam Ilmu Komputer , halaman 658-666.
Springer-Verlag, Berlin, 1998. Vol. 1451.
[20] GJ McLachlan dan D. Peel. Model Campuran Hingga . Wiley, New York, 2000.
[21] GJ McLachlan dan D. Peel. Campuran dari penganalisa faktor. Dalam P. Langley, editor,
Prosiding Konferensi Internasional ke 17 tentang Pembelajaran Mesin , halaman
599–606, San Francisco, 2000. Morgan Kaufmann.
[23] X.-L. Meng dan D. Rubin. Estimasi kemungkinan maksimum melalui algo- ECM
rithm: Kerangka umum. Biometrika , 80: 267-278, 1993.
[24] X.-L. Meng dan DA van Dyk. Algoritma EM — lagu daerah lama yang dinyanyikan
lagu baru yang cepat. Jurnal Masyarakat Statistik Kerajaan B , 59: 511-567, 1997.
[30] LR Rabiner. Tutorial tentang model Markov tersembunyi dan aplikasi terpilih di
pengenalan suara. Prosiding IEEE , 77: 257–286, 1989.
https://translate.googleusercontent.com/translate_f 111/188
6/24/2020 Sepuluh Algoritma Top dalam Penambangan Data
[31] CR Rao. Inferensi Statistik Linier dan Penerapannya (edisi kedua) . Wiley,
New York, 1973.
Halaman 123
Referensi 115
https://translate.googleusercontent.com/translate_f 112/188
6/24/2020 Sepuluh Algoritma Top dalam Penambangan Data
Halaman 125
124
Bab 6
Peringkat halaman
Isi
6.1 Pendahuluan
Peringkat berbasis tautan telah memberikan kontribusi signifikan terhadap keberhasilan pencarian Web.
PageRank [1, 7] mungkin adalah algoritma peringkat berbasis tautan yang paling dikenal, yang
juga mendukung mesin pencari Google. Karena kesuksesan bisnis Google yang sangat besar,
PageRank telah muncul sebagai model analisis tautan dominan di Web.
Algoritma PageRank pertama kali diperkenalkan oleh Sergey Brin dan Larry Page di
Konferensi Internasional World Wide Web Ketujuh ( WWW 7) pada bulan April 1998, dengan
bertujuan untuk mengatasi beberapa kesulitan utama dengan algoritma peringkat berbasis konten
mesin pencari awal. Mesin pencari awal ini pada dasarnya diambil relevan
halaman untuk pengguna berdasarkan kesamaan konten permintaan pengguna dan yang diindeks
halaman mesin pencari. Algoritma pengambilan dan pemeringkatan cukup langsung
implementasi dari pengambilan informasi. Namun, mulai tahun 1996, itu
menjadi jelas bahwa kesamaan konten saja tidak lagi memadai untuk pencarian karena
dua alasan utama. Pertama, jumlah halaman Web berkembang pesat selama pertengahan hingga
akhir 1990-an. Dengan kueri apa pun, jumlah halaman yang relevan bisa sangat besar. Sebagai contoh,
diberikan permintaan pencarian "teknik klasifikasi," perkiraan mesin pencari Google
bahwa ada sekitar 10 juta halaman yang relevan. Kelimpahan informasi ini menyebabkan
masalah utama untuk peringkat, yaitu, bagaimana memilih hanya 10 hingga 30 halaman dan peringkat
mereka sesuai untuk disajikan kepada pengguna. Kedua, metode kesamaan konten mudah
spammed Pemilik halaman dapat mengulangi beberapa kata penting dan menambahkan banyak kata dari jarak jauh
kata-kata yang terkait di halamannya untuk meningkatkan peringkat halaman dan / atau membuat
halaman yang relevan dengan sejumlah besar kemungkinan pertanyaan.
117
https://translate.googleusercontent.com/translate_f 113/188
6/24/2020 Sepuluh Algoritma Top dalam Penambangan Data
Halaman 126
Dari sekitar tahun 1996, para peneliti di perusahaan akademi dan mesin pencari mulai
kerjakan masalahnya. Mereka menggunakan hyperlink. Tidak seperti dokumen teks yang digunakan dalam tradisi
pengambilan informasi nasional, yang sering dianggap independen satu sama lain
(Yaitu, tanpa hubungan atau tautan eksplisit di antara mereka kecuali dalam analisis kutipan),
Halaman web terhubung melalui hyperlink, yang membawa informasi penting.
Beberapa hyperlink digunakan untuk mengatur sejumlah besar informasi di Web yang sama
situs, dan dengan demikian hanya menunjuk ke halaman di situs yang sama. Hyperlink lain mengarah ke halaman
di situs Web lain. Hyperlink keluar seperti itu sering menunjukkan penyampaian implisit
otoritas ke halaman yang ditunjuk. Misalnya, jika halaman Anda menunjuk ke sebuah
halaman luar, Anda jelas percaya bahwa halaman luar ini berisi kualitas dan berguna
informasi kepada Anda. Oleh karena itu, halaman-halaman yang ditunjuk oleh banyak halaman lain adalah
kemungkinan mengandung informasi yang otoritatif atau berkualitas. Keterkaitan seperti itu seharusnya jelas
digunakan dalam evaluasi halaman dan peringkat di mesin pencari. PageRank justru mengeksploitasi
tautan semacam itu untuk menyediakan algoritme peringkat yang kuat. Intinya, PageRank mengandalkan
sifat demokratis Web dengan menggunakan struktur tautannya yang luas sebagai indikator
kualitas halaman individual. Itu menafsirkan hyperlink dari halaman x ke halaman y sebagai suara, oleh
halaman x , untuk halaman y . Selain itu, PageRank melihat lebih dari sekadar angka
suara atau tautan yang diterima halaman. Ini juga menganalisis halaman yang memberikan suara. Voting
dilemparkan oleh halaman-halaman yang sendiri "penting" menimbang lebih berat dan membantu membuatnya
halaman lain lebih "penting." Ini adalah ide prestise peringkat di jejaring sosial [9].
Dalam bab ini, kami memperkenalkan algoritma PageRank. Bersamaan dengan itu, perpanjangan untuk
algoritme juga disajikan, yang disebut Timed-PageRank. Jangka waktu-PageRank
menambahkan dimensi temporal ke pencarian untuk berurusan dengan sifat dinamis dari Web
dan penuaan halaman Web.
In-link halaman i : Ini adalah hyperlink yang menunjuk ke halaman i dari halaman lain.
Biasanya, hyperlink dari situs yang sama tidak dipertimbangkan.
Tautan keluar halaman i : Ini adalah hyperlink yang menunjukkan ke halaman lain dari
halaman i . Biasanya, tautan ke halaman situs yang sama tidak dipertimbangkan.
Ide-ide berikut berdasarkan pangkat pangkat [9] digunakan untuk menurunkan PageRank
algoritma.
https://translate.googleusercontent.com/translate_f 114/188
6/24/2020 Sepuluh Algoritma Top dalam Penambangan Data
Halaman 127
1. Hyperlink dari halaman yang menunjuk ke halaman lain adalah penyampaian implisit dari
wewenang ke halaman target. Dengan demikian, semakin banyak tautan yang saya terima, halaman
lebih gengsi halaman yang saya miliki.
2. Halaman yang menunjuk ke halaman saya juga memiliki skor prestise mereka sendiri. Halaman dengan
skor prestise yang lebih tinggi menunjuk ke i lebih penting daripada halaman dengan yang lebih rendah
skor prestise menunjuk ke i . Dengan kata lain, sebuah halaman penting jika menunjuk
oleh halaman penting lainnya.
di mana O j adalah jumlah tautan keluar dari halaman j . Secara matematis, kami memiliki sistem
dari persamaan linear n [Persamaan (6.1)] dengan n tidak diketahui. Kita bisa menggunakan matriks untuk
mewakili semua persamaan. Sebagai konvensi notasi, kami menggunakan huruf tebal dan miring
untuk mewakili matriks. Biarkan P menjadi vektor kolom n- dimensi dari nilai PageRank,
itu adalah,
P = A TP (6.3)
Ini adalah persamaan karakteristik sistem eigens, di mana solusi untuk P adalah
vektor eigen dengan nilai eigen yang sesuai dari 1. Karena ini adalah definisi lingkaran
Selain itu, algoritma iteratif digunakan untuk menyelesaikannya. Ternyata kalau beberapa syarat
puas (yang akan dijelaskan segera), 1 adalah nilai eigen terbesar dan
Vektor PageRank P adalah vektor eigen utama . Sebuah teknologi matematika yang terkenal
nique disebut daya iterasi [2] dapat digunakan untuk menemukan P .
Halaman 128
https://translate.googleusercontent.com/translate_f 115/188
6/24/2020 Sepuluh Algoritma Top dalam Penambangan Data
1 5
3 4
2 6
Syaratnya adalah bahwa A adalah matriks stokastik dan tidak dapat direduksi
dan aperiodik . Namun, grafik Web tidak memenuhi ketentuan ini. Faktanya,
Persamaan (6.3) juga dapat diturunkan berdasarkan rantai Markov . Kemudian beberapa teori
Hasil ical dari rantai Markov dapat diterapkan [8], di mana tiga di atas
kondisi berasal.
Dalam model rantai Markov, setiap halaman Web atau node dalam grafik Web dianggap
sebagai sebuah negara. Sebuah hyperlink merupakan transisi, yang mengarah dari satu negara ke negara lain dengan
sebuah probabilitas. Dengan demikian, kerangka kerja ini memodelkan penjelajahan Web sebagai proses stokastik. Itu
memodelkan seorang surfer Web secara acak menjelajahi Web sebagai transisi status dalam rantai Markov.
Sekarang mari kita lihat grafik Web dan lihat mengapa ketiga kondisi tidak terpenuhi.
Pertama-tama, A bukan matriks stokastik ( transisi ) . Matriks stokastik adalah transisi
matriks untuk rantai Markov hingga yang entri di setiap baris adalah nyata negatif
angka dan jumlah ke 1. Ini mengharuskan setiap halaman Web harus memiliki setidaknya satu
keluar tautan Ini tidak benar di Web karena banyak halaman tidak memiliki tautan di luar
tercermin dalam matriks transisi A oleh beberapa baris lengkap 0. Halaman seperti itu
disebut dangling pages (node).
Jika kami menganggap bahwa surfer Web akan mengklik hyperlink di halaman secara seragam di
acak, kami memiliki matriks probabilitas transisi berikut:
⎛ ⎞
0 1/21/2 0 0 0
⎢ ⎢
⎢ 1/2 0 1/2 0 0 0 ⎢
⎢ ⎢
⎢ ⎢
⎢ 0 1 0 0 0 0 ⎢
A= ⎢ ⎢ (6.4)
⎢ 0 0 1/3 0 1/31/3 ⎢
⎢ ⎢
⎢ ⎢
⎝ 0 0 0 0 0 0 ⎠
0 0 0 1/21/2 0
Misalnya, A 12 = A 13 = 1/2 karena simpul 1 memiliki dua tautan keluar. Kita dapat melihat bahwa A
bukan matriks stokastik karena baris kelima adalah semua 0, yaitu, halaman 5 adalah menggantung
halaman.
Kami dapat memperbaiki masalah ini dengan menambahkan satu set lengkap tautan keluar dari masing-masing
halaman tersebut i untuk semua halaman di Web. Dengan demikian, kemungkinan transisi akan terjadi
dari i ke setiap halaman adalah 1 / n, dengan asumsi distribusi probabilitas yang seragam. Itu adalah,
kami mengganti setiap baris yang berisi semua 0 dengan e / n , di mana e adalah vektor n -dimensi
Halaman 129
https://translate.googleusercontent.com/translate_f 116/188
6/24/2020 Sepuluh Algoritma Top dalam Penambangan Data
Di bawah ini, kami mengasumsikan bahwa hal di atas dilakukan untuk membuat A menjadi matriks stokastik.
Kedua, A tidak dapat direduksi, yang berarti bahwa grafik Web G tidak kuat
terhubung.
Contoh 6.2.2 Gambar 6.2 menunjukkan rantai Markov periodik dengan k = 3. Transisi
matriks diberikan di sebelah kiri. Setiap negara bagian dalam rantai ini memiliki periode 3. Misalnya, jika
kita mulai dari keadaan 1, satu-satunya jalan untuk kembali ke keadaan 1 adalah 1-2-3-1 untuk sejumlah angka
kali, katakanlah h . Dengan demikian, setiap pengembalian ke status 1 akan membutuhkan 3 jam transisi. Di Web, ada
bisa banyak kasus seperti itu.
010 1 1
A = 100
1 2 3
001
1
Halaman 130
r
Kami menambahkan tautan dari setiap halaman ke setiap halaman dan memberikan setiap tautan sebuah transisi kecil
probabilitas dikendalikan oleh parameter d .
https://translate.googleusercontent.com/translate_f 117/188
6/24/2020 Sepuluh Algoritma Top dalam Penambangan Data
Matriks transisi augmented jelas menjadi tak tereduksi dan juga aperiodik. Setelah
augmentasi ini, kami memperoleh model PageRank yang ditingkatkan:
( )
E
P= (1 - d ) +dAT P (6.6)
n
di mana E adalah ee T ( e adalah vektor kolom dari semua 1) dan dengan demikian E adalah n × n matriks persegi
semua 1 ini. n adalah jumlah total node dalam grafik Web dan 1 / n adalah probabilitas
melompat ke halaman acak. Perhatikan bahwa Persamaan (6.6) mengasumsikan bahwa A sudah
telah dibuat matriks stokastik. Setelah scaling, kami memperoleh
P = (1 - d ) e + d A T P (6.7)
∑n
P ( i ) = (1 - d ) + d A ji P ( j ) (6.8)
j=1
yang setara dengan rumus yang diberikan dalam makalah PageRank asli [1, 7]:
∑
P(j)
P ( i ) = (1 - d ) + d (6.9)
Oj
( j, i ) ∈ E
Halaman 131
PageRank-Iterate ( G )
P0← e / n
k←1
ulang
P k ← (1 - d ) e + d A T P k –1 ;
k ← k + 1;
https://translate.googleusercontent.com/translate_f 118/188
6/24/2020 Sepuluh Algoritma Top dalam Penambangan Data
sampai || P k - P k –1 || 1 < ε
return P k
1. Dengan probabilitas f ( t i ), dia secara acak memilih tautan keluar untuk diikuti.
2. Dengan probabilitas 1 - f ( t i ), ia melompat ke halaman acak tanpa tautan.
Intuisi di sini adalah bahwa jika halaman tersebut terakhir diperbarui (atau dibuat) sejak lama, the
halaman yang ditunjukkannya bahkan lebih tua dan mungkin kedaluwarsa. Maka 1 - f ( t )
nilai halaman seperti itu harus besar, yang berarti bahwa surfer akan memiliki tinggi
Halaman 132
probabilitas melompat ke halaman acak. Jika halaman baru, maka nilainya 1− f ( t ) seharusnya
menjadi kecil, yang berarti bahwa surfer akan memiliki probabilitas tinggi untuk mengikuti out-link
halaman dan probabilitas kecil untuk melompat ke halaman acak. Untuk yang benar-benar baru
di situs Web, yang sama sekali tidak memiliki tautan, metode yang diberikan menggunakan
nilai rata-rata Jangka Waktu-PageRank dari halaman-halaman sebelumnya di situs Web. Ini masuk akal
karena situs berkualitas di masa lalu biasanya menerbitkan halaman baru yang berkualitas. The Jangka waktu-
Algoritma PageRank telah dievaluasi berdasarkan pencarian publikasi penelitian dan telah
diberi hasil yang menjanjikan. Pembaca yang tertarik, silakan merujuk ke [6] untuk detail tambahan.
6.4 Ringkasan
https://translate.googleusercontent.com/translate_f 119/188
6/24/2020 Sepuluh Algoritma Top dalam Penambangan Data
Peringkat berbasis tautan untuk pencarian sangat berperan dalam pencarian Web. PageRank adalah
algoritma yang paling dikenal untuk tujuan tersebut. Praktis juga sangat efektif
beralasan secara teoritis. Bab ini hanya menyediakan materi pengantar; lebih lanjut
detail dapat ditemukan di [1, 4, 5, 7]. Ekstensi ke algoritma PageRank juga
dibahas secara singkat, yang menambahkan dimensi temporal ke pencarian. Akhirnya, kita harus melakukannya
perhatikan bahwa peringkat berbasis tautan bukan satu-satunya strategi yang digunakan dalam mesin pencari. Banyak
pengambilan informasi lainnya dan metode penambangan data dan heuristik berdasarkan halaman
konten dan klik pengguna juga digunakan.
6.5 Latihan
1. Diberikan A di bawah ini, dapatkan P dengan menyelesaikan Persamaan (6.7) secara langsung.
⎛ ⎞
0 1/31/31/3 0 0
⎢ ⎢
⎢ 1/2 0 1/2 0 0 0 ⎢
⎢ ⎢
⎢ ⎢
⎢ 0 1 0 0 0 0 ⎢
A= ⎢ ⎢
⎢ 0 1/41/4 0 1/41/4 ⎢
⎢ ⎢
⎢ ⎢
⎝ 0 1/21/2 0 0 0 ⎠
0 0 0 1/21/2 0
2. Diberikan A seperti pada masalah 1, gunakan metode iterasi daya untuk menunjukkan 10 yang pertama
iterasi dari P .
3. Hitung kesalahan kuadrat pada setiap iterasi dalam masalah 2 di mana kuadrat
error didefinisikan sebagai jumlah dari kesalahan kuadrat pada setiap masuknya P .
4. Plot kurva pada kesalahan kuadrat yang berasal dari masalah 3 menggunakan nomor
iterasi sebagai sumbu X dan kesalahan kuadrat sebagai sumbu Y. Apakah kuadrat
kesalahan berkurang secara bertahap? Setelah berapa banyak iterasi lakukan pemeringkatan halaman
menstabilkan?
Halaman 133
Referensi 125
1 5
3 4
2 6
6. Untuk grafik G yang diberikan dalam masalah 5, berapakah P setelah tujuh iterasi berdasarkan
metode iterasi daya?
7. Pilih URL, dan buat grafik Web yang berisi halaman Web dalam tiga
melompat dari URL awal.
8. Untuk grafik yang berasal dari masalah 7, apa itu A ?
9. Untuk grafik yang berasal dari masalah 7, gunakan metode iterasi daya untuk memberikan
pertama tujuh iterasi dari P .
https://translate.googleusercontent.com/translate_f 120/188
6/24/2020 Sepuluh Algoritma Top dalam Penambangan Data
Referensi
[1] S. Brin, dan L. Page. Anatomi pencarian Web hiperteksual skala besar
mesin. Jaringan Komputer dan Sistem ISDN , 30, 1998.
[2] GH Golub, dan CF Van Loan. Komputasi Matriks . The Johns Hopkins
University Press, 1983.
[4] AN Langville, dan CD Meyer. Google PageRank dan Beyond: The Science
dari Peringkat Mesin Pencari. Princeton University Press, 2006.
[5] B. Liu Penambangan Data Web: Menjelajahi Hyperlink, Konten, dan Data Penggunaan.
Springer, 2007.
[6] X. Li, B. Liu, dan PS Yu. Pemeringkatan Waktu Sensitif dengan Aplikasi untuk Publi-
Pencarian kation. Konferensi tentang Penambangan Data 2008.
Halaman 135
134
Bab 7
AdaBoost
Isi
https://translate.googleusercontent.com/translate_f 121/188
6/24/2020 Sepuluh Algoritma Top dalam Penambangan Data
7.5.1 Masalah Teoritis ............................................. .. 138
7.5.2 Multiclass AdaBoost ............................................ 142
7.5.3 Topik Tingkat Lanjut Lainnya ......................................... 145
7.6 Implementasi Perangkat Lunak .................................................. 145
7.7 Latihan ................................................ .............. 146
Referensi ................................................. ................. 147
7.1 Pendahuluan
Kemampuan generalisasi, yang mencirikan seberapa baik hasil belajar dari yang diberikan
set data pelatihan dapat diterapkan untuk data baru yang tak terlihat, adalah konsep yang paling sentral di Indonesia
pembelajaran mesin. Para peneliti telah mencurahkan upaya luar biasa untuk mengejar teknologi.
Nili yang bisa mengarah pada sistem pembelajaran dengan kemampuan generalisasi yang kuat. Satu
dari paradigma yang paling sukses adalah ensemble learning [32]. Berbeda dengan biasa
pendekatan pembelajaran mesin yang mencoba untuk menghasilkan satu pelajar dari data pelatihan,
metode ensemble mencoba untuk membangun sebuah set dari peserta didik dasar dan menggabungkan mereka. Mendasarkan
peserta didik biasanya dihasilkan dari data pelatihan oleh algoritma pembelajaran dasar yang
bisa berupa pohon keputusan, jaringan saraf, atau jenis algoritma pembelajaran mesin lainnya.
Sama seperti "banyak tangan membuat pekerjaan ringan," kemampuan generalisasi sebuah ensemble
biasanya jauh lebih baik daripada pelajar tunggal. Sebenarnya, metode ensemble
ods menarik terutama karena mereka mampu meningkatkan pelajar yang lemah , yang
127
Halaman 136
128 AdaBoost
sedikit lebih baik daripada tebakan acak, untuk pembelajar yang kuat , yang dapat membuat sangat akurat
prediksi. Jadi, "pelajar dasar" juga disebut sebagai "pelajar yang lemah."
AdaBoost [9, 10] adalah salah satu metode ensemble yang paling berpengaruh. Butuh kelahiran
dari jawaban untuk pertanyaan menarik yang diajukan oleh Kearns dan Valiant pada tahun 1988. Itu
adalah, apakah dua kelas kompleksitas, lemah dipelajari dan sangat dipelajari masalah.Safe_mode
kelihatannya sama. Jika jawaban untuk pertanyaan itu positif, pelajar yang lemah akan berhasil
hanya sedikit lebih baik daripada tebakan acak yang dapat "ditingkatkan" menjadi akurat secara sewenang-wenang
pembelajar yang kuat. Jelas, pertanyaan seperti itu sangat penting untuk pembelajaran mesin.
Schapire [21] menemukan bahwa jawaban untuk pertanyaan adalah "ya," dan memberikan bukti oleh
konstruksi, yang merupakan algoritma penguat pertama . Kekurangan praktis yang penting
Algoritma ini adalah persyaratan bahwa batas kesalahan pangkalan peserta didik diketahui
sebelumnya, yang biasanya tidak diketahui dalam praktik. Freund dan Schapire [9] kemudian mendukung
mengajukan algoritma peningkatan adaptif, bernama AdaBoost, yang tidak memerlukan itu
informasi tidak tersedia. Jelas bahwa AdaBoost dilahirkan dengan signifikansi teoritis
icance, yang telah memunculkan banyak penelitian tentang aspek-aspek teoritis ansambel
metode dalam komunitas pembelajaran mesin dan statistik. Perlu disebutkan
bahwa untuk makalah AdaBoost mereka [9], Schapire dan Freund memenangkan Hadiah Godel, yaitu
salah satu penghargaan paling bergengsi dalam ilmu komputer teoretis, pada tahun 2003.
AdaBoost dan variannya telah diterapkan ke beragam domain dengan sukses besar,
karena landasan teoretis mereka yang kuat, prediksi yang akurat, dan kesederhanaan yang luar biasa
(Schapire mengatakan itu hanya perlu "hanya 10 baris kode"). Misalnya, Viola dan Jones [27]
menggabungkan AdaBoost dengan proses kaskade untuk deteksi wajah. Mereka menganggap rectan-
fitur gular sebagai peserta didik yang lemah, dan dengan menggunakan AdaBoost untuk memberatkan peserta didik yang lemah,
mereka mendapat fitur yang sangat intuitif untuk deteksi wajah. Untuk mendapatkan akurasi yang tinggi juga
sebagai efisiensi tinggi, mereka menggunakan proses kaskade (yang berada di luar lingkup bab ini)
ter). Akibatnya, mereka melaporkan detektor wajah yang sangat kuat: Pada mesin 466 MHz, wajah
deteksi pada gambar 384 × 288 biaya hanya 0,067 detik, yang 15 kali lebih cepat daripada
https://translate.googleusercontent.com/translate_f 122/188
6/24/2020 Sepuluh Algoritma Top dalam Penambangan Data
detektor wajah canggih pada waktu itu tetapi dengan akurasi yang sebanding. Wajah ini
detektor telah diakui sebagai salah satu terobosan paling menarik di komputer
visi (khususnya, deteksi wajah) selama dekade terakhir. Tidak aneh bahwa "meningkatkan
ing ”telah menjadi kata kunci dalam visi komputer dan banyak area aplikasi lainnya.
Di sisa bab ini, kami akan memperkenalkan algoritma dan implementasi, dan
berikan beberapa ilustrasi tentang bagaimana algoritma bekerja. Bagi pembaca yang ingin tahu
lebih lanjut, kami akan memperkenalkan beberapa hasil teoritis dan ekstensi sebagai topik lanjutan.
7.2 Algoritma
7.2.1 Notasi
Kami pertama-tama memperkenalkan beberapa notasi yang akan digunakan dalam sisa bab ini. Biarkan X
menunjukkan ruang instance, atau dengan kata lain, ruang fitur. Biarkan Y menunjukkan set
label yang mengekspresikan konsep dasar yang harus dipelajari. Sebagai contoh, kita
Halaman 137
misalkan Y = {−1 , +1} untuk klasifikasi biner. Sebuah pelatihan set D terdiri dari m contoh
label terkait yang diamati, yaitu, D = {( x i , y i )} ( i ∈ {1 , ..., m }), sementara
label turunan uji tidak diketahui dan karenanya dapat diprediksi. Kami menganggap keduanya
pelatihan dan contoh uji diambil secara independen dan identik dari yang mendasarinya
distribusi D .
Setelah pelatihan pada set data pelatihan D , algoritma pembelajaran L akan menghasilkan hipotesis-
esis h , yang merupakan pemetaan dari X ke Y , atau disebut sebagai classifier . Proses pembelajaran
dapat dianggap sebagai mengambil hipotesis terbaik dari ruang hipotesis, di mana
kata "terbaik" mengacu pada fungsi kerugian. Untuk klasifikasi, fungsi kerugian bisa secara alami
menjadi 0/1-kerugian,
loss 0 / 1 ( h | x ) = I [ h ( x ) = y ]
di mana I [·] adalah fungsi indikasi yang menghasilkan 1 jika ekspresi bagian dalam benar
dan 0 sebaliknya, yang berarti bahwa satu kesalahan dihitung jika sebuah instance salah
rahasia. Dalam bab ini 0/1-kerugian digunakan secara default, tetapi perlu dicatat bahwa yang lainnya
jenis fungsi kerugian juga dapat digunakan dalam meningkatkan.
https://translate.googleusercontent.com/translate_f 123/188
6/24/2020 Sepuluh Algoritma Top dalam Penambangan Data
apa yang kita inginkan, dan kita akan berusaha memperbaikinya. Ide alami adalah untuk memperbaiki kesalahan
dibuat oleh h 1 .
Kita dapat mencoba memperoleh distribusi D baru dari D , yang membuat kesalahan
h 1 lebih jelas, misalnya, lebih berfokus pada instance yang salah diklasifikasikan oleh
h 1 (kami akan menjelaskan cara menghasilkan D di bagian berikutnya). Kita bisa melatih penggolong
h 2 dari D . Sekali lagi, misalkan kita beruntung dan h 2 juga merupakan classifier lemah. Sejak
D berasal dari D , jika D memenuhi beberapa syarat, h 2 akan dapat dicapai
kinerja yang lebih baik daripada h 1 di beberapa tempat di D di mana h 1 tidak bekerja dengan baik,
tanpa scarifying tempat di mana h 1 berkinerja baik. Dengan demikian, dengan menggabungkan h 1 dan
h 2 dengan cara yang sesuai (kami akan menjelaskan cara menggabungkannya di bagian selanjutnya),
gabungan classifier akan mampu mencapai lebih sedikit kerugian daripada yang dicapai oleh h 1 . Oleh
Mengulangi proses di atas, kita dapat mengharapkan untuk mendapatkan classifier gabungan yang dimiliki
sangat kecil (idealnya, nol) 0/1-kerugian D .
Halaman 138
130 AdaBoost
Secara singkat, meningkatkan karya dengan melatih satu set pengklasifikasi secara berurutan dan menggabungkan
mereka untuk prediksi, di mana pengklasifikasi kemudian lebih fokus pada kesalahan
pengklasifikasi sebelumnya. Gambar 7.1 merangkum prosedur peningkatan umum.
7. D t +1 ( i ) = Zt
× {expexp((-αα) jika
) jikah h ( x( x ) ≠) =y y
t
t
t
t
i
i
i
i
https://translate.googleusercontent.com/translate_f 124/188
6/24/2020 Sepuluh Algoritma Top dalam Penambangan Data
D t ( i ) exp (- Zαt t y i h t ( x i )) % Perbarui distribusi, di mana
% Z t adalah faktor normalisasi yang
% memungkinkan D t +1 untuk didistribusikan
8. berakhir
T
Output: H ( x ) = tanda ( Σ t = 1 α t h t ( x ) )
Halaman 139
Dari pandangan ini, AdaBoost sebenarnya memecahkan dua masalah, yaitu, bagaimana menghasilkan
hipotesis h t 's dan bagaimana menentukan bobot yang tepat α t ' s.
Untuk memiliki proses pengurangan kesalahan yang sangat efisien, kami mencoba meminimalkan
kerugian eksponensial
- yh ( x ) ]
loss exp ( h ) = E x ∼ D, y [ e
- y ( H ( x ) + αh ( x )) | x]
loss exp ( H + αh | x ) = E y [ e
Karena y dan h ( x ) harus +1 atau −1, kita dapat memperluas ekspektasinya sebagai
)
- yH ( x ) ( -α α
loss exp ( H + αh | x ) = e e P(y=h(x)|x)+e P(y=h(x)|x)
Misalkan kita telah menghasilkan h , dan dengan demikian bobot α yang meminimalkan
kerugian dapat ditemukan ketika turunan dari kerugian sama dengan nol, yaitu,
∂loss exp ( H + αh | x ) -α α
)
=e - yH ( x ) ( -e P(y=h(x)|x)+e P(y=h(x)|x)
∂α
=0
https://translate.googleusercontent.com/translate_f 125/188
6/24/2020 Sepuluh Algoritma Top dalam Penambangan Data
yang merupakan cara menentukan α t di AdaBoost.
1 Di sini kami menjelaskan algoritma AdaBoost dari tampilan [11] karena lebih mudah dipahami daripada
penjelasan asli dalam [9].
Halaman 140
132 AdaBoost
Sekarang mari kita pertimbangkan bagaimana menghasilkan h . Diberikan algoritma pembelajaran dasar, AdaBoost
memintanya untuk menghasilkan hipotesis dari distribusi instance tertentu. Jadi, kami hanya
perlu mempertimbangkan hipotesis apa yang diinginkan untuk putaran berikutnya, dan kemudian menghasilkan
distribusi instance untuk mencapai hipotesis ini.
Kami dapat memperluas kerugian pointwise ke urutan kedua tentang h ( x ) = 0, saat memperbaiki
α = 1,
- YH ( x ) (1 - yh ( x ) + y 2 h ( x ) 2 / 2) | x ]
loss exp ( H + h | x ) ≈ E y [ e
=Ey[e - YH ( x ) (1 - yh ( x ) + 1 / 2) | x ]
karena y 2 = 1 dan h ( x ) 2 = 1.
Maka hipotesis yang sempurna adalah
∗
h ( x ) = arg min loss exp ( H + h | x ) = arg maks E y [ e- yH ( x ) yh ( x ) | x ]
h h
Perhatikan bahwa e - yH ( x ) adalah konstanta dalam hal h ( x ). Dengan menormalkan harapan sebagai
∗ e - H ( x ) P ( y = 1 | x ) · 1 · h ( x ) + e H ( x ) P ( y = −1 | x ) · (−1) · h ( x )
h ( x ) = arg maks
h e - H ( x ) P ( y = 1 | x ) + e H ( x ) P ( y = −1 | x )
kita dapat menulis ulang ekspektasi menggunakan istilah baru w ( x , y ), yang diambil dari
e - yH ( x ) P ( y | x ), sebagai
∗
h ( x ) = arg maks E w ( x , y ) ∼ e - yH ( x ) P ( y | x ) [ yh ( x ) | x ]
h
∗ ∗
Sejak h ( x ) harus +1 atau −1, solusi untuk optimasi adalah h ( x ) bertahan
tanda yang sama dengan y | x , yaitu
∗
h ( x ) = E w ( x , y ) ∼ e - yH ( x ) P ( y | x ) [ y | x ]
= P w ( x , y ) ∼ e - yH ( x ) P ( y | x ) ( y = 1 | x ) - P w ( x , y ) ∼ e - yH ( x ) P ( y | x ) ( y = −1 | x )
∗
Seperti yang bisa dilihat,cukup
h melakukan klasifikasi optimal x di bawah distribusi
bution e - yH ( x ) P ( y | x ). Karena itu, e - yH ( x ) P ( y | x ) adalah distribusi yang diinginkan untuk a
∗ - yh ( x ) | x]= 1 P(y=1|x)
h ( x ) = arg min E x ∼ D, y [ e dalam
h 2 P ( y = −1 | x )
https://translate.googleusercontent.com/translate_f 126/188
6/24/2020 Sepuluh Algoritma Top dalam Penambangan Data
Halaman 141
yang menyiratkan bahwa solusi optimal untuk kerugian eksponensial mencapai minimum
Kesalahan Bayesian untuk masalah klasifikasi. Apalagi kita bisa melihat fungsinya
∗
h yang meminimalkan kerugian eksponensial adalah model regresi logistik hingga suatu faktor
2. Jadi, dengan mengabaikan 1 Faktor / 2 AdaBoost juga dapat dilihat sebagai pas aditif
model regresi logistik.
Perlu dicatat bahwa distribusi data tidak dikenal dalam praktiknya, dan AdaBoost
Algoritma bekerja pada set pelatihan yang diberikan dengan contoh pelatihan yang terbatas. Karena itu semuanya
harapan dalam derivasi di atas diambil pada contoh pelatihan, dan
bobot juga dikenakan pada contoh pelatihan. Untuk algoritma pembelajaran dasar itu
tidak dapat menangani contoh pelatihan berbobot, mekanisme resampling, yang dijadikan sampel
contoh pelatihan sesuai dengan bobot yang diinginkan, dapat digunakan sebagai gantinya.
( x 4 = (−1 , 0) , y 4 = −1)
Ini adalah masalah XOR. Kedua kelas tidak dapat dipisahkan oleh classifier linier
yang sesuai dengan garis pada gambar.
Misalkan kita memiliki algoritma pembelajaran dasar yang mencoba untuk memilih yang terbaik dari
menurunkan delapan fungsi. Perhatikan bahwa tidak ada yang sempurna. Untuk fungsi yang sama baiknya,
algoritma pembelajaran dasar akan memilih satu fungsi dari mereka secara acak.
{ {
+1 , jika ( x 1 > −0 . 5) −1 , jika ( x 1 > −0 . 5)
h1(x)= −1 , h 2(x)=
+1 ,
jika tidak jika tidak
{ {
+1 , jika ( x 1 > +0 . 5) −1 , jika ( x 1 > +0 . 5)
h3(x)= −1 , h4(x)= +1 ,
jika tidak jika tidak
https://translate.googleusercontent.com/translate_f 127/188
6/24/2020 Sepuluh Algoritma Top dalam Penambangan Data
Halaman 142
134 AdaBoost
x2 x2 x2 x2
-1 -1 -1 -1
+1 +1 x1 +1 +1 x1 +1 +1 x1 +1 +1 x1
0,85 -0,25 1.35
-1,35 -2.45 -0,85
-1 -1 -1 -1
(a) Data XOR (b) Babak 1 (c) babak ke-2 (d) Babak ke-3
{ {
+1 , jika ( x 2 > −0 . 5) −1 , jika ( x 2 > −0 . 5)
h5(x)= −1 , h6(x)= +1 ,
jika tidak jika tidak
{ {
+1 , jika ( x 2 > +0 . 5) −1 , jika ( x 2 > +0 . 5)
h7(x)= −1 , h8(x)= +1 ,
jika tidak jika tidak
di mana x 1 dan x 2 adalah nilai-nilai x pada dimensi pertama dan kedua, masing-masing.
Sekarang kami melacak cara kerja AdaBoost:
1. Langkah pertama adalah memohon algoritma pembelajaran dasar pada data asli. h 2 ,
h 3 , h 5 , dan h 8 semuanya memiliki kesalahan klasifikasi 0,25. Misalkan h 2 dipilih sebagai yang pertama
pelajar dasar. Satu contoh, x 1 , adalah salah diklasifikasikan, sehingga kesalahan adalah 1 / 4 = 0 . 25.
Berat h 2 adalah 0 . 5 pada 3 ≈ 0 . 55. Gambar 7.3 (b) memvisualisasikan klasifikasi,
di mana area teduh diklasifikasikan sebagai negatif (−1) dan bobot
klasifikasi, 0,55 dan −0,55, ditampilkan.
2. Bobot x 1 meningkat dan algoritma pembelajaran dasar dipanggil lagi.
Kali ini h 3 , h 5 , dan h 8 memiliki kesalahan yang sama. Misalkan h 3 dipilih, dari yang
beratnya 0,80. Gambar 7.3 (c) menunjukkan klasifikasi gabungan dari h 2 dan
h 3 dengan bobotnya, di mana tingkat abu-abu yang berbeda digunakan untuk membedakan
area negatif menurut bobot klasifikasi.
3. Berat x 3 meningkat, dan kali ini hanya h 5 dan h 8 yang sama-sama memiliki
kesalahan terendah. Misalkan h 5 dipilih, yang beratnya 1,10. Gambar 7.3 (d)
menunjukkan klasifikasi gabungan dari h 2 , h 3 , dan h 8 . Jika kita melihat tanda
bobot klasifikasi di setiap area pada Gambar 7.3 (d), semua instance benar
rahasia. Dengan demikian, dengan menggabungkan pengklasifikasi linier tidak sempurna, AdaBoost memiliki
menghasilkan classifier nonlinear yang memiliki kesalahan nol.
https://translate.googleusercontent.com/translate_f 128/188
6/24/2020 Sepuluh Algoritma Top dalam Penambangan Data
Halaman 143
1,00 1,00
0,80 0,80
0,60 0,60
0,40 0,40
Keputusan tunggul
0,20 0,20
Pohon keputusan (dipangkas)
0,00 0,00
0,00 0,20 0,40 0,60 0,80 1,00 0,00 0,20 0,40 0,60 0,80 1,00
AdaBoost dengan tunggul keputusan AdaBoost dengan pohon keputusan (dipangkas)
1,00
0,80
0,60
0,40
0,20
Pohon keputusan (tidak ditandai)
0,00
0,00 0,20 0,40 0,60 0,80 1,00
AdaBoost dengan pohon keputusan (tidak ditandai)
50 pelajar dasar. Hampir semua jenis algoritma pembelajaran dapat dianggap sebagai pembelajaran dasar
algoritma, seperti pohon keputusan, jaringan saraf, dan sebagainya. Di sini, kami sudah mencoba
tiga algoritma pembelajaran dasar, termasuk tunggul keputusan, pemangkasan, dan tanpa J4.8
pohon keputusan (implementasi Weka C4.5).
Kami memplot hasil perbandingan pada Gambar 7.4, di mana setiap lingkaran mewakili satu set data
dan menempatkan menurut kesalahan prediktif dari dua algoritma yang dibandingkan. Di setiap
plot Gambar 7.4, garis diagonal menunjukkan di mana kedua algoritma tersebut dibandingkan
memiliki kesalahan yang identik. Dapat diamati bahwa AdaBoost sering mengungguli basisnya
algoritma pembelajaran, dengan beberapa pengecualian yang menurunkan kinerja.
Dekomposisi bias-varians yang terkenal [12] telah digunakan untuk secara empiris
mempelajari mengapa AdaBoost mencapai kinerja luar biasa [2, 3, 34]. Alat yang ampuh ini
memecah kesalahan yang diharapkan dari pendekatan pembelajaran menjadi jumlah dari tiga yang tidak negatif
kuantitas, yaitu, suara intrinsik, bias, dan varians. Langkah-langkah bias
seberapa dekat estimasi rata-rata pendekatan pembelajaran dapat mendekati
target, dan varians mengukur seberapa besar estimasi pendekatan pembelajaran
berfluktuasi untuk set pelatihan yang berbeda dengan ukuran yang sama. Telah diamati [2,3,34]
bahwa AdaBoost terutama mengurangi bias tetapi juga mampu mengurangi varians.
Halaman 144
https://translate.googleusercontent.com/translate_f 129/188
6/24/2020 Sepuluh Algoritma Top dalam Penambangan Data
136 AdaBoost
Gambar 7.5 Empat masker fitur untuk diterapkan pada setiap persegi panjang.
h i, p, θ ( x ) = I [ px i ≤ pθ ] ( p ∈ {+1 , −1})
∗, p∗, θ∗ E ( x , y ) I [ h i, p, θ ( x ) = y ]
( saya ) = arg min
i, p, θ
Wajah persegi panjang dianggap sebagai contoh positif, seperti yang ditunjukkan pada Gambar 7.6 , sementara
persegi panjang yang tidak mengandung wajah apa pun dianggap sebagai contoh negatif. Lalu, itu
Proses AdaBoost diterapkan dan akan mengembalikan beberapa peserta didik yang lemah, masing-masing sesuai
ke salah satu dari lebih dari 1 juta fitur. Sebenarnya, proses AdaBoost dapat dianggap
sebagai alat pemilihan fitur di sini.
Gambar 7.7 menunjukkan dua fitur pertama yang dipilih dan posisinya relatif terhadap a
wajah manusia. Jelas bahwa kedua fitur ini adalah intuitif, di mana fitur pertama
mengukur bagaimana intensitas area mata berbeda dari intensitas area bawah, sementara
Halaman 145
https://translate.googleusercontent.com/translate_f 130/188
6/24/2020 Sepuluh Algoritma Top dalam Penambangan Data
fitur kedua mengukur bagaimana intensitas kedua area mata berbeda dari
area antara dua mata.
Menggunakan fitur yang dipilih secara berurutan, pohon keputusan yang sangat tidak seimbang dibangun,
yang disebut kaskade pengklasifikasi, seperti diilustrasikan dalam Gambar 7.8.
Parameter θ diatur dalam kaskade sedemikian rupa sehingga, pada setiap simpul pohon, bercabang
menjadi "bukan wajah" berarti gambar itu benar-benar bukan wajah. Dengan kata lain, yang salah
tingkat negatif diminimalkan. Desain ini karena fakta bahwa gambar non-wajah lebih mudah
untuk dikenali, dan dimungkinkan untuk menggunakan beberapa fitur untuk menyaring banyak kandidat
persegi panjang gambar, yang memberikan efisiensi tinggi. Dilaporkan [27] bahwa 10
fitur per subimage diperiksa rata-rata. Beberapa hasil tes dari Viola-Jones
detektor wajah ditunjukkan pada Gambar 7.9.
Halaman 146
138 AdaBoost
https://translate.googleusercontent.com/translate_f 131/188
6/24/2020 Sepuluh Algoritma Top dalam Penambangan Data
bukan wajah
Halaman 147
https://translate.googleusercontent.com/translate_f 132/188
6/24/2020 Sepuluh Algoritma Top dalam Penambangan Data
Gambar 7.9 Output detektor wajah Viola-Jones pada sejumlah gambar uji [27].
dan masalah sulit dipelajari jika hal di atas berlaku untuk semua 0 <δ ≤ 0 . 5 tetapi hanya
ketika ϵ sedikit lebih kecil dari 0,5 (atau dengan kata lain, h hanya sedikit lebih baik dari
tebakan acak).
Pada tahun 1988, Kearns dan Valiant [15] mengajukan pertanyaan yang menarik, yaitu, apakah
kelas masalah yang sangat bisa dipelajari sama dengan kelas masalah yang bisa dipelajari. Ini
pertanyaan sangat penting mendasar, karena jika jawabannya adalah "ya," pelajar yang lemah
berpotensi dapat ditingkatkan menjadi pembelajar yang kuat. Pada 1989, Schapire [21] membuktikan hal itu
jawabannya benar-benar "ya," dan bukti yang dia berikan adalah konstruksi, yang merupakan yang pertama
Halaman 148
140 AdaBoost
meningkatkan algoritma. Satu tahun kemudian, Freund [7] mengembangkan algoritma yang lebih efisien.
Kedua algoritma, bagaimanapun, menderita dari kekurangan praktis yang terikat kesalahan
dari dasar peserta didik perlu diketahui sebelumnya, yang biasanya tidak diketahui di
praktek. Kemudian, pada tahun 1995, Freund dan Schapire [9] mengembangkan algoritma AdaBoost,
yang efektif dan efisien dalam praktiknya.
Freund dan Schapire [9] membuktikan bahwa, jika pelajar dasar dari AdaBoost memiliki kesalahan
ϵ 1 , ϵ 2 , ···, ϵ T , kesalahan dari pelajar gabungan akhir, ϵ , adalah batas atas sebagai
∏T √ ∑T
ϵ = E x ∼ D, y I [ H ( x ) = y ] ≤ 2 T ϵ t (1 - ϵ t ) ≤ e −2
t=1 γ2t
t=1
https://translate.googleusercontent.com/translate_f 133/188
6/24/2020 Sepuluh Algoritma Top dalam Penambangan Data
dibatasi sebagai ⌈ 1 1⌉
T≤
2γ2 ϵ
dalam
ϵ D = E x ∼ D, y I [ H ( x ) = y ]
lebih menarik.
Analisis awal [9] menunjukkan bahwa kesalahan generalisasi AdaBoost berada di atas
dibatasi sebagai (√ )
ϵD≤ϵD+˜O dT
m
Halaman 149
1.0
20
15
0,5
10
tingkat
5 kesalahan
rasio set tes
0
10 100 1000 -1 -0.5 0,5 1
t θ
Gambar 7.10 Pelatihan dan kesalahan pengujian (kiri) dan distribusi margin (kanan) dari AdaBoost
pada set data surat [22].
Razor, yaitu, tidak lebih dari yang perlu dilakukan, yang merupakan salah satu dasar
prinsip dalam pembelajaran mesin.
Banyak peneliti telah mempelajari fenomena ini, dan beberapa penjelasan teoritis
tions telah diberikan, misalnya, [11]. Schapire et al. [22] memperkenalkan margin -
https://translate.googleusercontent.com/translate_f 134/188
6/24/2020 Sepuluh Algoritma Top dalam Penambangan Data
penjelasan berdasarkan. Mereka berpendapat bahwa AdaBoost mampu meningkatkan margin bahkan
setelah kesalahan pelatihan mencapai nol, dan dengan demikian tidak cocok bahkan setelah besar
jumlah putaran.∑Margin
T klasifikasi h pada x didefinisikan sebagai yh ( x ), dan itu
dari H ( x ) =
t = 1 α t h t ( x ) didefinisikan sebagai
∑T
yH ( x ) = t∑
= 1 Tα t yh t ( x)
t=1αt
Gambar 7.10 (kanan) plot distribusi YH ( x ) ≤ θ untuk nilai yang berbeda dari θ . Itu
terbukti dalam [22] bahwa kesalahan generalisasi adalah batas atas sebagai
(√ )
ϵ D ≤ P x ∼ D, y ( yH ( x ) ≤ θ ) + ˜ O d 1
δ
mθ 2 + ln
(√ )
∏T √
≤2T ϵt 1− θ (1 - ϵ ) 1+ θ + ˜ O d 1
mθ 2 + ln δ
t=1
dengan probabilitas setidaknya 1 - δ . Ikatan ini secara kualitatif menjelaskan bahwa ketika lainnya
variabel dalam batas tetap, semakin besar margin, semakin kecil generalisasi
kesalahan.
Namun, penjelasan berbasis margin ini ditantang oleh Brieman [4]. Menggunakan
margin minimum ϱ ,
ϱ = mnt yH ( x )
x∈D
Breiman membuktikan kesalahan generalisasi terikat lebih ketat daripada yang menggunakan di atas
margin minimum. Termotivasi oleh ikatan yang lebih ketat, algoritma arc-gv, yang merupakan a
varian AdaBoost, diusulkan untuk memaksimalkan margin minimum secara langsung, oleh
Halaman 150
142 AdaBoost
memperbarui α t menurut
( ) ( )
1 1+γt 1 1+ϱt
αt= dalam - dalam
2 1-γt 2 1-ϱt
Menariknya, margin minimum arc-gv secara seragam lebih baik daripada AdaBoost,
tetapi kesalahan pengujian arc-gv meningkat secara drastis pada semua set data yang diuji [4]. Jadi, itu
teori margin untuk AdaBoost hampir dijatuhi hukuman mati.
Pada tahun 2006, Reyzin dan Schapire [20] melaporkan temuan yang menarik. Ini terkenal
bahwa batas kesalahan generalisasi dikaitkan dengan margin, jumlah
putaran, dan kompleksitas pembelajar dasar. Saat membandingkan arc-gv dengan AdaBoost,
Breiman [4] mencoba mengendalikan kerumitan pelajar dasar dengan menggunakan pohon keputusan
dengan jumlah daun yang sama, tetapi Reyzin dan Schapire menemukan bahwa ini adalah pohon
dengan bentuk yang sangat berbeda. Pohon-pohon yang dihasilkan oleh arc-gv cenderung memiliki kedalaman yang lebih besar,
sedangkan yang dihasilkan oleh AdaBoost cenderung memiliki lebar lebih besar. Gambar 7.11 (atas)
menunjukkan perbedaan kedalaman pohon yang dihasilkan oleh dua algoritma pada
kumpulan data kanker payudara dari UCI Machine Learning Repository. Meskipun pohon-pohon
memiliki jumlah daun yang sama, tampaknya pohon yang lebih dalam membuat lebih banyak atribut
menguji daripada pohon yang lebih luas, dan karena itu mereka tidak mungkin memiliki kompleksitas yang sama.
Jadi, Reyzin dan Schapire mengulangi eksperimen Breiman dengan menggunakan tunggul keputusan,
yang hanya memiliki satu daun dan karenanya dengan kompleksitas tetap, dan menemukan bahwa
distribusi margin AdaBoost sebenarnya lebih baik daripada arc-gv, seperti yang diilustrasikan dalam
Gambar 7.11 (bawah).
https://translate.googleusercontent.com/translate_f 135/188
6/24/2020 Sepuluh Algoritma Top dalam Penambangan Data
Baru-baru ini, Wang et al. [28] memperkenalkan margin kesetimbangan dan membuktikan ikatan baru
lebih ketat daripada yang diperoleh dengan menggunakan margin minimum, yang menunjukkan bahwa mini-
mum margin mungkin tidak penting untuk kesalahan generalisasi AdaBoost. Boleh jadi
menarik untuk mengembangkan algoritma yang memaksimalkan margin kesetimbangan secara langsung, dan
untuk melihat apakah kesalahan pengujian algoritma semacam itu lebih kecil dari pada AdaBoost,
yang tetap merupakan masalah terbuka.
Halaman 151
10
“AdaBoost_bc”
“Arc-gv_bc”
9.5
pth
e de
9
8.5
7.5
7
50 100 150 200 250 300 350 400 450 500
Bulat
(Sebuah)
1.2
“AdaBoost_bc”
“Arc-gv_bc”
y
0.8
quenc
0,6
latif fre
kamu
m
kamu
C
0,4
https://translate.googleusercontent.com/translate_f 136/188
6/24/2020 Sepuluh Algoritma Top dalam Penambangan Data
0,2
0
-0.1 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7
Batas
(b)
Gambar 7.11 Kedalaman pohon (atas) dan distribusi margin (bawah) dari AdaBoost terhadap
arc-gv pada set data kanker payudara [20].
Halaman 152
144 AdaBoost
Solusi populer untuk masalah klasifikasi multi-kelas adalah dengan menguraikan tugas menjadi
beberapa masalah klasifikasi biner. Dekomposisi langsung dan populer termasuk
satu lawan satu dan satu lawan satu . Satu-vs-istirahat menguraikan tugas multiklass | Y | kelas
menjadi | Y | tugas klasifikasi biner, di mana tugas ke- i adalah untuk mengklasifikasikan apakah suatu
Misalnya milik kelas ke- i atau tidak. One-vs-one menguraikan tugas multiclass
dari | Y | kelas menjadi | Y | (| Y2| −1) tugas klasifikasi biner, di mana setiap tugas diklasifikasi
apakah sebuah instance milik, katakanlah, kelas ke- i atau kelas ke- j .
AdaBoost.MH [23] mengikuti pendekatan one-vs-rest. Setelah pelatihan | Y
∑ |Tjumlah
(biner) Ada pengklasifikasi AdaBoost, output nilai riil H ( x ) =
t = 1 α t h t ( x ) masing-masing
AdaBoost digunakan sebagai pengganti klasifikasi yang jernih untuk menemukan kelas yang paling mungkin,
itu adalah,
di mana H y adalah classifier AdaBoost yang mengklasifikasikan kelas y dari yang lainnya.
AdaBoost.M2 [9] mengikuti pendekatan satu lawan satu, yang meminimalkan pseudo-
kerugian. Algoritma ini kemudian digeneralisasi sebagai AdaBoost.MR [23] yang meminimalkan a
kehilangan peringkat didorong oleh fakta bahwa kelas peringkat tertinggi lebih mungkin terjadi
kelas yang benar. Pengklasifikasi biner yang diperoleh dengan dekomposisi satu lawan satu juga bisa
diagregasi dengan memilih atau berpasangan berpasangan [13].
Kode koreksi kesalahan keluaran (ECOCs) [6] juga dapat digunakan untuk mendekomposisi a
masalah klasifikasi multi-kelas menjadi serangkaian masalah klasifikasi biner. Untuk
contoh, Gambar 7.12a menunjukkan kode output untuk empat kelas menggunakan lima pengklasifikasi. Setiap
classifier dilatih untuk membedakan kelas + 1 dan − 1 di kolom yang sesuai.
Sebagai contoh pengujian, dengan menggabungkan output klasifikasi oleh lima pengklasifikasi,
kode vektor prediksi diperoleh. Vektor ini akan dibandingkan dengan kode
vektor kelas (setiap baris pada Gambar 7.12 (a) menggunakan jarak Hamming, dan
kelas dengan jarak terdekat dianggap prediksi akhir. Menurut informasi
Teori mation, ketika pengklasifikasi biner independen, semakin besar minimum
Jarak Hamming dalam vektor kode, semakin kecil kerugian 0/1. Kemudian, menjadi satu
Kerangka diusulkan untuk pendekatan dekomposisi multiklass [1]. Gambar 7.12 (b)
menunjukkan kode output untuk dekomposisi satu-vs-istirahat dan Gambar 7.12 (c) menunjukkan
https://translate.googleusercontent.com/translate_f 137/188
6/24/2020 Sepuluh Algoritma Top dalam Penambangan Data
kode output untuk dekomposisi satu-vs-satu, di mana nol berarti bahwa pengklasifikasi
harus mengabaikan contoh kelas tersebut.
H 1H 2H 3H 4H 5 H 1H 2H 3H 4 H 1H 2H 3H 4H 5 H6
↓↓↓↓↓↓ ↓↓↓↓↓ ↓↓↓↓↓↓ ↓
y 1 = +1 −1 +1 −1 +1 y 1 = +1 −1 −1 −1 y 1 = +1 +1 +1 0 0 0
y 2 = +1 +1 −1 −1 −1 y 2 = −1 +1 −1 −1 y 2 = –1 0 0 +1 +1 0
y 3 = −1 −1 +1 −1 −1 y 3 = −1 −1 +1 −1 y 3 = 0 −1 0 −1 0 +1
y 4 = −1 +1 −1 +1 +1 y 4 = −1 −1 −1 +1 y 4 = 0 0 −1 0 −1 −1
(a) Kode asli (B) kode satu-vs-istirahat (c) Kode satu lawan satu
Halaman 153
https://translate.googleusercontent.com/translate_f 138/188
6/24/2020 Sepuluh Algoritma Top dalam Penambangan Data
M ATLAB dapat ditemukan di Spider. Implementasi 4 R dapat ditemukan
Implementasi
dalam R-Project. 5 implementasi C ++ dapat ditemukan di Sourceforge. 6 Ada juga
banyak implementasi lain yang dapat ditemukan di Internet.
3 http://www.cs.waikato.ac.nz/ml/weka/.
4 http://www.kyb.mpg.de/bs/people/spider/.
5 http://cran.r-project.org/web/packages/.
6 http://sourceforge.net/projects/multiboost.
Halaman 154
146 AdaBoost
7.7 Latihan
1. Apa ide dasar Meningkatkan?
2. Pada Gambar 7.2 , mengapa harus pecah ketika ϵ t ≥ 0 . 5?
3. Diberikan satu set pelatihan
⎧ ⎫
⎪⎪⎪⎪⎨
( x 1 = (+1 , 0) , y 1 = +1) ⎪⎪⎪⎪⎬
( x 2 = (0 , +1) , y 2 = +1)
( x 3 = (−1 , 0) , y 3 = +1)
⎪⎪⎪⎪⎩ ⎪⎪⎪⎪⎭
( x 4 = (0 , −1) , y 4 = +1)
( x 5 = (0 , 0) , y 5 = −1)
apakah ada classifier linier yang dapat mencapai nol kesalahan pelatihan? Kenapa / mengapa tidak?
4. Mengingat set pelatihan di atas, tunjukkan bahwa AdaBoost dapat mencapai nol kesalahan pelatihan
dengan menggunakan lima pengklasifikasi basis linier dari kumpulan berikut.
h 1 ( x ) = 2 I [ x 1 > 0 . 5] - 1 h 2 ( x ) = 2 I [ x 1 < 0 . 5] - 1
h 3 ( x ) = 2 I [ x 1 > −0 . 5] - 1 h 4 ( x ) = 2 I [ x 1 < −0 . 5] - 1
h 5 ( x ) = 2 I [ x 2 > 0 . 5] - 1 h 6 ( x ) = 2 I [ x 2 < 0 . 5] - 1
h 7 ( x ) = 2 I [ x 2 > −0 . 5] - 1 h 8 ( x ) = 2 I [ x 2 < −0 . 5] - 1
h 9 ( x ) = +1 h 10 ( x ) = −1
5. Dalam latihan di atas, akankah AdaBoost mencapai kesalahan pelatihan bukan nol untuk apa pun
T ≥ 5? T adalah jumlah pengklasifikasi dasar.
6. Penggolong tetangga terdekat mengklasifikasikan sebuah instance dengan menugaskannya dengan
label contoh pelatihan terdekatnya. Bisakah AdaBoost meningkatkan kinerja
penggolong seperti itu? Kenapa / mengapa tidak?
7. Plot fungsi-fungsi berikut dalam grafik dalam rentang z ∈ [−2 , 2], dan amati
perbedaan mereka.
{ {
0,z≥0 0, z≥1
l1(z)= l2(z)=
1,z<0 1 - z, z < 1
-z
l 3 ( z ) = ( z - 1) 2 l4(z)=e
Perhatikan bahwa, ketika z = yf ( x ), l 1 , l 2 , l 3 , dan l 4 adalah fungsi dari 0/1-loss, engsel loss
(Digunakan oleh mesin vektor dukungan), kerugian kuadrat (digunakan oleh regresi kuadrat terkecil),
dan kerugian eksponensial (fungsi kerugian yang digunakan oleh AdaBoost), masing-masing.
8. Tunjukkan bahwa fungsi l 2 , l 3 , dan l 4 dalam latihan di atas semuanya cembung
( l adalah cembung jika ∀ z 1 , z 2 : l ( z 1 + z 2 ) ≥ ( l ( z 1 ) + l ( z 2 ))). Mempertimbangkan biner
tugas klasifikasi z = yf ( x ) di mana y = {−1 , +1}, temukan fungsi itu
https://translate.googleusercontent.com/translate_f 139/188
6/24/2020 Sepuluh Algoritma Top dalam Penambangan Data
solusi optimal adalah solusi optimal Bayesian.
9. Bisakah AdaBoost diperluas untuk menyelesaikan masalah regresi? Jika jawaban Anda adalah ya,
bagaimana? Jika jawaban Anda tidak, mengapa?
Halaman 155
Referensi 147
10. Jalankan percobaan untuk membandingkan AdaBoost menggunakan reweighting dan AdaBoost menggunakan
resampling. Anda dapat menggunakan implementasi Weka dan kumpulan data dari Mesin UCI
Belajar Repositori.
Referensi
[1] EL Allwein, RE Schapire, dan Y. Singer. Mengurangi multiclass ke biner:
Pendekatan pemersatu untuk pengklasifikasi margin. Jurnal Pembelajaran Mesin Re-
cari , 1: 113–141, 2000.
[3] L. Breiman. Bias, varian, dan pengklasifikasi busur. Laporan Teknis 460, Statis-
Departemen tics, Universitas California, Berkeley, 1996.
[6] TG Dietterich dan G. Bakiri. Memecahkan masalah pembelajaran multikelas melalui kesalahan-
mengoreksi kode output. Jurnal Riset Kecerdasan Buatan , 2: 263–286,
1995
[7] Y. Freund. Meningkatkan algoritma pembelajaran yang lemah oleh mayoritas. Informasi dan
Computation , 121 (2): 256–285, 1995.
[8] Y. Freund, R. Iyer, RE Schapire, dan Y. Singer. Algoritma pendongkrak yang efisien
untuk menggabungkan preferensi. Jurnal Penelitian Pembelajaran Mesin , 4: 933–963,
2003
[10] Y. Freund dan RE Schapire. Pengantar singkat untuk meningkatkan. Jurnal dari
Masyarakat Jepang untuk Kecerdasan Buatan , 14 (5): 771-780, 1999.
https://translate.googleusercontent.com/translate_f 140/188
6/24/2020 Sepuluh Algoritma Top dalam Penambangan Data
Halaman 156
148 AdaBoost
[13] T. Hastie dan R. Tibshirani. Klasifikasi dengan kopling berpasangan. The Annals of
Statistics , 26 (2): 451-471, 1998.
[14] MV Joshi, RC Agarwal, dan V. Kumar. Memprediksi kelas langka: Dapat meningkatkan
ing membuat pembelajar yang lemah menjadi kuat? Dalam Prosiding ACM SIGKDD ke-8
Konferensi Internasional tentang Penemuan Pengetahuan dan Penambangan Data , halaman
297–306, Edmonton, Kanada, 2002.
[16] X.-Y. Liu, J.-X. Wu, dan Z.-H. Zhou. Under-sampling eksplorasi untuk kelas-
belajar ketidakseimbangan. Transaksi IEEE pada Sistem, Manusia dan Sibernetika—
Bagian B , 2009.
[20] L. Reyzin dan RE Schapire. Cara meningkatkan margin juga dapat meningkatkan klasifikasi
kompleksitas. Dalam Prosiding Konferensi Internasional ke-23 tentang Mesin
Belajar , halaman 753-760, Pittsburgh, PA, 2006.
[21] RE Schapire. Kekuatan kemampuan belajar yang lemah. Pembelajaran Mesin , 5 (2): 197–
227, 1990.
[23] RE Schapire dan Y. Singer. Peningkatan algoritma peningkatan menggunakan kepercayaan diri-
prediksi pengenal. Pembelajaran Mesin , 37 (3): 297–336, 1999.
[24] C. Tamon dan J. Xiang. Pada masalah pemangkasan meningkatkan. Dalam Prosiding
Konferensi Eropa ke-11 tentang Pembelajaran Mesin , halaman 404–412, Barcelona,
Spanyol, 2000.
[26] P. Viola dan M. Jones. Klasifikasi cepat dan kuat menggunakan AdaBoost asimetris
dan kaskade detektor. Dalam TG Dietterich, S. Becker, dan Z. Ghahramani,
editor, Kemajuan dalam Sistem Pemrosesan Informasi Saraf 14 , halaman 1311–
1318. MIT Press, Cambridge, MA, 2002.
https://translate.googleusercontent.com/translate_f 141/188
6/24/2020 Sepuluh Algoritma Top dalam Penambangan Data
Halaman 157
Referensi 149
[27] P. Viola dan M. Jones. Deteksi objek real-time yang kuat. Jurnal Internasional
Computer Vision , 57 (2): 137–154, 2004.
[29] GI Webb. MultiBoosting: Suatu teknik untuk menggabungkan boosting dan wagging.
Pembelajaran Mesin , 40 (2): 159–196, 2000.
[32] Z.-H. Zhou. Ensemble belajar. Dalam SZ Li, editor, Encyclopedia of Biometrics .
Springer, Berlin, 2008.
[33] Z.-H. Zhou, Y. Jiang, dan S.-F. Chen. Mengekstraksi aturan simbolik dari terlatih
ansambel jaringan saraf. AI Communications , 16 (1): 3-15, 2003.
[34] Z.-H. Zhou, J. Wu, dan W. Tang. Ensembling neural networks: Banyak yang bisa
lebih baik dari semua. Kecerdasan Buatan , 137 (1-2): 239-263, 2002.
https://translate.googleusercontent.com/translate_f 142/188
6/24/2020 Sepuluh Algoritma Top dalam Penambangan Data
Halaman 159
158
Bab 8
k NN: k- Tetangga Terdekat
Isi
8.1 Pendahuluan
Salah satu pengklasifikasi yang paling sederhana dan agak sepele adalah Rote classifier, yang menghafal
seluruh data pelatihan dan melakukan klasifikasi hanya jika atribut tes
objek persis cocok dengan atribut salah satu objek pelatihan. Masalah yang jelas
dengan pendekatan ini adalah bahwa banyak catatan uji tidak akan diklasifikasikan karena mereka melakukannya
tidak persis cocok dengan salah satu dari catatan pelatihan. Masalah lain muncul ketika dua atau lebih
catatan pelatihan memiliki atribut yang sama tetapi label kelas yang berbeda.
Pendekatan yang lebih canggih, klasifikasi k -nearest neighbor ( k NN) [10,11,21],
menemukan sekelompok objek k dalam set pelatihan yang paling dekat dengan objek tes, dan
mendasarkan penugasan label pada dominasi kelas tertentu dalam hal ini
lingkungan. Ini mengatasi masalah yang, dalam banyak set data, tidak mungkin satu itu
objek akan persis cocok dengan yang lain, serta fakta tentang informasi yang saling bertentangan
kelas suatu objek dapat disediakan oleh objek yang paling dekat dengannya. Ada beberapa
elemen kunci dari pendekatan ini: (i) himpunan objek berlabel yang akan digunakan untuk mengevaluasi
kelas objek uji, 1 (ii) metrik jarak atau kesamaan yang dapat digunakan untuk menghitung
151
Halaman 160
https://translate.googleusercontent.com/translate_f 143/188
6/24/2020 Sepuluh Algoritma Top dalam Penambangan Data
2 Kesalahan klasifikasi dari sebuah classifier adalah persentase instance yang secara tidak benar diklasifikasikan.
3 Kesalahan Bayes adalah kesalahan klasifikasi classifier Bayes, yaitu, classifier yang mengetahui yang mendasarinya
distribusi probabilitas data sehubungan dengan kelas, dan memberikan setiap titik data ke kelas dengan
kepadatan probabilitas tertinggi untuk titik itu. Untuk detail lebih lanjut, lihat [9].
4 Dengan kelas multimodal, objek label kelas tertentu terkonsentrasi di beberapa area berbeda
ruang data, bukan hanya satu. Dalam istilah statistik, fungsi kepadatan probabilitas untuk kelas tidak memiliki
satu "benjolan" seperti Gaussian, tetapi, memiliki sejumlah puncak.
Halaman 161
https://translate.googleusercontent.com/translate_f 144/188
6/24/2020 Sepuluh Algoritma Top dalam Penambangan Data
antara z dan semua objek pelatihan untuk menentukan daftar tetangga terdekatnya. Kalau begitu
menugaskan kelas ke z dengan mengambil kelas dari mayoritas objek tetangga. Dasi
rusak dengan cara yang tidak ditentukan, misalnya, secara acak atau dengan mengambil paling banyak
kelas sering di set pelatihan.
Kompleksitas penyimpanan algoritma adalah O ( n ), di mana n adalah jumlah pelatihan
benda. Kompleksitas waktu juga O ( n ), karena jarak perlu dihitung
antara target dan setiap objek pelatihan. Namun, tidak ada waktu untuk itu
konstruksi model klasifikasi, misalnya, pohon keputusan atau pemisahan
peringkat hyperplane. Dengan demikian, k NN berbeda dari kebanyakan teknik klasifikasi lainnya
yang memiliki tahap pembangunan model yang cukup mahal, tetapi sangat murah
Langkah-langkah klasifikasi O ( konstan ).
8.2.2 Masalah
Ada beberapa masalah utama yang mempengaruhi kinerja k NN. Salah satunya adalah pilihan
dari k . Ini diilustrasikan pada Gambar 8. 1, yang menunjukkan objek uji yang tidak berlabel, x , dan
melatih objek yang termasuk dalam kelas "+" atau "-". Jika k terlalu kecil, maka
hasilnya bisa peka terhadap titik kebisingan. Di sisi lain, jika k terlalu besar, maka
lingkungan mungkin termasuk terlalu banyak poin dari kelas lain. Perkiraan
nilai terbaik untuk k dapat diperoleh dengan validasi silang. Namun, penting untuk melakukannya
tunjukkan bahwa k = 1 mungkin dapat melakukan nilai-nilai lain dari k , terutama untuk yang kecil
set data, termasuk yang biasanya digunakan dalam penelitian atau untuk latihan kelas. Namun,
diberikan sampel yang cukup, nilai k yang lebih besar lebih tahan terhadap kebisingan.
Masalah lainnya adalah pendekatan untuk menggabungkan label kelas. Metode paling sederhana adalah
untuk mengambil suara mayoritas, tetapi ini bisa menjadi masalah jika tetangga terdekat sangat bervariasi
dalam jarak mereka dan tetangga dekat lebih andal menunjukkan kelas objek.
Pendekatan yang lebih canggih, yang biasanya jauh kurang sensitif terhadap pilihan
dari k , beri bobot suara setiap objek berdasarkan jaraknya. Berbagai pilihan dimungkinkan; untuk
Misalnya, faktor berat sering dianggap sebagai kebalikan dari jarak kuadrat:
w i = 1 / d ( y , z ) 2 . Ini sama dengan mengganti langkah terakhir dari Algoritma 8.1 dengan
Halaman 162
- - - - - - -
- - - -
- + +
+ -
- -
- - -
- - + - +
+ -
- - + -
++ - + - -
https://translate.googleusercontent.com/translate_f 145/188
6/24/2020 Sepuluh Algoritma Top dalam Penambangan Data
- + X
+ - - -X + - - + -X + +
- + + + + - +
+ -
- + -
- - -
- + - - + +
+ - - + -
+
+ - +
- - + - -
- - - -
- - - -
(a) Lingkungan sekitar juga (B) Lingkungan saja (c) Lingkungan sekitar juga
kecil. Baik. besar.
Gambar 8.1 k. Klasifikasi tetangga terdekat dengan kecil, sedang, dan besar k .
berikut:
∑
Jarak-Weighted Voting: c z = argmax w i × I ( v = class ( c y )) (8.1)
v∈L
y∈N
√
√
√ ∑n
√ |xk-yk|
d(x,y)= Jarak Manhattan (8.3)
k=1
Halaman 163
berat seseorang bervariasi dari 90 hingga 300 lb, dan penghasilan seseorang bervariasi
dari $ 10.000 hingga $ 1.000.000. Jika ukuran jarak digunakan tanpa penskalaan, pendapatan
atribut akan mendominasi perhitungan jarak, dan dengan demikian penugasan kelas
label.
8.3 Contoh
Pada bagian ini kami memberikan beberapa contoh penggunaan k NN. Untuk contoh-contoh ini,
kami akan menggunakan paket Weka yang dijelaskan di bagian sebelumnya. Secara khusus, kami menggunakan
Weka 3.5.6.
Untuk memulai, kami menerapkan k NN ke kumpulan data Iris yang tersedia dari UCI Machine
Learning Repository [2] dan juga tersedia sebagai file data sampel dengan Weka. Data ini
set terdiri dari 150 bunga yang terbagi rata di antara tiga spesies Iris: Setosa, Versicolor,
dan Virginica. Setiap bunga ditandai oleh empat pengukuran: panjang kelopak, kelopak
lebar, panjang sepal, dan lebar sepal.
Kumpulan data Iris diklasifikasikan menggunakan algoritma IB1, yang sesuai dengan
Algoritma IBk dengan k = 1. Dengan kata lain, algoritma ini melihat tetangga terdekat,
seperti yang dihitung menggunakan jarak Euclidean dari Persamaan 8.2. Hasilnya cukup bagus,
seperti yang dapat dilihat oleh pembaca dengan memeriksa matriks kebingungan 5 yang diberikan pada Tabel 8.1 .
Namun, penyelidikan lebih lanjut menunjukkan bahwa ini adalah kumpulan data yang cukup mudah untuk diklasifikasikan
karena spesies yang berbeda relatif terpisah dalam ruang data. Menggambarkan,
kami menunjukkan sebidang data sehubungan dengan panjang daun dan lebar daun pada Gambar 8.2 .
Ada beberapa pencampuran antara spesies Versicolor dan Virginica sehubungan dengan
5 Sebuah matriks kebingungan mentabulasikan bagaimana kelas aktual dari berbagai instance data (baris) dibandingkan dengan mereka
kelas prediksi (kolom).
Halaman 164
panjang dan lebar kelopaknya, tetapi selain itu spesiesnya terpisah dengan baik. Sejak
dua variabel lainnya, lebar sepal dan panjang sepal, tambahkan sedikit jika ada yang membedakan
informasi, kinerja dilihat dengan dasar k pendekatan NN adalah tentang yang terbaik kaleng yang
dicapai dengan k pendekatan NN atau, memang, pendekatan lain.
https://translate.googleusercontent.com/translate_f 147/188
6/24/2020 Sepuluh Algoritma Top dalam Penambangan Data
Contoh kedua menggunakan set data ionosfer dari UCI. Objek data dalam hal ini
kumpulan data adalah sinyal radar yang dikirim ke ionosfer dan nilai kelas menunjukkan apakah
atau tidak, sinyal mengembalikan informasi tentang struktur ionosfer. Ada 34
atribut yang menggambarkan sinyal dan atribut 1 kelas. Algoritma IB1 diterapkan pada
set data asli memberikan akurasi 86,3% dievaluasi melalui sepuluh kali lipat validasi silang,
sedangkan algoritma yang sama diterapkan pada sembilan atribut pertama memberikan akurasi 89,4%.
Dengan kata lain, menggunakan lebih sedikit atribut akan memberikan hasil yang lebih baik. Matriks kebingungan adalah
diberikan di bawah. Menggunakan validasi silang untuk memilih jumlah tetangga terdekat yang memberi
akurasi 90,8% dengan dua tetangga terdekat. Matriks kebingungan untuk kasus-kasus ini
diberikan di bawah dalam Tabel 8.2 , 8.3, dan 8.4, masing-masing. Menambahkan bobot untuk terdekat
tetangga sebenarnya menghasilkan penurunan akurasi yang sederhana. Peningkatan terbesar adalah
karena mengurangi jumlah atribut.
2.5
Setosa
Versicolor
Virginica
1
1.5
1 kelopak
Lebar
0,5
0
1 2 3 4 5 6 7
Panjang petal
Gambar 8.2 Plot data Iris menggunakan panjang dan lebar kelopak.
Halaman 165
Halaman 166
meningkatkan akurasi klasifikasi, proses yang dikenal sebagai "pengeditan" [25]. Ada juga
telah banyak bekerja pada aplikasi grafik kedekatan (terdekat
grafik tetangga, pohon rentang minimum, grafik lingkungan relatif, Delaunay
triangulasi, dan grafik Gabriel) ke masalah k NN. Koran terbaru oleh Toussaint
[22-24], yang menekankan sudut pandang grafik kedekatan, memberikan ikhtisar pekerjaan
mengatasi ketiga bidang ini dan menunjukkan beberapa masalah terbuka yang tersisa.
Sumber daya penting lainnya termasuk pengumpulan makalah oleh Dasarathy [7] dan
buku karya Devroye, Gyorfi, dan Lugosi [8]. Juga, pendekatan fuzzy ke k NN bisa
ditemukan dalam karya Bezdek [4]. Akhirnya, daftar pustaka yang luas tentang hal ini adalah
juga tersedia online sebagai bagian dari Annotated Computer Vision Bibliography [18].
https://translate.googleusercontent.com/translate_f 149/188
6/24/2020 Sepuluh Algoritma Top dalam Penambangan Data
8.5 Latihan
1. Unduh paket pembelajaran mesin Weka dari rumah proyek Weka-
halaman dan set data Iris dan ionosfer dari Pembelajaran Mesin UCI
Gudang. Ulangi analisis yang dilakukan dalam bab ini.
2. Buktikan bahwa kesalahan aturan tetangga terdekat dibatasi dua kali lipat
Kesalahan bayes berdasarkan asumsi masuk akal tertentu.
3. Buktikan bahwa kesalahan metode k NN umum mendekati secara asimptotik itu
dari kesalahan Bayes dan dapat digunakan untuk memperkirakannya.
4. Berbagai metode akses spasial atau multidimensi dapat digunakan untuk mempercepat
perhitungan tetangga terdekat. Untuk pohon kd, yang merupakan salah satu metode tersebut,
memperkirakan berapa penghematan yang akan terjadi. Komentar: Klasifikasi IBk Weka
Algoritme memungkinkan Anda menentukan metode untuk menemukan tetangga terdekat. Mencoba
ini pada salah satu set data UCI yang lebih besar, misalnya, memprediksi jenis kelamin pada
kumpulan data abalon.
5. Pertimbangkan kumpulan data satu dimensi yang ditunjukkan pada Tabel 8.5.
Halaman 167
Referensi 159
(a) Mengingat titik data yang tercantum dalam Tabel 8.5 , hitung kelas x = 5 . 5
menurut tetangga terdekatnya 1-, 3-, 6-, dan 9 (menggunakan suara terbanyak).
(B) Ulangi latihan sebelumnya, tetapi gunakan versi berbobot dari k NN yang diberikan
dalam Persamaan (8.1).
https://translate.googleusercontent.com/translate_f 150/188
6/24/2020 Sepuluh Algoritma Top dalam Penambangan Data
Referensi
[1] DW Aha, D. Kibler, dan MK Albert. Algoritma pembelajaran berbasis contoh.
Mach Belajar. , 6 (1): 37–66, Januari 1991.
[5] S. Cost dan S. Salzberg. Algoritma tetangga terdekat tertimbang untuk belajar
dengan fitur simbolis. Mach Belajar. , 10 (1): 57–78, 1993.
Halaman 168
[6] Cover dan P. Hart. Klasifikasi pola tetangga terdekat. Transaksi IEEE
tentang Teori Informasi , 13 (1): 21–27, Januari 1967.
[8] L. Devroye, L. Gyorfi, dan G. Lugosi. Teori Probabilitas dari Pengenalan Pola
nisi . Springer-Verlag, 1996.
[13] E.-H. Han, G. Karypis, dan V. Kumar. Kategorisasi teks menggunakan bobot yang disesuaikan
k-klasifikasi tetangga terdekat. Dalam PAKDD '01: Prosiding ke-5 Pasifik-
Konferensi Asia tentang Penemuan Pengetahuan dan Penambangan Data , halaman 53–65,
London, Inggris, 2001. Springer-Verlag.
[14] P. Hart. Aturan tetangga terdekat yang kental. IEEE Trans. Memberitahu. , 14 (5): 515–
516, Mei 1968.
https://translate.googleusercontent.com/translate_f 151/188
6/24/2020 Sepuluh Algoritma Top dalam Penambangan Data
[17] M. Kuramochi dan G. Karypis. Klasifikasi gen menggunakan profil ekspresi:
Studi kelayakan. Dalam BIBE '01: Prosiding IEEE Internasional ke-2
Simposium tentang Bioinformatika dan Bioteknologi , halaman 191, Washington, DC,
2001. Masyarakat Komputer IEEE.
[19] J. Rachlin, S. Kasif, S. Salzberg, dan DW Aha. Menuju pemahaman yang lebih baik
sistem penalaran berbasis memori. Dalam Konferensi Internasional tentang Mesin
Belajar , halaman 242–250, 1994.
Halaman 169
Referensi 161
[20] S. Salzberg. PEBLS: Sistem pembelajaran berbasis teladan paralel. http: // www.
cs.cmu.edu/afs/cs/project/ai-repository/ai/areas/learning/systems/pebls/0.html,
1994
[21] P.-N. Tan, M. Steinbach, dan V. Kumar. Pengantar Minining Data . Pearson
Addison-Wesley, 2006.
[22] GT Toussaint. Grafik kedekatan untuk aturan keputusan tetangga terdekat: Terbaru
kemajuan. Dalam Interface-2002, Simposium ke-34 tentang Komputasi dan Statistik ,
Montreal, Kanada, 17-20 April 2002.
[23] GT Toussaint. Buka masalah dalam metode geometris untuk pembelajaran berbasis contoh
ing. Dalam Geometri Diskrit dan Komputasi , volume 2866 Catatan Kuliah
dalam Ilmu Komputer , halaman 273–283, 6–9 Desember 2003.
[25] D. Wilson. Properti asimptotik dari aturan tetangga terdekat menggunakan data yang diedit.
IEEE Trans. Syst., Man, dan Sibernetika , 2: 408–421, 1972.
[26] IH Witten dan E. Frank. Penambangan Data: Alat Pembelajaran Mesin Praktis dan
Teknik, Edisi Kedua (Seri Morgan Kaufmann dalam Manajemen Data
Sistem) . Morgan Kaufmann, Juni 2005.
https://translate.googleusercontent.com/translate_f 152/188
6/24/2020 Sepuluh Algoritma Top dalam Penambangan Data
Halaman 171
170
Bab 9
Naıve Bayes
David J. Hand
Isi
9.1 Pendahuluan
Diberikan satu set objek, masing-masing milik kelas yang dikenal, dan masing-masing
memiliki vektor variabel yang diketahui, tujuan kami adalah membuat aturan yang memungkinkan kami
untuk menetapkan objek masa depan ke kelas, diberikan hanya vektor variabel yang menggambarkan
benda masa depan. Masalah semacam ini, disebut masalah klasifikasi terbimbing ,
ada di mana-mana, dan banyak metode untuk membangun aturan seperti itu telah dikembangkan.
Salah satu metode yang sangat penting adalah metode naif Bayes — juga disebut Bayes idiot,
Bayes sederhana , dan Bayes kemerdekaan . Metode ini penting karena beberapa alasan,
termasuk yang berikut ini. Sangat mudah dibangun, tidak perlu rumit
skema estimasi parameter berulang. Ini berarti dapat dengan mudah diterapkan ke besar
set data. Mudah ditafsirkan, sehingga pengguna yang tidak memiliki keterampilan dalam teknologi pengklasifikasi dapat
memahami mengapa membuat klasifikasi yang dibuatnya. Dan, yang terpenting, itu
sering kali dengan sangat baik: Ini mungkin bukan klasifikasi terbaik yang diberikan
aplikasi, tetapi biasanya dapat diandalkan untuk menjadi kuat dan melakukannya dengan cukup baik. Untuk
https://translate.googleusercontent.com/translate_f 153/188
6/24/2020 Sepuluh Algoritma Top dalam Penambangan Data
misalnya, dalam studi klasik awal yang membandingkan metode klasifikasi terawasi, Tit-
terington et al. (1981) menemukan bahwa model independensi menghasilkan keseluruhan terbaik
hasil, sementara Mani et al. (1997) menemukan bahwa model paling efektif dalam memprediksi
163
Halaman 172
kambuhnya kanker payudara. Banyak contoh lebih lanjut menunjukkan efektivitas yang mengejutkan
metode naïve Bayes tercantum dalam Hand and Yu (2001) dan lebih bersifat empiris
perbandingan, dengan hasil yang sama, diberikan dalam Domingos dan Pazzani (1997). Dari
Tentu saja, ada juga beberapa penelitian lain yang menunjukkan kinerja relatif lebih buruk
dari metode ini: Untuk penilaian komparatif dari studi tersebut, lihat Jamain dan
Hand (2008).
Untuk kenyamanan, sebagian besar bab ini akan menjelaskan kasus yang ada
hanya dua kelas. Faktanya, ini adalah kasus khusus yang paling penting karena banyak situasi
secara alami membentuk dua kelas (benar / salah, ya / tidak, baik / buruk, sekarang / tidak ada, dan sebagainya
di). Namun, kesederhanaan metode naif Bayes sedemikian rupa sehingga memungkinkan
generalisasi ke lebih dari dua kelas.
Memberi label pada kelas dengan i = 0 , 1, tujuan kami adalah menggunakan set awal objek yang
telah mengetahui keanggotaan kelas (dikenal sebagai set pelatihan) untuk menyusun skor semacam itu
bahwa skor yang lebih besar dikaitkan dengan objek kelas 1 (katakanlah) dan skor yang lebih kecil dengan
objek kelas 0. Objek baru kemudian diklasifikasikan dengan membandingkan skor mereka dengan a
"Ambang klasifikasi." Objek baru dengan skor lebih besar dari ambang akan
diklasifikasikan ke dalam kelas 1, dan objek baru dengan skor kurang dari ambang batas akan
diklasifikasikan ke dalam kelas 0.
Ada dua perspektif luas tentang klasifikasi terbimbing, yang disebut diagnostik
paradigma dan paradigma sampling . Paradigma diagnostik memfokuskan perhatian pada
perbedaan antara kelas-kelas — tentang diskriminasi antar kelas — sementara
paradigma pengambilan sampel memfokuskan perhatian pada distribusi individu kelas,
membandingkan ini untuk secara tidak langsung menghasilkan perbandingan antara kelas-kelas. Seperti yang kami tunjukkan
di bawah ini, metode Bayes naif dapat dilihat dari kedua perspektif.
f ( x ) = f ( x | 0) P (0) + f ( x | 1) P (1)
Jelas, estimasi P ( i | x ) itu sendiri akan membentuk skor yang cocok untuk digunakan dalam suatu kelas
aturan sifikasi. Kita perlu memilih beberapa probabilitas ambang yang sesuai untuk bertindak
sebagai ambang klasifikasi untuk menghasilkan klasifikasi. Sebagai contoh, sangat
mon menggunakan ambang 1/2, sehingga setiap objek baru ditugaskan ke kelas itu
diperkirakan sebagai yang paling mungkin berasal. Pendekatan yang lebih canggih dipertimbangkan
akun keparahan relatif dari berbagai jenis kesalahan klasifikasi ketika memilih
ambang batas.
https://translate.googleusercontent.com/translate_f 154/188
6/24/2020 Sepuluh Algoritma Top dalam Penambangan Data
Halaman 173
https://translate.googleusercontent.com/translate_f 155/188
6/24/2020 Sepuluh Algoritma Top dalam Penambangan Data
Halaman 174
mengatakan bahwa, ada alasan lain mengapa seseorang mungkin lebih suka menggunakan pendekatan histogram
berdasarkan pemaksaan semua variabel menjadi diskrit — yaitu menafsirkan hasil. Kita
bahas ini di bawah ini.
Asumsi independensi pada inti metode Bayes naif jelas a
yang kuat. Ini tidak mungkin benar untuk sebagian besar masalah nyata. (Seberapa sering diagonal
Matriks kovarian muncul dari data nyata dalam praktik?) A priori, maka, orang mungkin berharap
metode untuk melakukan yang buruk justru karena anggapan yang tidak masuk akal ini
pada intinya. Namun, faktanya adalah bahwa hal itu sering kali ternyata sangat baik secara praktis
aplikasi. Alasan untuk hasil berlawanan ini dibahas di bawah.
Sejauh ini kami telah mendekati metode Bayes naif dari paradigma sampling,
menggambarkannya berdasarkan estimasi distribusi bersyarat kelas terpisah
menggunakan asumsi penyederhanaan bahwa variabel di masing-masing distribusi ini
independen. Namun, keanggunan metode naif Bayes hanya benar-benar menjadi
jelas ketika kita perhatikan bahwa kita dapat memperoleh klasifikasi yang setara dengan di atas jika kita
menggunakan transformasi P ( i | x ) monotonik yang ketat , mentransformasikan klasifikasi
ambang dengan cara yang sama. Untuk melihat ini, perhatikan bahwa jika T adalah peningkatan monoton yang ketat
transformasi lalu
P ( i | x ) > P ( i | y ) ⇔ T ( P ( i | x )) > T ( P ( i | y ))
dan, khususnya, P ( i | x ) > t ⇔ T ( P ( i | x )) > T ( t ). Ini berarti bahwa jika t adalah klasifikasi
ambang kation dengan P ( i | x ) dibandingkan, kemudian membandingkan T ( P ( i | x )) dengan T ( t )
akan menghasilkan hasil klasifikasi yang sama. (Kami hanya akan menganggap peningkatan monoton
transformasi, meskipun ekstensi untuk transformasi penurunan monoton adalah
sepele.)
Salah satu transformasi monoton tersebut adalah rasio
P (1 | x ) / (1 - P (1 | x )) = P (1 | x ) / P (0 | x ) (9.1)
Menggunakan asumsi Bayes naif bahwa variabel dalam setiap kelas independen ∏ hlm
penyok, sehingga distribusi untuk kelas i memiliki bentuk f ( x | i ) = j = 1 f ( x j | i ), rasionya
P (1 | x ) / (1 - P (1 | x )) dapat ditulis ulang:
∏ hlm
∏hal
P (1 | x ) P (1) j = 1 f ( x j | 1) P (1) f ( x j | 1)
= ∏ hlm = (9.2)
1 - P (1 | x ) P (0) j = 1 f ( x j | 0) P (0) f ( x j | 0)
j=1
Jika kita mendefinisikan w j ( x j ) = ln ( f ( x j | 1) / f ( x j | 0)) dan k = ln { P (1) / ( P (0))} kita melihat bahwa
Persamaan (9.3) berbentuk jumlah sederhana
∑ hal
P (1 | x )
dalam =k+ wj(xj) (9,4)
1 - P (1 | x )
j=1
https://translate.googleusercontent.com/translate_f 156/188
6/24/2020 Sepuluh Algoritma Top dalam Penambangan Data
Halaman 175
Halaman 176
https://translate.googleusercontent.com/translate_f 157/188
6/24/2020 Sepuluh Algoritma Top dalam Penambangan Data
P (1 | x ) P (1) f ( x k | 1)
=
P (0 | x ) P (0) f ( x k | 0)
untuk setiap k ∈ {1 , ..., p }. Kita dapat melihat dari ini bahwa jika f ( x k | 1) / f ( x k | 0) lebih besar dari 1, maka
Kehadiran korelasi akan berarti bahwa penaksir Bayes naif cenderung melebih-lebihkan
P (1 | x ) / P (0 | x ), dan jika f ( x k | 1) / f ( x k | 0) kurang dari 1, kehadiran korelasi akan
berarti bahwa penaksir Bayes naif cenderung meremehkan P (1 | x ) / P (0 | x ). Ini
Fenomena segera menyarankan memodifikasi estimator Bayes naif dengan menaikkan
rasio f ( x k | 1) / f ( x k | 0) dengan daya kurang dari 1, untuk mengecilkan penaksir keseluruhan
menuju peluang sejati. Secara umum, ini menghasilkan estimator Bayes naif yang lebih baik
[ ]β
∏hal
P (1 | x ) f ( x | 1) P (1) P (1) f ( x j | 1)
= =
P (0 | x ) f ( x | 0) P (0) P (0) f ( x j | 0)
j=1
dengan β < 1. β biasanya dipilih dengan mencari lebih dari nilai yang mungkin dan memilih itu
yang memberikan hasil prediksi terbaik melalui metode seperti validasi silang.
Kita juga dapat melihat bahwa ini mengarah ke faktor penyusutan yang muncul sebagai koefisien
w j ( x j ) istilah dalam Persamaan (9.4).
Alasan kedua mengapa asumsi kemerdekaan tidak masuk akal
mungkin pada awalnya tampak adalah bahwa seringkali data mungkin telah menjalani pemilihan variabel awal
prosedur di mana variabel berkorelasi tinggi telah dihilangkan dengan alasan
bahwa mereka cenderung berkontribusi dalam cara yang mirip dengan pemisahan antar kelas.
Pikirkan metode pemilihan variabel dalam regresi linier, misalnya. Ini berarti
bahwa hubungan antara variabel yang tersisa mungkin diperkirakan
dengan kemerdekaan.
Alasan ketiga mengapa asumsi kemerdekaan mungkin tidak terlalu merugikan adalah karena itu
hanya keputusan yang penting. Sementara asumsi tersebut dapat menyebabkan estimasi yang buruk
probabilitas atau rasio P (1 | x ) / P (0 | x ), ini tidak selalu berarti
permukaan keputusan jauh dari (atau bahkan berbeda dari) permukaan keputusan yang sebenarnya.
Pertimbangkan, misalnya, situasi di mana kedua kelas memiliki multivarian normal
distribusi dengan matriks kovarians (nondiagonal) yang sama, dan dengan vektor
perbedaan antara cara berbaring sejajar dengan poros utama kovarians
matriks. Permukaan keputusan optimal adalah linear dan sama dengan kovarians sejati
matriks dan di bawah asumsi kemerdekaan.
Akhirnya, tentu saja, permukaan keputusan yang dihasilkan oleh model Bayes naif dapat di
Bahkan memiliki bentuk nonlinear rumit: Permukaan linear di w j ( x j ) tapi sangat
nonlinier dalam variabel asli x j , sehingga dapat cocok dengan permukaan yang cukup rumit.
Halaman 177
https://translate.googleusercontent.com/translate_f 158/188
6/24/2020 Sepuluh Algoritma Top dalam Penambangan Data
f ( x | i ) = f ( x 1 | i ) f ( x 2 | x 1 , i ) f ( x 3 | x 2 , i ) , ..., f ( x p | x p −1 , i ) (9,6)
Ini setara dengan menggunakan subset dari distribusi marginal dua arah, bukan
hanya distribusi marginal univariat dalam model Bayes naif.
Namun ekstensi lain menggabungkan model Bayes naif dengan metode pohon (misalnya, Langley,
1993), misalnya memecah populasi keseluruhan menjadi himpunan bagian atas dasar
nilai objek mengambil beberapa variabel dan kemudian pas model Bayes naif
Halaman 178
untuk setiap subset. Model seperti itu populer di beberapa aplikasi, di mana mereka dikenal
sebagai kartu skor tersegmentasi . Segmentasi adalah cara untuk memungkinkan interaksi yang mana
akan menyebabkan kesulitan jika model independensi keseluruhan tunggal dipasang.
Cara lain untuk menanamkan model Bayes naif dalam pendekatan tingkat yang lebih tinggi adalah dengan
https://translate.googleusercontent.com/translate_f 159/188
6/24/2020 Sepuluh Algoritma Top dalam Penambangan Data
sarana berbagai sistem klasifikasi, misalnya, di hutan acak atau melalui peningkatan.
Ada hubungan yang sangat dekat antara model Bayes naif dan lainnya
model yang sangat penting untuk klasifikasi terbimbing: model regresi logistik.
Ini awalnya dikembangkan dalam komunitas statistik, dan sangat luas
digunakan dalam kedokteran, perbankan, pemasaran, dan bidang lainnya. Itu lebih kuat dari pada
model Bayes naif, tetapi kekuatan ekstra ini datang pada biaya tentu membutuhkan a
skema estimasi yang lebih rumit. Secara khusus, seperti yang akan kita lihat, meskipun memiliki
bentuk dasar yang sama menarik hanya sebagai model Bayes naif, parameter (misalnya,
(Kj)
yang w j ( xj )) tidak dapat diperkirakan hanya dengan menentukan proporsi, tetapi membutuhkan
algoritma berulang.
Dalam memeriksa model naif Bayes di atas, kami memperoleh dekomposisi
Persamaan (9.2) dengan mengadopsi asumsi independensi. Namun, persis sama
∏ hlm
struktur untuk
∏ hlm hasil rasio jika kita memodelkan f ( x | 1) dengan g ( x ) j = 1 h 1 ( x j ) dan f ( x | 0) oleh
g(x) j=1 h 0 ( x j ), di mana fungsi g ( x ) adalah sama di setiap model. Jika g ( x ) melakukannya
tidak pd menjadi produk komponen, satu untuk masing-masing baku x j , kita tidak
dengan asumsi independensi x j . Struktur ketergantungan yang tersirat dalam g ( x ) dapat
serumit yang kita mau — satu-satunya batasan adalah sama saja dalam keduanya
kelas; yaitu, bahwa g ( x ) adalah umum dalam faktorisasi f ( x | 1) dan f ( x | 0). Dengan
faktorisasi ini dari f ( x | i ), kita dapatkan
∏ hlm ∏ hlm
P (1 | x ) P (1) g ( x ) j=1 h1(xj) P (1) j=1 h1(xj)
= ∏ hlm = . ∏ hlm (9.7)
1 - P (1 | x ) P (0) g ( x ) j=1 h0(xj) P (0) j=1 h0(xj)
Karena ketentuan g ( x ) dibatalkan, kita dibiarkan dengan struktur yang identik dengan Persamaan (9.2),
meskipun h i ( x j ) tidak sama dengan f ( x j | i ) (kecuali g ( x ) ≡ 1). Perhatikan bahwa dalam hal ini
faktorisasi bahkan tidak perlu bahwa h i ( x j ) menjadi fungsi kepadatan
∏ hlm probabilitas.
Yang dibutuhkan hanyalah keseluruhan produk g ( x ) j = 1 h i ( x j ) adalah kepadatan.
Model dalam Persamaan (9.7) sesederhana model naif Bayes, dan perlu
bentuk yang persis sama. Secara khusus, dengan mengambil log kita berakhir dengan skor poin
model seperti dalam Persamaan (9.4). Tetapi model dalam Persamaan (9,7) lebih fleksibel daripada
model Bayes naif karena tidak menganggap kemerdekaan x j di setiap
kelas. Tentu saja, fleksibilitas ekstra yang cukup besar dari model regresi logistik ini
tidak diperoleh tanpa biaya. Meskipun bentuk model yang dihasilkan identik dengan
Bentuk model naif Bayes (dengan nilai parameter yang berbeda, tentu saja), tidak mungkin
Diperkirakan dengan melihat marginal univariat secara terpisah: Prosedur berulang
harus digunakan. Teks statistik standar (misalnya, Collett, 1991) memberikan algoritma untuk estimasi
mengawinkan parameter model regresi logistik. Seringkali proporsional berulang
metode weighted least square digunakan untuk menemukan parameter yang memaksimalkan
kemungkinan.
Versi model naif Bayes berdasarkan pada transformasi diskritisasi
mentah x j dapat digeneralisasi untuk menghasilkan ekstensi lainnya. Secara khusus, lebih umum
Halaman 179
kelas model aditif umum (Hastie dan Tibshirani, 1990) mengambil persis
bentuk kombinasi aditif transformasi x j .
Model naif Bayes sangat menarik karena kesederhanaannya, ele
gance, kekokohan, serta kecepatan model seperti itu dapat dibangun,
dan kecepatan penerapannya untuk menghasilkan klasifikasi. Itu adalah salah satu
algoritma klasifikasi formal tertua, namun bahkan dalam bentuknya yang paling sederhana seringkali
sangat efektif. Sejumlah besar modifikasi telah diperkenalkan, oleh
komunitas statistik, penambangan data, pembelajaran mesin, dan pengenalan pola, di
upaya untuk membuatnya lebih fleksibel, tetapi kita harus mengenali modifikasi tersebut
https://translate.googleusercontent.com/translate_f 160/188
6/24/2020 Sepuluh Algoritma Top dalam Penambangan Data
tentu merupakan komplikasi, yang mengurangi kesederhanaan dasarnya.
9.6 Contoh
9.6.1 Contoh 1
Untuk mengilustrasikan prinsip-prinsip metode Bayes naif, pertimbangkan set data buatan
ditunjukkan pada Tabel 9.1. Tujuannya adalah untuk menggunakan data ini sebagai set pelatihan untuk membangun aturan
yang akan memungkinkan prediksi variabel D untuk pelanggan masa depan, di mana D adalah default
pinjaman bank (kolom terakhir, berlabel 1 untuk default dan 0 untuk tidak rusak). Variabelnya
yang akan digunakan untuk prediksi adalah kolom 1 hingga 3: waktu dengan majikan saat ini,
T , dalam tahun; ukuran pinjaman yang diminta, S , dalam dolar; dan H , apakah pemohon adalah a
pemilik rumah (1), penyewa sewa (2), atau "lainnya" (3). Faktanya, metode naif Bayes adalah a
pendekatan umum untuk masalah gagal bayar kredit semacam ini, meskipun biasanya demikian
aplikasi set pelatihan akan berisi ratusan ribu akun dan akan
gunakan lebih banyak variabel, dan metode Bayes naif akan digunakan sebagai daun dalam a
scorecard tersegmentasi dari jenis yang dijelaskan di atas.
Halaman 180
5 10.000 1 0
20 10.000 1 0
1 25.000 1 0
1 15.000 3 0
15 2.000 2 0
6 12.000 1 0
1 5.000 2 1
12 8.000 2 1
3 10.000 1 1
1 5.000 3 1
https://translate.googleusercontent.com/translate_f 161/188
6/24/2020 Sepuluh Algoritma Top dalam Penambangan Data
Waktu dengan majikan adalah variabel kontinu. Untuk masing-masing dari dua kelas secara terpisah,
kita dapat memperkirakan distribusi f ( T | i ), i = 0 , 1 menggunakan metode kernel atau beberapa
diasumsikan bentuk parametrik (lognormal mungkin akan menjadi pilihan yang masuk akal untuk a
variabel), atau kita bisa menggunakan pendekatan Bayes naif di mana variabel dibagi menjadi
sel, memperkirakan probabilitas jatuh di setiap sel dengan proporsi kasus dari
kelas i yang termasuk dalam sel itu. Kami akan mengambil pendekatan ketiga ini dan, untuk menjaga semuanya tetap
sesederhana mungkin, akan memecah T menjadi hanya dua sel, apakah pelanggan memiliki atau tidak
telah bersama majikan selama 10 tahun atau lebih. Ini menghasilkan estimasi probabilitas
F ( T < 10 | D = 0) = 4 / 6 , F ( T ≥ 10 | D = 0) = 2 / 6
F ( T < 10 | D = 1) = 3 / 4 , F ( T ≥ 10 | D = 1) = 1 / 4
Demikian pula, kita akan melakukan hal yang sama dengan ukuran pinjaman, membaginya menjadi adil
dua sel (murni untuk kenyamanan penjelasan) sesuai dengan interval ≤ 10.000
dan > 10.000. Ini menghasilkan estimasi probabilitas
Untuk kelas bukan penumpang, kolom pemilik rumah menghasilkan tiga perkiraan
bilities:
F ( H = 1 | D = 0) = 4 / 6 , F ( H = 2 | D = 0) = 1 / 6 , F ( H = 3 | D = 0) = 1 / 6
F ( H = 1 | D = 1) = 1 / 4 , F ( H = 2 | D = 1) = 2 / 4 , F ( H = 3 | D = 1) = 1 / 4
Misalkan sekarang formulir aplikasi baru diterima, dari pelamar yang memiliki
telah dengan dia (frasa ini dipilih dengan sengaja: Adalah ilegal untuk menggunakan seks sebagai
seorang peramal untuk membuat keputusan pinjaman seperti ini.) pemberi kerja selama kurang dari 10 tahun
Halaman 181
( T < 10), sedang mencari pinjaman sebesar $ 10.000 ( S ≤ 10.000), dan merupakan pemilik rumah ( H = 1).
Ini mengarah ke perkiraan nilai rasio P (1 | x ) / P (0 | x ) dari
∏hal F ( x j | 1) F ( T | 1) f ( S | 1) f ( H | 1)
P (1 | x ) P (1) P (1)
= = ×
P (0 | x ) P (0) F ( x j | 0) P (0) F ( T | 0) f ( S | 0) f ( H | 0)
j=1
4 / 10 3/4×3/4×1/4
= × = 0 . 422
6 / 10 4/6×4/6×3/6×4/6
9.6.2 Contoh 2
Domain aplikasi yang penting dan relatif baru untuk metode Bayes naif adalah
penyaringan spam. Spam adalah tanpa diminta dan biasanya email yang tidak diinginkan, seringkali langsung
https://translate.googleusercontent.com/translate_f 162/188
6/24/2020 Sepuluh Algoritma Top dalam Penambangan Data
semacam pemasaran dan sering menawarkan keuangan yang meragukan atau peluang lainnya.
peluang. Beberapa dari mereka disebut latihan phishing . Prinsip di belakang mereka
adalah bahwa bahkan tingkat respons yang rendah akan menguntungkan jika (a) biaya pengiriman email adalah
dapat diabaikan dan (b) cukup dikirim. Karena mereka dikirim secara otomatis ke jutaan
alamat email, seseorang dapat menerima ratusan ini setiap hari. Dengan nomor ini
ber, bahkan untuk memindahkan kursor dan secara fisik menekan tombol delete akan mengkonsumsi
jumlah waktu yang signifikan. Untuk alasan ini para peneliti telah mengembangkan klasifikasi
aturan yang disebut filter spam , yang memeriksa email yang masuk, dan menetapkannya untuk spam
atau bukan-spam kelas. Mereka yang ditugaskan ke kelas spam dapat dihapus secara otomatis,
atau dikirim ke file memegang untuk pemeriksaan nanti, atau diperlakukan dengan cara lain yang dianggap
sesuai.
Model Naıve Bayes sangat populer untuk digunakan sebagai filter spam, kembali ke Internet
pekerjaan mani awal oleh Sahami et al. (1998). Dalam bentuk paling sederhana, variabel dalam
model adalah variabel biner yang sesuai dengan ada atau tidaknya, dalam email,
dari setiap kata. Namun, model Bayes naif juga memungkinkan penambahan siap pakai lainnya
variabel biner yang sesuai dengan ada atau tidak adanya fitur sintaksis lainnya
seperti tanda baca, satuan mata uang ($, £, €, dan sebagainya), kombinasi kata,
apakah sumber email itu seorang individu atau daftar, dan sebagainya. Selain itu, lainnya
variabel non-biner berguna sebagai prediktor lebih lanjut, misalnya, tipe domain
dari sumber, persentase karakter nonalphanumeric dalam judul subjek,
dan seterusnya. Dari penjelasan di atas akan jelas bahwa jumlah variabel potensial adalah
sangat besar. Karena itu, langkah pemilihan fitur biasanya dilakukan (recall
pembahasan mengapa model naif Bayes dapat dilakukan dengan baik, meskipun mendasarinya
asumsi independensi).
Salah satu aspek penting dari penyaringan spam adalah ketidakseimbangan dalam keparahan
biaya kesalahan klasifikasi. Kesalahan klasifikasi pada email yang sah karena spam jauh lebih berbahaya
rious daripada sebaliknya. Baik ini maupun ukuran relatif dari kedua kelas memainkan peran dalam
Halaman 182
https://translate.googleusercontent.com/translate_f 163/188
6/24/2020 Sepuluh Algoritma Top dalam Penambangan Data
kategorikal, maka setiap sel perlu mengandung poin data yang cukup untuk menghasilkan yang akurat
perkiraan. Dengan pemikiran ini, para peneliti telah mengeksplorasi partisi optimal masing-masing
variabel. Pendekatannya, sebagian besar selaras dengan estimator Bayes naif langsung,
adalah untuk memeriksa setiap variabel secara terpisah — mungkin membelah menjadi kuantil yang sama (ini
umumnya lebih unggul daripada pemisahan menjadi sel-sel dengan panjang yang sama). Pendekatan yang lebih canggih
akan memilih sel berdasarkan nomor relatif dari setiap kelas di setiap sel. Ini
dapat juga dilakukan dengan mempertimbangkan masing-masing variabel secara terpisah. Akhirnya, seseorang dapat mempartisi
setiap sel dengan mempertimbangkan kesesuaian keseluruhan dengan distribusi di setiap (atau keduanya) kelas,
tetapi ini menjauh dari pendekatan marginal sederhana. Investigasi beberapa
masalah-masalah ini dijelaskan dalam Hand dan Adams (2000).
Data yang hilang adalah masalah potensial dalam semua analisis data. Metode klasifikasi
yang tidak dapat menangani data yang tidak lengkap berada pada posisi yang kurang menguntungkan. Saat data hilang
sepenuhnya secara acak, maka model naif Bayes berupaya tanpa kesulitan:
Estimasi yang valid diperoleh dengan hanya memperkirakan distribusi marginal dari
data yang diamati. Namun, jika data hilang secara informatif, maka lebih rumit
prosedur diperlukan. Ini adalah area yang membutuhkan penelitian lebih lanjut.
Semakin banyak masalah melibatkan data dinamis, dan set data yang berurutan
bertambah. Metode Bayes naif dapat diadaptasi dengan sangat mudah untuk masalah seperti itu, oleh
berdasarkan estimasi langsungnya.
Masalah yang disebut "kecil n , besar p " telah menjadi penting di area tertentu, seperti itu
sebagai bioinformatika, genomik, dan proteomik, terutama dalam analisis microarray
data. Ini adalah masalah yang ditandai oleh fakta bahwa jumlah variabel
Halaman 183
jauh lebih besar dari ukuran sampel. Masalah seperti itu menimbulkan kesulitan; misalnya,
matriks kovarians akan tunggal, mengarah ke overfitting. Untuk mengatasi masalah seperti itu,
perlu untuk membuat beberapa jenis asumsi atau (ekuivalen) untuk menyusutkan
penaksir dalam beberapa cara. Salah satu pendekatan untuk masalah tersebut dalam konteks diawasi
Klasifikasi adalah dengan menggunakan metode naif Bayes. Ini memiliki asumsi bawaan
independensi, yang bertindak untuk melindungi dari overfitting. Versi yang lebih rumit dari
ide ini menggabungkan model Bayes naif dengan pengklasifikasi yang lebih canggih, mencoba
mencapai keseimbangan terbaik.
9.8 Latihan
1. Menggunakan paket seperti paket open-source R, buat sampel ukuran
100 dari masing-masing dua kelas. Kelas 1 adalah bivariat normal, dengan nol berarti
dan matriks kovarian identitas. Kelas 2 adalah normal bivariat, dengan vektor rata-rata
(0, 2) dan matriks kovarians diagonal dengan leading diagonal (1, 2). Paskan naif
Bayes memodelkan data ini, berdasarkan asumsi (benar) bahwa marginal
distribusi normal. Plot permukaan keputusan untuk melihat bahwa itu tidak linier.
2. Tabel di bawah ini menunjukkan distribusi bivariat dari sampel untuk dua kelas,
dimana variabel masing-masing memiliki tiga kategori. Tunjukkan bahwa kedua variabel tersebut adalah
independen di masing-masing dari dua kelas. Mengambil ambang klasifikasi sebagai
1/2, hitung permukaan keputusan untuk classifier Bayes naif dan perlihatkan itu
adalah nonlinier.
https://translate.googleusercontent.com/translate_f 164/188
6/24/2020 Sepuluh Algoritma Top dalam Penambangan Data
144 144 144
144 144 144
9 90 9
90 900 90
9 90 9
Halaman 184
27 30 27
30 2700 30
27 30 27
432 48 432
48 432 48
432 48 432
5. Menggunakan data yang disimulasikan dari distribusi normal multivariat, bandingkan hubungan
kinerja asli dari classifier Bayes naif dan diskriminan linier sederhana
aturan klasifikasi sebagai korelasi (diasumsikan umum) antara variabel
meningkat.
6. Menggunakan set data yang sesuai dari Repositori Pembelajaran Mesin UCI, dengan
variabel kontinu yang dipartisi menjadi sel diskrit, selidiki
efek mengubah jumlah dan lebar sel di setiap variabel.
7. Menggunakan set data yang sama seperti pada Latihan 6, bandingkan model yang diproduksi oleh
klasifikasi naif Bayes dan regresi logistik.
8. Cara umum untuk memperpanjang classifier naif Bayes di beberapa aplikasi adalah
untuk mempartisi data menjadi segmen-segmen, dengan konverter pengklasifikasi naif Bayes terpisah
terstruktur untuk setiap segmen. Jelas partisi seperti itu akan paling efektif jika
pemisahannya memungkinkan interaksi yang tidak akan dipilih oleh classifier Bayes naif
naik. Kembangkan pedoman untuk membantu orang dalam membuat perpecahan seperti itu.
9. Ide pemodelan distribusi masing-masing kelas dengan mengasumsikan independensi
langsung meluas ke lebih dari dua kelas. Selama lebih dari dua kelas tulis
bawah model klasifikasi yang sesuai dalam bobot format bukti.
10. Salah satu daya tarik utama dari pengklasifikasi naïve Bayes adalah izinnya
estimasi yang sangat sederhana. Kembangkan aturan pembaruan yang memungkinkan pengklasifikasi
https://translate.googleusercontent.com/translate_f 165/188
6/24/2020 Sepuluh Algoritma Top dalam Penambangan Data
diperbarui secara berurutan saat data baru tiba.
Referensi
Collett D. (1991) Pemodelan Data Biner . London: Chapman and Hall.
Halaman 185
Referensi 177
Hand DJ dan Yu K. (2001) Idiot's Bayes — sama sekali tidak sebodoh itu? Internasional
Tinjauan Statistik , 69 , 385–398.
Jamain A. dan Hand DJ (2005) Misteri naif Bayes: Seorang detektif statistik
cerita. Pattern Recognition Letters , 26 , 1752–1760.
Mani S., Pazzani MJ, dan West J. (1997) Penemuan pengetahuan dari kanker payudara
basis data. Catatan Kuliah di Inteligensi Buatan , 1211 , 130–133.
Metsis V., Androutsopoulos I., dan Paliouras G. (2006) Penyaringan spam dengan naıve
Bayes — Bayes mana yang naif? CEAS 2006 — Konferensi Ketiga tentang Email dan Anti-
Spam , Mountain View, California.
Sahami M., Dumains S., Heckerman D., dan Horvitz E. (1998) Pendekatan Bayesian
untuk memfilter email sampah. Dalam Pembelajaran untuk Kategorisasi Teks — Makalah dari AAAI
Workshop , Madison, Wisconsin, hlm. 55–62.
Titterington DM, Murray GD, Murray LS, Spiegelhalter DJ, Skene AM,
Habbema JDF, dan Gelpke GJ (1981) Perbandingan teknik diskriminasi
diterapkan pada kumpulan data yang kompleks dari pasien yang mengalami cedera kepala. Jurnal Statistik Kerajaan-
tical Society, Seri A , 144 , 145–175.
https://translate.googleusercontent.com/translate_f 166/188
6/24/2020 Sepuluh Algoritma Top dalam Penambangan Data
Halaman 187
186
Bab 10
CART: Pohon Klasifikasi dan Regresi
Dan Steinberg
Isi
Monografi 1984, "CART: Klasifikasi dan Pohon Regresi," ditulis bersama oleh
Leo Breiman, Jerome Friedman, Richard Olshen, dan Charles Stone (BFOS), mewakili
menjadi tonggak utama dalam evolusi kecerdasan buatan, pembelajaran mesin,
statistik nonparametrik, dan penambangan data. Pekerjaan itu penting untuk kompetensi
kehebatan studi tentang pohon keputusan, inovasi teknis yang diperkenalkan, itu
contoh-contoh canggih dari analisis data terstruktur pohon, dan perlakuan otoritatifnya
teori sampel besar untuk pohon. Sejak diterbitkan, monograf CART telah
dikutip sekitar 3.000 kali menurut indeks kutipan sains dan ilmu sosial;
Google Cendekia melaporkan sekitar 8.450 kutipan. Kutipan CART dapat ditemukan di hampir
https://translate.googleusercontent.com/translate_f 167/188
6/24/2020 Sepuluh Algoritma Top dalam Penambangan Data
domain apapasar
pemodelan pun, dengan banyak
keuangan, yang
teknik muncul
elektro, di bidang
kontrol seperti
kualitas, risikokimia,
biologi, kredit, pemasaran bertarget, fi-
dan penelitian medis klinis. CART juga sangat memengaruhi kompresi gambar
179
Halaman 188
melalui kuantisasi vektor terstruktur pohon. Akun singkat ini dimaksudkan untuk memperkenalkan
Dasar-dasar CART, menyentuh pada tema-tema utama yang diperlakukan dalam monograf CART, dan untuk
mendorong pembaca untuk kembali ke sumber asli yang kaya untuk perincian teknis, diskusi
Sion mengungkapkan proses pemikiran penulis, dan contoh analitis mereka
gaya.
10.1 Anteseden
CART bukan pohon keputusan pertama yang diperkenalkan dengan pembelajaran mesin, meskipun
ini adalah yang pertama dijelaskan dengan ketelitian analitis dan didukung oleh kecanggihan
statistik dan teori probabilitas. CART secara eksplisit melacak leluhurnya ke
pohon deteksi interaksi matic (AID) Morgan dan Sonquist (1963), otomatis
metode rekursif untuk mengeksplorasi hubungan dalam data yang dimaksudkan untuk meniru itera-
T-drill-down khas dari berlatih analis data survei. AID diperkenalkan sebagai
alat yang berpotensi bermanfaat tanpa landasan teori. Era 1960-an ini bekerja
pohon disambut dengan skeptisisme yang mendalam di tengah-tengah bukti bahwa AID dapat secara radikal
menyesuaikan data pelatihan dan mendorong kesimpulan yang sangat menyesatkan (Einhorn,
1972; Doyle, 1973), terutama dalam sampel yang lebih kecil. Pada tahun 1973 ahli statistik yang banyak membaca
yakin bahwa pohon adalah jalan buntu; kebijaksanaan konvensional menyatakan bahwa pohon
adalah alat yang berbahaya dan tidak dapat diandalkan terutama karena kurangnya teori
dasar. Namun, peneliti lain belum siap untuk meninggalkan pohon itu
garis pemikiran. Karya Cover dan Hart (1967) pada properti sampel besar
dari tetangga terdekat (NN) pengklasifikasi berperan penting dalam membujuk Richard Olshen
dan Jerome Friedman bahwa pohon-pohon memiliki kemampuan teoretis yang cukup untuk layak dikejar.
ing. Olshen beralasan bahwa jika pengklasifikasi NN dapat mencapai Sampul dan Hart terikat
pada kesalahan klasifikasi kesalahan, maka hasil serupa harus dapat diturunkan untuk yang sesuai
membangun pohon karena simpul terminal pohon dapat dipandang sebagai dinamisasi-
membangun pengklasifikasi NN. Dengan demikian, penelitian Cover and Hart NN adalah
stimulus segera yang membujuk Olshen untuk menyelidiki sifat asimptotik dari
pohon. Secara kebetulan, algoritma Friedman bekerja pada identifikasi cepat terdekat
tetangga melalui pohon (Friedman, Bentley, dan Finkel, 1977) menggunakan partisi rekursif-
Mekanisme yang berkembang menjadi CART. Satu pendahulu dari CART muncul di jendela
1975 Stanford Linear Accelerator Center (SLAC) makalah diskusi (Friedman, 1975),
kemudian diterbitkan dalam bentuk yang lebih pendek oleh Friedman (1977). Sementara Friedman
mengerjakan elemen-elemen kunci CART di SLAC, dengan Olshen melakukan mathemat-
Penelitian ical di lab yang sama, penelitian independen serupa sedang berlangsung di Los
Angeles oleh Leo Breiman dan Charles Stone (Breiman and Stone, 1978). Keduanya
untaian penelitian terpisah (Friedman dan Olshen di Stanford, Breiman dan Stone)
di Los Angeles) dipertemukan pada tahun 1978 ketika empat penulis CART meninggalkan
mally memulai proses menggabungkan pekerjaan mereka dan bersiap untuk menulis CART
monografi.
https://translate.googleusercontent.com/translate_f 168/188
6/24/2020 Sepuluh Algoritma Top dalam Penambangan Data
Halaman 189
10.2 Ikhtisar
Pohon keputusan CART adalah prosedur partisi rekursif biner yang mampu
berhenti atribut kontinu dan nominal sebagai target dan prediktor. Data ditangani
dalam bentuk mentah mereka; tidak diperlukan binning atau direkomendasikan. Mulai dari root
simpul, data dibagi menjadi dua anak, dan masing-masing anak pada gilirannya dibagi menjadi
cucu. Pohon ditanam ke ukuran maksimal tanpa menggunakan aturan penghentian;
pada dasarnya proses penanaman pohon berhenti ketika tidak ada lagi pemisahan yang dimungkinkan
kurangnya data. Pohon berukuran maksimal kemudian dipangkas kembali ke akar (pada dasarnya dibagi
oleh split) melalui metode baru pemangkasan kompleksitas biaya. Perpecahan berikutnya harus dipangkas
adalah yang paling sedikit berkontribusi terhadap kinerja keseluruhan pohon pada data pelatihan (dan
lebih dari satu perpecahan dapat dihapus sekaligus). Mekanisme CART dimaksudkan
untuk menghasilkan tidak satu pohon, tetapi urutan pohon dipangkas bersarang, yang masing-masing adalah a
kandidat untuk menjadi pohon yang optimal. Pohon “berukuran benar” atau “jujur” diidentifikasi oleh
mengevaluasi kinerja prediksi setiap pohon dalam urutan pemangkasan pada
data uji independen. Tidak seperti C4.5, CART tidak menggunakan internal (berbasis pelatihan-data)
ukuran kinerja untuk pemilihan pohon. Sebaliknya, kinerja pohon selalu diukur
pada data uji independen (atau melalui validasi silang) dan pemilihan pohon hanya menghasilkan setelah
evaluasi berbasis data uji. Jika pengujian atau validasi silang belum dilakukan,
CART tetap agnostik mengenai pohon mana dalam urutan yang terbaik. Ini tajam
berbeda dengan metode seperti C4.5 atau statistik klasik yang menghasilkan model yang disukai
atas dasar langkah-langkah data pelatihan.
Mekanisme CART mencakup (opsional) penyeimbangan kelas otomatis dan otomatis
matic missing value handling, dan memungkinkan pembelajaran dinamis, fitur dinamis
konstruksi, dan estimasi pohon probabilitas. Laporan akhir termasuk novel at-
upeti peringkat pentingnya. Penulis CART juga menemukan jalan baru dalam pertunjukan
bagaimana validasi silang dapat digunakan untuk menilai kinerja untuk setiap pohon dalam pemangkasan
berurutan, mengingat bahwa pohon dalam lipatan validasi silang yang berbeda mungkin tidak selaras pada
jumlah node terminal. Sangat berguna untuk diingat bahwa meskipun BFOS ditangani
semua topik ini pada tahun 1970-an, dalam beberapa kasus pengobatan BFOS tetap menjadi yang utama
seni. Literatur tahun 1990-an berisi sejumlah artikel yang menemukan kembali inti
wawasan pertama kali diperkenalkan dalam monografi CART 1984. Masing-masing fitur utama ini
dibahas secara terpisah di bawah ini.
https://translate.googleusercontent.com/translate_f 169/188
6/24/2020 Sepuluh Algoritma Top dalam Penambangan Data
Halaman 190
adalah teknologi baru pada waktu itu, kami perlu mengidentifikasi pendorong utama adopsi
teknologi baru-baru ini dan untuk mengidentifikasi demografi yang mungkin terkait
sensitivitas harga. Data terdiri dari respons rumah tangga (ya / tidak) terhadap pasar
penawaran uji paket ponsel; semua prospek ditawari paket yang sama
fitur handset dan layanan, dengan satu pengecualian bahwa harga untuk paket
bervariasi secara acak sesuai dengan desain eksperimental. Satu-satunya pilihan terbuka untuk
rumah tangga harus menerima atau menolak tawaran itu.
Sebanyak 830 rumah tangga didekati dan 126 rumah tangga setuju
berlangganan paket layanan ponsel. Salah satu tujuan kami adalah belajar sebagai
sebanyak mungkin tentang perbedaan antara pelanggan dan bukan pelanggan. SEBUAH
set statistik ringkasan untuk atribut terpilih muncul pada Tabel 10.1. HANDPRIC adalah
harga dikutip untuk ponsel, USEPRIC adalah harga per menit, dan
atribut lainnya disediakan dengan nama umum.
Pohon klasifikasi CART dikembangkan pada data ini untuk memprediksi RESPONSE
atribut menggunakan semua atribut lainnya sebagai prediktor. MARITAL dan CITY adalah kategori
atribut gorical (nominal). Pohon keputusan ditanam dengan mempartisi secara rekursif
melatih data menggunakan aturan pemisahan untuk mengidentifikasi pemisahan yang akan digunakan pada setiap node. Gambar 10.1
menggambarkan proses ini dimulai dengan root node splitter di bagian atas pohon.
Simpul root di bagian atas diagram berisi semua data pelatihan kami, termasuk 704
bukan pelanggan (berlabel 0) dan 126 pelanggan (berlabel 1). Masing-masing 830
contoh berisi data pada 10 atribut prediktor, meskipun ada beberapa yang hilang
nilai-nilai. CART memulai dengan mencari data splitter terbaik yang tersedia, menguji masing-masing
pasangan atribut-nilai prediktor untuk kebaikannya. Pada Gambar 10.1 kita melihat
hasil pencarian ini: HANDPRIC telah ditentukan untuk menjadi pembagi terbaik menggunakan a
ambang batas 130 untuk mempartisi data. Semua contoh disajikan dengan HANDPRIC lebih sedikit
dari atau sama dengan 130 dikirim ke simpul anak kiri dan semua instance lainnya dikirim ke
hak. Pemecahan yang dihasilkan menghasilkan dua himpunan bagian dari data dengan yang sangat berbeda
https://translate.googleusercontent.com/translate_f 170/188
6/24/2020 Sepuluh Algoritma Top dalam Penambangan Data
Halaman 191
tingkat respons: 21,9% untuk mereka yang mengutip harga lebih rendah dan 9,9% untuk mereka yang mengutip
harga lebih tinggi. Jelas baik pemisah simpul akar dan besarnya perbedaan
antara dua node anak masuk akal. Perhatikan bahwa perpecahan selalu menghasilkan
dua simpul: CART hanya menggunakan pemisahan biner.
Untuk menghasilkan pohon yang lengkap, CART hanya mengulangi proses pemisahan saja
dijelaskan dalam masing-masing dari dua simpul anak untuk menghasilkan cucu dari akar. Agung-
anak-anak berpisah untuk mendapatkan cicit dan seterusnya sampai perpecahan lebih lanjut
tidak mungkin karena kurangnya data. Dalam contoh kami, proses pertumbuhan ini menghasilkan a
“Maximal tree” terdiri dari 81 terminal node: node di bagian bawah pohon itu
tidak dibagi lebih lanjut.
Halaman 192
https://translate.googleusercontent.com/translate_f 171/188
6/24/2020 Sepuluh Algoritma Top dalam Penambangan Data
MEMBAGI:
New_splits = 0
UNTUK setiap simpul terminal di pohon:
Jika ukuran sampel simpul terminal terlalu kecil atau semua contoh dalam
simpul milik kelas target yang sama GETNEXT goto
Temukan atribut yang paling baik memisahkan simpul menjadi dua simpul anak
menggunakan aturan pemisahan yang diizinkan
New_splits +1
GETNEXT:
LANJUT
Setelah menumbuhkan pohon, CART selanjutnya menghasilkan urutan bersarang dari sub-cabang yang telah dipangkas.
pohon. Sketsa algoritma yang disederhanakan untuk pemangkasan berikut ini mengabaikan prior dan biaya.
Ini berbeda dari algoritma pemangkasan CART yang sebenarnya dan disertakan di sini untuk
demi singkatnya dan kemudahan membaca. Prosedur dimulai dengan mengambil yang terbesar
menanam pohon ( T max ) dan menghapus semua splits, menghasilkan dua terminal node yang tidak
meningkatkan akurasi pohon pada data pelatihan. Ini adalah titik awal untuk CART
pemangkasan. Pemangkasan berlangsung lebih jauh dengan gagasan alami untuk menghapus iteratif
tautan terlemah di pohon, perpecahan yang berkontribusi paling sedikit pada kinerja pohon
pada data uji. Dalam algoritma yang disajikan pada Gambar 10.3, tindakan pemangkasan dibatasi
kepada orang tua dari dua terminal node.
Halaman 193
https://translate.googleusercontent.com/translate_f 172/188
6/24/2020 Sepuluh Algoritma Top dalam Penambangan Data
Algoritma pemangkasan CART berbeda dari yang di atas dalam menggunakan penalti
mekanisme node yang dapat menghapus seluruh subtree dalam tindakan pemangkasan tunggal. Itu
monograf menawarkan pernyataan prosedur yang jelas dan luas. Sekarang kita bahas
aspek-aspek utama dari CART secara lebih rinci.
di mana KONDISI dinyatakan sebagai "atribut X i < = C " untuk at- berkelanjutan
upeti. Untuk atribut kategorikal atau nominal KONDISI dinyatakan sebagai anggota
bership dalam daftar nilai. Misalnya, pemisahan pada variabel seperti CITY mungkin
diekspresikan sebagai
Contoh berjalan ke kiri jika CITY di { Chicago, Detroit, Nashville) dan ke kanan
jika tidak
Pembagi dan titik perpecahan keduanya ditemukan secara otomatis oleh CART dengan op-
pemisahan timal dipilih melalui salah satu aturan pemisahan yang ditentukan di bawah ini. Perhatikan itu karena
CART bekerja dengan data yang tidak dicentang, pembagian optimal selalu berbeda dengan hormat
untuk transformasi yang mempertahankan urutan atribut (seperti log, akar kuadrat, trans
bentuk, dan sebagainya). Penulis CART berpendapat bahwa pemisahan biner lebih disukai
untuk multiway splits karena (1) mereka memecah data lebih lambat daripada multiway
pemisahan dan (2) pemisahan berulang pada atribut yang sama diizinkan dan, jika dipilih, akan
akhirnya menghasilkan partisi sebanyak untuk atribut yang diperlukan. Kehilangan kemudahan
dalam membaca pohon diharapkan diimbangi dengan peningkatan kinerja prediksi.
Penulis CART mendiskusikan contoh menggunakan empat aturan pemisahan untuk klasifikasi
pohon (Gini, dua, dipesan dua, gini simetris), tetapi fokusnya adalah
sebagian besar pembahasannya tentang Gini, yang mirip dengan entropi yang lebih dikenal
Kriteria (perolehan informasi). Untuk target biner (0/1) "Gini ukuran pengotor"
dari simpul t adalah
G ( t ) = 1 - p ( t ) 2 - (1 - p ( t )) 2
di mana p ( t ) adalah frekuensi relatif (mungkin berbobot) kelas 1 dalam node. Spesifik
ifying G ( t ) = - p ( t ) ln p ( t ) - (1 - p ( t )) ln (1 - p ( t )) sebagai gantinya menghasilkan aturan entropi.
Peningkatan (gain) yang dihasilkan oleh split dari simpul induk P ke kiri dan kanan
anak-anak L dan R adalah
I ( P ) = G ( P ) - qG ( L ) - (1 - q ) G ( R )
Halaman 194
Di sini, q adalah fraksi (kemungkinan berbobot) dari instance yang tersisa. Penulis CART
lebih menyukai Gini daripada entropi karena dapat dihitung lebih cepat, dapat dengan mudah
diperluas untuk mencakup biaya yang simetris (lihat di bawah), dan kecil kemungkinannya untuk menghasilkan “akhir
potong ”split — split dengan satu anak yang sangat kecil (dan relatif murni) dan banyak lainnya
https://translate.googleusercontent.com/translate_f 173/188
6/24/2020 Sepuluh Algoritma Top dalam Penambangan Data
anak yang lebih besar. (Versi CART berikutnya telah menambahkan entropi sebagai aturan pemisahan opsional.)
Aturan dua-duanya didasarkan pada perbandingan langsung dari distribusi atribut target di
dua simpul anak:
{ }2
∑
I (split) = . 25 ( q (1 - q )) u |pL(k)-pR(k)|
k
1 TELEBILC 50 0,006883
2 USEPRICE 9,85 0,005961
3 KOTA 1,4,5 0,002259
4 TRAVTIME 3.5 0,001114
5 USIA 7.5 0,000948
Halaman 195
N 1 ( simpul ) N 0 ( simpul )
>
N 1 ( root ) N 0 ( root )
Amati bahwa ini memastikan bahwa setiap kelas diberi probabilitas kerja 1 / K
di simpul akar ketika ada kelas target K , terlepas dari distribusi yang sebenarnya
dari kelas dalam data. Mode default ini disebut sebagai "priors sama" di
monografi. Ini memungkinkan pengguna CART untuk bekerja dengan mudah dengan data yang tidak seimbang,
tidak memerlukan persiapan data khusus untuk mencapai penyeimbangan ulang kelas atau pendahuluan
bobot yang dibangun secara manual. Untuk bekerja secara efektif dengan data yang tidak seimbang, cukuplah
cient untuk menjalankan CART menggunakan pengaturan standarnya. Reweighting implisit dapat dimatikan oleh
memilih opsi "data prior". Pemodel juga dapat memilih untuk menentukan arbitrer
set prior untuk mencerminkan biaya, atau perbedaan potensial antara data pelatihan dan masa depan
distribusi kelas target data.
Halaman 196
HANDPRIC
TILLABLE TILLABLE
KOTA PAGER
https://translate.googleusercontent.com/translate_f 175/188
6/24/2020 Sepuluh Algoritma Top dalam Penambangan Data
TILLABLE
Gambar 10.4 Node Terminal Merah = Di Atas Rata-Rata Respons. Contoh dengan nilai
splitter lebih besar dari ambang batas bergerak ke kanan.
Catatan: Pengaturan priors tidak seperti bobot dalam bahwa mereka tidak mempengaruhi yang dilaporkan
dihitung dalam suatu simpul atau fraksi sampel yang dilaporkan dalam setiap kelas target. Priors melakukannya
mempengaruhi kelas setiap node ditugaskan untuk serta pemilihan splitter di
proses penanaman pohon.
(Mampu mengandalkan prior tidak berarti bahwa analis harus mengabaikan topik
pengambilan sampel dengan laju yang berbeda dari kelas target yang berbeda; melainkan memberikan analis
berbagai fleksibilitas mengenai kapan dan bagaimana cara mengambil sampel.)
Kami menggunakan pengaturan "priors equal" untuk menghasilkan pohon CART untuk ponsel
data untuk beradaptasi dengan probabilitas respons yang relatif rendah dan memperoleh pohon
skema ditunjukkan pada Gambar 10.4.
Dengan konvensi, pemisahan pada variabel kontinu mengirim instance dengan nilai yang lebih besar
splitter ke kanan, dan pemisahan pada variabel nominal ditentukan oleh daftar
nilai-nilai ke kiri atau kanan. Dalam diagram, terminal node diberi kode warna
mencerminkan probabilitas relatif dari respons. Node merah di atas rata-rata sebagai respons
probabilitas dan simpul biru di bawah rata-rata. Meskipun skema ini hanya menampilkan
sebagian kecil dari laporan terperinci yang tersedia itu cukup untuk mengatakan ini menarik
cerita: Meskipun mereka dikutip harga tinggi untuk teknologi baru, rumah tangga
dengan tagihan telepon darat yang lebih tinggi yang menggunakan layanan pager (bip) lebih mungkin
untuk berlangganan layanan baru. Skema ini juga mengungkapkan bagaimana CART dapat menggunakan kembali
Halaman 197
atribut beberapa kali. Sekali lagi, melihat sisi kanan pohon, dan mempertimbangkan
rumah tangga dengan tagihan telepon darat yang lebih besar tetapi tanpa layanan pager, kita lihat
bahwa atribut HANDPRIC muncul kembali, memberi tahu kami bahwa segmen pelanggan ini
bersedia membayar harga yang agak lebih tinggi tetapi akan menolak harga tertinggi. (Kedua
perpecahan di HANDPRIC adalah 200.)
https://translate.googleusercontent.com/translate_f 176/188
6/24/2020 Sepuluh Algoritma Top dalam Penambangan Data
poin.) Mengenai (a), versi pertama CART mengevaluasi masing-masing pembagi secara ketat
kinerja pada subset data yang splitternya tidak hilang. Versi selanjutnya
dari CART menawarkan keluarga hukuman yang mengurangi ukuran perbaikan untuk direfleksikan
tingkat ketiadaan. (Misalnya, jika suatu variabel hilang dalam 20% dari catatan
dalam sebuah node maka skor peningkatannya untuk node itu mungkin berkurang sebesar 20%, atau mengubah
setengah dari 20%, dan seterusnya.) Untuk (b) dan (c), mekanisme CART menemukan
“Surrogate” atau gantikan splitter untuk setiap simpul pohon, baik nilai yang hilang
terjadi dalam data pelatihan atau tidak. Oleh karena itu pengganti tersedia, jika pohon dilatih
pada data lengkap diterapkan ke data baru yang mencakup nilai yang hilang. Ini tajam
berbeda dengan mesin yang tidak bisa mentolerir nilai yang hilang dalam data pelatihan atau itu
hanya bisa belajar tentang penanganan nilai yang hilang dari data pelatihan yang mencakup hilang
nilai-nilai. Friedman (1975) mengemukakan contoh bergerak dengan atribut splitter yang hilang
ke node anak kiri dan kanan dan membuat tugas kelas akhir dengan mengambil a
rata-rata tertimbang dari semua node di mana sebuah instance muncul. Quinlan memilih varian
pendekatan Friedman dalam studinya tentang metode penanganan nilai alternatif yang hilang.
Penilaian kami sendiri tentang efektivitas kinerja pengganti CART di AS
Kehadiran data yang hilang jelas menguntungkan, sementara Quinlan tetap agnostik
dasar dari perkiraan pengganti yang ia laksanakan untuk tujuan pengujian (Quinlan).
Dalam Friedman, Kohavi, dan Yun (1996), Friedman mencatat bahwa 50% dari kode CART
dikhususkan untuk penanganan nilai yang hilang; dengan demikian tidak mungkin eksperimental Quinlan
versi mereplikasi mekanisme pengganti CART.
Dalam CART, mekanisme penanganan nilai yang hilang sepenuhnya otomatis dan lokal
adaptif di setiap node. Pada setiap node di pohon splitter yang dipilih menginduksi biner
partisi data (mis., X 1 < = c 1 dan X 1 > c 1). Pembagi pengganti adalah tunggal
atribut Z yang dapat memprediksi partisi ini di mana pengganti itu sendiri dalam bentuk
pemisah biner (misalnya, Z < = d dan Z> d ). Dengan kata lain, setiap pembagi menjadi
target baru yang akan diprediksi dengan pohon biner split tunggal. Pengganti adalah
Halaman 198
https://translate.googleusercontent.com/translate_f 177/188
6/24/2020 Sepuluh Algoritma Top dalam Penambangan Data
milik sisi kiri atau kanan perpecahan.
Dalam hal ini (Tabel 10.3) kita melihat bahwa dari semua atribut yang tersedia merupakan prediktor terbaik
apakah telepon darat tinggi (lebih dari 50) adalah status perkawinan (tidak pernah
orang yang sudah menikah menghabiskan lebih sedikit), diikuti oleh waktu perjalanan untuk bekerja, usia, dan, akhirnya, kota
tempat tinggal. Pengganti juga dapat dilihat sebagai mirip dengan sinonim yang mereka bantu
menafsirkan splitter. Di sini kita melihat bahwa mereka yang memiliki tagihan telepon rendah cenderung tidak pernah
menikah, hidup lebih dekat ke pusat kota, lebih muda, dan terkonsentrasi di tiga kota
lima kota dipelajari.
Halaman 199
https://translate.googleusercontent.com/translate_f 178/188
6/24/2020 Sepuluh Algoritma Top dalam Penambangan Data
atribut memiliki kepentingan bukan nol semata - mata karena mereka muncul sebagai pengganti untuk
variabel pemisahan lainnya. CART juga akan melaporkan skor penting dengan mengabaikan survei
rogat atas permintaan. Versi dari peringkat pentingnya atribut untuk pohon yang sama
ditunjukkan pada Tabel 10.5.
x×w
di mana x adalah subset dari vektor atribut prediktor kontinu dan w adalah perbedaan skala
ferensi vektor rata-rata melintasi dua kelas (arah dis- linear Fisher)
penjahat). Ini mirip dengan menjalankan regresi logistik pada semua atribut kontinu
Halaman 200
di node dan menggunakan estimasi logit sebagai prediktor. Dalam monograf CART, the
penulis membahas konstruksi otomatis kombinasi linear yang menyertakan fitur
pilihan; kemampuan ini telah tersedia sejak rilis soft CART pertama
barang BFOS juga menyajikan metode untuk membangun kombinasi splitter Boolean
dalam setiap node, kemampuan yang belum termasuk dalam perangkat lunak yang dirilis.
Meskipun ada situasi di mana kombinasi kombinasi linier adalah cara terbaik untuk melakukannya
mengungkap struktur dalam data (lihat karya Olshen di Huang et al., 2004), untuk sebagian besar
bagian kami telah menemukan bahwa splitter tersebut meningkatkan risiko overfitting karena besar
jumlah pembelajaran yang mereka wakili di setiap node, sehingga mengarah ke model yang lebih rendah.
Halaman 201
10.11 Menghentikan Aturan, Pemangkasan, Urutan Pohon, dan Pemilihan Pohon 193
Ra ( T ) = R ( T ) + a | T |
di mana R ( T ) adalah biaya sampel pelatihan pohon, | T | adalah jumlah node terminal
di pohon dan a adalah penalti yang dikenakan pada setiap node. Jika a = 0, maka minimum
pohon kompleksitas biaya jelas merupakan yang terbesar. Jika a dibiarkan secara progresif
meningkat, pohon kompleksitas biaya minimum akan menjadi lebih kecil karena perpecahan
di bagian bawah pohon yang mengurangi R ( T ) paling tidak akan ditebang. Parameter
a semakin meningkat dalam langkah-langkah kecil dari 0 hingga nilai yang cukup untuk memangkas
semua terbelah. BFOS membuktikan bahwa setiap pohon ukuran Q yang diekstraksi dengan cara ini akan dipamerkan
biaya R ( Q ) yang minimum dalam kelas semua pohon dengan simpul terminal Q.
Ini praktis penting karena secara radikal mengurangi jumlah pohon itu
harus diuji dalam mencari pohon optimal. Misalkan pohon maksimal memiliki | T |
terminal node. Pemangkasan melibatkan menghilangkan split menghasilkan dua terminal node
dan menyerap kedua anak ke dalam orangtua mereka, sehingga menggantikan kedua terminal
node dengan satu. Jumlah pohon yang mungkin diekstraksi dari pohon maksimal
dengan pemangkasan seperti itu akan tergantung pada topologi spesifik pohon yang dimaksud tetapi
terkadang akan lebih besar dari 0,5 | T |! Tetapi pemangkasan mengingat kompleksitas biaya yang kita butuhkan
untuk memeriksa jumlah pohon yang jauh lebih kecil. Dalam contoh kita, kita menumbuhkan pohon dengan 81
terminal node dan pemangkasan kompleksitas biaya mengekstrak urutan 28 subtree, tetapi
jika kami harus melihat semua kemungkinan sub pohon, kami mungkin harus memeriksa urutan
25! = 15.511.210.043.330.985.984.000.000 pohon.
The pohon optimal didefinisikan sebagai pohon di dipangkas urutan yang mencapai min
biaya imum pada data uji. Karena pengukuran biaya kesalahan klasifikasi pengujian adalah subjek
https://translate.googleusercontent.com/translate_f 180/188
6/24/2020 Sepuluh Algoritma Top dalam Penambangan Data
untuk kesalahan pengambilan sampel, ketidakpastian selalu tetap mengenai pohon mana yang dipangkas
urutan optimal. Memang, karakteristik yang menarik dari kurva kesalahan (misclas-
tingkat kesalahan sifikasi sebagai fungsi dari ukuran pohon) adalah bahwa sering datar sekitar minimum
untuk set data pelatihan besar. BFOS merekomendasikan memilih pohon "1 SE" yang merupakan
pohon terkecil dengan perkiraan biaya dalam 1 kesalahan standar dari biaya minimum (atau
“0 SE”) pohon. Argumen mereka untuk aturan 1 SE adalah bahwa dalam studi simulasi menghasilkan a
ukuran pohon yang stabil di seluruh replikasi sedangkan ukuran pohon 0 SE dapat sangat bervariasi
di replikasi.
Halaman 202
Gambar 10.5 Satu tahap dalam proses pemangkasan CART: subtree 17-terminal-node.
Node yang disorot akan dipangkas berikutnya.
Gambar 10.5 menunjukkan pohon CART bersama dengan menyoroti perpecahan yang akan terjadi
dihapus berikutnya melalui pemangkasan kompleksitas biaya.
Tabel 10.6 berisi satu baris untuk setiap subtree yang sudah dipangkas yang dimulai dengan
maksimal 81-terminal-node tree ditanam. Urutan pemangkasan terus berlanjut
kembali ke root karena kita harus mengizinkan kemungkinan bahwa pohon kita akan menunjukkan
tidak ada daya prediksi pada data uji. Subtree berkinerja terbaik pada data tes adalah SE
0 tree dengan 40 node, dan tree terkecil dalam standard error dari SE 0 tree
adalah pohon SE 1 (dengan 35 terminal node). Untuk mempermudah kami menampilkan detail
pohon 10-terminal-node suboptimal dalam diskusi sebelumnya.
https://translate.googleusercontent.com/translate_f 181/188
6/24/2020 Sepuluh Algoritma Top dalam Penambangan Data
kedalaman node. Dalam literatur ML terbaru penggunaan penyesuaian Laplace telah
direkomendasikan untuk mengurangi bias ini (Provost dan Domingos, 2002). CART
monograf menawarkan metode yang agak lebih kompleks untuk menyesuaikan simpul terminal
Halaman 203
TABEL 10.6 Urutan Pohon Lengkap untuk CART Model: Semua Subtrees Bersarang
Dilaporkan
Pohon Nodes Biaya Tes Biaya Kereta Kompleksitas
r×(t)=r(t)+e/(q(t)+S)
di mana r ( t ) adalah taksiran sampel pelatihan dalam simpul, q ( t ) adalah fraksi dari
sampel pelatihan dalam node, dan S dan e adalah parameter yang dipecahkan sebagai a
fungsi perbedaan antara tingkat kesalahan kereta dan uji untuk pohon tertentu. Di
berbeda dengan metode Laplace, penyesuaian Breiman tidak tergantung pada mentah
probabilitas diprediksi dalam simpul dan penyesuaian bisa sangat kecil jika menguji data
menunjukkan bahwa pohon itu tidak cocok. Bloch, Olshen, dan Walker (2002) membahas topik ini
secara rinci dan melaporkan kinerja yang sangat baik untuk penyesuaian Breiman dalam serangkaian
percobaan empiris.
https://translate.googleusercontent.com/translate_f 182/188
6/24/2020 Sepuluh Algoritma Top dalam Penambangan Data
Halaman 204
https://translate.googleusercontent.com/translate_f 183/188
6/24/2020 Sepuluh Algoritma Top dalam Penambangan Data
Halaman 205
yang mudah dikenali sebagai regresi pada dipisah secara rekursif (dan dipilih)
prediktor. Stone, dengan kolaborator, memperluas pendekatan regresi spline untuk bahaya
pemodelan ard (Kooperberg, Stone, dan Truong, 1995) dan regresi polikotomi
(1997).
Breiman aktif dalam mencari cara untuk meningkatkan akurasi, ruang lingkup aplikasi
kelenturan, dan menghitung kecepatan pohon CART. Pada tahun 1992 Breiman adalah yang pertama
memperkenalkan pohon keputusan multivariat (variabel dependen vektor) dalam perangkat lunak tetapi
tidak menulis makalah tentang topik tersebut. Pada tahun 1995, Spector dan Breiman diimplementasikan
strategi untuk memparalelkan CART di jaringan komputer menggunakan C-Linda
lingkungan pemrograman paralel. Dalam penelitian ini penulis mengamati bahwa keuntungan
dari paralelisasi terutama dicapai untuk set data yang lebih besar menggunakan hanya beberapa
dari prosesor yang tersedia. Pada 1994 Breiman menemukan "agregasi bootstrap":
membuat ansambel prediktif dengan menumbuhkan sejumlah besar pohon CART pada saat boot-
sampel tali diambil dari set data pelatihan tetap. Pada 1998 Breiman menerapkan gagasan itu
ansambel untuk pembelajaran online dan pengembangan pengklasifikasi untuk yang sangat besar
basis data. Dia kemudian memperluas gagasan baris pengambilan sampel secara acak dalam pelatihan
data ke kolom pengambilan sampel acak di setiap simpul pohon untuk sampai pada gagasan
hutan acak. Breiman mengabdikan tahun-tahun terakhir hidupnya untuk memperluas secara acak
hutan dengan rekan penulisnya Adele Cutler, memperkenalkan metode baru untuk nilai yang hilang
imputasi, deteksi outlier, penemuan cluster, dan cara-cara inovatif untuk memvisualisasikan data
menggunakan hasil hutan acak dalam serangkaian makalah dan posting Web dari tahun 2000
hingga 2004.
Richard Olshen terutama berfokus pada aplikasi biomedis dari pohon keputusan.
Dia mengembangkan pendekatan berbasis pohon pertama untuk analisis kelangsungan hidup (Gordon dan Olshen,
1984), memberikan kontribusi untuk penelitian kompresi gambar (Cosman et al., 1993), dan telah
baru-baru ini memperkenalkan splitter kombinasi linier baru untuk analisis yang sangat tinggi
data dimensi (genetika penyakit kompleks).
Friedman memperkenalkan peningkatan gradien stokastik di beberapa makalah yang dimulai pada
1999 (dikomersialkan sebagai perangkat lunak TreeNet) yang tampaknya merupakan iklan substansial
vance lebih meningkatkan konvensional. Pendekatan Friedman menggabungkan generasi
pohon yang sangat kecil, pengambilan sampel acak dari data pelatihan di setiap siklus pelatihan,
belajar lambat melalui pembaruan model yang sangat kecil pada setiap siklus pelatihan, penolakan selektif
data pelatihan berdasarkan residu model, dan memungkinkan untuk berbagai tujuan
fungsi, untuk sampai pada sistem yang telah melakukan sangat baik dalam berbagai
aplikasi dunia. Friedman mengikuti pekerjaan ini dengan teknik mengompresi
ansambel pohon menjadi model yang mengandung jauh lebih sedikit pohon menggunakan metode baru
untuk regresi yang diatur. Friedman menunjukkan bahwa setelah pemrosesan ansambel pohon menjadi
kompres mereka sebenarnya dapat meningkatkan kinerja mereka pada data ketidaksepakatan. Terima ini
Sejalan dengan penelitian selangkah lebih maju, Friedman kemudian memperkenalkan metode untuk mengekspresikan kembali
model ansambel pohon sebagai koleksi "aturan" yang juga dapat secara radikal mengompresi
model dan kadang-kadang meningkatkan akurasi prediksi mereka.
Petunjuk lebih lanjut untuk literatur, termasuk perpustakaan aplikasi CART, bisa
dapat ditemukan di situs Web Sistem Salford: http://www.salford-systems.com.
https://translate.googleusercontent.com/translate_f 184/188
6/24/2020 Sepuluh Algoritma Top dalam Penambangan Data
Halaman 206
10.16 Latihan
1. (a) Bagi pemula pohon keputusan, variabel paling penting dalam pohon CART harus
menjadi pemecah simpul root, namun tidak jarang untuk melihat variabel yang berbeda terdaftar
sebagai yang paling penting dalam output ringkasan CART. Bagaimana ini bisa terjadi? (B) Jika Anda
jalankan model CART untuk tujuan memberi peringkat variabel prediktor di Anda
kumpulan data dan kemudian Anda jalankan kembali model tidak termasuk semua variabel 0-pentingnya,
apakah Anda akan mendapatkan pohon yang sama di putaran kedua? (c) Bagaimana jika Anda menjalankan kembali pohon itu
menjaga sebagai hanya variabel prediktor yang muncul sebagai splitter pada putaran pertama?
Adakah kondisi yang menjamin Anda memperoleh pohon yang sama?
2. Setiap simpul internal dalam pohon CART berisi pembagi utama, pesaing
split, dan pengganti split. Di beberapa pohon, variabel yang sama akan muncul sebagai keduanya
pesaing dan pengganti tetapi menggunakan poin split yang berbeda. Misalnya, sebagai a
pesaing variabel dapat membagi simpul dengan xj < = c , sementara sebagai pengganti
variabel mungkin membagi simpul sebagai xj < = d . Jelaskan mengapa ini bisa terjadi.
3. Di antara enam aturan pemisahan yang berbeda, CART menawarkan Gini dan pemisahan dua
aturan untuk menumbuhkan pohon. Jelaskan mengapa analis mungkin lebih suka hasil
dua aturan bahkan jika itu menghasilkan akurasi yang lebih rendah.
4. Untuk target biner jika dua pohon CART ditanam pada data yang sama, yang pertama
menggunakan aturan pemisahan Gini dan yang kedua menggunakan aturan probabilitas kelas,
yang mana yang cenderung mengandung lebih banyak node? Akankah kedua pohon menunjukkan hal yang sama
ketepatan? Akankah pohon yang lebih kecil terkandung di dalam yang lebih besar? Jelaskan
perbedaan antara kedua pohon.
5. Misalkan Anda memiliki kumpulan data untuk target biner berkode 0/1 di mana 80% dari
catatan memiliki nilai target 0 dan Anda menumbuhkan pohon CART menggunakan default
Halaman 207
https://translate.googleusercontent.com/translate_f 185/188
6/24/2020 Sepuluh Algoritma Top dalam Penambangan Data
Referensi 199
Pengaturan SEBELUMNYA SEBELUMNYA. Bagaimana hasil akan berubah jika Anda menjalankan kembali model
menggunakan variabel WEIGHT w dengan w = 1 saat targetnya adalah 0 dan w = 4 kapan
targetnya 1?
6. Saat menanam pohon CART di kumpulan data yang lebih besar berisi puluhan ribu
catatan atau lebih, orang sering menemukan bahwa akurasi pohon menurun hanya sedikit sebagai
pohon ditanam jauh lebih besar dari ukuran optimalnya. Dengan kata lain, pada data besar
set pohon CART terlalu besar tampaknya hanya cocok sedikit. Mengapa demikian?
7. Model CART bukan hanya satu pohon tetapi juga kumpulan pohon yang bersarang
yang memiliki karakteristik kinerja sendiri (akurasi, area di bawah ROC
melengkung). Mengapa penulis CART menyarankan bahwa pohon terbaik belum tentu
pohon paling akurat tetapi bisa juga pohon terkecil dalam urutan pohon
dalam beberapa interval toleransi pohon yang paling akurat? Bagaimana dengan toleransi
interval dihitung?
8. Untuk pembelajaran yang sensitif biaya, ketika kesalahan yang berbeda dikaitkan dengan perbedaan-
Dalam biaya, penulis CART menyesuaikan prior untuk mencerminkan biaya, yang pada dasarnya
suatu bentuk reweighting data. Kapan prior yang disesuaikan dengan sempurna mencerminkan biaya
dan kapan mereka hanya memperkirakan biayanya? Bagaimana gini simetris
aturan pemisahan membantu mencerminkan biaya kesalahan klasifikasi?
9. Para penulis CART memutuskan strategi tumbuh-kemudian-pangkas untuk pemilihan suatu
pohon keputusan optimal daripada mengikuti aturan penghentian yang tampaknya lebih sederhana
metode. Jelaskan bagaimana masalah tipe XOR dapat digunakan untuk mengalahkan setiap penghentian
aturan berdasarkan kebaikan kriteria split untuk satu atau lebih split.
10. Jika kumpulan data pelatihan selesai (tidak berisi nilai yang hilang dalam prediktor apa pun),
bagaimana pohon CART dapat tumbuh pada data sedemikian rupa sehingga dapat mengatasi masalah yang hilang
nilai yang ditemui dalam data masa depan?
Referensi
Bloch, DA, Olshen, RA, dan Walker MG (2002) Estimasi risiko untuk klasifikasi
pohon. Jurnal Statistik Komputasi & Grafis , 11, 263–288.
Breiman, L. (1998) Menempati Suara Kecil untuk Klasifikasi di Database Besar dan
On line. Departemen Statistik, Universitas California, Berkeley.
Breiman, L., dan Friedman, JH (1985) Memperkirakan transformasi optimal untuk beberapa
regresi dan korelasi. Jurnal Asosiasi Statistik Amerika ,
80, 580–598.
Halaman 208
https://translate.googleusercontent.com/translate_f 186/188
6/24/2020 Sepuluh Algoritma Top dalam Penambangan Data
Breiman, L., Friedman, JH, Olshen, RA, dan Stone, CJ (1984) Klasifikasi dan
Pohon Regresi , Wadsworth, Belmont, CA. Diterbitkan ulang oleh CRC Press.
Cosman, PC, Tseng, C., Gray, RM, Olshen, RA, dkk. (1993) Pohon-terstruktur
kuantisasi vektor pemindaian dada CT: Kualitas gambar dan akurasi diagnostik.
Transaksi IEEE pada Pencitraan Medis , 12, 727-739.
Cover, T. dan Hart, P. (1967) Klasifikasi pola tetangga terdekat, IEEE Trans
Teori Informasi 13 , halaman: 21–27.
Doyle, P. (1973) Penggunaan detektor interaksi otomatis dan prosedur pencarian serupa
Dures. Triwulan Penelitian Operasional , 24, 465-467.
Friedman, JH (1977) Sebuah aturan keputusan partisi rekursif untuk klasifikasi nonparametric
sifikasi. IEEE Trans. Komputer , C-26, 404. Juga tersedia sebagai Stanford Linear
Pusat Akselerator Rep. SLAC-PUB-1373 (Rev. 1975).
Friedman, JH, Bentley, JL, dan Finkel, RA (1977) Suatu algoritma untuk menemukan yang terbaik
cocok dalam waktu logaritmik. ACM Trans. Matematika Perangkat Lunak , 3, 209. Juga tersedia
sebagai Stanford Linear Accelerator Center Rep. SIX-PUB-1549, Februari 1975.
Friedman, JH, Kohavi, R., dan Yun, Y. (1996) Pohon keputusan malas. Dalam Prosiding
Konferensi Nasional Ketigabelas tentang Kecerdasan Buatan , hlm. 717-724, AAAI
Pers / MIT Pers, San Francisco, CA.
Gordon, L., dan Olshen, RA (1985) Analisis kelangsungan hidup terstruktur pohon (dengan diskusi
sion). Laporan Perawatan Kanker , 69, 1065-1068.
Gordon, L., dan Olshen, RA (1984) Hampir pasti konsisten regresi nonparametrik
Sion dari skema partisi rekursif. Jurnal Analisis Multivariat , 15,
147–163.
Huang, J., Lin, A., Narasimhan, B., et al. (2004) Pembelajaran dengan pengawasan terstruktur pohon
dan genetika hipertensi. Proc Natl. Acad. Sci. , 20 Juli 101 (29), 10529–
10534.
Halaman 209
Referensi 201
Kooperberg, C., Bose, S., dan Stone, CJ (1997) Regresi polikotomi. Jurnal
Asosiasi Statistik Amerika , 92, 117-127.
Kooperberg, C., Stone, CJ, dan Truong, YK (1995) Regresi bahaya. Jurnal dari
Asosiasi Statistik Amerika , 90, 78-94.
https://translate.googleusercontent.com/translate_f 187/188
6/24/2020 Sepuluh Algoritma Top dalam Penambangan Data
Messenger, RC, dan Mandell, ML (1972) Suatu teknik pencarian model untuk prediksi
analisis multivariat skala nominal. Jurnal Asosiasi Statistik Amerika-
tion , 67, 768-772.
Morgan, JN, dan Sonquist, JA (1963) Masalah dalam analisis data survei, dan
sebuah lamaran. Jurnal Asosiasi Statistik Amerika , 58, 415-435.
Provost, F., dan Domingos, P. (2002) Induksi pohon untuk peringkat berbasis probabilitas.
Pembelajaran Mesin , 52, 199–215.
Quinlan, R. (1989) Nilai atribut tidak dikenal dalam induksi. Dalam Prosiding Keenam
Lokakarya Internasional tentang Pembelajaran Mesin , hlm. 164–168.
Stone, C. (1985) Regresi aditif dan model non-parametrik lainnya, Annal. Statist. ,
13, 689–705.
Ting, KM (2002) Metode pembobotan instance untuk menginduksi pohon yang sensitif biaya. IEEE
Trans. Pengetahuan dan Rekayasa Data , 14, 659–665.
https://translate.googleusercontent.com/translate_f 188/188