100% menganggap dokumen ini bermanfaat (1 suara)
2K tayangan239 halaman

Daniel T. Larose - Discovering Knowledge in Data - An Introduction To Data Mining-Wiley-Interscience (2004)

Diunggah oleh

Fajar Sidik Maolana
Hak Cipta
© © All Rights Reserved
Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.
Format Tersedia
Unduh sebagai PDF, TXT atau baca online di Scribd
100% menganggap dokumen ini bermanfaat (1 suara)
2K tayangan239 halaman

Daniel T. Larose - Discovering Knowledge in Data - An Introduction To Data Mining-Wiley-Interscience (2004)

Diunggah oleh

Fajar Sidik Maolana
Hak Cipta
© © All Rights Reserved
Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.
Format Tersedia
Unduh sebagai PDF, TXT atau baca online di Scribd

Machine Translated by Google

Machine Translated by Google

MENEMUKAN
PENGETAHUAN DALAM DATA
Machine Translated by Google
Machine Translated by Google

MENEMUKAN
PENGETAHUAN DALAM DATA
Pengantar Data Mining

DANIEL T. LAROSE
Direktur Penambangan Data
Universitas Negeri Connecticut Pusat

PUBLIKASI A JOHN WILEY & SONS, INC.,


Machine Translated by Google

Hak Cipta © 2005 oleh John Wiley & Sons, Inc. Semua hak dilindungi undang-undang.

Diterbitkan oleh John Wiley & Sons, Inc., Hoboken, New Jersey.
Diterbitkan secara bersamaan di Kanada.

Tidak ada bagian dari publikasi ini yang boleh direproduksi, disimpan dalam sistem pengambilan, atau ditransmisikan
dalam bentuk apa pun atau dengan cara apa pun, elektronik, mekanik, fotokopi, perekaman, pemindaian, atau
lainnya, kecuali sebagaimana diizinkan berdasarkan Bagian 107 atau 108 dari 1976 United Undang-Undang Hak
Cipta Negara, tanpa izin tertulis sebelumnya dari Penerbit, atau otorisasi melalui pembayaran biaya per salinan yang
sesuai ke Copyright Clearance Center, Inc., 222 Rosewood Drive, Danvers, MA 01923, 978-750-8400, faks
978-646-8600, atau di web di www.copyright.com. Permintaan izin kepada Penerbit harus ditujukan ke Departemen
Perizinan, John Wiley & Sons, Inc., 111 River Street, Hoboken, NJ 07030, (201) 748-6011, faks (201) 748-6008.

Batas Tanggung Jawab/Penafian Garansi: Meskipun penerbit dan penulis telah melakukan upaya terbaik mereka
dalam mempersiapkan buku ini, mereka tidak membuat pernyataan atau jaminan sehubungan dengan keakuratan
atau kelengkapan isi buku ini dan secara khusus menyangkal segala jaminan tersirat tentang dapat diperjualbelikan.
atau kebugaran untuk tujuan tertentu. Tidak ada jaminan yang dapat dibuat atau diperpanjang oleh perwakilan
penjualan atau materi penjualan tertulis. Saran dan strategi yang terkandung di sini mungkin tidak cocok untuk situasi
Anda. Anda harus berkonsultasi dengan seorang profesional jika perlu. Baik penerbit maupun penulis tidak bertanggung
jawab atas hilangnya keuntungan atau kerugian komersial lainnya, termasuk namun tidak terbatas pada kerusakan
khusus, insidental, konsekuensial, atau lainnya.

Untuk informasi umum tentang produk dan layanan kami yang lain, silakan hubungi Departemen Layanan Pelanggan
kami di AS di 877-762-2974, di luar AS di 317-572-3993 atau faks 317-572-4002.

Wiley juga menerbitkan buku-bukunya dalam berbagai format elektronik. Beberapa konten yang muncul di media cetak,
bagaimanapun, mungkin tidak tersedia dalam format elektronik.

Library of Congress Katalogisasi-dalam-Publikasi Data:

Larose, Daniel T.
Menemukan pengetahuan dalam data : pengantar data mining / Daniel T. Larose
p. cm.
Termasuk referensi bibliografi dan indeks.
ISBN 0-471-66657-2 (kain)
1. Penambangan data. I. Judul.
QA76.9.D343L38 2005 006.3
12—dc22 2004003680

Dicetak di Amerika Serikat

10 9 8 7 6 5 4 3 2 1
Machine Translated by Google

Dedikasi

Kepada orang tua

saya, Dan orang tua


mereka, Dan seterusnya...

Untuk anak-anakku,
Dan anak-anak mereka,
Dan seterusnya...

2004 Chantal Larose


Machine Translated by Google
Machine Translated by Google

ISI

KATA PENGANTAR xi

1 PENGANTAR DATA MINING 1

Apa Itu Penambangan Data? 2


Mengapa Penambangan Data? 4
Kebutuhan Arahan Manusia Data Mining Lintas 4
Industri Standar Proses: CRISP–DM Studi Kasus 1: 5
Menganalisis Klaim Garansi Mobil: Contoh
Proses dalam Tindakan Standar Industri CRISP–DM 8
Kekeliruan Data Mining Tugas Apa yang Dapat Dilakukan 10
Data Mining? 11
Deskripsi 11
Estimasi 12
Prediksi 13
Klasifikasi 14
Kekelompokan 16
Asosiasi 17
Studi Kasus 2: Memprediksi Pengembalian Pasar Saham Abnormal Menggunakan
Jaringan Saraf 18
Studi Kasus 3: Aturan Asosiasi Pertambangan dari Basis Data Hukum 19
Studi Kasus 4: Memprediksi Kebangkrutan Perusahaan Menggunakan Pohon Keputusan 21
Studi Kasus 5: Memprofilkan Pasar Wisata Menggunakan k-Means Clustering Analysis 23
Referensi 24
Latihan 25

2 PEMROSESAN DATA 27

Mengapa Kita Perlu Melakukan Praproses Data? 27


Pembersihan 28
Data Penanganan Data 30
yang Hilang Mengidentifikasi 33
Kesalahan Klasifikasi Metode Grafis untuk 34
Mengidentifikasi Pencilan Transformasi Data 35
Normalisasi Min–Maks 36
Standarisasi Z-Score 37
Metode Numerik untuk Mengidentifikasi Pencilan 38
Referensi 39
Latihan 39

vii
Machine Translated by Google

vii ISI

3 ANALISIS DATA EKSPLORASI 41

Pengujian Hipotesis versus Analisis Data Eksplorasi 41

Mengenal Kumpulan Data 42

Berurusan dengan Variabel Berkorelasi 44

Menjelajahi Variabel Kategoris 45

Menggunakan EDA untuk Mengungkap Bidang Anomali 50

Menjelajahi Variabel Numerik 52

Menjelajahi Hubungan Multivariat 59

Memilih Subset Data yang Menarik untuk Investigasi Lebih Lanjut 61

Binning 62

Ringkasan 63
Referensi 64
Latihan 64

4 PENDEKATAN STATISTIK UNTUK ESTIMASI DAN PREDIKSI 67

Tugas Data Mining dalam Menemukan Pengetahuan dalam Data 67

Pendekatan Statistik untuk Estimasi dan Prediksi 68

Metode Univariat: Ukuran Pusat dan Penyebaran 69


Inferensi Statistik 71
Seberapa Yakinkah Kita dengan Perkiraan Kita? 73
Estimasi Interval Keyakinan 73

Metode Bivariat: Regresi Linier Sederhana 75

Bahaya Ekstrapolasi 79
Interval Keyakinan untuk Nilai Rata-rata y Diberikan x 80

Interval Prediksi untuk Nilai yang Dipilih Secara Acak dari y Diberikan x 80

Regresi Berganda 83

Memverifikasi Asumsi Model 85


Referensi 88
Latihan 88

ALGORITMA TETANGGA TERDEKAT 5 k 90

Metode yang Diawasi versus Tidak Diawasi 90

Metodologi untuk Pemodelan yang Diawasi 91


Bias–Variance Trade-Off 93
Tugas Klasifikasi 95

k-Nearest Neighbor Algorithm 96


Fungsi Jarak 99
Fungsi Kombinasi 101

Pemungutan Suara Sederhana Tanpa Bobot 101

Pemungutan Suara Tertimbang 102

Mengukur Relevansi Atribut: Meregangkan Sumbu 103


Pertimbangan Basis Data 104

Algoritma k-Nearest Neighbor untuk Estimasi dan Prediksi 104

Memilih k 105
Referensi 106
Latihan 106
Machine Translated by Google

ISI ix

6 POHON KEPUTUSAN 107

Pohon Klasifikasi dan Regresi Aturan 109


Keputusan Algoritma C4.5 Perbandingan 116
Algoritma C5.0 dan CART yang 121
Diterapkan pada Latihan Referensi Data Riil 122
126
126

7 JARINGAN SARAF 128

Pengkodean Input dan Output 129


Neural Networks untuk Estimasi dan Prediksi 131
Contoh Sederhana Neural Network 131
Fungsi Aktivasi Sigmoid 134
Propagasi Kembali 135
Metode Penurunan Gradien 135
Aturan Propagasi Kembali 136
Contoh Back-Propagation 137
Kriteria Penghentian 139
Tingkat Pembelajaran 139
Istilah momentum 140
Analisis Sensitivitas 142
Penerapan Pemodelan Jaringan Syaraf 143
Referensi 145
Latihan 145

8 HIERARKI DAN K-MEANS CLUSTERING 147

Tugas Pengelompokan 147


Metode Pengelompokan Hirarkis 149
Pengelompokan Tautan Tunggal 150
Clustering Tautan Lengkap k- 151
Means Clustering 153
Contoh Clustering k-Means di Tempat Kerja 153
Penerapan k-Means Clustering Menggunakan SAS Enterprise Miner 158
Menggunakan Keanggotaan Cluster untuk Memprediksi Churn 161
Referensi 161
Latihan 162

9 JARINGAN KOHENEN 163

Peta yang Mengatur Sendiri 163


Jaringan Kohonen 165
Contoh Studi Jaringan Kohonen 166
Validitas Cluster 170
Penerapan Clustering Menggunakan Jaringan Kohonen 170
Menafsirkan Cluster 171
Profil Cluster 175
Machine Translated by Google

x ISI

Menggunakan Keanggotaan Cluster sebagai Input untuk Model Data Mining Hilir 177
Referensi 178
Latihan 178

10 ATURAN ASOSIASI 180

Analisis Afinitas dan Analisis Keranjang Pasar 180


Representasi Data untuk Dukungan Analisis 182
Keranjang Pasar, Keyakinan, Kumpulan Item Sering, dan Properti A 183
Priori Bagaimana Algoritma A Priori Bekerja (Bagian 1)? Menghasilkan Kumpulan 185
Item yang Sering Bagaimana Cara Kerja Algoritma A Priori (Bagian 2)? Membangkitkan 186
Ekstensi Aturan Asosiasi dari Data Bendera ke Data Kategori Umum Pendekatan 189
Teori-Informasi: Metode Induksi Aturan Umum 190
J-Measure 190
Penerapan Induksi Aturan Umum 191
Kapan Tidak Menggunakan Aturan Asosiasi 193
Apakah Aturan Asosiasi Mewakili Pembelajaran yang Diawasi atau Tanpa Pengawasan? 196
Pola Lokal versus Model Global 197
Referensi 198
Latihan 198

11 TEKNIK EVALUASI MODEL 200

Teknik Evaluasi Model untuk Tugas Deskripsi 201


Teknik Evaluasi Model untuk Tugas Estimasi dan Prediksi 201
Teknik Evaluasi Model untuk Tugas Klasifikasi 203
Tingkat Kesalahan, Positif Palsu, dan Negatif Palsu 203
Penyesuaian Biaya yang Salah Klasifikasi untuk Mencerminkan Kekhawatiran Dunia Nyata 205
Analisis Biaya/Manfaat Keputusan 207
Grafik Angkat dan Grafik Keuntungan 208
Evaluasi Model Jalinan dengan Model Building 211
Pertemuan Hasil: Menerapkan Rangkaian Model 212
Referensi 213
Latihan 213

EPILOG: “KAMI HANYA MEMULAI” 215

INDEKS 217
Machine Translated by Google

KATA PENGANTAR

APA ITU DATA MINING?

Penambangan data diprediksi menjadi "salah satu perkembangan paling revolusioner dalam dekade
berikutnya," menurut majalah teknologi online ZDNET News (8 Februari 2001). Faktanya, MIT Technology
Review memilih data mining sebagai salah satu dari sepuluh teknologi baru yang akan mengubah dunia.
Menurut Grup Gartner, “Penambangan data adalah proses menemukan korelasi, pola, dan tren baru yang
bermakna dengan menyaring sejumlah besar data yang disimpan dalam repositori, menggunakan teknologi
pengenalan pola serta teknik statistik dan matematika.”

Karena data mining mewakili bidang yang begitu penting, Wiley-Interscience dan Dr. Daniel T.
Larose telah bekerja sama untuk menerbitkan serangkaian volume tentang data mining, yang awalnya
terdiri dari tiga volume. Volume pertama dalam seri, Discovering Knowledge in Data: An Introduction to
Data Mining, memperkenalkan pembaca pada bidang data mining yang berkembang pesat ini.

MENGAPA BUKU INI DIBUTUHKAN?

Manusia dibanjiri dengan data di sebagian besar bidang. Sayangnya, data berharga ini, yang menghabiskan
jutaan dolar untuk dikumpulkan dan disusun, mendekam di gudang dan tempat penyimpanan. Masalahnya
adalah tidak tersedia cukup analis manusia terlatih yang terampil menerjemahkan semua data menjadi
pengetahuan, dan kemudian naik pohon taksonomi menjadi kebijaksanaan. Inilah sebabnya mengapa buku
ini diperlukan; ini menyediakan pembaca dengan:

Model dan teknik untuk mengungkap nugget informasi yang tersembunyi

Wawasan tentang cara kerja algoritme penambangan data

Pengalaman benar-benar melakukan penambangan data pada kumpulan data besar

Data mining menjadi lebih luas setiap hari, karena memberdayakan perusahaan untuk mengungkap
pola dan tren yang menguntungkan dari database mereka yang ada.
Perusahaan dan institusi telah menghabiskan jutaan dolar untuk mengumpulkan megabyte dan terabyte
data tetapi tidak mengambil keuntungan dari informasi berharga dan dapat ditindaklanjuti yang tersembunyi
jauh di dalam repositori data mereka. Namun, dengan semakin meluasnya praktik penambangan data,
perusahaan yang tidak menerapkan teknik ini berada dalam bahaya tertinggal dan kehilangan pangsa
pasar, karena pesaing mereka menggunakan penambangan data dan dengan demikian memperoleh
keunggulan kompetitif. Dalam Discovering Knowledge in Data, solusi langsung selangkah demi selangkah
dari masalah bisnis dunia nyata menggunakan teknik penambangan data yang tersedia secara luas yang
diterapkan pada kumpulan data dunia nyata

xi
Machine Translated by Google

xi KATA PENGANTAR

akan menarik bagi manajer, CIO, CEO, CFO, dan orang lain yang perlu mengikuti metode terbaru untuk
meningkatkan laba atas investasi.

BAHAYA! DATA MINING MUDAH DILAKUKAN DENGAN BURUK

Banyaknya platform perangkat lunak baru untuk melakukan penambangan data telah memicu jenis bahaya
baru. Kemudahan aplikasi berbasis GUI ini dapat memanipulasi data, dikombinasikan dengan kekuatan
algoritma penambangan data yang tangguh yang tertanam dalam perangkat lunak kotak hitam yang saat ini
tersedia, membuat penyalahgunaannya secara proporsional lebih berbahaya.

Seperti halnya teknologi informasi baru, penambangan data mudah dilakukan dengan buruk. Sedikit
pengetahuan sangat berbahaya ketika menerapkan model yang kuat berdasarkan kumpulan data yang
besar. Misalnya, analisis yang dilakukan pada data yang tidak diproses sebelumnya dapat mengarah pada
kesimpulan yang salah, atau analisis yang tidak tepat dapat diterapkan pada kumpulan data yang
memerlukan pendekatan yang sama sekali berbeda, atau model dapat diturunkan yang dibangun di atas
asumsi yang sepenuhnya salah. Jika digunakan, kesalahan dalam analisis ini dapat menyebabkan kegagalan
yang sangat mahal.

PENDEKATAN '' KOTAK PUTIH '': MEMAHAMINYA


ALGORITMA DASAR DAN STRUKTUR MODEL

Cara terbaik untuk menghindari kesalahan mahal ini, yang berasal dari pendekatan kotak hitam buta untuk
penambangan data, adalah dengan menerapkan metodologi "kotak putih", yang menekankan pemahaman
tentang struktur model algoritmik dan statistik yang mendasari perangkat lunak. Menemukan Pengetahuan
dalam Data menerapkan pendekatan kotak putih ini dengan:

Mengajak pembaca melalui berbagai algoritme

Memberikan contoh pengoperasian algoritme pada kumpulan data besar yang sebenarnya

Menguji tingkat pemahaman pembaca tentang konsep dan algoritma

Memberikan kesempatan bagi pembaca untuk melakukan penambangan data nyata pada kumpulan
data besar

Algoritme Walk-Throughs
Discovering Knowledge in Data memandu pembaca melalui operasi dan nuansa berbagai algoritme,
menggunakan kumpulan data sampel kecil, sehingga pembaca mendapatkan apresiasi yang sebenarnya
tentang apa yang sebenarnya terjadi di dalam algoritme. Misalnya, di Bab 8, kita melihat pusat cluster yang
diperbarui sedang diperbarui, bergerak menuju pusat cluster masing-masing. Juga, dalam Bab 9 kita melihat
jenis bobot jaringan mana yang akan menghasilkan node jaringan tertentu "memenangkan" rekor tertentu.

Aplikasi Algoritma untuk Kumpulan Data Besar


Discovering Knowledge in Data memberikan contoh penerapan berbagai algoritma pada kumpulan data
besar yang sebenarnya. Misalnya, dalam Bab 7 masalah klasifikasi
Machine Translated by Google

DATA MINING SEBAGAI PROSES xiii

diserang menggunakan model jaringan saraf pada kumpulan data dunia nyata. Topologi jaringan saraf
yang dihasilkan diperiksa bersama dengan bobot koneksi jaringan, seperti yang dilaporkan oleh
perangkat lunak. Kumpulan data ini disertakan di situs Web seri buku, sehingga pembaca dapat
mengikuti langkah-langkah analitis sendiri, menggunakan perangkat lunak penambangan data pilihan
mereka.

Latihan Bab: Memeriksa untuk Memastikan Bahwa Anda Memahaminya


Discovering Knowledge in Data mencakup lebih dari 90 bab latihan, yang memungkinkan pembaca
menilai kedalaman pemahaman materi, serta sedikit bersenang-senang bermain dengan angka dan
data. Ini termasuk latihan konseptual, yang membantu memperjelas beberapa konsep yang lebih
menantang dalam penambangan data, dan latihan "kumpulan data kecil", yang menantang pembaca
untuk menerapkan algoritma penambangan data tertentu ke kumpulan data kecil dan, langkah demi
langkah, untuk sampai pada solusi komputasi yang baik. Sebagai contoh, dalam Bab 6 pembaca
diberikan kumpulan data kecil dan diminta untuk membuat dengan tangan, menggunakan metode
yang ditunjukkan dalam bab ini, model pohon keputusan C4.5, serta model pohon klasifikasi dan
regresi, dan untuk membandingkan kelebihan dan kekurangannya masing-masing.

Analisis Langsung: Pelajari Data Mining dengan Melakukan Data Mining

Bab 2 hingga 4 dan 6 hingga 11 memberikan pembaca masalah analisis langsung, yang merupakan
kesempatan bagi pembaca untuk menerapkan keahlian penambangan data yang baru diperolehnya
untuk memecahkan masalah nyata menggunakan kumpulan data besar. Banyak orang belajar dengan
melakukan. Discovering Knowledge in Data menyediakan kerangka kerja dimana pembaca dapat
mempelajari data mining dengan melakukan data mining. Tujuannya adalah untuk mencerminkan
skenario penambangan data dunia nyata. Di dunia nyata, kumpulan data kotor perlu dibersihkan; data
mentah perlu dinormalisasi; outlier perlu diperiksa. Begitu pula dengan Discovering Knowledge in
Data, yang menyediakan lebih dari 70 masalah analisis langsung. Dengan cara ini, pembaca dapat
"meningkatkan" dengan cepat dan "menjalankan dan menjalankan" analisis penambangan datanya
sendiri secara relatif dalam waktu singkat.
Misalnya, dalam Bab 10 pembaca ditantang untuk mengungkap kepercayaan tinggi, aturan
dukungan tinggi untuk memprediksi pelanggan mana yang akan meninggalkan layanan perusahaan.
Dalam Bab 11 pembaca diminta untuk membuat bagan angkat dan bagan keuntungan untuk satu set
model klasifikasi menggunakan set data yang besar, sehingga model terbaik dapat diidentifikasi.

DATA MINING SEBAGAI PROSES

Salah satu kesalahan yang terkait dengan implementasi data mining adalah bahwa data mining entah
bagaimana mewakili seperangkat alat yang terisolasi, untuk diterapkan oleh beberapa departemen
analisis yang menyendiri, dan hanya terkait secara tidak penting dengan bisnis arus utama atau usaha
pencarian. Organisasi yang mencoba menerapkan penambangan data dengan cara ini akan melihat
peluang keberhasilan mereka sangat berkurang. Hal ini karena data mining harus dilihat sebagai
sebuah proses.
Discovering Knowledge in Data menyajikan data mining sebagai proses standar yang terstruktur
dengan baik , berhubungan erat dengan manajer, pembuat keputusan, dan mereka
Machine Translated by Google

xiv KATA PENGANTAR

terlibat dalam menyebarkan hasil. Dengan demikian, buku ini tidak hanya untuk para analis
tetapi juga untuk para manajer, yang harus mampu berkomunikasi dalam bahasa data
mining. Proses standar khusus yang digunakan adalah kerangka kerja CRISP–DM: Proses
Standar Lintas Industri untuk Data Mining. CRISP-DM menuntut agar data mining dilihat
sebagai keseluruhan proses, mulai dari komunikasi masalah bisnis melalui pengumpulan
dan pengelolaan data, pra-pemrosesan data, pembuatan model, evaluasi model, dan
akhirnya, penerapan model. Oleh karena itu, buku ini tidak hanya untuk para analis dan
manajer tetapi juga untuk para profesional manajemen data, analis database, dan
pengambil keputusan.

PENDEKATAN GRAFIS, MENEKANKAN EKSPLORASI


ANALISIS DATA

Menemukan Pengetahuan dalam Data menekankan pendekatan grafis untuk analisis data.
Ada lebih dari 80 tangkapan layar dari output komputer aktual di seluruh buku, dan lebih
dari 30 gambar lainnya. Analisis data eksplorasi (EDA) mewakili cara yang menarik dan
mengasyikkan untuk "merasakan jalan Anda" melalui kumpulan data besar. Menggunakan
ringkasan grafis dan numerik, analis secara bertahap menjelaskan hubungan kompleks
yang tersembunyi di dalam data. Discovering Knowledge in Data menekankan pendekatan
EDA untuk data mining, yang sejalan dengan pendekatan grafis secara keseluruhan.

BAGAIMANA STRUKTUR BUKU

Discovering Knowledge in Data memberikan pengenalan yang komprehensif ke lapangan.


Studi kasus disediakan yang menunjukkan bagaimana data mining telah digunakan
dengan sukses (dan tidak begitu berhasil). Mitos umum tentang penambangan data
dibantah, dan perangkap umum ditandai, sehingga penambang data baru tidak perlu
mempelajari pelajaran ini sendiri.
Tiga bab pertama memperkenalkan dan mengikuti proses standar CRISP-DM,
terutama fase persiapan data dan fase pemahaman data. Tujuh bab berikutnya mewakili
inti dari buku ini dan terkait dengan fase pemodelan CRISP-DM. Setiap bab menyajikan
metode dan teknik penambangan data untuk tugas penambangan data tertentu.

Bab 5, 6, dan 7 berhubungan dengan tugas klasifikasi , memeriksa k-nearest


tetangga (Bab 5), pohon keputusan (Bab 6), dan jaringan saraf (Bab 7) algoritma.

Bab 8 dan 9 menyelidiki tugas pengelompokan , dengan algoritma pengelompokan


hierarkis dan k-means (Bab 8) dan jaringan Kohonen (Bab 9).
Bab 10 menangani tugas asosiasi , memeriksa aturan asosiasi melalui algoritma
apriori dan GRI.
Akhirnya, Bab 11 mencakup teknik evaluasi model, yang termasuk dalam fase
evaluasi CRISP-DM.
Machine Translated by Google

UCAPAN TERIMA KASIH xv

MENEMUKAN PENGETAHUAN DALAM DATA SEBAGAI BUKU PELAJARAN

Menemukan Pengetahuan dalam Data secara alami sesuai dengan peran buku teks untuk kursus
pengantar dalam penambangan data. Instruktur dapat menghargai:

Penyajian data mining sebagai sebuah proses

Pendekatan "kotak putih", menekankan pemahaman tentang struktur algoritme yang mendasarinya:
penelusuran algoritme penerapan algoritme ke kumpulan data besar latihan bab analisis langsung

Pendekatan grafis, menekankan analisis data eksplorasi

Presentasi logis, mengalir secara alami dari proses standar CRISP–DM dan serangkaian tugas
penambangan data

Menemukan Pengetahuan dalam Data sesuai untuk program sarjana atau pascasarjana tingkat
lanjut. Kecuali untuk satu bagian dalam Bab 7, kalkulus tidak diperlukan.
Kursus statistik pengantar akan menyenangkan tetapi tidak diperlukan. Tidak diperlukan keahlian
pemrograman komputer atau database.

UCAPAN TERIMA KASIH

Menemukan Pengetahuan dalam Data akan tetap tidak tertulis tanpa bantuan Val Moliere, editor, Kirsten
Rohsted, koordinator program editorial, dan Rosalyn Farkas, editor produksi, di Wiley-Interscience dan
Barbara Zeiders, yang menyalin karya tersebut. Terima kasih atas bimbingan dan ketekunan Anda.

Saya juga ingin mengucapkan terima kasih kepada Dr. Chun Jin dan Dr. Daniel S. Miller, rekan-
rekan saya di program Master of Science dalam Data Mining di Central Connecticut State University; Dr
Timothy Craine, ketua Departemen Ilmu Matematika; Dr. Dipak K. Dey, ketua Departemen Statistik di
University of Connecticut; dan Dr. John Judge, ketua Departemen Matematika di Westfield State College.

Dukungan Anda (dan) sangat berharga.


Terima kasih kepada anak-anak saya, Chantal, Tristan, dan Ravel, untuk berbagi komputer dengan
saya. Akhirnya, saya ingin berterima kasih kepada istri saya yang luar biasa, Debra J. Larose, atas
kesabaran, pengertian, dan keterampilan mengoreksinya. Tapi kata-kata tidak bisa mengungkapkan. . . .

Daniel T. Larose, Ph.D.


Direktur, Data Mining @CCSU
www.ccsu.edu/datamining
Machine Translated by Google
Machine Translated by Google

BAB 1
PERKENALAN PADA
PERTAMBANGAN DATA

APA ITU DATA MINING?

MENGAPA DATA MINING?

KEBUTUHAN MANUSIA ARAH DATA MINING

PROSES STANDAR LINTAS INDUSTRI: CRISP–DM

STUDI KASUS 1: ANALISIS KLAIM GARANSI MOBIL: CONTOH


PROSES STANDAR INDUSTRI CRISP–DM BERAKSI

KESALAHAN DATA MINING

TUGAS APA YANG DAPAT DATA MINING MENCAPAI?

STUDI KASUS 2: MEMPREDIKSI PENGEMBALIAN PASAR SAHAM ABNORMAL MENGGUNAKAN


JARINGAN SARAF

STUDI KASUS 3: ATURAN ASOSIASI PERTAMBANGAN DARI BASIS DATA HUKUM

STUDI KASUS 4: MEMPREDIKSI KEBANGKITAN PERUSAHAAN MENGGUNAKAN


POHON KEPUTUSAN

STUDI KASUS 5: PROFIL PASAR PARIWISATA MENGGUNAKAN k-MEANS


ANALISIS PENGELOMPOKAN

Sekitar 13 juta pelanggan per bulan menghubungi pusat layanan pelanggan West Coast
Bank of America, seperti yang dilaporkan oleh cover story Majalah CIO tentang
penambangan data pada Mei 1998 [1]. Di masa lalu, setiap penelepon akan
mendengarkan iklan pemasaran yang sama, apakah itu relevan atau tidak dengan
minat si penelepon. Namun, “daripada menawarkan produk minggu ini, kami ingin
menjadi serelevan mungkin bagi setiap pelanggan,” kata Chris Kelly, wakil presiden
dan direktur pemasaran basis data di Bank of America di San Francisco. Dengan
demikian, perwakilan layanan pelanggan Bank of America memiliki akses ke profil
pelanggan individu, sehingga pelanggan dapat diberitahu tentang produk atau layanan baru yang mu

Discovering Knowledge in Data: An Introduction to Data Mining, Oleh Daniel T.


Larose ISBN 0-471-66657-2 Hak Cipta C 2005 John Wiley & Sons, Inc.

1
Machine Translated by Google

2 BAB 1 PENDAHULUAN DATA MINING

minat padanya. Data mining membantu mengidentifikasi jenis pendekatan pemasaran untuk pelanggan
tertentu, berdasarkan profil individu pelanggan.
Mantan Presiden Bill Clinton, dalam pidatonya 6 November 2002 kepada Dewan
Kepemimpinan Demokrat [2], menyebutkan bahwa tidak lama setelah peristiwa 11 September 2001,
agen FBI memeriksa sejumlah besar data konsumen dan menemukan bahwa lima teroris pelaku ada
di database. Salah satu teroris memiliki 30 kartu kredit dengan saldo total $250.000 dan telah berada
di negara itu selama kurang dari dua tahun. Pemimpin kelompok teroris, Mohammed Atta, memiliki
12 alamat berbeda, dua rumah asli, dan 10 rumah persembunyian. Clinton menyimpulkan bahwa kita
harus secara proaktif mencari melalui jenis data ini dan bahwa “jika seseorang telah berada di sini
beberapa tahun atau kurang dan mereka memiliki 12 rumah, mereka benar-benar kaya atau tidak
baik. Seharusnya tidak sulit untuk mengetahui yang mana. ”

Tumor otak merupakan kanker paling mematikan di antara anak-anak, dengan hampir 3000
kasus didiagnosis per tahun di Amerika Serikat, hampir setengahnya berakibat fatal.
Eric Bremer [3], direktur penelitian tumor otak di Children's Memorial Hospital di Chicago, telah
menetapkan tujuan membangun basis data ekspresi gen untuk tumor otak anak, dalam upaya
mengembangkan pengobatan yang lebih efektif. Sebagai salah satu langkah pertama dalam
identifikasi tumor, Bremer menggunakan rangkaian perangkat lunak penambangan data Clementine,
yang diterbitkan oleh SPSS, Inc., untuk mengklasifikasikan tumor menjadi salah satu dari 12 atau
lebih jenis yang menonjol. Seperti yang akan kita pelajari di Bab 5 klasifikasi, adalah salah satu tugas
data mining yang paling penting.
Cerita-cerita ini adalah contoh data mining.

APA ITU DATA MINING?

Menurut Gartner Group [4], “Data mining adalah proses menemukan korelasi, pola, dan tren baru
yang bermakna dengan menyaring sejumlah besar data yang disimpan dalam repositori, menggunakan
teknologi pengenalan pola serta teknik statistik dan matematika.” Ada definisi lain:

“Data mining adalah analisis (seringkali besar) kumpulan data observasional untuk menemukan
hubungan yang tidak terduga dan untuk meringkas data dengan cara baru yang dapat
dimengerti dan berguna bagi pemilik data” (Hand et al. [5]).

“Data mining adalah bidang interdisipliner yang menyatukan teknik dari pembelajaran mesin,
pengenalan pola, statistik, database, dan visualisasi untuk mengatasi masalah ekstraksi
informasi dari basis data besar” (Evangelos Simoudis dalam Cabena et al. [6]).

Data mining diprediksi menjadi “salah satu perkembangan paling revolusioner dalam dekade
berikutnya,” menurut majalah teknologi online ZDNET News [7].
Bahkan, MIT Technology Review [8] memilih data mining sebagai salah satu dari 10 teknologi baru
yang akan mengubah dunia. “Keahlian penambangan data adalah yang paling dicari …” di antara
para profesional teknologi informasi, menurut Survei Gaji Nasional Pekan Informasi 1999 [9]. Survei
melaporkan: “Keterampilan penambangan data
Machine Translated by Google

APA ITU DATA MINING? 3

permintaan tinggi tahun ini, karena organisasi semakin menempatkan repositori data secara
online. Menganalisis informasi secara efektif dari pelanggan, mitra, dan pemasok telah menjadi
penting bagi lebih banyak perusahaan. 'Banyak perusahaan telah menerapkan strategi gudang
data dan sekarang mulai melihat apa yang dapat mereka lakukan dengan semua data itu,' kata
Dudley Brown, mitra pengelola BridgeGate LLC, sebuah perusahaan perekrutan di Irvine,
California.”
Seberapa luas penambangan data? Industri mana yang bergerak ke area ini?
Sebenarnya, penggunaan data mining meluas, meluas ke beberapa area yang mengejutkan.
Perhatikan iklan lowongan kerja berikut ini [10]:

STATISTIK INTERN: SEPTEMBER–DESEMBER 2003

Bekerja dengan Operasi Bola Basket

Tanggung jawab meliputi:

Menyusun dan mengubah data ke dalam format untuk digunakan dalam model statistik

Mengembangkan model peramalan statistik menggunakan regresi, regresi logistik, penambangan data, dll.

Menggunakan paket statistik seperti Minitab, SPSS, XLMiner

Pengalaman dalam mengembangkan model statistik merupakan pembeda, tetapi tidak diperlukan.

Kandidat yang telah menyelesaikan kursus statistik tingkat lanjut dengan pengetahuan yang kuat tentang bola
basket dan kecintaan pada permainan harus meneruskan r´esum´e dan surat lamaran Anda ke:

Boston Celtics
Direktur Sumber Daya Manusia
Jalan Merrimac 151
Boston, MA 02114

Ya, Boston Celtics sedang mencari penambang data. Mungkin penambang data Celtics
diperlukan untuk mengikuti New York Knicks, yang menggunakan perangkat lunak penambangan
data Advanced Scout milik IBM [11]. Pramuka Tingkat Lanjut, yang dikembangkan oleh tim yang
dipimpin oleh Inder sobat Bhandari, dirancang untuk mendeteksi pola dalam data. Penggemar
berat bola basket, Bhandari mendekati New York Knicks, yang setuju untuk mencobanya.
Perangkat lunak ini bergantung pada data yang disimpan oleh National Basketball Association,
dalam bentuk “event” di setiap pertandingan, seperti basket, tembakan, operan, rebound, double-
teaming, dan sebagainya. Ternyata, penggalian data menemukan pola yang ternyata terlewatkan oleh staf pelatih
Ketika pusat Knicks dua tim Chicago Bulls Patrick Ewing, persentase tembakan Knicks sangat
rendah, meskipun tim ganda harus membuka peluang bagi rekan setimnya untuk menembak.
Berdasarkan informasi ini, staf pelatih mampu mengembangkan strategi untuk menghadapi situasi
kerja sama ganda. Kemudian, 16 dari 29 tim NBA juga beralih ke Advanced Scout untuk
menambang data play-by-play.
Machine Translated by Google

4 BAB 1 PENDAHULUAN DATA MINING

MENGAPA DATA MINING?

Saat mengantri di supermarket besar, pernahkah Anda menutup mata dan mendengarkan? Apa
yang Anda dengar, selain dari anak-anak yang meminta permen? Anda mungkin mendengar bunyi
bip, bip, bunyi bip pemindai supermarket, membaca kode batang pada barang belanjaan, berdering
di register, dan menyimpan data di server yang terletak di kantor pusat supermarket. Setiap bunyi
bip menunjukkan baris baru dalam database, "pengamatan" baru dalam informasi yang dikumpulkan
tentang kebiasaan belanja keluarga Anda dan keluarga lain yang check out.

Jelas, banyak data yang dikumpulkan. Namun, apa yang dipelajari dari semua data ini?
Pengetahuan apa yang kita peroleh dari semua informasi ini? Mungkin, tergantung supermarketnya,
tidak banyak. Pada awal tahun 1984, dalam bukunya Megatrends [12], John Naisbitt mengamati
bahwa “kita tenggelam dalam informasi tetapi haus akan pengetahuan.” Masalahnya hari ini
bukanlah tidak cukupnya aliran data dan informasi. Faktanya, kita dibanjiri data di sebagian besar
bidang. Sebaliknya, masalahnya adalah bahwa tidak ada cukup analis manusia terlatih yang
terampil menerjemahkan semua data ini menjadi pengetahuan, dan kemudian naik pohon taksonomi
menjadi kebijaksanaan.

Pertumbuhan luar biasa yang sedang berlangsung di bidang penambangan data dan pengetahuan
penemuan telah didorong oleh pertemuan beruntung dari berbagai faktor:

Pertumbuhan eksplosif dalam pengumpulan data, seperti yang dicontohkan oleh pemindai
supermarket di atas

Penyimpanan data di gudang data, sehingga seluruh perusahaan memiliki akses ke database
terkini yang andal

Ketersediaan peningkatan akses ke data dari navigasi Web dan intranet


Tekanan persaingan untuk meningkatkan pangsa pasar dalam ekonomi global
Pengembangan suite perangkat lunak penambangan data komersial yang siap pakai
Pertumbuhan luar biasa dalam daya komputasi dan kapasitas penyimpanan

KEBUTUHAN MANUSIA ARAH DATA MINING

Banyak vendor perangkat lunak memasarkan perangkat lunak analitik mereka sebagai aplikasi
plug-and-play out-the-box yang akan memberikan solusi untuk masalah yang sulit diselesaikan
tanpa memerlukan pengawasan atau interaksi manusia. Beberapa definisi awal penambangan data
mengikuti fokus pada otomatisasi ini. Sebagai contoh, Berry dan Linoff, dalam buku mereka Data
Mining Techniques for Marketing, Sales and Customer Support [13], memberikan definisi berikut
untuk data mining: “Data mining adalah proses eksplorasi dan analisis, dengan cara otomatis atau
semi-otomatis. , dari sejumlah besar data untuk menemukan pola dan aturan yang berarti” (penekanan
ditambahkan). Tiga tahun kemudian, dalam sekuel mereka, Mastering Data Mining [14], penulis
meninjau kembali definisi mereka tentang penambangan data dan menyatakan: “Jika ada sesuatu
yang kami sesali, itu adalah ungkapan 'dengan cara otomatis atau semi-otomatis' karena kami
merasa ada terlalu banyak fokus...pada
Ini mempunyai
teknik otomatis dan tidak cukup pada eksplorasi dan analisis.
Machine Translated by Google

PROSES STANDAR LINTAS INDUSTRI: CRISP–DM 5

menyesatkan banyak orang untuk percaya bahwa data mining adalah produk yang dapat dibeli daripada disiplin
yang harus dikuasai.”
Dinyatakan dengan sangat baik! Otomatisasi bukanlah pengganti input manusia. Seperti yang akan kita
pelajari segera, manusia perlu terlibat secara aktif di setiap fase proses data mining. Georges Grinstein dari
University of Massachusetts di Lowell dan AnVil, Inc., menyatakan seperti ini [15]:

Bayangkan sebuah kotak hitam yang mampu menjawab setiap pertanyaan yang diajukan. Ada pertanyaan. Akankah
ini menghilangkan kebutuhan kita akan partisipasi manusia seperti yang disarankan banyak orang? Justru sebaliknya.
Masalah mendasar masih bermuara pada masalah antarmuka manusia. Bagaimana cara menyusun pertanyaan
dengan benar? Bagaimana cara mengatur parameter untuk mendapatkan solusi yang berlaku dalam kasus tertentu
yang saya minati? Bagaimana saya mendapatkan hasil dalam waktu yang wajar dan dalam bentuk yang dapat saya
pahami? Perhatikan bahwa semua pertanyaan menghubungkan proses penemuan dengan saya, untuk konsumsi
manusia saya.

Daripada bertanya di mana manusia cocok dengan penambangan data, kita sebaiknya bertanya tentang
bagaimana kita dapat merancang penambangan data ke dalam proses pemecahan masalah yang sangat manusiawi.
Lebih jauh, kekuatan algoritma penambangan data tangguh yang tertanam dalam perangkat lunak kotak
hitam yang saat ini tersedia membuat penyalahgunaannya secara proporsional lebih berbahaya. Seperti halnya
teknologi informasi baru, penambangan data mudah dilakukan dengan buruk. Peneliti mungkin menerapkan
analisis yang tidak tepat untuk kumpulan data yang memerlukan pendekatan yang sama sekali berbeda,
misalnya, atau model dapat diturunkan yang dibangun di atas asumsi yang sepenuhnya palsu. Oleh karena itu,
pemahaman tentang struktur model statistik dan matematis yang mendasari perangkat lunak diperlukan.

PROSES STANDAR LINTAS INDUSTRI: CRISP–DM

Ada godaan di beberapa perusahaan, karena kelembaman departemen dan pemisahan, untuk mendekati
penambangan data secara sembarangan, untuk menemukan kembali roda dan upaya duplikat. Standar lintas
industri jelas diperlukan yaitu netral industri, netral alat, dan netral aplikasi. Proses Standar Lintas Industri untuk
Data Mining (CRISP-DM) [16] dikembangkan pada tahun 1996 oleh analis yang mewakili DaimlerChrysler, SPSS,
dan NCR. CRISP menyediakan proses standar nonproprietary dan tersedia secara bebas untuk menyesuaikan
penambangan data ke dalam strategi pemecahan masalah umum dari bisnis atau unit penelitian.

Menurut CRISP-DM, proyek data mining tertentu memiliki siklus hidup yang terdiri dari enam fase, seperti
yang diilustrasikan pada Gambar 1.1. Perhatikan bahwa urutan fase adaptif.
Artinya, fase berikutnya dalam urutan sering tergantung pada hasil yang terkait dengan fase sebelumnya.
Ketergantungan paling signifikan antara fase ditunjukkan oleh panah. Sebagai contoh, anggaplah kita sedang
dalam tahap pemodelan.
Tergantung pada perilaku dan karakteristik model, kita mungkin harus kembali ke fase persiapan data untuk
penyempurnaan lebih lanjut sebelum melanjutkan ke fase evaluasi model.

Sifat iteratif CRISP dilambangkan dengan lingkaran luar pada Gambar 1.1.
Seringkali, solusi untuk masalah bisnis atau penelitian tertentu mengarah ke pertanyaan menarik lebih lanjut,
yang kemudian dapat diserang menggunakan proses umum yang sama seperti sebelumnya.
Machine Translated by Google

6 BAB 1 PENDAHULUAN DATA MINING

Bisnis / Penelitian Pemahaman Data


Fase Pemahaman Fase

Fase Penerapan Persiapan data


Fase

Tahap Evaluasi Fase Pemodelan

Gambar 1.1 CRISP–DM adalah proses adaptif yang berulang.

Pelajaran dari proyek-proyek masa lalu harus selalu dibawa sebagai masukan ke dalam
proyek-proyek baru. Berikut ini adalah garis besar dari setiap fase. Meskipun mungkin,
masalah yang dihadapi selama fase evaluasi dapat mengirim analis kembali ke salah satu
fase sebelumnya untuk perbaikan, untuk kesederhanaan kami hanya menunjukkan loop yang
paling umum, kembali ke fase pemodelan.

CRISP–DM: Enam Fase

1. Fase pemahaman bisnis. Fase pertama dalam standar CRISP–DM


proses juga dapat disebut fase pemahaman penelitian. sebuah.
Ucapkan tujuan dan persyaratan proyek dengan jelas dalam hal bisnis atau unit
penelitian secara keseluruhan.

b. Terjemahkan tujuan dan batasan ini ke dalam formulasi penambangan data


definisi masalah.
c. Siapkan strategi awal untuk mencapai tujuan tersebut.
2. Fase pemahaman data
sebuah. Kumpulkan datanya.
Machine Translated by Google

PROSES STANDAR LINTAS INDUSTRI: CRISP–DM 7

b. Gunakan analisis data eksplorasi untuk membiasakan diri Anda dengan data dan menemukan
wawasan awal. c. Mengevaluasi kualitas data. d. Jika diinginkan, pilih subset menarik yang

mungkin berisi pola yang dapat ditindaklanjuti.

3. Tahap persiapan data

sebuah. Siapkan dari data mentah awal kumpulan data akhir yang akan digunakan untuk semua
fase-fase berikutnya. Fase ini sangat padat karya.

b. Pilih kasus dan variabel yang ingin Anda analisis dan yang sesuai untuk analisis Anda.

c. Lakukan transformasi pada variabel tertentu, jika diperlukan.

d. Bersihkan data mentah sehingga siap untuk alat pemodelan.

4. Fase pemodelan

sebuah. Memilih dan menerapkan teknik pemodelan yang sesuai. b.

Kalibrasi pengaturan model untuk mengoptimalkan hasil. c. Ingatlah

bahwa seringkali, beberapa teknik berbeda dapat digunakan untuk masalah data mining yang sama.

d. Jika perlu, ulangi kembali ke fase persiapan data untuk membawa bentuk data sesuai dengan
persyaratan khusus dari teknik data mining tertentu.

5. Tahap evaluasi

sebuah. Evaluasi satu atau lebih model yang disampaikan dalam fase pemodelan untuk kualitas
dan efektivitasnya sebelum digunakan untuk digunakan di lapangan.

b. Tentukan apakah model sebenarnya mencapai tujuan yang ditetapkan dalam


fase pertama.

c. Tetapkan apakah beberapa aspek penting dari bisnis atau masalah penelitian
belum diperhitungkan secara memadai. d.

Mengambil keputusan tentang penggunaan hasil data mining.

6. Fase penyebaran a.

Manfaatkan model yang dibuat: Pembuatan model tidak berarti com


penyelesaian suatu proyek.

b. Contoh penerapan sederhana: Buat laporan. c. Contoh penerapan

yang lebih kompleks: Menerapkan proses penambangan data paralel di departemen lain.

d. Untuk bisnis, pelanggan sering melakukan penerapan berdasarkan


model.

Anda dapat menemukan lebih banyak informasi tentang proses standar CRISP–DM di www.crisp-
dm.org. Selanjutnya, kita beralih ke contoh perusahaan yang menerapkan CRISP– DM untuk masalah bisnis.
Machine Translated by Google

8 BAB 1 PENDAHULUAN DATA MINING

STUDI KASUS 1
MENGANALISIS KLAIM GARANSI MOBIL: CONTOHNYA
PROSES STANDAR INDUSTRI CRISP–DM BERAKSI [17]

Jaminan kualitas terus menjadi prioritas bagi produsen mobil, termasuk Daimler Chrysler. Jochen Hipp dari
University of Tubingen, Jerman, dan Guido Lindner dari Daim lerChrysler AG, Jerman, menyelidiki pola dalam
klaim garansi untuk mobil DaimlerChrysler.

1. Fase Pemahaman Bisnis

Tujuan DaimlerChrysler adalah untuk mengurangi biaya yang terkait dengan klaim garansi dan meningkatkan
kepuasan pelanggan. Melalui percakapan dengan para insinyur pabrik, yang merupakan pakar teknis dalam
pembuatan kendaraan, para peneliti dapat merumuskan masalah bisnis tertentu, seperti berikut:

Apakah ada saling ketergantungan di antara klaim garansi?

Apakah klaim garansi sebelumnya terkait dengan klaim serupa di masa mendatang?

Apakah ada hubungan antara jenis klaim tertentu dan garasi tertentu?

Rencananya adalah untuk menerapkan teknik penambangan data yang tepat untuk mencoba mengungkap ini dan lainnya
asosiasi yang mungkin.

2. Tahap Pemahaman Data

Para peneliti menggunakan Sistem Informasi Kualitas (QUIS) DaimlerChrysler, yang berisi informasi tentang lebih
dari 7 juta kendaraan dan berukuran sekitar 40 gigabyte. QUIS berisi rincian produksi tentang bagaimana dan di
mana kendaraan tertentu dibangun, termasuk rata-rata 30 atau lebih kode penjualan untuk setiap kendaraan.
QUIS juga menyertakan informasi klaim garansi, yang disediakan oleh bengkel, dalam bentuk salah satu dari
lebih dari 5000 potensi yang mungkin
penyebab.

Para peneliti menekankan fakta bahwa database sama sekali tidak dapat dipahami oleh domain non-ahli:
“Jadi para ahli dari departemen yang berbeda harus ditempatkan dan dikonsultasikan; singkatnya tugas yang
ternyata agak mahal.” Mereka menekankan bahwa analis tidak boleh meremehkan pentingnya, kesulitan, dan
potensi biaya dari fase awal proses penambangan data ini, dan bahwa jalan pintas di sini dapat menyebabkan
pengulangan proses hilir yang mahal.

3. Tahap Persiapan Data

Para peneliti menemukan bahwa meskipun relasional, database QUIS memiliki akses SQL yang terbatas.
Mereka perlu memilih kasus dan variabel yang menarik secara manual, dan kemudian secara manual menurunkan
variabel baru yang dapat digunakan untuk fase pemodelan. Misalnya, variabel jumlah hari dari tanggal penjualan
sampai klaim pertama harus diturunkan dari atribut tanggal yang sesuai.
Mereka kemudian beralih ke perangkat lunak penambangan data berpemilik, yang telah digunakan di
DaimlerChrysler pada proyek-proyek sebelumnya. Di sini mereka mengalami hambatan umum—bahwa
persyaratan format data bervariasi dari satu algoritme ke algoritme lainnya. Hasilnya adalah pra-pemrosesan
data yang lebih lengkap, untuk mengubah atribut menjadi bentuk yang dapat digunakan untuk algoritma model.
Para peneliti menyebutkan bahwa tahap persiapan data memakan waktu lebih lama dari yang mereka rencanakan.
Machine Translated by Google

PROSES STANDAR LINTAS INDUSTRI: CRISP–DM 9

4. Fase Pemodelan

Karena masalah bisnis keseluruhan dari fase 1 adalah untuk menyelidiki ketergantungan di antara klaim
perang, para peneliti memilih untuk menerapkan teknik berikut: (1) jaringan Bayesian dan (2) aturan asosiasi.
Jaringan Bayesian memodelkan ketidakpastian dengan secara eksplisit mewakili ketergantungan bersyarat di
antara berbagai komponen, sehingga memberikan visualisasi grafis dari hubungan ketergantungan antar
komponen. Dengan demikian, jaringan Bayesian merupakan pilihan alami untuk ketergantungan pemodelan
antara klaim garansi. Penambangan aturan asosiasi tercakup dalam Bab 10. Aturan asosiasi juga merupakan
cara alami untuk menyelidiki ketergantungan di antara klaim garansi karena ukuran kepercayaan mewakili jenis
probabilitas bersyarat, mirip dengan jaringan Bayesian.

Detail hasil bersifat rahasia, tetapi kita dapat memperoleh gambaran umum tentang jenis dependensi yang
ditemukan oleh model. Satu wawasan yang ditemukan para peneliti adalah bahwa kombinasi tertentu dari
spesifikasi konstruksi menggandakan kemungkinan menghadapi masalah kabel listrik mobil. Insinyur
DaimlerChrysler telah mulai menyelidiki bagaimana kombinasi faktor ini dapat menyebabkan peningkatan
masalah kabel.
Para peneliti menyelidiki apakah garasi tertentu memiliki klaim garansi lebih dari jenis tertentu daripada
garasi lainnya. Hasil aturan asosiasi mereka menunjukkan bahwa, memang, tingkat kepercayaan untuk aturan
"Jika garasi X, maka masalah kabel," sangat bervariasi dari garasi ke garasi.
Mereka menyatakan bahwa penyelidikan lebih lanjut diperlukan untuk mengungkapkan alasan perbedaan tersebut.

5. Tahap Evaluasi

Para peneliti kecewa karena dukungan untuk aturan asosiasi tipe sekuensial relatif kecil, sehingga menghalangi
generalisasi hasil, menurut pendapat mereka. Secara keseluruhan, faktanya, para peneliti menyatakan:
“Faktanya, kami tidak menemukan aturan apa pun yang akan dinilai oleh pakar domain kami sebagai hal yang
menarik, setidaknya pada pandangan pertama.” Menurut kriteria ini, kemudian, model ditemukan kurang efektif
dan gagal mencapai tujuan yang ditetapkan untuk mereka dalam fase pemahaman bisnis. Untuk menjelaskan
hal ini, para peneliti menunjuk pada struktur "warisan" dari database, di mana suku cadang mobil dikategorikan
oleh garasi dan pabrik karena alasan historis atau teknis dan tidak dirancang untuk penambangan data. Mereka
menyarankan untuk mengadaptasi dan mendesain ulang database agar lebih sesuai dengan penemuan
pengetahuan.

6. Fase Penerapan

Para peneliti telah mengidentifikasi proyek sebelumnya sebagai proyek percontohan, dan karena itu, tidak
bermaksud untuk menyebarkan model skala besar apa pun dari iterasi pertama ini. Setelah proyek percontohan,
bagaimanapun, mereka telah menerapkan pelajaran dari proyek ini, dengan tujuan untuk mengintegrasikan
metode mereka dengan lingkungan teknologi informasi yang ada di DaimlerChrysler. Untuk lebih mendukung
tujuan awal menurunkan biaya klaim, mereka bermaksud untuk mengembangkan kemampuan penambangan
intranet yang menawarkan QUIS untuk semua karyawan perusahaan.

Pelajaran apa yang bisa kita ambil dari studi kasus ini? Pertama, kesan umum yang menarik
adalah bahwa mengungkap nugget tersembunyi pengetahuan dalam database adalah jalan berbatu.
Di hampir setiap fase, para peneliti mengalami hambatan dan kesulitan yang tidak terduga.
Ini memberitahu kita bahwa sebenarnya menerapkan data mining untuk pertama kalinya di sebuah
perusahaan mengharuskan orang untuk melakukan sesuatu yang baru dan berbeda, yang tidak selalu diterima.
Oleh karena itu, jika mereka mengharapkan hasil, manajemen perusahaan harus 100% mendukung
inisiatif data mining baru.
Machine Translated by Google

10 BAB 1 PENDAHULUAN DATA MINING

Pelajaran lain yang menarik adalah bahwa partisipasi dan pengawasan manusia yang intens
diperlukan pada setiap tahap proses data mining. Misalnya, algoritme memerlukan format data tertentu, yang
mungkin memerlukan pra-pemrosesan yang substansial (lihat Bab 2).
Terlepas dari apa yang diklaim oleh beberapa iklan vendor perangkat lunak, Anda tidak dapat hanya membeli
beberapa perangkat lunak penambangan data, menginstalnya, duduk santai, dan melihatnya menyelesaikan
semua masalah Anda. Penambangan data bukanlah sihir. Tanpa pengawasan manusia yang terampil,
penggunaan perangkat lunak penambangan data secara buta hanya akan memberi Anda jawaban yang
salah untuk pertanyaan yang salah yang diterapkan pada jenis data yang salah. Analisis yang salah lebih
buruk daripada tidak ada analisis, karena mengarah pada rekomendasi kebijakan yang mungkin akan menjadi
kegagalan yang mahal.
Akhirnya, dari studi kasus ini kita dapat mengambil pelajaran bahwa tidak ada jaminan hasil positif
ketika menambang data untuk pengetahuan yang dapat ditindaklanjuti, seperti halnya ketika seseorang
menambang emas. Data mining bukanlah obat mujarab untuk memecahkan masalah bisnis. Tetapi digunakan
dengan benar, oleh orang-orang yang memahami model yang terlibat, persyaratan data, dan tujuan proyek
secara keseluruhan, penambangan data memang dapat memberikan hasil yang dapat ditindaklanjuti dan
sangat menguntungkan.

KESALAHAN DATA MINING

Berbicara di depan Subkomite Dewan Perwakilan Rakyat AS tentang Teknologi, Kebijakan Informasi,
Hubungan Antar Pemerintah, dan Sensus, Jen Que Louie, presiden Nautilus Systems, Inc., menjelaskan
empat kekeliruan data mining [18]. Dua dari kekeliruan ini sejajar dengan peringatan yang kami jelaskan di
atas.

Kekeliruan 1. Ada alat penambangan data yang dapat kita lepaskan pada repositori data kita dan
gunakan untuk menemukan jawaban atas masalah kita. Kenyataan . Tidak ada alat penambangan

data otomatis yang akan menyelesaikan masalah Anda secara mekanis "sambil menunggu."
Sebaliknya, penambangan data adalah sebuah proses, seperti yang telah kita lihat di atas. CRISP–
DM adalah salah satu metode untuk menyesuaikan proses penambangan data ke dalam rencana
aksi bisnis atau penelitian secara keseluruhan.

Kekeliruan 2. Proses penambangan data bersifat otonom, membutuhkan sedikit atau tanpa
pengawasan manusia.

Realitas . Seperti yang kita lihat di atas, proses penambangan data membutuhkan interaktivitas
manusia yang signifikan di setiap tahap. Bahkan setelah model di-deploy, pengenalan data baru
sering kali membutuhkan pembaruan model. Pemantauan kualitas terus-menerus dan tindakan
evaluatif lainnya harus dinilai oleh analis manusia.

Kekeliruan 3. Penambangan data membayar dengan sendirinya dengan cukup cepat.

Realitas . Tingkat pengembalian bervariasi, tergantung pada biaya awal, analisis per
biaya sonnel, biaya persiapan pergudangan data, dan sebagainya.

Kekeliruan 4. Paket perangkat lunak penambangan data intuitif dan mudah digunakan.

Realitas . Sekali lagi, kemudahan penggunaan bervariasi. Namun, analis data harus menggabungkan
pengetahuan materi pelajaran dengan pikiran analitis dan keakraban dengan model bisnis atau
penelitian secara keseluruhan.
Machine Translated by Google

TUGAS APA YANG DAPAT DATA MINING MENCAPAI? 11

Pada daftar di atas, kami menambahkan dua kesalahan umum


tambahan: Kekeliruan 5. Penambangan data akan mengidentifikasi penyebab masalah
bisnis atau penelitian kami. Realitas . Proses penemuan pengetahuan akan membantu
Anda mengungkap pola
dari perilaku. Sekali lagi, terserah manusia untuk mengidentifikasi penyebabnya.

Kekeliruan 6. Penambangan data akan membersihkan database yang


berantakan secara otomatis. Realitas . Yah, tidak secara otomatis. Sebagai tahap awal
dalam proses data mining, persiapan data seringkali berkaitan dengan data yang sudah
bertahun-tahun tidak diperiksa atau digunakan. Oleh karena itu, organisasi yang memulai
operasi penambangan data baru akan sering dihadapkan dengan masalah data yang
telah ada selama bertahun-tahun, usang, dan perlu diperbarui.

Pembahasan di atas mungkin disebut apa yang tidak bisa atau tidak boleh dilakukan oleh data mining.
Selanjutnya kita beralih ke diskusi tentang apa yang dapat dilakukan oleh data mining.

TUGAS APA YANG DAPAT DATA MINING MENCAPAI?

Selanjutnya, kami menyelidiki tugas utama yang biasanya diminta untuk diselesaikan oleh data
mining. Daftar berikut menunjukkan tugas penambangan data yang paling umum.
Keterangan
Perkiraan
Ramalan
Klasifikasi

Kekelompokan

Asosiasi

Keterangan
Terkadang, peneliti dan analis hanya mencoba menemukan cara untuk menggambarkan pola dan
tren yang ada di dalam data. Misalnya, lembaga survei mungkin menemukan bukti bahwa mereka
yang diberhentikan cenderung tidak mendukung petahana saat ini dalam pemilihan presiden.
Deskripsi pola dan tren sering kali menyarankan kemungkinan penjelasan untuk pola dan tren
tersebut. Misalnya, mereka yang diberhentikan sekarang kurang mampu secara finansial daripada
sebelum petahana terpilih, dan cenderung lebih memilih alternatif.

Model penambangan data harus setransparan mungkin. Artinya, hasil dari model data
mining harus menggambarkan pola yang jelas yang dapat diterima secara intuitif dalam interpretasi
dan penjelasan. Beberapa metode data mining lebih cocok daripada yang lain untuk interpretasi
transparan. Misalnya, pohon keputusan memberikan penjelasan yang intuitif dan ramah manusia
tentang hasilnya. Di sisi lain, jaringan saraf relatif buram untuk nonspesialis, karena nonlinier dan
kompleksitas model.
Deskripsi berkualitas tinggi sering dapat dicapai dengan analisis data eksplorasi, metode
grafis untuk mengeksplorasi data untuk mencari pola dan tren. Kami melihat analisis data
eksplorasi di Bab 3.
Machine Translated by Google

12 BAB 1 PENDAHULUAN DATA MINING

Perkiraan
Estimasi mirip dengan klasifikasi kecuali bahwa variabel target adalah numerik daripada
kategoris. Model dibangun menggunakan catatan "lengkap", yang memberikan nilai variabel
target serta prediktor. Kemudian, untuk observasi baru, dibuat estimasi nilai variabel target,
berdasarkan nilai prediktor.
Misalnya, kita mungkin tertarik untuk memperkirakan pembacaan tekanan darah sistolik pasien
rumah sakit, berdasarkan usia pasien, jenis kelamin, indeks massa tubuh, dan kadar natrium
darah. Hubungan antara tekanan darah sistolik dan variabel prediktor dalam set pelatihan akan
memberi kita model estimasi. Kami kemudian dapat menerapkan model itu ke kasus baru.

Contoh tugas estimasi dalam bisnis dan penelitian meliputi:

Memperkirakan jumlah uang yang akan dibelanjakan oleh keluarga yang terdiri dari empat orang yang dipilih secara
acak untuk belanja kembali ke sekolah musim gugur ini.

Memperkirakan persentase penurunan gerakan berputar yang ditopang oleh Liga Sepak
Bola Nasional yang berlari kembali dengan cedera lutut.
Memperkirakan jumlah poin per game yang akan dicetak Patrick Ewing saat bermain
ganda di babak playoff.
Memperkirakan nilai rata-rata (IPK) mahasiswa pascasarjana, berdasarkan IPK sarjana
mahasiswa tersebut.

Pertimbangkan Gambar 1.2, di mana kita memiliki sebar plot rata-rata nilai lulusan (IPK)
terhadap IPK sarjana untuk 1000 siswa. Regresi linier sederhana memungkinkan kita untuk
menemukan garis yang paling mendekati hubungan antara dua variabel ini, menurut kriteria
kuadrat terkecil. Garis regresi, yang ditunjukkan dengan warna biru pada Gambar 1.2, kemudian
dapat digunakan untuk memperkirakan IPK lulusan seorang siswa berdasarkan IPK sarjana
siswa tersebut. Di sini, persamaan garis regresi (seperti yang dihasilkan oleh paket statistik
Minitab, yang juga menghasilkan grafik) adalah yˆ = 1,24 + 0,67x. Ini memberitahu kita bahwa
perkiraan IPK lulusan yˆ sama dengan 1,24 plus

3.25
3

234

IPK sarjana
Gambar 1.2 Estimasi regresi terletak pada garis regresi.
Machine Translated by Google

TUGAS APA YANG DAPAT DATA MINING MENCAPAI? 13

0,67 kali IPK sarjana mahasiswa. Misalnya, jika IPK sarjana Anda adalah 3.0, perkiraan IPK
lulusan Anda adalah yˆ = 1,24 + 0,67(3) = 3,25. Perhatikan bahwa titik ini (x = 3.0, yˆ = 3.25)
terletak tepat pada garis regresi, seperti halnya semua prediksi regresi linier.

Bidang analisis statistik menyediakan beberapa metode estimasi yang terkenal dan
banyak digunakan. Ini termasuk estimasi titik dan estimasi interval kepercayaan, regresi linier
sederhana dan korelasi, dan regresi berganda. Kami memeriksa metode ini di Bab 4. Jaringan
saraf (Bab 7) juga dapat digunakan untuk estimasi.

Ramalan
Prediksi mirip dengan klasifikasi dan estimasi, kecuali untuk prediksi, hasilnya terletak di masa
depan. Contoh tugas prediksi dalam bisnis dan penelitian meliputi:

Memprediksi harga saham tiga bulan ke depan (Gambar 1.3)


Memprediksi persentase peningkatan kematian lalu lintas tahun depan jika batas
kecepatan dinaikkan

Memprediksi pemenang Seri Dunia bisbol musim gugur ini, berdasarkan perbandingan
statistik tim

Memprediksi apakah molekul tertentu dalam penemuan obat akan menghasilkan obat
baru yang menguntungkan bagi perusahaan farmasi

Setiap metode dan teknik yang digunakan untuk klasifikasi dan estimasi juga dapat
digunakan, dalam keadaan yang sesuai, untuk prediksi. Ini termasuk metode statistik tradisional
estimasi titik dan estimasi interval kepercayaan, regresi linier sederhana dan korelasi, dan
regresi berganda, diselidiki dalam Bab 4, serta penambangan data dan metode penemuan
pengetahuan seperti jaringan saraf (Bab 7), pohon keputusan ( Bab 6), dan metode k-nearest
neighbor (Bab 5). Aplikasi prediksi menggunakan jaringan saraf diperiksa nanti dalam bab
dalam Studi Kasus 2.

Kuartal 1 Kuartal ke-2 Kuartal ke-3 Kuartal ke-4

Gambar 1.3 Memprediksi harga suatu saham tiga bulan ke depan.


Machine Translated by Google

14 BAB 1 PENDAHULUAN DATA MINING

Klasifikasi
Dalam klasifikasi, ada variabel kategoris target, seperti braket pendapatan, yang,
misalnya, dapat dipartisi menjadi tiga kelas atau kategori: berpenghasilan tinggi, menengah
pendapatan, dan pendapatan rendah. Model data mining memeriksa satu set besar catatan, masing-masing
catatan yang berisi informasi tentang variabel target serta satu set input atau prediktor
variabel. Sebagai contoh, perhatikan kutipan dari kumpulan data yang ditunjukkan pada Tabel 1.1.
Misalkan peneliti ingin dapat mengklasifikasikan kurung pendapatan dari
orang yang saat ini tidak ada dalam database, berdasarkan karakteristik lain yang terkait dengan
orang tersebut, seperti usia, jenis kelamin, dan pekerjaan. Tugas ini adalah tugas klasifikasi, sangat
sangat cocok untuk metode dan teknik penambangan data. Algoritma akan dilanjutkan
kurang lebih sebagai berikut. Pertama, periksa kumpulan data yang berisi kedua variabel prediktor
dan variabel target (sudah diklasifikasikan), kelompok pendapatan. Dengan cara ini, algoritma
(perangkat lunak) "belajar tentang" kombinasi variabel mana yang terkait dengannya
kurung pendapatan. Misalnya, wanita yang lebih tua mungkin diasosiasikan dengan pendapatan tinggi
mengurung. Kumpulan data ini disebut kumpulan pelatihan. Kemudian algoritma akan melihat
catatan baru, di mana tidak ada informasi tentang braket pendapatan yang tersedia. Berdasarkan
klasifikasi dalam set pelatihan, algoritme akan menetapkan klasifikasi ke
catatan baru. Misalnya, seorang profesor wanita berusia 63 tahun mungkin diklasifikasikan dalam
kelompok berpenghasilan tinggi.

Contoh tugas klasifikasi dalam bisnis dan penelitian meliputi:

Menentukan apakah transaksi kartu kredit tertentu adalah penipuan

Menempatkan mahasiswa baru pada jalur tertentu yang berkaitan dengan kebutuhan khusus

Menilai apakah aplikasi hipotek adalah risiko kredit yang baik atau buruk

Mendiagnosis apakah ada penyakit tertentu

Menentukan apakah surat wasiat ditulis oleh almarhum yang sebenarnya, atau curang
oleh orang lain

Mengidentifikasi apakah perilaku keuangan atau pribadi tertentu menunjukkan a


kemungkinan ancaman teroris

Sebagai contoh, dalam bidang medis, misalkan kita tertarik untuk mengklasifikasikan
jenis obat yang harus diresepkan pasien, berdasarkan karakteristik pasien tertentu,
seperti usia pasien dan rasio natrium/kalium pasien. Gambar 1.4 adalah
plot pencar rasio natrium/kalium pasien terhadap usia pasien untuk sampel
dari 200 pasien. Obat tertentu yang diresepkan dilambangkan dengan warna
poin. Titik abu-abu terang menunjukkan obat Y; titik abu-abu sedang menunjukkan obat A atau X;

TABEL 1.1 Kutipan dari Kumpulan Data untuk Mengklasifikasikan Pendapatan

Subjek Usia Jenis kelamin Pekerjaan Golongan pendapatan

001 47 F Insinyur perangkat lunak Tinggi


002 28 M Konsultan pemasaran Tengah
003 35 M Penganggur Rendah

.
.
.
Machine Translated by Google

TUGAS APA YANG DAPAT DATA MINING MENCAPAI? 15

40

30

20

10

10 20 30 40 50 60 70
Usia

Gambar 1.4 Obat apa yang harus diresepkan untuk jenis pasien yang mana?

titik abu-abu gelap menunjukkan obat B atau C. Plot ini dibuat menggunakan suite perangkat lunak
penambangan data Clementine, yang diterbitkan oleh SPSS.
Pada scatter plot ini, Na/K (rasio natrium/kalium) diplot pada sumbu Y (vertikal) dan usia diplot
pada sumbu X (horizontal). Misalkan kita mendasarkan rekomendasi resep kita pada kumpulan data
ini.

1. Obat mana yang harus diresepkan untuk pasien muda dengan rasio natrium/kalium yang tinggi?
Pasien muda berada di sebelah kiri pada grafik, dan rasio natrium/kalium yang tinggi berada di

bagian atas, yang menunjukkan bahwa pasien muda sebelumnya dengan rasio natrium/kalium
tinggi diberi resep obat Y (titik abu-abu muda). Klasifikasi prediksi yang direkomendasikan
untuk pasien tersebut adalah obat Y.

2. Obat mana yang harus diresepkan untuk pasien yang lebih tua dengan natrium/kalium rendah?
rasio?

Pasien di kanan bawah grafik telah menggunakan resep yang berbeda, ditunjukkan dengan
abu-abu tua (obat B dan C) atau abu-abu sedang (obat A dan X). Tanpa informasi yang lebih
spesifik, klasifikasi definitif tidak dapat dibuat di sini. Misalnya, mungkin obat ini memiliki
interaksi yang bervariasi dengan beta-blocker, estrogen, atau obat lain, atau dikontraindikasikan
untuk kondisi seperti asma atau penyakit jantung.

Grafik dan plot sangat membantu untuk memahami hubungan dua dan tiga dimensi dalam
data. Tetapi terkadang klasifikasi perlu didasarkan pada banyak prediktor yang berbeda, membutuhkan
plot banyak dimensi. Oleh karena itu, kita perlu beralih ke model yang lebih canggih untuk melakukan
tugas klasifikasi kita. Metode data mining yang umum digunakan untuk klasifikasi adalah k-nearest
tetangga (Bab 5), pohon keputusan (Bab 6), dan jaringan saraf (Bab 7). Aplikasi klasifikasi menggunakan
pohon keputusan diperiksa dalam Studi Kasus 4.
Machine Translated by Google

16 BAB 1 PENDAHULUAN DATA MINING

Kekelompokan

Clustering mengacu pada pengelompokan record, observasi, atau kasus ke dalam kelas-kelas
objek serupa. Cluster adalah kumpulan record yang mirip satu sama lain, dan
berbeda dengan record di cluster lain. Pengelompokan berbeda dari klasifikasi dalam hal itu
tidak ada variabel target untuk pengelompokan. Tugas pengelompokan tidak mencoba untuk mengklasifikasikan,
memperkirakan, atau memprediksi nilai variabel target. Sebagai gantinya, algoritma pengelompokan mencari
untuk mengelompokkan seluruh kumpulan data ke dalam subkelompok atau klaster yang relatif homogen,
di mana kesamaan catatan dalam cluster dimaksimalkan dan kesamaan
untuk catatan di luar cluster diminimalkan.

Claritas, Inc. [19] bergerak dalam bisnis pengelompokan. Di antara layanan yang mereka berikan
adalah profil demografis dari masing-masing wilayah geografis di negara tersebut, sebagaimana didefinisikan
dengan kode pos. Salah satu mekanisme clustering yang mereka gunakan adalah segmentasi PRIZM
sistem, yang menjelaskan setiap area kode pos AS dalam hal jenis gaya hidup yang berbeda
(Tabel 1.2). Cukup buka situs web perusahaan [19], masukkan kode pos tertentu, dan
Anda akan diperlihatkan kluster PRIZM paling umum untuk kode pos tersebut.
Apa yang dimaksud dengan cluster-cluster ini? Sebagai ilustrasi, mari kita cari cluster untuk
kode pos 90210, Beverly Hills, California. Cluster yang dihasilkan untuk kode pos 90210
adalah:

Cluster 01: Perkebunan Darah Biru

Cluster 10: Campuran Bohemian

Gugus 02: Lingkaran Pemenang

Kelompok 07: Uang dan Otak

Gugus 08: Literasi Muda

TABEL 1.2 62 Cluster yang Digunakan oleh Sistem Segmentasi PRIZM

01 Blue Blood Estates 02 Winner's Circle 03 Executive Suites 04 Kolam & Teras

05 Anak & Jalan buntu 06 Urban Gold Coast 07 Uang & Otak 08 Literasi Muda
09 American Dreams 10 Campuran Bohemian 11 Second City Elite 12 Terikat Ke Atas
13 Kekuatan Abu-abu 14 Negara Mengawasi 15 Negara Dewa 16 Ikan Besar, Kolam Kecil
17 Keluarga Greenbelt 18 Anak Muda Berpengaruh 19 Sarang Kosong Baru 20 Boomer & Bayi
21 Pemekaran Pinggiran Kota 22 Blue-Chip Blues 23 Pemula & Senior 24 Awal Baru
25 Mobilitas Blues 26 Kerah Abu-abu 27 Urban Achievers 28 Campuran Kota Besar

29 Old Yankee Rows 30 Campuran Kota Tengah 31 Amerika Latin 32 Manajer Middleburg
33 Boomtown Singles 34 Keluarga Pemula 35 Sunset City Blues 36 Kota & Gaun
37 Penghuni Rumah Baru 38 Amerika Tengah 39 Merah, Putih & Biru 40 Perempat Militer
41 Keluarga Langit Besar 42 Eco-topia Baru 43 River City, AS 44 Senapan & Pickup
45 Single City Blues 46 Campuran Hispanik 47 Kota Dalam 48 Pusat Kota Kecil

49 Hometown Pensiun 50 Keluarga Perebutan 51 Southside City 52 Kolam Emas


53 Industri Pedesaan 54 Norma Rae-Ville 55 Pertambangan & Pabrik 56 Agri-Bisnis
57 Sabuk Gandum 58 Blue Highways 59 Pedesaan Sesepuh 60 Orang Pedesaan Kembali
61 Scrub Pine Flats 62 Keras Scrabble

Sumber: Clarity, Inc.


Machine Translated by Google

TUGAS APA YANG DAPAT DATA MINING MENCAPAI? 17

Deskripsi untuk kluster 01, Blue Blood Estates, adalah: “Eksekutif yang mapan, profesional, dan ahli
waris 'uang lama' yang tinggal di pinggiran kota terkaya di Amerika. Mereka terbiasa dengan hak istimewa
dan hidup mewah—sepersepuluh dari anggota kelompok ini adalah multimiliuner. Tingkat kemakmuran
berikutnya adalah penurunan tajam dari puncak ini.”
Contoh tugas pengelompokan dalam bisnis dan penelitian meliputi:

Targetkan pemasaran produk niche untuk bisnis bermodal kecil yang tidak memiliki anggaran
pemasaran yang besar

Untuk tujuan audit akuntansi, untuk mengelompokkan perilaku keuangan ke dalam kategori yang
tidak berbahaya dan mencurigakan
Sebagai alat pengurangan dimensi ketika kumpulan data memiliki ratusan atribut

Untuk pengelompokan ekspresi gen, di mana jumlah gen yang sangat besar dapat menunjukkan
perilaku yang serupa

Clustering sering dilakukan sebagai langkah awal dalam proses data mining, dengan cluster yang
dihasilkan digunakan sebagai input lebih lanjut ke dalam teknik hilir yang berbeda, seperti jaringan saraf.
Kami membahas pengelompokan hierarkis dan k-means di Bab 8 dan jaringan Kohonen di Bab 9. Aplikasi
pengelompokan diperiksa dalam Studi Kasus 5.

Asosiasi
Tugas asosiasi untuk data mining adalah tugas menemukan atribut mana yang “bersama-sama”. Paling
umum di dunia bisnis, di mana dikenal sebagai analisis afinitas atau analisis keranjang pasar, tugas asosiasi
berusaha mengungkap aturan untuk mengukur hubungan antara dua atau lebih atribut. Aturan asosiasi
dalam bentuk "Jika anteseden, maka konsekuen," bersama dengan ukuran dukungan dan kepercayaan
yang terkait dengan aturan. Misalnya, supermarket tertentu mungkin menemukan bahwa dari 1000
pelanggan yang berbelanja pada Kamis malam, 200 membeli popok, dan dari 200 pelanggan yang membeli
popok, 50 membeli bir. Jadi, aturan asosiasinya adalah “Jika beli dia pers, maka beli bir” dengan dukungan
200/1000 = 20% dan kepercayaan 50/200 = 25%.

Contoh tugas asosiasi dalam bisnis dan penelitian meliputi:

Menyelidiki proporsi pelanggan paket telepon seluler perusahaan yang merespons secara positif
tawaran peningkatan layanan

Memeriksa proporsi anak-anak yang orang tuanya membacakan untuk mereka yang merupakan
pembaca yang baik

Memprediksi degradasi dalam jaringan telekomunikasi

Mencari tahu barang mana di supermarket yang dibeli bersama dan barang mana yang tidak pernah
dibeli bersama

Menentukan proporsi kasus di mana obat baru akan menunjukkan efek samping yang berbahaya

Kami membahas dua algoritma untuk menghasilkan aturan asosiasi, algoritma apriori dan algoritma
GRI, di Bab 10. Aturan asosiasi digunakan dalam Studi Kasus 1. Kami memeriksa aplikasi lain dari aturan
asosiasi dalam Studi Kasus 3.
Machine Translated by Google

18 BAB 1 PENDAHULUAN DATA MINING

Selanjutnya kita memeriksa empat studi kasus, yang masing-masing menunjukkan


tugas penambangan data dalam konteks proses standar penambangan data CRISP-DM.

STUDI KASUS 2
MEMPREDIKSI PENGEMBALIAN PASAR SAHAM ABNORMAL
MENGGUNAKAN JARINGAN SARAF [20]

1. Tahap Pemahaman Bisnis/Penelitian

Alan M. Safer, dari California State University–Long Beach, melaporkan bahwa perdagangan pasar saham yang
dilakukan oleh orang dalam biasanya memiliki hasil abnormal. Peningkatan keuntungan dapat dilakukan oleh pihak
luar dengan menggunakan informasi perdagangan orang dalam yang sah, terutama dengan berfokus pada atribut
seperti ukuran perusahaan dan kerangka waktu untuk prediksi. Safer tertarik menggunakan metode data mining
untuk meningkatkan kemampuan memprediksi pengembalian harga saham abnormal yang timbul dari perdagangan
orang dalam yang sah.

2. Tahap Pemahaman Data

Data yang dikumpulkan lebih aman dari 343 perusahaan, terbentang dari Januari 1993 hingga Juni 1997
(sumber data adalah Komisi Sekuritas dan Bursa). Saham yang digunakan dalam penelitian ini adalah
semua saham yang memiliki catatan orang dalam untuk seluruh periode dan berada di S&P 600, S&P
400, atau S&P 500 (masing-masing dengan kapitalisasi kecil, sedang, dan besar) per Juni 1997. Dari
946 saham yang dihasilkan yang memenuhi deskripsi ini, Safer hanya memilih saham yang menjalani
setidaknya dua pesanan pembelian per tahun, untuk memastikan jumlah data transaksi yang cukup untuk
analisis penambangan data. Ini menghasilkan 343 saham yang digunakan untuk penelitian. Variabel
dalam kumpulan data asli meliputi perusahaan, nama dan pangkat orang dalam, tanggal transaksi, harga
saham, jumlah saham yang diperdagangkan, jenis transaksi (beli atau jual), dan jumlah saham yang
dimiliki setelah perdagangan. Untuk menilai pola perdagangan orang dalam sebelumnya, penelitian ini
memeriksa 9 dan 18 minggu sebelumnya dari sejarah perdagangan. Kerangka waktu prediksi untuk
memprediksi pengembalian abnormal ditetapkan sebagai 3, 6, 9, dan 12 bulan.

3. Tahap Persiapan Data

Safer memutuskan bahwa peringkat orang dalam perusahaan tidak akan digunakan sebagai atribut studi,
karena penelitian lain telah menunjukkan nilai prediktif campuran untuk memprediksi pengembalian harga
saham abnormal. Demikian pula, ia menghilangkan orang dalam yang tidak terlibat dengan keputusan
perusahaan. (Perhatikan bahwa penulis ini tidak selalu setuju dengan menghilangkan variabel sebelum
fase pemodelan, karena temuan sebelumnya dari nilai prediksi campuran. Jika memang tidak ada nilai
prediksi, model akan menunjukkan, mungkin. Tetapi jika ada kemungkinan sesuatu yang menarik terjadi,
model mungkin harus diberi kesempatan untuk melihatnya. Namun, Safer adalah pakar domain di bidang
ini.)

4. Fase Pemodelan

Data dibagi menjadi satu set pelatihan (80% dari data) dan satu set validasi (20%). Model jaringan saraf
diterapkan, yang mengungkap hasil berikut:
Machine Translated by Google

TUGAS APA YANG DAPAT DATA MINING MENCAPAI? 19

sebuah. Industri tertentu memiliki abnormal return saham yang paling dapat diprediksi, termasuk:

Kelompok industri 36: peralatan elektronik, tidak termasuk peralatan komputer Kelompok

Industri 28: produk kimia Kelompok Industri 37: alat transportasi Kelompok Industri 73:

jasa bisnis

b. Prediksi yang melihat lebih jauh ke masa depan (9 hingga 12 bulan) telah meningkatkan kemampuan untuk
mengidentifikasi variasi perdagangan orang dalam yang tidak biasa daripada prediksi yang memiliki kerangka
waktu lebih pendek (3 hingga 6 bulan).

c. Lebih mudah untuk memprediksi return saham abnormal dari insider trading untuk perusahaan kecil
daripada untuk perusahaan besar.

5. Tahap Evaluasi

Lebih aman secara bersamaan menerapkan model spline regresi adaptif multivariat (MARS, tidak dibahas di
sini) ke kumpulan data yang sama. Model MARS menemukan banyak temuan yang sama dengan model
jaringan saraf, termasuk hasil (a) dan (b) dari fase pemodelan. Perpaduan hasil seperti itu merupakan metode
yang ampuh dan elegan untuk mengevaluasi kualitas dan efektivitas model, yang serupa dengan meminta dua
hakim independen untuk menyetujui sebuah keputusan. Penambang data harus berusaha untuk menghasilkan
pertemuan hasil seperti itu setiap kali ada peluang.
Hal ini dimungkinkan karena seringkali lebih dari satu metode data mining dapat diterapkan dengan tepat
untuk masalah yang dihadapi. Jika kedua model setuju dengan hasilnya, ini memperkuat kepercayaan kami
pada temuan. Jika model tidak setuju, kita mungkin harus menyelidiki lebih lanjut.
Kadang-kadang, satu jenis model lebih cocok untuk mengungkap jenis hasil tertentu, tetapi kadang-kadang,
ketidaksepakatan menunjukkan masalah yang lebih dalam, yang mengharuskan siklus kembali ke fase
sebelumnya.

6. Fase Penerapan

Publikasi temuan Safer dalam Analisis Data Cerdas [20] merupakan salah satu metode penyebaran model.
Sekarang, analis dari seluruh dunia dapat memanfaatkan metodenya untuk melacak pengembalian harga
saham abnormal dari perdagangan orang dalam dan dengan demikian membantu melindungi investor kecil.

STUDI KASUS 3
ATURAN ASOSIASI PERTAMBANGAN DARI BASIS DATA HUKUM [21]

1. Tahap Pemahaman Bisnis/Penelitian

Para peneliti, Sasha Ivkovic dan John Yearwood dari University of Ballarat, dan Andrew Stranieri dari La Trobe
University, Australia, tertarik pada apakah aturan asosiasi yang menarik dan dapat ditindaklanjuti dapat
ditemukan dalam kumpulan data besar yang berisi informasi tentang pelamar untuk program hukum yang
didanai pemerintah. bantuan di Australia. Karena sebagian besar data hukum tidak terstruktur dengan cara
yang mudah disesuaikan dengan sebagian besar teknik penambangan data, penerapan metode penemuan
pengetahuan pada data hukum belum berkembang secepat di bidang lain. Tujuan peneliti adalah untuk meningkatkan
Machine Translated by Google

20 BAB 1 PENDAHULUAN DATA MINING

penyampaian layanan hukum dan hasil hukum yang adil, melalui peningkatan penggunaan data hukum yang
tersedia.

2. Tahap Pemahaman Data

Data tersebut disediakan oleh Victoria Legal Aid (VLA), sebuah organisasi semi pemerintah yang bertujuan
untuk memberikan bantuan hukum yang lebih efektif bagi masyarakat kurang mampu di Australia. Lebih dari
380.000 permohonan bantuan hukum dikumpulkan dari 11 kantor regional VLA, selama periode 1997-1999,
termasuk informasi tentang lebih dari 300 variabel. Dalam upaya untuk mengurangi jumlah variabel, para peneliti
beralih ke ahli domain untuk mendapatkan bantuan. Para ahli ini memilih tujuh variabel paling penting untuk
dimasukkan dalam kumpulan data: jenis kelamin, usia, pekerjaan, alasan penolakan bantuan, jenis hukum
(misalnya, hukum perdata), keputusan (yaitu, bantuan diberikan atau tidak diberikan), dan penanganan jenis
(misalnya, penampilan pengadilan).

3. Tahap Persiapan Data

Kumpulan data VLA ternyata relatif bersih, berisi sangat sedikit catatan dengan nilai atribut yang hilang atau
salah dikodekan. Ini sebagian karena sistem manajemen basis data yang digunakan oleh VLA, yang melakukan
pemeriksaan kualitas pada data masukan. Variabel usia dipartisi ke dalam interval diskrit seperti “di bawah 18
tahun”, “di atas 50 tahun”, dan seterusnya.

4. Fase Pemodelan

Aturan dibatasi hanya memiliki satu anteseden dan satu konsekuen. Banyak aturan asosiasi yang menarik
ditemukan, bersama dengan banyak aturan yang tidak menarik, yang merupakan skenario umum untuk
penambangan aturan asosiasi. Salah satu aturan yang menarik adalah: Jika tempat lahir = Vietnam, maka jenis
hukum = hukum pidana, dengan keyakinan 90%.
Para peneliti melanjutkan dengan premis yang akurat bahwa aturan asosiasi menarik jika mereka menelurkan
hipotesis yang menarik. Sebuah diskusi antara para peneliti dan ahli untuk alasan yang mendasari aturan
asosiasi di atas mempertimbangkan hipotesis berikut:

Hipotesis A: Pelamar Vietnam mengajukan dukungan hanya untuk hukum pidana dan bukan untuk jenis
lain, seperti keluarga dan hukum perdata.

Hipotesis B: Pelamar Vietnam melakukan lebih banyak kejahatan daripada kelompok lain.

Hipotesis C: Ada variabel yang mengintai. Mungkin laki-laki Vietnam lebih mungkin dibandingkan
perempuan untuk mengajukan bantuan, dan laki-laki lebih terkait dengan hukum pidana.

Hipotesis D: Orang Vietnam tidak memiliki akses siap ke materi promosi VLA.

Panel peneliti dan ahli menyimpulkan secara informal bahwa hipotesis A kemungkinan besar, meskipun
penyelidikan lebih lanjut mungkin diperlukan, dan tidak ada hubungan sebab akibat yang dapat diasumsikan.
Perhatikan, bagaimanapun, interaktivitas manusia yang intens selama proses penambangan data. Tanpa
pengetahuan dan pengalaman ahli domain, hasil data mining dalam kasus ini tidak akan membuahkan hasil.

5. Tahap Evaluasi

Para peneliti mengadopsi metodologi evaluatif yang unik untuk proyek mereka. Mereka membawa tiga ahli
domain dan memperoleh dari mereka perkiraan tingkat kepercayaan untuk masing-masing dari 144 aturan
asosiasi. Tingkat kepercayaan yang diperkirakan ini kemudian dibandingkan dengan tingkat kepercayaan aktual
dari aturan asosiasi yang ditemukan dalam kumpulan data.
Machine Translated by Google

TUGAS APA YANG DAPAT DATA MINING MENCAPAI? 21

6. Fase Penerapan

Aplikasi berbasis Web yang berguna, WebAssociator, dikembangkan, sehingga nonspesialis dapat
memanfaatkan mesin pembuat aturan. Pengguna memilih anteseden tunggal dan konsekuen tunggal
menggunakan formulir berbasis web. Para peneliti menyarankan bahwa WebAssociator dapat digunakan
sebagai bagian dari sistem dukungan peradilan, terutama untuk mengidentifikasi proses yang tidak adil.

STUDI KASUS 4
MEMPREDIKSI KEBANGKITAN PERUSAHAAN MENGGUNAKAN
POHON KEPUTUSAN (22)

1. Tahap Pemahaman Bisnis/Penelitian

Krisis ekonomi baru-baru ini di Asia Timur telah melahirkan tingkat kebangkrutan perusahaan yang belum
pernah terjadi sebelumnya di kawasan itu dan di seluruh dunia. Tujuan para peneliti, Tae Kyung Sung dari
Universitas Kyonggi, Namsik Chang dari Universitas Seoul, dan Gunhee Lee dari Universitas Sogang,
Korea, adalah untuk mengembangkan model untuk memprediksi kebangkrutan perusahaan yang
memaksimalkan interpretasi hasil. Mereka merasa bahwa interpretabilitas itu penting karena prediksi
kebangkrutan negatif itu sendiri dapat berdampak buruk pada lembaga keuangan, sehingga perusahaan
yang diprediksi akan bangkrut membutuhkan alasan yang kuat dan logis.

Jika perusahaan seseorang berada dalam bahaya bangkrut, dan prediksi kebangkrutan itu sendiri dapat
berkontribusi pada kegagalan akhir, prediksi itu sebaiknya didukung oleh bukti "dapat dilacak" yang kuat,
bukan dengan keputusan naik/turun sederhana yang disampaikan oleh kotak hitam. . Oleh karena itu,
peneliti memilih pohon keputusan sebagai metode analisis mereka, karena transparansi algoritma dan
interpretasi hasil.

2. Tahap Pemahaman Data

Data tersebut mencakup dua kelompok, perusahaan Korea yang bangkrut dalam periode pertumbuhan
yang relatif stabil tahun 1991-1995, dan perusahaan Korea yang bangkrut dalam kondisi krisis ekonomi
1997-1998. Setelah berbagai prosedur penyaringan, 29 perusahaan diidentifikasi, sebagian besar di sektor
manufaktur. Data keuangan dikumpulkan langsung dari Bursa Efek Korea, dan diverifikasi oleh Bank of
Korea dan Korea Industrial Bank.

3. Tahap Persiapan Data

Lima puluh enam rasio keuangan diidentifikasi oleh peneliti melalui pencarian literatur tentang prediksi
kebangkrutan, 16 di antaranya kemudian dibatalkan karena duplikasi. Masih ada 40 rasio keuangan dalam
kumpulan data, termasuk ukuran pertumbuhan, profitabilitas, keamanan/leverage, aktivitas/efisiensi, dan
produktivitas.

4. Fase Pemodelan

Model pohon keputusan terpisah diterapkan pada data "kondisi normal" dan data "kondisi krisis". Seperti
yang akan kita pelajari di Bab 6, model pohon keputusan dapat dengan mudah menghasilkan aturan
Machine Translated by Google

22 BAB 1 PENDAHULUAN DATA MINING

set. Beberapa aturan yang ditemukan untuk data kondisi normal adalah sebagai berikut:

Jika produktivitas modal lebih besar dari 19,65, prediksi tidak bangkrut dengan keyakinan 86%.

Jika rasio arus kas terhadap total aset lebih besar dari 5,65, prediksi tidak bangkrut dengan kepercayaan
95%.

Jika produktivitas modal berada pada atau di bawah 19,65 dan rasio arus kas terhadap total aset berada
pada atau di bawah 5,65, perkirakan bangkrut dengan keyakinan 84%.

Beberapa aturan yang ditemukan untuk data kondisi krisis adalah sebagai berikut:

Jika produktivitas modal lebih besar dari 20,61, prediksi tidak bangkrut dengan kepercayaan 91%.

Jika rasio arus kas terhadap kewajiban lebih besar dari 2,64, prediksi tidak bangkrut dengan keyakinan
85%.

Jika rasio aset tetap terhadap ekuitas dan kewajiban jangka panjang lebih besar dari 87,23, perkirakan
tidak bangkrut dengan keyakinan 86%.

Jika produktivitas modal berada pada atau di bawah 20,61, dan rasio arus kas terhadap kewajiban berada
pada atau di bawah 2,64, dan rasio aset tetap terhadap ekuitas dan kewajiban jangka panjang berada
pada atau di bawah 87,23, prediksi bangkrut dengan 84 % kepercayaan diri.

Arus kas dan produktivitas modal dianggap penting terlepas dari kondisi ekonomi. Sementara arus kas
terkenal dalam literatur prediksi kebangkrutan, identifikasi produktivitas modal relatif jarang, yang oleh karena itu
memerlukan verifikasi lebih lanjut.

5. Tahap Evaluasi

Para peneliti mengadakan panel ahli spesialis keuangan, yang dengan suara bulat memilih produktivitas modal
sebagai atribut yang paling penting untuk membedakan perusahaan dalam bahaya kebangkrutan dari perusahaan
lain. Dengan demikian, hasil tak terduga yang ditemukan oleh model pohon keputusan diverifikasi oleh para ahli.

Untuk memastikan bahwa model dapat digeneralisasikan ke populasi semua perusahaan manufaktur Korea,
sampel kontrol dari perusahaan yang tidak bangkrut dipilih, dan atribut sampel kontrol dibandingkan dengan
atribut perusahaan dalam kumpulan data. Ditemukan bahwa aset rata-rata sampel kontrol dan jumlah rata-rata
karyawan berada dalam 20% dari sampel data.

Akhirnya, para peneliti menerapkan analisis diskriminan ganda sebagai tolok ukur kinerja.
Banyak dari 40 rasio keuangan ditemukan menjadi prediktor signifikan kebangkrutan, dan fungsi diskriminan akhir
termasuk variabel yang diidentifikasi oleh model pohon keputusan.

6. Fase Penerapan

Tidak ada penyebaran yang diidentifikasi per se. Seperti disebutkan sebelumnya, penerapan sering kali atas
kebijaksanaan pengguna. Namun, karena penelitian ini, lembaga keuangan di Korea kini lebih mengetahui
prediktor kebangkrutan untuk kondisi krisis, dibandingkan dengan kondisi normal.
Machine Translated by Google

TUGAS APA YANG DAPAT DATA MINING MENCAPAI? 23

STUDI KASUS 5
PROFIL PASAR PARIWISATA MENGGUNAKAN k-MEANS
ANALISIS KELOMPOK [23]

1. Tahap Pemahaman Bisnis/Penelitian

Para peneliti, Simon Hudson dan Brent Ritchie, dari University of Calgary, Alberta, Kanada, tertarik untuk
mempelajari perilaku turis intraprovinsi di Alberta. Mereka ingin membuat profil wisatawan domestik Albertan
berdasarkan perilaku keputusan wisatawan.
Tujuan keseluruhan dari penelitian ini adalah untuk membentuk dasar kuantitatif untuk pengembangan kampanye
pemasaran intraprovinsi, yang disponsori oleh Travel Alberta. Untuk mencapai tujuan ini, tujuan utamanya adalah
untuk menentukan faktor mana yang penting dalam memilih tujuan di Alberta, untuk mengevaluasi persepsi
domestik tentang “produk liburan Alberta”, dan untuk mencoba memahami proses pengambilan keputusan
perjalanan.

2. Tahap Pemahaman Data

Data dikumpulkan pada akhir 1999 menggunakan survei telepon terhadap 13.445 orang Albertan. Responden
disaring menurut mereka yang berusia di atas 18 tahun dan telah melakukan perjalanan untuk liburan setidaknya
80 kilometer untuk setidaknya satu malam di Alberta pada tahun lalu. Hanya 3071 dari 13.445 ini yang
menyelesaikan survei dan memenuhi syarat untuk dimasukkan dalam penelitian.

3. Tahap Persiapan Data

Salah satu pertanyaan survei meminta responden untuk menunjukkan sejauh mana masing-masing faktor dari
daftar 13 faktor yang paling mempengaruhi keputusan perjalanan mereka. Ini kemudian dianggap sebagai
menjadi variabel di mana analisis klaster dilakukan, dan termasuk faktor-faktor seperti kualitas akomodasi,
liburan sekolah, dan kondisi cuaca.

4. Fase Pemodelan

Clustering adalah metode alami untuk menghasilkan profil segmen. Para peneliti memilih k-means clustering,
karena algoritme itu cepat dan efisien selama Anda mengetahui jumlah cluster yang Anda harapkan untuk
ditemukan. Mereka mengeksplorasi antara dua dan enam model klaster sebelum menetapkan solusi lima klaster
sebagai cerminan realitas terbaik. Profil singkat klaster adalah sebagai berikut:

Cluster 1: pasar outdoor urban muda. Termuda dari semua kelompok, sama-sama seimbang gender,
dengan jadwal sekolah dan anggaran menjulang besar dalam keputusan perjalanan mereka.

Cluster 2: pasar wisatawan rekreasi dalam ruangan. Termuda dan sangat perempuan berikutnya, kebanyakan
menikah dengan anak-anak, dengan mengunjungi keluarga dan teman-teman faktor utama dalam rencana perjalanan.

Cluster 3: pasar anak-pertama. Lebih banyak menikah dan lebih banyak anak daripada kelompok
lainnya, dengan jadwal olahraga dan kompetisi anak-anak memiliki bobot yang besar dalam memutuskan
ke mana harus bepergian di Alberta.

Cluster 4: pasar ramah cuaca cerah. Kelompok laki-laki tertua kedua, sedikit lebih banyak, dengan
kondisi cuaca yang memengaruhi keputusan perjalanan.
Cluster 5: pasar pelancong yang lebih tua dan sadar biaya. Cluster tertua, paling dipengaruhi oleh
pertimbangan biaya/nilai dan lingkungan yang aman saat membuat keputusan perjalanan ke Alberta.
Machine Translated by Google

24 BAB 1 PENDAHULUAN DATA MINING

5. Tahap Evaluasi

Analisis diskriminan digunakan untuk memverifikasi "realitas" dari kategorisasi cluster, dengan benar
mengklasifikasikan sekitar 93% subjek ke dalam cluster yang tepat. Analisis diskriminan juga menunjukkan
bahwa perbedaan antar cluster signifikan secara statistik.

6. Fase Penerapan

Temuan studi ini menghasilkan peluncuran kampanye pemasaran baru, “Alberta, Made to Order,” berdasarkan
penyesuaian pemasaran ke tipe cluster yang ditemukan dalam data mining.
Lebih dari 80 proyek diluncurkan, melalui pengaturan kerjasama antara pemerintah dan bisnis. Iklan televisi
“Alberta, Made to Order” kini telah ditonton sekitar 20 kali oleh lebih dari 90% orang dewasa di bawah 55
tahun. Travel Alberta kemudian menemukan peningkatan lebih dari 20% dalam jumlah orang Alberta yang
menunjukkan Alberta sebagai -the-mind” tujuan wisata.

REFERENSI
1. Peter Fabris, Navigasi lanjutan, Majalah CIO, 15 Mei 1998, http://www.cio
.com/archive/051598-mining.html.
2. Bill Clinton, pidato Universitas New York, Salon.com, 6 Desember 2002, http://www.salon.com/politics/
feature/2002/12/06/clinton/print.html.
3. Menambang Data untuk Menyelamatkan Anak dengan Tumor Otak, SPSS, Inc., http://spss.com/
kesuksesan/.
4. Grup Gartner, www.gartner.com.
5. David Hand, Heikki Mannila, dan Padhraic Smyth, Principles of Data Mining, MIT Press,
Cambridge, MA, 2001.
6. Peter Cabena, Pablo Hadjinian, Rolf Stadler, Jaap Verhees, dan Alessandro Zanasi, Menemukan Data
Mining: Dari Konsep hingga Implementasi, Prentice Hall, Upper Saddle River, NJ, 1998.

7. Rachel Konrad, Penambangan data: Menggali info pengguna untuk emas, ZDNET News, 7 Februari 2001,
http://zdnet.com.com/2100-11-528032.html?legacy=zdnn.
8. Tinjauan Teknologi Sepuluh, Tinjauan Teknologi MIT, Januari/Februari 2001.
9. Jennifer Mateyaschuk, Survei Gaji TI Nasional 1999: Pembayaran, Minggu Informasi,
http://www.informationweek.com/731/salsurvey.htm.
10. Boston Celtics, http://www.nba.com/celtics/.
11. Peter Gwynne, Menggali data, Think Research, domino.watson.ibm.com/
comm/wwwr-thinkresearch.nsf/pages/datamine296.html.
12. John Naisbitt, Megatrends, edisi ke-6., Warner Books, New York, 1986.
13. Michael Berry dan Gordon Linoff, Teknik Data Mining untuk Pemasaran, Penjualan dan
Dukungan Pelanggan, Wiley, Hoboken, NJ, 1997.
14. Michael Berry dan Gordon Linoff, Menguasai Data Mining, Wiley, Hoboken, NJ, 2000.
15. Dikutip dalam: Mihael Ankerst, Alat penambangan data yang sempurna: Interaktif atau otomatis? Laporan
Panel SIGKDD-2002, Eksplorasi SIGKDD, Vol. 5, No. 1, Juli 2003.
16. Peter Chapman, Julian Clinton, Randy Kerber, Thomas Khabaza, Thomas Reinart, Colin Shearer, dan
Rudiger Wirth, CRISP–DM Panduan Penambangan Data Langkah demi Langkah, 2000, http://www.crisp-
dm.org/ .
17. Jochen Hipp dan Guido Lindner, Menganalisis klaim garansi mobil: deskripsi aplikasi mengikuti proses
penambangan data CRISP–DM, dalam Proceedings of the
Machine Translated by Google

LATIHAN 25

Konferensi Ilmu Komputer Internasional ke-5 (ICSC '99), hlm. 31–40, Hong Kong, 13–15 Desember 1999, C
Springer.
18. Jen Que Louie, Presiden Nautilus Systems, Inc. (www.nautilus-systems.com), kesaksian di hadapan Subkomite
Dewan Perwakilan Rakyat AS tentang Teknologi, Kebijakan Informasi, Hubungan Antar Pemerintah, dan
Sensus, Kesaksian Kongres, 25 Maret, 2003. 19. www.Claritas.com.

20. Alan M. Safer, Perbandingan dua teknik data mining untuk memprediksi return pasar saham yang abnormal,
Intelligent Data Analysis, Vol. 7, hlm. 3–13, 2003.
21. Sasha Ivkovic, John Yearwood, dan Andrew Stranieri, Menemukan aturan asosiasi yang menarik dari database
hukum, Hukum Teknologi Informasi dan Komunikasi, Vol. 11, No. 1, 2002.

22. Tae Kyung Sung, Namsik Chang, dan Gunhee Lee, Dinamika pemodelan dalam penambangan data: pendekatan
interpretatif untuk prediksi kebangkrutan, Jurnal Sistem Informasi Manajemen, Vol. 16, No. 1, hlm. 63–85, 1999.

23. Simon Hudson dan Brent Richie, Memahami pasar domestik menggunakan analisis klaster: studi kasus upaya
pemasaran Travel Alberta, Journal of Vacation Marketing, Vol. 8, No. 3, hlm. 263–276, 2002.

LATIHAN
1. Lihat contoh Bank of America di awal bab ini. Tugas atau tugas penambangan data mana yang tersirat dalam
mengidentifikasi "jenis pendekatan pemasaran untuk pelanggan tertentu, berdasarkan profil individu pelanggan"?
Tugas mana yang tidak relevan secara eksplisit?

2. Untuk setiap hal berikut, identifikasi tugas data mining yang relevan:

sebuah. Boston Celtics ingin memperkirakan berapa banyak poin yang akan dicetak lawan mereka berikutnya
melawan mereka.

b. Seorang perwira intelijen militer tertarik untuk mempelajari proporsi masing-masing


Sunni dan Syiah di wilayah strategis tertentu.

c. Komputer pertahanan NORAD harus segera memutuskan apakah ada kesalahan pada radar
sekawanan angsa atau rudal nuklir yang masuk.

d. Seorang ahli strategi politik sedang mencari kelompok terbaik untuk mencari donasi secara khusus
daerah.

e. Seorang pejabat keamanan dalam negeri ingin menentukan apakah urutan tertentu dari
keuangan dan pindah tempat tinggal menyiratkan kecenderungan tindakan teroris.

f. Seorang analis Wall Street telah diminta untuk mengetahui perubahan harga saham yang diharapkan untuk
sekumpulan perusahaan dengan rasio harga/pendapatan yang serupa.

3. Untuk setiap pertemuan berikut, jelaskan fase mana dalam proses CRISP–DM?
diwakili:

sebuah. Manajer ingin tahu minggu depan apakah penerapan akan dilakukan. Oleh karena itu, para analis
bertemu untuk membahas seberapa berguna dan akurat model mereka. b. Manajer proyek penambangan

data bertemu dengan manajer pergudangan data untuk mendiskusikan


bagaimana data akan dikumpulkan.

c. Konsultan data mining bertemu dengan wakil presiden pemasaran, yang mengatakan bahwa dia ingin
bergerak maju dengan manajemen hubungan pelanggan.
Machine Translated by Google

26 BAB 1 PENDAHULUAN DATA MINING

d. Manajer proyek penambangan data bertemu dengan supervisor lini produksi untuk membahas
pelaksanaan perubahan dan perbaikan.

e. Para analis bertemu untuk membahas apakah jaringan saraf atau model pohon keputusan harus
diterapkan.

4. Diskusikan perlunya arahan manusia dalam data mining. Jelaskan konsekuensi yang mungkin terjadi
mengandalkan alat analisis data yang sepenuhnya otomatis.

5. CRISP–DM bukan satu-satunya proses standar untuk data mining. Penelitian metodologi alternatif. (Petunjuk:
SEMMA, dari SAS Institute.) Diskusikan persamaan dan perbedaan dengan CRISP–DM.

6. Diskusikan pelajaran yang diambil dari Studi Kasus 1. Menurut Anda mengapa penulis memilih sebuah kasus?
studi di mana jalannya berbatu dan hasilnya kurang luar biasa?

7. Mempertimbangkan fase pemahaman bisnis Studi Kasus 2. a. Nyatakan

kembali pertanyaan penelitian dengan kata-kata Anda sendiri. b. Jelaskan

kemungkinan konsekuensi untuk skenario penambangan data tertentu dari analis data yang tidak sepenuhnya
memahami masalah bisnis atau penelitian.

8. Diskusikan metode evaluasi yang digunakan untuk Studi Kasus 3 berdasarkan Latihan 4.

9. Periksa aturan asosiasi yang ditemukan dalam Studi Kasus 4.

sebuah. Aturan asosiasi mana yang menurut Anda paling berguna dalam kondisi normal? Dibawah
kondisi krisis?

b. Jelaskan bagaimana aturan asosiasi ini dapat digunakan untuk membantu menurunkan tingkat perusahaan
kegagalan di Korea.

10. Periksa cluster yang ditemukan dalam Studi Kasus 5.

a. Di cluster mana Anda atau kerabat Anda berada? b. Jelaskan

bagaimana Anda akan menggunakan informasi dari cluster untuk meningkatkan pariwisata di
Alberta.
Machine Translated by Google

BAB 2
PEMROSESAN DATA

MENGAPA KITA PERLU MEMPROSES DATA?

PEMBERSIHAN DATA

MENANGANI DATA YANG HILANG

MENGIDENTIFIKASI KESALAHAN KLASIFIKASI

METODE GRAFIS UNTUK MENGIDENTIFIKASI OUTLIER

TRANSFORMASI DATA

METODE NUMERIK UNTUK MENGIDENTIFIKASI OUTLIER

Bab 1 memperkenalkan kita pada data mining dan proses standar CRISP-DM untuk pengembangan
model data mining. Studi kasus yang kita lihat di Bab 1 memberi kita gambaran tentang bagaimana
bisnis dan peneliti menerapkan fase 1 dalam proses penambangan data, pemahaman bisnis , atau
pemahaman penelitian. Kami melihat contoh bagaimana bisnis dan peneliti pertama-tama mengucapkan
tujuan proyek, kemudian menerjemahkan tujuan ini ke dalam perumusan definisi masalah penambangan
data, dan akhirnya, menyiapkan strategi awal untuk mencapai tujuan ini.

Di sini, di Bab 2, kami memeriksa dua fase berikutnya dari CRISP—proses standar DM,
pemahaman data , dan persiapan data. Kami menunjukkan bagaimana mengevaluasi kualitas data,
membersihkan data mentah, menangani data yang hilang, dan melakukan transformasi pada variabel
tertentu.
Semua Bab 3 dikhususkan untuk aspek yang sangat penting dari data yang dipahami ini. Inti
dari setiap proyek data mining adalah fase pemodelan , yang mulai kita bahas di Bab 4.

MENGAPA KITA PERLU MEMPROSES DATA?

Sebagian besar data mentah yang terkandung dalam database tidak diproses sebelumnya, tidak lengkap, dan berisik.
Misalnya, database mungkin berisi:
Bidang yang usang atau berlebihan

Nilai yang hilang

Discovering Knowledge in Data: An Introduction to Data Mining, Oleh Daniel T.


Larose ISBN 0-471-66657-2 Hak Cipta C 2005 John Wiley & Sons, Inc.

27
Machine Translated by Google

28 BAB 2 PEMROSESAN DATA

Pencilan

Data dalam bentuk yang tidak cocok untuk model penambangan data

Nilai-nilai yang tidak konsisten dengan kebijakan atau akal sehat.

Agar berguna untuk keperluan data mining, database perlu menjalani pra-pemrosesan, berupa pembersihan
data dan transformasi data. Penambangan data sering
berurusan dengan data yang tidak pernah dilihat selama bertahun-tahun, sehingga banyak data berisi nilai bidang
yang telah kedaluwarsa, tidak lagi relevan, atau hilang begitu saja.
Tujuan utamanya adalah untuk meminimalkan GIGO: untuk meminimalkan "sampah" yang didapat
ke dalam model kami sehingga kami dapat meminimalkan jumlah sampah yang diberikan model kami
keluar.

Dorian Pyle, dalam bukunya Data Preparation for Data Mining [1], memperkirakan bahwa
persiapan data saja menyumbang 60% dari semua waktu dan upaya yang diperluas di
seluruh proses penambangan data. Dalam bab ini kita memeriksa dua metode utama untuk
mempersiapkan data yang akan ditambang, pembersihan data, dan transformasi data.

PEMBERSIHAN DATA

Untuk mengilustrasikan perlunya membersihkan data, mari kita lihat beberapa jenis kesalahan
yang dapat menyusup ke dalam kumpulan data kecil sekalipun, seperti pada Tabel 2.1. Mari berdiskusi,
atribut demi atribut, beberapa masalah yang telah menemukan jalannya ke dalam data
diatur pada Tabel 2.1. Variabel ID pelanggan tampaknya baik-baik saja. Bagaimana dengan zip?
Mari kita asumsikan bahwa kita mengharapkan semua pelanggan dalam database memiliki
kode pos AS lima angka biasa. Sekarang, pelanggan 1002 memiliki hal aneh ini (untuk orang Amerika
mata) kode pos J2S7K7. Jika kita tidak hati-hati, kita mungkin tergoda untuk mengklasifikasikan ini
nilai yang tidak biasa sebagai kesalahan dan membuangnya, sampai kita berhenti berpikir bahwa tidak semua negara
menggunakan format kode pos yang sama. Sebenarnya, ini adalah kode pos St. Hyancinthe, Quebec,
Kanada, jadi mungkin mewakili data nyata dari pelanggan nyata. Apa yang telah jelas?
terjadi adalah bahwa pelanggan Prancis-Kanada telah melakukan pembelian dan menempatkan rumah mereka
kode pos di kolom yang diperlukan. Terutama di era Free American Utara ini
Perjanjian Dagang, kita harus siap untuk mengharapkan nilai yang tidak biasa di bidang seperti zip
kode, yang bervariasi dari satu negara ke negara.
Bagaimana dengan kode pos untuk pelanggan 1004? Kami tidak mengetahui negara mana pun
yang memiliki kode pos empat digit, seperti 6269 yang ditunjukkan di sini, jadi ini pasti kesalahan,

TABEL 2.1 Dapatkah Anda Menemukan Masalah dalam Kumpulan Data Kecil Ini?

ID Pelanggan Zip Jenis kelamin Pendapatan Usia Status Perkawinan Jumlah Transaksi

1001 10048 M 75000 C M 5000


1002 J2S7K7 F 40000 40 Di 4000
1003 90210 10000000 45 S 7000
1004 6269 M 50000 0 S 1000
1005 55101 F 99999 30 D 3000
Machine Translated by Google

PEMBERSIHAN DATA 29

Baik? Mungkin tidak. Kode pos untuk negara bagian New England dimulai dengan angka 0.
Kecuali jika bidang kode pos didefinisikan sebagai karakter (teks) dan bukan numerik, perangkat lunak
mungkin akan memotong nol di depan, yang tampaknya terjadi di sini. Kode pos mungkin 06269, yang
mengacu pada Storrs, Connecticut, rumah dari University of Connecticut.

Bidang berikutnya, jenis kelamin, berisi nilai yang hilang untuk pelanggan 1003. Kami merinci
metode untuk menangani nilai yang hilang nanti di bab ini.
Bidang pendapatan, yang kami asumsikan mengukur pendapatan kotor tahunan, memiliki tiga nilai
yang berpotensi anomali. Pertama, pelanggan 1003 ditunjukkan memiliki pendapatan $10.000.000 per
tahun. Meskipun sangat mungkin, terutama ketika mempertimbangkan kode pos pelanggan (90210,
Beverly Hills), nilai pendapatan ini tetap merupakan outlier, nilai data yang ekstrim. Teknik pemodelan
statistik dan data mining tertentu tidak berfungsi dengan lancar dengan adanya outlier; kami memeriksa
metode penanganan outlier nanti di bab ini.

Kemiskinan adalah satu hal, tetapi jarang menemukan pendapatan yang negatif, seperti yang
dimiliki pelanggan kami yang miskin 1004. Tidak seperti pendapatan pelanggan 1003, pendapatan
pelanggan 1004 yang dilaporkan sebesar $40.000 berada di luar batas bidang pendapatan dan oleh
karena itu pasti merupakan kesalahan. Tidak jelas bagaimana kesalahan ini masuk, dengan mungkin
penjelasan yang paling mungkin adalah bahwa tanda negatifnya adalah kesalahan entri data yang
menyimpang. Namun, kami tidak dapat memastikan dan harus mendekati nilai ini dengan hati-hati,
mencoba berkomunikasi dengan manajer basis data yang paling akrab dengan riwayat basis data.
Jadi apa yang salah dengan pendapatan pelanggan 1005 sebesar $99,999? Mungkin tidak ada;
itu mungkin benar-benar valid. Tetapi jika semua pendapatan lain dibulatkan ke $5000 terdekat, mengapa
presisi dengan pelanggan 1005? Seringkali, dalam database lama, nilai tertentu tertentu dimaksudkan
sebagai kode untuk entri anomali, seperti nilai yang hilang. Mungkin 99999 dikodekan dalam database
lama yang berarti hilang. Sekali lagi, kami tidak dapat memastikan dan harus kembali mengacu pada
“wetware”.
Akhirnya, apakah kita jelas dalam unit ukuran mana variabel pendapatan diukur? Basis data sering
digabungkan, terkadang tanpa perlu memeriksa apakah penggabungan tersebut sepenuhnya sesuai untuk
semua bidang. Misalnya, sangat mungkin bahwa pelanggan 1002, dengan kode pos Kanada, memiliki
pendapatan yang diukur dalam dolar Kanada, bukan dolar AS.

Bidang usia memiliki beberapa masalah. Meskipun semua pelanggan lain memiliki nilai numerik
untuk usia, "usia" pelanggan 1001 dari C mungkin mencerminkan egorisasi kucing sebelumnya dari usia
pria ini ke dalam bin berlabel C. Perangkat lunak penambangan data pasti tidak akan menyukai nilai
kategoris ini dalam bentuk numerik yang lain. lapangan, dan kita harus menyelesaikan masalah ini entah
bagaimana. Bagaimana dengan pelanggan 1004 yang berusia 0? Mungkin ada bayi laki-laki baru lahir
yang tinggal di Storrs, Connecticut, yang telah melakukan transaksi sebesar $1000.
Kemungkinan besar, usia orang ini mungkin hilang dan diberi kode 0 untuk menunjukkan kondisi ini atau
kondisi anomali lainnya (misalnya, menolak memberikan informasi usia).
Tentu saja, menyimpan bidang usia dalam database adalah ladang ranjau itu sendiri, karena
berlalunya waktu akan dengan cepat membuat nilai bidang menjadi usang dan menyesatkan. Lebih baik
menyimpan bidang tipe tanggal (seperti tanggal lahir) dalam database, karena ini konstan dan dapat
diubah menjadi usia bila diperlukan.
Bidang status perkawinan tampaknya baik-baik saja, bukan? Mungkin tidak. Masalahnya terletak
pada makna di balik simbol-simbol tersebut. Kita semua berpikir kita tahu apa arti simbol-simbol ini, tapi
Machine Translated by Google

30 BAB 2 PEMROSESAN DATA

terkadang terkejut. Misalnya, jika Anda mencari air dingin di kamar kecil di Montreal dan
menyalakan keran bertanda C, Anda mungkin akan terkejut, karena C adalah singkatan
dari chaud, yang dalam bahasa Prancis berarti panas. Ada juga masalah ambiguitas.
Pada Tabel 2.1, misalnya, apakah S untuk pelanggan 1003 dan 1004 berarti tunggal atau
terpisah?
Bidang jumlah transaksi tampaknya memuaskan selama kita yakin bahwa kita
mengetahui satuan ukuran apa yang digunakan dan bahwa semua catatan ditransaksikan
dalam satuan ini.

MENANGANI DATA YANG HILANG

Data yang hilang merupakan masalah yang terus mengganggu metode analisis data.
Bahkan saat metode analisis kami semakin canggih, kami terus menemukan nilai yang
hilang di bidang, terutama di database dengan sejumlah besar bidang. Ketiadaan informasi
jarang menguntungkan. Semua hal dianggap sama, lebih banyak data hampir selalu lebih baik.
Oleh karena itu, kita harus berpikir dengan hati-hati tentang bagaimana kita menangani masalah pelik dari data yang
hilang.

Untuk membantu kami mengatasi masalah ini, kami akan memperkenalkan diri pada
kumpulan data baru, kumpulan data mobil , yang aslinya disusun oleh Barry Becker dan
Ronny Kohavi dari Silicon Graphics, dan tersedia di penyimpanan data online SGI di
www.sgi .com/tech /mlc/db. Kumpulan data, juga tersedia di situs Web seri buku yang
disertai teks, terdiri dari informasi tentang 261 mobil yang diproduksi pada 1970-an dan
1980-an, termasuk jarak tempuh bahan bakar, jumlah silinder, inci kubik, tenaga kuda, dan
sebagainya.
Misalkan, bagaimanapun, bahwa beberapa nilai bidang hilang untuk catatan tertentu.
Gambar 2.1 memberikan gambaran tentang 10 record pertama dalam kumpulan data, dengan beberapa di antaranya:

Gambar 2.1 Beberapa nilai bidang kami hilang!


Machine Translated by Google

MENANGANI DATA YANG HILANG 31

nilai bidang tidak ada (ditunjukkan dengan warna biru). Perangkat lunak yang akan kita gunakan di
bagian ini untuk analisis nilai yang hilang adalah Insightful Miner, oleh Insightful Corporation
(www.insightful.com).
Metode umum untuk menangani nilai yang hilang adalah dengan menghilangkan dari analisis
catatan atau bidang dengan nilai yang hilang. Namun, ini mungkin berbahaya, karena pola nilai yang
hilang mungkin sebenarnya sistematis, dan hanya menghapus catatan dengan nilai yang hilang akan
menyebabkan subset data yang bias. Selanjutnya, sepertinya sia-sia untuk menghilangkan informasi
di semua bidang lainnya, hanya karena satu nilai bidang tidak ada. Oleh karena itu, analis data telah
beralih ke metode yang akan menggantikan nilai yang hilang dengan nilai yang diganti menurut
berbagai kriteria.
Insightful Miner menawarkan pilihan nilai pengganti untuk data yang hilang:

1. Ganti nilai yang hilang dengan beberapa konstanta, yang ditentukan oleh analis.

2. Ganti nilai yang hilang dengan rata-rata bidang (untuk variabel numerik) atau mode (untuk
variabel kategori).

3. Ganti nilai yang hilang dengan nilai yang dihasilkan secara acak dari variabel
distribusi diamati.

Mari kita lihat hasil untuk masing-masing dari ketiga metode tersebut. Gambar 2.2 menunjukkan
hasil penggantian nilai yang hilang dengan konstanta 0,00 untuk variabel numerik dan label yang
hilang untuk variabel kategori. Gambar 2.3 mengilustrasikan bagaimana nilai yang hilang dapat
diganti dengan sarana dan mode bidang masing-masing.
Silinder variabel adalah kategorikal, dengan mode 4, sehingga perangkat lunak mengganti nilai
silinder yang hilang dengan silinder = 4. Cubicinches, di sisi lain, kontinu (numerik), sehingga
perangkat lunak mengganti nilai cubicinches yang hilang dengan cubicinches = 200,65, yang
merupakan rata-rata dari 258 nilai yang tidak hilang dari variabel tersebut.
Bukankah menyenangkan memiliki perangkat lunak yang menangani masalah data Anda yang
hilang seperti ini? Dengan cara, tentu saja. Namun, jangan lupakan fakta bahwa perangkat lunaknya

Gambar 2.2 Mengganti nilai bidang yang hilang dengan konstanta yang ditentukan pengguna.
Machine Translated by Google

32 BAB 2 PEMROSESAN DATA

Gambar 2.3 Mengganti nilai bidang yang hilang dengan cara atau mode.

membuat informasi di tempat, sebenarnya membuat data untuk mengisi lubang di kumpulan
data. Memilih bidang berarti sebagai pengganti nilai apa pun yang ada di sana terkadang bisa
berhasil dengan baik. Namun, pengguna akhir dan pembaca publikasi perlu mengetahui
bahwa proses ini telah terjadi.
Selanjutnya, mean mungkin tidak selalu menjadi pilihan terbaik untuk apa yang
merupakan nilai "tipikal". Misalnya, jika banyak nilai yang hilang diganti dengan rata-rata,
tingkat kepercayaan yang dihasilkan untuk inferensi statistik akan menjadi terlalu optimis,
karena ukuran penyebaran akan dikurangi secara artifisial. Harus ditekankan bahwa
mengganti nilai-nilai yang hilang adalah suatu perjudian, dan manfaatnya harus
dipertimbangkan terhadap kemungkinan ketidakabsahan hasil.
Terakhir, Gambar 2.4 menunjukkan bagaimana Insightful Miner dapat mengganti nilai
yang hilang dengan nilai yang dihasilkan secara acak dari distribusi variabel yang diamati.
Perhatikan pada Gambar 2.3 bagaimana, keempat nilai silinder yang hilang diganti dengan
nilai yang sama, silinder = 4, sedangkan pada Gambar 2.4, nilai silinder yang hilang diganti
dengan berbagai nilai yang diambil secara proporsional dari distribusi nilai silinder .
Dalam jangka panjang, metode ini mungkin lebih unggul daripada substitusi rata-rata, karena,
antara lain, ukuran pusat dan sebaran harus tetap lebih dekat dengan aslinya.

Kapasitas untuk mengganti nilai yang hilang dengan penarikan acak dari distribusi ini
adalah salah satu manfaat Insightful Miner. Namun, tidak ada jaminan bahwa catatan yang
dihasilkan akan masuk akal. Sebagai contoh, nilai acak yang digambar pada Gambar 2.4
masuk akal berdasarkan catatan, tetapi sangat mungkin bahwa rekor 5 dapat menggambar
silinder = 8 dengan sesuatu seperti inci kubik = 82, yang akan menjadi mesin yang aneh!
Oleh karena itu, ada metode lain yang lebih rumit yang berusaha untuk menggantikan nilai-
nilai yang hilang dengan lebih tepat dan akurat.
Misalnya, ada metode yang menanyakan: Berapa nilai yang paling mungkin untuk nilai
yang hilang ini jika diberikan semua atribut lain untuk catatan tertentu? Misalnya,
Machine Translated by Google

MENGIDENTIFIKASI KESALAHAN 33

Gambar 2.4 Mengganti nilai bidang yang hilang dengan penarikan acak dari distribusi
variabel.

Mobil Amerika dengan 300 inci kubik dan 150 tenaga kuda mungkin diharapkan
memiliki lebih banyak silinder daripada mobil Jepang dengan 100 inci kubik dan 90 tenaga kuda.
Untuk diskusi tentang metode ini dan metode lainnya, termasuk estimasi Bayesian, lihat:
Analisis Statistik dengan Data yang Hilang [2].

MENGIDENTIFIKASI KESALAHAN KLASIFIKASI

Mari kita lihat contoh pengecekan label klasifikasi pada kategori


variabel, untuk memastikan bahwa semuanya valid dan konsisten. Salah satu fungsinya
dari node nilai yang hilang dari Insightful Miner adalah untuk menampilkan distribusi frekuensi dari
variabel kategori yang tersedia. Misalnya, distribusi frekuensi dari
asal variabel kategoris , di mana node nilai yang hilang dari Insightful Miner diterapkan
untuk kumpulan data mobil , diberikan pada Tabel 2.2. Distribusi frekuensi menunjukkan lima

TABEL 2.2 Perhatikan Sesuatu yang Aneh


tentang Distribusi Frekuensi Ini?

Nama Tingkat Menghitung

rusa 1

Perancis 1

KITA 156

Eropa 46

Jepang 51
Machine Translated by Google

34 BAB 2 PEMROSESAN DATA

kelas: AS, Prancis, AS, Eropa, dan Jepang. Namun, dua kelas, AS dan Prancis, masing-
masing hanya memiliki satu mobil. Apa yang jelas terjadi di sini adalah bahwa dua dari
catatan telah diklasifikasikan secara tidak konsisten sehubungan dengan asal pembuatan.
Untuk menjaga konsistensi dengan sisa kumpulan data, catatan dengan asal AS harus diberi
label AS, dan catatan dengan asal Prancis harus diberi label Eropa.

METODE GRAFIS UNTUK MENGIDENTIFIKASI OUTLIER

Pencilan adalah nilai ekstrem yang terletak di dekat batas rentang data atau berlawanan
dengan tren data yang tersisa. Mengidentifikasi outlier penting karena dapat mewakili
kesalahan dalam entri data. Juga, bahkan jika outlier adalah titik data yang valid dan tidak
salah, metode statistik tertentu sensitif terhadap keberadaan outlier dan dapat memberikan
hasil yang tidak stabil. Jaringan saraf mendapat manfaat dari normalisasi, seperti halnya
algoritma yang menggunakan ukuran jarak, seperti algoritma k-nearest neighbor.
Salah satu metode grafis untuk mengidentifikasi outlier untuk variabel numerik adalah
dengan memeriksa histogram variabel. Gambar 2.5 menunjukkan histogram yang dihasilkan
dari bobot kendaraan dari kumpulan data mobil . Tampaknya ada satu kendaraan yang sepi
di bagian paling kiri dari distribusi, dengan berat kendaraan dalam ratusan pound daripada
ribuan. Meneliti statistik yang diberikan oleh Insightful Miner, kami menemukan bobot
minimum untuk kendaraan seberat 192,5 pon, yang tidak diragukan lagi merupakan outlier
kecil kami di bagian ekor bawah. Karena 192,5 pound sedikit ringan untuk sebuah mobil, kita
cenderung meragukan validitas informasi ini. Pengamatan di lapangan weightlbs menunjukkan
bahwa tidak seperti outlier kami, semua kendaraan lain memiliki bobot yang dicatat dalam bilangan bulat

Gambar 2.5 Histogram bobot kendaraan: dapatkah Anda menemukan outliernya?


Machine Translated by Google

TRANSFORMASI DATA 35
500

400

Hitungan

24

mpg
300
22
20
18
16
14
12
10
8
1000
200
6
4
21

0 1000 2000 3000 4000 5000


pon berat

Gambar 2.6 Plot pencar mpg terhadap weightlbs menunjukkan dua outlier.

tanpa desimal. Oleh karena itu kita dapat menduga bahwa mungkin berat awalnya 1925 pound, dengan
desimal disisipkan di suatu tempat di sepanjang garis. Kami tidak bisa memastikan, bagaimanapun, dan
penyelidikan lebih lanjut ke sumber data diperlukan.
Terkadang plot sebar dua dimensi dapat membantu mengungkapkan outlier di lebih dari satu
variabel. Plot pencar mpg terhadap weightlbs yang ditunjukkan pada Gambar 2.6 tampaknya telah
menjaring dua outlier. Sebagian besar titik data mengelompok bersama di sepanjang sumbu horizontal,
kecuali dua outlier. Yang di sebelah kiri adalah kendaraan yang sama seperti yang diidentifikasi pada
Gambar 2.5, dengan berat hanya 192,5 pon. Pencilan di sudut kanan atas adalah sesuatu yang baru:
mobil yang melaju lebih dari 500 mil per galon! Nah, itu akan menjadi berita besar setiap saat, terutama di
masa krisis energi tahun 1970-an ketika data ini diabstraksikan. Jelas, kecuali kendaraan ini berjalan pada
kristal dilithium, kami melihat kesalahan entri data.

Kami akan memeriksa metode numerik untuk mengidentifikasi outlier, tetapi kami perlu mengambil
beberapa alat terlebih dahulu.

TRANSFORMASI DATA

Variabel cenderung memiliki rentang yang sangat bervariasi satu sama lain. Misalnya, jika kita tertarik
dengan bisbol liga utama, rata-rata pukulan pemain akan berkisar dari nol hingga kurang dari 0,400,
sedangkan jumlah pukulan home run dalam satu musim akan berkisar dari nol hingga sekitar 70. Untuk
beberapa algoritme data mining, seperti perbedaan dalam rentang akan menyebabkan kecenderungan
variabel dengan rentang yang lebih besar memiliki pengaruh yang tidak semestinya pada hasil.

Oleh karena itu, penambang data harus menormalkan variabel numerik mereka, untuk
menstandarkan skala pengaruh setiap variabel terhadap hasil. Ada beberapa teknik
Machine Translated by Google

36 BAB 2 PEMROSESAN DATA

untuk normalisasi, dan kami akan memeriksa dua metode yang lebih umum. Biarkan X
merujuk ke nilai bidang asli kami dan Xÿ merujuk ke nilai bidang yang dinormalisasi.

Normalisasi Min–Maks
Normalisasi min-maks bekerja dengan melihat seberapa besar nilai bidangnya daripada
nilai minimum min(X) dan menskalakan perbedaan ini dengan rentang. Itu adalah,
X menit(X) X menit(X)
Xÿ = =
jangkauan(X) maks(X) mnt(X)

Misalnya, pertimbangkan variabel waktu ke-60 dari kumpulan data mobil , yang:
mengukur berapa lama (dalam detik) yang dibutuhkan setiap mobil untuk mencapai 60 mil per jam.
Mari kita cari normalisasi min-max untuk tiga mobil yang memiliki waktu ke-60 dari 8,
15,548, detik, dan 25 detik, masing-masing. Lihat Gambar 2.7, histogram dari
variabel waktu-ke-60, bersama dengan beberapa statistik ringkasan.

Untuk kendaraan “siap balap drag”, yang hanya membutuhkan waktu 8 detik (minimum
medan) untuk mencapai 60 mph, normalisasi min-maks adalah

X menit(X) 88
Xÿ = = =0
maks(X) mnt(X) 25 8

Dari sini kita dapat mempelajari bahwa nilai data yang mewakili minimum untuk
variabel akan memiliki nilai normalisasi min-max nol.

Gambar 2.7 Histogram waktu ke-60, dengan ringkasan statistik.


Machine Translated by Google

TRANSFORMASI DATA 37

Untuk kendaraan “rata-rata” (jika ada), yang membutuhkan waktu tepat 15,548 detik (waktu
rata-rata variabel) untuk mencapai 60 mph, normalisasi min-maks adalah

X menit(X) 15.548 8
Xÿ = = = 0,444
maks(X) mnt(X) 25 8

Ini memberitahu kita bahwa kita mungkin mengharapkan nilai variabel dekat pusat
distribusi memiliki nilai normalisasi min-max dekat 0,5.

Untuk kendaraan “Saya akan sampai di sana ketika saya siap”, yang membutuhkan waktu 25 detik (
variabel maksimum) untuk mencapai 60 mph, normalisasi min-maks adalah

X menit(X) 25 8
Xÿ = = = 1.0
maks(X) mnt(X) 25 8

Artinya, nilai data yang mewakili bidang maksimum akan memiliki nilai min-maks atau
malisasi 1.

Untuk meringkas, nilai normalisasi min-max akan berkisar dari nol hingga satu,
kecuali jika nilai data baru ditemukan yang berada di luar rentang asli.

Standarisasi Z-Score
Standarisasi Z-score, yang sangat luas di dunia analisis statistik,
bekerja dengan mengambil perbedaan antara nilai bidang dan nilai rata-rata bidang dan
skala perbedaan ini dengan standar deviasi dari nilai-nilai lapangan. Itu adalah,

Xÿ = X rata-rata (X)
SD(X)

Untuk kendaraan yang hanya membutuhkan waktu 8 detik untuk mencapai 60 mph, standarisasi Z-
score adalah:

X rata-rata (X) 8 15,548


Xÿ = = = 2,593
SD(X) 2.911

Dengan demikian, nilai data yang berada di bawah rata-rata akan memiliki standarisasi Z-
score negatif.

Untuk kendaraan “rata-rata” (jika ada), yang membutuhkan waktu tepat 15,548 detik (waktu
rata-rata variabel) untuk mencapai 60 mph, standarisasi Z-skor adalah

X rata-rata (X) 15,548 15,548


Xÿ = = =0
SD(X) 2.911

Ini memberi tahu kita bahwa nilai variabel yang jatuh tepat pada rata-rata akan memiliki skor-Z
standarisasi nol.

Untuk mobil yang membutuhkan waktu 25 detik untuk mencapai 60 mph, standarisasi Z-score adalah

X rata-rata (X) 25 15,548


Xÿ = = = 3.247
SD(X) 2.911

Artinya, nilai data yang terletak di atas rata-rata akan memiliki Z-score positif
standardisasi.
Machine Translated by Google

38 BAB 2 PEMROSESAN DATA

Gambar 2.8 Histogram waktu ke-60 setelah standarisasi Z-score.

Untuk meringkas, nilai standarisasi Z-score biasanya berkisar antara –4 dan 4, dengan
nilai rata-rata memiliki standarisasi Z-score nol. Gambar 2.8 adalah histogram dari variabel
time-to-60 setelah Insightful Miner menemukan standarisasi Z-score dari setiap nilai field.
Perhatikan bahwa distribusi berpusat di sekitar nol dan minimum dan maksimum sesuai
dengan apa yang kami temukan di atas.

METODE NUMERIK UNTUK MENGIDENTIFIKASI OUTLIER

Salah satu metode menggunakan statistik untuk mengidentifikasi outlier adalah dengan menggunakan standarisasi Z-score.
Seringkali, outlier dapat diidentifikasi karena lebih jauh dari 3 standar deviasi dari mean dan
oleh karena itu memiliki standarisasi Z-score yang kurang dari 3 atau lebih besar dari 3. Nilai
bidang dengan Z-score mungkin jauh di luar kisaran ini . menanggung penyelidikan lebih lanjut
untuk memverifikasi bahwa mereka tidak mewakili kesalahan entri data atau masalah lainnya.
Misalnya, kendaraan yang membutuhkan waktu (25 detik) untuk mencapai 60 mph memiliki Z-
score 3,247. Nilai ini lebih besar dari 3 (walaupun tidak banyak), dan oleh karena itu kendaraan
ini diidentifikasi dengan metode ini sebagai outlier. Analis data mungkin ingin menyelidiki
validitas nilai data ini atau setidaknya menyarankan agar kendaraan tersebut mendapatkan tune-up!
Sayangnya, mean dan standar deviasi, keduanya merupakan bagian dari formula untuk
standarisasi Z-score, agak sensitif terhadap keberadaan outlier. Artinya, jika outlier ditambahkan
ke kumpulan data, nilai mean dan standar deviasi akan keduanya
Machine Translated by Google

LATIHAN 39

terlalu terpengaruh oleh nilai data baru ini. Oleh karena itu, ketika memilih metode untuk mengevaluasi
outlier, tampaknya tidak tepat untuk menggunakan ukuran yang sensitif terhadap kehadirannya.

Oleh karena itu, analis data telah mengembangkan metode statistik yang lebih kuat untuk deteksi
outlier, yang kurang sensitif terhadap keberadaan outlier itu sendiri.
Salah satu metode dasar yang kuat adalah dengan menggunakan jangkauan interkuartil. Kuartil dari
kumpulan data membagi kumpulan data menjadi empat bagian, masing-masing berisi 25% dari data.

Kuartil pertama (Q1) adalah persentil ke-25.

Kuartil kedua (Q2) adalah persentil ke-50, yaitu median.

Kuartil ketiga (Q3) adalah persentil ke-75.

Rentang interkuartil (IQR) adalah ukuran variabilitas yang jauh lebih kuat daripada standar deviasi. IQR
dihitung sebagai IQR = Q3 Q1 dan dapat diinterpretasikan untuk mewakili penyebaran 50% data di tengah.

Oleh karena itu, ukuran deteksi outlier yang kuat didefinisikan sebagai berikut. Sebuah data
nilai adalah outlier jika:

sebuah. Terletak 1,5(IQR) atau lebih di bawah Q1, atau b.

Itu terletak 1,5 (IQR) atau lebih di atas Q3.

Misalnya, untuk sekumpulan nilai tes, persentil ke-25 adalah Q1 = 70 dan persentil ke-75 adalah Q3 = 80,
sehingga setengah dari semua nilai tes turun antara 70 dan 80. Maka rentang interkuartil, selisih antara
kuartil ini, adalah IQR = 80 70 = 10.

Skor tes akan diidentifikasi secara kuat sebagai outlier jika:

sebuah. Lebih rendah dari Q1 1.5(IQR) = 70 1.5(10) = 55, atau b. Ini lebih

tinggi dari Q3 + 1.5(IQR) = 80 + 1.5(10) = 95.

Dalam Bab 3 kami menerapkan beberapa alat grafis dan statistik dasar untuk membantu kami mulai
mengungkap pola dan tren sederhana dalam struktur data.

REFERENSI
1. Dorian Pyle, Persiapan Data untuk Penambangan Data, Morgan Kaufmann, San Francisco, CA,
1999.
2. RJA Little dan DB Rubin, Analisis Statistik dengan Data yang Hilang, Wiley, Hoboken,
NJ, 1987.

LATIHAN
1. Jelaskan kemungkinan efek negatif dari melanjutkan langsung ke data tambang yang belum
diproses sebelumnya.

2. Cari nilai rata-rata untuk atribut pendapatan dari lima pelanggan pada Tabel 2.1 sebelum
preprocessing. Apa arti angka ini sebenarnya? Hitung pendapatan rata-rata untuk tiga nilai
yang tersisa setelah prapemrosesan. Apakah nilai ini memiliki arti?
Machine Translated by Google

40 BAB 2 PEMROSESAN DATA

3. Manakah dari tiga metode dari Gambar 2.2 hingga 2.4 yang Anda sukai untuk menangani yang hilang?
nilai-nilai?

sebuah. Metode mana yang paling konservatif dan mungkin paling aman, artinya metode ini menghasilkan
jumlah data paling sedikit? Apa saja kelemahan metode ini?

b. Metode mana yang cenderung mengarah pada perkiraan penyebaran yang terlalu rendah (misalnya, standar
deviasi) dari variabel? Apa saja manfaat dari metode ini?
c. Apa keuntungan dan kerugian dari metode yang memilih nilai secara acak?
dari distribusi variabel?

4. Buatlah skema klasifikasi yang secara inheren cacat dan akan menyebabkan kesalahan klasifikasi, seperti
yang kita temukan pada Tabel 2.2: misalnya, kelas barang yang dibeli di toko kelontong.

5. Buatlah kumpulan data yang terdiri dari delapan nilai ujian yang salah satu nilainya adalah
orang asing.

sebuah. Temukan skor rata-rata dan skor median, dengan dan tanpa outlier. b. Nyatakan

ukuran mana, mean atau median, kehadiran outlier lebih mempengaruhi, dan mengapa. (Mean, median, dan
statistik lainnya dijelaskan dalam Bab 4.)

c. Verifikasi bahwa outlier memang outlier, menggunakan metode IQR.

6. Buatlah kumpulan data, yang terdiri dari tinggi dan berat enam anak, di mana salah satu anak, tetapi tidak yang
lain, merupakan outlier terhadap salah satu variabel. Kemudian ubah kumpulan data ini sehingga anak adalah
outlier sehubungan dengan kedua variabel.

7. Dengan menggunakan kumpulan data Anda dari Latihan 5, temukan normalisasi min-maks dari skor. Pastikan
bahwa setiap nilai terletak antara nol dan 1.

Analisis Langsung
Gunakan kumpulan data churn di situs Web seri buku untuk latihan berikut.
8. Jelajahi apakah ada nilai yang hilang untuk salah satu variabel.

9. Bandingkan kode area dan bidang negara bagian. Diskusikan setiap kelainan yang tampak.

10. Gunakan grafik untuk menentukan secara visual apakah ada outlier di antara jumlah panggilan ke layanan
pelanggan.

11. Transformasikan atribut hari menit menggunakan normalisasi min-max. Verifikasi menggunakan grafik bahwa
semua nilai terletak antara nol dan 1.

12. Transformasikan atribut menit malam menggunakan standarisasi Z-score. Dengan menggunakan grafik,
gambarkan kisaran nilai standar.
Machine Translated by Google

BAB 3

ANALISIS DATA EKSPLORASI

PENGUJIAN HIPOTESIS VS ANALISIS DATA EKSPLORASI


MEMAHAMI SET DATA
MENGHADAPI VARIABEL YANG BERHUBUNGAN

MENJELAJAHI VARIABEL KATEGORIS


MENGGUNAKAN EDA UNTUK MENGUNGKAP BIDANG ANOMALOUS

MENJELAJAHI VARIABEL NUMERIK


MENJELAJAHI HUBUNGAN MULTIVARIAT
MEMILIH SUBSET DATA YANG MENARIK UNTUK INVESTIGASI LEBIH LANJUT
PENGIRIMAN

RINGKASAN

UJI HIPOTESIS VS EKSPLORASI


ANALISIS DATA

Ketika mendekati masalah data mining, seorang analis data mining mungkin
sudah memiliki beberapa hipotesis apriori yang ingin dia uji mengenai hubungan
antar variabel. Misalnya, misalkan eksekutif telepon seluler tertarik pada apakah
kenaikan baru-baru ini dalam struktur biaya telah menyebabkan penurunan pangsa pasar.
Dalam hal ini, analis akan menguji hipotesis bahwa pangsa pasar telah menurun dan oleh
karena itu akan menggunakan prosedur pengujian hipotesis .
Segudang prosedur pengujian hipotesis statistik tersedia melalui literatur
analisis statistik tradisional, termasuk metode untuk menguji hipotesis berikut:

Uji -Z untuk mean populasi


Uji -t untuk mean populasi
Z - test untuk proporsi populasi
Uji Z untuk perbedaan rata-rata untuk dua populasi

Discovering Knowledge in Data: An Introduction to Data Mining, Oleh Daniel T.


Larose ISBN 0-471-66657-2 Hak Cipta C 2005 John Wiley & Sons, Inc.

41
Machine Translated by Google

42 BAB 3 ANALISIS DATA EKSPLORASI

Uji -t untuk perbedaan rata-rata untuk dua populasi


Uji -t untuk sampel berpasangan
Z - test untuk perbedaan proporsi populasi
Itu 2
uji kecocokan untuk populasi multinomial
The 2-test untuk independensi antara variabel kategori
Analisis varians F-test
Uji -t untuk kemiringan garis regresi

Ada banyak tes hipotesis lain di seluruh literatur statistik, untuk sebagian besar situasi
yang dapat dibayangkan, termasuk analisis deret waktu, tes kontrol kualitas, dan tes
nonparametrik.
Namun, analis tidak selalu memiliki gagasan apriori tentang hubungan yang diharapkan
antara variabel. Terutama ketika dihadapkan dengan database besar yang tidak diketahui,
analis sering lebih suka menggunakan analisis data eksplorasi (EDA) atau analisis data grafis.
EDA memungkinkan analis untuk:

Selidiki kumpulan data

Periksa hubungan timbal balik di antara atribut


Identifikasi himpunan bagian yang menarik dari pengamatan

Kembangkan ide awal tentang kemungkinan asosiasi antara atribut dan variabel target,
jika ada

MEMAHAMI SET DATA

Grafik, plot, dan tabel yang sederhana (atau tidak terlalu sederhana) sering kali mengungkap
hubungan penting yang dapat menunjukkan area subur untuk penyelidikan lebih lanjut. Dalam
Bab 3 kami menggunakan metode eksplorasi untuk mempelajari kumpulan data churn [1] dari
UCI Repository of Machine Learning Databases di University of California, Irvine. Kumpulan
data juga tersedia di situs Web seri buku. Dalam bab ini kita mulai dengan menggunakan paket
perangkat lunak penambangan data Clementine dari SPSS, Inc.
Untuk memulai, seringkali yang terbaik adalah melihat nilai bidang untuk beberapa
catatan. Gambar 3.1 memberikan hasil penggunaan node tabel Clementine untuk kumpulan
data churn , yang menunjukkan nilai atribut untuk 10 record pertama. Churn, juga disebut atrisi,
adalah istilah yang digunakan untuk menunjukkan pelanggan meninggalkan layanan satu
perusahaan demi perusahaan lain. Kumpulan data berisi 20 variabel senilai informasi tentang
3333 pelanggan, bersama dengan indikasi apakah pelanggan tersebut keluar (meninggalkan
perusahaan). Variabelnya adalah sebagai berikut:

Negara Bagian: kategoris, untuk 50 negara bagian dan Distrik Columbia


Panjang akun: bernilai integer, berapa lama akun telah aktif
Kode area: kategorikal
Nomor telepon: pada dasarnya pengganti untuk ID pelanggan
Machine Translated by Google

MENGENAL SET DATA 43

Rencana Internasional: kategoris dikotomis, ya atau tidak


Paket Pesan Suara: kategoris dikotomis, ya atau tidak
Jumlah pesan pesan suara: bernilai integer
Total menit hari: terus menerus, menit pelanggan menggunakan layanan di siang hari
Total panggilan hari: bernilai bilangan bulat

Gambar 3.1 Nilai bidang dari 10 catatan pertama dalam kumpulan data churn .
Machine Translated by Google

44 BAB 3 ANALISIS DATA EKSPLORASI

Total biaya hari: terus menerus, mungkin berdasarkan dua variabel sebelumnya

Total menit malam: terus menerus, menit pelanggan menggunakan layanan selama malam hari

Total panggilan malam: bernilai bilangan bulat

Total biaya malam: terus menerus, mungkin berdasarkan dua variabel di atas

Total menit malam: terus menerus, menit pelanggan menggunakan layanan pada malam hari

Total panggilan malam: bernilai bilangan bulat

Total biaya malam: terus menerus, mungkin berdasarkan dua variabel sebelumnya

Total menit internasional: terus menerus, menit pelanggan menggunakan layanan untuk melakukan panggilan
internasional

Total panggilan internasional: bernilai bilangan bulat

Total muatan internasional: kontinu, mungkin berdasarkan dua variabel sebelumnya

Jumlah panggilan ke layanan pelanggan: bernilai bilangan bulat

MENGHADAPI VARIABEL YANG BERHUBUNGAN

Seseorang harus berhati-hati untuk menghindari memasukkan variabel yang berkorelasi ke data mining dan model
statistik. Paling-paling, menggunakan variabel berkorelasi akan terlalu menekankan satu komponen data; paling buruk,
menggunakan variabel berkorelasi akan menyebabkan model menjadi tidak stabil dan memberikan hasil yang tidak dapat
diandalkan.

Kumpulan data berisi tiga variabel: menit, panggilan, dan biaya. Deskripsi data menunjukkan bahwa variabel
biaya dapat berupa fungsi menit dan panggilan, sehingga variabel tersebut akan berkorelasi. Kami menyelidiki
menggunakan plot matriks yang ditunjukkan pada Gambar 3.2, yang merupakan matriks plot pencar untuk satu set

263.1

Menit Sehari
87.7

123,75

Panggilan Siang

41.25

44,73

Biaya Harian
14.91

87.7 263.1 41.25 14.91 44,73


123,75

Gambar 3.2 Matriks plot menit hari, panggilan hari, dan biaya hari.
Machine Translated by Google

MENJELAJAHI VARIABEL KATEGORIK 45

Analisis Regresi: Day charge versus Day Mins

Persamaan regresinya adalah


Biaya Sehari = 0,000613 + 0,170 Menit Hari

Prediktor koefisien Koef SE T P


Konstan 0,0006134 0,0001711 3.59 0,000
Menit Sehari 0,170000 0,000001 186644.31 0,000

S = 0,002864 R-Sq = 100,0% R-Sq(adj) = 100,0%

Gambar 3.3 Keluaran regresi Minitab untuk pengisian hari versus menit hari.

variabel numerik. Plot matriks berasal dari Minitab, statistik yang banyak digunakan
kemasan.
Sepertinya tidak ada hubungan antara menit siang hari dan panggilan siang hari
atau antara panggilan hari dan biaya hari. Ini menurut kami agak aneh, seperti yang mungkin terjadi
diharapkan ketika jumlah panggilan meningkat, jumlah menit akan cenderung
meningkat (dan juga untuk muatan), menghasilkan korelasi positif antara ini
bidang. Namun, bukti grafis tidak mendukung ini, juga tidak korelasi,
yang r = 0,07 untuk kedua hubungan (dari Minitab, tidak ditampilkan).
Di sisi lain, ada hubungan linier yang sempurna antara menit hari dan
pengisian hari, menunjukkan bahwa pengisian hari adalah fungsi linier sederhana dari menit hari saja.
Menggunakan alat regresi Minitab (Gambar 3.3), kami menemukan bahwa kami dapat mengekspresikan fungsi ini
sebagai persamaan regresi yang diperkirakan: “Biaya harian sama dengan 0,000613 ditambah 0,17 kali
menit hari.” Ini pada dasarnya adalah model tarif tetap, penagihan 17 sen per menit untuk
hari penggunaan. Perhatikan dari Gambar 3.3 bahwa statistik R-kuadrat tepat 1, menunjukkan a
hubungan linier yang sempurna.
Karena pengisian hari berkorelasi sempurna dengan menit hari, kita harus menghilangkan
salah satu dari dua variabel. Kami melakukannya, memilih secara sewenang-wenang untuk menghilangkan biaya hari dan
mempertahankan menit hari. Investigasi komponen malam , malam, dan internasional
mencerminkan temuan serupa, dan dengan demikian kami juga menghilangkan biaya malam, biaya malam,
dan biaya internasional. Perhatikan bahwa kita telah melanjutkan ke fase pemodelan tanpa
pertama kali mengungkap korelasi ini, penambangan data dan model statistik kami mungkin memiliki
mengembalikan hasil yang tidak koheren, karena dalam domain regresi berganda, misalnya, untuk
multikolinearitas. Oleh karena itu, kami telah mengurangi jumlah prediktor dari 20 menjadi 16 dengan
menghilangkan variabel yang berlebihan. Manfaat lebih lanjut dari melakukannya adalah bahwa dimensi
ruang solusi berkurang, sehingga algoritma penambangan data tertentu mungkin lebih
secara efisien menemukan solusi optimal global.

MENJELAJAHI VARIABEL KATEGORIS

Salah satu alasan utama untuk melakukan analisis data eksplorasi adalah untuk menyelidiki
variabel, lihat histogram variabel numerik, periksa distribusinya
dari variabel kategori, dan mengeksplorasi hubungan antara set variabel.
Di sisi lain, tujuan keseluruhan kami untuk proyek penambangan data secara keseluruhan (bukan
hanya fase EDA) adalah untuk mengembangkan model jenis pelanggan yang cenderung churn
Machine Translated by Google

46 BAB 3 ANALISIS DATA EKSPLORASI

Gambar 3.4 Bagan batang perbandingan proporsi churn menurut partisipasi International Plan.

(melompat dari layanan perusahaan Anda ke layanan perusahaan lain). Paket perangkat lunak saat ini memungkinkan
kita untuk mengenal variabel sambil mulai melihat variabel mana yang terkait dengan churn. Dengan cara ini kita
dapat menjelajahi data sambil mengawasi tujuan kita secara keseluruhan. Kita mulai dengan mempertimbangkan
variabel kategoris.
Misalnya, Gambar 3.4 menunjukkan perbandingan proporsi churners (merah) dan nonchurners (biru) di
antara pelanggan yang telah memilih Paket Internasional (ya, 9,69% pelanggan) atau tidak memilihnya (tidak,
90,31% pelanggan ). Grafik tersebut tampaknya menunjukkan bahwa proporsi yang lebih besar dari pemegang
Rencana Internasional berputar, tetapi sulit untuk memastikannya.

Untuk meningkatkan kontras dan membedakan dengan lebih baik apakah proporsinya berbeda, kita dapat
meminta perangkat lunak (dalam hal ini, Clementine) untuk menyediakan bilah berukuran sama untuk setiap kategori.
Pada Gambar 3.5 kita melihat grafik informasi yang sama seperti pada Gambar 3.4, kecuali bahwa batang untuk
kategori ya telah direntangkan sama panjangnya dengan batang untuk kategori tidak . Ini memungkinkan kita untuk
lebih membedakan apakah proporsi churn berbeda

Gambar 3.5 Bagan batang perbandingan proporsi churn menurut partisipasi International Plan, dengan
panjang batang yang sama.
Machine Translated by Google

MENJELAJAHI VARIABEL KATEGORIK 47

Gambar 3.6 Tabulasi silang Rencana Internasional dengan churn.

di antara kategori. Jelas, mereka yang telah memilih International Plan memiliki peluang lebih besar untuk
meninggalkan layanan perusahaan daripada mereka yang tidak memiliki International Plan.

Grafik menunjukkan kepada kita bahwa pemegang Paket Internasional cenderung lebih sering melakukan
churn, tetapi mereka tidak mengukur hubungannya. Untuk mengukur hubungan antara holding dan churning
International Plan, kita dapat menggunakan tabulasi silang, karena kedua variabel bersifat kategoris. Gambar 3.6
menunjukkan tabulasi silang Clementine. Perhatikan bahwa hitungan di kolom pertama menjumlahkan jumlah total
non-pemilih dari Rencana Internasional dari Gambar 3.4, 2664 + 346 = 3010; sama untuk kolom kedua. Baris
pertama pada Gambar 3.6 menunjukkan jumlah orang yang tidak melakukan churn, sedangkan baris kedua
menunjukkan jumlah orang yang melakukan churn. Jadi kumpulan data berisi 346 + 137 = 483 churner dibandingkan
dengan 2664 + 186 = 2850 non-churner; yaitu, 483/(483 + 2850) = 14,5% pelanggan dalam kumpulan data ini

adalah churner.

Perhatikan bahwa 137/(137 + 186) = 42,4% dari pemegang International Plan berhenti, dibandingkan
dengan hanya 346/(346 + 2664) = 11,5% dari mereka yang tidak memiliki International Plan. Pelanggan yang
memilih Paket Internasional lebih dari tiga kali lebih mungkin untuk meninggalkan layanan perusahaan daripada
mereka yang tidak memiliki paket.
EDA pada Rencana Internasional ini telah mengindikasikan bahwa:

1. Mungkin kita harus menyelidiki apa itu Rencana Internasional


mendorong pelanggan untuk pergi!

2. Kita harus mengharapkan bahwa algoritma penambangan data apa pun yang kita gunakan untuk memprediksi
churn, modelnya mungkin akan menyertakan apakah pelanggan memilih Paket Internasional atau tidak.

Sekarang mari kita beralih ke Paket Pesan Suara. Gambar 3.7 menunjukkan dalam grafik batang dengan
panjang yang sama bahwa mereka yang tidak memiliki Paket Pesan Suara lebih mungkin untuk melakukan churn
daripada mereka yang memiliki paket. (Angka-angka dalam grafik menunjukkan proporsi dan jumlah mereka yang
memiliki dan tidak memiliki Paket Pesan Suara, tanpa mengacu pada pengocokan.)

Sekali lagi, kita dapat mengukur temuan ini dengan menggunakan tabulasi silang, seperti pada Gambar 3.8.
Pertama-tama, 842 + 80 = 922 pelanggan memiliki Paket Pesan Suara, sedangkan 2008 + 403 = 2411 tidak. Kami
kemudian menemukan bahwa 403/2411 = 16,7% dari mereka yang tidak memiliki Paket Pesan Suara
Machine Translated by Google

48 BAB 3 ANALISIS DATA EKSPLORASI

Gambar 3.7 Mereka yang tidak memiliki Paket Pesan Suara lebih mungkin untuk melakukan churn.

adalah churners, dibandingkan dengan 80/922 = 8,7% pelanggan yang memiliki Paket VoiceMail. Dengan
demikian, pelanggan tanpa Paket VoiceMail hampir dua kali lebih mungkin melakukan churn dibandingkan
pelanggan dengan paket tersebut.
EDA pada Paket Pesan Suara ini telah menunjukkan bahwa:

1. Mungkin kita harus meningkatkan Paket VoiceMail lebih lanjut atau memudahkan pelanggan untuk
bergabung, sebagai instrumen untuk meningkatkan loyalitas pelanggan.

2. Kita harus mengharapkan bahwa algoritma penambangan data apa pun yang kita gunakan untuk
memprediksi churn, modelnya mungkin akan menyertakan apakah pelanggan memilih Paket Pesan
Suara atau tidak. Keyakinan kami dalam harapan ini mungkin tidak setinggi yang diharapkan untuk
Rencana Internasional.

Kami juga dapat mengeksplorasi interaksi dua arah di antara variabel kategoris sehubungan
dengan churn. Misalnya, Gambar 3.9 menunjukkan sepasang diagram batang horizontal untuk

Gambar 3.8 Tabulasi silang Paket Pesan Suara dengan churn.


Machine Translated by Google

MENJELAJAHI VARIABEL KATEGORIAL 49

Gambar 3.9 Bagan batang pelanggan yang melakukan churn, tanpa Paket Pesan Suara, disubset oleh
pilihan Paket Internasional.

pelanggan yang tidak memilih Paket VoiceMail (Vmail Plan = no). Diagram batang di sebelah
kanan berisi pelanggan yang juga tidak memilih Paket Internasional, sedangkan diagram batang
di sebelah kiri berisi pelanggan yang memilih Paket Internasional.
Perhatikan bahwa ada lebih banyak pelanggan yang tidak memiliki paket (1878 + 302 =
2180) daripada yang hanya memiliki Paket Internasional (130 + 101 = 231). Lebih penting lagi,
di antara pelanggan tanpa Paket VoiceMail, proporsi churner lebih besar bagi mereka yang
memiliki Paket Internasional (101/231 = 44%) daripada mereka yang tidak (302/2180 = 14%).

Selanjutnya, Gambar 3.10 menunjukkan sepasang diagram batang horizontal untuk


pelanggan yang memilih Paket Pesan Suara (Paket Vmail = ya). Masih banyak lagi pelanggan yang

Gambar 3.10 Diagram batang pelanggan yang melakukan churn, dengan Paket VoiceMail, disubset oleh
pilihan Paket Inter nasional.
Machine Translated by Google

50 BAB 3 ANALISIS DATA EKSPLORASI

Gambar 3.11 Grafik web terarah mendukung temuan sebelumnya.

hanya memiliki Paket Pesan Suara (786 + 44 = 830) dibandingkan mereka yang memiliki
kedua paket (56 + 36 = 92). Namun, sekali lagi, di antara pelanggan dengan Paket VoiceMail,
proporsi churner jauh lebih besar bagi mereka yang juga memilih Paket Internasional (36/92
= 39%) daripada mereka yang tidak (44/830 = 5%). Perhatikan bahwa tidak ada interaksi di
antara variabel kategoris. Artinya, pemegang Paket Internasional memiliki churn yang lebih
besar terlepas dari apakah mereka pengadopsi Paket VoiceMail atau bukan.
Terakhir, Gambar 3.11 menunjukkan grafik web yang diarahkan oleh Clementine
tentang hubungan antara pemegang International Plan, pemegang VoiceMail Plan, dan
churner. Bandingkan tepi (garis) yang menghubungkan node VoiceMail Plan = Yes ke node
Churn = True dan Churn = False. Tepi yang terhubung ke simpul Churn = False lebih berat,
menunjukkan bahwa sebagian besar pemegang Paket VoiceMail akan memilih untuk tidak
melakukan churn. Ini mendukung temuan kami sebelumnya.

MENGGUNAKAN EDA UNTUK MENGUNGKAP BIDANG ANOMALOUS

Analisis data eksplorasi terkadang akan mengungkap catatan atau bidang yang aneh atau
anomali yang mungkin terlewatkan oleh fase pembersihan data sebelumnya. Pertimbangkan,
misalnya, bidang kode area dalam kumpulan data ini. Meskipun kode area berisi angka,
mereka juga dapat digunakan sebagai variabel kategoris, karena mereka dapat
mengklasifikasikan pelanggan menurut lokasi geografis. Kami tertarik dengan fakta bahwa
bidang kode area hanya berisi tiga nilai berbeda untuk semua catatan—408, 415, dan 510—
ketiganya berada di California, seperti yang ditunjukkan oleh Gambar 3.12.
Machine Translated by Google

MENGGUNAKAN EDA UNTUK MENGUNGKAP BIDANG ANOMALOUS 51

Gambar 3.12 Hanya tiga kode area untuk semua record.

Sekarang, ini tidak akan menjadi anomali jika catatan menunjukkan bahwa semua
pelanggan tinggal di California. Namun, seperti yang ditunjukkan pada tabulasi silang pada
Gambar 3.13 (hanya hingga Florida, untuk menghemat ruang), ketiga kode area tampaknya
didistribusikan kurang lebih merata di semua negara bagian dan Distrik Columbia. Ada
kemungkinan bahwa pakar domain dapat menjelaskan jenis perilaku ini, tetapi mungkin juga
bidang tersebut hanya berisi data yang buruk.
Oleh karena itu, kita harus waspada terhadap bidang kode area ini, mungkin sejauh ini
tidak memasukkannya sebagai masukan ke model penambangan data di fase berikutnya. Di
sisi lain, mungkin bidang negara bagian yang salah. Bagaimanapun, komunikasi lebih lanjut

Gambar 3.13 Anomali: tiga kode area tersebar di seluruh 50 negara bagian.
Machine Translated by Google

52 BAB 3 ANALISIS DATA EKSPLORASI

dengan seseorang yang akrab dengan riwayat data, atau pakar domain, dipanggil sebelum
dimasukkannya variabel-variabel ini dalam model penambangan data.

MENJELAJAHI VARIABEL NUMERIK

Selanjutnya, kita beralih ke eksplorasi variabel prediksi numerik. Kami mulai dengan ukuran
ringkasan numerik, termasuk minimum dan maksimum; ukuran pusat, seperti mean, median, dan
modus; dan ukuran variabilitas, seperti standar deviasi. Gambar 3.14 menunjukkan ukuran
ringkasan ini untuk beberapa variabel numerik kami. Kita melihat, misalnya, bahwa panjang akun
minimum adalah satu bulan, maksimum adalah 243 bulan, dan rata-rata dan median hampir sama,
sekitar 101 bulan, yang merupakan indikasi simetri. Perhatikan bahwa beberapa variabel
menunjukkan bukti simetri ini, termasuk semua bidang menit, biaya, dan panggilan .

Gambar 3.14 Ringkasan statistik untuk beberapa variabel numerik.


Machine Translated by Google

MENJELAJAHI VARIABEL NUMERIK 53

Bidang tidak menunjukkan bukti simetri termasuk pesan suara dan panggilan layanan
pelanggan. Median untuk pesan voice mail adalah nol, menunjukkan bahwa setidaknya setengah
dari semua pelanggan tidak memiliki pesan voice mail. Hal ini tentu saja disebabkan oleh kurang
dari separuh pelanggan yang memilih Paket Pesan Suara, seperti yang kita lihat di atas. Rata-rata
panggilan layanan pelanggan (1,563) lebih besar dari median (1,0), menunjukkan beberapa
kemiringan yang tepat, seperti juga ditunjukkan oleh jumlah maksimum panggilan layanan
pelanggan menjadi sembilan.
Seperti disebutkan sebelumnya, mempertahankan variabel berkorelasi akan, paling banter,
terlalu menekankan komponen prediktif tertentu dengan mengorbankan yang lain, dan paling buruk,
menyebabkan ketidakstabilan dalam model, yang mengarah ke hasil yang berpotensi tidak masuk
akal. Oleh karena itu, kita perlu memeriksa korelasi antara variabel numerik kita. Gambar 3.15
menunjukkan korelasi untuk dua variabel, panggilan layanan pelanggan dan biaya harian, dengan
semua variabel numerik lainnya. Perhatikan bahwa semua korelasi ditampilkan sebagai lemah
(kategorisasi ini dapat ditentukan oleh pengguna), kecuali untuk korelasi antara biaya harian dan menit hari,

Gambar 3.15 Korelasi untuk panggilan layanan pelanggan dan biaya harian.
Machine Translated by Google

54 BAB 3 ANALISIS DATA EKSPLORASI

Gambar 3.16 Histogram panggilan layanan pelanggan.

yaitu r = 1,0, hubungan linier sempurna yang kita bahas di atas. Kami memeriksa semua korelasi
berpasangan, dan menemukan semua korelasi lemah setelah bidang muatan dihapus (tidak
ditampilkan).
Kami beralih ke analisis grafis dari variabel numerik kami. Kami menunjukkan tiga contoh
histogram, yang berguna untuk mendapatkan tampilan menyeluruh pada distribusi variabel
numerik, untuk panggilan layanan pelanggan variabel. Gambar 3.16 adalah histogram panggilan
layanan pelanggan, tanpa overlay, yang menunjukkan bahwa distribusinya miring ke kanan,
dengan mode pada satu panggilan.
Namun, ini tidak memberi kita indikasi hubungan apa pun dengan churn, untuk itu kita
harus beralih ke Gambar 3.17, histogram panggilan layanan pelanggan yang sama, kali ini dengan

Gambar 3.17 Histogram panggilan layanan pelanggan, dengan overlay churn.


Machine Translated by Google

MENJELAJAHI VARIABEL NUMERIK 55

Gambar 3.18 Histogram panggilan layanan pelanggan yang dinormalisasi, dengan overlay churn.

gulung overlay. Gambar 3.17 mengisyaratkan bahwa proporsi churn mungkin lebih besar untuk jumlah panggilan
layanan pelanggan yang lebih tinggi, tetapi sulit untuk membedakan hasil ini dengan tegas.
Oleh karena itu kami beralih ke histogram yang dinormalisasi, di mana setiap persegi panjang memiliki tinggi
dan lebar yang sama, seperti yang ditunjukkan pada Gambar 3.18. Perhatikan bahwa proporsi churners versus
nonchurners pada Gambar 3.18 persis sama seperti pada Gambar 3.17; hanya saja "meregangkan" persegi
panjang yang memiliki jumlah rendah memungkinkan definisi dan kontras yang lebih baik. Polanya sekarang
menjadi sangat jelas. Pelanggan yang telah menelepon layanan pelanggan tiga kali atau lebih sedikit memiliki
tingkat churn yang jauh lebih rendah (bagian gelap dari persegi panjang) dibandingkan dengan pelanggan yang
telah menelepon layanan pelanggan empat kali atau lebih.
EDA ini pada panggilan layanan pelanggan telah menunjukkan bahwa:

1. Kita harus melacak dengan cermat jumlah panggilan layanan pelanggan yang dilakukan oleh setiap
pelanggan. Pada panggilan ketiga, insentif khusus harus ditawarkan untuk mempertahankan loyalitas
pelanggan.

2. Kita harus mengharapkan bahwa algoritma penambangan data apa pun yang kita gunakan untuk
memprediksi churn, modelnya mungkin akan menyertakan jumlah panggilan layanan pelanggan yang
dilakukan oleh pelanggan.

Memeriksa Gambar 3.19, kita melihat bahwa histogram hari menit yang dinormalisasi
menunjukkan bahwa pengguna hari yang sangat tinggi cenderung melakukan churn pada tingkat yang lebih tinggi. Karena itu:

1. Kita harus hati-hati melacak jumlah menit hari yang digunakan oleh setiap pelanggan. Karena jumlah
menit hari melewati 200, kita harus mempertimbangkan insentif khusus.

2. Kita harus menyelidiki mengapa pengguna hari berat tergoda untuk pergi.

3. Kita harus berharap bahwa model penambangan data akhirnya akan menyertakan menit hari sebagai
prediktor churn.

Gambar 3.20 menunjukkan sedikit kecenderungan untuk pelanggan dengan menit malam yang lebih
tinggi untuk churn. Namun, hanya berdasarkan bukti grafis, kami tidak dapat menyimpulkan
Machine Translated by Google

56 BAB 3 ANALISIS DATA EKSPLORASI

Gambar 3.19 Pelanggan dengan menit hari yang tinggi cenderung churn pada tingkat yang lebih tinggi.

Gambar 3.20 Sedikit kecenderungan bagi pelanggan dengan menit malam yang lebih tinggi untuk berhenti pada menit yang lebih tinggi
kecepatan.
Machine Translated by Google

MENJELAJAHI VARIABEL NUMERIK 57

Gambar 3.21 Tidak ada hubungan churn dengan panggilan siang, panggilan malam, panggilan malam, atau panggilan
internasional.

tanpa keraguan yang masuk akal bahwa efek seperti itu ada. Oleh karena itu, kami akan menunda
merumuskan rekomendasi kebijakan tentang penggunaan ponsel di malam hari sampai model
penambangan data kami menawarkan bukti yang lebih kuat bahwa efek diduga memang ada.
Akhirnya, Gambar 3.21 dan 3.22 menunjukkan bahwa tidak ada hubungan yang jelas antara
churn dan variabel numerik yang tersisa dalam kumpulan data. Gambar 3.21 menunjukkan histogram
dari empat variabel panggilan , siang, sore, malam, dan panggilan internasional, dengan overlay
churn. Gambar 3.22 menunjukkan histogram menit malam, menit internasional, panjang akun, dan
pesan suara, dengan overlay churn.
Variabilitas tinggi dalam proporsi churn di ekor kanan beberapa histogram mencerminkan jumlah
sampel yang kecil di wilayah tersebut.
Berdasarkan kurangnya hubungan yang jelas antara churn dan variabel pada Gambar 3.21
dan 3.22, kita tidak perlu mengharapkan model data mining untuk
Machine Translated by Google

58 BAB 3 ANALISIS DATA EKSPLORASI

Gambar 3.22 Tidak ada hubungan churn dengan menit malam, menit internasional,
panjang akun, atau pesan suara.

mengungkap informasi prediktif yang berharga menggunakan variabel-variabel ini. Kita harus,
bagaimanapun, mempertahankannya sebagai variabel input untuk model penambangan data. Alasan
untuk mempertahankan variabel-variabel ini adalah bahwa asosiasi yang dapat ditindaklanjuti mungkin
masih ada untuk subset record yang dapat diidentifikasi, dan mereka mungkin terlibat dalam asosiasi
dan interaksi dimensi yang lebih tinggi. Bagaimanapun, kecuali ada alasan yang baik (seperti korelasi
yang kuat) untuk menghilangkan variabel sebelum pemodelan, kita mungkin harus mengizinkan proses
pemodelan untuk mengidentifikasi variabel mana yang prediktif dan mana yang tidak.
Pengecualian untuk situasi ini adalah jika ada begitu banyak bidang sehingga kinerja algoritme
menurun. Dalam hal ini, seseorang dapat mempertimbangkan untuk menyisihkan variabel sementara
Machine Translated by Google

MENJELAJAHI HUBUNGAN MULTIVARIAT 59

TABEL 3.1 Ringkasan Temuan Eksplorasi Sejauh Ini

Variabel Watak

Negara Ganjil. Dihilangkan dari model.

Panjang akun Tidak ada hubungan yang jelas dengan churn, tetapi dipertahankan.

Kode area Ganjil. Dihilangkan dari model.


Nomor telepon Pengganti untuk ID. Dihilangkan dari model.
Paket Internasional Prediksi churn. Ditahan.
Paket Pesan Suara Prediksi churn. Ditahan.

Jumlah pesan pesan suara Tidak ada hubungan yang jelas dengan churn, tetapi dipertahankan.

Total hari menit Prediksi churn. Ditahan.

Total panggilan sehari Tidak ada hubungan yang jelas dengan churn, tetapi dipertahankan.

Total biaya hari Fungsi menit. Dihilangkan dari model.

Total menit malam Mungkin prediksi churn. Ditahan.


Total panggilan malam Tidak ada hubungan yang jelas dengan churn, tetapi dipertahankan.

Total biaya malam Fungsi menit. Dihilangkan dari model.

Total menit malam Tidak ada hubungan yang jelas dengan churn, tetapi dipertahankan.

Total panggilan malam Tidak ada hubungan yang jelas dengan churn, tetapi dipertahankan.

Total biaya malam Fungsi menit. Dihilangkan dari model.


Jumlah menit internasional Tidak ada hubungan yang jelas dengan churn, tetapi dipertahankan.

Jumlah panggilan internasional Tidak ada hubungan yang jelas dengan churn, tetapi dipertahankan.

Total biaya internasional Fungsi menit. Dihilangkan dari model.


Panggilan layanan pelanggan Prediksi churn. Ditahan.

tanpa hubungan yang jelas dengan target, sampai analisis dengan variabel yang lebih menjanjikan
dilakukan. Juga dalam hal ini, teknik pengurangan dimensi harus
diterapkan, seperti analisis komponen utama [2].
Tabel 3.1 merangkum temuan eksplorasi kami sejauh ini. Kami telah memeriksa masing-masing
variabel dan telah mengambil pandangan awal pada hubungan mereka dengan churn.

MENJELAJAHI HUBUNGAN MULTIVARIAT

Kami beralih ke pemeriksaan kemungkinan asosiasi multivariat numerik


variabel dengan churn, menggunakan plot sebar dua dan tiga dimensi. Gambar 3.23 adalah
plot sebar panggilan layanan pelanggan versus menit hari (perhatikan Clementine salah
membalikkan urutan ini dalam judul plot; variabel y harus selalu menjadi yang pertama dinamai).
Pertimbangkan partisi yang ditunjukkan pada plot pencar, yang menunjukkan area churn tinggi
di bagian kiri atas grafik dan area high-churn lainnya di sebelah kanan
grafik. Area high-churn di bagian kiri atas grafik terdiri dari pelanggan
yang memiliki kombinasi jumlah panggilan layanan pelanggan yang tinggi dan jumlah yang rendah
hari menit yang digunakan. Perhatikan bahwa kelompok pelanggan ini tidak dapat diidentifikasi
telahkah kita membatasi diri pada eksplorasi univariat (menjelajahi variabel demi
variabel). Hal ini karena adanya interaksi antar variabel.
Machine Translated by Google

60 BAB 3 ANALISIS DATA EKSPLORASI

Gambar 3.23 Plot pencar panggilan layanan pelanggan versus menit hari.

Secara umum, pelanggan dengan jumlah panggilan layanan pelanggan yang lebih tinggi
cenderung melakukan churn pada tingkat yang lebih tinggi, seperti yang kita pelajari sebelumnya
dalam analisis univariat. Namun, Gambar 3.23 menunjukkan bahwa dari pelanggan dengan jumlah
panggilan layanan pelanggan yang tinggi, mereka yang juga memiliki menit harian yang tinggi agak
“terlindungi” dari tingkat churn yang tinggi ini. Pelanggan di kanan atas plot pencar menunjukkan
tingkat churn yang lebih rendah daripada pelanggan di kiri atas.
Bandingkan situasi ini dengan area high-churn lainnya di sebelah kanan (di sebelah kanan garis
lurus). Di sini, tingkat churn yang lebih tinggi ditampilkan untuk mereka yang memiliki menit hari yang
tinggi, terlepas dari jumlah panggilan layanan pelanggan, seperti yang ditunjukkan oleh garis partisi
yang hampir vertikal. Dengan kata lain, pelanggan dengan churn tinggi ini adalah pelanggan yang
sama seperti yang diidentifikasi dalam histogram univariat pada Gambar 3.19.
Terkadang, plot pencar tiga dimensi juga dapat membantu. Gambar 3.24 adalah contoh plot
menit siang versus menit malam versus panggilan layanan pelanggan, dengan overlay churn. Tombol
gulir di samping memutar tampilan sehingga titik dapat diperiksa dalam lingkungan tiga dimensi.
Machine Translated by Google

MEMILIH SUBSET DATA YANG MENARIK UNTUK INVESTIGASI LEBIH LANJUT 61

Gambar 3.24 Plot sebar tiga dimensi menit siang versus menit malam versus panggilan
layanan pelanggan, dengan overlay churn.

MEMILIH SUBSET DATA YANG MENARIK


UNTUK INVESTIGASI LEBIH LANJUT

Kami dapat menggunakan plot pencar (atau histogram) untuk mengidentifikasi subset data yang
menarik, untuk mempelajari subset ini lebih dekat. Pada Gambar 3.25 kita melihat bahwa pelanggan
dengan menit siang hari yang tinggi dan menit malam hari yang tinggi lebih mungkin untuk melakukan
churn. Tapi bagaimana kita bisa mengukur ini? Clementine memungkinkan pengguna untuk mengklik
dan menyeret kotak pilih di sekitar titik data yang menarik, dan memilihnya untuk penyelidikan lebih
lanjut. Di sini kami memilih catatan di dalam kotak persegi panjang di kanan atas. (Metode yang lebih
baik adalah mengizinkan pengguna memilih poligon selain persegi panjang.)
Distribusi churn untuk subset record ini ditunjukkan pada Gambar 3.26. Ternyata lebih dari 43%
pelanggan yang memiliki menit siang hari dan menit sore hari tinggi adalah churner. Ini kira-kira tiga
kali lipat tingkat churn dari keseluruhan basis pelanggan dalam kumpulan data. Oleh karena itu, kami
merekomendasikan agar kami mempertimbangkan bagaimana kami dapat mengembangkan strategi
untuk membuat pelanggan kami yang sering menggunakan berat tetap senang sehingga mereka tidak
meninggalkan layanan perusahaan, mungkin dengan mendiskon tingkat penggunaan menit yang lebih
tinggi.
Machine Translated by Google

62 BAB 3 ANALISIS DATA EKSPLORASI

Gambar 3.25 Memilih subset catatan yang menarik untuk penyelidikan lebih lanjut.

PENGIRIMAN

Binning (juga disebut pita) mengacu pada kategorisasi variabel numerik atau kategoris
ke dalam satu set kelas yang mudah dikelola yang nyaman untuk analisis.
Sebagai contoh, jumlah menit dalam sehari dapat dikategorikan (binned) menjadi tiga
kelas: rendah, sedang, dan tinggi. Status variabel kategoris dapat dimasukkan ke dalam

Gambar 3.26 Lebih dari 43% pelanggan dengan churn menit siang dan malam yang tinggi.
Machine Translated by Google

RINGKASAN 63

Gambar 3.27 Tingkat pemutusan untuk pelanggan dengan panggilan layanan pelanggan rendah (atas) dan tinggi
(bawah).

variabel baru, wilayah, di mana California, Oregon, Washington, Alaska, dan Hawaii akan dimasukkan ke
dalam kategori Pasifik , dan seterusnya. Benar berbicara, binning adalah kegiatan persiapan data serta
kegiatan eksplorasi.
Ada berbagai strategi untuk binning variabel numerik. Salah satu pendekatan adalah membuat kelas
dengan lebar yang sama, analog dengan histogram dengan lebar yang sama. Pendekatan lain adalah
mencoba menyamakan jumlah record di setiap kelas. Anda dapat mempertimbangkan pendekatan lain, yang
mencoba untuk mempartisi kumpulan data ke dalam kelompok catatan yang dapat diidentifikasi, yang,
sehubungan dengan variabel target, memiliki perilaku yang serupa dengan catatan lain di kelas yang sama.

Misalnya, ingat Gambar 3.18, di mana kami melihat bahwa pelanggan dengan kurang dari empat
panggilan ke layanan pelanggan memiliki tingkat churn yang lebih rendah daripada pelanggan yang memiliki

empat atau lebih panggilan ke layanan pelanggan. Oleh karena itu, kami dapat memutuskan untuk
menggabungkan variabel panggilan layanan pelanggan ke dalam dua kelas, rendah dan tinggi. Gambar 3.27
menunjukkan bahwa churn rate untuk pelanggan dengan jumlah panggilan ke customer service yang rendah
adalah 11,25%, sedangkan churn rate untuk pelanggan dengan jumlah panggilan ke customer service yang
tinggi adalah 51,69%, lebih dari empat kali lipat.

RINGKASAN

Mari kita pertimbangkan beberapa wawasan yang telah kita peroleh ke dalam kumpulan data churn melalui
penggunaan analisis data eksplorasi.

Empat bidang muatan adalah fungsi linier dari bidang menit , dan harus dihilangkan.

Bidang kode area dan/atau bidang keadaan adalah anomali, dan harus dihilangkan sampai diperoleh
klarifikasi lebih lanjut.
Machine Translated by Google

64 BAB 3 ANALISIS DATA EKSPLORASI

Korelasi di antara variabel prediktor yang tersisa lemah, memungkinkan kami untuk mempertahankan
semuanya untuk model penambangan data apa pun.

Wawasan sehubungan dengan churn:

Pelanggan dengan Paket Internasional cenderung lebih sering churn.

Pelanggan dengan Paket VoiceMail cenderung lebih jarang melakukan churn.


Pelanggan dengan empat atau lebih panggilan layanan pelanggan churn lebih dari empat kali sesering
pelanggan lain.

Pelanggan dengan menit siang dan menit sore yang tinggi cenderung melakukan churn pada tingkat
yang lebih tinggi daripada pelanggan lainnya.

Pelanggan dengan menit siang hari dan menit sore hari yang tinggi berputar sekitar tiga kali lebih
banyak daripada pelanggan lain.

Pelanggan dengan menit hari rendah dan panggilan layanan pelanggan tinggi churn pada tingkat yang
lebih tinggi daripada pelanggan lain.

Tidak ada hubungan yang jelas antara churn dengan variabel panggilan siang, panggilan malam,
panggilan malam, panggilan internasional, menit malam, menit internasional, panjang akun, atau pesan
pesan suara.

Perhatikan bahwa kami belum menerapkan algoritme penambangan data apa pun pada kumpulan data
ini, seperti pohon keputusan atau algoritme jaringan saraf. Namun kami telah memperoleh banyak wawasan
tentang atribut yang terkait dengan pelanggan yang meninggalkan perusahaan, hanya dengan penerapan
analisis data eksplorasi yang cermat. Wawasan ini dapat dengan mudah dirumuskan menjadi rekomendasi
yang dapat ditindaklanjuti, sehingga perusahaan dapat mengambil tindakan untuk menurunkan tingkat churn di
antara basis pelanggannya.

REFERENSI
1. CL Blake dan CJ Merz,Churn Data Set, UCI Repository of Machine Learning Databases, http://
www.ics.uci.edu/ÿmlearn/MLRepository.html. University of Cali fornia, Departemen Informasi dan Ilmu
Komputer, Irvine, CA, 1998.
2. Daniel Larose, Metode dan Model Penambangan Data, Wiley-Interscience, Hoboken, NJ (untuk ap
pir 2005).

LATIHAN
1. Jelaskan kemungkinan konsekuensi dari membiarkan variabel yang berkorelasi tetap berada di
model.

sebuah. Bagaimana kita bisa menentukan apakah ada korelasi di antara variabel kita?

b. Langkah apa yang bisa kita ambil untuk memperbaiki situasi? Terlepas dari metode yang dijelaskan
dalam teks, pikirkan beberapa cara kreatif untuk menangani variabel yang berkorelasi.

c. Bagaimana kita bisa menyelidiki korelasi antara variabel kategori?

2. Untuk setiap metode deskriptif berikut, nyatakan apakah metode tersebut dapat diterapkan pada data
kategorikal, data numerik kontinu, atau keduanya.
sebuah. Diagram batang

b. Histogram c.

Statistik ringkasan
Machine Translated by Google

LATIHAN 65

d. Tabulasi silang

e. Analisis korelasi f. Plot

sebar (dua atau tiga dimensi) g. Grafik web h.

Binning

3. Mengapa kita perlu melakukan analisis data eksplorasi? Mengapa kita tidak langsung melanjutkan ke
fase pemodelan dan mulai menerapkan perangkat lunak penambangan data bertenaga tinggi kita?

4. Buatlah kumpulan data fiktif (atribut tanpa catatan baik-baik saja) dengan sepasang atribut anomali.
Jelaskan bagaimana EDA akan membantu mengungkap anomali tersebut.

5. Jelaskan keuntungan dan kerugian menggunakan histogram yang dinormalisasi. Haruskah kita menggunakan
histogram yang dinormalisasi tanpa melaporkannya seperti itu? Kenapa tidak?

6. Jelaskan bagaimana plot pencar dapat mengungkap pola dalam dua dimensi yang tidak terlihat
dari EDA satu dimensi.

7. Jelaskan keuntungan dan kerugian dari tiga metode binning yang dijelaskan dalam teks. Metode mana
yang membutuhkan sedikit interaksi manusia? Metode mana yang menjamin pengawasan manusia?
Metode mana yang mungkin digunakan untuk menyesatkan publik?

Analisis Langsung
Gunakan kumpulan data dewasa di situs web seri buku untuk latihan berikut. Variabel target adalah
pendapatan, dan tujuannya adalah untuk mengklasifikasikan pendapatan berdasarkan variabel lainnya.

8. Variabel mana yang kategoris dan mana yang kontinu?

9. Dengan menggunakan perangkat lunak, buatlah tabel dari 10 record pertama dari kumpulan data, untuk merasakan data tersebut.

10. Selidiki apakah ada variabel yang berkorelasi.

11. Untuk setiap variabel kategori, buat diagram batang variabel, dengan overlay
dari variabel sasaran. Normalisasi jika perlu. sebuah.

Diskusikan hubungan, jika ada, masing-masing variabel memiliki dengan variabel target. b. Variabel

mana yang Anda harapkan untuk tampil signifikan dalam penambangan data apa pun
model klasifikasi yang kami kerjakan?

12. Untuk setiap pasangan variabel kategori, buat tabulasi silang. Diskusikan yang menonjol
hasil.

13. (Jika perangkat lunak Anda mendukung ini.) Buat grafik web dari variabel kategori. Sempurnakan grafik
sehingga muncul hasil yang menarik. Diskusikan temuan Anda.

14. Laporkan apakah ada bidang anomali dalam kumpulan data ini, berdasarkan EDA Anda, bidang mana
yang dimaksud, dan apa yang harus kami lakukan.

15. Laporkan mean, median, minimum, maksimum, dan standar deviasi untuk masing-masing
variabel numerik.

16. Buatlah histogram dari setiap variabel numerik, dengan overlay variabel target
penghasilan. Normalisasi jika perlu.

sebuah. Diskusikan hubungan, jika ada, masing-masing variabel memiliki dengan variabel target. b.

Variabel mana yang Anda harapkan untuk tampil signifikan dalam model klasifikasi data mining yang
kami kerjakan?
Machine Translated by Google

66 BAB 3 ANALISIS DATA EKSPLORASI

17. Untuk setiap pasangan variabel numerik, buatlah diagram pencar dari variabel-variabel tersebut. Diskusikan Anda
hasil yang menonjol.

18. Berdasarkan EDA Anda sejauh ini, identifikasi subkelompok catatan yang menarik di dalam kumpulan data yang
layak untuk diselidiki lebih lanjut.

19. Terapkan binning ke salah satu variabel numerik. Lakukan seperti untuk memaksimalkan efek dari kelas yang
dibuat (mengikuti saran dalam teks). Sekarang lakukan seperti meminimalkan efek kelas, sehingga perbedaan
antar kelas berkurang.
Komentar.

20. Lihat Latihan 19. Terapkan dua metode binning lainnya (lebar yang sama dan jumlah record yang sama) ke
variabel. Bandingkan hasilnya dan diskusikan perbedaannya. Metode mana yang Anda sukai?

21. Ringkaslah temuan EDA Anda yang menonjol dari Latihan 19 dan 20 seolah-olah Anda sedang menulis
laporan.
Machine Translated by Google

BAB 4
PENDEKATAN STATISTIK UNTUK
ESTIMASI DAN PREDIKSI

TUGAS DATA MINING DALAM MENEMUKAN PENGETAHUAN DALAM DATA

PENDEKATAN STATISTIK UNTUK ESTIMASI DAN PREDIKSI

METODE UNIVARIAT: UKURAN PUSAT DAN PENYEBARAN

INFERENSI STATISTIK

SEBERAPA PERCAYA DIRI KITA DALAM ESTIMASI KITA?

PERKIRAAN INTERVAL ESTIMASI

METODE BIVARIAT: REGRESI LINEAR SEDERHANA

BAHAYA EKTRAPOLASI

INTERVAL PERCAYA DIRI UNTUK NILAI RATA-RATA y DIBERIKAN x

INTERVAL PREDIKSI UNTUK NILAI YANG DIPILIH SECARA ACAK DARI y DIBERIKAN x

REGRESI GANDA

VERIFIKASI ASUMSI MODEL

TUGAS DATA MINING DALAM PENEMUAN


PENGETAHUAN DALAM DATA

Dalam Bab 1 kami diperkenalkan dengan enam tugas penambangan data:

Keterangan
Perkiraan
Ramalan
Klasifikasi
Kekelompokan

Asosiasi

Discovering Knowledge in Data: An Introduction to Data Mining, Oleh Daniel T.


Larose ISBN 0-471-66657-2 Hak Cipta C 2005 John Wiley & Sons, Inc.

67
Machine Translated by Google

68 BAB 4 PENDEKATAN STATISTIK ESTIMASI DAN PREDIKSI

TABEL 4.1 Tugas Data Mining dalam Menemukan Pengetahuan dalam Data

Tugas Kami Belajar tentang Tugas Ini di

Keterangan Bab 3: Analisis Data Eksplorasi


Perkiraan Bab 4: Pendekatan Statistik untuk Estimasi dan Prediksi
Ramalan Bab 4: Pendekatan Statistik untuk Estimasi dan Prediksi
Klasifikasi Bab 5: k-Algoritma Tetangga Terdekat
Bab 6: Pohon Keputusan
Bab 7: Jaringan Syaraf
Kekelompokan Bab 8: Pengelompokan Hirarki dan k-Means
Bab 9: Jaringan Kohonen
Asosiasi Bab 10: Aturan Asosiasi

Dalam tugas deskripsi, analis mencoba menemukan cara untuk menggambarkan pola dan tren
yang ada di dalam data. Deskripsi pola dan tren sering kali menyarankan kemungkinan penjelasan
untuk pola dan tren tersebut, serta kemungkinan rekomendasi untuk perubahan kebijakan.
Tugas deskripsi ini dapat diselesaikan dengan baik dengan analisis data eksplorasi, seperti yang
kita lihat di Bab 3. Metode penambangan data yang melakukan tugas deskripsi dengan baik
adalah aturan asosiasi dan model pohon keputusan. Tabel 4.1 memberikan garis besar di mana
dalam buku ini kita belajar tentang masing-masing tugas data mining.
Tentu saja, metode penambangan data tidak terbatas pada satu tugas saja, yang
menghasilkan cukup banyak tumpang tindih antara metode dan tugas penambangan data.
Misalnya, pohon keputusan dapat digunakan untuk klasifikasi, estimasi, atau prediksi. Oleh
karena itu, Tabel 4.1 tidak boleh dianggap sebagai partisi definitif tugas, melainkan sebagai garis
besar umum tentang bagaimana kita diperkenalkan dengan tugas dan metode yang digunakan
untuk menyelesaikannya.

PENDEKATAN STATISTIK UNTUK ESTIMASI


DAN PREDIKSI

Jika estimasi dan prediksi dianggap sebagai tugas penambangan data, analis statistik telah
melakukan penambangan data selama lebih dari satu abad. Dalam bab ini kita mengkaji beberapa
metode estimasi dan prediksi yang lebih luas dan tradisional, yang diambil dari dunia analisis
statistik. Garis besar kami untuk bab ini adalah sebagai berikut.
Kami mulai dengan memeriksa metode univariat, estimasi statistik, dan metode prediksi yang
menganalisis satu variabel pada satu waktu. Metode ini meliputi estimasi titik dan estimasi interval
kepercayaan. Selanjutnya kita mempertimbangkan regresi linier sederhana, di mana hubungan
antara dua variabel numerik diselidiki. Akhirnya, kami menguji regresi berganda, di mana
hubungan antara variabel respon dan satu set variabel prediktor dimodelkan secara linier.
Machine Translated by Google

METODE UNIVARIAT: UKURAN PUSAT DAN PENYEBARAN 69

METODE UNIVARIAT: UKURAN PUSAT


DAN SEBAR

Pertimbangkan peran kita sebagai penambang data. Kami telah disajikan dengan kumpulan
data yang kami mungkin tidak terbiasa. Kami telah menyelesaikan tahap pemahaman data
dan persiapan data dan telah mengumpulkan beberapa informasi deskriptif menggunakan
analisis data eksplorasi. Selanjutnya, kami ingin melakukan estimasi dan prediksi univariat,
menggunakan ringkasan bidang numerik.
Misalkan kita tertarik untuk memperkirakan di mana pusat variabel tertentu terletak,
yang diukur dengan salah satu ukuran numerik pusat, yang paling umum adalah mean,
median, dan modus. Ukuran pusat adalah kasus khusus ukuran lokasi, ringkasan numerik
yang menunjukkan di mana pada garis bilangan karakteristik tertentu dari variabel terletak.
Contoh ukuran lokasi adalah persentil dan kuantil.

Mean dari sebuah variabel hanyalah rata - rata dari nilai valid yang diambil oleh
variabel tersebut. Untuk menemukan mean, cukup tambahkan semua nilai bidang dan bagi
dengan ukuran sampel. Di sini kami memperkenalkan sedikit notasi. Rata-rata sampel
dilambangkan sebagai x ("x-bar") dan dihitung sebagai x = x/ n, di mana (sigma kapital, huruf
Yunani "S," untuk "penjumlahan") mewakili "jumlah semua nilai," dan n mewakili ukuran
sampel. Sebagai contoh, anggaplah kita tertarik untuk memperkirakan di mana pusat variabel
panggilan layanan pelanggan terletak dari kumpulan data churn yang dieksplorasi dalam Bab
3. Clementine memberi kita ringkasan statistik yang ditunjukkan pada Gambar 4.1. Jumlah
rata-rata panggilan layanan pelanggan untuk sampel n = 3333 pelanggan ini diberikan sebagai x = 1,563.

Gambar 4.1 Ringkasan statistik panggilan layanan pelanggan.


Machine Translated by Google

70 BAB 4 PENDEKATAN STATISTIK ESTIMASI DAN PREDIKSI

Dengan menggunakan statistik jumlah dan hitungan , kami dapat memverifikasi itu

x 5209
x= = = 1,563
n 3333

Untuk variabel yang tidak terlalu miring, rata-rata biasanya tidak terlalu jauh dari pusat
variabel. Namun, untuk kumpulan data yang sangat miring, rata-rata menjadi kurang mewakili
pusat variabel. Juga, mean sensitif terhadap keberadaan outlier. Untuk alasan ini, analis
terkadang lebih suka bekerja dengan ukuran alternatif pusat, seperti median, yang didefinisikan
sebagai nilai bidang di tengah ketika nilai bidang diurutkan ke dalam urutan menaik. Median
tahan terhadap keberadaan outlier. Analis lain mungkin lebih suka menggunakan mode, yang
mewakili nilai bidang yang terjadi dengan frekuensi terbesar. Modus dapat digunakan dengan
data numerik atau kategorikal, tetapi tidak selalu dikaitkan dengan pusat variabel.

Perhatikan bahwa ukuran pusat tidak selalu sesuai dengan letak pusat kumpulan data.
Pada Gambar 4.1, median adalah 1.0, yang berarti bahwa setengah dari pelanggan melakukan
setidaknya satu panggilan layanan pelanggan; modusnya juga 1.0, yang berarti jumlah
panggilan layanan pelanggan yang paling sering adalah 1. Median dan modus setuju.
Namun, rata-rata adalah 1,563, yang 56,3% lebih tinggi dari ukuran lainnya. Hal ini disebabkan
oleh sensitivitas rata-rata terhadap kemiringan yang tepat dari data.
Ukuran lokasi tidak cukup untuk meringkas variabel secara efektif. Bahkan, dua variabel
mungkin memiliki nilai yang sama untuk mean, median, dan modus, namun memiliki sifat
yang berbeda. Misalnya, portofolio saham A dan portofolio saham B masing-masing berisi
lima saham, dengan rasio harga/pendapatan (P/E) seperti yang ditunjukkan pada Tabel 4.2.
Portofolio jelas berbeda dalam hal rasio P/E. Portofolio A mencakup satu saham yang memiliki
rasio P/E yang sangat kecil dan yang lainnya dengan rasio P/E yang agak besar. Di sisi lain,
rasio P/E portofolio B lebih mengelompok di sekitar rata-rata. Namun terlepas dari perbedaan
ini, mean, median, dan modus dari portofolio, rasio P/E persis sama: Rata-rata rasio P/E
adalah 10, median adalah 11, dan modus adalah 11 untuk setiap portofolio.

Jelas, ukuran pusat ini tidak memberi kita gambaran yang lengkap.
Yang hilang adalah ukuran penyebaran atau ukuran variabilitas, yang akan menggambarkan
seberapa menyebar nilai-nilai data. Rasio P/E portofolio A lebih tersebar daripada portofolio
B, sehingga ukuran variabilitas untuk portofolio A harus lebih besar daripada ukuran B.

TABEL 4.2 Rasio Harga/Penghasilan untuk Lima Saham di Masing-


Masing dari Dua Portofolio

Portofolio Saham A Portofolio Saham B

1 7
11 8
11 11
11 11
16 13
Machine Translated by Google

INFERENSI STATISTIK 71

Ukuran khas dari variabilitas termasuk rentang (maksimum – minimum), standar


deviasi, mean deviasi absolut, dan rentang interkuartil. Standar deviasi sampel mungkin
merupakan ukuran variabilitas yang paling luas dan ditentukan oleh :

(x x ) 2 n
s=
1

Karena pengkuadratan yang terlibat, deviasi standar sensitif terhadap keberadaan outlier,
membuat analis lebih memilih ukuran penyebaran lainnya, seperti deviasi absolut rata-rata,
dalam situasi yang melibatkan nilai ekstrim.
Standar deviasi dapat diartikan sebagai jarak "tipikal" antara nilai bidang dan rata-rata,
dan sebagian besar nilai bidang terletak dalam dua standar deviasi rata-rata. Dari Gambar
4.1 kita dapat menyatakan bahwa jumlah panggilan layanan pelanggan yang dilakukan oleh
sebagian besar pelanggan berada dalam 2(1.315) = 2,63 dari rata-rata 1,563 panggilan.
Dengan kata lain, sebagian besar jumlah panggilan layanan pelanggan berada dalam interval
(ÿ1.067, 4.193), yaitu (0, 4). Hal ini dapat diverifikasi dengan memeriksa histogram panggilan
layanan pelanggan pada Gambar 3.16.
Diskusi yang lebih lengkap tentang ukuran lokasi dan variabilitas dapat
ditemukan di buku teks pengantar statistik, seperti Johnson dan Kuby [1].

INFERENSI STATISTIK

Dalam analisis statistik, estimasi dan prediksi merupakan elemen dari bidang inferensi
statistik. Inferensi statistik terdiri dari metode untuk memperkirakan dan menguji hipotesis
tentang karakteristik populasi berdasarkan informasi yang terkandung dalam sampel. Populasi
adalah kumpulan semua elemen (orang, item, atau data) yang menarik dalam studi tertentu.

Misalnya, mungkin, perusahaan telepon seluler tidak ingin membatasi hasil yang dapat
ditindaklanjuti pada sampel 3333 pelanggan dari mana ia mengumpulkan data.
Sebaliknya, ia akan lebih memilih untuk menyebarkan model churn ke semua pelanggan
ponselnya saat ini dan masa depan, yang karenanya akan mewakili populasi. Parameter
adalah karakteristik suatu populasi, seperti jumlah rata-rata panggilan layanan pelanggan
dari semua pelanggan telepon seluler.
Sampel hanyalah subset dari populasi, lebih disukai subset yang representatif .
Jika sampel tidak mewakili populasi, yaitu jika karakteristik sampel menyimpang secara
sistematis dari karakteristik populasi, inferensi statistik tidak boleh diterapkan. Statistik adalah
karakteristik sampel, seperti jumlah rata-rata panggilan layanan pelanggan dari 3333
pelanggan dalam sampel (1,563).
Perhatikan bahwa nilai parameter populasi tidak diketahui untuk sebagian besar
masalah yang menarik. Secara khusus, nilai rata-rata populasi biasanya tidak diketahui.
Misalnya, kita tidak tahu jumlah rata-rata panggilan layanan pelanggan yang sebenarnya
yang harus dilakukan oleh semua pelanggan telepon seluler perusahaan. Untuk mewakili
sifatnya yang tidak diketahui, parameter populasi sering dilambangkan dengan huruf Yunani. Misalnya,
Machine Translated by Google

72 BAB 4 PENDEKATAN STATISTIK ESTIMASI DAN PREDIKSI

mean populasi dilambangkan dengan huruf kecil Yunani (mu), yaitu


Huruf Yunani untuk "m" ("berarti").
Nilai populasi rata-rata jumlah panggilan layanan pelanggan tidak diketahui karena berbagai
alasan, termasuk fakta bahwa data mungkin belum
dikumpulkan atau disimpan. Sebaliknya, analis data akan menggunakan estimasi. Sebagai contoh,
mereka akan memperkirakan nilai rata-rata populasi yang tidak diketahui dengan memperoleh
sampel dan menghitung rata-rata sampel x, yang akan digunakan untuk memperkirakan . Dengan demikian,
kami akan memperkirakan jumlah rata-rata panggilan layanan pelanggan untuk semua pelanggan adalah
1,563, karena ini adalah nilai rata-rata sampel yang kami amati.
Peringatan penting adalah bahwa estimasi hanya valid selama sampelnya
benar-benar mewakili populasi. Misalnya, dalam kumpulan data churn , perusahaan
mungkin akan menerapkan kebijakan untuk meningkatkan layanan pelanggan dan mengurangi
tingkat churn. Kebijakan ini diharapkan akan menghasilkan jumlah rata-rata pelanggan yang sebenarnya
panggilan layanan jatuh ke tingkat yang lebih rendah dari 1,563.
Analis mungkin juga tertarik pada proporsi, seperti proporsi pelanggan yang churn. Proporsi
sampel p adalah statistik yang digunakan untuk mengukur
nilai proporsi populasi yang tidak diketahui. Misalnya, dalam Bab 3 kami menemukan
bahwa proporsi pengaduk dalam kumpulan data adalah p = 0,145, yang dapat digunakan untuk
memperkirakan proporsi sebenarnya dari churners untuk populasi semua pelanggan, menjaga
mengingat peringatan di atas.
Estimasi titik mengacu pada penggunaan nilai statistik tunggal yang diketahui untuk
memperkirakan parameter populasi terkait. Nilai statistik yang diamati adalah
disebut estimasi titik. Kami dapat meringkas estimasi rata-rata populasi,
simpangan baku, dan proporsi menggunakan Tabel 4.3.
Estimasi tidak perlu dibatasi pada parameter pada Tabel 4.3. Statistik apa pun
diamati dari data sampel dapat digunakan untuk memperkirakan parameter analog dalam
populasi. Misalnya, kita dapat menggunakan sampel maksimum untuk memperkirakan populasi
maksimum, atau kita dapat menggunakan sampel persentil ke-27 untuk memperkirakan populasi
persentil ke-27. Setiap karakteristik sampel adalah statistik, yang, di bawah
keadaan, dapat digunakan untuk memperkirakan parameter yang sesuai.
Lebih khusus lagi, misalnya, kita bisa menggunakan proporsi churn sampel
pelanggan yang memilih Paket Pesan Suara, tetapi tidak memilih Paket Internasional, dan yang
melakukan tiga panggilan layanan pelanggan untuk memperkirakan populasi
proporsi churn dari semua pelanggan tersebut. Atau, kita dapat menggunakan sampel ke-99 persen
dari menit hari yang digunakan untuk pelanggan tanpa Paket Pesan Suara untuk memperkirakan
populasi persentil ke-99 menit hari yang digunakan untuk semua pelanggan tanpa Paket Pesan Suara.

TABEL 4.3 Menggunakan Statistik Sampel yang Diamati untuk Menaksir Parameter Populasi yang Tidak Diketahui
Machine Translated by Google

ESTIMASI INTERVAL PERCAYA DIRI 73

SEBERAPA PERCAYA DIRI KITA DALAM ESTIMASI KITA?

Mari kita hadapi itu: Siapa pun dapat membuat perkiraan. Pengamat bola kristal akan dengan
senang hati (dengan harga tertentu) memberi Anda perkiraan parameter yang Anda minati.
Pertanyaannya adalah: Seberapa yakin kita akan keakuratan perkiraan?
Apakah menurut Anda populasi rata-rata jumlah panggilan layanan pelanggan yang
dilakukan oleh semua pelanggan perusahaan persis sama dengan rata-rata sampel x = 1,563?
Mungkin tidak. Secara umum, karena sampel adalah bagian dari populasi, mau tidak mau
populasi mengandung lebih banyak informasi daripada sampel tentang karakteristik tertentu.
Oleh karena itu, sayangnya, perkiraan titik kami hampir selalu "kehilangan" parameter target
dengan jumlah tertentu, dan dengan demikian menjadi salah dengan jumlah ini, yang mungkin,
meskipun tidak harus, kecil.
Jarak antara nilai estimasi titik yang diamati dan nilai parameter target yang tidak
diketahui ini disebut kesalahan pengambilan sampel, yang didefinisikan sebagai |statistik
parameter|. Misalnya, kesalahan pengambilan sampel untuk mean adalah |x |, jarak (selalu
positif) antara mean sampel yang diamati dan mean populasi yang tidak diketahui. Karena nilai
sebenarnya dari parameter biasanya tidak diketahui, nilai kesalahan pengambilan sampel
biasanya tidak diketahui dalam masalah dunia nyata. Faktanya, untuk variabel kontinu,
probabilitas bahwa nilai yang diamati dari estimasi titik sama persis dengan parameter targetnya
adalah tepat nol. Ini karena probabilitas mewakili area di atas interval untuk variabel kontinu,
dan tidak ada area di atas titik.
Estimasi titik tidak memiliki ukuran kepercayaan dalam akurasinya; tidak ada pernyataan
probabilitas yang terkait dengan estimasi. Yang kita tahu adalah bahwa perkiraan mungkin
mendekati nilai parameter target (kesalahan sampling kecil) tetapi mungkin jauh (kesalahan
sampling besar). Faktanya, estimasi titik telah disamakan dengan pelempar anak panah,
melempar anak panah dengan ujung yang sangat kecil (perkiraan titik) menuju sasaran yang
semakin kecil (parameter target). Lebih buruk lagi, sasarannya tersembunyi, dan si pelempar
tidak akan pernah tahu pasti seberapa dekat anak panah itu mengenai sasaran.

Pelempar anak panah mungkin bisa dimaafkan karena melemparkan cangkir bir dengan
frustrasi daripada anak panah. Tapi tunggu! Karena cangkir bir memiliki lebar, memang ada
kemungkinan positif bahwa beberapa bagian cangkir telah mengenai sasaran yang tersembunyi.
Kami masih belum tahu pasti, tetapi kami dapat memiliki tingkat keyakinan tertentu bahwa
target telah tercapai. Secara kasar, cangkir bir mewakili metode estimasi kami berikutnya,
interval kepercayaan.

PERKIRAAN INTERVAL ESTIMASI

Estimasi interval kepercayaan dari parameter populasi terdiri dari interval angka yang dihasilkan
oleh estimasi titik, bersama dengan tingkat kepercayaan terkait yang menentukan probabilitas
bahwa interval tersebut berisi parameter. Sebagian besar interval kepercayaan mengambil
bentuk umum

estimasi titik ± margin kesalahan


Machine Translated by Google

74 BAB 4 PENDEKATAN STATISTIK ESTIMASI DAN PREDIKSI

di mana margin of error adalah ukuran ketepatan estimasi interval.


Margin kesalahan yang lebih kecil menunjukkan presisi yang lebih besar. Misalnya, interval-t untuk
rata-rata populasi diberikan oleh

x ± t / 2(s/ n)

di mana mean sampel x adalah estimasi titik dan kuantitas t / 2(s/ n) mewakili margin kesalahan.
Interval -t untuk mean dapat digunakan jika populasinya normal atau ukuran sampelnya besar.

Dalam kondisi apa interval kepercayaan ini akan memberikan estimasi yang tepat? Artinya,
kapan margin kesalahan t / 2(s/ n) menjadi kecil? Kuantitas s/ n mewakili kesalahan standar rata-
rata sampel (standar deviasi dari distribusi sampel x) dan kecil bila ukuran sampel besar atau
variabilitas sampel kecil. Pengganda t / 2 dikaitkan dengan ukuran sampel dan tingkat kepercayaan
(biasanya 90 hingga 99%) yang ditentukan oleh analis,
yang
danlebih
lebihrendah.
kecil untuk
Karena
tingkat
kamikepercayaan
tidak dapat
mempengaruhi variabilitas sampel secara langsung dan kami ragu untuk menurunkan tingkat
kepercayaan kami, kami harus beralih ke peningkatan ukuran sampel jika kami berusaha
memberikan estimasi interval kepercayaan yang lebih tepat.

Biasanya, menemukan ukuran sampel yang besar bukanlah masalah bagi banyak skenario
penambangan data. Misalnya, menggunakan statistik pada Gambar 4.1, kita dapat menemukan
interval t 95% untuk jumlah rata-rata panggilan layanan pelanggan untuk semua pelanggan sebagai
berikut:

x ± t / 2(s/ n) 1,563
± 1,96(1,315/ 3333)
1,563 ± 0,045

(1.518, 1.608)

Kami yakin 95% bahwa populasi rata-rata jumlah panggilan layanan pelanggan untuk semua
pelanggan turun antara 1.518 dan 1.608 panggilan. Di sini, margin kesalahan adalah 0,045
panggilan layanan pelanggan, yang cukup tepat untuk sebagian besar aplikasi.
Namun, penambang data sering diminta untuk memperkirakan perilaku subset pelanggan
tertentu, bukan seluruh basis pelanggan, seperti pada contoh di atas. Misalnya, kita tertarik untuk
memperkirakan jumlah rata-rata panggilan layanan pelanggan untuk pelanggan yang memiliki Paket
Internasional dan Paket Pesan Suara dan yang memiliki menit lebih dari 220 hari. Ini sangat
membatasi ukuran sampel, seperti yang ditunjukkan pada Gambar 4.2.

Hanya ada 28 pelanggan dalam sampel yang memiliki kedua paket dan yang login lebih dari
220 menit penggunaan sehari. Estimasi titik untuk populasi rata-rata jumlah panggilan layanan
pelanggan untuk semua pelanggan tersebut adalah rata-rata sampel 1,607. Kita dapat menemukan
estimasi interval kepercayaan 95% sebagai berikut:

x ± t / 2(s/ n) 1,607
± 2,048(1,892/ 28)
1,607 ± 0,732

(0.875, 2.339)
Machine Translated by Google

METODE BIVARIAT: REGRESI LINEAR SEDERHANA 75

Gambar 4.2 Ringkasan statistik pelanggan dengan Paket Internasional dan Paket Pesan
Suara dan dengan menit lebih dari 200 hari.

Kami yakin 95% bahwa populasi rata-rata jumlah panggilan layanan pelanggan untuk semua
pelanggan yang memiliki kedua paket dan yang memiliki lebih dari 220 menit penggunaan
sehari turun antara 0,875 dan 2,339 panggilan. Margin kesalahan untuk subset pelanggan
tertentu ini adalah 0,732, yang menunjukkan bahwa perkiraan kami tentang jumlah rata-rata
panggilan layanan pelanggan untuk subset pelanggan ini jauh lebih tidak tepat daripada untuk
basis pelanggan secara keseluruhan.
Estimasi interval keyakinan dapat diterapkan pada parameter target yang diinginkan.
Estimasi interval yang paling luas adalah untuk rata-rata populasi, standar deviasi populasi, dan
proporsi keberhasilan populasi.

METODE BIVARIAT: REGRESI LINEAR SEDERHANA

Sejauh ini kita telah membahas ukuran estimasi untuk satu variabel pada satu waktu. Analis,
bagaimanapun, sering tertarik pada metode estimasi bivariat, misalnya, menggunakan nilai satu
variabel untuk memperkirakan nilai variabel yang berbeda.
Untuk membantu kita mempelajari tentang metode regresi untuk estimasi dan prediksi,
mari kita berkenalan dengan kumpulan data baru, sereal. Kumpulan data sereal , termasuk di
situs web seri buku milik Data and Story Library [2], berisi informasi nutrisi untuk 77 sereal
sarapan dan mencakup variabel berikut:

Nama sereal
Produsen sereal

Jenis (panas atau dingin)

Kalori per porsi


gram protein
Machine Translated by Google

76 BAB 4 PENDEKATAN STATISTIK ESTIMASI DAN PREDIKSI

gram lemak

Miligram natrium
gram serat

gram karbohidrat
gram gula
Miligram kalium
Persentase tunjangan vitamin harian yang direkomendasikan (0% 25%, atau 100%)
Berat satu porsi
Jumlah cangkir per porsi
Lokasi rak (1 = bawah, 2 = tengah, 3 = atas)
Peringkat nutrisi, dihitung oleh Consumer Reports

Tabel 4.4 memberikan gambaran tentang delapan bidang ini untuk 16 sereal pertama. Kita
tertarik untuk memperkirakan peringkat gizi sereal yang diberikan kandungan gulanya .
Gambar 4.3 menunjukkan sebar plot peringkat gizi versus kandungan gula untuk
77 sereal, bersama dengan garis regresi kuadrat terkecil.
Garis regresi ditulis dalam bentuk yˆ = b0 + b1x, disebut regresi
persamaan atau estimasi persamaan regresi (ERE), dimana:

y adalah nilai estimasi variabel respon


b0 adalah perpotongan y dari garis regresi
b1 adalah kemiringan garis regresi
b0 dan b1, bersama-sama, disebut koefisien regresi

TABEL 4.4 Kutipan dari Kumpulan Data Sereal : Delapan Bidang, 16 Sereal Pertama

Nama Sereal manuf. Gula Kalori Protein Lemak Natrium Rating

100% Bran N 6 70 4 1 130 68.4030


100% Dedak Alami Q 8 120 3 5 15 33.9837
All-Bran K 5 70 4 1 260 59.4255
Serat Ekstra Dedak Semua K 0 50 4 0 140 93.7049

Kenikmatan Almond R 8 110 2 2 200 34.3848

Apel Cinnamon Cheerios G 10 110 2 2 180 29.5095

Jack apel K 14 110 2 0 125 33.1741


Dasar 4 G 8 130 3 2 210 37.0386
Bran Chex R 6 90 2 1 200 49.1203
Serpihan dedak P 5 90 3 0 210 53.3138

Cap'n'Crunch Q 12 120 1 2 220 18.0429


ceria G 1 110 6 2 290 50.7650
Cinnamon Toast Crunch G 9 120 1 3 210 19.8236
Cluster G 7 110 3 2 140 40.4002
Puff Kakao G 13 110 1 1 180 22.7364
Machine Translated by Google

METODE BIVARIAT: REGRESI LINEAR SEDERHANA 77

95

85
Diperkirakan
Peringkat
75

65

55

45

35
Peringkat Aktual
(untuk Cheerios)
25

15

0 5 10 15

Gula

Gambar 4.3 Plot sebar peringkat nutrisi versus kandungan gula untuk 77 sereal.

Dalam hal ini ERE diberikan sebagai yˆ = 59,4 2,42(gula), sehingga b0 = 59,4
dan b1 = 2.42. Persamaan regresi yang diperkirakan ini kemudian dapat ditafsirkan
sebagai: "Perkiraan peringkat sereal sama dengan 59,4 dikurangi 2,42 kali kandungan
gula dalam gram." Garis regresi dan ERE digunakan sebagai pendekatan linier dari
hubungan antara variabel x (prediktor) dan y (respon), yaitu antara kadar gula dan nilai
gizi. Kita dapat menggunakan garis regresi atau ERE untuk membuat perkiraan atau
prediksi.
Misalnya, kita tertarik untuk memperkirakan nilai gizi untuk sereal baru (bukan
dalam data asli) yang mengandung x = 1 gram gula. Dengan menggunakan ERE, kami
menemukan perkiraan peringkat nutrisi untuk sereal dengan 1 gram gula menjadi yˆ =
59,4 2,42(1) = 56,98. Perhatikan bahwa nilai perkiraan untuk peringkat gizi ini terletak
langsung pada garis regresi, di lokasi (x = 1, yˆ = 56,98), seperti yang ditunjukkan pada
Gambar 4.3. Sebenarnya, untuk nilai x (kadar gula) berapa pun, nilai taksiran untuk y
(peringkat gizi) terletak tepat pada garis regresi.
Sekarang, ada satu sereal di kumpulan data kami yang memang memiliki
kandungan gula 1 gram, Cheerios. Peringkat nutrisinya, bagaimanapun, adalah
50,765, bukan 56,98 seperti yang kami perkirakan di atas untuk sereal baru dengan 1
gram gula. Titik Cheerios dalam scatter plot terletak di (x = 1, y = 50,765), di dalam
oval pada Gambar 4.3. Sekarang, panah atas pada Gambar 4.3 menunjuk ke lokasi
pada garis regresi tepat di atas titik Cheerios. Di sinilah persamaan regresi memprediksi
peringkat nutrisi untuk sereal dengan kandungan gula 1 gram. Prediksi tersebut terlalu
tinggi dengan 56,98 50,765 = 6,215 poin penilaian, yang mewakili jarak vertikal dari
titik data Cheerios ke garis regresi. Jarak vertikal 6,215 titik rating ini, secara umum (y
yˆ ) , dikenal dengan bermacam-macam sebagai error prediksi, error estimasi, atau residual.
Machine Translated by Google

78 BAB 4 PENDEKATAN STATISTIK ESTIMASI DAN PREDIKSI

Kami tentu saja berusaha meminimalkan ukuran keseluruhan kesalahan prediksi kami.
Regresi kuadrat terkecil bekerja dengan memilih garis regresi unik yang meminimalkan
jumlah sisa kuadrat atas semua titik data. Ada metode alternatif
memilih garis yang paling mendekati hubungan linier antara variabel, seperti regresi median,
meskipun kuadrat terkecil tetap yang paling umum
metode.
Perpotongan y b0 adalah lokasi pada sumbu y dimana garis regresi memotong sumbu y,
yaitu nilai taksiran untuk variabel respon ketika
variabel prediktor sama dengan nol. Sekarang, dalam banyak situasi regresi, nilai nol
untuk variabel prediktor tidak akan masuk akal. Misalnya, anggaplah kita adalah
mencoba memprediksi berat badan siswa sekolah dasar (y) berdasarkan tinggi badan siswa (x).
Arti tinggi = 0 tidak jelas, sehingga makna denotatif dari perpotongan y
tidak akan masuk akal interpretatif dalam kasus ini.
Namun, untuk kumpulan data kami, nilai nol untuk kandungan gula memang membuat
masuk akal, karena beberapa sereal mengandung nol gram gula. Oleh karena itu, untuk kumpulan data kami,
y-intercept b0 = 59,4 hanya mewakili perkiraan peringkat nutrisi untuk sereal
dengan kadar gula nol. Perhatikan bahwa tidak ada sereal yang mengandung nol gram
gula memiliki perkiraan peringkat nutrisi ini tepat 59,4. Peringkat sebenarnya, bersama
dengan kesalahan prediksi, ditunjukkan pada Tabel 4.5. Perhatikan bahwa semua peringkat yang diprediksi
adalah sama, karena semua sereal ini memiliki nilai yang identik untuk variabel prediktor
(x = 0).
Kemiringan garis regresi menunjukkan perkiraan perubahan y per unit
peningkatan x Kami menafsirkan b1 = 2.42 berarti sebagai berikut: “Untuk setiap kenaikan
dari 1 gram kandungan gula, perkiraan peringkat nutrisi menurun sebesar 2,42 poin penilaian.”
Misalnya, sereal A dengan 5 gram gula lebih banyak daripada sereal B
akan memiliki perkiraan peringkat nutrisi 5(2.42) = 12,1 poin peringkat lebih rendah dari
sereal B
Koefisien korelasi r untuk rating dan gula adalah 0,76, menunjukkan bahwa
peringkat gizi dan kandungan gula berkorelasi negatif. Ini bukan kebetulan
bahwa r dan b1 keduanya negatif. Faktanya, koefisien korelasi r dan
kemiringan regresi b1 selalu memiliki tanda yang sama.

TABEL 4.5 Peringkat Aktual, Peringkat Prediksi, dan Kesalahan Prediksi untuk Sereal dengan
Nol Gram Gula
sereal Peringkat Sebenarnya Peringkat yang Diprediksi Kesalahan Prediksi

Oatmeal Quaker 50.8284 59,4 8.5716


All-Bran dengan Serat Ekstra 93.7049 59,4 34.3049

Krim Gandum (Cepat) 64.5338 59,4 5.1338


Nasi Kembung 60.7561 59,4 1.3561
Gandum Kembung 63.0056 59,4 3.6056
Gandum parut 68.2359 59,4 8.8359
Sobek Gandum 'n'Bran 74.4729 59,4 15.0729

Ukuran Sendok Gandum Abon 72.8018 59,4 13.4018


Machine Translated by Google

BAHAYA EKSTRAPOLASI 79

BAHAYA EKTRAPOLASI

Misalkan sereal baru (misalnya, Chocolate Frosted Sugar Bombs yang dicintai oleh Calvin,
karakter komik strip yang ditulis oleh Bill Watterson) tiba di pasar dengan kandungan gula
yang sangat tinggi yaitu 30 gram per porsi. Mari kita gunakan persamaan regresi yang
diperkirakan untuk memperkirakan peringkat nutrisi untuk Bom Gula Coklat Frosted: yˆ =
59,4 2,42(gula) = 59,4 2,42(30) = 13.2. Dengan kata lain, sereal Calvin mengandung begitu
banyak gula sehingga nilai gizinya sebenarnya adalah angka negatif, tidak seperti sereal
lainnya dalam kumpulan data (minimum = 18) dan analog dengan seorang siswa yang
menerima nilai negatif dalam ujian. Apa yang terjadi disini?
Perkiraan peringkat nutrisi negatif untuk Chocolate Frosted Sugar Bombs adalah
contoh bahaya ekstrapolasi. Analis harus membatasi estimasi dan prediksi yang dibuat
menggunakan ERE pada nilai variabel prediktor yang terdapat dalam kisaran nilai x dalam
kumpulan data. Misalnya, dalam kumpulan data sereal , kadar gula terendah adalah nol
gram dan tertinggi adalah 15 gram, sehingga prediksi peringkat gizi untuk setiap nilai x
(kadar gula) antara nol dan 15 gram akan sesuai. Namun, ekstrapolasi, membuat prediksi
untuk nilai x yang berada di luar rentang ini, bisa berbahaya, karena kita tidak mengetahui
sifat hubungan antara respons dan variabel prediktor di luar rentang ini.

Ekstrapolasi harus dihindari jika memungkinkan. Jika prediksi di luar rentang x yang
diberikan harus dilakukan, pengguna akhir prediksi perlu diberi tahu bahwa tidak ada data
x yang tersedia untuk mendukung prediksi tersebut. Bahayanya terletak pada kemungkinan
bahwa hubungan antara x dan y, yang mungkin linier dalam rentang x dalam kumpulan
data, mungkin tidak lagi linier di luar batas-batas ini.
Perhatikan Gambar 4.4. Misalkan kumpulan data kita hanya terdiri dari titik data
berwarna hitam tetapi hubungan sebenarnya antara x dan y terdiri dari kedua titik hitam tersebut.

Nilai prediksi y
berdasarkan data
yang tersedia.

Prediksi besar
kesalahan.

Nilai sebenarnya dari y.

Gambar 4.4 Bahaya ekstrapolasi.


Machine Translated by Google

80 BAB 4 PENDEKATAN STATISTIK ESTIMASI DAN PREDIKSI

(diamati) dan titik abu-abu (tidak teramati). Kemudian, garis regresi yang hanya didasarkan pada data
yang tersedia (titik hitam) akan terlihat kira-kira mirip dengan garis regresi yang ditunjukkan. Misalkan
kita tertarik untuk memprediksi nilai y untuk nilai x yang terletak di segitiga. Prediksi berdasarkan data
yang tersedia kemudian akan diwakili oleh titik pada garis regresi yang ditunjukkan oleh panah atas.
Jelas, prediksi ini gagal secara spektakuler, seperti yang ditunjukkan oleh garis vertikal yang
menunjukkan kesalahan prediksi yang sangat besar. Tentu saja, karena analis sama sekali tidak
menyadari data yang tersembunyi, maka dia tidak akan menyadari besarnya kesalahan dalam prediksi.
Rekomendasi kebijakan yang didasarkan pada prediksi yang salah seperti itu tentu saja dapat
menghasilkan hasil yang mahal.

INTERVAL PERCAYA DIRI UNTUK NILAI RATA-RATA


DARI y DIBERIKAN x

Sejauh ini, kita telah membahas estimasi titik untuk nilai variabel respons untuk nilai variabel prediktor
tertentu. Tentu saja, estimasi titik dalam konteks ini memiliki kelemahan yang sama dengan estimasi
titik dalam kasus univariat, terutama kurangnya pernyataan probabilitas yang terkait dengan
akurasinya. Oleh karena itu, kita dapat menggunakan interval kepercayaan untuk nilai rata-rata y
untuk nilai x yang diberikan.
Interval kepercayaan untuk nilai rata-rata y untuk nilai x yang diberikan adalah sebagai berikut:

2
xp x_
estimasi titik ± margin of error = yˆ ± t / 2(s) 1+
p n 2
(xi - x)

di mana

xp = nilai x tertentu yang membuat prediksi = estimasi titik y untuk nilai x tertentu
kamu
p

MSE == pengali
SSE n 1yang terkait dengan
= standard ukuran sampel dan tingkat kepercayaan t / 2 s =
error estimasi

SSE = jumlah sisa kuadrat

Kami melihat contoh jenis interval kepercayaan di bawah ini, tetapi pertama-tama kami
diperkenalkan ke jenis interval baru, interval prediksi.

INTERVAL PREDIKSI UNTUK DIPILIH RANDOM


NILAI y DIBERIKAN x

Pernahkah Anda menganggap bahwa "lebih mudah" untuk memprediksi nilai rata-rata suatu variabel
daripada memprediksi nilai yang dipilih secara acak dari variabel itu? Misalnya, penggemar bisbol
yang meneliti statistik rata-rata batting mingguan akan menemukan bahwa rata-rata batting tim (yang
merupakan rata-rata semua pemain tim) lebih rapat dibandingkan rata-rata batting dari masing-masing
pemain. Perkiraan dari
Machine Translated by Google

INTERVAL PREDIKSI UNTUK NILAI TERPILIH RANDOM DARI y DIBERIKAN x 81

rata-rata pukulan tim akan lebih tepat daripada perkiraan anggota tim yang dipilih secara acak
untuk tingkat kepercayaan yang sama.
Nilai ujian memberikan contoh lain. Bukan hal yang aneh jika nilai siswa yang dipilih
secara acak melebihi 95, katakanlah, tetapi sangat tidak biasa jika rata-rata kelas menjadi
setinggi itu. Bukti anekdotal ini mencerminkan variabilitas yang lebih kecil yang terkait dengan
rata-rata (rata-rata kelas) suatu variabel daripada nilai yang dipilih secara acak (skor individu)
dari variabel itu. Oleh karena itu, "lebih mudah" untuk memprediksi rata-rata kelas pada ujian
daripada memprediksi skor siswa yang dipilih secara acak.
Dalam banyak situasi, penambang data lebih tertarik untuk memprediksi nilai individu
daripada rata-rata semua nilai, mengingat x. Misalnya, seorang analis mungkin lebih tertarik
untuk memprediksi nilai kredit untuk pemohon kredit tertentu daripada memprediksi nilai kredit
rata-rata dari semua pemohon yang serupa. Atau, seorang ahli genetika mungkin tertarik
pada ekspresi gen tertentu daripada ekspresi rata-rata semua gen yang serupa.

Interval prediksi digunakan untuk memperkirakan nilai dari nilai y yang dipilih secara acak,
jika diberikan x. Jelas, ini adalah tugas yang lebih sulit daripada memperkirakan rata-rata,
menghasilkan interval yang lebih lebar (presisi lebih rendah) daripada interval kepercayaan untuk
rata-rata dengan tingkat kepercayaan yang sama. Interval prediksi untuk nilai y yang dipilih secara
acak untuk nilai x yang diberikan adalah sebagai berikut:

(x p x) 2
estimasi titik ± margin of error = yˆ p 1 ± t / 2 (s) 1 + + 2
n (xi - x)

Perhatikan bahwa rumus ini persis sama dengan rumus interval kepercayaan untuk nilai rata-
rata y, diberikan x, kecuali untuk keberadaan "1+" di dalam akar kuadrat. Ini memastikan
bahwa interval prediksi selalu lebih lebar daripada interval kepercayaan analog.

Minitab memberi kita output regresi yang ditunjukkan pada Gambar 4.5 untuk
memprediksi peringkat nutrisi berdasarkan kandungan gula. Kami juga meminta Minitab untuk
menghitung interval kepercayaan untuk rata-rata semua peringkat nutrisi ketika kandungan
gula sama dengan 1 gram. Mari kita periksa output ini sejenak.

Estimasi persamaan regresi diberikan terlebih dahulu: yˆ = 59,4 2,42(gula).


Kemudian koefisien regresi ditampilkan, di bawah coef: b0 = 59,4 dan b1 = 2.42.

Di bawah koefisien SE ditemukan kesalahan standar koefisien, yang merupakan


ukuran variabilitas koefisien.
Di bawah T ditemukan statistik uji-t untuk uji hipotesis.
Di bawah P ditemukan nilai -p dari uji hipotesis ini untuk koefisien.
Nilai p yang kecil (biasanya <0,05) menunjukkan bahwa koefisien tertentu berbeda
secara signifikan dari nol.
S, kesalahan standar perkiraan, menunjukkan ukuran kesalahan "tipikal" dalam prediksi.

R-kuadrat adalah ukuran seberapa dekat model regresi linier cocok dengan data, dengan nilai
mendekati 90 hingga 100% menunjukkan kecocokan yang sangat baik.
Machine Translated by Google

82 BAB 4 PENDEKATAN STATISTIK ESTIMASI DAN PREDIKSI

Analisis Regresi: Peringkat versus Gula

Persamaan regresinya adalah Peringkat = 59,4 -


2,42 Gula

Predictor Coef SE Coef Constant 59,444 T P


1,951 30,47 0,000
Gula -2,4193 0,2376 -10,18 0,000

S = 9.162 R-Sq = 58,0% R-Sq(adj) = 57,5%

Analisis Varians

Sumber DF SS NONA FP 8701.7


Regresi 1 8701.7 103.67 0.000 6295.1 76 14996.8
Kesalahan Residu 75 83.9
Total

Pengamatan yang Tidak Biasa


Peringkat Gula Obs Bugar SE Fit Residual St Resid
0,0 93,70 59,44 1,95 34.26 3.83
2 32 6.0 68,40 44,93 1,07 23.48 2.58R

R menunjukkan pengamatan dengan residual standar yang besar

Nilai Prediksi untuk Pengamatan Baru

Obs Baru 1 SE Sesuai 95,0% CI 95,0% PI 1,75 ( 53,53, 60,52) ( 38,44,


Cocok 57.02 75.61)

Nilai Prediktor untuk Pengamatan Baru

Obs Baru 1 Gula 1.00

Gambar 4.5 Output Regresi Minitab.

Minitab mengidentifikasi dua pengamatan yang tidak biasa, sereal 2 (All-Bran dengan Extra
Serat) dan sereal 32 (100% Dedak), yang memiliki residu positif yang besar, menunjukkan bahwa
peringkat nutrisinya secara tak terduga tinggi, mengingat kadar gula mereka.
Akhirnya, di dekat bagian bawah, kami menemukan informasi mengenai kepercayaan dan
interval prediksi untuk sereal baru yang mengandung 1 gram gula.

Fit tidak lain adalah perkiraan poin dari peringkat nutrisi untuk sereal dengan
1 gram gula: yˆ = 59,444 2,4193(1) = 57,02. (Perbedaan dari
56,98 dalam contoh Cheerios hanya karena pembulatan sebelumnya dari
nilai koefisien.)

SE fit adalah ukuran variabilitas estimasi titik.

Interval kepercayaan 95% untuk nilai gizi rata-rata semua sereal yang mengandung 1 gram
gula adalah (53,53, 60,52).

Interval prediksi 95% untuk peringkat nutrisi yang dipilih secara acak
sereal yang mengandung 1 gram gula adalah (38,44, 75,61).

Perhatikan bahwa seperti yang diharapkan, interval prediksi lebih lebar daripada kepercayaan
dalam terval, mencerminkan tantangan yang lebih besar untuk memperkirakan nilai y tertentu daripada
nilai rata-rata y untuk nilai x yang diberikan.
Machine Translated by Google

REGRESI GANDA 83

REGRESI GANDA

Misalkan ada hubungan linier antara variabel prediktor dan variabel respons tetapi kita
mengabaikan hubungan tersebut dan hanya menggunakan ukuran univariat yang terkait
dengan variabel respons (misalnya, rata-rata, median) untuk memprediksi kasus baru. Ini
akan menjadi pemborosan informasi, dan ukuran univariat seperti itu rata-rata akan menjadi
penaksir yang jauh lebih tidak tepat dari nilai-nilai baru variabel prediktor daripada yang
akan diberikan model regresi.
Sekarang, sebagian besar aplikasi data mining menikmati kekayaan (bahkan,
kelebihan) data, dengan beberapa kumpulan data termasuk ratusan variabel, banyak di
antaranya mungkin memiliki hubungan linier dengan variabel target (respon). Pemodelan
regresi berganda menyediakan metode yang elegan untuk menggambarkan hubungan
semacam itu. Model regresi berganda memberikan peningkatan presisi untuk estimasi dan
prediksi, analog dengan peningkatan presisi estimasi regresi atas estimasi univariat.
Untuk mengilustrasikan penggunaan pemodelan regresi berganda menggunakan
kumpulan data sereal , kami akan mencoba merekonstruksi rumus yang digunakan oleh
Consumer Reports untuk peringkat nutrisi sereal. Kami mulai mengeksplorasi hubungan
antara peringkat respons dan prediktor kalori, protein, lemak, natrium, serat, karbohidrat,
gula, kalium, dan vitamin, dengan menggunakan plot draftman Minitab, yang memplot
variabel respons terhadap beberapa variabel prediktor, ditunjukkan di sini dengan garis
regresi yang diperkirakan ditumpangkan.
Dari Gambar 4.6 dan 4.7, kami berharap bahwa protein, serat, dan kalium akan
berkorelasi positif dengan peringkat nutrisi yang lebih tinggi, sementara lemak, natrium,
gula, dan yang mengejutkan, vitamin berkorelasi negatif dengan peringkat nutrisi yang
lebih tinggi. Karbohidrat tampaknya tidak berkorelasi dengan peringkat gizi. Kami dapat
memverifikasi temuan grafis ini dengan koefisien korelasi untuk semua variabel, yang ditunjukkan pada:

75

37

2.25 1.25 3.75


80 240
77,5 132,5 4.75

Kalori Protein Gemuk Sodium

Gambar 4.6 Plot Draftman peringkat versus kalori, protein, lemak, dan natrium.
Machine Translated by Google

84 BAB 4 PENDEKATAN STATISTIK ESTIMASI DAN PREDIKSI

75

37

3.5 10.5 5,75 17.25 3.75 11.25


25 75
81,75247,25

Serat Karbohidrat Gula Kalium vitamin

Gambar 4.7 Plot peringkat Draftman versus serat, karbohidrat, gula, kalium, dan
vitamin.

Tabel 4.6. Kolom pertama (dicetak tebal) menunjukkan koefisien korelasi prediktor
variabel dengan peringkat. Seperti yang diharapkan, protein, serat, dan kalium berkorelasi
positif dengan peringkat, sedangkan kalori, lemak, natrium, dan vitamin berkorelasi negatif.
Analis data perlu waspada terhadap multikolinearitas, suatu kondisi di mana beberapa
dari variabel prediktor yang berkorelasi satu sama lain. Multikolinearitas menyebabkan
ketidakstabilan dalam ruang solusi, yang mengarah pada kemungkinan hasil yang tidak koheren. Bahkan jika seperti itu
ketidakstabilan dihindari, dimasukkannya variabel yang sangat berkorelasi cenderung terlalu
menekankan komponen tertentu dari model, karena komponen pada dasarnya sedang
dihitung ganda. Di sini, kalium sangat berkorelasi dengan serat (r = 0,905). Meskipun ada
metode yang lebih canggih untuk menangani variabel yang berkorelasi, seperti:
analisis komponen utama, dalam contoh pengantar ini kita cukup menghilangkan kalium
sebagai prediktor.

TABEL 4.6 Koefisien Korelasi untuk Semua Variabel

Peringkat Kalori Protein Lemak Serat Natrium Karbohidrat Gula Kalium

Kalori 0.689
Protein 0,471 0,019
Gemuk 0,409 0,499 0,208
Natrium 0.401 0.301 0.055 0.005
Serat 0,577 0,291 0,506 0,026 0,071
karbohidrat 0,050 0,255 0,125 0,315 0,357 0,357
Gula 0.762 0.564 0.324 0.257 0.096 0.137 0,351
kalium 0.380 0.067 0.549 0.193 0.033 0.905 0,354 0,22
Vitamin 0.241 0.265 0.007 0.031 0.361 0.036 0.257 0,122 0,021
Machine Translated by Google

VERIFIKASI ASUMSI MODEL 85

VERIFIKASI ASUMSI MODEL

Sebelum model dapat diimplementasikan, asumsi model yang diperlukan harus diverifikasi.
Menggunakan model yang asumsinya tidak terbukti sama seperti membangun rumah yang
pondasinya bisa retak. Membuat prediksi menggunakan model di mana asumsi dilanggar
dapat menyebabkan hasil yang salah dan terlalu optimis, dengan konsekuensi mahal saat
digunakan.
Asumsi ini—linearitas, independensi, normalitas, dan varians konstan—dapat diperiksa
menggunakan plot normalitas residual (Gambar 4.8), dan plot residual standar terhadap nilai
yang dipasang (diprediksi) (Gambar 4.9). Seseorang mengevaluasi plot normalitas dengan
menilai apakah penyimpangan sistematis dari linearitas ada di plot, dalam hal ini seseorang
menyimpulkan bahwa nilai data yang diplot (residu dalam kasus ini) tidak diambil dari distribusi
tertentu (distribusi normal dalam kasus ini). Kami tidak mendeteksi penyimpangan sistematis
dari linearitas dalam plot normal dari residu standar, dan dengan demikian menyimpulkan
bahwa asumsi normalitas kami utuh.

Plot dari residual versus fit (Gambar 4.9) diperiksa untuk pola yang terlihat. Jika
kelengkungan yang jelas ada di plot pencar, asumsi linieritas dilanggar. Jika penyebaran
vertikal titik-titik dalam plot secara sistematis tidak seragam, asumsi varians konstan dilanggar.
Kami tidak mendeteksi pola seperti itu pada Gambar 4.9 dan oleh karena itu menyimpulkan
bahwa asumsi linearitas dan varians konstan adalah utuh untuk contoh ini.

Asumsi independensi masuk akal untuk kumpulan data ini, karena kami tidak
mengharapkan bahwa peringkat untuk satu sereal tertentu akan bergantung pada peringkat
untuk sereal lainnya. Data yang bergantung pada waktu dapat diperiksa untuk independensi
pesanan menggunakan uji berjalan atau plot residu versus pemesanan.
Setelah memeriksa bahwa asumsi tidak dilanggar, karena itu kami dapat melanjutkan
dengan analisis regresi berganda. Minitab memberi kita output regresi berganda yang
ditunjukkan pada Gambar 4.10.

2.5
2.0
1.5
1.0
0,5
0,0
0,5
1.0
1,5
2.0
2,5
3 2 10 1 2 3
Standar Residu

Gambar 4.8 Plot normal dari residual.


Machine Translated by Google

86 BAB 4 PENDEKATAN STATISTIK ESTIMASI DAN PREDIKSI

3
15 25 35 45 55 65 75 85 95
Nilai Pas
Gambar 4.9 Plot residu standar versus pas (nilai prediksi).

Mari kita periksa hasil yang sangat menarik ini dengan cermat. Regresi yang diperkirakan
persamaannya adalah sebagai berikut:

Perkiraan peringkat nutrisi sama dengan 55,9


dikurangi 0,225 kali jumlah kalori

ditambah 2,88 kali gram protein

dikurangi 2,00 kali gram lemak

dikurangi 0,0546 kali miligram natrium

ditambah 2,57 kali gram serat

Persamaan regresinya adalah

Peringkat = 55,9 0,225 Kalori + 2,88 Protein 2,00 Lemak 0,0546 Natrium
+ 2,57 Serat + 1,08 Karbo 0,823 Gula 0,0514 Vitamin

Prediktor Koef Koef SE T P


Konstan 55,9047 0.8421 66.39 0,000
Kalori 0.22456 0,01551 14.48 0,000
Protein 2.8824 0.1626 17.73 0,000
Gemuk 2.0048 0,1857 10.80 33.96 0,000
Sodium 0.054647 0,001609 0,000
Serat 2.57151 0,06505 39,53 0,000
karbohidrat 1.07504 0,06093 17.64 0,000
Gula 0.82343 0,06189 13.31 0,000
vitamin 0.051422 0,005802 8.86 0,000

S = 1,015 R-Sq = 99,5% R-Sq(adj) = 99,5%

Analisis Varians

Sumber DF SS NONA F P
Regresi 8 14926.8 1865,8 1811,92 0,000
Kesalahan sisa 68 70.0 1.0
Total 76 14996.8

Gambar 4.10 Keluaran regresi berganda minitab.


Machine Translated by Google

VERIFIKASI ASUMSI MODEL 87

ditambah 1,08 kali gram karbohidrat dikurangi


0,823 kali gram gula dikurangi 0,0514 kali persen
RDA vitamin

Ini adalah persamaan yang dapat kita gunakan untuk melakukan estimasi titik dan
prediksi untuk peringkat nutrisi sereal baru. Misalnya, ada sereal baru dengan 80 kalori, 2 gram
protein, tanpa lemak, tanpa natrium, 3 gram serat, 16 gram karbohidrat, tanpa gula, dan 0%
RDA vitamin (mirip dengan Abon Gandum) . Maka nilai gizi yang diprediksi adalah 55,9
0,225(80) + 2,88(2) 2,00(0) 0,0546(0) + 2,57(3) + 1,08(16) 0,823(0) 0,0514(0) = 68,62
menggunakan koefisien tidak dibulatkan yang disediakan oleh minitab. Prediksi ini sangat
mendekati nilai gizi sebenarnya untuk Abon Gandum sebesar 68,2359, sehingga kesalahan
prediksinya adalah y yˆ = 68,2359 68,62 = 0,3841.

Tentu saja, estimasi titik memiliki kekurangan, sehingga analog dengan kasus regresi
linier sederhana, kita dapat menemukan interval kepercayaan dan interval prediksi dalam regresi
berganda juga. Kita dapat menemukan interval kepercayaan 95% untuk nilai gizi rata-rata dari
semua sereal tersebut (dengan karakteristik yang mirip dengan Gandum Abon: 80 kalori, 2 gram
protein, dll.), menjadi (67.914, 69.326). Juga, interval prediksi 95% untuk peringkat nutrisi sereal
yang dipilih secara acak dengan karakteristik yang mirip dengan Gandum Abon adalah (66,475,
70,764). Seperti sebelumnya, interval prediksi lebih lebar dari interval kepercayaan.

Berikut komentar lebih lanjut tentang hasil regresi berganda yang diberikan pada Gambar
4.10. Nilai R2 99,5% sangat tinggi, hampir sama dengan R2 maksimum yang mungkin 100%.
Ini menunjukkan bahwa model regresi berganda kami menyumbang hampir semua variabilitas
dalam peringkat nutrisi. Kesalahan standar perkiraan, s, memiliki nilai sekitar 1, yang berarti
bahwa kesalahan prediksi tipikal kami adalah sekitar satu poin pada skala peringkat nutrisi, dan
sekitar 95% (berdasarkan distribusi normal kesalahan) dari prediksi kami akan berada dalam
dua poin dari nilai sebenarnya. Bandingkan ini dengan nilai s sekitar 9 untuk model regresi linier
sederhana pada Gambar 4.5. Menggunakan lebih banyak data dalam model regresi kami telah
memungkinkan kami untuk mengurangi kesalahan prediksi kami dengan faktor 9.

Perhatikan juga bahwa nilai -p (di bawah P) untuk semua variabel prediktor sama dengan
nol (sebenarnya, mereka dibulatkan menjadi nol), yang menunjukkan bahwa setiap variabel,
termasuk karbohidrat, termasuk dalam model. Ingatlah bahwa sebelumnya tampak bahwa
karbohidrat tidak memiliki korelasi yang sangat tinggi dengan peringkat, sehingga beberapa
pemodel mungkin tergoda untuk menghilangkan karbohidrat dari model berdasarkan temuan eksplorasi ini.
Namun, seperti yang kami sebutkan di Bab 3, seringkali yang terbaik adalah membiarkan
variabel tetap dalam model bahkan jika EDA tidak menunjukkan hubungan yang jelas dengan
target. Di sini, karbohidrat ditemukan menjadi prediktor peringkat yang signifikan, di hadapan
prediktor lainnya. Menghilangkan karbohidrat sebagai prediktor dalam regresi menghasilkan
estimasi titik untuk sereal mirip Gandum Abon memiliki peringkat nutrisi 68,805, lebih jauh dari
peringkat aktual 68,2359 daripada prediksi yang menyertakan karbohidrat dalam model.
Selanjutnya, model tanpa karbohidrat mengalami penurunan nilai R2 dan nilai s lebih dari dua
kali lipat, menjadi 2,39 (tidak ditampilkan).
Menghilangkan variabel ini karena tampaknya kurangnya asosiasi dalam fase EDA akan
Machine Translated by Google

88 BAB 4 PENDEKATAN STATISTIK ESTIMASI DAN PREDIKSI

telah menjadi kesalahan, mengurangi fungsionalitas model dan merusak estimasi dan presisi
prediksinya.

REFERENSI
1. Robert Johnson dan Patricia Kuby, Statistik Dasar, Brooks-Cole, Toronto, Ontario,
Kanada, 2004.
2. Perpustakaan Data dan Cerita, www.lib.stat.cmu.edu/DASL, Universitas Carnegie Mellon,
Pittsburgh, PA.

LATIHAN
1. Jelaskan mengapa ukuran penyebaran diperlukan saat meringkas kumpulan data.

2. Jelaskan arti istilah simpangan baku kepada orang awam yang belum pernah membaca a
statistik atau buku data mining.

3. Berikan contoh dari pengalaman Anda sendiri, atau dari surat kabar, tentang penggunaan statistik
kesimpulan.

4. Berikan contoh dari pengalaman Anda sendiri, atau dari surat kabar, tentang ide pengambilan sampel
kesalahan.

5. Apa yang dimaksud dengan istilah margin of error?

6. Diskusikan hubungan antara lebar selang kepercayaan dan kepercayaan


tingkat yang terkait dengannya.

7. Diskusikan hubungan antara ukuran sampel dan lebar selang kepercayaan.


Mana yang lebih baik, interval lebar atau interval ketat? Mengapa?

8. Jelaskan dengan jelas mengapa kita menggunakan analisis regresi dan untuk jenis variabel apa itu?
sesuai.

9. Misalkan kita tertarik untuk memprediksi berat badan siswa berdasarkan tinggi badan. Kami telah
menjalankan analisis regresi dengan estimasi persamaan regresi yang dihasilkan sebagai berikut: “Estimasi
berat sama dengan (ÿ180 pon) ditambah (5 pon kali tinggi dalam inci).”

sebuah. Misalkan satu siswa lebih tinggi 3 inci dari siswa lain. Berapa perkiraannya?
perbedaan berat? b.

Misalkan seorang siswa memiliki tinggi 65 inci. Berapa perkiraan beratnya? c. Misalkan

persamaan regresi di atas didasarkan pada sampel siswa yang tingginya berkisar antara 60 hingga 75 inci.
Sekarang perkirakan tinggi siswa dengan tinggi 48 inci.
Komentar.

d. Jelaskan dengan jelas arti dari 5 dalam persamaan di atas. e. Jelaskan

dengan jelas arti dari 180 dalam persamaan di atas.

Analisis Langsung
Gunakan kumpulan data sereal yang disertakan, di situs Web seri buku, untuk latihan berikut.
Gunakan regresi untuk memperkirakan peringkat berdasarkan serat saja.
Machine Translated by Google

LATIHAN 89

10. Apa persamaan regresi yang diperkirakan?

11. Jelaskan dengan jelas nilai koefisien kemiringan yang Anda peroleh dalam regresi.

12. Apa arti nilai perpotongan y untuk persamaan regresi yang Anda peroleh?
Apakah masuk akal dalam contoh ini?

13. Apa kesalahan prediksi tipikal yang diperoleh dari penggunaan model ini untuk memprediksi peringkat?
Statistik mana yang Anda gunakan untuk mengukur ini? Apa yang bisa kita lakukan untuk menurunkan perkiraan
kesalahan prediksi ini?

14. Seberapa dekat model kita dengan data? Statistik mana yang Anda gunakan untuk mengukur ini?

15. Temukan perkiraan poin untuk peringkat sereal dengan kandungan serat 3 gram.

16. Temukan interval kepercayaan 95% untuk nilai rata-rata sebenarnya untuk semua sereal dengan kandungan serat
dari 3 gram.

17. Temukan interval prediksi 95% untuk sereal yang dipilih secara acak dengan kandungan serat
3 gram.

18. Berdasarkan hasil regresi, seperti apa yang kita harapkan dari plot pencar rating versus serat ? Mengapa?

Untuk latihan berikut, gunakan regresi berganda untuk memperkirakan peringkat berdasarkan serat dan gula.

19. Apa persamaan regresi yang diperkirakan?

20. Jelaskan dengan jelas dan lengkap nilai koefisien serat yang Anda peroleh pada
regresi.

21. Bandingkan nilai R2 dari regresi berganda dan regresi yang dilakukan sebelumnya pada latihan. Apa
yang sedang terjadi? Apakah ini akan selalu terjadi?

22. Bandingkan nilai s dari regresi berganda dan regresi yang dilakukan sebelumnya pada
latihan. Nilai mana yang lebih disukai, dan mengapa?
Machine Translated by Google

BAB 5

k-TETANGGA TERDEKAT
ALGORITMA

METODE SUPERVISED VS UNSUPERVISED


METODOLOGI UNTUK PEMODELAN SUPERVISED

BIAS – PERDAGANGAN VARIANSI

TUGAS KLASIFIKASI
ALGORITMA k-NEAREST NEIGHBOR
FUNGSI JARAK
FUNGSI KOMBINASI

KUANTIFIKASI RELEVANSI ATRIBUT: PEREGANGAN SAKAK


PERTIMBANGAN DATABASE
k-NEAREST NEIGHBOR ALGORITMA UNTUK ESTIMASI DAN PREDIKSI
MEMILIH

METODE SUPERVISED VS UNSUPERVISED

Metode penambangan data dapat dikategorikan sebagai diawasi atau tidak diawasi. Dalam
metode tanpa pengawasan, tidak ada variabel target yang diidentifikasi seperti itu. Sebaliknya,
algoritma data mining mencari pola dan struktur di antara semua variabel. Metode penambangan
data tanpa pengawasan yang paling umum adalah pengelompokan, topik kita di Bab 8 dan 9.
Misalnya, konsultan politik dapat menganalisis distrik kongres menggunakan metode
pengelompokan, untuk mengungkap lokasi pengelompokan pemilih yang mungkin responsif
terhadap pesan kandidat tertentu. Dalam hal ini, semua variabel yang sesuai (misalnya,
pendapatan, ras, jenis kelamin) akan dimasukkan ke algoritma pengelompokan, tanpa variabel
target yang ditentukan, untuk mengembangkan profil pemilih yang akurat untuk tujuan penggalangan dana dan
Metode penambangan data lain, yang dapat diawasi atau tidak diawasi, adalah
penambangan aturan asosiasi. Dalam analisis keranjang pasar, misalnya, seseorang mungkin saja

Discovering Knowledge in Data: An Introduction to Data Mining, Oleh Daniel T.


Larose ISBN 0-471-66657-2 Hak Cipta C 2005 John Wiley & Sons, Inc.

90
Machine Translated by Google

METODOLOGI UNTUK PEMODELAN SUPERVISED 91

tertarik pada "barang mana yang dibeli bersama", dalam hal ini tidak ada variabel target yang
akan diidentifikasi. Masalahnya di sini, tentu saja, adalah bahwa ada begitu banyak barang untuk
dijual, sehingga mencari semua kemungkinan asosiasi dapat menjadi tugas yang menakutkan,
karena ledakan kombinatorial yang dihasilkan. Namun demikian, algoritma tertentu, seperti
algoritma apriori, menyerang masalah ini dengan cerdik, seperti yang akan kita lihat ketika kita
membahas penambangan aturan asosiasi di Bab 10.
Sebagian besar metode data mining adalah metode terawasi, namun, artinya (1) ada
variabel target tertentu yang ditentukan sebelumnya, dan (2) algoritma diberikan banyak contoh
di mana nilai variabel target diberikan, sehingga algoritma dapat mempelajari mana yang nilai
variabel target dikaitkan dengan nilai variabel prediktor mana. Misalnya, metode regresi Bab 4
adalah metode terawasi, karena nilai yang diamati dari variabel respons y diberikan ke algoritma
kuadrat terkecil, yang berupaya meminimalkan jarak kuadrat antara nilai y ini dan nilai y yang
diprediksi dengan nilai x -vektor. Semua metode klasifikasi yang kita periksa di Bab 5 sampai 7
adalah metode terawasi, termasuk pohon keputusan, jaringan saraf, dan k-nearest tetangga.

METODOLOGI UNTUK PEMODELAN SUPERVISED

Sebagian besar metode penambangan data yang diawasi menerapkan metodologi berikut untuk
membangun dan mengevaluasi model. Pertama, algoritme dilengkapi dengan kumpulan data
pelatihan , yang mencakup nilai variabel target yang telah diklasifikasi sebelumnya selain variabel
prediktor. Misalnya, jika kita tertarik untuk mengklasifikasikan kelompok pendapatan, berdasarkan
usia, jenis kelamin, dan pekerjaan, algoritma klasifikasi kita akan membutuhkan kumpulan catatan
yang besar, yang berisi informasi lengkap (selengkap mungkin) tentang setiap bidang, termasuk
bidang target, golongan pendapatan. Dengan kata lain, record dalam training set perlu diklasifikasi
terlebih dahulu. Model penambangan data sementara kemudian dibangun menggunakan sampel
pelatihan yang disediakan dalam kumpulan data pelatihan.
Namun, set pelatihan ini tentu tidak lengkap; artinya, ini tidak termasuk data "baru" atau
data masa depan yang benar-benar ingin diklasifikasi oleh pemodel data.
Oleh karena itu, algoritme perlu menjaga agar tidak "menghafal" set pelatihan dan secara
membabi buta menerapkan semua pola yang ditemukan dalam set pelatihan ke data masa depan.
Misalnya, mungkin saja semua pelanggan bernama “David” dalam satu set pelatihan mungkin
termasuk dalam golongan berpenghasilan tinggi. Kami mungkin tidak ingin model akhir kami,
untuk diterapkan pada data baru, untuk menyertakan pola "Jika nama depan pelanggan adalah
David, pelanggan memiliki pendapatan tinggi." Pola seperti itu adalah artefak palsu dari set
pelatihan dan perlu diverifikasi sebelum penerapan.
Oleh karena itu, langkah selanjutnya dalam metodologi penambangan data terawasi
adalah memeriksa bagaimana model penambangan data sementara bekerja pada kumpulan data
uji . Pada test set, holdout data set, nilai variabel target disembunyikan sementara dari model
sementara, yang kemudian melakukan klasifikasi sesuai dengan pola dan struktur yang
dipelajarinya dari training set. Kemanjuran klasifikasi kemudian dievaluasi dengan
membandingkannya dengan nilai sebenarnya dari variabel target. Model data mining sementara
kemudian disesuaikan untuk meminimalkan tingkat kesalahan pada set pengujian.
Machine Translated by Google

92 BAB 5 ALGORITMA K-NEIGHBOR TETANGGA

Set pelatihan Gunakan set pelatihan untuk menghasilkan


(diklasifikasikan sebelumnya) model penambangan data sementara.

Model

penambangan
data sementara

Terapkan model sementara untuk


menguji set.

Sesuaikan model sementara untuk


Perangkat tes
meminimalkan tingkat kesalahan
pada set tes.

Model
penambangan
data yang disesuaikan

Terapkan model yang disesuaikan


ke set validasi.

Sesuaikan model yang disesuaikan


Set validasi
untuk meminimalkan tingkat kesalahan
pada set validasi.
Model

penambangan
data "Akhir"

Gambar 5.1 Metodologi untuk pemodelan terawasi.

Model penambangan data yang disesuaikan kemudian diterapkan ke kumpulan data


validasi , kumpulan data ketidaksepakatan lainnya, di mana nilai-nilai variabel target disembunyikan
lagi untuk sementara dari model. Model yang disesuaikan itu sendiri kemudian disesuaikan, untuk
meminimalkan tingkat kesalahan pada set validasi. Estimasi kinerja model untuk masa depan, data
yang tidak terlihat kemudian dapat dihitung dengan mengamati berbagai tindakan evaluatif yang
diterapkan pada set validasi. Teknik evaluasi model tersebut dibahas dalam Bab 11. Gambaran
umum proses pemodelan untuk penambangan data terawasi ini disajikan pada Gambar 5.1.
Biasanya, akurasi model sementara tidak setinggi pada set pengujian atau validasi seperti
pada set pelatihan, seringkali karena model sementara terlalu pas pada set pelatihan. Hasil
overfitting ketika model sementara mencoba untuk memperhitungkan setiap tren atau struktur yang
mungkin dalam set pelatihan, bahkan yang idiosinkratik seperti contoh "David" di atas. Ada
ketegangan abadi dalam pembangunan model antara kompleksitas model (menghasilkan akurasi
tinggi pada set pelatihan) dan generalisasi untuk set tes dan validasi. Meningkatkan kompleksitas
model untuk meningkatkan akurasi pada set pelatihan pada akhirnya dan tak terhindarkan
mengarah pada degradasi dalam generalisasi model sementara ke set pengujian dan validasi,
seperti yang ditunjukkan pada Gambar 5.2.

Gambar 5.2 menunjukkan bahwa ketika model sementara mulai tumbuh dalam kompleksitas
dari model nol (dengan sedikit atau tanpa kompleksitas), tingkat kesalahan pada set pelatihan dan
set validasi turun. Ketika kompleksitas model meningkat, tingkat kesalahan pada
Machine Translated by Google

BIAS – PERDAGANGAN VARIANSI 93

Tingkat Optimal
Kompleksitas Model

Tingkat Kesalahan aktif


Set Validasi

Tingkat Kesalahan aktif

Perlengkapan latihan
kurang pas Overfitting

Kompleksitas Model

Gambar 5.2 Tingkat kompleksitas model yang optimal adalah pada tingkat kesalahan minimum
pada set validasi.

set pelatihan terus jatuh dengan cara yang monoton. Namun, ketika kompleksitas model meningkat,
tingkat kesalahan validasi set segera mulai mendatar dan meningkat karena model sementara telah
menghafal set pelatihan daripada meninggalkan ruang untuk generalisasi ke data yang tidak terlihat.
Titik di mana tingkat kesalahan minimal pada set validasi ditemui adalah tingkat optimal kompleksitas
model, seperti yang ditunjukkan pada Gambar 5.2.
Kompleksitas yang lebih besar dari ini dianggap overfitting; kompleksitas kurang dari ini dianggap
underfitting.

TRADE-OFF BIAS–VARIANS

Misalkan kita memiliki plot pencar pada Gambar 5.3 dan tertarik untuk membangun kurva optimal (atau
garis lurus) yang akan memisahkan titik abu-abu gelap dari titik abu-abu terang. Garis lurus memiliki
keuntungan dari kompleksitas rendah tetapi menderita beberapa kesalahan klasifikasi (titik berakhir di
sisi yang salah dari garis).
Pada Gambar 5.4 kami telah mengurangi kesalahan klasifikasi menjadi nol tetapi dengan
mengorbankan fungsi pemisahan yang jauh lebih kompleks (garis melengkung). Seseorang mungkin
tergoda untuk mengadopsi kompleksitas yang lebih besar untuk mengurangi tingkat kesalahan. Namun,
orang harus berhati-hati untuk tidak bergantung pada keanehan set pelatihan. Sebagai contoh,
anggaplah kita sekarang menambahkan lebih banyak titik data ke plot pencar, memberikan kita grafik
pada Gambar 5.5.
Perhatikan bahwa pemisah dengan kompleksitas rendah (garis lurus) tidak perlu banyak
berubah untuk mengakomodasi titik data baru. Ini berarti bahwa separator dengan kompleksitas rendah
ini memiliki varians yang rendah. Namun, pemisah dengan kompleksitas tinggi, garis melengkung,
harus banyak berubah jika ingin mempertahankan tingkat kesalahan yang murni. Derajat perubahan
yang tinggi ini menunjukkan bahwa separator dengan kompleksitas tinggi memiliki varians yang tinggi.
Machine Translated by Google

94 BAB 5 ALGORITMA K-NEIGHBOR TETANGGA

Gambar 5.3 Pemisah dengan kompleksitas rendah dengan tingkat kesalahan tinggi.

Gambar 5.4 Pemisah dengan kompleksitas tinggi dengan tingkat kesalahan rendah.

Gambar 5.5 Dengan lebih banyak data: pemisah dengan kompleksitas rendah tidak perlu banyak berubah; pemisah kompleksitas
tinggi membutuhkan banyak revisi.
Machine Translated by Google

TUGAS KLASIFIKASI 95

Meskipun model dengan kompleksitas tinggi memiliki bias yang rendah (dalam hal tingkat
kesalahan pada set pelatihan), ia memiliki varians yang tinggi; Dan meskipun model kompleksitas
rendah memiliki bias yang tinggi, ia memiliki varians yang rendah. Inilah yang dikenal sebagai bias-
varians trade-off. Pertukaran bias-varians adalah cara lain untuk menggambarkan dilema over fitting/
underfitting yang ditunjukkan pada Gambar 5.2. Ketika kompleksitas model meningkat, bias pada
set pelatihan berkurang tetapi variansnya meningkat. Tujuannya adalah untuk membangun model di
mana bias maupun variansnya tidak terlalu tinggi, tetapi biasanya, meminimalkan satu cenderung
meningkatkan yang lain.
Misalnya, metode yang paling umum untuk mengevaluasi seberapa akurat estimasi model
berjalan adalah dengan menggunakan mean-squared error (MSE). Di antara dua model yang
bersaing, seseorang dapat memilih model yang lebih baik sebagai model dengan MSE yang lebih
rendah. Mengapa UMK merupakan ukuran evaluatif yang baik? Karena itu menggabungkan bias dan varians.
Kesalahan rata-rata kuadrat adalah fungsi dari kesalahan estimasi (SSE) dan kompleksitas model
(misalnya, derajat kebebasan). Dapat ditunjukkan (misalnya, Hand et al. [1]) bahwa kesalahan
kuadrat rata-rata dapat dipartisi menggunakan persamaan berikut, yang dengan jelas menunjukkan
hubungan komplementer antara bias dan varians:

MSE = varians + bias2

TUGAS KLASIFIKASI

Mungkin tugas data mining yang paling umum adalah klasifikasi. Contoh tugas klasifikasi dapat
ditemukan di hampir setiap bidang usaha:

Perbankan: menentukan apakah aplikasi hipotek merupakan risiko kredit yang baik atau
buruk, atau apakah transaksi kartu kredit tertentu adalah penipuan
Pendidikan: menempatkan siswa baru ke jalur tertentu yang berkaitan dengan kebutuhan
khusus

Kedokteran: mendiagnosis apakah ada penyakit tertentu


Hukum: menentukan apakah surat wasiat ditulis oleh orang yang meninggal atau dicurangi
oleh orang lain
Keamanan dalam negeri: mengidentifikasi apakah perilaku keuangan atau pribadi tertentu
mengindikasikan kemungkinan ancaman teroris

Dalam klasifikasi, ada variabel kategoris target, (misalnya, kelompok pendapatan), yang
dipartisi ke dalam kelas atau kategori yang telah ditentukan, seperti pendapatan tinggi, pendapatan
menengah, dan pendapatan rendah. Model data mining memeriksa satu set besar record, setiap
record berisi informasi tentang variabel target serta satu set variabel input atau prediktor. Sebagai
contoh, perhatikan kutipan dari kumpulan data yang ditunjukkan pada Tabel 5.1. Misalkan peneliti
ingin dapat mengklasifikasikan kelompok pendapatan orang-orang yang saat ini tidak ada dalam
database, berdasarkan karakteristik lain yang terkait dengan orang tersebut, seperti usia, jenis
kelamin, dan pekerjaan.
Tugas ini adalah tugas klasifikasi, sangat cocok untuk metode dan teknik penambangan data.
Machine Translated by Google

96 CHAPTER 5 k-NEIGHBOR NEIGHBOR ALGORITMA

TABEL 5.1 Kutipan dari Kumpulan Data untuk Mengklasifikasikan Pendapatan

Subjek Usia Jenis kelamin Pekerjaan Golongan pendapatan

001 47 F Insinyur perangkat lunak Tinggi


002 28 M Konsultan pemasaran Tengah
003 35 M Penganggur Rendah

.
.
.

Algoritma akan berjalan kira-kira sebagai berikut. Pertama, periksa kumpulan data
berisi variabel prediktor dan variabel target (sudah diklasifikasikan),
golongan pendapatan. Dengan cara ini, algoritme (perangkat lunak) "mempelajari" kombinasi variabel
mana yang dikaitkan dengan kurung pendapatan mana. Sebagai contoh,
wanita yang lebih tua dapat dikaitkan dengan kelompok berpenghasilan tinggi. Kumpulan data ini adalah
disebut set pelatihan. Kemudian algoritme akan melihat catatan baru yang
tidak ada informasi tentang braket pendapatan yang tersedia. Berdasarkan klasifikasi di
set pelatihan, algoritme akan menetapkan klasifikasi ke catatan baru. Untuk
misalnya, seorang profesor wanita berusia 63 tahun mungkin diklasifikasikan dalam berpenghasilan tinggi
mengurung.

ALGORITMA k-NEAREST NEIGHBOR

Algoritma pertama yang akan kita selidiki adalah algoritma k-nearest neighbor , yang
paling sering digunakan untuk klasifikasi, meskipun juga dapat digunakan untuk estimasi dan
ramalan. k-Nearest neighbor adalah contoh pembelajaran berbasis instance, di mana
kumpulan data pelatihan disimpan, sehingga klasifikasi untuk catatan baru yang tidak terklasifikasi
dapat ditemukan hanya dengan membandingkannya dengan catatan yang paling mirip dalam set pelatihan.
Mari kita pertimbangkan sebuah contoh.
Ingat contoh dari Bab 1 di mana kami tertarik untuk mengklasifikasikan
jenis obat yang harus diresepkan pasien, berdasarkan karakteristik pasien tertentu,
seperti usia pasien dan rasio natrium/kalium pasien. Untuk sampel
dari 200 pasien, Gambar 5.6 menyajikan plot pencar natrium/kalium pasien
(Na/K) rasio terhadap usia pasien. Obat tertentu yang diresepkan dilambangkan
oleh bayangan titik-titik. Titik abu-abu terang menunjukkan obat Y; titik abu-abu sedang
menunjukkan obat A atau X; titik abu-abu gelap menunjukkan obat B atau C.
Sekarang anggaplah kita memiliki catatan pasien baru, tanpa klasifikasi obat,
dan ingin mengklasifikasikan obat mana yang harus diresepkan untuk pasien berdasarkan:
obat mana yang diresepkan untuk pasien lain dengan atribut yang sama. Diidentifikasi sebagai "baru"
pasien 1,” pasien ini berusia 40 tahun dan memiliki rasio Na/K 29, menempatkannya pada posisi
pusat lingkaran yang ditunjukkan untuk pasien baru 1 pada Gambar 5.6. Klasifikasi obat apa
harus dibuat untuk pasien baru 1? Karena profil pasiennya menempatkannya jauh ke dalam
bagian dari plot pencar di mana semua pasien diberi resep obat Y, dengan demikian kami akan:
Machine Translated by Google

ALGORITMA k-NEAREST NEIGHBOR 97

40

30

20

10

10 20 30 40 50 60 70

Pasien Baru 1 Pasien Baru 2 Pasien Baru 3


Usia
Gambar 5.6 Plot pencar rasio natrium/kalium terhadap usia, dengan overlay obat.

mengklasifikasikan pasien baru 1 sebagai obat Y. Semua titik terdekat dengan titik ini, yaitu semua
dari pasien dengan profil yang sama (sehubungan dengan usia dan rasio Na/K) telah
meresepkan obat yang sama, membuat klasifikasi ini mudah.
Selanjutnya kita pindah ke pasien baru 2 yang berusia 17 tahun dengan rasio Na/K
12.5. Gambar 5.7 memberikan tampilan close-up dari titik data pelatihan di lokal
lingkungan dan berpusat pada pasien baru 2. Misalkan kita membiarkan k = 1 untuk k-terdekat kita
algoritma tetangga, sehingga pasien baru 2 akan diklasifikasikan menurut mana saja
pengamatan tunggal (satu) yang paling dekat dengannya. Dalam hal ini, pasien baru 2 akan diklasifikasikan

Baru

SEBUAH

Gambar 5.7 Close-up tiga tetangga terdekat dengan pasien baru 2.


Machine Translated by Google

98 CHAPTER 5 k-NEIGHBOR NEIGHBOR ALGORITMA

Gambar 5.8 Close-up tiga tetangga terdekat dengan pasien baru 2.

untuk obat B dan C (abu-abu tua), karena itulah klasifikasi titik yang paling dekat dengan titik pada scatter plot untuk
pasien baru 2.
Namun, misalkan kita sekarang membiarkan k = 2 untuk algoritma k-nearest neighbor kita, sehingga pasien
baru 2 akan diklasifikasikan menurut klasifikasi k = 2 poin yang paling dekat dengannya. Salah satu titik tersebut
adalah abu-abu tua, dan satu abu-abu sedang, sehingga pengklasifikasi kami akan dihadapkan pada keputusan antara
mengklasifikasikan pasien baru 2 untuk obat B dan C (abu-abu tua) atau obat A dan X (abu-abu sedang). Bagaimana
pengklasifikasi memutuskan antara dua klasifikasi ini? Pemungutan suara tidak akan membantu, karena ada satu
suara untuk masing-masing dari dua klasifikasi.

Voting akan membantu, bagaimanapun, jika kita membiarkan k = 3 untuk algoritma, sehingga pasien baru 2
akan diklasifikasikan berdasarkan tiga poin yang paling dekat dengannya. Karena dua dari tiga titik terdekat berwarna
abu-abu sedang, klasifikasi berdasarkan voting akan memilih obat A dan X (abu-abu sedang) sebagai klasifikasi untuk
pasien baru 2. Perhatikan bahwa klasifikasi yang ditetapkan untuk pasien baru 2 berbeda berdasarkan nilai mana kami
memilih untuk k.
Terakhir, pertimbangkan pasien baru 3, yang berusia 47 tahun dan memiliki rasio Na/K 13,5. Gambar 5.8
menyajikan close-up dari tiga tetangga terdekat dengan pasien baru 3.
Untuk k = 1, algoritma k-nearest neighbor akan memilih klasifikasi abu-abu tua (obat B dan C) untuk pasien baru 3,
berdasarkan ukuran jarak. Untuk k = 2, bagaimanapun, voting tidak akan membantu. Tetapi pemungutan suara juga
tidak akan membantu untuk k = 3 dalam kasus ini, karena tiga tetangga terdekat dengan pasien baru 3 memiliki tiga
klasifikasi yang berbeda.
Contoh ini telah menunjukkan kepada kita beberapa masalah yang terlibat dalam membangun classifier
menggunakan algoritma k-nearest neighbor. Masalah-masalah ini meliputi:

Berapa banyak tetangga yang harus kita pertimbangkan? Artinya, apa itu k?

Bagaimana kita mengukur jarak?

Bagaimana kita menggabungkan informasi dari lebih dari satu pengamatan?

Nanti kita pertimbangkan pertanyaan lain, seperti:

Haruskah semua poin diberi bobot yang sama, atau haruskah beberapa poin memiliki pengaruh yang lebih
besar daripada yang lain?
Machine Translated by Google

FUNGSI JARAK 99

FUNGSI JARAK

Kita telah melihat di atas bagaimana, untuk sebuah record baru, algoritma k-nearest neighbor
memberikan klasifikasi record atau record yang paling mirip. Tapi bagaimana kita mendefinisikan
serupa? Sebagai contoh, anggaplah kita memiliki seorang pasien baru yang berjenis kelamin laki-laki berusia 50 tahun.
Pasien mana yang lebih mirip, laki-laki 20 tahun atau perempuan 50 tahun?
Analis data menentukan metrik jarak untuk mengukur kesamaan. Metrik jarak atau
fungsi jarak adalah fungsi bernilai nyata d, sehingga untuk sembarang koordinat x, y, dan
z:

1. d(x,y) 0, dan d(x,y) = 0 jika dan hanya jika x = y 2.


d(x,y) = d(y,x) 3. d(x,z) d( x ,y) + d(y,z)

Properti 1 meyakinkan kita bahwa jarak selalu non-negatif, dan satu-satunya cara
agar jarak menjadi nol adalah agar koordinat (misalnya, dalam plot pencar) menjadi sama.
Sifat 2 menunjukkan komutatifitas, sehingga, misalnya, jarak dari New York ke Los
Angeles sama dengan jarak dari Los Angeles ke New York. Akhirnya, properti 3 adalah
pertidaksamaan segitiga, yang menyatakan bahwa memasukkan titik ketiga tidak akan
pernah bisa memperpendek jarak antara dua titik lainnya.
Fungsi jarak yang paling umum adalah jarak Euclidean, yang mewakili
cara biasa di mana manusia memikirkan jarak di dunia nyata:

2
dEuclidean(x,y) = ( xi yi)
saya

di mana x = x1, x2,..., xm, dan y = y1, y2,..., ym mewakili nilai atribut m dari dua record.
Misalnya, pasien A berusia x1 = 20 tahun dan memiliki rasio Na/K x2 = 12, sedangkan
pasien B berusia y1 = 30 tahun dan memiliki rasio Na/K y2 = 8.
Maka jarak Euclidean antara titik-titik ini, seperti yang ditunjukkan pada Gambar 5.9, adalah

2 2
dEuclidean(x,y) = ( xi yi) = (20 30) + (12 8)2
saya

= 100 + 16 = 10,77

(20, 12)

(30, 8)

Usia

Gambar 5.9 Jarak Euclidean.


Machine Translated by Google

100 CHAPTER 5 k-NEAREST NEIGHBOR ALGORITMA

Namun, saat mengukur jarak, atribut tertentu yang memiliki nilai besar,
seperti pendapatan, dapat mengalahkan pengaruh atribut lain yang diukur
dalam skala yang lebih kecil, seperti masa kerja. Untuk menghindari hal ini, analis data harus
pastikan untuk menormalkan nilai atribut.
Untuk variabel kontinu, normalisasi min-max atau standar Z-score
tion, dibahas dalam Bab 2, dapat digunakan:
Normalisasi min-maks:

X menit(X) X menit(X)
Xÿ = =
jangkauan(X) maks(X) mnt(X)
Standarisasi Z-skor:

X rata-rata (X)
Xÿ =
SD(X)

Untuk variabel kategori, metrik jarak Euclidean tidak sesuai. Alih-alih,


kita dapat mendefinisikan suatu fungsi, "berbeda dari," yang digunakan untuk membandingkan nilai atribut ke-i
dari sepasang record, sebagai berikut:

0 jika xi = yi
berbeda(xi,yi) =
1 sebaliknya

di mana xi dan yi adalah nilai kategoris. Kami kemudian dapat mengganti yang berbeda (x, yi) untuk
saya

suku ke-i dalam metrik jarak Euclidean di atas.


Misalnya, mari kita temukan jawaban untuk pertanyaan kita sebelumnya: Pasien mana yang lebih?
mirip dengan pria berusia 50 tahun: pria berusia 20 tahun atau wanita berusia 50 tahun? Memperkirakan
bahwa untuk variabel umur range 50, minimal 10, mean 45, dan
standar deviasi adalah 15. Misalkan pasien A adalah laki-laki kami yang berusia 50 tahun, pasien B
adalah laki-laki berusia 20 tahun, dan pasien C adalah perempuan berusia 50 tahun. Nilai variabel asli, bersama
dengan normalisasi min-max (ageMMN ) dan standarisasi Z-score (ageZscore),
tercantum dalam Tabel 5.2.
Kami memiliki satu variabel kontinu (usia, x1) dan satu variabel kategoris (jenis kelamin,
x2). Saat membandingkan pasien A dan B, kami memiliki perbedaan (x2,y2) = 0, dengan
berbeda (x2,y2) = 1 untuk kombinasi pasien lainnya. Pertama, mari kita lihat apa yang terjadi ketika
kita lupa menormalkan variabel usia. Maka jarak antar pasien
A dan B adalah d(A,B) = (50 20)2 + 02 = 30, dan jarak antara pasien A
dan C adalah d(A,C) = (20 20)2 + 12 = 1. Dengan demikian kita akan menyimpulkan bahwa pria
berusia 20 tahun 30 kali lebih “jauh” dari pria berusia 50 tahun daripada pria berusia 50 tahun. -tahun

TABEL 5.2 Nilai Variabel untuk Usia dan Jenis Kelamin

Pasien Usia UsiaMMN AgeZscore Jenis kelamin

50 10 50 45
SEBUAH 50 = 0.8 = 0,33 Pria
50 15
20 10 20 45
B 20 = 0,2 = 1.67 Pria
50 15
50 10 50 45
C 50 = 0.8 = 0,33 Perempuan
50 15
Machine Translated by Google

FUNGSI KOMBINASI 101

perempuan adalah. Dengan kata lain, wanita berusia 50 tahun 30 kali lebih "mirip" dengan pria berusia 50
tahun daripada pria berusia 20 tahun. Apakah ini tampak dibenarkan bagi Anda? Nah, dalam keadaan
tertentu, hal itu dapat dibenarkan, seperti pada penyakit tertentu yang berkaitan dengan usia. Tetapi, secara
umum, orang dapat menilai bahwa kedua pria itu sama seperti dua pria berusia 50 tahun itu. Soalnya variabel
umur diukur dalam skala yang lebih besar daripada variabel Beda(x2,y2). Oleh karena itu, kami melanjutkan
untuk memperhitungkan perbedaan ini dengan menormalkan dan menstandardisasi nilai usia, seperti yang
ditunjukkan pada Tabel 5.2.
Selanjutnya, kami menggunakan nilai normalisasi min-max untuk menemukan pasien mana yang
lebih mirip dengan pasien A. Kami memiliki dMMN(A,B) = (0.8 0.2)2 + 02 = 0.6 dan dMMN(A,C) = (0.8 0.8)2
+ 12 = 1.0, yang berarti pasien B sekarang dianggap lebih mirip dengan pasien A.

Akhirnya, kami menggunakan nilai standarisasi Z-score untuk menentukan pasien mana yang lebih
mirip dengan pasien A. Kami memiliki dZscore(A,B) = [0,33 (ÿ1,67)]2 + 02 = 2,0 dan dZscore(A,C) = (0,33
0,33)2 + 12 = 1,0, yang berarti pasien C lebih dekat lagi. Menggunakan standarisasi Z-score daripada
standardisasi min-max telah membalikkan kesimpulan kami tentang pasien mana yang dianggap lebih mirip
dengan pasien A. Ini menggarisbawahi pentingnya memahami jenis normalisasi mana yang digunakan.
Normalisasi min-max hampir selalu terletak antara nol dan 1 seperti fungsi "identik". Standarisasi Z-score,
bagaimanapun, biasanya mengambil nilai 3 < z <3, mewakili skala yang lebih luas daripada min-max atau
malization. Oleh karena itu, mungkin, ketika mencampur variabel kategoris dan kontinu, normalisasi min-max
mungkin lebih disukai.

FUNGSI KOMBINASI

Sekarang kita memiliki metode untuk menentukan record mana yang paling mirip dengan record baru yang
tidak terklasifikasi, kita perlu menetapkan bagaimana record yang serupa ini akan digabungkan untuk
memberikan keputusan klasifikasi untuk record baru. Artinya, kita membutuhkan fungsi kombinasi. Fungsi
kombinasi yang paling dasar adalah unweighted voting sederhana.

Pemungutan Suara Sederhana Tanpa Bobot

1. Sebelum menjalankan algoritma, tentukan nilai k, yaitu berapa banyak record


akan memiliki suara dalam mengklasifikasikan rekor baru.

2. Kemudian, bandingkan record baru dengan k tetangga terdekat, yaitu dengan k record yang memiliki
jarak minimum dari record baru dalam hal jarak Euclidean atau metrik mana pun yang diinginkan

pengguna.

3. Setelah k record dipilih, maka untuk unweighted voting sederhana, jarak mereka dari record baru tidak
lagi penting. Ini sederhana satu catatan, satu suara.

Kami mengamati pemungutan suara sederhana tanpa bobot dalam contoh untuk Gambar 5.4 dan 5.5.
Pada Gambar 5.4, untuk k = 3, klasifikasi berdasarkan voting sederhana akan memilih obat A dan X (abu-abu
sedang) sebagai klasifikasi untuk pasien baru 2, karena dua dari tiga titik terdekat berwarna abu-abu sedang.
Kemudian akan dibuat klasifikasi untuk obat A dan X, dengan tingkat kepercayaan 66,67%, dimana tingkat
kepercayaan mewakili jumlah record, dengan klasifikasi pemenang dibagi dengan k.
Machine Translated by Google

102 CHAPTER 5 k-NEAREST NEIGHBOR ALGORITMA

Di sisi lain, pada Gambar 5.5, untuk k = 3, pemungutan suara sederhana akan gagal memilih
pemenang yang jelas karena masing-masing dari tiga kategori menerima satu suara. Akan ada
dasi di antara tiga klasifikasi yang diwakili oleh catatan pada Gambar 5.5, dan dasi
mungkin bukan hasil yang disukai.

Pemungutan Suara Tertimbang

Seseorang mungkin merasa bahwa tetangga yang lebih dekat atau lebih mirip dengan rekor baru seharusnya
ditimbang lebih berat daripada tetangga yang lebih jauh. Misalnya, pada Gambar 5.5,
apakah adil bahwa rekaman abu-abu terang lebih jauh mendapat suara yang sama dengan
suara abu-abu gelap yang lebih dekat dengan rekor baru? Mungkin tidak. Sebaliknya, analis mungkin
memilih untuk menerapkan pemungutan suara berbobot, di mana tetangga yang lebih dekat memiliki suara yang lebih besar di
keputusan klasifikasi daripada tetangga yang lebih jauh. Voting berbobot juga membuat
itu jauh lebih kecil kemungkinannya untuk munculnya ikatan.

Dalam pemungutan suara berbobot, pengaruh catatan tertentu berbanding terbalik


dengan jarak record dari record baru yang akan diklasifikasikan. Mari kita lihat
contoh. Pertimbangkan Gambar 5.6, di mana kami tertarik untuk menemukan klasifikasi obat untuk rekor
baru, menggunakan k = 3 tetangga terdekat. Sebelumnya, saat menggunakan simple
unweighted voting, kami melihat bahwa ada dua suara untuk klasifikasi abu-abu sedang, dan satu suara
untuk abu-abu gelap. Namun, catatan abu-abu gelap lebih dekat daripada
dua catatan lainnya. Akankah kedekatan yang lebih besar ini cukup untuk pengaruh kegelapan?
catatan abu-abu untuk mengatasi catatan abu-abu sedang yang lebih banyak?
Asumsikan bahwa catatan tersebut memiliki nilai untuk usia dan rasio Na/K
diberikan pada Tabel 5.3, yang juga menunjukkan normalisasi min-max untuk nilai-nilai ini.
Maka jarak record A, B, dan C dari record baru adalah sebagai berikut:

d(baru,A) = (0,05 0,0467)2 + (0,25 0,2471)2 = 0,004393

d(baru,B) = (0,05 0,0533)2 + (0,25 0,1912)2 = 0,58893

d(baru,C) = (0,05 0,0917)2 + (0,25 0,2794)2 = 0,051022

Suara dari rekaman-rekaman ini kemudian dibobot sesuai dengan kuadrat terbalik dari mereka
jarak.
Satu rekor (A) suara untuk mengklasifikasikan rekor baru sebagai abu-abu gelap (obat B dan C),
jadi suara tertimbang untuk klasifikasi ini adalah

TABEL 5.3 Usia dan Rasio Na/K untuk Catatan dari Gambar 5.4

Catatan Usia Na / K UsiaMMN Na/KMMN

Baru 17 12.5 0,05 0,25

A (abu-abu tua) 16.8 12.4 0,0467 0.2471

B (abu-abu sedang) 17.2 10.5 0,0533 0.1912

C (abu-abu sedang) 19.5 13.5 0,0917 0,2794


Machine Translated by Google

KUANTIFIKASI RELEVANSI ATRIBUT: PEREGANGAN SAKAK 103

1 1
suara (abu-abu tua) = = 51,818
d(baru,A)2 0,0043932

Dua catatan (B dan C) memilih untuk mengklasifikasikan catatan baru sebagai abu-abu sedang (obat A dan
X), jadi bobot suara untuk klasifikasi ini adalah
1 1 1 1
suara (abu-abu sedang) = + = +
d(baru,B)2 d(baru,C)2 0,0588932 0,0510222

672

Oleh karena itu, dengan total meyakinkan 51.818 berbanding 672, prosedur pemungutan suara
berbobot akan memilih abu-abu gelap (obat B dan C) sebagai klasifikasi untuk pasien baru
berusia 17 tahun dengan rasio natrium/kalium 12,5. Perhatikan bahwa kesimpulan ini membalikkan
klasifikasi sebelumnya untuk kasus k = 3 tidak berbobot, yang memilih klasifikasi abu-abu sedang.

Ketika jaraknya nol, kebalikannya tidak terdefinisi. Dalam hal ini algoritma harus memilih
klasifikasi mayoritas dari semua record yang jaraknya nol dari record baru.

Pertimbangkan sejenak bahwa begitu kita mulai membobot record, tidak ada alasan
teoretis mengapa kita tidak bisa menaikkan k secara sembarang sehingga semua record yang
ada dimasukkan ke dalam pembobotan. Namun, ini bertentangan dengan pertimbangan praktis
waktu komputasi yang sangat lambat untuk menghitung bobot semua catatan setiap kali catatan
baru perlu diklasifikasikan.

MENGKUANTIFIKASI RELEVANSI ATRIBUT:


PEREGANGAN SAKAK

Pertimbangkan bahwa tidak semua atribut mungkin relevan dengan klasifikasi. Dalam pohon
keputusan (Bab 6), misalnya, hanya atribut-atribut yang membantu klasifikasi yang
dipertimbangkan. Dalam algoritma k-nearest neighbor, jarak secara default dihitung pada semua
atribut. Oleh karena itu, dimungkinkan untuk catatan yang relevan yang dekat dengan catatan
baru dalam semua variabel penting, tetapi jauh dari catatan baru dengan cara yang tidak penting,
untuk memiliki jarak yang cukup besar dari catatan baru, dan oleh karena itu tidak dipertimbangkan
untuk keputusan klasifikasi. Oleh karena itu, analis dapat mempertimbangkan untuk membatasi
algoritme ke bidang yang diketahui penting untuk mengklasifikasikan catatan baru, atau setidaknya
untuk membutakan algoritme ke bidang yang diketahui tidak relevan.
Sebagai alternatif, daripada membatasi bidang apriori, analis data mungkin lebih memilih
untuk menunjukkan bidang mana yang kurang lebih penting untuk mengklasifikasikan variabel target.
Ini dapat dicapai dengan menggunakan pendekatan validasi silang atau yang didasarkan pada
pengetahuan pakar domain. Pertama, perhatikan bahwa masalah menentukan bidang mana yang
lebih atau kurang penting setara dengan menemukan koefisien zj yang digunakan untuk
mengalikan sumbu ke-j, dengan nilai zj yang lebih besar terkait dengan sumbu variabel yang lebih
penting. Oleh karena itu, proses ini disebut peregangan sumbu.
Pendekatan validasi silang kemudian memilih subset acak dari data yang akan digunakan
sebagai set pelatihan dan menemukan set nilai z1,z2,...zm yang meminimalkan kesalahan
klasifikasi pada set data uji. Mengulangi proses akan menghasilkan lebih banyak
Machine Translated by Google

104 CHAPTER 5 k-NEAREST NEIGHBOR ALGORITMA

kumpulan nilai yang akurat z1,z2,...zm. Jika tidak, pakar domain dapat diminta untuk merekomendasikan
serangkaian nilai untuk z1,z2,...zm. Dengan cara ini, algoritma k-nearest neighbor dapat dibuat lebih
presisi.
Misalnya, baik melalui validasi silang atau pengetahuan ahli, rasio Na/K ditentukan menjadi
tiga kali lebih penting daripada usia untuk klasifikasi obat. Maka kita akan memiliki zNa/K = 3 dan zage
= 1. Untuk contoh di atas, jarak baru dari record A, B, dan C dari record baru adalah sebagai berikut:

d(baru,A) = (0,05 0,0467)2 + [3(0,25 0,2471)]2 = 0,009305

d(baru,B) = (0,05 0,0533)2 + [3(0,25 0,1912)]2 = 0,17643

d(baru,C) = (0,05 0,0917)2 + [3(0,25 0,2794)]2 = 0,09756

Dalam hal ini, klasifikasi tidak akan berubah dengan sumbu teregang untuk Na/K, tetap abu-abu gelap.
Namun, dalam masalah dunia nyata, peregangan sumbu dapat menghasilkan klasifikasi yang lebih
akurat, karena ini mewakili metode untuk mengukur relevansi setiap variabel dalam keputusan
klasifikasi.

PERTIMBANGAN DATABASE

Untuk metode pembelajaran berbasis instans seperti algoritma k-nearest neighbor, sangat penting
untuk memiliki akses ke database kaya yang penuh dengan sebanyak mungkin kombinasi nilai atribut
yang berbeda. Sangatlah penting bahwa klasifikasi langka direpresentasikan secara memadai,
sehingga algoritme tidak hanya memprediksi klasifikasi umum. Oleh karena itu, kumpulan data perlu
diseimbangkan, dengan persentase yang cukup besar dari klasifikasi yang kurang umum. Salah satu
metode untuk melakukan penyeimbangan adalah dengan mengurangi proporsi record dengan
klasifikasi yang lebih umum.
Mempertahankan database yang kaya ini untuk akses mudah dapat menjadi masalah jika ada
batasan pada ruang memori utama. Memori utama mungkin penuh, dan akses ke penyimpanan
tambahan lambat. Oleh karena itu, jika database akan digunakan hanya untuk metode k-nearest
neighbor, mungkin berguna untuk mempertahankan hanya titik-titik data yang berada di dekat “batas”
klasifikasi. Misalnya, pada Gambar 5.6, semua catatan dengan nilai rasio Na/K lebih besar dari,
katakanlah, 19 dapat dihilangkan dari database tanpa kehilangan akurasi klasifikasi, karena semua
catatan di wilayah ini diklasifikasikan sebagai abu-abu muda. Oleh karena itu, catatan baru dengan
rasio Na/K > 19 akan diklasifikasikan dengan cara yang sama.

ALGORITMA k-NEAREST NEIGHBOR UNTUK


ESTIMASI DAN PREDIKSI

Sejauh ini kita telah mempertimbangkan bagaimana menggunakan algoritma k-nearest neighbor
untuk klasifikasi. Namun, ini dapat digunakan untuk estimasi dan prediksi serta untuk variabel target
bernilai kontinu. Salah satu metode untuk mencapai ini disebut pembobotan lokal
Machine Translated by Google

MEMILIH k 105

TABEL 5.4 k = 3 Tetangga Terdekat dari Rekor Baru

Catatan Usia Na / K BP UsiaMMN Na/KMMN Jarak

Baru 17 12.5 ? 0,05 0,25 —

SEBUAH 16.8 12.4 120 0,0467 0.2471 0,009305


B 17.2 10.5 122 0,0533 0.1912 0,16783
C 19.5 13.5 130 0,0917 0,2794 0.26737

rata-rata. Asumsikan bahwa kita memiliki kumpulan data yang sama seperti contoh di atas, tetapi kali ini
daripada mencoba untuk mengklasifikasikan resep obat, kami mencoba untuk memperkirakan
pembacaan tekanan darah sistolik (BP, variabel target) pasien, berdasarkan itu
usia pasien dan rasio Na/ K (variabel prediktor). Asumsikan bahwa BP memiliki kisaran
80 dengan minimal 90 dalam catatan pasien.
Dalam contoh ini kami tertarik untuk memperkirakan tekanan darah sistolik
bacaan untuk pasien berusia 17 tahun dengan rasio Na/K 12,5, pasien baru yang sama
catatan yang sebelumnya kami lakukan klasifikasi obat. Jika kita misalkan k = 3, kita memiliki
tiga tetangga terdekat yang sama seperti sebelumnya, ditunjukkan di sini pada Tabel 5.4. Asumsikan bahwa kita
menggunakan zNa/K = tiga sumbu-peregangan untuk mencerminkan kepentingan yang lebih besar dari
rasio Na/K.
Rata-rata tertimbang lokal kemudian akan memperkirakan BP sebagai rata-rata tertimbang
BP untuk k = 3 tetangga terdekat, menggunakan kuadrat terbalik yang sama dari jarak
untuk bobot yang kita gunakan sebelumnya. Artinya, perkiraan nilai target yˆ dihitung
sebagai

wi yi
saya

kamu baru =
wi
saya

2
di mana wi = 1/d(baru, xi) untuk catatan yang ada x1, x2,..., xk . Jadi, dalam contoh ini,
perkiraan pembacaan tekanan darah sistolik untuk rekor baru adalah

wi yi 120 122 130


+ 0,176432 +
saya

= 0,0093052 0,097562
kamu baru = = 120,0954.
1 1 1
wi + 0,176432 +
0,0093052 0,097562
saya

Seperti yang diharapkan, perkiraan nilai BP cukup dekat dengan nilai BP dalam data saat ini
set yang lebih dekat (dalam ruang atribut yang diregangkan) ke rekor baru. Di lain
kata-kata, karena rekor A lebih dekat ke rekor baru, nilai BP-nya 120 berkontribusi
sangat untuk estimasi pembacaan BP untuk rekor baru.

MEMILIH _

Bagaimana cara memilih nilai k? Bahkan, mungkin tidak ada


solusi terbaik yang jelas. Pertimbangkan untuk memilih nilai kecil untuk k. Maka itu mungkin
bahwa klasifikasi atau estimasi mungkin terlalu terpengaruh oleh outlier atau tidak biasa
Machine Translated by Google

106 BAB 5 ALGORITMA K-NEIGHBOR TETANGGA

pengamatan (“kebisingan”). Dengan k kecil (misalnya, k = 1), algoritme hanya akan mengembalikan
nilai target pengamatan terdekat, sebuah proses yang dapat menyebabkan algoritme menuju
overfitting, cenderung mengingat kumpulan data pelatihan dengan mengorbankan kemampuan generalisasi.
Di sisi lain, memilih nilai k yang tidak terlalu kecil akan cenderung memuluskan setiap perilaku
idiosinkratik yang dipelajari dari set pelatihan. Namun, jika kita mengambil ini terlalu jauh dan memilih
nilai k yang terlalu besar, perilaku lokal yang menarik akan diabaikan. Analis data perlu
menyeimbangkan pertimbangan ini ketika memilih nilai k.

Dimungkinkan untuk mengizinkan data itu sendiri untuk membantu menyelesaikan masalah
ini, dengan mengikuti prosedur validasi silang yang serupa dengan metode sebelumnya untuk
menemukan nilai optimal z1,z2,...zm untuk peregangan sumbu. Di sini kita akan mencoba berbagai
nilai k dengan set pelatihan berbeda yang dipilih secara acak dan memilih nilai k yang meminimalkan
kesalahan klasifikasi atau estimasi.

REFERENSI
1. David Hand, Heikki Mannila, dan Padhraic Smyth, 2001, Principles of Data Mining, MIT
Pers, Cambridge, MA, 2001.

LATIHAN
1. Jelaskan perbedaan antara metode terawasi dan tidak terawasi. Penambangan data yang mana?
tugas terkait dengan metode tanpa pengawasan? Diawasi? Keduanya?

2. Jelaskan perbedaan antara set pelatihan, set pengujian, dan set validasi.

3. Haruskah kita berusaha untuk akurasi setinggi mungkin dengan set pelatihan? Mengapa atau mengapa tidak?
Bagaimana dengan set validasi?

4. Bagaimana trade-off bias-varians terkait dengan masalah overfitting dan underfitting? Apakah bias tinggi
terkait dengan overfitting dan underfitting, dan mengapa? Varians tinggi?

5. Apa yang dimaksud dengan istilah pembelajaran berbasis contoh?

6. Buatlah satu set tiga record, masing-masing dengan dua variabel prediksi numerik dan satu variabel target
kategoris, sehingga klasifikasi tidak akan berubah terlepas dari nilai k.

7. Lihat Latihan 6. Ubah kumpulan data Anda sehingga klasifikasi berubah untuk yang berbeda
nilai k.

8. Lihat Latihan 7. Temukan jarak Euclidean antara setiap pasangan titik. Menggunakan ini
poin, verifikasi bahwa jarak Euclidean adalah metrik jarak yang sebenarnya.

9. Bandingkan keuntungan dan kerugian dari unweighted voting versus weighted voting.

10. Mengapa database perlu diseimbangkan?

11. Contoh dalam teks tentang penggunaan algoritma k-nearest neighbor untuk estimasi memiliki record yang
paling dekat, melebihi record lainnya dalam mempengaruhi estimasi. Sarankan dua cara kreatif agar kita
dapat mencairkan pengaruh kuat dari rekaman terdekat ini.

12. Diskusikan keuntungan dan kerugian menggunakan nilai kecil versus nilai besar untuk k.
Machine Translated by Google

BAB 6
POHON KEPUTUSAN

POHON KLASIFIKASI DAN REGRESI


ALGORITMA C4.5
ATURAN KEPUTUSAN

PERBANDINGAN ALGORITMA C5.0 DAN CART YANG DITERAPKAN PADA DATA NYATA

Dalam bab ini kami melanjutkan pemeriksaan metode klasifikasi untuk penambangan data.
Salah satu metode klasifikasi yang menarik melibatkan pembangunan pohon keputusan, kumpulan
simpul keputusan, dihubungkan oleh cabang, memanjang ke bawah dari simpul akar sampai berakhir di
simpul daun. Dimulai pada simpul akar, yang menurut konvensi ditempatkan di bagian atas diagram
pohon keputusan, atribut diuji pada simpul keputusan, dengan setiap hasil yang mungkin menghasilkan
cabang. Setiap cabang kemudian mengarah ke simpul keputusan lain atau ke simpul daun yang
mengakhiri. Gambar 6.1 memberikan contoh pohon keputusan sederhana.

Variabel target untuk pohon keputusan pada Gambar 6.1 adalah risiko kredit, dengan calon
pelanggan diklasifikasikan sebagai risiko kredit baik atau buruk. Variabel prediktornya adalah tabungan
(rendah, sedang, dan tinggi), aset (rendah atau tidak rendah), dan pendapatan (ÿ$50.000 atau >$50.000).
Di sini, simpul akar mewakili simpul keputusan, menguji apakah setiap catatan memiliki tingkat
penghematan rendah, sedang, atau tinggi (sebagaimana didefinisikan oleh analis atau pakar domain).
Kumpulan data dipartisi, atau dipisah, sesuai dengan nilai atribut ini.
Catatan-catatan dengan penghematan rendah dikirim melalui cabang paling kiri (tabungan = rendah) ke
simpul keputusan lain. Catatan dengan penghematan tinggi dikirim melalui cabang paling kanan ke
simpul keputusan yang berbeda.
Catatan dengan tabungan sedang dikirim melalui cabang tengah langsung ke simpul daun, yang
menunjukkan penghentian cabang ini. Mengapa simpul daun dan bukan simpul keputusan lain? Sebab,
dalam kumpulan data (tidak ditampilkan), semua catatan dengan tingkat tabungan sedang telah
diklasifikasikan sebagai risiko kredit yang baik. Tidak perlu simpul keputusan lain, karena pengetahuan
kami bahwa pelanggan memiliki tabungan sedang memprediksi kredit yang baik dengan akurasi 100%
dalam kumpulan data.
Untuk pelanggan dengan tabungan rendah, simpul keputusan berikutnya menguji apakah
pelanggan memiliki aset rendah. Mereka yang memiliki aset rendah kemudian diklasifikasikan sebagai
risiko kredit macet; lainnya diklasifikasikan sebagai risiko kredit yang baik. Bagi nasabah dengan tabungan tinggi,

Discovering Knowledge in Data: An Introduction to Data Mining, Oleh Daniel T.


Larose ISBN 0-471-66657-2 Hak Cipta C 2005 John Wiley & Sons, Inc.

107
Machine Translated by Google

108 BAB 6 POHON KEPUTUSAN

Node Akar
Tabungan = Rendah, Sedang, Tinggi?

Hemat = Tinggi
Hemat = Rendah

Tabungan = Med

Aset = Rendah? Penghasilan <= $30K?


Risiko Kredit Bagus

Ya Tidak Ya Tidak

Risiko Buruk Risiko Bagus Risiko Buruk Risiko Bagus

Gambar 6.1 Pohon keputusan sederhana.

simpul keputusan berikutnya menguji apakah pelanggan memiliki pendapatan paling banyak $30.000.
Pelanggan dengan pendapatan $30.000 atau kurang kemudian diklasifikasikan sebagai risiko kredit buruk,
dengan yang lain diklasifikasikan sebagai risiko kredit baik.
Ketika tidak ada pemisahan lebih lanjut yang dapat dilakukan, algoritma pohon keputusan berhenti
menumbuhkan node baru. Misalnya, anggaplah semua cabang berakhir di simpul daun "murni", di mana
variabel target adalah unary untuk catatan di simpul itu (misalnya, setiap catatan di simpul daun adalah
risiko kredit yang baik). Maka tidak diperlukan pemisahan lebih lanjut, sehingga tidak ada simpul lebih lanjut
yang tumbuh.
Namun, ada beberapa contoh ketika node tertentu berisi "beraneka ragam" pada upeti (dengan
nilai nonunary untuk atribut target), namun pohon keputusan tidak dapat membuat pemisahan. Sebagai
contoh, anggaplah kita mempertimbangkan catatan dari Gambar 6.1 dengan tabungan tinggi dan pendapatan
rendah (ÿ$30.000). Misalkan ada lima record dengan nilai-nilai ini, yang semuanya juga memiliki aset yang
rendah. Akhirnya, anggaplah tiga dari lima pelanggan ini telah diklasifikasikan sebagai risiko kredit buruk
dan dua sebagai risiko kredit baik, seperti yang ditunjukkan pada Tabel 6.1. Di dunia nyata, seseorang
sering menjumpai situasi seperti ini, dengan nilai yang bervariasi untuk variabel respon, bahkan untuk nilai
yang sama persis untuk variabel prediktor.

Di sini, karena semua pelanggan memiliki nilai prediktor yang sama, tidak ada cara yang mungkin
untuk membagi catatan menurut variabel prediktor yang akan mengarah ke simpul daun murni. Oleh karena
itu, node tersebut menjadi node daun yang beragam, dengan nilai campuran untuk atribut target. Dalam
kasus ini, pohon keputusan dapat melaporkan bahwa klasifikasi untuk pelanggan tersebut adalah "buruk",
dengan keyakinan 60%, seperti yang ditentukan oleh tiga perlima pelanggan di simpul ini yang memiliki
risiko kredit buruk. Perhatikan bahwa tidak semua atribut diuji untuk semua catatan. Pelanggan dengan
tabungan rendah dan aset rendah, misalnya, tidak diuji sehubungan dengan pendapatan dalam contoh ini.
Machine Translated by Google

POHON KLASIFIKASI DAN REGRESI 109

TABEL 6.1 Contoh Catatan yang Tidak Dapat Menghasilkan Node Daun Murni

Pelanggan Tabungan Aktiva Penghasilan Resiko kredit

004 Tinggi Rendah $30.000 Bagus

009 Tinggi Rendah $30.000 Bagus

027 Tinggi Rendah $30.000 Buruk

031 Tinggi Rendah $30.000 Buruk

104 Tinggi Rendah $30.000 Buruk

Persyaratan tertentu harus dipenuhi sebelum algoritma pohon keputusan dapat dibuat
terapan:

1. Algoritma pohon keputusan mewakili pembelajaran yang diawasi, dan dengan demikian memerlukan variabel
target yang telah diklasifikasikan sebelumnya. Satu set data pelatihan harus disediakan yang menyediakan:
algoritma dengan nilai-nilai variabel target.

2. Kumpulan data pelatihan ini harus kaya dan bervariasi, menyediakan algoritme dengan
penampang yang sehat dari jenis catatan yang klasifikasinya mungkin
akan dibutuhkan di masa depan. Pohon keputusan belajar dengan contoh, dan jika contoh
secara sistematis kurang untuk subset yang dapat ditentukan dari catatan, klasifikasi dan
prediksi untuk subset ini akan bermasalah atau tidak mungkin.

3. Kelas atribut target harus diskrit. Artinya, seseorang tidak dapat menerapkan keputusan
analisis pohon ke variabel target berkelanjutan. Sebaliknya, variabel target harus
mengambil nilai-nilai yang secara jelas dibatasi sebagai milik tertentu
kelas atau bukan milik.

Mengapa pada contoh di atas, apakah pohon keputusan memilih atribut tabungan ?
untuk pemisahan simpul akar? Mengapa tidak memilih aset atau pendapatan saja? Keputusan
pohon berusaha membuat satu set simpul daun yang "murni" mungkin, yaitu, di mana
setiap record pada simpul daun tertentu memiliki klasifikasi yang sama. Lewat sini,
pohon keputusan dapat memberikan tugas klasifikasi dengan ukuran tertinggi dari
kepercayaan diri tersedia.
Namun, bagaimana seseorang mengukur keseragaman, atau sebaliknya, bagaimana seseorang
mengukur heterogenitas yang pasti? Kami akan memeriksa dua dari banyak metode untuk mengukur daun
kemurnian node, yang mengarah ke dua algoritma terkemuka untuk membangun pohon keputusan:

Algoritma klasifikasi dan pohon regresi (CART)

Algoritma C4.5

POHON KLASIFIKASI DAN REGRESI

Metode klasifikasi dan pohon regresi (CART) disarankan oleh Breiman


dkk. [1] pada tahun 1984. Pohon keputusan yang dihasilkan oleh CART benar-benar biner, mengandung
tepat dua cabang untuk setiap simpul keputusan. CART secara rekursif mempartisi catatan
dalam kumpulan data pelatihan menjadi subset catatan dengan nilai yang sama untuk target
Machine Translated by Google

110 BAB 6 POHON KEPUTUSAN

atribut. Algoritma CART menumbuhkan pohon dengan melakukan untuk setiap simpul keputusan, dan
pencarian lengkap dari semua variabel yang tersedia dan semua kemungkinan nilai pemisahan, memilih
pemisahan optimal menurut kriteria berikut (dari Kennedy et al. [2]).
Misalkan (s|t) menjadi ukuran “kebaikan” dari kandidat yang terbelah pada simpul t, dimana

# kelas
(s|t) = 2PL PR |P(j|tL ) P(j|tR)| (6.1)
j=1

dan dimana

tL = simpul anak kiri dari simpul t

tR = simpul anak kanan dari simpul t

jumlah record pada tL


PL =
jumlah record dalam set pelatihan

jumlah record pada tR


PR =
jumlah record dalam set pelatihan

jumlah record kelas j pada tL


P(j|tL ) =
jumlah record pada t

jumlah record kelas j pada tR


P(j|tR) =
jumlah record pada t

Kemudian pemisahan optimal adalah pemisahan mana pun yang memaksimalkan ukuran ini (s|t) pada semua
kemungkinan pemisahan pada simpul t.
Mari kita lihat sebuah contoh. Misalkan kita memiliki kumpulan data pelatihan yang ditunjukkan
pada Tabel 6.2 dan tertarik menggunakan CART untuk membangun pohon keputusan untuk memprediksi
apakah pelanggan tertentu harus diklasifikasikan sebagai risiko kredit yang baik atau buruk.
Dalam contoh kecil ini, kedelapan catatan pelatihan masuk ke simpul akar. Sejak CART
dibatasi pada pemisahan biner, kandidat membagi yang akan dilakukan oleh algoritma CART
evaluasi untuk partisi awal pada node root ditunjukkan pada Tabel 6.3. Meskipun
pendapatan adalah variabel kontinu, CART mungkin masih mengidentifikasi daftar terbatas dari kemungkinan perpecahan
berdasarkan jumlah nilai berbeda yang sebenarnya diambil variabel dalam data

TABEL 6.2 Kumpulan Catatan Pelatihan untuk Mengklasifikasikan Risiko Kredit

Penghasilan

Pelanggan Tabungan Aktiva ($1000) Resiko kredit

1 Sedang Tinggi 75 Bagus

2 Rendah Rendah 50 Buruk

3 Tinggi Sedang 25 Buruk

4 Sedang Sedang 50 Bagus

5 Rendah Sedang 100 Bagus

6 Tinggi Tinggi 25 Bagus

7 Rendah Rendah 25 Buruk

8 Sedang Sedang 75 Bagus


Machine Translated by Google

POHON KLASIFIKASI DAN REGRESI 111

TABEL 6.3 Pemisahan Kandidat untuk t = Root Node

Pembagian Kandidat Node Anak Kiri, tL Node Anak Kanan, tR

1 Hemat = rendah Hemat { sedang, tinggi}


2 Tabungan = sedang Hemat { rendah, tinggi}
3 Hemat = tinggi Hemat { rendah, sedang}
4 Aset = rendah Aset { sedang, tinggi}
5 Aset = sedang Aset { rendah, tinggi}
6 Aset = tinggi Aset { rendah, sedang}
7 Penghasilan $ 25.000 Penghasilan > $25.000
8 Penghasilan $50,000 Penghasilan > $50,000
9 Penghasilan $75.000 Penghasilan > $75.000

mengatur. Atau, analis dapat memilih untuk mengkategorikan variabel kontinu menjadi:
jumlah kelas yang lebih sedikit.
Untuk setiap pemisahan kandidat, mari kita periksa nilai dari berbagai komponen
ukuran optimalitas (s|t) pada Tabel 6.4. Dengan menggunakan nilai-nilai yang diamati ini, kita dapat:
menyelidiki perilaku ukuran optimalitas dalam berbagai kondisi. Misalnya, kapan (s|t) besar? Kita
melihat bahwa (s|t) besar ketika kedua komponen utamanya besar: 2PL PR dan |P(j|tL ) P(j|tR)|.
# kelas
j=1

TABEL 6.4 Nilai Komponen Ukuran Optimalitas (s|t ) untuk


Setiap Kandidat Split, untuk Root Node

Membelah PL PR P(j|tL ) P(j|tR) 2PL PR T(s|t) (s|t)

1 0,375 0,625 G: .333 G: .8 0,46875 0,934 0,4378


B: 0,667 B: .2
2 0,375 0,625 G: 1 G: 0,4 0,46875 1.2 0,5625
B: 0 B: 0,6
3 0,25 0,75 G: 0,5 G: 0,667 0,375 0,334 0,1253
B: 0,5 B: 0,333
4 0,25 0,75 G: 0 G: 0,833 0,375 1.667 0.6248
B: 1 B: 0,167
5 0,5 0,5 G: 0,75 G: 0,5 0,5 0,5 0,25
B: 0,25 B: 0,5
6 0,25 0,75 G: 1 G: 0,5 0,375 1 0,375
B: 0 B: 0,5
7 0,375 0,625 G: 0,333 G: 0,8 0,46875 0,934 0,4378
B: 0,667 B: 0.2
8 0,625 0,375 G: 0,4 G: 1 0,46875 1.2 0,5625
B: 0,6 B: 0
9 0,875 0,125 G: 0,571 G: 1 0.21875 0.858 0.1877
B: 0,429 B: 0
Machine Translated by Google

112 BAB 6 POHON KEPUTUSAN

# kelas
Misal Q(s|t) = |P(j|tL j=1
) P(j|tR)|. Kapan komponen Q(s|t) besar? Q(s|t) besar ketika jarak antara
P(j|tL ) dan P(j|tR) dimaksimalkan di setiap kelas (nilai variabel target). Dengan kata lain, komponen
ini dimaksimalkan ketika proporsi record dalam node anak untuk setiap nilai tertentu dari variabel
target berbeda mungkin. Nilai maksimum karena itu akan terjadi ketika untuk setiap kelas node anak
benar-benar seragam (murni).

Nilai maksimum teoritis untuk Q(s|t) adalah k, di mana k adalah jumlah kelas untuk variabel target.
Karena risiko kredit variabel keluaran kami mengambil dua nilai, baik dan buruk, k = 2 adalah
maksimum untuk komponen ini.
Komponen 2PLPR dimaksimalkan ketika PL dan PR besar, yang terjadi ketika proporsi record
di node anak kiri dan kanan sama.
Oleh karena itu, (s|t) akan cenderung menyukai pemisahan seimbang yang mempartisi data menjadi
node anak yang berisi jumlah record yang kira-kira sama. Oleh karena itu, ukuran optimalitas (s|t)
lebih menyukai pemisahan yang akan memberikan simpul anak yang homogen untuk semua kelas
dan memiliki jumlah record yang kira-kira sama. Maksimum teoritis untuk 2PLPR adalah 2(0,5)(0,5) =
0,5.
Dalam contoh ini, hanya kandidat split 5 yang memiliki nilai pengamatan untuk 2PLPR yang
mencapai maksimum teoritis untuk statistik ini, 0,5, karena record dipartisi secara merata menjadi
dua kelompok yang terdiri dari empat. Maksimum teoritis untuk Q(s|t) diperoleh hanya ketika setiap
simpul anak yang dihasilkan adalah murni, dan dengan demikian tidak tercapai untuk kumpulan data ini.
Oleh karena itu, nilai pengamatan maksimum untuk (s|t) di antara kandidat split dicapai dengan
split 4, dengan (s|t) = 0,6248. Oleh karena itu, CART memilih untuk membuat partisi awal dari
kumpulan data menggunakan kandidat split 4, aset = rendah versus aset {sedang, tinggi}, seperti
yang ditunjukkan pada Gambar 6.2.
Node anak kiri ternyata menjadi simpul daun terminal, karena kedua catatan yang diteruskan
ke simpul ini memiliki risiko kredit buruk . Node anak yang tepat, bagaimanapun, beragam dan
membutuhkan partisi lebih lanjut. Kami kembali menyusun tabel kandidat

Node Root (Semua Catatan)


Aset = Rendah vs.
Aset {Sedang, Tinggi}

Aset = Rendah Aset {Sedang, Tinggi}

Risiko Buruk
Simpul Keputusan A
(Catatan 2, 7)
(Catatan 1, 3, 4, 5, 6, 8)

Gambar 6.2 Pohon keputusan CART setelah pemisahan awal.


Machine Translated by Google

POHON KLASIFIKASI DAN REGRESI 113

TABEL 6.5 Nilai Komponen Ukuran Optimalitas (s|t ) untuk


Setiap Kandidat Split, untuk Node Keputusan A

Membelah PL PR P(j|tL ) P(j|tR) 2PL PR T(s|t) (s|t)

1 0,167 0,833 G: 1 G: .8 0,2782 0.4 0.1112


B: 0 B: .2
2 0,5 0,5 G: 1 G: 0,667 0,5 0,6666 0,3333
B: 0 B: 0,333
3 0,333 0,667 G: 0,5 G: 1 0,4444 1 0,4444
B: 0,5 B: 0
5 0,667 0,333 G: 0,75 G: 1 0,4444 0,5 0.2222
B: 0,25 B: 0
6 0,333 0,667 G: 1 G: 0,75 0,4444 0,5 0.2222
B: 0 B: 0,25
7 0,333 0,667 G: 0,5 G: 1 0,4444 1 0,4444
B: 0,5 B: 0
8 0,5 0,5 G: 0,667 G: 1 0,5 0,6666 0,3333
B: 0,333 B: 0
9 0,167 0,833 G: 0,8 G: 1 0,2782 0.4 0.1112
B: 0.2 B: 0

split (semua tersedia kecuali split 4), bersama dengan nilai untuk ukuran optimalitas
(Tabel 6.5). Di sini dua kandidat split (3 dan 7) berbagi nilai tertinggi untuk (s|t),
0,4444. Kami secara sewenang-wenang memilih split pertama yang ditemui, split 3, tabungan = tinggi versus
penghematan {rendah, sedang}, untuk simpul keputusan A, dengan pohon yang dihasilkan ditunjukkan pada
Gambar 6.3.

Gambar 6.3 Pohon keputusan CART setelah simpul keputusan A dipecah.


Machine Translated by Google

114 BAB 6 POHON KEPUTUSAN

Gambar 6.4 Pohon keputusan CART, bentuk dewasa.

Karena simpul keputusan B beragam, sekali lagi kita perlu mencari pemisahan yang optimal. Hanya
dua catatan yang tersisa di simpul keputusan ini, masing-masing dengan nilai tabungan (tinggi) dan
pendapatan yang sama (25). Oleh karena itu, satu-satunya pemisahan yang mungkin adalah aset = tinggi
versus aset = sedang, memberikan kita bentuk akhir dari pohon keputusan CART untuk contoh ini, pada
Gambar 6.4. Bandingkan Gambar 6.4 dengan Gambar 6.5, pohon keputusan yang dihasilkan oleh algoritma
CART Clementine .
Mari kita kesampingkan contoh ini sekarang, dan pertimbangkan bagaimana CART akan beroperasi
pada kumpulan data arbitrer. Secara umum, CART akan secara rekursif melanjutkan untuk mengunjungi
setiap simpul keputusan yang tersisa dan menerapkan prosedur di atas untuk menemukan pemisahan
optimal pada setiap simpul. Akhirnya, tidak ada simpul keputusan yang tersisa, dan "pohon penuh" telah tumbuh.
Namun, seperti yang telah kita lihat pada Tabel 6.1, tidak semua simpul daun harus homogen, yang
mengarah pada tingkat kesalahan klasifikasi tertentu.
Misalnya, karena kita tidak dapat lagi mempartisi record pada Tabel 6.1, kita mengklasifikasikan
record yang terdapat dalam leaf node ini sebagai risiko kredit macet. Maka probabilitas bahwa catatan yang
dipilih secara acak dari simpul daun ini akan diklasifikasikan dengan benar adalah 0,6, karena tiga dari lima
catatan (60%) sebenarnya diklasifikasikan sebagai risiko kredit macet. Oleh karena itu, tingkat kesalahan
klasifikasi kami untuk daun tertentu ini akan menjadi 0,4 atau 40%, karena dua dari lima catatan sebenarnya
diklasifikasikan sebagai risiko kredit yang baik. CART kemudian akan menghitung tingkat kesalahan untuk
seluruh pohon keputusan menjadi rata-rata tertimbang dari tingkat kesalahan daun individu, dengan bobot
sama dengan proporsi catatan di setiap daun.

Untuk menghindari menghafal set pelatihan, algoritma CART perlu mulai memangkas node dan
cabang yang jika tidak akan mengurangi generalisasi hasil klasifikasi. Meskipun pohon yang tumbuh
sepenuhnya memiliki tingkat kesalahan terendah pada set pelatihan, model yang dihasilkan mungkin terlalu
rumit, sehingga terjadi overfitting. Sebagai masing-masing
Machine Translated by Google

POHON KLASIFIKASI DAN REGRESI 115

Gambar 6.5 Pohon keputusan CART Clementine.

node keputusan tumbuh, bagian dari catatan yang tersedia untuk analisis menjadi lebih kecil dan
kurang mewakili populasi secara keseluruhan. Memangkas pohon akan meningkatkan generalisasi
hasil. Bagaimana algoritma CART melakukan pemangkasan pohon dijelaskan dalam Breiman et
al. [1, hal. 66]. Pada dasarnya, tingkat kesalahan keseluruhan yang disesuaikan ditemukan yang
menghukum pohon keputusan karena memiliki terlalu banyak simpul daun dan dengan demikian
terlalu banyak kompleksitas.
Machine Translated by Google

116 BAB 6 POHON KEPUTUSAN

ALGORITMA C4.5

Algoritma C4.5 adalah perpanjangan Quinlan dari algoritma ID3-nya sendiri untuk menghasilkan
pohon keputusan [3]. Sama seperti CART, algoritma C4.5 secara rekursif mengunjungi setiap
simpul keputusan, memilih pemisahan yang optimal, sampai tidak ada pemisahan lebih lanjut yang
mungkin. Namun, ada perbedaan menarik antara CART dan C4.5:

Tidak seperti CART, algoritma C4.5 tidak terbatas pada pemisahan biner. Sedangkan CART
selalu menghasilkan pohon biner, C4.5 menghasilkan pohon dengan bentuk yang lebih
bervariasi.
Untuk atribut kategorikal, C4.5 secara default menghasilkan cabang terpisah untuk setiap nilai
atribut kategorikal. Ini dapat menghasilkan lebih banyak "keramaian" daripada yang diinginkan,
karena beberapa nilai mungkin memiliki frekuensi rendah atau mungkin secara alami
diasosiasikan dengan nilai lain.

Metode C4.5 untuk mengukur homogenitas node sangat berbeda dari metode CART dan
diperiksa secara rinci di bawah ini.

Algoritma C4.5 menggunakan konsep information gain atau entropy reduction untuk memilih
split yang optimal. Misalkan kita memiliki variabel X yang k nilai yang mungkin memiliki probabilitas
p1, p2,..., pk . Berapa jumlah bit terkecil, rata-rata per simbol, yang diperlukan untuk mengirimkan
aliran simbol yang mewakili nilai X yang diamati? Jawabannya disebut entropi X dan didefinisikan
sebagai

H(X) = pj log2(pj)
j

Dari mana rumus entropi ini berasal? Untuk kejadian dengan probabilitas p, jumlah rata-
rata informasi dalam bit yang diperlukan untuk mengirimkan hasilnya adalah log2(p). Misalnya,
hasil lemparan koin yang adil, dengan probabilitas 0,5, dapat ditransmisikan menggunakan
log2(0,5) = 1 bit, yang merupakan nol atau 1, tergantung pada hasil lemparan. Untuk variabel
dengan beberapa hasil, kami hanya menggunakan jumlah tertimbang dari log2(pj), dengan bobot
sama dengan probabilitas hasil, menghasilkan rumus

H(X) = pj log2(pj)
j

C4.5 menggunakan konsep entropi sebagai berikut. Misalkan kita memiliki kandidat split S,
yang mempartisi kumpulan data pelatihan T menjadi beberapa himpunan bagian, T1, T2,..., Tk .
Kebutuhan informasi rata-rata kemudian dapat dihitung sebagai jumlah tertimbang dari entropi
untuk himpunan bagian individu, sebagai berikut:
k
HS(T ) = Pi HS(Ti) (6.2)
saya = 1

dimana Pi merepresentasikan proporsi record pada subset i. Kami kemudian dapat mendefinisikan
perolehan informasi kami menjadi gain(S) = H(T ) HS(T ), yaitu, peningkatan informasi yang
dihasilkan dengan mempartisi data pelatihan T menurut kandidat split S ini. Pada setiap simpul
keputusan, C4.5 memilih pemisahan optimal untuk menjadi pemisahan yang memiliki gain informasi
terbesar, gain(S).
Machine Translated by Google

ALGORITMA C4.5 117

TABEL 6.6 Pemisahan Kandidat pada Root Node untuk Algoritma C4.5

Pembagian Kandidat Node Anak

1 Hemat = rendah Tabungan = sedang Hemat = tinggi


2 Aset = rendah Aset = sedang Aset = tinggi
3 Penghasilan $ 25.000 Penghasilan > $25.000
4 Penghasilan $50,000 Penghasilan > $50,000
5 Penghasilan $75.000 Penghasilan > $75.000

5 5 3 3
pj log2(pj) = 8 8 8 8
j

2 3 3
8 , Bajak =

1 1 1
2 2 2 2

3 0 0
3 3 3 3

1 1 2 2
3 3 3
2
3 (1) + 8
3 3
8 8
Machine Translated by Google

2 4 2

3 3 1 1
4 4 4 4

2 4 2
8 8 8

3 5
8 , Pendapatan > $25.000

1 1 2 2
3 3 3 3

4 1 1
5 5 5 5
3 5
8 8

5 2 2 3 3
8 5 5 5
53 3 0 0
+3 8 3 3 3 3
Machine Translated by Google

ALGORITMA C4.5 119

7 4 4 3 3 1 1 1 0 0
Hpenghasilan $75.000(T ) = 8 7 7 7 7 8 1 1 1 1

TABEL 6.7 Perolehan Informasi untuk Setiap Pemisahan Kandidat di Root Node

Perolehan Informasi

Pembagian Kandidat Node Anak (Pengurangan Entropi)

1 Hemat = rendah 0,36 bit

Tabungan = sedang
Hemat = tinggi

2 Aset = rendah 0,5487 bit


Aset = sedang

Aset = tinggi

3 Penghasilan $ 25.000 0,1588 bit

Penghasilan > $25.000

4 Penghasilan $50,000 0,3475 bit

Penghasilan > $50,000

5 Penghasilan $75.000 0,0923 bit

Penghasilan > $75.000


Machine Translated by Google

Node Root (Semua Catatan)


Aset = Rendah vs.
Aset = Sedang vs.
Aset = Tinggi

Aset = Tinggi
Aset = Rendah Aset = Med

Risiko Kredit Buruk Simpul Keputusan A Risiko Kredit Bagus


(Catatan 2, 7) (Catatan 3, 4, 5, 8) (Catatan 1, 6)

Gambar 6.6 C4.5 sependapat dengan CART dalam memilih aset untuk partisi awal.

3 3 1 1
4 4 4 4
j

TABEL 6.8 Catatan yang Tersedia di Node Keputusan A untuk Mengklasifikasikan Risiko Kredit

Penghasilan

Pelanggan Tabungan Aktiva ($1000) Resiko kredit

3 Tinggi Sedang 25 Buruk

4 Sedang Sedang 50 Bagus

5 Rendah Sedang 100 Bagus

8 Sedang Sedang 75 Bagus


Machine Translated by Google

ATURAN KEPUTUSAN 121

TABEL 6.9 Perpecahan Kandidat pada Node Keputusan A

Pembagian Kandidat Node Anak

1 Hemat = rendah Tabungan = sedang Hemat = tinggi


3 Penghasilan $ 25.000 Penghasilan > $25.000
4 Penghasilan $50,000 Penghasilan > $50,000
5 Penghasilan $75.000 Penghasilan > $75.000

variabel penting (root split) dan penghematan itu juga penting. Akhirnya, sekali
pohon keputusan tumbuh sepenuhnya, C4.5 terlibat dalam postpruning pesimis. Tertarik
pembaca dapat berkonsultasi dengan Kantardzic [4, hal. 153].

ATURAN KEPUTUSAN

Salah satu aspek yang paling menarik dari pohon keputusan terletak pada kemampuan interpretasinya,
khususnya yang berkaitan dengan konstruksi aturan keputusan. Aturan keputusan dapat berupa
dibangun dari pohon keputusan hanya dengan melintasi jalur yang diberikan dari root
simpul ke daun apa pun. Himpunan lengkap aturan keputusan yang dihasilkan oleh pohon keputusan adalah
setara (untuk tujuan klasifikasi) dengan pohon keputusan itu sendiri. Misalnya dari
pohon keputusan pada Gambar 6.7, kita dapat membangun aturan keputusan yang diberikan pada Tabel 6.10.
Aturan keputusan datang dalam bentuk jika anteseden, maka konsekuen, seperti yang ditunjukkan pada
Tabel 6.10. Untuk aturan keputusan, anteseden terdiri dari nilai atribut dari
cabang-cabang yang diambil oleh jalan tertentu melalui pohon, sedangkan konsekuennya terdiri dari
dari nilai klasifikasi untuk variabel target yang diberikan oleh simpul daun tertentu.

Gambar 6.7 C4.5 Pohon keputusan: bentuk dewasa.


Machine Translated by Google

122 BAB 6 POHON KEPUTUSAN

TABEL 6.10 Aturan Keputusan yang Dihasilkan dari Pohon Keputusan pada Gambar 6.7

Mendahului Akibat Mendukung Kepercayaan diri

2
Jika aset = rendah maka risiko kredit buruk. 1.00
8
2
Jika aset = tinggi maka risiko kredit yang baik. 1.00
8
1
Jika aset = sedang dan tabungan = rendah maka risiko kredit yang baik. 1.00
8
2
Jika aset = sedang dan tabungan = sedang maka risiko kredit bagus. 1.00
8
1
Jika aset = sedang dan tabungan = tinggi maka risiko kredit buruk. 1.00
8

Dukungan aturan keputusan mengacu pada proporsi catatan dalam data


atur sisa itu di simpul daun terminal tertentu. Keyakinan aturan mengacu pada
proporsi catatan dalam simpul daun yang aturan keputusannya benar. Di dalam
contoh kecil, semua simpul daun kami murni, menghasilkan tingkat kepercayaan yang sempurna dari
100% = 1,00. Dalam contoh dunia nyata, seperti di bagian selanjutnya, seseorang tidak dapat mengharapkan
tingkat kepercayaan yang begitu tinggi.

PERBANDINGAN ALGORITMA C5.0 DAN CART


DITERAPKAN PADA DATA NYATA

Selanjutnya, kami menerapkan analisis pohon keputusan menggunakan Clementine pada kumpulan data dunia nyata.
Kumpulan data dewasa disarikan dari data sensus AS oleh Kohavi [5] dan tersedia
online dari University of California di Irvine Machine Learning Repository [6].
Disini kami tertarik untuk mengklasifikasikan pendapatan seseorang kurang dari
$50.000, berdasarkan kumpulan bidang prediksi berikut.
Variabel numerik

Usia
tahun-tahun pendidikan

Keuntungan modal

Kerugian modal

Jam kerja per minggu

Variabel kategori
Balapan

Jenis kelamin

Kelas kerja

Status pernikahan

Variabel numerik dinormalisasi sehingga semua nilai berkisar antara nol


dan 1. Beberapa runtuhnya kelas frekuensi rendah dilakukan di kelas kerja
dan kategori status perkawinan . Clementine digunakan untuk membandingkan algoritma C5.0
(pembaruan algoritma C4.5) dengan CART, memeriksa set pelatihan 24.986
catatan. Pohon keputusan yang dihasilkan oleh algoritma CART ditunjukkan pada Gambar 6.8.
Machine Translated by Google

PERBANDINGAN ALGORITMA C5.0 DAN CART YANG DITERAPKAN PADA DATA NYATA 123

Gambar 6.8 Pohon keputusan CART untuk kumpulan data dewasa.

Di sini, struktur pohon ditampilkan secara horizontal, dengan simpul akar di sebelah kiri
dan simpul daun di sebelah kanan. Untuk algoritma CART, pemisahan simpul akar berada pada
status perkawinan, dengan pemisahan biner memisahkan orang yang sudah menikah dari yang
lainnya (Status Perkawinan dalam ["Bercerai" "Tidak pernah menikah" "Berpisah" "Janda"]).
Artinya, pemisahan khusus pada status perkawinan ini memaksimalkan kriteria pemilihan
pemisahan CART [persamaan (6.1)]:
# kelas
(s|t) = 2PL PR P(j|tL ) P(j|tR)
j=1

Perhatikan bahwa klasifikasi mode untuk setiap cabang adalah 50.000. Cabang yang sudah
menikah mengarah ke simpul keputusan, dengan beberapa pemisahan lebih lanjut di hilir. Namun,
cabang yang tidak menikah adalah simpul daun, dengan klasifikasi 50.000 untuk 13.205 catatan
tersebut, dengan kepercayaan 93,6%. Dengan kata lain, dari 13.205 orang dalam kumpulan data
yang saat ini belum menikah, 93,6% dari mereka memiliki pendapatan di bawah $50.000.
Pemisahan simpul akar dianggap menunjukkan variabel tunggal yang paling penting
untuk mengklasifikasikan pendapatan. Perhatikan bahwa pemisahan pada atribut Status
Perkawinan adalah biner, seperti halnya semua pemisahan CART pada variabel kategoris.
Semua pemisahan lainnya dalam pohon keputusan CART penuh yang ditunjukkan pada Gambar
6.8 berada pada variabel numerik. Node keputusan berikutnya adalah pendidikan-num, mewakili
jumlah tahun pendidikan yang dinormalisasi. Pemisahan terjadi pada nomor pendidikan <0.8333
(modus 50.000) versus nomor pendidikan >0.8333 (modus >50.000). Namun, berapa jumlah
tahun pendidikan sebenarnya yang diwakili oleh nilai normal 0,8333? Normalisasi, yang
dilakukan secara otomatis menggunakan Insightful Miner, berbentuk
X X
Xÿ = =
jangkauan(X) maks(X) mnt(X)

varian dari normalisasi min-max. Oleh karena itu, denormalisasi diperlukan untuk mengidentifikasi
nilai bidang asli. Tahun pendidikan berkisar antara 16 (maksimum) hingga 1 (minimum), untuk kisaran
15. Oleh karena itu, denormalisasi, kita memiliki X = kisaran(X) · Xÿ = 15(0,8333) = 12,5. Dengan
demikian, perpecahan terjadi tepat pada pendidikan 12,5 tahun. Mereka yang memiliki setidaknya
beberapa pendidikan perguruan tinggi cenderung memiliki pendapatan lebih tinggi daripada mereka yang tidak.
Machine Translated by Google

124 BAB 6 POHON KEPUTUSAN

Menariknya, untuk kedua kelompok pendidikan, capital gain dan capital loss mewakili dua
simpul keputusan terpenting berikutnya. Terakhir, untuk kelompok pendidikan rendah, pembagian
terakhir adalah lagi pada jumlah pendidikan, sedangkan untuk kelompok pendidikan tinggi, pemisahan
terakhir adalah pada jam per minggu.
Sekarang, akankah kriteria pemisahan perolehan informasi dan karakteristik lain dari algoritma
C5.0 mengarah ke pohon keputusan yang secara substansial berbeda dari atau sebagian besar mirip
dengan pohon yang diturunkan menggunakan kriteria pemisahan CART? Bandingkan pohon
keputusan CART di atas dengan pohon keputusan C5.0 Clementine dari data yang sama yang
ditampilkan pada Gambar 6.9.
Perbedaan segera muncul di simpul akar. Di sini, root split berada pada atribut capital-gain ,
dengan split terjadi pada level normalisasi yang relatif rendah yaitu 0,0685. Karena kisaran keuntungan
modal dalam kumpulan data ini adalah $99,999 (maksimum = 99,999, minimum = 0), ini didenormalisasi
sebagaiX = kisaran(X) · Xÿ = 99,999(0,0685) = $6850. Lebih dari setengah dari mereka yang memiliki
capital gain lebih besar dari $6850 memiliki pendapatan di atas $50,000, sedangkan lebih dari
setengah dari mereka yang memiliki capital gain kurang dari $6850 memiliki pendapatan di bawah
$50,000. Ini adalah perpecahan yang dipilih

Gambar 6.9 Pohon keputusan C5.0 untuk kumpulan data dewasa.


Machine Translated by Google

PERBANDINGAN ALGORITMA C5.0 DAN CART YANG DITERAPKAN PADA DATA NYATA 125

dengan kriteria perolehan informasi sebagai pemisahan optimal di antara semua kemungkinan pemisahan di
semua bidang. Namun, perhatikan bahwa ada 23 kali lebih banyak catatan dalam kategori keuntungan modal
rendah daripada dalam kategori keuntungan modal tinggi (23.921 berbanding 1065 catatan).
Untuk catatan dengan capital gain yang lebih rendah, split kedua terjadi pada capital loss, dengan pola
yang mirip dengan split sebelumnya pada capital gain. Kebanyakan orang (23.165 catatan) memiliki kerugian
modal yang rendah, dan sebagian besar memiliki pendapatan di bawah $50.000. Sebagian besar dari sedikit
(756 catatan) yang memiliki kerugian modal lebih tinggi memiliki pendapatan di atas $50.000.
Untuk catatan dengan keuntungan modal rendah dan kerugian modal rendah, pertimbangkan
pembagian berikutnya, yang dibuat pada status perkawinan. Perhatikan bahwa C5.0 menyediakan cabang
terpisah untuk setiap nilai bidang, sedangkan CART dibatasi untuk pemisahan biner. Kelemahan yang mungkin
dari strategi C5.0 untuk memisahkan variabel kategori adalah bahwa hal itu dapat menyebabkan pohon yang
terlalu lebat, dengan banyak simpul daun yang berisi beberapa catatan. Faktanya, pohon keputusan yang
ditampilkan pada Gambar 6.9 hanyalah kutipan dari pohon yang jauh lebih besar yang disediakan oleh perangkat lunak
barang

Untuk menghindari masalah ini, analis dapat mengubah pengaturan algoritme untuk meminta sejumlah
catatan minimum tertentu untuk diteruskan ke simpul keputusan anak. Gambar 6.10 menunjukkan pohon
keputusan C5.0 dari Clementine pada data yang sama, kali ini mengharuskan setiap simpul keputusan memiliki
setidaknya 300 catatan. Secara umum, keputusan bisnis atau penelitian dapat diberikan mengenai jumlah
minimum catatan yang dianggap dapat ditindaklanjuti. Gambar 6.10 mewakili seluruh pohon.

Sekali lagi, keuntungan modal mewakili pemisahan simpul akar, dengan pemisahan terjadi pada nilai
yang sama. Namun kali ini, cabang dengan keuntungan modal tinggi mengarah langsung ke simpul daun,
berisi 1065 catatan, dan memprediksi dengan keyakinan 98,3 bahwa klasifikasi yang tepat untuk orang-orang
ini adalah pendapatan lebih besar dari $50.000. Untuk catatan lainnya,

Gambar 6.10 Pohon keputusan C5.0 dengan jumlah catatan minimum yang diperlukan pada setiap simpul
keputusan.
Machine Translated by Google

126 BAB 6 POHON KEPUTUSAN

pembagian kedua lagi pada nilai yang sama dari atribut yang sama seperti sebelumnya, kerugian modal.
Untuk kerugian modal yang tinggi, ini mengarah langsung ke simpul daun yang berisi 756 catatan yang
memprediksi pendapatan tinggi dengan kepercayaan hanya 70,8%.
Bagi mereka dengan keuntungan modal rendah dan kerugian modal rendah, pembagian ketiga lagi
status perkawinan, dengan cabang terpisah untuk setiap nilai bidang. Perhatikan bahwa untuk semua nilai
bidang status perkawinan kecuali "menikah", cabang-cabang ini mengarah langsung ke simpul anak yang
memprediksi pendapatan paling banyak $50.000 dengan berbagai nilai kepercayaan yang tinggi. Untuk
orang yang sudah menikah, pemisahan lebih lanjut dipertimbangkan.
Meskipun pohon keputusan CART dan C5.0 tidak setuju dalam rinciannya, namun kami dapat
mengumpulkan informasi yang berguna dari bidang kesepakatan yang luas di antara mereka. Misalnya,
variabel yang paling penting jelas status perkawinan, pendidikan, keuntungan modal, kerugian modal, dan
mungkin jam per minggu. Kedua model setuju bahwa bidang ini penting, tetapi tidak setuju dengan urutan
kepentingannya. Lebih banyak analisis pemodelan mungkin diperlukan.

Untuk aplikasi pohon keputusan sup-to-nuts ke kumpulan data dunia nyata, dari data
persiapan melalui pembuatan model dan pembuatan aturan keputusan, lihat Referensi 7.

REFERENSI
1. Leo Breiman, Jerome Friedman, Richard Olshen, dan Charles Stone, Klasifikasi dan
Pohon Regresi, Chapman & Hall/CRC Press, Boca Raton, FL, 1984.
2. Ruby L. Kennedy, Yuchun Lee, Benjamin Van Roy, Christopher D. Reed, dan Richard P.
Lippman, Memecahkan Masalah Data Mining melalui Pengenalan Pola, Pearson Education, Upper Saddle River, NJ,
1995.
3. J. Ross Quinlan, C4.5: Program untuk Pembelajaran Mesin, Morgan Kaufmann, San Francisco,
CA, 1992.
4. Mehmed Kantardzic, Data Mining: Konsep, Model, Metode, dan Algoritma, Wiley
Antarsains, Hoboken, NJ, 2003.
5. Ronny Kohavi, Meningkatkan akurasi pengklasifikasi naif Bayes: Hibrida pohon keputusan, Prosiding Konferensi
Internasional ke-2 tentang Penemuan Pengetahuan dan Penambangan Data, Portland, OR, 1996.

6. CL Blake dan CJ Merz, UCI Repository of Machine Learning Databases, http://www.ics.uci.edu/ÿmlearn/MLRepository.html,


University of California, Department of Information and Computer Science, Irvine, CA, 1998.

7. Daniel Larose, Metode dan Model Penambangan Data, Wiley-Interscience, Hoboken, NJ (untuk
muncul 2005).

LATIHAN
1. Jelaskan kemungkinan situasi ketika tidak ada pemisahan lebih lanjut yang dapat dilakukan pada simpul keputusan.

2. Misalkan variabel target kita adalah numerik kontinu. Bisakah kita menerapkan pohon keputusan secara langsung?
untuk mengklasifikasikannya? Bagaimana kita bisa mengatasi ini?

3. Benar atau salah: Pohon keputusan berusaha membentuk simpul daun untuk memaksimalkan heterogenitas di masing-masing
simpul.

4. Diskusikan keuntungan dan kerugian dari pohon biner versus pohon yang lebih lebat.
Machine Translated by Google

LATIHAN 127

TABEL E6.4 Data Pohon Keputusan

Pekerjaan Jenis kelamin Usia Gaji

Melayani Perempuan 45 $48,000


Pria 25 $25.000
Pria 33 $35.000
Pengelolaan Pria 25 $45.000
Perempuan 35 $65.000
Pria 26 $45.000
Perempuan 45 $70.000
Penjualan Perempuan 40 $50,000
Pria 30 $40,000
Staf Perempuan 50 $40,000
Pria 25 $25.000

Perhatikan data pada Tabel E6.4. Variabel target adalah gaji. Mulailah dengan mendiskritisasi gaji
sebagai berikut:

Kurang dari $35.000 Tingkat 1

$35.000 hingga kurang dari $45.000 Level 2

$45.000 hingga kurang dari $55.000 Tingkat 3

Di atas $55.000 Tingkat 4

5. Buatlah pohon klasifikasi dan regresi untuk mengklasifikasikan gaji berdasarkan variabel lainnya.
Lakukan sebanyak yang Anda bisa dengan tangan, sebelum beralih ke perangkat lunak.

6. Buatlah pohon keputusan C4.5 untuk mengklasifikasikan gaji berdasarkan variabel lainnya. Lakukan sebanyak mungkin
yang Anda bisa dengan tangan, sebelum beralih ke perangkat lunak.

7. Bandingkan dua pohon keputusan dan diskusikan keuntungan dan kerugiannya masing-masing.

8. Menghasilkan set lengkap aturan keputusan untuk pohon keputusan CART.

9. Buat set lengkap aturan keputusan untuk pohon keputusan C4.5.

10. Bandingkan dua set aturan keputusan dan diskusikan keuntungan dan kerugian masing-masing.

Analisis Langsung
Untuk latihan berikut, gunakan kumpulan data churn yang tersedia di seri buku Web
lokasi. Menormalkan data numerik dan menangani variabel yang berkorelasi.

11. Buat pohon keputusan CART.

12. Buat pohon keputusan tipe C4.5.

13. Bandingkan dua pohon keputusan dan diskusikan keuntungan dan kerugian masing-masing.

14. Menghasilkan set lengkap aturan keputusan untuk pohon keputusan CART.

15. Menghasilkan set lengkap aturan keputusan untuk pohon keputusan C4.5.

16. Bandingkan dua set aturan keputusan dan diskusikan keuntungan dan kerugian masing-masing.
Machine Translated by Google

BAB 7
JARINGAN SARAF

ENCODING INPUT DAN OUTPUT

JARINGAN SARAF UNTUK ESTIMASI DAN PREDIKSI

CONTOH SEDERHANA JARINGAN SARAF

FUNGSI AKTIVASI SIGMOID

PROPAGASI KEMBALI

METODE TURUN GRADIEN

ATURAN PROPAGASI KEMBALI

CONTOH PROPAGASI KEMBALI

KRITERIA PENGHENTIAN

TINGKAT BELAJAR

JANGKA MOMENTUM

ANALISIS SENSITIFITAS

APLIKASI PEMODELAN JARINGAN SARAF

Inspirasi untuk jaringan saraf adalah pengakuan bahwa sistem pembelajaran yang kompleks di otak
hewan terdiri dari set neuron yang saling berhubungan erat. Meskipun neuron tertentu mungkin relatif
sederhana dalam struktur, jaringan padat neuron yang saling berhubungan dapat melakukan tugas
belajar yang kompleks seperti klasifikasi dan pengenalan pola. Otak manusia, misalnya, mengandung
kira-kira 1011 neuron, masing-masing terhubung rata-rata ke 10.000 neuron lain, membuat total
1.000.000.000.000.000 = 1015 koneksi sinaptik. Jaringan saraf tiruan (selanjutnya disebut jaringan
saraf) merupakan upaya pada tingkat yang sangat dasar untuk meniru jenis pembelajaran nonlinier
yang terjadi di jaringan neuron yang ditemukan di alam.

Seperti yang ditunjukkan pada Gambar 7.1, neuron nyata menggunakan dendrit untuk
mengumpulkan input dari neuron lain dan menggabungkan informasi input, menghasilkan respons
nonlinier (“menembak”) ketika beberapa ambang tercapai, yang dikirim ke neuron lain menggunakan
akson. Gambar 7.1 juga menunjukkan model neuron buatan yang digunakan di sebagian besar jaringan saraf.

Discovering Knowledge in Data: An Introduction to Data Mining, Oleh Daniel T.


Larose ISBN 0-471-66657-2 Hak Cipta C 2005 John Wiley & Sons, Inc.

128
Machine Translated by Google

ENCODING INPUT DAN OUTPUT 129

Dendrit

Badan Sel akson

x1
x2
ÿ
kamu

xn

Gambar 7.1 Model neuron nyata dan neuron buatan. (Sketsa neuron milik Chantal
Larose.)

Input (xi) dikumpulkan dari neuron upstream (atau kumpulan data) dan digabungkan melalui
fungsi kombinasi seperti penjumlahan ( ), yang kemudian dimasukkan ke dalam fungsi aktivasi
(biasanya nonlinier) untuk menghasilkan respons output (y), yang kemudian disalurkan ke hilir ke
neuron lain.
Jenis masalah apa yang sesuai untuk jaringan saraf? Salah satu keuntungan
menggunakan jaringan saraf adalah bahwa mereka cukup kuat sehubungan dengan data yang bising.
Karena jaringan berisi banyak node (neuron buatan), dengan bobot yang ditetapkan untuk setiap
koneksi, jaringan dapat belajar untuk mengatasi contoh yang tidak informatif (atau bahkan salah)
ini dalam kumpulan data. Namun, tidak seperti pohon keputusan, yang menghasilkan aturan
intuitif yang dapat dimengerti oleh nonspesialis, jaringan saraf relatif buram untuk interpretasi
manusia, seperti yang akan kita lihat. Selain itu, jaringan saraf biasanya memerlukan waktu
pelatihan yang lebih lama daripada pohon keputusan, sering kali diperpanjang hingga beberapa jam.

ENCODING INPUT DAN OUTPUT

Salah satu kelemahan yang mungkin dari jaringan saraf adalah bahwa semua nilai atribut harus
dikodekan dengan cara standar, mengambil nilai antara nol dan 1, bahkan untuk variabel kategori.
Kemudian, ketika kita memeriksa detail dari algoritma back-propagation, kita akan mengerti
mengapa ini diperlukan. Namun, untuk saat ini, bagaimana cara menstandardisasi semua nilai
atribut?
Untuk variabel kontinu, ini bukan masalah, seperti yang telah kita bahas di Bab 2.
Kami hanya dapat menerapkan normalisasi min-max:

X menit(X) X mnt(X)
Xÿ = =
jangkauan(X) maks(X) mnt(X)

Ini bekerja dengan baik selama nilai minimum dan maksimum diketahui dan semua data baru
yang potensial dibatasi di antara keduanya. Jaringan saraf agak kuat
Machine Translated by Google

130 BAB 7 JARINGAN SARAF

pelanggaran kecil terhadap batas-batas ini. Jika pelanggaran yang lebih serius diharapkan, solusi ad hoc
tertentu dapat diadopsi, seperti menolak nilai yang berada di luar batas, atau menetapkan nilai tersebut
ke nilai minimum atau maksimum.
Variabel kategori lebih bermasalah, seperti yang diharapkan. Jika jumlah kategori yang mungkin
tidak terlalu besar, dapat digunakan variabel indikator (bendera) . Misalnya, banyak kumpulan data berisi
atribut gender, berisi nilai female, male, dan unknown. Karena jaringan saraf tidak dapat menangani nilai
atribut ini dalam bentuknya yang sekarang, kami dapat, sebagai gantinya, membuat variabel indikator
untuk wanita dan pria. Setiap record akan berisi nilai untuk masing-masing dari dua variabel indikator ini.
Catatan untuk wanita akan memiliki nilai 1 untuk wanita dan 0 untuk pria, sedangkan catatan untuk pria
akan memiliki nilai 0 untuk wanita dan 1 untuk pria. Catatan untuk orang dengan jenis kelamin yang tidak
diketahui akan memiliki nilai 0 untuk wanita dan 0 untuk pria. Secara umum, variabel kategoris dengan
kelas k dapat diterjemahkan ke dalam variabel indikator k 1, selama definisi indikator didefinisikan dengan
jelas.

Berhati-hatilah terhadap pengodean ulang variabel kategoris yang tidak berurutan menjadi variabel
tunggal dengan rentang antara nol dan 1. Misalnya, anggaplah kumpulan data berisi informasi tentang
atribut status perkawinan . Misalkan kita mengkodekan nilai atribut bercerai, menikah, berpisah, lajang,
janda, dan tidak dikenal, masing-masing sebagai 0,0, 0,2, 0,4, 0,6, 0,8, dan 1,0. Kemudian pengkodean
ini menyiratkan, misalnya, bahwa bercerai itu “lebih dekat” dengan menikah daripada berpisah, dan
seterusnya. Jaringan saraf hanya akan menyadari nilai numerik di bidang status perkawinan , bukan
makna yang telah dikodekan sebelumnya, dan dengan demikian akan menjadi naif tentang makna
sebenarnya. Temuan palsu dan tidak berarti dapat terjadi.

Sehubungan dengan keluaran, kita akan melihat bahwa simpul keluaran jaringan saraf selalu
mengembalikan nilai kontinu antara nol dan 1 sebagai keluaran. Bagaimana kita bisa menggunakan
output terus menerus seperti itu untuk klasifikasi?
Banyak masalah klasifikasi memiliki hasil dikotomis, keputusan naik atau turun, dengan hanya
dua kemungkinan hasil. Misalnya, "Apakah pelanggan ini akan meninggalkan layanan perusahaan kami?"
Untuk masalah klasifikasi dikotomis, satu opsi adalah menggunakan simpul keluaran tunggal (seperti
pada Gambar 7.2), dengan nilai ambang batas yang ditetapkan apriori yang akan memisahkan kelas,
seperti "tinggalkan" atau "tetap". Misalnya, dengan ambang batas "tinggalkan jika keluaran 0,67", keluaran
0,72 dari simpul keluaran akan mengklasifikasikan catatan itu sebagai kemungkinan untuk meninggalkan
layanan perusahaan.
Node keluaran tunggal juga dapat digunakan ketika kelas-kelas diurutkan dengan jelas. Misalnya,
kita ingin mengklasifikasikan kecakapan membaca sekolah dasar berdasarkan sekumpulan atribut siswa
tertentu. Kemudian kita mungkin dapat menentukan ambang batas sebagai berikut:

Jika 0 out put < 0,25, klasifikasikan tingkat membaca kelas satu.

Jika 0,25 out put < 0,50, klasifikasikan tingkat membaca kelas dua.

Jika 0,50 out put < 0,75, klasifikasikan tingkat membaca kelas tiga.

Jika out put > 0,75, klasifikasikan tingkat membaca kelas empat.

Penyesuaian ambang batas mungkin diperlukan, disesuaikan dengan pengalaman dan penilaian pakar
domain.
Machine Translated by Google

CONTOH SEDERHANA JARINGAN SARAF 131

Namun, tidak semua masalah klasifikasi dapat diselesaikan dengan menggunakan node
keluaran tunggal saja. Misalnya, anggaplah kita memiliki beberapa kategori tidak berurutan dalam
variabel target kita, seperti, misalnya, dengan variabel status perkawinan di atas. Dalam hal ini
kita akan memilih untuk mengadopsi pengkodean keluaran 1-of-n, di mana satu simpul keluaran
digunakan untuk setiap kategori yang mungkin dari variabel target. Misalnya, jika status perkawinan
adalah variabel target kami, jaringan akan memiliki enam simpul keluaran di lapisan keluaran,
satu untuk masing-masing dari enam kelas bercerai, menikah, berpisah, lajang, janda, dan tidak dikenal.
Node keluaran dengan nilai tertinggi kemudian dipilih sebagai klasifikasi untuk record tertentu.

Salah satu manfaat menggunakan pengkodean output 1-of-n adalah memberikan ukuran
kepercayaan dalam klasifikasi, dalam bentuk perbedaan antara node output nilai tertinggi dan
node output nilai tertinggi kedua. Klasifikasi dengan keyakinan rendah (perbedaan kecil dalam
nilai keluaran simpul) dapat ditandai untuk klarifikasi lebih lanjut.

JARINGAN SARAF UNTUK ESTIMASI DAN PREDIKSI

Jelasnya, karena jaringan saraf menghasilkan keluaran yang berkesinambungan, mereka mungkin
secara alami digunakan untuk estimasi dan prediksi. Misalkan, misalnya, kita tertarik untuk
memprediksi harga saham tertentu tiga bulan ke depan. Agaknya, kami akan mengkodekan
informasi harga menggunakan normalisasi min-max di atas.
Namun, jaringan saraf akan menghasilkan nilai antara nol dan 1, yang (diharapkan) tidak mewakili
harga saham yang diprediksi.
Sebaliknya, normalisasi min-max perlu dibalik, sehingga output jaringan saraf dapat
dipahami pada skala harga saham. Secara umum denormalisasi ini adalah sebagai berikut:

prediksi = keluaran (rentang data) + minimum

di mana output mewakili output jaringan saraf dalam rentang (0,1), rentang data mewakili rentang
nilai atribut asli pada skala yang tidak dinormalisasi, dan minimum mewakili nilai atribut terkecil
pada skala yang tidak dinormalisasi. Misalnya, harga saham berkisar dari $20 hingga $30 dan
output jaringan adalah 0,69. Maka prediksi harga saham dalam tiga bulan adalah

prediksi = keluaran(rentang data) + minimum = 0.69($10) + $20 = $26.90

CONTOH SEDERHANA JARINGAN SARAF

Mari kita periksa jaringan saraf sederhana yang ditunjukkan pada Gambar 7.2. Jaringan saraf
terdiri dari jaringan neuron atau node buatan yang berlapis, feedforward, dan terhubung
sepenuhnya . Sifat feedforward jaringan membatasi jaringan ke satu arah aliran dan tidak
memungkinkan perulangan atau siklus. Jaringan saraf terdiri dari dua atau lebih lapisan, meskipun
sebagian besar jaringan terdiri dari tiga lapisan: lapisan input,
Machine Translated by Google

132 BAB 7 JARINGAN SARAF

Lapisan Masukan Lapisan Tersembunyi Lapisan Keluaran

Di 1A
W0A
simpul 1
W1B
simpul A
W2A WAZ

simpul 2 W2B Node Z

W3A
simpul B WBZ
W3B W0Z
simpul 3

W0B

Gambar 7.2 Jaringan saraf sederhana.

lapisan tersembunyi, dan lapisan keluaran. Mungkin ada lebih dari satu lapisan tersembunyi, meskipun
sebagian besar jaringan hanya berisi satu, yang cukup untuk sebagian besar tujuan. Itu
jaringan saraf benar- benar terhubung, artinya setiap node dalam lapisan tertentu adalah
terhubung ke setiap node di lapisan berikutnya, meskipun tidak ke node lain di sama
lapisan. Setiap koneksi antar node memiliki bobot (misalnya, W1A) yang terkait dengannya. Pada
inisialisasi, bobot ini secara acak ditetapkan ke nilai antara nol dan 1.
Jumlah node input biasanya tergantung pada jumlah dan jenis atribut
dalam kumpulan data. Jumlah lapisan tersembunyi, dan jumlah simpul di setiap lapisan tersembunyi
lapisan, keduanya dapat dikonfigurasi oleh pengguna. Satu mungkin memiliki lebih dari satu node di
lapisan output, tergantung pada tugas klasifikasi tertentu yang ada.
Berapa banyak node yang harus dimiliki seseorang di lapisan tersembunyi? Karena lebih banyak node di
lapisan tersembunyi meningkatkan kekuatan dan fleksibilitas jaringan untuk mengidentifikasi kompleks
pola, orang mungkin tergoda untuk memiliki sejumlah besar node di lapisan tersembunyi.
Di sisi lain, lapisan tersembunyi yang terlalu besar menyebabkan overfitting, menghafal
set pelatihan dengan mengorbankan generalisasi ke set validasi. Jika terlalu pas
terjadi, seseorang dapat mempertimbangkan untuk mengurangi jumlah node di lapisan tersembunyi;
sebaliknya, jika akurasi pelatihan sangat rendah, seseorang dapat mempertimbangkan untuk meningkatkan
jumlah node pada lapisan tersembunyi.
Lapisan input menerima input dari kumpulan data, seperti nilai atribut, dan
hanya meneruskan nilai-nilai ini ke lapisan tersembunyi tanpa pemrosesan lebih lanjut. Dengan demikian,
node di lapisan input tidak berbagi struktur node rinci yang disembunyikan
node lapisan dan node lapisan output berbagi.
Kami akan menyelidiki struktur node lapisan tersembunyi dan node lapisan keluaran
menggunakan sampel data yang diberikan pada Tabel 7.1. Pertama, fungsi kombinasi (biasanya

TABEL 7.1 Input Data dan Nilai Awal untuk Bobot Neural Network

x0 = 1,0 W0A = 0,5 W0B = 0,7 W0Z = 0,5


x1 = 0,4 W1A = 0,6 W1B = 0,9 WAZ = 0,9
x2 = 0,2 W2A = 0,8 W2B = 0,8 WB Z = 0,9
x3 = 0,7 W3A = 0,6 W3B = 0,4
Machine Translated by Google

CONTOH SEDERHANA JARINGAN SARAF 133

penjumlahan, ) menghasilkan kombinasi linier dari input simpul dan koneksi


bobot menjadi nilai skalar tunggal, yang akan kita sebut bersih. Jadi, untuk simpul j yang diberikan,

bersih = Wi j xi j = W0 j x0 j + W1 j x1 j +···+ WI j xI j
saya

di mana xij mewakili input ke-i ke simpul j, Wij mewakili bobot yang terkait
dengan input ke-i ke node j, dan ada input I + 1 ke node j. Perhatikan bahwa
x1, x2,..., xI mewakili input dari node upstream, sedangkan x0 mewakili konstanta
input, analog dengan faktor konstan dalam model regresi, yang menurut konvensi
secara unik mengambil nilai x0 j = 1. Jadi, setiap lapisan tersembunyi atau lapisan keluaran simpul j
berisi input "ekstra" yang sama dengan bobot tertentu W0 j x0 j = W0 j , seperti W0B untuk
simpul B
Misalnya, untuk simpul A di lapisan tersembunyi, kami memiliki

bersih A = Wi Axi A = W0A(1) + W1Ax1A + W2Ax2A + W3Ax3A


saya

= 0,5 + 0,6(0,4) + 0,8(0,2) + 0,6(0,7) = 1,32

Dalam node A, fungsi kombinasi ini netA = 1,32 kemudian digunakan sebagai input ke
fungsi aktivasi. Dalam neuron biologis, sinyal dikirim antar neuron ketika
kombinasi input ke neuron tertentu melewati ambang tertentu, dan neuron
“kebakaran.” Ini adalah perilaku nonlinier, karena respons penembakan belum tentu linier
berhubungan dengan peningkatan stimulasi input. Jaringan saraf tiruan memodelkan ini
perilaku melalui fungsi aktivasi nonlinier.
Fungsi aktivasi yang paling umum adalah fungsi sigmoid:

1
y=
1+ex

di mana e adalah basis logaritma natural, sama dengan sekitar 2,718281828. Dengan demikian, dalam
node A, aktivasi akan mengambil netA = 1,32 sebagai input ke aktivasi sigmoid
fungsi, dan menghasilkan nilai keluaran y = 1/(1 + eÿ1.32) = 0,7892. Node A
pekerjaan selesai (untuk saat ini), dan nilai keluaran ini kemudian akan diteruskan sepanjang
koneksi ke simpul keluaran Z, di mana ia akan terbentuk (melalui kombinasi linier lain)
komponen netZ .
Tetapi sebelum kita dapat menghitung netZ , kita perlu mencari kontribusi dari simpul B.
Dari nilai-nilai pada Tabel 7.1, kami memiliki

dan B = Wi B xi B = W0B(1) + W1B x1B + W2B x2B + W3B x3B


saya

= 0,7 + 0,9(0,4) + 0,8(0,2) + 0,4(0,7) = 1,5

Kemudian

1
f (netB) = 1 = 0,8176
+ eÿ1,5

Node Z kemudian menggabungkan output ini dari node A dan B, melalui netZ , sebuah pembobotan
jumlah, menggunakan bobot yang terkait dengan koneksi antara node ini. Catatan
bahwa input xi ke node Z bukanlah nilai atribut data tetapi output dari
Machine Translated by Google

134 BAB 7 JARINGAN SARAF

fungsi sigmoid dari node upstream:

netZ = Wi Z xi Z = W0Z (1) + WAZ xAZ + WB Z xB Z


saya

= 0,5 + 0,9(0,7892) + 0,9(0,8176) = 1,9461

Akhirnya, netZ dimasukkan ke dalam fungsi aktivasi sigmoid di node Z, menghasilkan


1
f (netZ ) = = 0,8750
1 + eÿ1,9461

Nilai 0,8750 ini merupakan output dari neural network untuk pertama kali melewati jaringan
ini, dan mewakili nilai prediksi untuk variabel target untuk pengamatan pertama.

FUNGSI AKTIVASI SIGMOID

Mengapa menggunakan fungsi sigmoid? Karena menggabungkan perilaku hampir linier,


perilaku lengkung, dan perilaku hampir konstan, tergantung pada nilai input. Gambar 7.3
menunjukkan grafik fungsi sigmoid y = f (x) = 1/(1 + eÿx ), untuk 5 < x < 5 [walaupun f (x)
secara teoritis dapat mengambil sembarang input bernilai riil]. Melalui sebagian besar pusat
domain input x (misalnya, 1 < x < 1), perilaku f (x) hampir linier. Saat input bergerak menjauh
dari pusat, f (x) menjadi lengkung. Pada saat input mencapai nilai ekstrim, f (x) menjadi
hampir konstan.
Pertambahan nilai x yang sedang menghasilkan kenaikan nilai f (x) yang bervariasi,
bergantung pada lokasi x. Dekat pusat, peningkatan moderat pada nilai x menghasilkan
peningkatan moderat pada nilai f (x); namun, mendekati ekstrem, peningkatan moderat
dalam nilai x menghasilkan peningkatan kecil dalam nilai f (x). Fungsi sigmoid kadang-
kadang disebut fungsi squashing, karena ia mengambil setiap input bernilai nyata dan
mengembalikan output yang dibatasi antara nol dan 1.

Gambar 7.3 Grafik fungsi sigmoid y = f (x) = 1/(1 + eÿx ).


Machine Translated by Google

METODE TURUN GRADIEN 135

PROPAGASI KEMBALI

Bagaimana jaringan saraf belajar? Jaringan saraf mewakili metode pembelajaran yang
diawasi, yang membutuhkan satu set pelatihan besar berisi catatan lengkap, termasuk
variabel target. Karena setiap pengamatan dari set pelatihan diproses melalui jaringan,
nilai keluaran dihasilkan dari simpul keluaran (dengan asumsi bahwa kita hanya memiliki
satu simpul keluaran, seperti pada Gambar 7.2). Nilai keluaran ini kemudian dibandingkan
dengan nilai aktual dari variabel target untuk pengamatan set pelatihan ini, dan kesalahan
(keluaran aktual) dihitung. Kesalahan prediksi ini analog dengan residual dalam model regresi.
Untuk mengukur seberapa baik prediksi keluaran sesuai dengan nilai target aktual, sebagian besar
model jaringan saraf menggunakan jumlah kesalahan kuadrat:

SSE = (keluaran aktual)2


mencatat node keluaran

di mana kesalahan prediksi kuadrat dijumlahkan ke semua node keluaran dan semua
catatan dalam set pelatihan.
Oleh karena itu masalahnya adalah untuk membangun satu set bobot model yang
akan meminimalkan SSE. Dengan cara ini, bobot analog dengan parameter model regresi.
Nilai "benar" untuk bobot yang akan meminimalkan SSE tidak diketahui, dan tugas kita
adalah memperkirakannya, berdasarkan data. Namun, karena sifat nonlinier dari fungsi
sigmoid yang menembus jaringan, tidak ada solusi bentuk tertutup untuk meminimalkan
SSE seperti yang ada untuk regresi kuadrat terkecil.

METODE TURUN GRADIEN

Oleh karena itu, kita harus beralih ke metode optimasi, khususnya metode gradien-turunan,
untuk membantu kita menemukan kumpulan bobot yang akan meminimalkan SSE. Misalkan kita
memiliki satu set (vektor) bobot m w = w0, w1, w2,...,wm dalam model jaringan saraf kita dan
kita ingin menemukan nilai untuk masing-masing bobot ini yang, bersama-sama, meminimalkan SSE.
Kita dapat menggunakan metode penurunan gradien, yang memberi kita arah bahwa kita
harus menyesuaikan bobot untuk mengurangi SSE. Gradien SSE terhadap vektor bobot
w adalah turunan vektor:

SSE SSE SSE


SSE (w) = , ,...,
w0 w1 wm

yaitu, vektor turunan parsial SSE terhadap masing-masing bobot.


Untuk mengilustrasikan cara kerja penurunan gradien, mari kita pertimbangkan
kasus di mana hanya ada satu bobot w1. Perhatikan Gambar 7.4, yang memplot kesalahan
SSE terhadap kisaran nilai untuk w1. Kami lebih suka nilai w1 yang akan meminimalkan SSE.
Nilai optimal untuk bobot w1 ditunjukkan sebagai wÿ 1 . Kami ingin mengembangkan
aturan yang akan membantu kami memindahkan nilai w1 saat ini lebih dekat ke nilai 1
optimal wÿ sebagai berikut: wnew = wcurrent + wcurrent, di mana wcurrent adalah
"perubahan lokasi w saat ini."
Machine Translated by Google

136 BAB 7 JARINGAN SARAF

*
w1L di 1 w1R w1

Gambar 7.4 Menggunakan kemiringan SSE terhadap w1 untuk menemukan arah penyesuaian bobot.

Sekarang, anggaplah nilai bobot kita saat ini wcurrent mendekati w1L . Maka kita akan
ingin meningkatkan nilai bobot kami saat ini untuk membawanya lebih dekat ke nilai optimal wÿ 1.
Di sisi lain, jika nilai bobot kita saat ini w saat ini mendekati w1R , kita akan
alih-alih lebih memilih untuk menurunkan nilainya, untuk membawanya lebih dekat ke nilai optimal wÿ1 . Sekarang
turunan SSE/ÿw1 hanyalah kemiringan kurva SSE di w1. Untuk nilai
w1 dekat dengan w1L , kemiringan ini negatif, dan untuk nilai w1 dekat dengan w1R, kemiringan ini
adalah positif. Oleh karena itu, arah untuk mengatur arus w adalah negatif dari tanda
turunan dari SSE pada arus w, yaitu, sign(ÿSSE/wcurrent).
Sekarang, seberapa jauh arus harus diatur ke arah tanda (ÿSSE/
w saat ini)? Misalkan kita menggunakan besaran turunan SSE pada arus w.
Ketika kurvanya curam, penyesuaiannya akan besar, karena kemiringannya lebih besar di
besarnya pada titik-titik tersebut. Ketika kurva hampir datar, penyesuaian akan lebih kecil,
karena kemiringan yang lebih kecil. Akhirnya, turunan dikalikan dengan konstanta positif (Yunani
huruf kecil eta), disebut learning rate, dengan nilai berkisar antara nol dan 1.
(Kami membahas peran secara lebih rinci di bawah ini.) Bentuk yang dihasilkan dari wcurrent adalah
sebagai berikut: wcurrent = (ÿSSE/ÿwcurrent), artinya perubahan arus
nilai bobot sama dengan negatif suatu konstanta kecil dikalikan kemiringan fungsi kesalahan di
saat ini.

ATURAN PROPAGASI KEMBALI

Algoritma back-propagation mengambil kesalahan prediksi (keluaran aktual) untuk a


merekam tertentu dan merembes kembali kesalahan melalui jaringan, menugaskan tanggung jawab
yang dibagi atas kesalahan ke berbagai koneksi. Bobot pada ini
koneksi kemudian disesuaikan untuk mengurangi kesalahan, menggunakan penurunan gradien.
Menggunakan fungsi aktivasi sigmoid dan penurunan gradien, Mitchell [1] menurunkan
aturan propagasi balik sebagai berikut:

=
j,baru = wi j,saat ini + wi j wi dimana wi j j xi j
Machine Translated by Google

CONTOH PROPAGASI KEMBALI 137

Sekarang kita tahu bahwa mewakili laju pembelajaran dan xij menandakan input ke-i ke node
j, tetapi apa yang diwakili oleh j ? Komponen j mewakili tanggung jawab untuk a
kesalahan tertentu milik node j. Tanggung jawab kesalahan dihitung dengan menggunakan
turunan parsial dari fungsi sigmoid sehubungan dengan netj dan mengambil yang berikut :
bentuk, tergantung pada apakah simpul yang dimaksud terletak di lapisan keluaran atau tersembunyi
lapisan:

keluaranj(1 keluaranj) ( aktualj keluaranj) keluaranj(1 untuk node lapisan keluaran


=
j Wjk j untuk node lapisan tersembunyi
keluaranj)
hilir

di mana mengacu
downstream
pada jumlah tertimbang dari tanggung jawab kesalahan untuk
Wjk j node hilir dari node lapisan tersembunyi tertentu. (Untuk derivasi penuh,
lihat Mitchell [1].)
Juga, perhatikan bahwa aturan propagasi balik menggambarkan mengapa nilai atribut
perlu dinormalisasi antara nol dan 1. Misalnya, jika data pendapatan, dengan nilai
mulai dari enam angka, tidak dinormalisasi, penyesuaian bobot wij = j xij
akan didominasi oleh nilai data xij. Oleh karena itu propagasi kesalahan (dalam bentuk
dari j) melalui jaringan akan kewalahan, dan pembelajaran (penyesuaian bobot)
akan tertahan.

CONTOH PROPAGASI KEMBALI

Ingat dari contoh pengantar kami bahwa output dari yang pertama melewati
jaringan adalah keluaran = 0,8750. Asumsikan bahwa nilai sebenarnya dari atribut target adalah
aktual = 0,8 dan kita akan menggunakan kecepatan belajar = 0,01. Maka kesalahan prediksi
sama dengan 0,8 0,8750 = 0,075, dan kita dapat menerapkan aturan di atas untuk mengilustrasikannya
bagaimana algoritma back-propagation bekerja untuk menyesuaikan bobot dengan membaginya
tanggung jawab atas kesalahan ini ke berbagai node. Meskipun dimungkinkan untuk memperbarui
bobot hanya setelah semua catatan telah dibaca, jaringan saraf menggunakan stokastik (atau
online) back-propagation, yang memperbarui bobot setelah setiap record.
Pertama, kesalahan tanggung jawab Z untuk simpul Z ditemukan. Karena simpul Z adalah keluaran
simpul, kita punya

DARI = keluaranZ (1 keluaranZ )(aktualZ keluaranZ )

= 0,875(1 0,875)(0,8 0,875) = 0,0082

Kami sekarang dapat menyesuaikan bobot "konstan" W0Z (yang mentransmisikan "input" 1)
menggunakan aturan propagasi balik sebagai berikut:

W0Z = Z (1) = 0,1 (ÿ0,0082) (1) = 0,00082


w0Z,baru = w0Z,saat ini + w0Z = 0,5 0,00082 = 0,49918

Selanjutnya, kita pindah ke hulu ke node A. Karena node A adalah node lapisan tersembunyi, kesalahannya
tanggung jawab adalah

SEBUAH = keluaranA(1 keluaranA) Wjk j


hilir
Machine Translated by Google

138 BAB 7 JARINGAN SARAF

Satu-satunya simpul hilir dari simpul A adalah simpul Z. Bobot yang terkait dengan koneksi ini adalah WAZ
= 0,9, dan tanggung jawab kesalahan pada simpul Z adalah 0,0082, sehingga = 0,7892(1 0,7892)(0,9)
SEBUAH
(ÿ0,0082) = 0.00123.
Kami sekarang dapat memperbarui bobot WAZ menggunakan aturan propagasi balik sebagai berikut:

WAZ = Z keluaranA = 0,1(ÿ0,0082)(0,7892) = 0,000647 wAZ,baru =

wAZ,saat ini + wAZ = 0,9 0,000647 = 0,899353

Bobot koneksi antara node lapisan tersembunyi A dan node lapisan keluaran Z telah disesuaikan dari nilai
awalnya 0,9 menjadi nilai baru 0,899353.
Selanjutnya, kita beralih ke node B, node lapisan tersembunyi, dengan tanggung jawab kesalahan

B = keluaranB(1 keluaranB) Wjk j


hilir

Sekali lagi, satu-satunya simpul hilir dari simpul B adalah simpul Z, memberikan kita B = 0,8176(1 0,8176)
(0,9)(ÿ0,0082) = 0,0011.
Bobot WB Z kemudian dapat disesuaikan menggunakan aturan backpropagation sebagai berikut:

WB Z = Z ·keluaranB = 0,1(ÿ0,0082)(0,8176) = 0,00067 = 0,9


+ wB Z wB Z,baru 0,00067 = 0,89933 = wB Z,saat ini

Kami pindah ke hulu ke koneksi yang digunakan sebagai input ke node A. Untuk bobot W1A kami memiliki

W1A = Ax1 = 0,1(ÿ0,00123)(0,4) = 0,0000492 w1A,baru = w1A,saat

ini + w1A = 0,6 0,0000492 = 0,5999508.

Untuk berat W2A kami memiliki

W2A = Ax2 = 0.1(ÿ0.00123)(0.2) = 0,0000246 w2A,baru = w2A,saat

ini + w2A = 0,8 0,0000246 = 0,799754.

Untuk berat W3A kami memiliki

W3A = Ax3 = 0,1(ÿ0,00123) (0,7) = 0,0000861 w3A,baru =

w3A,saat ini + w3A = 0,6 0,0000861 = 0,5999139.

Akhirnya, untuk berat W0A kami memiliki

W0A = A(1) = 0,1(ÿ0,00123) = 0,000123 w0A,baru =

w0A,saat ini + w0A = 0,5 0,000123 = 0,499877.

Menyesuaikan bobot W0B, W1B , W2B, dan W3B dibiarkan sebagai latihan.
Perhatikan bahwa penyesuaian bobot telah dibuat berdasarkan hanya satu pembacaan dari satu
catatan. Jaringan menghitung nilai prediksi untuk variabel target, membandingkan nilai keluaran ini dengan
nilai target aktual, dan kemudian menyaring kesalahan dalam prediksi di seluruh jaringan, menyesuaikan
bobot untuk memberikan kesalahan prediksi yang lebih kecil. Menunjukkan bahwa bobot yang disesuaikan
menghasilkan kesalahan prediksi yang lebih kecil dibiarkan sebagai latihan.
Machine Translated by Google

TINGKAT BELAJAR 139

KRITERIA PENGHENTIAN

Algoritme jaringan saraf kemudian akan melanjutkan untuk bekerja melalui kumpulan data pelatihan,
catatan demi catatan, menyesuaikan bobot secara konstan untuk mengurangi kesalahan prediksi.
Mungkin diperlukan banyak lintasan melalui kumpulan data sebelum kriteria penghentian algoritme
terpenuhi. Lalu, apa yang berfungsi sebagai kriteria terminasi, atau kriteria berhenti?
Jika waktu pelatihan menjadi masalah, seseorang dapat dengan mudah mengatur jumlah lintasan
melalui data, atau jumlah waktu nyata yang dapat dikonsumsi algoritme, sebagai kriteria terminasi.
Namun, apa yang diperoleh seseorang dalam waktu pelatihan singkat mungkin dibeli dengan
penurunan kemanjuran model.
Atau, seseorang mungkin tergoda untuk menggunakan kriteria terminasi yang menilai ketika
SSE pada data pelatihan telah dikurangi ke beberapa tingkat ambang batas yang rendah.
Sayangnya, karena fleksibilitasnya, jaringan saraf rentan terhadap overfitting, menghafal pola
idiosinkratik dalam set pelatihan alih-alih mempertahankan izability umum untuk data yang tidak terlihat.

Oleh karena itu, sebagian besar implementasi jaringan saraf mengadopsi prosedur penghentian
validasi silang berikut:

1. Pertahankan bagian dari kumpulan data asli sebagai kumpulan validasi ketidaksepakatan.

2. Lanjutkan untuk melatih jaringan saraf seperti di atas pada data pelatihan yang tersisa.

3. Menerapkan bobot yang dipelajari dari data latih pada data validasi.

4. Pantau dua set bobot, satu set bobot "saat ini" yang dihasilkan oleh data pelatihan, dan satu set
bobot "terbaik", yang diukur dengan SSE terendah sejauh ini pada data validasi.

5. Ketika set bobot saat ini memiliki SSE yang jauh lebih besar daripada set terbaik
bobot, kemudian mengakhiri algoritma.

Terlepas dari kriteria penghentian yang digunakan, jaringan saraf tidak dijamin untuk sampai
pada solusi optimal, yang dikenal sebagai minimum global untuk SSE. Sebaliknya, algoritme mungkin
terjebak dalam minimum lokal, yang mewakili solusi yang baik, jika tidak optimal. Dalam praktiknya, ini
tidak menghadirkan masalah yang tidak dapat diatasi.

Misalnya, beberapa jaringan dapat dilatih menggunakan bobot inisialisasi yang berbeda,
dengan model berkinerja terbaik dipilih sebagai model "final".

Kedua, metode propagasi balik online atau stokastik itu sendiri bertindak sebagai penjaga agar
tidak terjebak dalam minimum lokal, karena memperkenalkan elemen acak ke penurunan
gradien (lihat Reed and Marks [2]).

Atau, istilah momentum dapat ditambahkan ke algoritma propagasi balik, dengan efek yang
dibahas di bawah ini.

TINGKAT BELAJAR

Ingatlah bahwa bobot jaringan , 0 < < 1, adalah konstanta yang dipilih untuk membantu kita memindahkan
kecepatan pembelajaran menuju minimum global untuk SSE. Namun, nilai apa yang harus diambil?
Seberapa besar penyesuaian bobot yang harus dilakukan?
Machine Translated by Google

140 BAB 7 JARINGAN SARAF

w saat ini di* baru di

Gambar 7.5 Besar dapat menyebabkan algoritme melampaui minimum global.

Ketika kecepatan belajar sangat kecil, penyesuaian bobot cenderung sangat


kecil. Jadi, jika kecil ketika algoritma diinisialisasi, jaringan mungkin akan
membutuhkan waktu yang sangat lama untuk menyatu. Apakah solusinya karena itu menggunakan besar
nilai untuk ? Belum tentu. Misalkan algoritma mendekati optimal
solusi dan kami memiliki nilai besar untuk ini. besar akan cenderung membuat algoritma
melampaui solusi optimal.
Perhatikan Gambar 7.5, di mana Wÿ adalah nilai optimum untuk bobot W, yang
memiliki nilai arus Wcurrent. Menurut aturan penurunan gradien, wcurrent =
( ÿSSE/ÿwcurrent), Wcurrent akan disesuaikan ke arah Wÿ. Tetapi jika laju pembelajaran
,
yang bertindak sebagai pengali dalam rumus untuk arus w terlalu besar, yang baru
nilai bobot Wnew akan melompat melewati nilai optimal Wÿ, dan bahkan mungkin berakhir
lebih jauh dari Wÿ daripada Wcurrent.
Faktanya, karena nilai bobot baru kemudian akan berada di sisi berlawanan dari Wÿ,
penyesuaian berikutnya akan kembali melampaui Wÿ, yang mengarah ke osilasi yang tidak menguntungkan
antara dua "lereng" lembah dan tidak pernah menetap di jurang (the
minimum). Salah satu solusinya adalah membiarkan laju pembelajaran mengubah nilai sebagai pelatihan
bergerak maju. Pada awal pelatihan, harus diinisialisasi ke nilai yang relatif besar
untuk memungkinkan jaringan dengan cepat mendekati lingkungan umum yang optimal
larutan. Kemudian, ketika jaringan mulai mendekati konvergensi, pembelajaran
tingkat harus dikurangi secara bertahap, sehingga menghindari overshooting minimum.

JANGKA MOMENTUM

Algoritma back-propagation dibuat lebih kuat melalui penambahan a


istilah momentum , sebagai berikut:
SSE
w saat ini = + sebelumnya
wcurrent

di mana wprevious mewakili penyesuaian bobot sebelumnya, dan 0 < 1. Jadi,


komponen baru wprevious mewakili sebagian kecil dari penyesuaian berat sebelumnya
untuk berat tertentu.
Machine Translated by Google

Pada dasarnya, istilah momentum mewakili inersia. Nilai besar akan mempengaruhi penyesuaian
berat saat ini, wcurrent, untuk bergerak ke arah yang sama
seperti penyesuaian sebelumnya. Telah ditunjukkan (misalnya, Reed dan Marks [2]) bahwa termasuk
momentum dalam algoritma back-propagation menghasilkan penyesuaian menjadi
rata-rata eksponensial dari semua penyesuaian sebelumnya:

SSE

Istilah ini menunjukkan bahwa penyesuaian yang lebih baru memberikan pengaruh yang lebih besar. Besar

nilai memungkinkan algoritme untuk "mengingat" lebih banyak istilah dalam riwayat penyesuaian.
Nilai kecil dari pengurangan efek inersia serta pengaruh sebelumnya
penyesuaian, sampai, dengan = 0, komponen hilang seluruhnya.
Jelas, komponen momentum akan membantu meredam osilasi di sekitar
optimalitas yang disebutkan sebelumnya, dengan mendorong penyesuaian untuk tetap sama
arah. Namun momentum juga membantu algoritma pada tahap awal algoritma,
dengan meningkatkan tingkat di mana bobot mendekati lingkungan optimalitas.
Ini karena penyesuaian awal ini mungkin semua akan berada di arah yang sama,
sehingga rata-rata eksponensial dari penyesuaian juga akan ke arah itu.
Momentum juga membantu ketika gradien SSE terhadap w datar. jika
istilah momentum terlalu besar, namun, penyesuaian bobot mungkin lagi melampaui batas
minimum, karena pengaruh kumulatif dari banyak penyesuaian sebelumnya.
Untuk apresiasi momentum yang informal, perhatikan Gambar 7.6 dan 7.7. Di
kedua gambar, bobot diinisialisasi di lokasi I, minimum lokal ada di lokasi A
dan C, dengan minimum global optimal di B. Pada Gambar 7.6, anggaplah kita memiliki
nilai kecil untuk istilah momentum , dilambangkan dengan massa kecil "bola"
pada kurva. Jika kita menggelindingkan bola kecil ini ke bawah kurva, itu mungkin tidak akan pernah berhasil melewati
bukit pertama, dan tetap terjebak di lembah pertama. Artinya, nilai kecil untuk memungkinkan
algoritma untuk dengan mudah menemukan palung pertama di lokasi A, mewakili minimum lokal,
tetapi tidak memungkinkan untuk menemukan minimum global di B.
Selanjutnya, pada Gambar 7.7, anggaplah kita memiliki nilai besar untuk suku momentum
, dilambangkan dengan massa besar "bola" pada kurva. Jika kita menggulung bola besar ini
menuruni kurva, mungkin berhasil melewati bukit pertama tetapi kemudian mungkin memiliki begitu banyak

Saya SEBUAH B Cw

Gambar 7.6 Momentum kecil dapat menyebabkan algoritma undershoot global minimum.
Machine Translated by Google

142 BAB 7 JARINGAN SARAF

Saya Dan BC w

Gambar 7.7 Momentum yang besar dapat menyebabkan algoritme melampaui minimum global.

momentum yang melampaui minimum global di lokasi B dan menetap untuk


minimum lokal di lokasi C.
Dengan demikian, seseorang perlu mempertimbangkan dengan cermat nilai-nilai apa yang harus ditetapkan untuk kedua pembelajaran tersebut

tingkat dan istilah momentum mungkin . Eksperimen dengan berbagai nilai dan
diperlukan sebelum hasil terbaik diperoleh.

ANALISIS SENSITIFITAS

Salah satu kelemahan dari jaringan saraf adalah opacity mereka. Fleksibilitas luar biasa yang sama yang
memungkinkan jaringan saraf untuk memodelkan berbagai perilaku nonlinier juga
membatasi kemampuan kita untuk menginterpretasikan hasil menggunakan aturan yang dirumuskan dengan mudah.
Tidak seperti pohon keputusan, tidak ada prosedur langsung yang ada untuk menerjemahkan bobot dari sistem saraf
jaringan menjadi seperangkat aturan keputusan yang kompak.
Namun, prosedur tersedia, yang disebut analisis sensitivitas, yang memungkinkan
kita untuk mengukur pengaruh relatif setiap atribut terhadap hasil keluaran. Menggunakan
kumpulan data uji yang disebutkan di atas, analisis sensitivitas berlangsung sebagai berikut:

1. Buat xmean pengamatan baru , dengan setiap nilai atribut dalam xmean sama dengan
rata-rata dari berbagai nilai atribut untuk semua record dalam set pengujian.

2. Cari keluaran jaringan untuk masukan xmean. Sebut saja outputmean.

3. Atribut demi atribut, variasikan xmean untuk mencerminkan atribut minimum dan maksimum.
Temukan keluaran jaringan untuk setiap variasi dan bandingkan dengan rata-rata keluaran.

Analisis sensitivitas akan menemukan bahwa memvariasikan atribut tertentu dari minimum hingga
maksimum akan memiliki efek yang lebih besar pada keluaran jaringan yang dihasilkan daripada
itu untuk atribut lainnya. Sebagai contoh, misalkan kita tertarik untuk memprediksi
harga saham berdasarkan price-earning ratio, dividend yield, dan atribut lainnya. Juga,
misalkan rasio harga-pendapatan yang bervariasi dari minimum hingga hasil maksimumnya
dalam peningkatan 0,20 dalam output jaringan, sementara memvariasikan hasil dividen dari
minimum ke hasil maksimumnya dalam peningkatan 0,30 dalam output jaringan ketika
atribut lain dianggap konstan pada nilai rata-ratanya. Kami menyimpulkan bahwa jaringan
Machine Translated by Google

APLIKASI PEMODELAN JARINGAN SARAF 143

lebih sensitif terhadap variasi hasil dividen dan oleh karena itu hasil dividen merupakan faktor
yang lebih penting untuk memprediksi harga saham daripada rasio harga-pendapatan.

APLIKASI PEMODELAN JARINGAN SARAF

Selanjutnya, kami menerapkan model jaringan saraf menggunakan Insightful Miner pada set
data dewasa yang sama [3] dari UCal Irvine Machine Learning Repository yang kami analisis
di Bab 6. Perangkat lunak jaringan saraf Insightful Miner diterapkan pada set pelatihan 24.986
kasus, menggunakan satu lapisan tersembunyi dengan delapan node tersembunyi. Algoritme
mengulangi 47 epoch (berjalan melalui kumpulan data) sebelum penghentian. Jaringan saraf
yang dihasilkan ditunjukkan pada Gambar 7.8. Kotak di sebelah kiri mewakili node input.
Untuk variabel kategori, ada satu simpul input per kelas. Delapan lingkaran hitam mewakili
lapisan tersembunyi. Lingkaran abu-abu terang mewakili input konstan. Hanya ada satu simpul
keluaran, yang menunjukkan apakah catatan tersebut diklasifikasikan memiliki pendapatan
kurang dari $50.000 atau tidak.
Dalam algoritma ini, bobot dipusatkan pada nol. Kutipan dari output komputer yang
menunjukkan nilai bobot disajikan pada Gambar 7.9. Kolom di bagian pertama

Gambar 7.8 Jaringan saraf untuk kumpulan data dewasa yang dihasilkan oleh Insightful Miner.
Machine Translated by Google

144 BAB 7 JARINGAN SARAF

Gambar 7.9 Beberapa bobot jaringan saraf untuk contoh pendapatan.

tabel mewakili node input: 1 = umur, 2 = pendidikan-num, dan seterusnya, sedangkan baris
mewakili node lapisan tersembunyi: 22 = node tersembunyi pertama (atas), 23 = node
tersembunyi kedua, dan seterusnya. Misalnya, bobot koneksi dari usia ke node tersembunyi
paling atas adalah 0,97, sedangkan bobot koneksi dari Race: American Indian/ Eskimo (node
input keenam) ke node tersembunyi terakhir (bawah) adalah 0,75. Bagian bawah Gambar7.9
menampilkan bobot dari simpul tersembunyi ke simpul keluaran.

Perkiraan akurasi prediksi menggunakan model yang sangat dasar ini adalah 82%,
yang berada di rata-rata akurasi yang dilaporkan oleh Kohavi [4]. Karena lebih dari 75% subjek
memiliki pendapatan di bawah $50.000, hanya dengan memperkirakan "kurang dari $50.000"
untuk setiap orang akan memberikan akurasi dasar sekitar 75%.
Namun, kami ingin mengetahui variabel mana yang paling penting untuk memprediksi
(mengklasifikasikan) pendapatan. Oleh karena itu kami melakukan analisis sensitivitas
menggunakan Clemen tine, dengan hasil yang ditunjukkan pada Gambar 7.10. Jelas, jumlah
keuntungan modal adalah prediktor terbaik apakah seseorang memiliki pendapatan kurang
dari $50.000, diikuti oleh jumlah tahun pendidikan. Variabel penting lainnya termasuk jumlah
jam kerja per minggu dan status perkawinan. Jenis kelamin seseorang tampaknya tidak terlalu
memprediksi pendapatan.
Tentu saja, ada lebih banyak lagi yang terlibat dengan pengembangan model klasifikasi
jaringan saraf. Misalnya, pra-pemrosesan data lebih lanjut mungkin diperlukan; itu
Machine Translated by Google

LATIHAN 145

Gambar 7.10 Variabel terpenting: hasil dari analisis


sensitivitas.

model perlu divalidasi menggunakan kumpulan data validasi ketidaksepakatan, dan


seterusnya. Untuk aplikasi awal hingga akhir jaringan saraf ke kumpulan data dunia nyata,
mulai dari persiapan data hingga pembuatan model dan analisis sensitivitas, lihat Referensi 5.

REFERENSI
1. Tom M. Mitchell, Pembelajaran Mesin, McGraw-Hill, New York, 1997.
2. Russell D. Reed dan Robert J. Marks II, Neural Smithing: Pembelajaran dengan Pengawasan di Feedfor
ward Jaringan Syaraf Tiruan, MIT Press, Cambridge, MA, 1999.
3. CL Blake dan CJ Merz, UCI Repository of Machine Learning Databases, http://www.ics.uci.edu/ÿmlearn/
MLRepository.html, University of California, De partment of Information and Computer Science, Irvine, CA, 1998.

4. Ronny Kohavi, Meningkatkan akurasi pengklasifikasi nave Bayes: Hibrida pohon keputusan, Prosiding Konferensi
Internasional ke-2 tentang Penemuan Pengetahuan dan Penambangan Data, Portland, OR, 1996.

5. Daniel Larose, Metode dan Model Data Mining, Wiley-Interscience, Hoboken, NJ (untuk
muncul 2005).

LATIHAN
1. Misalkan Anda perlu menyiapkan data pada Tabel 6.10 untuk algoritma jaringan saraf.
Tentukan variabel indikator untuk atribut pekerjaan .

2. Jelaskan dengan jelas masing-masing karakteristik jaringan saraf ini:

sebuah. berlapis

b. Umpan ke depan

c. Benar-benar terhubung

3. Apa satu-satunya fungsi node di lapisan input?

4. Haruskah kita memilih lapisan tersembunyi yang besar atau yang kecil? Jelaskan kelebihan dan kekurangannya
setiap.

5. Jelaskan bagaimana jaringan saraf berfungsi secara nonlinier.


Machine Translated by Google

146 BAB 7 JARINGAN SARAF

6. Jelaskan mengapa istilah pemutakhiran untuk bobot saat ini menyertakan tanda negatif dari turunan (kemiringan).

7. Sesuaikan bobot W0B, W1B , W2B, dan W3B dari contoh propagasi balik di
teks.

8. Lihat Latihan 7. Tunjukkan bahwa bobot yang disesuaikan menghasilkan kesalahan prediksi yang lebih kecil.

9. Benar atau salah: Jaringan saraf sangat berharga karena kapasitasnya untuk selalu menemukan
minimum global SSE.

10. Jelaskan keuntungan dan kerugian menggunakan nilai besar atau kecil untuk kecepatan belajar.

11. Jelaskan keuntungan dan kerugian menggunakan nilai besar atau kecil untuk momentum
ketentuan.

Analisis Langsung
Untuk latihan berikut, gunakan churn kumpulan data yang terdapat di situs Web seri
buku. Menormalkan data numerik, mengkode ulang variabel kategori, dan menangani
variabel yang berkorelasi.

12. Menghasilkan model jaringan saraf untuk mengklasifikasikan churn berdasarkan variabel lainnya.
Menjelaskan topologi model.

13. Variabel mana, dalam urutan kepentingan, diidentifikasi sebagai yang paling penting untuk mengklasifikasikan
mengocok?

14. Bandingkan model jaringan saraf dengan model CART dan C4.5 untuk tugas ini di Bab 6. Jelaskan keuntungan
dan kerugian dari model jaringan saraf dibandingkan dengan yang lain. Apakah ada konvergensi atau
perbedaan hasil di antara model?
Machine Translated by Google

BAB 8
PENGELOLAAN
HIERARKI DAN k-MEANS

TUGAS PENGELOMPOKAN

METODE HIERARCHICAL CLUSTERING


k-MEANS CLUSTERING

CONTOH k-MEANS CLUSTERING DI KERJA


APLIKASI k-MEANS CLUSTERING MENGGUNAKAN SAS ENTERPRISE MINER

MENGGUNAKAN KEANGGOTAAN CLUSTER UNTUK MEMPREDIKSI CHURN

TUGAS PENGELOMPOKAN

Clustering mengacu pada pengelompokan record, observasi, atau kasus ke dalam kelas objek yang
serupa. Cluster adalah kumpulan record yang mirip satu sama lain dan tidak mirip dengan record di
cluster lain. Clustering berbeda dari klasifikasi karena tidak ada variabel target untuk clustering. Tugas
pengelompokan tidak mencoba untuk mengklasifikasikan, memperkirakan, atau memprediksi nilai
variabel target. Alih-alih, algoritma pengelompokan berusaha untuk mengelompokkan seluruh kumpulan
data ke dalam subkelompok atau kluster yang relatif homogen, di mana kesamaan catatan di dalam
klaster dimaksimalkan, dan kesamaan dengan catatan di luar klaster ini diminimalkan.

Misalnya, Claritas, Inc. adalah bisnis pengelompokan yang menyediakan profil demografis dari
setiap wilayah geografis di Amerika Serikat, seperti yang ditentukan oleh kode pos. Salah satu
mekanisme pengelompokan yang mereka gunakan adalah sistem segmentasi PRIZM, yang menjelaskan
setiap area kode pos AS dalam hal jenis gaya hidup yang berbeda. Ingat, misalnya, bahwa cluster yang
diidentifikasi untuk kode pos 90210, Beverly Hills, California, adalah:
Cluster 01: Perkebunan Darah Biru

Cluster 10: Campuran Bohemian

Gugus 02: Lingkaran Pemenang

Kelompok 07: Uang dan Otak

Gugus 08: Literasi Muda

Discovering Knowledge in Data: An Introduction to Data Mining, Oleh Daniel T.


Larose ISBN 0-471-66657-2 Hak Cipta C 2005 John Wiley & Sons, Inc.

147
Machine Translated by Google

148 CHAPTER 8 HIERARCHICAL DAN k-MEANS CLUSTERING

Deskripsi untuk klaster 01: Blue Blood Estates adalah “Eksekutif mapan, profesional, dan ahli waris
'uang lama' yang tinggal di pinggiran kota terkaya di Amerika. Mereka terbiasa dengan hak istimewa dan
hidup mewah—sepersepuluh dari anggota kelompok ini adalah multimiliuner. Tingkat kemakmuran
berikutnya adalah penurunan tajam dari puncak ini.”
Contoh tugas pengelompokan dalam bisnis dan penelitian meliputi:

Targetkan pemasaran produk niche untuk bisnis bermodal kecil yang tidak memiliki anggaran
pemasaran yang besar

Untuk tujuan audit akuntansi, untuk mengelompokkan perilaku keuangan ke dalam kategori yang
tidak berbahaya dan mencurigakan
Sebagai alat pengurangan dimensi ketika kumpulan data memiliki ratusan atribut

Untuk pengelompokan ekspresi gen, di mana jumlah gen yang sangat besar dapat menunjukkan
perilaku yang serupa

Clustering sering dilakukan sebagai langkah awal dalam proses data mining, dengan cluster yang
dihasilkan digunakan sebagai input lebih lanjut ke dalam teknik hilir yang berbeda, seperti jaringan saraf.
Karena ukuran yang sangat besar dari banyak database saat ini, seringkali sangat membantu untuk
menerapkan analisis pengelompokan terlebih dahulu, untuk mengurangi ruang pencarian untuk algoritma
hilir. Dalam bab ini, setelah melihat sekilas metode pengelompokan hierarkis, kami membahas secara rinci
pengelompokan k-means; dalam Bab 9 kami memeriksa pengelompokan menggunakan jaringan Kohonen,
sebuah struktur yang terkait dengan jaringan saraf.
Analisis klaster menghadapi banyak masalah yang sama yang kami tangani di
bab tentang klasifikasi. Misalnya, kita perlu menentukan:

Bagaimana mengukur kesamaan

Bagaimana cara mengkode ulang variabel kategoris

Bagaimana membakukan atau menormalkan variabel numerik

Berapa banyak cluster yang kami harapkan untuk diungkap

Untuk kesederhanaan, dalam buku ini kami berkonsentrasi pada jarak Euclidean antara catatan:

2
dEuclidean(x, y) = ( xi yi)
saya

di mana x = x1, x2,..., xm, dan y = y1, y2,..., ym mewakili nilai atribut m dari dua record. Tentu saja, ada
banyak metrik lain, seperti jarak blok kota:

dcityblock(x, y) = xi yi _
saya

atau jarak Minkowski, yang mewakili kasus umum dari dua metrik di atas untuk eksponen umum q:

q
dMinkowski(x, y) = xi yi _
saya

Untuk variabel kategori, kita dapat mendefinisikan lagi fungsi “berbeda dari” untuk
Machine Translated by Google

METODE HIERARCHICAL CLUSTERING 149

Variasi antar-cluster:

Variasi dalam cluster:

Gambar 8.1 Cluster harus memiliki variasi dalam cluster yang kecil dibandingkan dengan
variasi antar cluster.

membandingkan nilai atribut ke-i dari sepasang record:

0 jika xi = yi
berbeda(xi, yi) =
1 sebaliknya

di mana xi dan yi adalah nilai kategoris. Kami kemudian dapat mengganti yang berbeda (xi, yi) untuk
suku ke- i dalam metrik jarak Euclidean di atas.
Untuk kinerja yang optimal, algoritma clustering, seperti halnya algoritma untuk klasifikasi,
membutuhkan data untuk dinormalisasi sehingga tidak ada variabel atau subset tertentu dari
variabel mendominasi analisis. Analis dapat menggunakan normalisasi min-max
atau standarisasi Z-score, dibahas dalam bab-bab sebelumnya:

X menit(X)
Normalisasi min-maks: Xÿ =
Rentang (X)

X rata-rata (X)
Standarisasi Z-score: Xÿ =
SD(X)

Semua metode pengelompokan memiliki tujuan untuk mengidentifikasi kelompok catatan


sedemikian rupa sehingga kesamaan dalam suatu kelompok sangat tinggi sedangkan kesamaan dengan catatan di lain
kelompok sangat rendah. Dengan kata lain, seperti yang ditunjukkan pada Gambar 8.1, algoritma pengelompokan mencari
untuk membangun kelompok catatan sedemikian rupa sehingga variasi antar-klaster (BCV) besar
dibandingkan dengan variasi dalam cluster (WCV) Ini agak analog dengan
konsep di balik analisis varians.

METODE HIERARCHICAL CLUSTERING

Algoritma Clustering baik hirarkis atau nonhierarchical. Dalam pengelompokan hierarkis, struktur
cluster mirip pohon (dendrogram) dibuat melalui partisi rekursif (metode divisi) atau menggabungkan
(agglomerative) cluster yang ada. Metode pengelompokan agglomerative menginisialisasi setiap
pengamatan menjadi sebuah cluster kecil darinya
Machine Translated by Google

150 CHAPTER 8 HIERARCHICAL DAN k-MEANS CLUSTERING

memiliki. Kemudian, pada langkah selanjutnya, dua cluster terdekat digabungkan menjadi cluster
gabungan baru. Dengan cara ini, jumlah cluster dalam kumpulan data berkurang satu pada setiap
langkah. Akhirnya, semua catatan digabungkan menjadi satu cluster besar. Metode pengelompokan
di visive dimulai dengan semua record dalam satu cluster besar, dengan record yang paling
berbeda dipisahkan secara rekursif, menjadi cluster terpisah, sampai setiap record mewakili
clusternya sendiri. Karena sebagian besar program komputer yang menerapkan pengelompokan
hierarkis menggunakan metode aglomerasi, kami fokus pada metode tersebut.
Jarak antara catatan agak langsung setelah pengodean ulang dan normalisasi yang sesuai
telah dilakukan. Tapi bagaimana kita menentukan jarak antara kelompok catatan? Haruskah kita
menganggap dua cluster menjadi dekat jika tetangga terdekat mereka dekat atau jika tetangga
terjauh mereka dekat? Bagaimana dengan kriteria yang rata-rata dari ekstrem ini?

Kami memeriksa beberapa kriteria untuk menentukan jarak antara cluster arbitrer
A dan B:

Keterkaitan tunggal, kadang-kadang disebut pendekatan tetangga terdekat, didasarkan


pada jarak minimum antara setiap record di cluster A dan setiap record di cluster B. Dengan
kata lain, kesamaan cluster didasarkan pada kesamaan anggota yang paling mirip dari
setiap cluster. Keterkaitan tunggal cenderung membentuk kelompok yang panjang dan
ramping, yang kadang-kadang dapat menyebabkan catatan yang heterogen dikelompokkan
bersama.
Keterkaitan lengkap, kadang-kadang disebut pendekatan tetangga terjauh, didasarkan
pada jarak maksimum antara setiap record di cluster A dan setiap record di cluster B.
Dengan kata lain, kesamaan cluster didasarkan pada kesamaan anggota yang paling
berbeda dari setiap cluster. Keterkaitan lengkap cenderung membentuk kluster yang lebih
kompak, seperti bola, dengan semua record dalam kluster dalam diameter tertentu dari
semua record lainnya.

Average linkage dirancang untuk mengurangi ketergantungan kriteria cluster-linkage pada


nilai ekstrim, seperti record yang paling mirip atau berbeda.
Dalam average linkage, kriterianya adalah jarak rata-rata semua record di cluster A dari
semua record di cluster B. Cluster yang dihasilkan cenderung memiliki variabilitas dalam
cluster yang kurang lebih sama.

Mari kita periksa cara kerja metode keterkaitan ini, menggunakan kumpulan data kecil satu
dimensi berikut:

25 9 15 16 18 25 33 33 45

Pengelompokan Tautan Tunggal

Misalkan kita tertarik untuk menggunakan pengelompokan aglomeratif tautan tunggal pada
kumpulan data ini. Metode aglomerasi dimulai dengan menetapkan setiap record ke clusternya sendiri.
Kemudian, single linkage mencari jarak minimum antara setiap record dalam dua cluster.
Gambar 8.2 mengilustrasikan bagaimana hal ini dicapai untuk kumpulan data ini. Jarak cluster
minimum jelas antara cluster single-record yang masing-masing berisi nilai 33, yang jaraknya harus
nol untuk setiap metrik yang valid. Dengan demikian, kedua klaster ini digabungkan menjadi klaster
baru yang terdiri dari dua record, keduanya bernilai 33, seperti yang ditunjukkan pada Gambar 8.2.
Perhatikan bahwa, setelah langkah 1, hanya sembilan (n 1) cluster yang tersisa. Selanjutnya, pada langkah 2, cluster
Machine Translated by Google

METODE HIERARCHICAL CLUSTERING 151

2 5 9 15 16 18 25 33 33 45

2, 5 15, 16 33, 33

2, 5, 9 15, 16, 18

2, 5, 9, 15, 16, 18

2, 5, 9, 15, 16, 18, 25

2, 5, 9, 15, 16, 18, 25, 33, 33

2, 5, 9, 15, 16, 18, 25, 33 33 45

Gambar 8.2 Pengelompokan aglomeratif tautan tunggal pada kumpulan data sampel.

yang berisi nilai 15 dan 16 digabungkan menjadi cluster baru, karena jaraknya
1 adalah minimum antara dua cluster yang tersisa.
Berikut adalah langkah-langkah yang tersisa:

Langkah 3: Cluster yang berisi nilai 15 dan 16 (cluster {15,16}) digabungkan


dengan cluster {18}, karena jarak antara 16 dan 18 (catatan terdekat di
setiap cluster) adalah dua, minimum di antara cluster yang tersisa.

Langkah 4: Cluster {2} dan {5} digabungkan.

Langkah 5: Cluster {2,5} digabungkan dengan cluster {9}, karena jarak antara 5
dan 9 (catatan terdekat di setiap cluster) adalah empat, minimum di antara yang tersisa
cluster.

Langkah 6: Cluster {2,5,9} digabungkan dengan cluster {15,16,18}, karena jaraknya


antara 9 dan 15 adalah enam, minimum di antara cluster yang tersisa.

Langkah 7: Cluster {2,5,9,15,16,18} digabungkan dengan cluster {25}, karena jarak antara 18 dan
25 adalah tujuh, minimum di antara cluster yang tersisa.

Langkah 8: Cluster {2,5,9,15,16,18,25} digabungkan dengan cluster {33,33}, karena


jarak antara 25 dan 33 adalah delapan, minimum di antara cluster yang tersisa.

Langkah 9: Cluster {2,5,9,15,16,18,25,33,33} digabungkan dengan cluster {45}. Ini


cluster terakhir sekarang berisi semua catatan dalam kumpulan data.

Pengelompokan Tautan Lengkap


Selanjutnya, mari kita periksa apakah menggunakan kriteria tautan lengkap akan menghasilkan
pengelompokan yang berbeda dari kumpulan data sampel ini. Keterkaitan lengkap berusaha meminimalkan
jarak antara record dalam dua cluster yang terjauh satu sama lain. Gambar 8.3
mengilustrasikan pengelompokan tautan lengkap untuk kumpulan data ini.

Langkah 1: Karena setiap cluster hanya berisi satu record, tidak ada perbedaan
antara linkage tunggal dan linkage lengkap pada langkah 1. Kedua cluster masing-masing
berisi 33 digabungkan lagi.
Machine Translated by Google

152 CHAPTER 8 HIERARCHICAL DAN k-MEANS CLUSTERING

2 5 9 15 16 18 25 33 33 45

2, 5 15, 16 33, 33

2, 5, 9 15, 16, 18 25, 33, 33

2, 5, 9, 15, 16, 18 25, 33, 33, 45

2, 5, 9, 15, 16, 18, 25, 33, 33, 45

Gambar 8.3 Pengelompokan aglomeratif tautan lengkap pada kumpulan data sampel.

Langkah 2: Sama seperti untuk linkage tunggal, cluster yang berisi nilai 15 dan 16 adalah
digabungkan menjadi cluster baru. Sekali lagi, ini karena tidak ada perbedaan dalam
dua kriteria untuk cluster single-record.

Langkah 3: Pada titik ini, keterkaitan lengkap mulai menyimpang dari pendahulunya.
Pada single linkage, cluster {15,16} pada saat ini digabungkan dengan cluster {18}.
Tapi linkage lengkap melihat tetangga terjauh, bukan tetangga terdekat.
Tetangga terjauh untuk kedua cluster ini adalah 15 dan 18, untuk jarak
3. Ini adalah jarak yang sama yang memisahkan cluster {2} dan {5}. Kriteria tautan lengkap
tidak menyebutkan ikatan, jadi kami memilih yang pertama secara sewenang-wenang
kombinasi ditemukan, oleh karena itu menggabungkan cluster {2} dan {5} menjadi yang baru
gugus.

Langkah 4: Sekarang cluster {15,16} digabungkan dengan cluster {18}.

Langkah 5: Cluster {2,5} digabungkan dengan cluster {9}, karena tautan lengkap
jarak adalah 7, yang terkecil di antara cluster yang tersisa.

Langkah 6: Cluster {25} digabungkan dengan cluster {33,33}, dengan tautan lengkap
jarak 8.

Langkah 7: Cluster {2,5,9} digabungkan dengan cluster {15,16,18}, dengan jarak linkage
lengkap 16.

Langkah 8: Cluster {25,33,33} digabungkan dengan cluster {45}, dengan jarak linkage lengkap
20.

Langkah 9: Cluster {2,5,9,15,16,18} digabungkan dengan cluster {25,33,33,45}. Semua


catatan sekarang terkandung dalam cluster besar terakhir ini.

Akhirnya, dengan hubungan rata-rata, kriterianya adalah jarak rata-rata semua


record di cluster A dari semua record di cluster B. Karena rata-rata single
record adalah nilai record itu sendiri, metode ini tidak berbeda dengan metode sebelumnya pada tahap
awal, di mana cluster single-record digabungkan. Pada langkah 3,
keterkaitan rata-rata akan dihadapkan pada pilihan menggabungkan klaster {2} dan {5},
atau menggabungkan cluster {15, 16} dengan cluster {18} single-record. Rata-rata
jarak antara cluster {15, 16} dan cluster {18} rata-rata adalah |18 15|
dan |18 16|, yaitu 2,5, sedangkan jarak rata-rata antar cluster {2} dan {5} adalah
tentu saja 3. Oleh karena itu, rata-rata linkage akan menggabungkan cluster {15, 16} dengan cluster
{18} pada langkah ini, diikuti dengan menggabungkan cluster {2} dengan cluster {5}. Pembaca
Machine Translated by Google

CONTOH k-MEANS CLUSTERING DI WORK 153

dapat memverifikasi bahwa kriteria keterkaitan rata-rata mengarah ke struktur hierarki yang sama
untuk contoh ini sebagai kriteria keterkaitan lengkap. Secara umum, rata-rata linkage mengarah ke
cluster yang bentuknya lebih mirip untuk melengkapi linkage daripada single linkage.

k-MEANS CLUSTERING

Algoritma clustering k-means [1] adalah algoritma yang mudah dan efektif untuk menemukan cluster
dalam data. Algoritma berjalan sebagai berikut.

Langkah 1: Tanyakan kepada pengguna berapa banyak cluster k kumpulan data harus dipartisi.

Langkah 2: Secara acak menetapkan k record untuk menjadi lokasi pusat cluster awal.
Langkah 3: Untuk setiap record, cari pusat cluster terdekat. Jadi, dalam arti, setiap pusat
cluster "memiliki" subset dari catatan, sehingga mewakili partisi dari kumpulan data. Oleh
karena itu kami memiliki k cluster, C1,C2,...,Ck .

Langkah 4: Untuk setiap k cluster, temukan centroid cluster, dan perbarui lokasi setiap cluster
center ke nilai centroid yang baru.

Langkah 5: Ulangi langkah 3 sampai 5 sampai konvergen atau terminasi.

Kriteria "terdekat" pada langkah 3 biasanya jarak Euclidean, meskipun kriteria lain dapat
diterapkan juga. Pusat cluster pada langkah 4 ditemukan sebagai berikut. Misalkan kita memiliki n
titik data (a1, b1, c1), (a2, b2, c2),...,(an, bn, cn), titik pusat titik-titik ini adalah pusat gravitasi dari titik-
titik ini dan adalah terletak di titik ai / n, bi / n, ci / n .
Misalnya, titik (1,1,1), (1,2,1), (1,3,1), dan (2,1,1) akan
memiliki pusat massa

1+1+1+2 1+2+3+1 1+1+1+1


, , = (1,25, 1,75, 1,00)
4 4 4

Algoritma berakhir ketika centroid tidak lagi berubah. Dengan kata lain, algoritma berakhir
ketika untuk semua cluster C1,C2,...,Ck , semua record yang “dimiliki” olehberada
setiapdi
pusat
cluster
cluster
tersebut.
tetap
Alternatifnya, algoritme dapat berakhir ketika beberapa kriteria konvergensi terpenuhi, seperti tidak
ada penyusutan yang signifikan dalam jumlah kesalahan kuadrat:

k
2
SSE = d(p, mi)
i=1 pÿCi

dimana p Ci mewakili setiap titik data di cluster i dan mi mewakili centroid dari cluster i.

CONTOH k-MEANS CLUSTERING DI KERJA

Mari kita periksa contoh bagaimana algoritma k-means bekerja. Misalkan kita memiliki delapan titik
data dalam ruang dua dimensi yang ditunjukkan pada Tabel 8.1 dan diplot pada Gambar 8.4 dan
tertarik untuk mengungkap k = 2 cluster.
Machine Translated by Google

154 CHAPTER 8 HIERARCHICAL DAN k-MEANS CLUSTERING

TABEL 8.1 Titik Data untuk Contoh k-Means

ABCD EFGH
(1,3) (3,3) (4,3) (5,3) (1,2) (4,2) (1,1) (2,1)

Mari kita terapkan algoritma k-means langkah demi langkah.

Langkah 1: Tanyakan kepada pengguna berapa banyak cluster k kumpulan data harus dipartisi.
Kami telah menunjukkan bahwa kami tertarik pada k = 2 cluster.
Langkah 2: Secara acak menetapkan k record untuk menjadi lokasi pusat cluster awal. Untuk
contoh ini, kami menetapkan pusat cluster menjadi m1 = (1,1) dan m2 = (2,1).
Langkah 3 (pass pertama): Untuk setiap record, cari pusat cluster terdekat. Tabel 8.2
berisi jarak Euclidean (dibulatkan) antara setiap titik dan setiap cluster
pusat m1 = (1,1) dan m2 = (2,1), beserta indikasi cluster mana
pusat titik terdekat. Oleh karena itu, cluster 1 berisi poin {a,e,g}, dan
cluster 2 berisi titik {b,c,d,f,h}. Setelah keanggotaan cluster ditetapkan,
jumlah kesalahan kuadrat dapat ditemukan:

k
SSE = 2
d (p, mi)
i=1 pÿCi
= 22 + 2.242 + 2.832 + 3.612 + 12 + 2.242 + 02 + 02 = 36

Seperti yang disebutkan sebelumnya, kami ingin metodologi pengelompokan kami dimaksimalkan
variasi antar-cluster sehubungan dengan variasi dalam-cluster. Menggunakan
d(m1,m2) sebagai pengganti BCV dan SSE sebagai pengganti WCV, kami memiliki:

BCV d(m1,m2) 1
= = = 0,0278
WCV SSE 36

Kami berharap rasio ini meningkat dengan operan berturut-turut.


Langkah 4 (lintasan pertama): Untuk setiap k cluster, cari centroid cluster dan
perbarui lokasi setiap pusat cluster ke nilai centroid yang baru. Itu

0
0 23456 1
Gambar 8.4 Bagaimana k-means mempartisi data ini menjadi k = 2 cluster?
Machine Translated by Google

CONTOH k-MEANS CLUSTERING DI WORK 155

TABEL 8.2 Menemukan Pusat Cluster Terdekat untuk Setiap Record (First Pass)

Titik Jarak dari m1 Jarak dari m2 Keanggotaan Klaster

sebuah 2.00 2.24 C1


b 2.83 2.24 C2
c 3.61 2.83 C2
d 4.47 3.61 C2
dan 1.00 1.41 C1
f 3.16 2.24 C2
g 0.00 1.00 C1
h 1.00 0.00 C2

centroid untuk cluster 1 adalah [(1 + 1 + 1) /3, (3 + 2 + 1) /3] = (1,2). pusatnya


untuk cluster 2 adalah [(3 + 4 + 5 + 4 + 2) /5, (3 + 3 + 3 + 2 + 1) /5] = (3.6, 2.4).
Cluster dan centroid (segitiga) pada akhir lintasan pertama ditunjukkan pada
Gambar 8.5. Perhatikan bahwa m1 telah pindah ke pusat tiga titik di cluster
1, sementara m2 telah bergerak ke atas dan ke kanan dalam jarak yang cukup jauh, ke pusat
dari lima titik di cluster 2.

Langkah 5: Ulangi langkah 3 dan 4 sampai konvergen atau terminasi. Centroid


telah pindah, jadi kita kembali ke langkah 3 untuk melewati algoritma yang kedua.

Langkah 3 (pass kedua): Untuk setiap record, cari pusat cluster terdekat. Tabel 8.3
menunjukkan jarak antara setiap titik dan setiap pusat cluster yang diperbarui m1 =
(1,2) dan m2 = (3.6, 2.4), bersama-sama dengan keanggotaan cluster yang dihasilkan. Di sana
telah terjadi pergeseran satu record (h) dari cluster 2 ke cluster 1.
perubahan besar dalam m2 telah meninggalkan rekor h sekarang lebih dekat ke m1 daripada ke m2, sehingga rekor
h sekarang milik cluster 1. Semua catatan lain tetap berada di cluster yang sama dengan
sebelumnya. Oleh karena itu, cluster 1 adalah {a,e,g,h}, dan cluster 2 adalah {b,c,d,f}. Yang baru
jumlah kesalahan kuadrat adalah

k
SSE = 2 = 12 + 0,852 + 0,722 + 1,522 + 02 + 0,572 + 12
d (p, mi)
i=1 pÿCi
+1.412 = 7.88

0
0123456

Gambar 8.5 Cluster dan centroid setelah melewati algoritma k-means pertama.
Machine Translated by Google

156 CHAPTER 8 HIERARCHICAL DAN k-MEANS CLUSTERING

TABEL 8.3 Menemukan Pusat Cluster Terdekat untuk Setiap Record (Second Pass)

Titik Jarak dari m1 Jarak dari m2 Keanggotaan Klaster

sebuah 1.00 2.67 C1


b 2.24 0,85 C2
c 3.16 0.72 C2
d 4.12 1.52 C2
dan 0.00 2.63 C1
f 3,00 0,57 C2
g 1.00 2.95 C1
h 1.41 2.13 C2

yang jauh berkurang dari SSE sebelumnya sebesar 36, menunjukkan solusi pengelompokan
yang lebih baik. Kami juga punya:

BCV d(m1,m2) 2.63


= = = 0,3338
WCV SSE 7.88

yang lebih besar dari 0,0278 sebelumnya, menunjukkan bahwa kami meningkatkan
variasi antar-cluster sehubungan dengan variasi dalam-cluster.
Langkah 4 (lintasan kedua): Untuk setiap k cluster, temukan pusat cluster dan perbarui
lokasi setiap pusat cluster ke nilai baru
dari pusatnya. Centroid baru untuk cluster 1 adalah [(1 + 1 + 1 + 2)/4,
(3 + 2 + 1 + 1)/4] = (1,25, 1,75). Centroid baru untuk cluster 2 adalah
[(3 + 4 + 5 + 4)/4, (3 + 3 + 3 + 2)/4] = (4, 2.75). Cluster dan centroid
pada akhir lintasan kedua ditunjukkan pada Gambar 8.6. Centroid m1 dan m2
keduanya bergerak sedikit.
Langkah 5: Ulangi langkah 3 dan 4 sampai konvergen atau terminasi. Karena centroid
telah pindah, kami sekali lagi kembali ke langkah 3 untuk ketiga kami (dan ternyata
keluar, final) melewati algoritma.
Langkah 3 (pass ketiga): Untuk setiap record, cari pusat cluster terdekat. Tabel 8.4
menunjukkan jarak antara setiap titik dan setiap pusat cluster yang baru diperbarui m1 =
(1,25, 1,75) dan m2 = (4, 2,75), bersama dengan cluster yang dihasilkan
keanggotaan. Perhatikan bahwa tidak ada record yang menggeser keanggotaan cluster dari

0
0123456

Gambar 8.6 Cluster dan centroid setelah kedua melewati algoritma k-means.
Machine Translated by Google

CONTOH k-MEANS CLUSTERING DI WORK 157

TABEL 8.4 Menemukan Pusat Cluster Terdekat untuk Setiap Record (Lulus Ketiga)

Titik Jarak dari m1 Jarak dari m2 Keanggotaan Klaster

sebuah 1.27 3.01 C1


b 2.15 1.03 C2
c 3.02 0,25 C2
d 3.95 1.03 C2
dan 0.35 3.09 C1
f 2.76 0,75 C2
g 0,79 3.47 C1
h 1.06 2.66 C2

lulus sebelumnya. Jumlah kesalahan kuadrat yang baru adalah


k
2
SSE = d (p, mi) = 1,272 + 1,032 + 0,252 + 1,032 + 0,352 + 0,752
i=1 p Ci

+0,792 + 1,062 = 6,25

yang sedikit lebih kecil dari SSE sebelumnya sebesar 7,88 dan menunjukkan bahwa kita
memiliki solusi pengelompokan terbaik kami. Kami juga punya:
BCV d(m1,m2) 2.93
= = = 0,4688
WCV SSE 6.25

yang lebih besar dari 0,3338 sebelumnya, menunjukkan bahwa kami telah meningkat lagi
variasi antar-cluster sehubungan dengan variasi dalam-cluster. Melakukan
begitu juga tujuan dari setiap algoritma pengelompokan, untuk menghasilkan yang terdefinisi dengan baik
cluster sedemikian rupa sehingga kesamaan dalam cluster tinggi sedangkan kesamaan
untuk catatan di cluster lain rendah.

Langkah 4 (lintasan ketiga): Untuk setiap k cluster, cari centroid cluster dan
perbarui lokasi setiap pusat cluster ke nilai centroid yang baru. Sejak
tidak ada catatan yang menggeser keanggotaan cluster, oleh karena itu centroid cluster juga
tetap tidak berubah.

Langkah 5: Ulangi langkah 3 dan 4 sampai konvergen atau terminasi. Karena centroid tetap
tidak berubah, algoritme berakhir.

Perhatikan bahwa algoritme k-means tidak dapat menjamin menemukan SSE minimum global,
sebaliknya sering kali menetap pada minimum lokal. Untuk meningkatkan kemungkinan
mencapai minimum global, analis harus menjalankan kembali algoritme menggunakan variasi
dari pusat cluster awal. Moore [2] menyarankan (1) menempatkan pusat cluster pertama pada a
titik data acak, dan (2) menempatkan pusat cluster berikutnya pada titik sejauh
jauh dari pusat sebelumnya mungkin.
Salah satu masalah potensial untuk menerapkan algoritma k-means adalah: Siapa yang memutuskan
berapa banyak cluster yang harus dicari? Artinya, siapa yang memutuskan k? Kecuali jika analis memiliki
pengetahuan apriori tentang jumlah cluster yang mendasarinya, oleh karena itu, "loop luar"
harus ditambahkan ke algoritma, yang berputar melalui berbagai nilai yang menjanjikan dari
k. Oleh karena itu, solusi pengelompokan untuk setiap nilai k dapat dibandingkan, dengan nilai
dari k menghasilkan SSE terkecil yang dipilih.
Machine Translated by Google

158 CHAPTER 8 HIERARCHICAL DAN k-MEANS CLUSTERING

Bagaimana jika beberapa atribut lebih relevan daripada yang lain dengan rumusan masalah?
Karena keanggotaan klaster ditentukan oleh jarak, kita dapat menerapkan metode peregangan sumbu
yang sama untuk mengukur relevansi atribut yang telah kita bahas di Bab 5. Dalam Bab 9 kita
memeriksa metode pengelompokan umum lainnya, jaringan Kohonen, yang terkait dengan jaringan
saraf tiruan. dalam struktur.

APLIKASI k-MEANS CLUSTERING MENGGUNAKAN


SAS ENTERPRISE MINER

Selanjutnya, kita beralih ke perangkat lunak SAS Enterpriser Miner[3] yang kuat untuk aplikasi algoritme
k-means pada kumpulan data churn dari Bab 3 (tersedia di situs Web seri buku; juga tersedia dari http://
www.sgi .com/tech/mlc/db/). Ingatlah bahwa kumpulan data berisi 20 informasi senilai variabel tentang
3333 pelanggan, bersama dengan indikasi apakah pelanggan tersebut keluar (meninggalkan
perusahaan).
Variabel berikut diteruskan ke node pengelompokan Enterprise Miner:

Tandai (0/1) variabel


Paket Internasional dan Paket Pesan Suara

Variabel numerik

Panjang akun, pesan suara, menit siang, menit sore, malam


menit, menit internasional, dan panggilan layanan pelanggan, Setelah
menerapkan normalisasi min-maks ke semua variabel numerik.

Node pengelompokan Enterprise Miner menggunakan prosedur FASTCLUS SAS, versi algoritma
k-means. Jumlah cluster diatur ke k = 3. Tiga cluster yang ditemukan oleh algoritma sangat bervariasi
dalam ukuran, dengan cluster kecil 1 berisi 92 record, cluster besar 2 berisi 2411 record, dan cluster
menengah 3 berisi 830 record.

Beberapa pembuatan profil klaster dasar akan membantu kita mempelajari jenis-jenis record
yang masuk ke dalam setiap klaster. Gambar 8.7 memberikan tampilan jendela hasil pengelompokan
Enterprise Miner, yang berisi profil diagram lingkaran dari keanggotaan Rencana Internasional di ketiga
cluster. Semua anggota klaster 1, sebagian kecil dari anggota klaster 2, dan tidak ada anggota klaster
3 yang mengadopsi Rencana Internasional. Perhatikan bahwa diagram lingkaran paling kiri mewakili
semua rekaman, dan mirip dengan kluster 2.
Selanjutnya, Gambar 8.8 mengilustrasikan proporsi pengadopsi Paket VoiceMail di setiap
cluster. (Perhatikan pembalikan warna yang membingungkan untuk jawaban ya/ tidak .) Hebatnya,
kluster 1 dan 3 hanya berisi pengadopsi Paket Pesan Suara, sedangkan kluster 2 hanya berisi non-
pengadopsi paket. Dengan kata lain, bidang ini digunakan oleh algoritme k-means untuk membuat
diskriminasi “sempurna”, membagi kumpulan data secara sempurna di antara pengadopsi dan bukan
pengadopsi Rencana Internasional.
Jelas dari hasil ini bahwa algoritma sangat bergantung pada variabel kal kategori untuk
membentuk cluster. Perbandingan rata-rata variabel numerik di seluruh cluster pada Tabel 8.5,
menunjukkan variasi yang relatif kecil, yang menunjukkan bahwa cluster serupa di seluruh dimensi ini.
Gambar 8.9 misalnya menggambarkan bahwa sebaran panggilan customer service (dinormalisasi)
relatif sama di setiap cluster. Jika analis tidak nyaman dengan dominasi pengelompokan ini oleh
Machine Translated by Google

APLIKASI k-MEANS CLUSTERING MENGGUNAKAN SAS ENTERPRISE MINER 159

Gambar 8.7 Profil Enterprise Miner dari pengadopsi International Plan di seluruh cluster.

Gambar 8.8 Pengadopsi dan bukan pengadopsi Paket Pesan Suara saling eksklusif.

TABEL 8.5 Perbandingan Rata-Rata Variabel Antar Cluster Menunjukkan Sedikit Variasi

Gugus Frekuensi Panjang akun m Pesan VMail HariMins mm

1 92 0,4340639598 0,5826939471 0,5360015616

2 2411 0.4131940041 0 0.5126334451

3 830 0.4120730857 0,5731159934 0.5093940185

Gugus EveMins mm MalamMins mm IntMins mm Panggilan CustServ

1 0,5669029659 0.4764366069 0,5467934783 0.1630434783

2 0,5507417372 0,4773586813 0,5119784322 0.1752615328

3 0,5564095259 0,4795138596 0.5076626506 0.1701472557


Machine Translated by Google

160 CHAPTER 8 HIERARCHICAL DAN k-MEANS CLUSTERING

Gambar 8.9 Distribusi panggilan layanan pelanggan serupa di seluruh cluster.

variabel kategori, dia dapat memilih untuk meregangkan atau mengecilkan sumbu yang sesuai, seperti yang
disebutkan sebelumnya, yang akan membantu menyesuaikan algoritma pengelompokan ke solusi yang lebih
sesuai.

Oleh karena itu, cluster dapat diringkas, hanya menggunakan variabel kategori, sebagai berikut:

Cluster 1: Pengguna Canggih. Sekelompok kecil pelanggan yang telah mengadopsi Paket Internasional
dan Paket Pesan Suara.

Cluster 2: Rata-rata Mayoritas. Segmen terbesar dari basis pelanggan, beberapa di antaranya telah
mengadopsi Paket Pesan Suara tetapi tidak ada yang mengadopsi Paket Internasional.

Cluster 3: Pengguna Pesan Suara. Sekelompok pelanggan berukuran sedang yang semuanya telah
mengadopsi Paket Pesan Suara tetapi tidak menggunakan Paket Internasional.

Gambar 8.10 Perilaku churn di seluruh klaster untuk pengadopsi dan bukan pengadopsi Rencana Internasional.
Machine Translated by Google

REFERENSI 161

Gambar 8.11 Perilaku churn di seluruh kluster untuk pengadopsi dan bukan pengadopsi Paket VoiceMail.

Profil pengelompokan yang lebih rinci, termasuk kategorikal dan numerik


variabel, diberikan dalam Bab 9.

Menggunakan Keanggotaan Cluster untuk Memprediksi Churn

Misalkan, bagaimanapun, bahwa kita ingin menerapkan cluster ini untuk membantu kita dalam
tugas klasifikasi churn . Kita dapat membandingkan proporsi churner secara langsung di antara
berbagai cluster, menggunakan grafik seperti Gambar 8.10. Di sini kita melihat bahwa secara
keseluruhan (kolom paling kiri dari diagram lingkaran), proporsi pengocok jauh lebih tinggi di
antara mereka yang telah mengadopsi Rencana Internasional daripada di antara mereka yang
belum. Temuan ini ditemukan di Bab 3. Perhatikan bahwa proporsi churn lebih tinggi di cluster
1, yang berisi pengadopsi Rencana Internasional, daripada di cluster 2, yang berisi campuran
pengadopsi dan nonadopter, dan masih lebih tinggi dari cluster 3, yang tidak berisi pengadopsi
Rencana Internasional. Jelas, perusahaan harus melihat rencana untuk melihat mengapa
pelanggan yang memilikinya meninggalkan perusahaan pada tingkat yang lebih tinggi.
Sekarang, karena kita tahu dari Bab 3 bahwa proporsi churner lebih rendah di antara
pengadopsi Paket VoiceMail, kami berharap bahwa tingkat churn untuk klaster 3 akan lebih
rendah daripada klaster lainnya. Harapan ini dikonfirmasi pada Gambar 8.11.
Dalam Bab 9 kami mengeksplorasi menggunakan keanggotaan cluster sebagai masukan untuk model
penambangan data hilir.

REFERENSI
1. J. MacQueen, Beberapa metode untuk klasifikasi dan analisis pengamatan multivariat, Prosiding
Simposium Berkeley ke-5 tentang Statistik dan Probabilitas Matematika, Vol. 1, hlm. 281–297,
University of California Press, Berkeley, CA, 1967.
Machine Translated by Google

162 CHAPTER 8 HIERARCHICAL DAN k-MEANS CLUSTERING

2. Andrew Moore, k-Means and Hierarchical Clustering, Catatan Kursus, http://


www-2.cs.cmu.edu/ÿawm/tutorials/, 2001.
3. Institut SAS, Cary, NC, www.sas.com.

LATIHAN
1. Ke cluster mana untuk kode pos 90210 yang Anda inginkan?

2. Jelaskan tujuan dari semua metode pengelompokan.

3. Misalkan kita memiliki data berikut (satu variabel). Gunakan tautan tunggal untuk mengidentifikasi
cluster. Data: 0 0 1 3 3 6 7 9 10 10

4. Misalkan kita memiliki data berikut (satu variabel). Gunakan linkage lengkap untuk mengidentifikasi cluster.
Data: 0 0 1 3 3 6 7 9 10 10

5. Apa ide intuitif untuk arti pusat massa dari sebuah cluster?

6. Misalkan kita memiliki data berikut:

abcde f ghi j (2.0) (1.2) (2.2) (3.2) (2.3) (3.3) (2.4) (3.4) (4.4) ( 3.5)

Identifikasi cluster dengan menerapkan algoritma k-means, dengan k = 2. Coba gunakan pusat cluster
awal sejauh mungkin.

7. Lihat Latihan 6. Tunjukkan bahwa rasio variasi antar-cluster ke dalam


variasi cluster menurun dengan setiap lulus dari algoritma.

8. Sekali lagi identifikasi cluster pada data Latihan 6, kali ini dengan menerapkan algoritma k-means, dengan
k = 3. Coba gunakan pusat cluster awal sejauh mungkin.

9. Lihat Latihan 8. Tunjukkan bahwa rasio variasi antar-klaster ke dalam


variasi cluster menurun dengan setiap lulus dari algoritma.

10. Solusi pengelompokan mana yang menurut Anda lebih disukai? Mengapa?

Analisis Langsung
Gunakan kumpulan data sereal , yang disertakan di situs Web seri buku, untuk latihan berikut. Pastikan
bahwa data dinormalisasi.

11. Menggunakan semua variabel kecuali nama dan rating, jalankan algoritma k-means dengan k= 5 untuk
mengidentifikasi cluster dalam data.

12. Kembangkan profil pengelompokan yang secara jelas menggambarkan karakteristik sereal di dalamnya
cluster.

13. Jalankan kembali algoritma k-means dengan k = 3.

14. Solusi pengelompokan mana yang Anda sukai, dan mengapa?

15. Kembangkan profil pengelompokan yang secara jelas menggambarkan karakteristik sereal di dalamnya
cluster.

16. Gunakan keanggotaan cluster untuk memprediksi peringkat. Salah satu cara untuk melakukan ini adalah
dengan membangun histogram peringkat berdasarkan keanggotaan cluster saja. Jelaskan bagaimana
hubungan yang Anda temukan masuk akal, berdasarkan profil Anda sebelumnya.
Machine Translated by Google

BAB 9
JARINGAN KOHONE

PETA PENGORGANISASIAN MANDIRI

JARINGAN KOHONE
CONTOH STUDI JARINGAN KOHOEN
VALIDITAS Kluster

APLIKASI CLUSTERING MENGGUNAKAN JARINGAN KOHONEN


MENGGUNAKAN KEANGGOTAAN CLUSTER SEBAGAI MASUKAN UNTUK DATA DOWNSTREAM
MODEL PERTAMBANGAN

PETA PENGORGANISASIAN MANDIRI

Jaringan Kohonen diperkenalkan pada tahun 1982 oleh peneliti Finlandia Tuevo Kohonen [1].
Meskipun awalnya diterapkan pada analisis gambar dan suara, jaringan Kohonen tidak
pernah menjadi mekanisme yang efektif untuk analisis pengelompokan. Jaringan Kohonen
mewakili jenis peta pengorganisasian diri (SOM), yang dengan sendirinya mewakili kelas
khusus jaringan saraf, yang kita pelajari di Bab 7.
Tujuan dari self-organizing maps adalah untuk mengubah sinyal input berdimensi tinggi
yang kompleks menjadi peta diskrit berdimensi rendah yang lebih sederhana [2]. Dengan
demikian, SOM sangat sesuai untuk analisis klaster, di mana pola tersembunyi yang
mendasari di antara catatan dan bidang dicari. SOM menyusun simpul keluaran ke dalam
kelompok simpul, di mana simpul yang lebih dekat lebih mirip satu sama lain daripada dengan
simpul lain yang berjauhan. Ritter [3] telah menunjukkan bahwa SOM mewakili generalisasi
nonlinier dari analisis komponen utama, teknik pengurangan dimensi lainnya.
Peta yang mengatur diri sendiri didasarkan pada pembelajaran kompetitif, di mana
simpul keluaran bersaing di antara mereka sendiri untuk menjadi simpul pemenang (atau
neuron), satu-satunya simpul yang diaktifkan oleh pengamatan masukan tertentu. Seperti
yang dijelaskan Haykin [2]: “Neuron menjadi selektif disetel ke berbagai pola input (stimulus)
atau kelas pola input selama proses pembelajaran kompetitif.” Sebuah arsitektur SOM khas
ditunjukkan pada Gambar 9.1. Lapisan input ditunjukkan di bagian bawah gambar, dengan
satu simpul input untuk setiap bidang. Sama seperti jaringan saraf, node input ini tidak
memproses sendiri tetapi hanya meneruskan nilai input lapangan di sepanjang hilir.

Discovering Knowledge in Data: An Introduction to Data Mining, Oleh Daniel T.


Larose ISBN 0-471-66657-2 Hak Cipta C 2005 John Wiley & Sons, Inc.

163
Machine Translated by Google

164 BAB 9 JARINGAN KOHONEN

Lapisan Keluaran

Koneksi dengan Bobot

Lapisan Masukan

Usia
Penghasilan

Gambar 9.1 Topologi peta pengorganisasian mandiri sederhana untuk mengelompokkan catatan berdasarkan usia dan
pendapatan.

Seperti jaringan saraf, SOM bersifat feedforward dan terhubung sepenuhnya. Jaringan penerusan umpan
tidak mengizinkan pengulangan atau siklus. Terhubung sepenuhnya berarti bahwa setiap node dalam lapisan
tertentu terhubung ke setiap node di lapisan berikutnya, meskipun tidak ke node lain di lapisan yang sama. Seperti
jaringan saraf, setiap koneksi antara node memiliki bobot yang terkait dengannya, yang pada inisialisasi ditetapkan
secara acak ke nilai antara nol dan 1. Menyesuaikan bobot ini merupakan kunci untuk mekanisme pembelajaran
di jaringan saraf dan peta yang mengatur sendiri. Nilai variabel perlu dinormalisasi atau distandarisasi, seperti
halnya untuk jaringan saraf, sehingga variabel tertentu tidak membebani yang lain dalam algoritma pembelajaran.

Tidak seperti kebanyakan jaringan saraf, bagaimanapun, SOM tidak memiliki lapisan tersembunyi. Data
dari lapisan input diteruskan langsung ke lapisan output. Lapisan keluaran direpresentasikan dalam bentuk kisi,
biasanya dalam satu atau dua dimensi, dan biasanya dalam bentuk persegi panjang, meskipun bentuk lain,
seperti segi enam, dapat digunakan.
Lapisan keluaran yang ditunjukkan pada Gambar 9.1 adalah persegi 3 × 3.
Untuk catatan tertentu (contoh), nilai bidang tertentu diteruskan dari node input tertentu ke setiap node
di lapisan output. Misalnya, anggaplah bahwa nilai usia dan pendapatan yang dinormalisasi untuk catatan pertama
dalam kumpulan data masing-masing adalah 0,69 dan 0,88. Nilai 0,69 akan masuk ke SOM melalui simpul
masukan yang terkait dengan usia, dan simpul ini akan meneruskan nilai 0,69 ini ke setiap simpul di lapisan
keluaran. Demikian pula, nilai 0,88 akan didistribusikan melalui node input pendapatan ke setiap node di lapisan
output. Nilai-nilai ini, bersama dengan bobot yang ditetapkan untuk setiap koneksi, akan menentukan nilai fungsi
penilaian (seperti:
Machine Translated by Google

JARINGAN KOHONEN 165

Jarak Euclidean) untuk setiap simpul keluaran. Simpul keluaran dengan hasil “terbaik” dari fungsi
penilaian kemudian akan ditetapkan sebagai simpul pemenang.
Peta yang mengatur diri sendiri menunjukkan tiga proses karakteristik:

1. Kompetisi. Seperti disebutkan di atas, node keluaran bersaing satu sama lain untuk
menghasilkan nilai terbaik untuk fungsi penilaian tertentu, paling sering jarak Euclidean.
Dalam hal ini, simpul keluaran yang memiliki jarak Euclidean terkecil antara masukan bidang
dan bobot koneksi akan dinyatakan sebagai pemenang. Kemudian, kami memeriksa secara
rinci contoh bagaimana ini bekerja.
2. Kerjasama. Oleh karena itu, simpul pemenang menjadi pusat lingkungan neuron yang
tereksitasi. Ini meniru perilaku neuron manusia, yang sensitif terhadap output neuron lain di
lingkungan terdekat mereka. Dalam peta yang mengatur diri sendiri, semua node di
lingkungan ini berbagi "kegembiraan" atau "hadiah" yang diperoleh oleh node yang menang,
yaitu adaptasi. Jadi, meskipun node di lapisan output tidak terhubung secara langsung,
mereka cenderung berbagi fitur umum, karena parameter tetangga ini.

3. Adaptasi. Node di sekitar node pemenang berpartisipasi dalam adaptasi, yaitu belajar. Bobot
node ini disesuaikan untuk lebih meningkatkan fungsi skor. Dengan kata lain, simpul-simpul
ini dengan demikian akan memiliki peluang yang lebih besar untuk memenangkan persaingan
sekali lagi, untuk serangkaian nilai bidang yang serupa.

JARINGAN KOHONE

Jaringan Kohonen adalah peta yang mengatur diri sendiri yang menunjukkan pembelajaran
Kohonen. Misalkan kita menganggap himpunan nilai bidang m untuk record ke-n sebagai vektor
input xn = xn1, xn2,..., xnm, dan himpunan bobot m saat ini untuk simpul keluaran tertentu j menjadi
vektor bobot wj = w1 j, w2 j,...,wmj . Dalam pembelajaran Kohonen, node di
sekitar node pemenang menyesuaikan bobotnya menggunakan kombinasi linier dari vektor input
dan vektor bobot saat ini:

wij ,baru= wij ,saat ini + (xni wij , saat ini) (9.1)

di mana 0, < < 1, mewakili tingkat pembelajaran, analog dengan kasus jaringan saraf. Kohonen [4]
menunjukkan tingkat pembelajaran harus menjadi fungsi penurunan zaman pelatihan (berjalan
melalui kumpulan data) dan bahwa penurunan secara linier atau geometris
memuaskan untuk sebagian besar tujuan.
Algoritme untuk jaringan Kohonen (setelah Fausett [5]) ditampilkan di kotak ac componying.
Pada inisialisasi, bobot diberikan secara acak, kecuali ada pengetahuan apriori yang kuat mengenai
nilai yang tepat untuk vektor bobot. Juga pada inisialisasi, tingkat pembelajaran dan ukuran
lingkungan R ditetapkan. Nilai R mungkin mulai cukup besar tetapi harus menurun seiring
berjalannya algoritma.
Perhatikan bahwa node yang tidak menarik jumlah hit yang cukup dapat dipangkas, sehingga
meningkatkan efisiensi algoritme.
Machine Translated by Google

166 BAB 9 JARINGAN KOHONEN

ALGORITMA JARINGAN KOHONE

Untuk setiap vektor input x, lakukan:

Kompetisi. Untuk setiap simpul keluaran j, hitung nilai D(wj,xn ) dari penskoran (wi j xni )2. Menemukan

fungsi. Misalnya, untuk jarak Euclidean, D(wj,xn ) = simpul pemenang J yang saya

meminimalkan D(wj,xn ) pada semua simpul keluaran.

Kerja sama. Identifikasi semua simpul keluaran j dalam lingkungan J yang ditentukan oleh ukuran lingkungan R.
Untuk simpul-simpul ini, lakukan hal berikut untuk semua bidang catatan masukan: Adaptasi . Sesuaikan bobot:

wij ,baru= wij ,saat ini + (xni wij , saat ini)

Sesuaikan tingkat pembelajaran dan ukuran lingkungan, sesuai kebutuhan.

Berhenti ketika kriteria terminasi terpenuhi.

CONTOH STUDI JARINGAN KOHOEN

Perhatikan contoh sederhana berikut. Misalkan kita memiliki kumpulan data dengan dua
atribut, usia dan pendapatan, yang telah dinormalisasi, dan misalkan kita ingin menggunakan
jaringan Kohonen 2 × 2 untuk mengungkap cluster tersembunyi dalam kumpulan data.
Dengan demikian kita akan memiliki topologi yang ditunjukkan pada Gambar 9.2.
Satu set yang terdiri dari empat record siap untuk dimasukkan, dengan deskripsi thumbnail
dari setiap record yang disediakan. Dengan jaringan sekecil itu, kami menetapkan ukuran lingkungan
menjadi R = 0, sehingga hanya simpul pemenang yang akan diberikan kesempatan untuk
menyesuaikan bobotnya. Juga, kami menetapkan tingkat pembelajaran menjadi 0,5. Akhirnya,
asumsikan bahwa bobot telah diinisialisasi secara acak sebagai berikut:

w11 = 0,9 w21 = 0,8 w12 = 0,9 w22 = 0,2


w13 = 0,1 w23 = 0,8 w14 = 0,1 w24 = 0,2

Untuk vektor input pertama, x1 = (0,8, 0,8), kami melakukan urutan kompetisi, kerjasama,
dan adaptasi berikut.

Kompetisi. Kami menghitung jarak Euclidean antara vektor input ini dan vektor bobot
untuk masing-masing dari empat node output:

Simpul 1: D(w1,x1) = saya


(wi1 x1i )2 = (0,9 0,8)2 + (0,8 0,8)2

= 0,1

Simpul 2: D(w2,x1) = (0,9 0,8)2 + (0,2 0,8)2 = 0,61

Simpul 3: D(w3,x1) = (0,1 0,8)2 + (0,8 0,8)2 = 0,70

Simpul 4: D(w4,x1) = (0,1 0,8)2 + (0,2 0,8)2 = 0,92

Oleh karena itu, simpul pemenang untuk catatan masukan pertama ini adalah simpul
1, karena ia memperkecil fungsi skor D, jarak Euclidean antara vektor masukan untuk
rekaman ini, dan vektor bobot, di atas semua simpul.
Machine Translated by Google

CONTOH STUDI JARINGAN KOHONEN 167

simpul 1 simpul 3

Lapisan Keluaran
W11 W21
W13 W23

simpul 2 simpul 4

W12
W22
W14 W24

Lapisan Masukan

Usia Penghasilan

1 x11 = 0,8 x21 x12 = 0,8 x22 Orang tua dengan penghasilan tinggi
2 = 0,8 x31 = 0,2 = 0,1 x32 = 0,9 Orang tua dengan pendapatan rendah
3 x41 = 0,1 x42 = 0,1 Orang yang lebih muda dengan pendapatan tinggi
4 Orang yang lebih muda dengan pendapatan rendah

Gambar 9.2 Contoh: topologi jaringan 2 × 2 Kohonen.

Perhatikan mengapa simpul 1 memenangkan kompetisi untuk rekor pertama, (0.8, 0.8). simpul 1
menang karena bobotnya (0,9, 0,8) lebih mirip dengan nilai bidang untuk catatan ini
daripada bobot node lainnya. Untuk alasan ini, kita mungkin mengharapkan node 1 untuk dipamerkan
afinitas untuk catatan orang tua dengan pendapatan tinggi. Dengan kata lain, kita mungkin
mengharapkan node 1 untuk mengungkap sekelompok orang tua yang berpenghasilan tinggi.

Kerja sama. Dalam contoh sederhana ini kami telah menetapkan ukuran lingkungan R = 0
sehingga tingkat kerjasama antar node keluaran adalah nihil! Oleh karena itu, hanya
simpul pemenang, simpul 1, akan dihargai dengan penyesuaian bobot. (Kami menghilangkan
langkah ini di sisa contoh.)

Adaptasi. Untuk simpul pemenang, simpul 1, bobotnya disesuaikan sebagai berikut:

wi j, baru = wi j,arus + ( xni wi j,arus)

Untuk j = 1 (simpul 1), n = 1 (catatan pertama) dan kecepatan pembelajaran = 0,5, ini
menjadi wi1,new = wi1,current + 0.5(x1i wi1 , current) untuk setiap field:

Untuk usia: w11,baru = w11,saat ini + 0,5(x11 w11,saat ini )


= 0,9 + 0,5(0,8 0,9) = 0,85

Untuk pendapatan: w21,baru = w21,saat ini + 0,5(x12 w21 , saat ini)


= 0,8 + 0,5(0,8 0,8) = 0,8
Machine Translated by Google

168 BAB 9 JARINGAN KOHONEN

Perhatikan jenis penyesuaian yang terjadi. Bobot didorong ke arah nilai bidang dari
catatan input. Artinya, w11, bobot pada koneksi usia untuk simpul yang menang, awalnya
0,9, tetapi disesuaikan ke arah nilai usia yang dinormalisasi pada catatan pertama, 0,8.
Karena kecepatan pembelajaran = 0,5, penyesuaian ini adalah setengah (0,5) dari jarak
antara bobot saat ini dan nilai medan. Penyesuaian ini akan membantu simpul 1 menjadi lebih
mahir dalam menangkap catatan orang tua yang berpenghasilan tinggi.

Selanjutnya, untuk vektor input kedua, x2 = (0.8, 0.1), kita memiliki urutan sebagai
berikut.

Kompetisi

Simpul 1: D(w1,x2) = saya


(wi1 x2i )2 = (0,9 0,8)2 + (0,8 0,1)2

= 0,71

Simpul 2: D(w2,x2) = (0,9 0,8)2 + (0,2 0,1)2 = 0,14

Simpul 3: D(w3,x2) = (0,1 0,8)2 + (0,8 0,1)2 = 0,99

Simpul 4: D(w4,x2) = (0,1 0,8)2 + (0,2 0,1)2 = 0,71

Node pemenang: node 2. Perhatikan bahwa node 2 memenangkan kompetisi untuk rekor
kedua, (0.8, 0.1), karena bobotnya (0.9, 0.2) lebih mirip dengan nilai field untuk record ini daripada
bobot node lainnya. Dengan demikian, kita dapat mengharapkan simpul 2 untuk "mengumpulkan"
catatan orang tua dengan pendapatan rendah. Artinya, simpul 2 akan mewakili sekelompok orang
tua yang berpenghasilan rendah.

Adaptasi. Untuk simpul pemenang, simpul 2, bobotnya disesuaikan sebagai berikut: Untuk
j = 2 (simpul 2), n = 2 (catatan pertama) dan kecepatan pembelajaran = 0,5, kita memiliki
wi2,baru = wi2,saat ini + 0,5( x2i wi2 , saat ini) untuk setiap bidang:

Untuk usia: w12,baru = w12,saat ini + 0,5(x21 w12 , saat


ini) = 0,9 + 0,5(0,8 0,9) = 0,85 Untuk
pendapatan: w22,baru = w22,saat ini + 0,5(x22 w22,saat ini )
= 0,2 + 0,5 (0,1 0,2) = 0,15

Sekali lagi, bobot diperbarui ke arah nilai bidang dari catatan input. Bobot w12
mengalami penyesuaian yang sama dengan w11 di atas, karena bobot saat ini dan nilai
bidang usia adalah sama. Bobot w22 untuk pendapatan disesuaikan ke bawah, karena tingkat
pendapatan dari rekor kedua lebih rendah dari bobot pendapatan saat ini untuk simpul
pemenang. Karena penyesuaian ini, simpul 2 akan lebih baik dalam menangkap catatan
orang tua yang berpenghasilan rendah.
Selanjutnya, untuk vektor input ketiga, x3 = (0.2, 0.9), kita memiliki barisan berikut.

Kompetisi

Simpul 1: D(w1,x3) = saya


(wi1 x3i )2 = (0,9 0,2)2 + (0,8 0,9)2

= 0,71

Simpul 2: D(w2,x3) = (0,9 0,2)2 + (0,2 0,9)2 = 0,99


Machine Translated by Google

CONTOH STUDI JARINGAN KOhonen 169

Simpul 3: D(w3,x3) = (0,1 0,2)2 + (0,8 0,9)2 = 0,14

Simpul 4: D(w4,x3) = (0,1 0,2)2 + (0,2 0,9)2 = 0,71

Node yang menang adalah node 3 karena bobotnya (0,1, 0,8) paling dekat dengan nilai field
record ketiga. Oleh karena itu, kita dapat mengharapkan simpul 3 untuk mewakili sekelompok orang
yang lebih muda dan berpenghasilan tinggi.

Adaptasi. Untuk simpul pemenang, simpul 3, bobotnya disesuaikan sebagai berikut:


wi3,baru = wi3,saat ini + 0,5(x3i wi3 , saat ini), untuk setiap bidang:

Untuk usia: w13,baru = w13,saat ini + 0.5 ( x31 w13 ,saat


ini) = 0.1 + 0.5(0.2 0.1) = 0.15
Pendapatan: w23,baru = w23,saat ini + 0.5(x32 w23,saat ini)
= 0.8 + 0,5(0,9 0,8) = 0,85

Akhirnya, untuk vektor input keempat, x4 = (0,1, 0,1), kami memiliki yang berikut:
urutan.

Kompetisi

Simpul 1: D(w1,x4) = saya


(wi4 x4i )2 = (0,9 0,1)2 + (0,8 0,1)2

= 1,06

Simpul 2: D(w2,x4) = (0,9 0,1)2 + (0,2 0,1)2 = 0,81

Simpul 3: D(w3,x4) = (0,1 0,1)2 + (0,8 0,1)2 = 0,70

Simpul 4: D(w4,x4) = (0,1 0,1)2 + (0,2 0,1)2 = 0,10

Node pemenang adalah node 4 karena bobotnya (0,1, 0,2) memiliki jarak Euclidean terkecil ke nilai
field record keempat. Oleh karena itu, kami dapat mengharapkan simpul 4 untuk mewakili sekelompok
orang yang lebih muda dan berpenghasilan rendah.

Adaptasi. Untuk node pemenang, node 4, bobotnya disesuaikan sebagai berikut:


wi4,new = wi4,current + 0.5(x4i wi4 , current), untuk setiap field:

Untuk usia: w14,baru = w14,saat ini + 0,5(x41 w14,saat


ini) = 0,1 + 0,5(0,1 0,1) = 0,10 Untuk
pendapatan: w24,baru = w24,saat ini + 0,5(x42 w24 , saat ini)
= 0,2 + 0,5 (0,1 0,2) = 0,15

Jadi, kita telah melihat bahwa empat node keluaran akan mewakili empat cluster
berbeda jika jaringan terus diumpankan data yang serupa dengan empat record yang
ditunjukkan pada Gambar 9.2. Cluster ini diringkas dalam Tabel 9.1.
Jelas, cluster yang ditemukan oleh jaringan Kohonen dalam contoh sederhana ini
cukup jelas. Namun, contoh ini berfungsi untuk menggambarkan bagaimana jaringan
beroperasi pada tingkat dasar, menggunakan kompetisi dan pembelajaran Kohonen.
Machine Translated by Google

170 BAB 9 JARINGAN KOHONEN

TABEL 9.1 Empat Cluster Ditemukan oleh Jaringan Kohonen

Gugus Berkaitan dengan: Keterangan

1 simpul 1 Orang tua dengan penghasilan tinggi


2 simpul 2 Orang tua dengan pendapatan rendah
3 simpul 3 Orang yang lebih muda dengan pendapatan tinggi
4 simpul 4 Orang yang lebih muda dengan pendapatan rendah

VALIDITAS Kluster

Untuk menghindari hasil palsu, dan untuk memastikan bahwa cluster yang dihasilkan mencerminkan
populasi umum, solusi pengelompokan harus divalidasi. Satu umum
metode validasi adalah dengan membagi sampel asli secara acak menjadi dua kelompok, kembangkan
solusi cluster untuk setiap grup, dan kemudian membandingkan profil mereka menggunakan metode
di bawah ini atau metode ringkasan lainnya.
Sekarang, anggaplah seorang peneliti tertarik untuk melakukan inferensi lebih lanjut,
prediksi, atau analisis lain hilir pada bidang tertentu, dan ingin menggunakan
cluster sebagai prediktor. Kemudian, penting bahwa peneliti tidak memasukkan lapangan
menarik sebagai salah satu bidang yang digunakan untuk membangun cluster. Misalnya, dalam contoh
di bawah ini, cluster dibangun menggunakan kumpulan data churn . Kami ingin menggunakan ini
cluster sebagai prediktor untuk bantuan kemudian dalam mengklasifikasikan pelanggan sebagai churners atau tidak.
Oleh karena itu, kita harus berhati-hati untuk tidak memasukkan bidang churn di antara variabel yang digunakan
untuk membangun cluster.

APLIKASI CLUSTERING MENGGUNAKAN


JARINGAN KOHONE

Selanjutnya, kami menerapkan algoritma jaringan Kohonen ke kumpulan data churn dari Bab
3 (tersedia di situs Web seri buku; juga tersedia dari http://www.sgi.com/
teknologi/mlc/db/). Ingat bahwa kumpulan data berisi 20 variabel senilai informasi
sekitar 3333 pelanggan, bersama dengan indikasi apakah pelanggan tersebut churn (kiri
perusahaan) atau tidak. Variabel berikut diteruskan ke jaringan Kohonen
algoritma, menggunakan Clementine:

Tandai (0/1) variabel


Paket Internasional dan Paket Pesan Suara

Variabel numerik

Panjang akun, pesan suara, menit siang, menit sore, malam


menit, menit internasional, dan panggilan layanan pelanggan
Setelah menerapkan normalisasi min-max ke semua variabel numerik

Topologi jaringan seperti pada Gambar 9.3, dengan setiap node di


lapisan input yang terhubung dengan bobot (tidak ditampilkan) ke setiap node di output
Machine Translated by Google

APLIKASI CLUSTERING MENGGUNAKAN JARINGAN KOHONEN 171

02 12 22

Lapisan Keluaran

01 11 21

00 10 20

Lapisan Masukan

VMPlan IntPlan AcctLen VMMess DayMin EveMin NiteMin IntMin CSC

Gambar 9.3 Topologi jaringan Kohonen 3 × 3 yang digunakan untuk mengelompokkan kumpulan data churn.

lapisan, yang diberi label sesuai dengan penggunaannya dalam hasil Clementine. Parameter pembelajaran
Kohonen ditetapkan dalam Clementine sebagai berikut. Untuk 20 siklus pertama (melewati kumpulan data),
ukuran lingkungan ditetapkan pada R = 2, dan kecepatan pembelajaran ditetapkan untuk meluruh secara
linier mulai dari = 0,3. Kemudian, untuk 150 siklus berikutnya, ukuran lingkungan direset ke R = 1 sedangkan
kecepatan belajar dibiarkan menurun secara linier dari = 0,3 sampai pada = 0.

Ternyata, algoritma Clementine Kohonen hanya menggunakan enam dari sembilan simpul keluaran
yang tersedia, seperti yang ditunjukkan pada Gambar 9.4, dengan simpul keluaran 01, 11, dan 21 yang
dipangkas. [Perhatikan bahwa masing-masing dari enam cluster sebenarnya bernilai konstan dalam plot ini,
seperti (0,0), (1,2), dan seterusnya. Kejutan acak (x, y agitasi, kebisingan buatan) diperkenalkan untuk
menggambarkan ukuran keanggotaan cluster.]

Menafsirkan Cluster
Bagaimana kita menginterpretasikan cluster-cluster ini? Bagaimana kita bisa mengembangkan profil cluster?
Pertimbangkan Gambar 9.5, yang merupakan bagan batang kluster, dengan hamparan Paket Pesan Suara.
Cluster 02 dan 12 berisi record hanya jika mereka adalah pengguna dari Paket VoiceMail, sedangkan cluster
00, 10, dan 20 berisi record jika dan hanya jika mereka tidak mengadopsi Paket VoiceMail. Cluster 22 hanya
berisi sebagian kecil dari pengadopsi pesan suara.
Kecuali sebagian kecil catatan dalam klaster 22 ini, algoritme pengelompokan telah menemukan diskriminasi
berkualitas tinggi di sepanjang dimensi ini, membagi kumpulan data hampir sempurna di antara pengadopsi
dan bukan pengadopsi Paket Pesan Suara.
Gambar 9.5 juga menunjukkan kepada kita ukuran relatif dari berbagai cluster. Cluster yang lebih
kecil dari ukuran ambang tertentu mungkin tidak dianggap signifikan, dengan
Machine Translated by Google

172 BAB 9 JARINGAN KOHONEN

1.5

0,5

0 0,5 1 1.5 2
$KX-Kohonen

Gambar 9.4 Clementine menemukan enam kelompok.

ambang batas bervariasi sesuai dengan ukuran kumpulan data, area aplikasi, dan
tugas yang ada. Di sini, cluster 12 hanya berisi 77 record, mewakili 2,31% yang agak
kecil dari kumpulan data. Namun, seperti yang kami sebutkan, ini sangat diskriminatif
sehubungan dengan Paket Pesan Suara. Grafik distribusi kehilangan informasi
pemetaan geografis yang ada di plot cluster asli pada Gambar 9.4. Ingatlah bahwa
karena parameter ketetanggaan, klaster yang berdekatan harus lebih mirip daripada
klaster yang jaraknya lebih jauh. Pertimbangkan plot aslinya, kali ini dengan hamparan
keanggotaan dalam Paket Pesan Suara, seperti pada Gambar 9.6. Plot ini dengan
jelas menggambarkan kedekatan dua cluster, yang hanya berisi pelanggan yang
termasuk dalam Paket VoiceMail, dan oleh karena itu membuat cluster ini lebih mirip.
Cluster 22 di kanan atas juga berisi beberapa pelanggan ini, tetapi tidak ada satu pun
cluster di sepanjang baris bawah yang berisi pelanggan yang mengadopsi Paket Pesan Suara.

Gambar 9.5 Cluster 02 dan 12 hanya berisi pengadopsi Paket Pesan Suara.
Machine Translated by Google

APLIKASI CLUSTERING MENGGUNAKAN JARINGAN KOHONEN 173

1.5

0,5
Paket VMail

Tidak

0 Ya

0 0,5 1 1.5 2
$KX-Kohonen

Gambar 9.6 Cluster serupa lebih dekat satu sama lain.

Selanjutnya, perhatikan Gambar 9.7, yang merupakan plot distribusi klaster, dengan
hamparan Rencana Internasional. Klaster 12 dan 22 berisi catatan jika dan hanya jika mereka
adalah pengadopsi rencana internasional, sedangkan klaster lainnya berisi catatan jika dan
hanya jika mereka tidak mengadopsi rencana internasional. Kali ini, algoritme pengelompokan
telah menemukan diskriminasi "sempurna" lainnya di sepanjang dimensi ini, membagi kumpulan
data secara sempurna antara pengadopsi dan bukan pengadopsi Rencana Internasional.
Kami melihat bahwa kluster 12 mewakili subset khusus pelanggan, mereka yang telah
mengadopsi Paket Internasional dan Paket Pesan Suara. Ini adalah subset basis pelanggan
yang terdefinisi dengan baik, yang mungkin menjelaskan mengapa jaringan Kohonen tidak
mencakupnya, meskipun subset ini hanya mewakili 2,31% pelanggan. Gambar 9.8

Gambar 9.7 Klaster 12 dan 22 hanya berisi pengadopsi Rencana Internasional.


Machine Translated by Google

174 BAB 9 JARINGAN KOHONEN

1.5

0,5
Paket Internasional

Tidak

0 Ya

0 0,5 1 1.5 2

$KX-Kohonen

Gambar 9.8 Plot cluster dengan hamparan Rencana Internasional.

menggarisbawahi kedekatan cluster 12 dan 22, sebagian karena kesamaan mereka dalam
Dimensi Rencana Internasional.
Temuan ini didukung oleh grafik web pada Gambar 9.9, yang menunjukkan
koneksi antara cluster (di bawah), nonadopter dari rencana di atas
kiri, dan pengadopsi rencana di kanan atas. Perhatikan bahwa cluster 12 adalah satu-satunya
cluster dengan koneksi ke kedua node ya , cluster 02 itu menunjukkan koneksi ke

Tidak Ya
Tidak
Ya

00 10 20 02 12 22

Paket Internasional Paket VMail Gugus

Gambar 9.9 Web grafik hubungan antara cluster dan rencana.


Machine Translated by Google

APLIKASI CLUSTERING MENGGUNAKAN JARINGAN KOHONEN 175

TABEL 9.2 Nilai Rata-Rata Cluster untuk Variabel Numerik

VMail Akun Hari Malam Malam Internasional pelanggan

Panjang Cluster Pesan Menit menit menit menit layanan Catatan

00 62.329 0,000 189.256 200.249 209.246 10.203 1.467 852


02 100,722 29,229 178.695 202.366 201.483 10.153 1.531 830
10 101.240 0,000 179.208 202.060 199.434 10.379 1.627 520
12 107,120 31,229 188.781 208.319 203.990 10.919 1.494 83
20 140.948 0,000 167.969 198.451 194.123 10.113 1.694 808
22 103.017 0,529 187.713 202.421 193.789 10.528 1.454 240

ya simpul untuk Paket Pesan Suara, dan kluster 22 itu menunjukkan koneksi ke ya
simpul untuk Rencana Internasional.
Secara umum, tidak semua cluster dijamin menawarkan kemampuan interpretasi yang jelas. Itu
analis data harus bekerja sama dengan pakar domain untuk membahas relevansi dan penerapan
klaster yang ditemukan menggunakan Kohonen atau metode lain. Di sini, bagaimanapun,
sebagian besar cluster tampak cukup jelas dan cukup jelas. Untuk melengkapi file pro cluster kami,
kami mempertimbangkan nilai rata-rata cluster untuk variabel numerik,
seperti yang ditunjukkan pada Tabel 9.2.

Profil Cluster
Cluster 00: Pengguna Berat Pemula. Bukan milik Paket VoiceMail atau
Rencana Internasional, pelanggan di cluster besar 00 mewakili perusahaan
pelanggan terbaru, rata-rata, dengan panjang akun rata-rata terpendek.
Pelanggan ini mengatur kecepatan dengan menit siang dan malam rata-rata tertinggi
penggunaan menit.

Gugus 02: Pengguna Pesan Suara. Cluster besar ini berisi anggota Paket Pesan Suara,
dengan demikian jumlah rata-rata pesan VoiceMail yang tinggi, dan tidak ada
anggota Rencana Internasional. Jika tidak, cluster cenderung ke arah
tengah paket untuk variabel lainnya.

Cluster 10: Pelanggan Rata-Rata. Pelanggan di cluster menengah ini termasuk


baik untuk Paket VoiceMail maupun Rencana Internasional. Kecuali untuk jumlah rata-rata
terbesar kedua panggilan ke layanan pelanggan, cluster ini sebaliknya cenderung
menuju nilai rata-rata untuk variabel lainnya.
Cluster 12: Pelanggan Listrik. Cluster terkecil ini berisi pelanggan
yang termasuk dalam Paket Pesan Suara dan Paket Internasional. Ini
pelanggan canggih juga memimpin paket dalam menit penggunaan di dua kategori dan berada
di tempat kedua dalam dua kategori lainnya. Perusahaan seharusnya
awasi klaster ini, karena mereka dapat mewakili sangat menguntungkan
kelompok.

Cluster 20: Pelanggan Loyal dengan Penggunaan Rendah. Bukan milik VoiceMail
Paket maupun Paket Internasional, pelanggan di kluster besar 20 tetap
Machine Translated by Google

176 BAB 9 JARINGAN KOHONEN

telah bekerja dengan perusahaan paling lama, dengan panjang akun rata-rata terbesar,
yang mungkin terkait dengan jumlah panggilan terbesar ke layanan pelanggan. Cluster ini
menunjukkan penggunaan menit rata-rata terendah untuk menit siang, malam, dan
internasional, dan menit malam terendah kedua.
Cluster 22: Pengguna Paket Internasional. Cluster kecil ini berisi anggota International Plan
dan hanya beberapa anggota VoiceMail Plan. Jumlah panggilan ke layanan pelanggan
paling rendah, yang mungkin berarti bahwa mereka membutuhkan minimal pegangan
tangan. Selain penggunaan menit malam rata-rata terendah, cluster ini cenderung ke arah
nilai rata-rata untuk variabel lainnya.

Profil klaster sendiri dapat bermanfaat bagi perusahaan dan peneliti. Mereka mungkin,
misalnya, menyarankan strategi segmentasi pemasaran di era anggaran menyusut. Daripada
menargetkan seluruh basis pelanggan untuk pengiriman massal, misalnya, mungkin hanya
pelanggan yang paling menguntungkan yang dapat ditargetkan.
Strategi lain adalah mengidentifikasi pelanggan yang potensi kerugiannya akan lebih merugikan
perusahaan, seperti pelanggan di klaster 12 di atas. Akhirnya, kelompok pelanggan dapat
diidentifikasi yang menunjukkan perilaku prediktif dari pengadukan; intervensi dengan pelanggan
ini bisa menyelamatkan mereka untuk perusahaan.
Misalkan, bagaimanapun, bahwa kita ingin menerapkan cluster ini untuk membantu kita
dalam tugas klasifikasi churn . Kita dapat membandingkan proporsi churner di antara berbagai
cluster, menggunakan grafik seperti Gambar 9.10.
Dari gambar tersebut kita dapat melihat bahwa pelanggan di klaster 12 (pelanggan listrik)
dan 22 (pengguna Paket Internasional) berada dalam bahaya terbesar untuk meninggalkan
perusahaan, seperti yang ditunjukkan oleh proporsi churn keseluruhan mereka yang lebih tinggi.
Cluster 02 (pengguna Paket VoiceMail) memiliki tingkat churn terendah. Perusahaan harus melihat
serius Rencana Internasional untuk melihat mengapa pelanggan tampaknya tidak senang dengan
itu. Selain itu, perusahaan harus mendorong lebih banyak pelanggan untuk mengadopsi Paket
VoiceMail, untuk membuat perusahaan beralih menjadi lebih tidak nyaman. Hasil dan rekomendasi
ini mencerminkan temuan kami dari Bab 3, di mana kami awalnya memeriksa hubungan antara
pengadukan dan berbagai bidang. Perhatikan juga bahwa cluster 12 dan 22 adalah cluster tetangga; bahkan

Gambar 9.10 Proporsi churner antar cluster.


Machine Translated by Google

MENGGUNAKAN KEANGGOTAAN CLUSTER SEBAGAI MASUKAN UNTUK MODEL DATA MINING DOWNSTREAM 177

meskipun churn bukanlah bidang input untuk pembentukan cluster, jenis pelanggan yang cenderung churn lebih
mirip satu sama lain daripada pelanggan yang tidak cenderung churn.

MENGGUNAKAN KEANGGOTAAN CLUSTER SEBAGAI MASUKAN UNTUK


MODEL PERTAMBANGAN DATA DOWNSTREAM

Keanggotaan cluster dapat digunakan untuk memperkaya kumpulan data dan meningkatkan kemanjuran model.
Memang, karena penyimpanan data terus bertambah dan jumlah bidang terus meningkat, pengelompokan telah
menjadi metode umum pengurangan dimensi.
Kami akan mengilustrasikan bagaimana keanggotaan cluster dapat digunakan sebagai input untuk
model penambangan data hilir, menggunakan kumpulan data churn dan cluster yang ditemukan di atas. Setiap
record sekarang telah diasosiasikan dengan keanggotaan cluster yang ditetapkan oleh algoritma jaringan
Kohonen. Kami akan memperkaya kumpulan data kami dengan menambahkan bidang keanggotaan cluster ini
ke bidang input yang digunakan untuk mengklasifikasikan churn. Model pohon keputusan CART dijalankan,
untuk mengklasifikasikan pelanggan sebagai churners atau nonchurners. Output pohon keputusan yang
dihasilkan ditunjukkan pada Gambar 9.11.
Pemisahan simpul akar adalah pada apakah DayMin mm (normalisasi min-maks dari menit hari) lebih
besar dari sekitar 0,75. Jika demikian, pemisahan tingkat kedua adalah berdasarkan cluster, dengan cluster 02
terpisah dari cluster yang tersisa. Perhatikan bahwa untuk menit hari yang tinggi, klasifikasi mode adalah True
(churner), tetapi dalam subset ini, keanggotaan di cluster 02 bertindak untuk melindungi dari churn, karena 45
pelanggan dengan menit hari tinggi dan keanggotaan di cluster 02 memiliki probabilitas 97,8% dari tidak
berputar. Ingat bahwa cluster 02, yang bertindak sebagai rem pada perilaku churn, mewakili Pengguna Pesan
Suara, yang memiliki tingkat churn terendah dari cluster mana pun.

Kami beralih ke tugas aturan asosiasi penambangan dalam kumpulan data besar.

Gambar 9.11 Output pohon keputusan CART untuk kumpulan data yang diperkaya dengan keanggotaan cluster.
Machine Translated by Google

178 BAB 9 JARINGAN KOHONEN

REFERENSI
1. Tuevo Kohonen, Formasi mandiri dari peta fitur yang benar secara topologi, Sibernetika Biologis, Vol. 43,
hlm. 59–69, 1982.
2. Simon Haykin, Neural Networks: A Comprehensive Foundation, Prentice Hall, Upper
Saddle River, NJ, 1990.
3. Helge Ritter, Self-organizing feature maps: Kohonen maps, in MA Arbib, ed., The Hand book of Brain
Theory and Neural Networks, hlm. 846–851, MIT Press, Cambridge, MA, 1995.

4. Tuevo Kohonen, Self-Organization and Associative Memory, edisi ke-3, Springer-Verlag,


Berlin, 1989.
5. Laurene Fausett, Dasar-dasar Neural Networks, Prentice Hall, Upper Saddle River,
NJ, 1994.

LATIHAN
1. Jelaskan beberapa kesamaan antara jaringan Kohonen dan jaringan saraf
Bab 7. Jelaskan beberapa perbedaannya.

2. Jelaskan tiga proses karakteristik yang ditunjukkan oleh peta yang mengatur dirinya sendiri seperti jaringan
Kohonen. Apa yang membedakan jaringan Kohonen dari model peta swaorganisasi lainnya?

3. Dengan menggunakan bobot dan jarak, jelaskan dengan jelas mengapa suatu simpul keluaran tertentu akan
memenangkan persaingan untuk masukan suatu record tertentu.

4. Untuk lapisan keluaran yang lebih besar, apa efek dari peningkatan nilai R?

5. Jelaskan apa yang akan terjadi jika kecepatan belajar tidak menurun?

6. Bab ini menunjukkan bagaimana keanggotaan cluster dapat digunakan untuk pemodelan hilir. Apakah ini
berlaku untuk keanggotaan cluster yang diperoleh dengan pengelompokan hierarkis dan k-means juga?

Analisis Langsung
Gunakan kumpulan data dewasa di situs web seri buku untuk latihan berikut.

7. Terapkan algoritma pengelompokan Kohonen ke kumpulan data, berhati-hatilah untuk tidak memasukkan
bidang pendapatan . Gunakan topologi yang tidak terlalu besar, seperti 3×3.

8. Buat plot sebar (dengan agitasi x/y ) dari keanggotaan cluster, dengan overlay
pendapatan . Diskusikan temuan Anda.

9. Buatlah diagram batang keanggotaan cluster, dengan overlay pendapatan. Diskusikan temuan Anda.
Bandingkan dengan plot pencar.

10. Buatlah diagram batang keanggotaan cluster, dengan overlay status perkawinan. Membahas
temuan Anda.

11. Jika perangkat lunak Anda mendukung ini, buatlah grafik web pendapatan, status perkawinan, dan variabel
kategori lainnya. Sempurnakan grafik web sehingga menyampaikan informasi yang baik.

12. Menghasilkan ringkasan numerik untuk cluster. Misalnya, buat rata-rata cluster
ringkasan.
Machine Translated by Google

LATIHAN 179

13. Menggunakan informasi di atas dan informasi lain yang dapat Anda bawa untuk menanggung, membangun
profil cluster yang detail dan informatif, lengkap dengan judulnya.

14. Gunakan keanggotaan cluster sebagai masukan lebih lanjut ke model pohon keputusan CART untuk mengklasifikasikan
pendapatan. Seberapa penting keanggotaan pengelompokan dalam mengklasifikasikan pendapatan?

15. Gunakan keanggotaan cluster sebagai masukan lebih lanjut ke model pohon keputusan C4.5 untuk mengklasifikasikan
pendapatan. Seberapa penting keanggotaan pengelompokan dalam mengklasifikasikan pendapatan? Bandingkan
dengan model CART.
Machine Translated by Google

BAB 10

ATURAN ASOSIASI

ANALISIS AFINITAS DAN ANALISIS KERANJANG PASAR

DUKUNGAN, PERCAYA DIRI, ITEM SERING SERING, DAN PROPERTI A PRIORI


BAGAIMANA ALGORITMA A PRIORI BEKERJA (BAGIAN 1)?
MENGHASILKAN ITEM SERING
BAGAIMANA ALGORITMA A PRIORI BEKERJA (BAGIAN 2)?
PEMBUATAN ATURAN ASOSIASI
PERLUASAN DARI DATA BENDERA KE DATA KATEGORI UMUM
PENDEKATAN TEORI-INFORMASI: ATURAN UMUM
METODE INDUKSI
KAPAN TIDAK MENGGUNAKAN ATURAN ASOSIASI

APAKAH ATURAN ASOSIASI MEWAKILI PEMBELAJARAN TERAWAS ATAU TIDAK TERAWAS?

POLA LOKAL VS MODEL GLOBAL

ANALISIS AFINITAS DAN ANALISIS KERANJANG PASAR

Analisis afinitas adalah studi tentang atribut atau karakteristik yang "berjalan bersama".
Metode untuk analisis afinitas, juga dikenal sebagai analisis keranjang pasar, berusaha
mengungkap hubungan di antara atribut-atribut ini; yaitu, berusaha untuk mengungkap
aturan untuk mengukur hubungan antara dua atau lebih atribut. Aturan asosiasi mengambil
bentuk "Jika anteseden, maka konsekuen," bersama dengan ukuran dukungan dan
kepercayaan yang terkait dengan aturan. Misalnya, supermarket tertentu mungkin
menemukan bahwa dari 1000 pelanggan yang berbelanja pada Kamis malam, 200 membeli
popok, dan dari 200 pelanggan yang membeli popok, 50 membeli bir. Jadi, aturan
asosiasinya adalah: “Jika membeli popok, maka belilah bir,” dengan dukungan 50/1000 = 5% dan keperca
Contoh tugas asosiasi dalam bisnis dan penelitian meliputi:
Menyelidiki proporsi pelanggan paket telepon seluler perusahaan Anda yang
merespons secara positif tawaran peningkatan layanan Memeriksa proporsi anak-
anak yang orang tuanya membacakan untuk mereka yang merupakan pembaca
yang baik

Discovering Knowledge in Data: An Introduction to Data Mining, Oleh Daniel T.


Larose ISBN 0-471-66657-2 Hak Cipta C 2005 John Wiley & Sons, Inc.

180
Machine Translated by Google

ANALISIS AFINITAS DAN ANALISIS KERANJANG PASAR 181

Memprediksi degradasi dalam jaringan telekomunikasi


Mencari tahu barang mana di supermarket yang dibeli bersama, dan barang mana
yang tidak pernah dibeli bersama
Menentukan proporsi kasus di mana obat baru akan menunjukkan efek samping
yang berbahaya

Jenis algoritme apa yang dapat kita terapkan pada aturan asosiasi tambang dari
kumpulan data tertentu? Masalah menakutkan yang menunggu algoritma semacam itu
adalah kutukan dimensi: Jumlah aturan asosiasi yang mungkin tumbuh secara eksponensial
dalam jumlah atribut. Secara khusus, jika ada k atribut, kami membatasi diri pada atribut
biner, kami hanya memperhitungkan kasus positif (misalnya, membeli popok = ya), ada
pada urutan k · 2kÿ1 kemungkinan aturan asosiasi. Pertimbangkan bahwa aplikasi khas
untuk aturan asosiasi adalah analisis keranjang pasar dan mungkin ada ribuan atribut biner
(beli bir? beli popcorn? beli susu? beli roti? dll.), pencarian

Sketch C 2004 oleh Chantal Larose


Machine Translated by Google

182 BAB 10 ATURAN ASOSIASI

TABEL 10.1 Transaksi yang Dilakukan di Warung Sayur Pinggir Jalan

Transaksi Barang yang Dibeli

1 Brokoli, paprika hijau, jagung


2 Asparagus, labu, jagung
3 Jagung, tomat, buncis, labu
4 Paprika hijau, jagung, tomat, buncis
5 Kacang, asparagus, brokoli
6 Labu, asparagus, kacang-kacangan, tomat
7 Tomat, jagung
8 Brokoli, tomat, paprika hijau
9 Labu, asparagus, kacang
10 Kacang, jagung
11 Paprika hijau, brokoli, buncis, labu
12 Asparagus, kacang, labu
13 Labu, jagung, asparagus, kacang
14 Jagung, paprika hijau, tomat, buncis, brokoli

masalah tampaknya pada pandangan pertama benar-benar putus asa. Misalnya, anggaplah a
toko serba ada kecil hanya memiliki 100 item berbeda, dan pelanggan dapat membeli
atau tidak membeli kombinasi dari 100 item tersebut. Lalu ada 100 · 299 6,4 ×1031
kemungkinan aturan asosiasi yang menunggu algoritme pencarian pemberani Anda.
Algoritma apriori untuk aturan asosiasi penambangan, bagaimanapun, mengambil keuntungan
struktur dalam aturan itu sendiri untuk mengurangi masalah pencarian menjadi lebih
ukuran yang dapat dikelola. Namun, sebelum kita memeriksa algoritma apriori, mari kita pertimbangkan
beberapa konsep dasar dan notasi untuk penambangan aturan asosiasi. Kita mulai dengan yang sederhana
contoh.
Misalkan seorang petani setempat telah mendirikan kios sayuran pinggir jalan dan menawarkan
barang-barang berikut untuk dijual: {asparagus, kacang-kacangan, brokoli, jagung, paprika hijau, labu,
tomat}. Tunjukkan set item ini sebagai I. Satu per satu, pelanggan menepi, mengambil
keranjang, dan membeli berbagai kombinasi barang-barang ini, himpunan bagian dari I. (Untuk kami
tujuan, kami tidak melacak berapa banyak setiap item yang dibeli, hanya apakah atau
bukan barang tertentu yang dibeli.) Misalkan Tabel 10.1 mencantumkan transaksi yang dilakukan
pada suatu sore musim gugur yang cerah di kios sayur pinggir jalan ini.

Representasi Data untuk Analisis Keranjang Pasar


Ada dua metode utama untuk mewakili jenis data keranjang pasar ini: menggunakan
format data transaksional atau format data tabular. data transaksi

format hanya membutuhkan dua bidang, bidang ID dan bidang konten , dengan masing-masing perwakilan
rekaman hanya mengirim satu item. Sebagai contoh, data pada Tabel 10.1 dapat direpresentasikan
menggunakan format data transaksional seperti terlihat pada Tabel 10.2.
Dalam format data tabular, setiap record mewakili transaksi terpisah, dengan as
banyak bidang bendera 0/1 karena ada item. Data dari Tabel 10.1 dapat direpresentasikan
menggunakan format data tabular, seperti terlihat pada Tabel 10.3.
Machine Translated by Google

DUKUNGAN, PERCAYA DIRI, ITEM SERING SERING, DAN PROPERTI A PRIORI 183

TABEL 10.2 Format Data Transaksional untuk


Data Stand Sayur Pinggir Jalan

ID transaksi item

1 Brokoli
1 Paprika hijau
1 Jagung

2 Asparagus
2 Labu
2 Jagung

3 Jagung

3 Tomat
.. ..
. .

DUKUNGAN, PERCAYA DIRI, ITEM SERING SERING,


DAN PROPERTI A PRIORI

Misalkan D adalah himpunan transaksi yang direpresentasikan pada Tabel 10.1, di mana setiap transaksi T
di D mewakili satu set item yang terkandung dalam I. Misalkan kita memiliki satu set tertentu dari
item A (misalnya, kacang dan labu), dan satu set item B (misalnya, asparagus). Kemudian
aturan asosiasi mengambil bentuk jika A, maka B (yaitu, A B), di mana anteseden A
dan konsekuen B adalah himpunan bagian diri dari I, dan A dan B saling lepas.
Definisi ini akan mengecualikan, misalnya, aturan sepele seperti jika kacang dan labu,
kemudian kacang.

TABEL 10.3 Format Data Tabular untuk Data Stand Sayur Pinggir Jalan

Transaksi Kacang Asparagus Brokoli Jagung Paprika Hijau Labu Tomat

1 0 0 11 1 0 0
2 1 0 01 0 1 0
3 0 1 01 0 1 1
4 0 1 01 1 0 1
5 1 1 10 0 0 0
6 1 1 00 0 1 1
7 0 0 01 0 0 1
8 0 0 10 1 0 1
9 1 1 00 0 1 0
10 0 1 0 1 0 0 0
11 0 1 1 0 1 1 0
12 1 1 0 0 0 1 0
13 1 1 0 1 0 1 0
14 0 1 1 1 1 0 1
Machine Translated by Google

184 BAB 10 ATURAN ASOSIASI

Dukungan s untuk aturan asosiasi tertentu A B adalah proporsi dari


transaksi di D yang berisi A dan B. Artinya,

jumlah transaksi yang mengandung A dan B


support = P(A B ) = jumlah .
total transaksi

Keyakinan c dari aturan asosiasi A B adalah ukuran akurasi dari


aturan, sebagaimana ditentukan oleh persentase transaksi di D yang mengandung A yang juga
mengandungB. Dengan kata lain,

P(A B )
keyakinan = P(B|A) =
P(A)

= jumlah transaksi yang mengandung A dan B .


jumlah transaksi yang mengandung A

Analis mungkin lebih memilih aturan yang memiliki dukungan tinggi atau kepercayaan tinggi, dan
biasanya keduanya. Aturan yang kuat adalah aturan yang memenuhi atau melampaui dukungan minimum tertentu
dan kriteria kepercayaan. Misalnya, seorang analis yang tertarik untuk menemukan item pasar
super mana yang dibeli bersama dapat menetapkan tingkat dukungan minimum 20% dan
tingkat kepercayaan minimal 70%. Di sisi lain, seorang analis deteksi penipuan
atau analis pendeteksi terorisme perlu mengurangi tingkat dukungan minimum
hingga 1% atau kurang, karena relatif sedikit transaksi yang terkait dengan penipuan atau teror.

Itemset adalah kumpulan item yang terdapat dalam I, dan k-itemset adalah itemset yang berisi
k item. Misalnya, {beans, squash} adalah 2-itemset, dan {broccoli, green peppers,
jagung} adalah 3-itemset, masing-masing dari stand sayuran set I. Frekuensi itemset adalah
hanya jumlah transaksi yang berisi itemset tertentu. Sering _
itemset adalah itemset yang terjadi setidaknya beberapa kali minimum tertentu, memiliki
frekuensi itemset . Sebagai contoh, misalkan kita mengatur = 4. Maka itemset itu
terjadi lebih dari empat kali dikatakan sering. Kami menyatakan himpunan frekuensi
k-itemset asFk .

ATURAN ASOSIASI PERTAMBANGAN

Penambangan aturan asosiasi dari database besar adalah proses dua langkah:

1. Temukan semua item yang sering muncul; yaitu, temukan semua itemset dengan frekuensi .

2. Dari frequent itemsets, buatlah aturan asosiasi yang memenuhi minimum sup
kondisi pelabuhan dan kepercayaan.

Algoritma apriori mengambil keuntungan dari properti apriori untuk mengecilkan


ruang pencarian. Sifat apriori menyatakan bahwa jika suatu itemset Z tidak frequent, maka
menambahkan item A lagi ke item Z tidak akan membuat Z lebih sering. Artinya, jika Z adalah
tidak sering, Z A tidak akan sering. Faktanya, tidak ada superset dari Z (itemset yang mengandung
Machine Translated by Google

BAGAIMANA ALGORITMA A PRIORI BEKERJA (BAGIAN 1)? MENGHASILKAN ITEM SERING 185

Z) akan sering. Properti yang bermanfaat ini secara signifikan mengurangi ruang pencarian untuk
algoritma apriori.

PROPERTI PRIORI

Jika sebuah item Z tidak sering maka untuk setiap item A, Z A tidak akan sering.

BAGAIMANA ALGORITMA A PRIORI BEKERJA (BAGIAN 1)?


MENGHASILKAN ITEM SERING
Perhatikan himpunan transaksi D yang direpresentasikan pada Tabel 10.1. Bagaimana apriori
aturan asosiasi tambang algoritma dari kumpulan data ini?
Misalkan = 4, sehingga suatu itemset menjadi frequent jika muncul empat kali atau lebih di D. We
pertama temukan F1, kumpulan 1-item yang sering, yang hanya mewakili masing-masing sayuran
item itu sendiri. Untuk melakukannya, kita dapat beralih ke Tabel 10.3 dan mengambil jumlah kolom,
yang memberi kita jumlah transaksi yang mengandung setiap sayuran tertentu. Sejak
setiap jumlah memenuhi atau melebihi = 4, kami menyimpulkan bahwa setiap 1-itemset sering terjadi. Dengan demikian,

F1 = {asparagus, buncis, brokoli, jagung, paprika hijau, labu siam, tomat}.


Selanjutnya, kita beralih ke menemukan 2-itemset yang sering. Secara umum, untuk mencari Fk , a
algoritma apriori pertama-tama membangun himpunan Ck dari kandidat k-itemset dengan menggabungkan Fkÿ1 dengan
diri. Kemudian memangkas Ck menggunakan properti apriori. Itemset di Ck yang bertahan
langkah pemangkasan kemudian membentuk Fk . Di sini, C2 terdiri dari semua kombinasi sayuran
pada Tabel 10.4.
Karena = 4, kita memiliki F2 = { {asparagus, beans}, {asparagus, squash}, {beans,
jagung}, dan {kacang, labu}, {kacang, tomat}, {brokoli, paprika hijau}, {jagung,
tomat} }. Selanjutnya, kami menggunakan frequent itemsets di F2 untuk menghasilkan C3, kandidat

TABEL 10.4 Kandidat 2-ItemSet

Kombinasi Menghitung Kombinasi Menghitung

Asparagus, kacang-kacangan 5 Brokoli, jagung 2


Asparagus, brokoli 1 Brokoli, paprika hijau 4
Asparagus, jagung 2 Brokoli, labu 1
Asparagus, paprika hijau 0 Brokoli, tomat 2
Asparagus, labu 5 Jagung, paprika hijau 3
Asparagus, tomat 1 Jagung, labu 3
Kacang, brokoli 3 Jagung, tomat 4
Kacang, jagung 5 Paprika hijau, labu 1
Kacang, paprika hijau 3 Paprika hijau, tomat 3
Kacang, labu 6 Labu, tomat 2
Kacang, tomat 4
Machine Translated by Google

186 BAB 10 ATURAN ASOSIASI

3-itemset. Untuk melakukannya, kita gabungkan F2 dengan dirinya sendiri, di mana itemset
digabungkan jika mereka memiliki k 1 item pertama yang sama (dalam urutan abjad). Misalnya,
{asparagus, beans} dan {asparagus, squash} memiliki k 1 = 1 item pertama yang sama,
asparagus. Dengan demikian, mereka bergabung ke dalam itemset kandidat baru {asparagus,
beans, squash}. Demikian pula, {beans, corn} dan {beans, squash} memiliki item pertama, beans,
yang sama, menghasilkan kandidat 3-itemset {beans, corn, squash}. Akhirnya, kandidat 3-itemset
{kacang, jagung, tomat} dan {kacang, labu, tomat} dihasilkan dengan cara yang sama. Jadi, C3
= { {asparagus, beans, squash}, {beans, corn, squash}, {beans, corn, tomato}, {beans, squash,
tomato} }.
C3 kemudian dipangkas, menggunakan properti apriori. Untuk setiap itemset s di C3,
subset ukurannya k 1 dibangkitkan dan diperiksa. Jika salah satu dari subset ini tidak sering, s
tidak dapat sering dan karena itu dipangkas. Misalnya, misalkan s = {asparagus, beans, squash}.
Subset ukuran k 1 = 2 dihasilkan, sebagai berikut: {asparagus, beans}, {asparagus, squash}, dan
{beans, squash}. Dari Tabel 10.4 kita melihat bahwa masing-masing himpunan bagian ini sering
dan oleh karena itu s = {asparagus, beans, squash} tidak dipangkas.
Pembaca akan memverifikasi bahwa s = {kacang, jagung, tomat} juga tidak akan dipangkas.
Namun, pertimbangkan s = {kacang, jagung, labu}. Subset {corn, squash} memiliki
, sehingga
< 4 = oleh karena itu, {beans, corn, {corn,
squash}squash}
tidak dapat
tidak sering.
sering, Dengan
oleh karena
sifatitu
apriori,
dipangkas,
frekuensi
dan3
tidak muncul di F3. Pertimbangkan juga s = {kacang, labu, tomat}. Subset {squash, tomato}
memiliki frekuensi 2 < 4 = dan karenanya tidak sering. Sekali lagi, dengan sifat apriori, supersetnya
, dan juga dipangkas, tidak muncul di F3.
{beans, squash, tomato} tidak dapat sering

Kami masih perlu memeriksa jumlah kandidat frequent itemset ini. Itemset {asparagus,
beans, squash} muncul empat kali dalam daftar transaksi, {beans, corn, tomato} hanya muncul
tiga kali. Oleh karena itu, kumpulan item kandidat terakhir juga dipangkas, meninggalkan kita
dengan kumpulan item tunggal tunggal di F3: {asparagus, beans, squash}. Ini menyelesaikan
tugas menemukan frequent itemset untuk data tegakan sayuran D.

BAGAIMANA ALGORITMA A PRIORI BEKERJA (BAGIAN 2)?


PEMBUATAN ATURAN ASOSIASI

Selanjutnya, kita beralih ke tugas menghasilkan aturan asosiasi menggunakan frequent itemsets.
Hal ini dicapai dengan menggunakan proses dua langkah berikut, untuk setiap itemset yang sering:

PEMBUATAN ATURAN ASOSIASI

1. Pertama, buat semua himpunan bagian dari s.

2. Kemudian, mari kita merepresentasikan subset dari yang tidak kosong . Pertimbangkan aturan asosiasi R : ss (s ss ) , di
mana (s ss ) menunjukkan himpunan s tanpa ss. Hasilkan (dan keluaran) R jika R memenuhi persyaratan kepercayaan
minimum. Lakukan untuk setiap subset ss dari s. Perhatikan bahwa untuk kesederhanaan, konsekuen item tunggal sering
diinginkan.
Machine Translated by Google

BAGAIMANA ALGORITMA A PRIORI BEKERJA (BAGIAN 2)? ATURAN PEMBUATAN ASOSIASI 187

TABEL 10.5 Aturan Asosiasi Kandidat untuk Data Tegakan Sayuran: Dua Anteseden

Jika Anteseden, maka Konsekuen Mendukung Kepercayaan diri

Jika membeli asparagus dan kacang-kacangan, maka belilah labu 4/14 = 28,6% 4/14 4/5 = 80%
Jika membeli asparagus dan labu, maka beli kacang = 28,6% 4/14 = 4/5 = 80%
Jika membeli kacang dan labu, maka belilah asparagus 28,6% 4/6 = 66,7%

Misalnya, misalkan s = {asparagus, beans, squash} dari F3. Subset yang tepat
dari s adalah {asparagus}, {kacang}, {squash}, {asparagus, beans}, {asparagus, squash},
{kacang, labu}. Untuk aturan asosiasi pertama yang ditunjukkan pada Tabel 10.5, kita biarkan ss =
{asparagus, beans}, sehingga (s – ss) = {squash}. Kami mempertimbangkan aturan R: {asparagus,
kacang} {labu}. Dukungan adalah proporsi transaksi di mana keduanya
{asparagus, beans} dan {squash} terjadi, yaitu 4 (atau 28,6%) dari 14 total tindakan trans di D. Untuk menemukan
kepercayaan, kami mencatat bahwa {asparagus, beans} terjadi di lima
dari 14 transaksi, empat di antaranya juga mengandung {squash}, memberi kami kepercayaan diri
dari 4/5 = 80%. Statistik untuk aturan kedua pada Tabel 10.5 muncul dengan cara yang sama. Untuk
aturan ketiga pada Tabel 10.5, dukungannya masih 4/14 = 28,6%, tetapi kepercayaannya turun ke
66,7%. Ini karena {beans, squash} terjadi dalam enam transaksi, empat di antaranya juga
mengandung {asparagus}. Dengan asumsi bahwa kriteria kepercayaan minimum kami ditetapkan pada 60%
dan bahwa kami menginginkan satu konsekuensi, oleh karena itu kami memiliki aturan kandidat yang ditunjukkan
pada Tabel 10.5. Jika kepercayaan minimum kami ditetapkan pada 80%, aturan ketiga tidak akan
dilaporkan.
Akhirnya, kita beralih ke aturan anteseden/konsekuen tunggal. Menerapkan
metode pembuatan aturan asosiasi yang diuraikan dalam kotak di atas, dan menggunakan itemset
di F2, kami dapat menghasilkan aturan asosiasi kandidat yang ditunjukkan pada Tabel 10.6.
Untuk memberikan ukuran keseluruhan kegunaan untuk aturan asosiasi, analis
terkadang kalikan dukungan kali kepercayaan diri. Ini memungkinkan analis untuk menentukan peringkat

TABEL 10.6 Aturan Asosiasi Kandidat untuk Data Tegakan Sayuran: Satu Anteseden

Jika Anteseden, maka Konsekuen Mendukung Kepercayaan diri

Jika membeli asparagus, maka belilah kacang 5/14 = 35,7% 5/14 5/6 = 83,3%

Jika membeli kacang, maka belilah asparagus = 35,7% 5/14 = 5/10 = 50%

Jika membeli asparagus, maka belilah labu 35,7% 5/14 = 35,7% 5/6 = 83,3%

Jika membeli squash, maka belilah asparagus 5/14 = 35,7% 5/14 5/7 = 71,4%

Jika membeli kacang, maka belilah jagung = 35,7% 6/14 = 5/10 = 50%

Jika membeli jagung, maka belilah kacang 42,9% 6/14 = 42,9% 5/8 = 62,5%

Jika membeli kacang, maka belilah labu 4/ 14 = 28,6% 4/14 6/10 = 60%

Jika membeli labu, maka beli kacang = 28,6% 4/14 = 6/7 = 85,7%

Jika membeli kacang, maka belilah tomat 28,6% 4/14 = 28,6% 4/10 = 40%

Jika membeli tomat, maka belilah kacang 4/14 = 28,6% 4/14 4/6 = 66,7%

Jika membeli brokoli, maka belilah paprika hijau = 28,6% 4/5 = 80%

Jika membeli paprika hijau, maka belilah brokoli 4/5 = 80%

Jika membeli jagung, maka belilah tomat 4/8 = 50%

Jika membeli tomat, maka belilah jagung 4/6 = 66,7%


Machine Translated by Google

188 BAB 10 ATURAN ASOSIASI

TABEL 10.7 Daftar Final Aturan Asosiasi untuk Data Tegakan Sayuran:
Peringkat oleh Dukungan × Keyakinan, Keyakinan Minimum 80%

Jika Anteseden, Dukungan ×


maka Konsekuen Mendukung Kepercayaan diri Kepercayaan diri

Jika membeli labu, maka beli kacang 6/14 = 42,9% 5/14 6/7 = 85,7% 5/6 0.3677

Jika membeli asparagus, maka belilah kacang = 35,7% 5/14 = = 83,3% 5/6 = 0.2974

Jika membeli asparagus, maka belilah labu 35,7% 4/14 = 83,3% 4/5 = 0.2974

Jika membeli brokoli, maka belilah paprika hijau 28,6% 4/14 = 80% 4/5 = 80% 0,2288

Jika membeli paprika hijau, maka belilah brokoli 28,6% 4/14 = 4/5 = 80% 0,2288

Jika membeli asparagus dan kacang-kacangan, maka belilah 28,6% 0,2288

labu
Jika membeli asparagus dan labu, maka belilah 14/4 = 28,6% 4/5 = 80% 0,2288
kacang polong

aturan menurut kombinasi prevalensi dan akurasi. Tabel 10.7 menyediakan


daftar seperti itu untuk kumpulan data kami saat ini, setelah terlebih dahulu memfilter aturan melalui minimum
tingkat kepercayaan 80%.
Bandingkan Tabel 10.7 dengan Gambar 10.1, aturan asosiasi yang dilaporkan oleh versi
Clemen tine dari algoritma apriori, dengan keyakinan minimal 80%, dan diurutkan
dengan dukungan × keyakinan. Kolom pertama menunjukkan jumlah instance yang
antecedent terjadi dalam transaksi. Kolom kedua, yang disebut Clementine
"dukungan," sebenarnya bukan apa yang kami definisikan sebagai dukungan dalam bab ini (berikut
Han dan Kamber[1], Hand et al.[2], dan teks lainnya). Sebaliknya, apa yang Clementine sebut
"dukungan" adalah proporsi kemunculan anteseden saja daripada

Gambar 10.1 Aturan asosiasi untuk data tegakan sayuran, dibuat oleh Clementine.
Machine Translated by Google

PERLUASAN DARI DATA BENDERA KE DATA KATEGORI UMUM 189

anteseden dan konsekuen. Untuk menemukan dukungan aktual untuk aturan asosiasi menggunakan
hasil Clementine, kalikan "dukungan" yang dilaporkan dikalikan kepercayaan yang dilaporkan.
Perhatikan bahwa setelah kolom keyakinan, konsekuen tunggal muncul, diikuti oleh
anteseden pertama dan kedua (jika ada). Terlepas dari anomali "dukungan", aturan asosiasi
perangkat lunak yang ditunjukkan pada Gambar 10.1 mewakili aturan yang sama seperti yang
kami temukan langkah demi langkah, dan dengan tangan, untuk data tegakan sayuran.
Berbekal pengetahuan tersebut, pengusaha kios sayur dapat menerapkan strategi
pemasaran yang memanfaatkan pola-pola yang terungkap di atas. Mengapa produk khusus ini
muncul bersama di keranjang pasar pelanggan? Haruskah tata letak produk diubah untuk
memudahkan pelanggan membeli produk ini bersama-sama?
Haruskah personel disiagakan untuk mengingatkan pelanggan agar tidak melupakan item B saat
membeli item A terkait?

PERLUASAN DARI DATA BENDERA KE UMUM


KATEGORI DATA

Sejauh ini, kami telah memeriksa aturan asosiasi menggunakan tipe data flag saja. Artinya, semua
atribut tegakan sayuran berbentuk flag Boolean 0/1, menghasilkan format data tabular yang
ditemukan pada Tabel 10.3, yang mencerminkan masalah analisis keranjang pasar yang
sederhana. Namun, aturan asosiasi tidak dibatasi untuk menandai tipe data. Secara khusus,
algoritma apriori dapat diterapkan pada data kategorikal secara umum. Mari kita lihat sebuah
contoh.
Ingat kumpulan data dewasa yang dinormalisasi yang dianalisis dalam Bab 6 dan 7. Di sini,
di Bab 10, kami menerapkan algoritme apriori ke variabel kategori dalam kumpulan data yang
sama, menggunakan Clementine. Dukungan minimum 10% dan kepercayaan minimum 75%
ditentukan, dengan aturan asosiasi yang dihasilkan ditunjukkan pada Gambar 10.2.
Aturan dengan keyakinan tertinggi masing-masing memiliki jenis kelamin = Laki -laki sebagai
konsekuensinya, yang mencerminkan rasio 2:1 laki-laki-perempuan dalam kumpulan data. Ingat
bahwa ada beberapa nilai untuk Status Perkawinan dan Kelas Kerja, sehingga atribut ini benar-
benar atribut kategoris nonflag. Algoritme apriori hanya menemukan frequent itemsets seperti
sebelumnya, kali ini menghitung kemunculan nilai-nilai variabel kategori daripada hanya kemunculan
flag.
Sebagai contoh, perhatikan aturan kelima yang dilaporkan pada Gambar 10.2: “Jika Status
Perkawinan = Belum pernah menikah, maka Kelas Kerja = Privat,” dengan keyakinan 76,9%. Ada

Gambar 10.2 Aturan asosiasi untuk atribut kategoris yang ditemukan oleh algoritma apriori.
Machine Translated by Google

190 BAB 10 ATURAN ASOSIASI

8217 contoh dalam kumpulan data di mana atribut Status Perkawinan mengambil nilai Tidak
pernah menikah, yang mewakili 32,9% dari jumlah catatan dalam kumpulan data.
(Sekali lagi, Clementine mengacu pada ini sebagai "dukungan," yang bukan bagaimana
kebanyakan peneliti mendefinisikan istilah itu.) Dukungan untuk aturan ini adalah (0,329) (0,766)
= 0,252. Artinya, 25,2% dari catatan berisi nilai Tidak Pernah Menikah untuk Status Perkawinan
dan nilai Privat untuk Kelas Kerja, sehingga membuat pasangan ini sering menjadi 2-item set
atribut kategoris.

PENDEKATAN TEORI-INFORMASI:
METODE INDUKSI ATURAN UMUM

Struktur aturan asosiasi, di mana anteseden dan konsekuen keduanya pernyataan Boolean,
membuatnya sangat cocok untuk menangani data kategorikal, seperti yang telah kita lihat.
Namun, apa yang terjadi ketika kami mencoba memperluas penambangan aturan asosiasi kami
ke rentang data yang lebih luas, khususnya, atribut numerik?
Tentu saja, selalu mungkin untuk membedakan atribut numerik, misalnya, dengan
secara sewenang-wenang mendefinisikan pendapatan di bawah $30.000 sebagai rendah,
pendapatan di atas $70.000 sebagai tinggi, dan pendapatan lainnya sebagai sedang. Juga, kita
telah melihat bagaimana C4.5 dan CART menangani atribut numerik dengan mendiskritisasi
variabel numerik di lokasi yang menguntungkan. Sayangnya, algoritme apriori tidak dilengkapi
dengan baik untuk menangani atribut numerik kecuali jika atribut tersebut didiskritisasi selama
prapemrosesan. Tentu saja, diskritisasi dapat menyebabkan hilangnya informasi, jadi jika analis
memiliki input numerik dan memilih untuk tidak mendiskritkannya, dia dapat memilih untuk
menerapkan metode alternatif untuk aturan asosiasi penambangan: induksi aturan umum (GRI).
Metodologi GRI dapat menangani variabel kategoris atau numerik sebagai input, tetapi masih
memerlukan variabel kategoris sebagai output.
Induksi aturan umum diperkenalkan oleh Smyth dan Goodman pada tahun 1992[3].
Daripada menggunakan frequent itemsets, GRI menerapkan pendekatan teori informasi (seperti
yang dilakukan algoritma pohon keputusan C4.5) untuk menentukan "ketertarikan" dari aturan
asosiasi kandidat.

J-Measure
Secara khusus, GRI menerapkan ukuran-J:

p(y|x) 1 p(y|x)
J = p(x) p(y|x) ln + [1 p(y|x)] ln p(y) 1 p(y)

di mana

p(x) mewakili probabilitas atau keyakinan dari nilai x yang diamati. Ini adalah ukuran
cakupan anteseden. Seberapa lazim nilai atribut anteseden ini? Anda dapat menghitung
p(x) menggunakan distribusi frekuensi untuk variabel di anteseden.

p(y) mewakili probabilitas atau keyakinan sebelumnya dari nilai y. Ini adalah ukuran
prevalensi nilai y yang diamati dalam konsekuen.
Machine Translated by Google

PENDEKATAN TEORI INFORMASI: METODE INDUKSI ATURAN UMUM 191

Anda dapat menghitung p(y) menggunakan distribusi frekuensi untuk variabel konsekuen. p(y|x)
mewakili probabilitas bersyarat, atau keyakinan posterior, dari y jika x telah terjadi. Ini adalah ukuran

probabilitas nilai y yang diamati mengingat nilai x ini telah terjadi. Artinya, p(y|x) mewakili probabilitas
yang diperbarui untuk mengamati nilai y ini setelah memperhitungkan pengetahuan tambahan
tentang nilai x. Dalam terminologi aturan asosiasi, p(y|x) diukur secara langsung dengan kepercayaan
aturan. ln mewakili fungsi log natural (log ke basis e).

Untuk aturan dengan lebih dari satu anteseden, p(x) dianggap sebagai probabilitas konjungsi dari
nilai-nilai variabel dalam anteseden.
Seperti biasa, pengguna menentukan dukungan minimum dan kriteria kepercayaan yang diinginkan.
Namun, untuk GRI, pengguna juga menentukan berapa banyak aturan asosiasi yang ingin dia laporkan,
sehingga menentukan ukuran tabel aturan asosiasi yang dirujuk oleh algoritme. Algoritme GRI kemudian
menghasilkan aturan asosiasi anteseden tunggal, dan menghitung J nilai J -measure untuk aturan tersebut.
Jika "ketertarikan" dari aturan
, saat baru, seperti
ini dalam yang dikuantifikasi
tabel aturan, oleh ukuran-ke
aturan baru dimasukkan J ,dalam
lebih tinggi dari J minimum
tabel aturan, yang
menjaga ukuran konstan dengan menghilangkan aturan dengan minimal J _

Aturan yang lebih khusus dengan lebih banyak anteseden


kemudian dipertimbangkan.

Bagaimana perilaku J -statistik dijelaskan? Jelas [karena p(x) berada di luar tanda kurung], nilai J
yang lebih tinggi akan dikaitkan dengan nilai p(x) yang lebih tinggi.
Artinya, J -measure akan cenderung mendukung aturan-aturan yang nilai antesedennya lebih umum,
mencerminkan cakupan yang lebih tinggi dalam kumpulan data. Juga, ukuran J cenderung ke arah nilai
yang lebih tinggi ketika p(y) dan p(y|x) lebih ekstrim (mendekati nol atau 1). Oleh karena itu, ukuran- J juga
akan cenderung mendukung aturan-aturan yang probabilitas konsekuensinya, p(y), lebih ekstrem, atau
yang keyakinan aturannya, p(y|x), lebih ekstrem.
J -measure menyukai aturan dengan kepercayaan sangat tinggi atau sangat rendah. Mengapa kita
tertarik pada aturan asosiasi dengan keyakinan yang sangat rendah? Misalnya, kita memiliki aturan R : Jika
membeli bir, kemudian membeli cat kuku, dengan keyakinan p(y|x) = 0,01%, yang mungkin akan disukai
oleh ukuran- J , karena kepercayaannya sangat rendah. Analis kemudian dapat mempertimbangkan bentuk
negatif dari R: Jika membeli bir, maka TIDAK membeli cat kuku, dengan keyakinan 99,99%. Meskipun
aturan negatif seperti itu sering kali menarik ("Saya kira kita lebih baik memindahkan cat kuku itu dari bagian
bir ..."), mereka sering tidak dapat ditindaklanjuti secara langsung.

Penerapan Induksi Aturan Umum


Mari kembali ke kumpulan data "dewasa" untuk contoh cara menghitung ukuran- J .
Kami menerapkan algoritma GRI Clementine ke variabel kategori dalam kumpulan data, sekali lagi
menetapkan dukungan minimum 10% dan kepercayaan minimum 75%, dan mengatur ukuran maksimum
tabel aturan menjadi 30. Hasilnya ditunjukkan pada Gambar 10.3.
Mari kita cari J -measure untuk aturan pergaulan keenam pada Gambar 10.3: Jika Jenis Kelamin =
Perempuan dan Status Perkawinan = Belum Pernah Menikah, maka Kelas Pekerjaan = Privat, dengan
Machine Translated by Google

192 BAB 10 ATURAN ASOSIASI

Gambar 10.3 Aturan asosiasi yang ditemukan oleh algoritma induksi aturan umum.

kepercayaan diri 76,3% dan dukungan 11,1% (bukan 14,6%). Kami membutuhkan statistik berikut:

p(x), mewakili probabilitas bahwa catatan yang dipilih secara acak adalah catatan wanita
belum kawin. Clementine memberikan ini secara langsung sebagai p(x) = 0,1463. p(y),
mewakili probabilitas sebelumnya bahwa record yang dipilih secara acak akan memiliki
atribut Private for the Work Class . Dengan menggunakan distribusi frekuensi pada Gambar
10.4, kita dapat melihat bahwa probabilitas sebelumnya adalah p(y) = 0,6958. p(y|
x),mewakili probabilitas bersyarat bahwa sebuah record memiliki atribut Private for the
Work Class , mengingat record tersebut mewakili seorang wanita yang belum pernah menikah.
Ini tidak lain adalah keyakinan yang dilaporkan untuk aturan, p(y|x) = 0,763.

Memasukkan nilai-nilai ini ke dalam rumus untuk J -measure, kita dapatkan

p(y|x) 1 p(y|x)
J = p(x) p(y|x) ln + [1 p(y|x)] ln p(y) 1 p(y)

0,763 0.237
= 0,1463 0,763 ln + (0,237) ln 0,6958 0,3042 =
0,1463 [0,763 ln (1,0966) +
(0,237) ln(0,7791)]
= 0,001637

Gambar 10.4 Menemukan p(y): probabilitas sebelumnya dari Kelas Kerja = Swasta.
Machine Translated by Google

KAPAN TIDAK MENGGUNAKAN ATURAN ASOSIASI 193

Gambar 10.5 Algoritma GRI menghasilkan aturan asosiasi untuk anteseden numerik.

Seperti disebutkan di atas, GRI dapat menangani input numerik serta input kal kategori. Kami
mengilustrasikan ini menggunakan Clementine pada kumpulan data dewasa , menginstruksikan
algoritme GRI untuk menerima variabel numerik dan variabel kategoris sebagai kemungkinan
anteseden (walaupun, tetap saja, hanya variabel kategoris yang merupakan konsekuensi yang mungkin).
Hasilnya, untuk kriteria dukungan dan kepercayaan minimum yang serupa dengan yang di atas,
ditunjukkan pada Gambar 10.5.
Misalnya, perhatikan aturan asosiasi keenam dari Gambar 10.5, Jika usia <0,445 dan angka
pendidikan <0,767, maka Kelas Kerja = Swasta. Kedua anteseden adalah numerik dengan variabel
dinormalisasi sehingga semua nilai berada di antara nol dan 1.
Probabilitas anteseden adalah p(x) = 0,2948, memberi tahu kita bahwa 29,48% dari semua catatan
memiliki usia <0,445 dan angka pendidikan <0,767. Nilai p(y), yang mewakili P(Kelas Kerja) = Privat,
masih 0,6958 dari contoh sebelumnya. Akhirnya, p(y|x), mewakili probabilitas bersyarat bahwa sebuah
record memiliki atribut Private for the Work Class yang diberikan bahwa record tersebut memiliki usia
<0,445 dan angka pendidikan <0,767, diberikan oleh keyakinan untuk aturan, p( y|x)=0,80. Menemukan
nilai J -measure untuk aturan ini dibiarkan sebagai latihan.

KAPAN TIDAK MENGGUNAKAN ATURAN ASOSIASI

Aturan asosiasi perlu diterapkan dengan hati-hati, karena hasilnya terkadang menipu. Mari kita lihat
sebuah contoh. Kembali ke algoritme apriori, kami meminta Clementine untuk menambang aturan
asosiasi dari database dewasa menggunakan dukungan minimum 10%, kepercayaan minimum 60%,
dan maksimum dua anteseden. Hasilnya ditunjukkan pada Gambar 10.6.

Pertimbangkan, misalnya, aturan asosiasi ketiga dari bawah, Jika Kelas Kerja = Pemerintah,
maka jenis kelamin = Laki-laki, dengan kepercayaan 62,7%. Analis pemasaran yang tertarik pada
pegawai pemerintah mungkin tergoda untuk menggunakan aturan asosiasi ini untuk mendukung
strategi pemasaran baru yang ditujukan untuk laki-laki. Namun, dilihat dari sudut pandang yang tepat,
aturan ini mungkin sebenarnya tidak berguna.
Kita perlu memperhitungkan proporsi mentah (sebelumnya) laki-laki dalam kumpulan data,
yang dalam hal ini adalah 66,83%. Dengan kata lain, menerapkan aturan asosiasi ini sebenarnya
Machine Translated by Google

194 BAB 10 ATURAN ASOSIASI

Gambar 10.6 Aturan asosiasi dipilih secara apriori, berdasarkan keyakinan aturan.

mengurangi kemungkinan pemilihan secara acak laki-laki dari 0,6683 menjadi 0,627. Anda akan lebih baik
disarankan untuk mengeluarkan nama dari seluruh kumpulan data daripada menerapkan aturan ini.

Lalu mengapa, jika aturannya sangat tidak berguna, apakah perangkat lunak melaporkannya? Jawaban
cepatnya adalah bahwa mekanisme peringkat default untuk algoritma apriori Clementine adalah kepercayaan.
Namun, perlu ditekankan di sini bahwa penambang data tidak boleh begitu saja mempercayai keluaran komputer
tanpa berusaha memahami model dan mekanisme yang mendasari hasil. Dengan munculnya perangkat lunak
penambangan data titik-dan-klik yang canggih, analisis yang buruk yang menghabiskan biaya jutaan dolar
menjadi lebih umum daripada sebelumnya. Singkatnya, penambangan data mudah dilakukan dengan buruk.
Keahlian manusia yang berwawasan luas dan kewaspadaan manusia yang konstan diperlukan untuk
menerjemahkan nugget yang tersembunyi dalam database menjadi hasil yang dapat ditindaklanjuti dan
menguntungkan.
Aturan lain yang tidak berguna dalam hasil Gambar 10.6 meliputi:

Jika jenis kelamin = Laki-laki dan Status Perkawinan = Menikah, maka Kelas Pekerjaan = Privat

Keyakinan : 64,8%

Probabilitas sebelumnya dari Kelas Kerja = Privat: 69,58% Jika Kelas

Kerja = Privat maka jenis kelamin = Laki -laki

Keyakinan: 65,6%

Kemungkinan jenis kelamin sebelumnya = Laki-laki: 66,83 %

Jika jenis kelamin = Laki-laki, maka Kelas Kerja = Privat

Keyakinan: 68,3%

Probabilitas Sebelumnya Kelas Kerja = Privat: 69,58%


Machine Translated by Google

KAPAN TIDAK MENGGUNAKAN ATURAN ASOSIASI 195

Gambar 10.7 Aturan asosiasi dipilih secara apriori, berdasarkan perbedaan keyakinan.

Dalam setiap kasus ini, pemilihan acak dari database akan memberikan hasil yang lebih
efektif daripada menerapkan aturan asosiasi. Dengan asosiasi
aturan, orang perlu mengingat probabilitas sebelumnya yang terlibat. Sebagai ilustrasi, kita sekarang
minta Clementine untuk memberi kami aturan asosiasi apriori, tapi kali ini menggunakan
perbedaan kepercayaan sebagai ukuran evaluatif. Di sini, aturan lebih disukai yang menyediakan
peningkatan kepercayaan diri terbesar dari sebelumnya ke posterior. Hasilnya adalah
ditunjukkan pada Gambar 10.7.
Perhatikan bahwa tidak ada aturan yang tidak berguna yang dilaporkan pada Gambar 10.6 yang
muncul pada Gambar 10.7. Juga, perhatikan kolom baru, Evaluasi, yang mengukur perbedaan mutlak
antara kepercayaan sebelumnya dan kepercayaan posterior. Misalnya, pertimbangkan aturan terakhir dalam
daftarnya: Jika Status Perkawinan = Cerai, maka jenis kelamin = Perempuan. Aturan ini (yang, ingat,
berlaku untuk kumpulan data dewasa dan belum tentu untuk populasi AS pada umumnya) juga
kebetulan memiliki nilai evaluasi terbesar untuk aturan yang dilaporkan. Probabilitas sebelumnya
dalam database ini memilih secara acak seorang wanita adalah 33,17%, sedangkan kepercayaan
untuk aturan ini adalah 60%. Ini memberi kita perbedaan 0,3317 0,60=0,2683 antara
kepercayaan sebelumnya dan kepercayaan posterior. Perhatikan bahwa aturan ini juga dilaporkan pada Gambar 10.6,
tetapi tersembunyi di antara aturan yang tidak berguna.
Atau, analis mungkin lebih suka menggunakan rasio kepercayaan untuk mengevaluasi aturan
potensial. Ini didefinisikan sebagai

p(y|x) p(y)
rasio kepercayaan = 1 min ,
p(y) p(y|x)

Misalnya, untuk aturan: Jika Status Perkawinan = Cerai, maka jenis kelamin = Perempuan, kami memiliki
p(y) = 0,3317 dan p(y|x) = 0,60, sehingga

p(y|x) p(y) p(y) 0.3317


min , = = = 0,5528
p(y) p(y|x) p(y|x) 0,60

dan rasio kepercayaan sama dengan 1 0,5528 = 0,4472. Hal ini ditegaskan oleh
ukuran evaluasi untuk aturan ini pada Gambar 10.8.
Machine Translated by Google

196 BAB 10 ATURAN ASOSIASI

Gambar 10.8 Aturan asosiasi dipilih secara apriori, berdasarkan rasio kepercayaan.

Perhatikan bahwa dalam kasus ini, kriteria perbedaan kepercayaan menghasilkan aturan yang sama
seperti kriteria rasio kepercayaan. Ini tidak harus selalu demikian. Dalam latihan kami mengeksplorasi lebih jauh
perbedaan di antara kriteria pemilihan aturan ini.

APAKAH ATURAN ASOSIASI MEWAKILI PEMBELAJARAN


TERAWAS ATAU TIDAK TERAWAS?

Sebelum kita meninggalkan subjek aturan asosiasi, mari kita sentuh beberapa topik yang menarik.
Pertama, kita mungkin bertanya apakah aturan asosiasi mewakili pembelajaran yang diawasi atau tidak. Ingatlah
bahwa sebagian besar metode penambangan data mewakili pembelajaran yang diawasi, karena (1) variabel
target telah ditentukan sebelumnya, dan (2) algoritme dilengkapi dengan kumpulan contoh yang kaya di mana
kemungkinan hubungan antara variabel target dan variabel prediktor dapat ditemukan. Sebaliknya, dalam
pembelajaran tanpa pengawasan, tidak ada variabel target yang diidentifikasi secara eksplisit. Sebaliknya,
algoritma data mining mencari pola dan struktur di antara semua variabel. Clustering mungkin merupakan metode
penambangan data tanpa pengawasan yang paling umum.

Penambangan aturan asosiasi, bagaimanapun, dapat diterapkan baik dengan cara yang diawasi atau
tidak. Dalam analisis keranjang pasar, misalnya, seseorang mungkin hanya tertarik pada "barang mana yang
dibeli bersama-sama," dalam hal ini tidak ada variabel target yang akan diidentifikasi. Di sisi lain, beberapa
kumpulan data secara alami terstruktur sehingga variabel tertentu memenuhi peran konsekuen, dan bukan
anteseden (lihat contoh permainan dalam latihan). Misalnya, misalkan lembaga survei politik telah mengumpulkan
data demografis di exit polling mereka, bersama dengan preferensi voting subjek. Dalam hal ini, aturan asosiasi
dapat ditambang dari kumpulan data ini, di mana informasi demografis dapat mewakili kemungkinan sebelumnya,
dan preferensi pemungutan suara dapat mewakili satu konsekuensi kepentingan. Dengan cara ini, aturan asosiasi
dapat digunakan untuk membantu mengklasifikasikan preferensi pemilih warga dengan karakteristik demografis
tertentu, dalam proses pembelajaran yang diawasi.

Dengan demikian, jawaban atas pertanyaan tersebut adalah bahwa aturan asosiasi, sementara umumnya
digunakan untuk pembelajaran tanpa pengawasan, dapat juga diterapkan untuk pembelajaran terawasi untuk
tugas klasifikasi.
Machine Translated by Google

POLA LOKAL VS MODEL GLOBAL 197

POLA LOKAL VS MODEL GLOBAL

Akhirnya, analis data perlu mempertimbangkan perbedaan antara model dan pola.
Model adalah deskripsi global atau penjelasan dari kumpulan data, mengambil perspektif
tingkat tinggi . Model mungkin deskriptif atau inferensial. Model deskriptif berusaha untuk
meringkas seluruh kumpulan data secara ringkas. Model inferensial bertujuan untuk
menyediakan mekanisme yang memungkinkan analis untuk menggeneralisasi dari sampel ke populasi.
Bagaimanapun, perspektifnya bersifat global, mencakup seluruh kumpulan data. Di sisi lain,
pola pada dasarnya adalah fitur lokal dari data. Pola yang dapat dikenali mungkin sebenarnya
berlaku hanya untuk beberapa variabel atau sebagian kecil dari catatan dalam data.
Sebagian besar metode pemodelan yang telah kita bahas telah berurusan dengan
pembangunan model global. Aturan asosiasi, di sisi lain, sangat cocok untuk mengungkap pola
lokal dalam data. Segera setelah seseorang menerapkan klausa if dalam aturan asosiasi,
seseorang mempartisi data sehingga, biasanya, sebagian besar catatan tidak berlaku.
Menerapkan klausa if “menelusuri” lebih dalam ke kumpulan data, dengan tujuan mengungkap
pola lokal tersembunyi yang mungkin relevan atau tidak relevan dengan sebagian besar data.
Sebagai contoh, perhatikan aturan asosiasi berikut dari Tabel 10.3: Jika Kelas Pekerjaan
= Wiraswasta, maka Status Perkawinan = Menikah, dengan keyakinan 69,8%. Kami melihat
bahwa aturan asosiasi ini hanya berlaku untuk 2835 (11,3%) catatan dan mengabaikan 88,7%
kumpulan data yang tersisa. Bahkan di antara 2835 record ini, aturan asosiasi mengabaikan
sebagian besar variabel, berkonsentrasi hanya pada dua. Oleh karena itu, aturan asosiasi ini
tidak dapat diklaim bersifat global dan tidak dapat dianggap sebagai model dalam arti sempit.
Ini mewakili pola yang lokal untuk 2835 catatan ini dan dua variabel ini.

Kemudian lagi, menemukan pola lokal yang menarik adalah salah satu tujuan terpenting
dari data mining. Terkadang, mengungkap pola dalam data dapat mengarah pada penyebaran
inisiatif baru dan menguntungkan. Misalnya, ingat dari kumpulan data churn (Bab 3) bahwa
pelanggan yang tergabung dalam Paket Pesan Suara memiliki risiko churn yang jauh lebih
rendah daripada pelanggan lain (lihat Gambar 10.9). Ini

Gambar 10.9 Pola yang menguntungkan: Pengguna Paket VoiceMail cenderung tidak melakukan churn.
Machine Translated by Google

198 BAB 10 ATURAN ASOSIASI

temuan hanya mempengaruhi 922 (27,7%) dari 3333 catatan dan hanya dua variabel, dan dengan
demikian dianggap sebagai pola lokal. Namun demikian, penemuan bongkahan ini dapat menyebabkan
perubahan kebijakan yang, jika diterapkan dengan benar, dapat meningkatkan keuntungan bagi
perusahaan telepon seluler.

REFERENSI
1. Jiawei Han dan Micheline Kamber, Konsep dan Teknik Data Mining, Morgan Kaufmann, San Francisco, CA, 2001.

2. David Hand, Heikki Mannila, dan Padhraic Smith, Prinsip Data Mining, MIT Press,
Cambridge, MA, 2001.
3. Padhraic Smyth dan Rodney M. Goodman, Sebuah pendekatan teori informasi untuk induksi aturan dari database,
IEEE Transactions on Knowledge and Data Engineering, Vol.
4, No. 4, Agustus 1992.
4. J. Ross Quinlan,C4.5: Program untuk Pembelajaran Mesin,Morgan Kaufmann, San Francisco,
AC, 1993.

LATIHAN
1. Jelaskan dua metode utama untuk merepresentasikan data keranjang pasar. Apa manfaatnya?
dan kekurangannya masing-masing?

2. Jelaskan dukungan dan kepercayaan diri. Nyatakan rumus untuk percaya diri menggunakan dukungan.

3. Nyatakan kembali properti apriori dengan kata-kata Anda sendiri.

Untuk beberapa latihan berikut, perhatikan kumpulan data berikut dari Quinlan [4] yang ditunjukkan
pada Tabel E10. Tujuannya adalah untuk mengembangkan aturan asosiasi menggunakan algoritma
apriori untuk mencoba memprediksi kapan permainan tertentu (ternyata dalam ruangan) dapat dimainkan.
Oleh karena itu, tidak seperti contoh stan sayuran, kami dapat membatasi pencarian itemset kami ke
item yang menyertakan atribut play.

4. Biarkan = 3. Hasilkan 1-itemset yang sering.

5. Biarkan = 3. Hasilkan 2-itemset yang sering.

6. Biarkan = 3. Hasilkan 3-itemset yang sering.

7. Menggunakan kepercayaan minimum 75% dan dukungan minimum 20%, menghasilkan satu anteseden
aturan asosiasi untuk memprediksi permainan.

8. Menggunakan kepercayaan minimum 75% dan dukungan minimum 20%, menghasilkan dua anteseden
aturan asosiasi untuk memprediksi permainan.

9. Kalikan dukungan yang diamati dikalikan kepercayaan untuk masing-masing aturan dalam Latihan 7
dan 8, dan urutkan dalam sebuah tabel.

10. Verifikasi hasil yang Anda temukan secara manual menggunakan perangkat lunak aturan asosiasi.

11. Untuk setiap aturan asosiasi yang ditemukan di atas oleh algoritma apriori, temukan J -measure.
Kemudian urutkan aturan dengan J -measure. Bandingkan pemesanan dengan yang dari dukungan apriori ×
pemesanan kepercayaan.

12. Temukan nilai J -measure untuk aturan keenam dari Gambar 10.5.
Machine Translated by Google

LATIHAN 199

TABEL E10 Kumpulan Data Cuaca untuk Penambangan Aturan Asosiasi

Tidak. Pandangan Suhu Kelembaban Berangin Bermain

1 cerah panas tinggi Salah Tidak

2 cerah panas tinggi BENAR Tidak

3 mendung panas tinggi Salah Ya


4 hujan ringan normal Salah Ya
5 hujan dingin Salah Ya
6 hujan dingin normal BENAR Tidak

7 mendung dingin normal BENAR Ya


8 cerah ringan normal Salah Tidak

9 hujan dingin tinggi Salah Ya


10 cerah ringan normal Salah Ya
11 cerah ringan normal BENAR Ya
12 mendung ringan normal BENAR Ya
13 mendung panas tinggi Salah Ya
14 hujan ringan tinggi BENAR Tidak

Analisis Langsung
Gunakan kumpulan data churn , yang diberikan di situs Web seri buku, untuk latihan berikut.
Pastikan bahwa variabel numerik dinormalisasi dan variabel yang berkorelasi
diperhitungkan.

13. Terapkan algoritma apriori untuk mengungkap aturan asosiasi untuk memprediksi churn atau
perilaku non-churn. Tentukan batas bawah yang masuk akal untuk dukungan dan kepercayaan diri. Yang
atribut tidak berlaku?

14. Bandingkan hasil dari Latihan 13 dengan hasil dari EDA dan pohon keputusan
analisis pada Bab 3 dan 6. Diskusikan persamaan dan perbedaannya. Format analisis yang mana?
kamu lebih suka? Apakah Anda menemukan pertemuan hasil?

15. Terapkan kriteria perbedaan kepercayaan untuk pemilihan aturan, dan jalankan kembali algoritma apriori.
Urutkan aturan berdasarkan besarnya perbedaan kepercayaan. Diskusikan persamaan dan perbedaannya
dengan seperangkat aturan di atas.

16. Terapkan kriteria rasio kepercayaan untuk pemilihan aturan dan jalankan kembali algoritma apriori. Memesan
aturan dengan besarnya perbedaan kepercayaan. Diskusikan persamaan dan perbedaan dengan
seperangkat aturan di atas.

17. Terapkan algoritma GRI untuk mengungkap aturan asosiasi untuk memprediksi baik churn atau
perilaku non-churn. Tentukan batas bawah yang masuk akal untuk dukungan dan kepercayaan diri.

18. Bandingkan hasil dari algoritma apriori dengan hasil dari algoritma GRI. Yang
algoritma menghasilkan seperangkat aturan yang lebih kaya, dan mengapa? Algoritma mana yang mungkin lebih disukai
untuk kumpulan data khusus ini? Mengapa?
Machine Translated by Google

BAB 11
EVALUASI MODEL
TEKNIK

TEKNIK EVALUASI MODEL UNTUK TUGAS DESKRIPSI

TEKNIK EVALUASI MODEL UNTUK ESTIMASI DAN


TUGAS PREDIKSI

TEKNIK EVALUASI MODEL UNTUK TUGAS KLASIFIKASI


TINGKAT KESALAHAN, POSITIF SALAH, DAN NEGATIF SALAH

PENYESUAIAN BIAYA MISKLASIFIKASI UNTUK MENCERMINKAN KEKHAWATIRAN DUNIA NYATA

ANALISIS BIAYA/MANFAAT KEPUTUSAN

GRAFIK LIFT DAN GRAFIK KEUNTUNGAN

EVALUASI MODEL INTERWEAVING DENGAN MODEL BANGUNAN

KONFLUENSI HASIL: MENERAPKAN SUITE MODEL

Seperti yang mungkin Anda ingat dari Bab 1, proses standar lintas industri CRISP untuk
penambangan data terdiri dari enam fase, untuk diterapkan dalam siklus berulang:

1. Fase pemahaman bisnis 2. Fase


pemahaman data 3. Fase persiapan
data 4. Fase pemodelan 5. Fase
evaluasi 6. Fase penyebaran

Terletak di antara fase pemodelan dan penerapan, muncul fase evaluasi penting, teknik
yang dibahas dalam bab ini. Pada saat kita sampai pada tahap evaluasi, tahap pemodelan
telah menghasilkan satu atau lebih calon model. Sangat penting bahwa model ini dievaluasi
untuk kualitas dan efektivitas sebelum digunakan untuk digunakan di lapangan. Penyebaran

Discovering Knowledge in Data: An Introduction to Data Mining, Oleh Daniel T.


Larose ISBN 0-471-66657-2 Hak Cipta C 2005 John Wiley & Sons, Inc.

200
Machine Translated by Google

TEKNIK EVALUASI MODEL UNTUK TUGAS ESTIMASI DAN PREDIKSI 201

model data mining biasanya merupakan belanja modal dan investasi pada bagian dari
perusahaan. Jika model yang dimaksud tidak valid, waktu dan uang perusahaan terbuang
percuma. Dalam bab ini kita menguji teknik evaluasi model untuk masing-masing dari enam
tugas utama data mining: deskripsi, estimasi, prediksi, klasifikasi, pengelompokan, dan asosiasi.

TEKNIK EVALUASI MODEL UNTUK


TUGAS DESKRIPSI

Dalam Bab 3 kita belajar bagaimana menerapkan analisis data eksplorasi (EDA) untuk belajar
tentang karakteristik yang menonjol dari kumpulan data. EDA mewakili teknik yang populer dan
kuat untuk menerapkan tugas deskriptif data mining. Di sisi lain, karena teknik deskriptif tidak
membuat klasifikasi, prediksi, atau perkiraan, metode objektif untuk mengevaluasi kemanjuran
teknik ini dapat menjadi sulit dipahami. Kata kuncinya adalah akal sehat. Ingatlah bahwa model
penambangan data harus setransparan mungkin. Artinya, hasil dari model data mining harus
menggambarkan pola yang jelas yang dapat menerima interpretasi dan penjelasan intuitif.
Efektivitas EDA Anda paling baik dievaluasi dengan kejelasan pemahaman yang diperoleh dari
audiens target Anda, apakah sekelompok manajer yang mengevaluasi inisiatif baru Anda atau
dewan evaluasi dari Badan Pengawas Obat dan Makanan AS yang menilai kemanjuran
pengajuan farmasi baru.

Jika seseorang bersikeras menggunakan ukuran yang dapat diukur untuk menilai
deskripsi, seseorang dapat menerapkan prinsip panjang deskriptif minimum. Hal-hal lain
dianggap sama, pisau cukur Occam (prinsip yang dinamai filsuf abad pertengahan William of
Occam) menyatakan bahwa representasi sederhana lebih disukai daripada yang kompleks.
Prinsip panjang deskriptif minimum mengkuantifikasi ini, dengan mengatakan bahwa representasi
(atau deskripsi) terbaik dari model atau kumpulan data adalah yang meminimalkan informasi
yang diperlukan (dalam bit) untuk mengkodekan (1) model dan (2) pengecualian untuk model.

TEKNIK EVALUASI MODEL UNTUK


TUGAS ESTIMASI DAN PREDIKSI

Untuk model estimasi dan prediksi, yang menggunakan metode terawasi, kami menyediakan
nilai estimasi (atau prediksi) yˆ dari variabel target numerik dan nilai aktual y. Oleh karena itu,
ukuran alami untuk menilai kecukupan model adalah dengan memeriksa kesalahan estimasi,
atau residual, |y yˆ | . Karena rata-rata residual selalu sama dengan nol, kita tidak dapat
menggunakannya untuk evaluasi model; beberapa ukuran lain diperlukan.

Ukuran yang biasa digunakan untuk mengevaluasi model estimasi atau prediksi adalah
mean square error (MSE):
2
(yi yˆi )
UMK =
saya

np1_
Machine Translated by Google

202 BAB 11 TEKNIK EVALUASI MODEL

Analisis Regresi: Peringkat versus Gula

Persamaan regresinya adalah


Peringkat = 59,4 - 2,42 Gula

Prediktor Koef Koef SE 1,951 T P


Konstan 59,444 30,47 0,000
Gula -2,4193 0,2376 -10,18 0,000

S = 9.162 R-Sq = 58,0% R-Sq(adj) = 57,5%

Analisis Varians

Sumber DF SS MS F P
Regresi 1 8701.7 8701.7 103.67 0,000
Kesalahan sisa 75 6295.1 83.9
Total 76 14996.8

Gambar 11.1 Keluaran regresi minitab, dengan MSE dan s ditunjukkan.

di mana p mewakili jumlah parameter model. Model lebih disukai yang meminimalkan MSE. Akar
kuadrat dari MSE dapat dianggap sebagai perkiraan tipikal
kesalahan dalam estimasi atau prediksi saat menggunakan model tertentu. Dalam konteks, ini adalah
dikenal sebagai kesalahan standar estimasi dan dilambangkan dengan s = MSE.
Sebagai contoh, perhatikan Gambar 11.1 (dikutip dari Bab 4), yang menyediakan:
keluaran regresi Minitab untuk perkiraan peringkat nutrisi berdasarkan gula
konten untuk 77 sereal sarapan. MSE = 83,9 dan s = 9,162 keduanya dilingkari pada
keluaran. Nilai 9,162 untuk s menunjukkan bahwa perkiraan kesalahan prediksi dari
menggunakan model regresi ini untuk memprediksi peringkat gizi berdasarkan kadar gula adalah 9,162
poin penilaian.
Apakah ini cukup baik untuk melanjutkan ke penerapan model? Itu tergantung pada
tujuan bisnis atau masalah penelitian. Yang pasti modelnya simple
sendiri, dengan hanya satu prediktor dan satu respons; namun, mungkin prediksi
kesalahan terlalu besar untuk mempertimbangkan penerapan. Bandingkan perkiraan kesalahan
prediksi ini dengan nilai s yang diperoleh dari regresi berganda pada Gambar 4.10: s =
1.015. Di sini, perkiraan kesalahan dalam prediksi telah dikurangi menjadi hampir satu poin penilaian.
Namun, ada biayanya: Model regresi berganda berisi delapan
prediktor yang berbeda, sehingga model lebih kompleks dari sebelumnya. Seperti
begitu banyak hal lain dalam analisis statistik dan penambangan data, ada trade-off antara
kompleksitas model dan kesalahan prediksi. Pakar domain untuk masalah bisnis atau penelitian yang
dimaksud perlu menentukan di mana titik pengembalian yang semakin berkurang
berbohong.

Dalam Bab 7 kami memeriksa ukuran evaluasi yang terkait dengan UMK:

SSE = (keluaran aktual)2


mencatat node keluaran

yang mewakili secara kasar pembilang UMK di atas. Sekali lagi, tujuannya adalah untuk meminimalkan
jumlah kesalahan kuadrat di semua simpul keluaran.
Machine Translated by Google

TINGKAT KESALAHAN, POSITIF SALAH, DAN NEGATIF SALAH 203

TEKNIK EVALUASI MODEL UNTUK


TUGAS KLASIFIKASI

Mungkin penggunaan yang paling luas dari penambangan data yang diawasi melibatkan
tugas klasifikasi. Ingatlah bahwa dalam klasifikasi, ada variabel kategoris target. Model data
mining memeriksa satu set besar record, setiap record berisi informasi tentang variabel target
serta satu set variabel input atau prediktor. Analis ingin dapat menghasilkan klasifikasi untuk
variabel target untuk catatan baru, atau orang, yang saat ini tidak ada dalam database,
berdasarkan karakteristik lain yang terkait dengan orang tersebut. Menggunakan set pelatihan,
di mana informasi tersedia tentang variabel prediktor dan variabel target (sudah diklasifikasikan),
algoritme mempelajari kombinasi variabel mana yang terkait dengan kelas variabel kategori
target. Kemudian algoritme akan melihat catatan baru, dalam set pengujian dan validasi, yang
tidak tersedia informasi tentang braket pendapatan. Berdasarkan klasifikasi dalam set
pelatihan, algoritme akan menetapkan klasifikasi ke record baru.

Pertanyaannya adalah: Seberapa baik algoritma klasifikasi kami berfungsi? Tugas


klasifikasi dapat dibuat berdasarkan lemparan koin, daun teh, isi perut kambing, atau bola
kristal. Metode evaluatif mana yang harus kita gunakan untuk meyakinkan diri kita bahwa
klasifikasi yang dibuat oleh algoritma data mining kita efektif dan akurat? Apakah kita
mengungguli lemparan koin?
Dalam bab ini kita memeriksa konsep, metode, dan alat evaluatif berikut: tingkat
kesalahan, positif palsu, negatif palsu, penyesuaian biaya kesalahan, peningkatan, grafik
peningkatan, dan grafik keuntungan, dalam konteks model C5.0 untuk mengklasifikasikan
pendapatan dari Bab 6.

TINGKAT KESALAHAN, POSITIF SALAH, DAN NEGATIF SALAH

Ingat dari Bab 6 bahwa kami menerapkan model C5.0 untuk mengklasifikasikan apakah
pendapatan seseorang rendah (ÿ50.000) atau tinggi (>50.000), berdasarkan serangkaian
variabel prediktor yang mencakup capital gain, capital loss, status perkawinan, dan segera.
Mari kita mengevaluasi kinerja model klasifikasi pohon keputusan itu, menggunakan gagasan
tentang tingkat kesalahan, positif palsu, dan negatif palsu.
Clementine memberi kita matriks klasifikasi yang benar dan salah yang dibuat oleh
algoritma, yang disebut matriks kebingungan, yang ditunjukkan pada Gambar 11.2. Kolom
mewakili klasifikasi yang diprediksi, dan baris mewakili klasifikasi aktual (benar), untuk masing-
masing dari 24.986 record. Ada 19.002 record yang nilai aktualnya untuk pendapatan variabel
target adalah 50,000, dan ada 5984 record yang nilai pendapatan aktualnya >50,000. Algoritma
C5.0 mengklasifikasikan 20.162 record memiliki pendapatan 50.000, dan 4824 record memiliki
pendapatan >50,000.
Dari 20.162 record yang pendapatannya diprediksi oleh algoritma menjadi 50,000,
17.845 record ini sebenarnya memiliki pendapatan rendah. Namun, algoritma salah
mengklasifikasikan 2317 dari 20.162 catatan ini sebagai memiliki pendapatan >50.000.
Sekarang, anggaplah bahwa analisis ini dilakukan untuk perusahaan pemberi pinjaman
keuangan, yang tertarik untuk menentukan apakah pendapatan pemohon pinjaman adalah
>50.000 atau tidak. Klasifikasi pendapatan >50.000 dianggap positif, karena
Machine Translated by Google

204 BAB 11 TEKNIK EVALUASI MODEL

Positif Palsu
Negatif Palsu

Gambar 11.2 Confusion matrix dari klasifikasi yang benar dan salah.

perusahaan pemberi pinjaman kemudian akan melanjutkan untuk memperpanjang pinjaman kepada orang
yang bersangkutan. Klasifikasi pendapatan 50.000 dianggap negatif, karena perusahaan akan melanjutkan
untuk menolak aplikasi pinjaman kepada orang tersebut, berdasarkan pendapatan rendah (dalam skenario
yang disederhanakan ini). Asumsikan bahwa dengan tidak adanya informasi lain, keputusan default adalah
menolak pinjaman karena pendapatan rendah.
Dengan demikian, 20.162 klasifikasi (prediksi) pendapatan 50.000 dikatakan negatif, dan 4824
klasifikasi pendapatan >50.000 dikatakan positif. Klasifikasi negatif 2.317 yang dibuat karena kesalahan
dikatakan sebagai negatif palsu.
Artinya, negatif palsu mewakili catatan yang diklasifikasikan sebagai negatif tetapi sebenarnya positif. Dari
4824 klasifikasi positif, 1157 justru berpenghasilan rendah, sehingga terdapat 1157 positif palsu. Positif palsu
mewakili catatan yang diklasifikasikan sebagai positif tetapi sebenarnya negatif.

Tingkat kesalahan keseluruhan, atau hanya tingkat kesalahan, adalah jumlah dari negatif palsu
dan positif palsu, dibagi dengan jumlah total catatan. Di sini kita punya

2317 + 1157
tingkat kesalahan keseluruhan = = 0,1390
24.986

Untuk menemukan tingkat negatif palsu, bagi jumlah negatif palsu dengan jumlah total klasifikasi negatif.
Demikian pula, untuk menemukan tingkat positif palsu, bagi jumlah positif palsu dengan jumlah total klasifikasi
positif. Di sini kita punya

2317
tingkat negatif palsu = = 0,1149 20,162

1157
tingkat positif palsu = = 0,2398 4824

Artinya, dengan menggunakan model pohon keputusan C5.0 saat ini, kami lebih dari dua kali lebih mungkin untuk
mengklasifikasikan pendapatan pemohon secara tidak benar daripada mengklasifikasikan pendapatan pemohon.
Machine Translated by Google

PENYESUAIAN BIAYA MISKLASIFIKASI UNTUK MENCERMINKAN KEKHAWATIRAN DUNIA NYATA 205

pendapatan salah sebagai rendah. Menggunakan tingkat kesalahan, tingkat positif palsu, dan
tingkat negatif palsu, analis dapat membandingkan keakuratan berbagai model. Misalnya, model
pohon keputusan C5.0 dapat dibandingkan dengan model pohon keputusan CART atau model
jaringan saraf. Keputusan pilihan model kemudian dapat diberikan berdasarkan peringkat relatif
dari langkah-langkah evaluasi ini.
Selain itu, dalam bahasa pengujian hipotesis, karena keputusan default adalah menemukan
bahwa pemohon memiliki pendapatan rendah, kami akan memiliki hipotesis berikut:

H0: pendapatan 50,000


Ha: penghasilan > 50.000

di mana H0 mewakili hipotesis default, atau nol, dan Ha mewakili hipotesis alternatif, yang
memerlukan bukti untuk mendukungnya. Positif palsu akan dianggap sebagai kesalahan tipe I
dalam pengaturan ini, salah menolak hipotesis nol, sementara negatif palsu akan dianggap sebagai
kesalahan tipe II, salah menerima hipotesis nol.

KESALAHAN PENYESUAIAN BIAYA UNTUK REFLEKSI


KEKHAWATIRAN DUNIA NYATA

Pertimbangkan situasi ini dari sudut pandang lembaga pemberi pinjaman. Kesalahan mana, negatif
palsu atau positif palsu, yang dianggap lebih merusak dari sudut pandang pemberi pinjaman? Jika
pemberi pinjaman melakukan kesalahan negatif, pemohon yang berpenghasilan tinggi ditolak untuk
pinjaman: kesalahan yang disayangkan tetapi tidak terlalu mahal.

Di sisi lain, jika pemberi pinjaman melakukan kesalahan positif, pemohon yang
berpenghasilan rendah akan diberikan pinjaman. Kesalahan ini sangat meningkatkan kemungkinan
pemohon akan gagal membayar pinjaman, yang sangat mahal bagi pemberi pinjaman.
Oleh karena itu, pemberi pinjaman akan menganggap positif palsu sebagai jenis kesalahan yang
lebih merusak dan akan lebih memilih untuk meminimalkan tingkat positif palsu. Analis selanjutnya
akan menyesuaikan matriks biaya kesalahan klasifikasi algoritma C5.0 untuk mencerminkan
kekhawatiran pemberi pinjaman. Contoh penyesuaian tersebut ditunjukkan pada Gambar 11.3,
yang menunjukkan bahwa biaya positif palsu meningkat dari 1 menjadi 2, sedangkan biaya negatif
palsu tetap pada 1. Dengan demikian, positif palsu akan dianggap dua kali lebih merusak daripada
kesalahan palsu. negatif. Analis mungkin ingin bereksperimen dengan berbagai nilai biaya untuk
dua jenis kesalahan, untuk menemukan kombinasi yang paling cocok untuk tugas dan masalah
bisnis yang dihadapi.
Bagaimana penyesuaian biaya kesalahan klasifikasi mempengaruhi kinerja algoritma?
Tingkat mana yang Anda harapkan untuk naik atau turun, negatif palsu atau positif palsu? Apakah
Anda memiliki intuisi tentang apa yang mungkin terjadi pada tingkat kesalahan keseluruhan?

Yah, kami berharap bahwa tingkat positif palsu akan berkurang, karena biaya untuk
membuat kesalahan seperti itu menjadi dua kali lipat. Lebih sedikit positif palsu mungkin berarti
lebih banyak negatif palsu. Sayangnya, tingkat kesalahan keseluruhan mungkin akan meningkat,
karena ada lebih banyak prediksi negatif yang dibuat daripada positif, memberikan tingkat negatif
palsu bobot yang lebih besar dalam perhitungan tingkat kesalahan keseluruhan.
Machine Translated by Google

206 BAB 11 TEKNIK EVALUASI MODEL

Biaya Positif Palsu


Biaya Negatif Palsu

Gambar 11.3 Menyesuaikan matriks biaya untuk mencerminkan biaya positif palsu yang lebih tinggi.

Algoritma C5.0 dijalankan kembali, kali ini termasuk penyesuaian biaya kesalahan klasifikasi.
Matriks kebingungan yang dihasilkan ditunjukkan pada Gambar 11.4. Seperti yang diharapkan, tingkat
negatif palsu telah meningkat, sedangkan tingkat positif palsu telah menurun. Padahal sebelumnya,
positif palsu dua kali lebih mungkin terjadi, kali ini tingkat positif palsu lebih rendah daripada tingkat
negatif palsu. Seperti yang diinginkan, tingkat positif palsu telah menurun.
Namun, ini datang dengan biaya. Algoritme, ragu-ragu untuk mengklasifikasikan catatan sebagai positif

Gambar 11.4 Confusion matrix setelah kesalahan klasifikasi penyesuaian biaya.


Machine Translated by Google

ANALISIS BIAYA/MANFAAT KEPUTUSAN 207

karena biaya yang lebih tinggi, malah membuat lebih banyak klasifikasi negatif, dan karenanya
lebih banyak negatif palsu.

3551
tingkat negatif palsu = = 0,1592 22,304 249 naik dari 0,1149 sebelumnya

tingkat positif palsu = = 0,0928 turun dari 0,2398 sebelumnya


2682

Sayangnya, tingkat kesalahan keseluruhan juga meningkat:

3551 + 249
tingkat kesalahan keseluruhan = = 0,1521 24.986 naik dari 0,1390 sebelumnya

Namun demikian, tingkat kesalahan keseluruhan yang lebih tinggi dan tingkat negatif palsu yang lebih tinggi dianggap
"perdagangan yang baik" oleh pemberi pinjaman ini, yang ingin mengurangi tingkat default pinjaman, yang
sangat mahal bagi perusahaan. Penurunan angka positif palsu dari 23,98% menjadi
9,28% pasti akan menghasilkan penghematan yang signifikan bagi perusahaan pemberi pinjaman keuangan, karena
lebih sedikit pelamar yang tidak mampu membayar kembali pinjaman akan diberikan pinjaman.

ANALISIS BIAYA/MANFAAT KEPUTUSAN

Manajer perusahaan mungkin mengharuskan perbandingan model dibuat dalam hal biaya/
analisis manfaat. Misalnya, dalam membandingkan model C5.0 asli sebelum penyesuaian biaya klasifikasi
yang salah (sebut model ini 1) dengan model C5.0 yang menggunakan penyesuaian biaya klasifikasi yang
salah (sebut model ini 2), manajer mungkin lebih memilih untuk tingkat kesalahan, negatif palsu dan positif
palsu, diterjemahkan ke dalam dolar dan sen.
Analis dapat memberikan perbandingan model dalam hal keuntungan atau kerugian yang diantisipasi dengan
mengaitkan biaya atau manfaat dengan masing-masing dari empat kemungkinan kombinasi yang benar dan
klasifikasi yang salah. Misalnya, misalkan analis membuat biaya/manfaat
penetapan nilai yang ditunjukkan pada Tabel 11.1. Biaya $25 terkait dengan negatif
keputusan mencerminkan biaya nominal yang terkait dengan pemrosesan penolakan pinjaman. Itu
Biaya “ÿ$200” sebenarnya adalah pendapatan bunga rata-rata yang diantisipasi untuk dikumpulkan dari
pelamar yang penghasilannya sebenarnya >50.000. $500 mencerminkan biaya rata-rata

TABEL 11.1 Tabel Biaya/Manfaat untuk Setiap Kombinasi Keputusan Benar/Salah

Hasil Klasifikasi Nilai sesungguhnya Biaya Alasan

Benar-benar negatif 50.000 50.000 $25 Biaya nominal yang terkait dengan

memproses penolakan pinjaman

Benar-benar positif >50.000 >50.000 $200 Bunga rata-rata yang diantisipasi


pendapatan dari pinjaman

Negatif palsu 50.000 >50.000 $25 Biaya nominal yang terkait dengan

memproses penolakan pinjaman

Positif palsu >50.000 50.000 $500 Biaya default pinjaman rata-rata lebih
semua pinjaman ke 50.000 grup
Machine Translated by Google

208 BAB 11 TEKNIK EVALUASI MODEL

default pinjaman, rata-rata atas semua pinjaman kepada pemohon yang tingkat pendapatannya rendah.
Tentu saja, nomor spesifik yang diberikan di sini dapat didiskusikan dan hanya dimaksudkan sebagai
ilustrasi.
Menggunakan biaya dari Tabel 11.1, kita kemudian dapat membandingkan model 1 dan 2:

Biaya model 1 = 17.845 ($25) + 2317 ($25) + 1157 ($500) + 3667 (ÿ$200)

= $349.150

Biaya model 2 = 18.753 ($25) + 3551 ($25) + 249 ($500) + 2433 (ÿ$200)

= $195.500

Estimasi penghematan biaya dari penerapan model 2 daripada model 1 kemudian

perkiraan penghematan biaya = $349.150 $195.500 = $153.650

Bukankah menakjubkan apa yang bisa berarti penyesuaian biaya kesalahan klasifikasi sederhana
untuk keuntungan perusahaan? Jadi, meskipun model 2 menderita tingkat kesalahan keseluruhan yang
lebih tinggi dan tingkat negatif palsu yang lebih tinggi, model ini mengungguli model 1 "di mana itu dihitung,"
dengan tingkat positif palsu yang lebih rendah, yang untuk masalah bisnis perusahaan ini, sangat penting.

GRAFIK LIFT DAN GRAFIK KEUNTUNGAN

Bagan angkat dan bagan keuntungan adalah metode evaluatif grafis untuk menilai dan membandingkan
kegunaan model klasifikasi. Lift adalah sebuah konsep, yang berasal dari bidang pemasaran, yang
berusaha membandingkan tingkat respons dengan dan tanpa menggunakan model klasifikasi. Kami akan
mengeksplorasi konsep-konsep ini dengan melanjutkan pemeriksaan model C5.0 untuk mengklasifikasikan
pendapatan.
Misalkan perusahaan pemberi pinjaman keuangan tertarik untuk mengidentifikasi orang-orang
berpenghasilan tinggi untuk menyusun kampanye pemasaran yang ditargetkan untuk kartu kredit platinum baru.
Di masa lalu, pemasar mungkin hanya menyelidiki seluruh daftar kontak tanpa memperhatikan petunjuk
tentang pendapatan kontak tersebut. Inisiatif menyeluruh seperti itu mahal dan cenderung memiliki tingkat
respons yang rendah. Jauh lebih baik untuk menerapkan informasi demografis yang mungkin dimiliki
perusahaan tentang daftar kontak, membangun model untuk memprediksi kontak mana yang akan memiliki
pendapatan tinggi, dan membatasi pencarian ke kontak yang diklasifikasikan sebagai berpenghasilan
tinggi. Biaya program pemasaran kemudian akan jauh berkurang dan tingkat respons mungkin lebih tinggi.

Model klasifikasi yang baik harus mengidentifikasi dalam klasifikasi positifnya (kolom >50.000 pada
Gambar 11.2 dan 11.4), sebuah kelompok yang memiliki proporsi “hits” positif yang lebih tinggi daripada
database secara keseluruhan. Konsep lift mengkuantifikasi ini.
Kami mendefinisikan peningkatan sebagai proporsi klik positif dalam kumpulan klasifikasi positif model,
dibagi dengan proporsi klik positif dalam kumpulan data secara keseluruhan:

proporsi klik positif dalam kumpulan peningkatan klasifikasi positif =


proporsi klik positif dalam kumpulan data secara keseluruhan

Misalnya, pada Gambar 11.2, model 1 mengidentifikasi 4824 catatan sebagai diklasifikasikan positif
(pendapatan >50.000). Ini adalah kumpulan klasifikasi positif. Dari 4824 ini,
Machine Translated by Google

GRAFIK LIFT DAN GRAFIK KEUNTUNGAN 209

3.667 catatan adalah hit positif; yaitu, nilai pendapatan sebenarnya adalah >50.000. Ini memberi kita
3667/4824 = 0,7602 sebagai proporsi hit positif dalam kumpulan klasifikasi positif. Sekarang, dalam
kumpulan data secara keseluruhan, 5.984 dari 24.986 catatan memiliki pendapatan >50.000, memberi kita
5984/24.986 = 0,2395 sebagai proporsi klik positif dalam kumpulan data secara keseluruhan. Lift, diukur
pada 4824 catatan, karena itu 0,7602/0,2395 = 3,17.

Lift adalah fungsi dari ukuran sampel, itulah sebabnya kami harus menentukan bahwa lift 3,17 untuk
model 1 diukur pada n = 4824 record. Saat menghitung lift, perangkat lunak pertama-tama akan mengurutkan
catatan berdasarkan kemungkinan diklasifikasikan positif. Lift kemudian dihitung untuk setiap ukuran sampel
dari n = 1 hingga n = ukuran kumpulan data.
Sebuah bagan kemudian diproduksi yang grafiknya meningkat terhadap persentil dari kumpulan data.
Pertimbangkan Gambar 11.5, yang mewakili bagan peningkatan untuk model 1. Perhatikan bahwa
peningkatan tertinggi pada persentil terendah, yang masuk akal karena data diurutkan menurut kemungkinan
klik positif yang paling mungkin. Persentil terendah memiliki proporsi hit positif tertinggi. Saat plot bergerak
dari kiri ke kanan, klik positif cenderung "habis", sehingga proporsinya terus menurun hingga peningkatan
akhirnya sama dengan tepat 1 saat seluruh kumpulan data dianggap sebagai sampel. Oleh karena itu,
untuk bagan pengangkatan apa pun, pengangkatan tertinggi selalu diperoleh dengan ukuran sampel terkecil.

Sekarang, 4824 catatan mewakili persentil ke-19,3 dari total 24.986 catatan.
Perhatikan pada Gambar 11.5 bahwa lift tepat di sebelah kiri persentil ke-20 akan dekat

Gambar 11.5 Bagan pengangkatan untuk model 1: pengangkatan kuat lebih awal, lalu turun dengan cepat.
Machine Translated by Google

210 BAB 11 TEKNIK EVALUASI MODEL

Gambar 11.6 Grafik keuntungan untuk model 1.

3.17, seperti yang kita hitung di atas. Jika proyek riset pasar kami hanya membutuhkan 5% catatan yang paling
mungkin, peningkatannya akan lebih tinggi, sekitar 4.1, seperti yang ditunjukkan pada Gambar 11.5. Di sisi lain,
jika proyek membutuhkan 60% dari semua catatan, lift akan turun menjadi sekitar 1,6. Karena data diurutkan
menurut kecenderungan positif, semakin jauh kita menjangkau kumpulan data, semakin rendah proporsi
keseluruhan klik positif kita.
Diperlukan tindakan penyeimbangan lainnya: antara menjangkau banyak kontak dan memiliki harapan tinggi
untuk sukses per kontak.
Bagan peningkatan sering disajikan dalam bentuk kumulatifnya, di mana mereka dilambangkan sebagai
bagan peningkatan kumulatif, atau bagan keuntungan. Grafik keuntungan yang terkait dengan grafik kenaikan
pada Gambar 11.5 disajikan pada Gambar 11.6. Diagonal pada grafik gain analog dengan sumbu horizontal
pada lift = 1 pada grafik lift. Analis ingin melihat grafik keuntungan di mana kurva atas naik tajam saat seseorang
bergerak dari kiri ke kanan dan kemudian secara bertahap mendatar. Dengan kata lain, seseorang lebih memilih
"mangkuk" yang lebih dalam daripada mangkuk yang lebih dangkal. Bagaimana Anda membaca grafik
keuntungan? Misalkan kita meneliti 20% teratas dari daftar kontak kita (persentil = 20). Dengan demikian, kita
bisa berharap untuk mencapai sekitar 62% dari jumlah total orang berpenghasilan tinggi dalam daftar. Apakah
menggandakan usaha kita juga menggandakan hasil kita? Tidak. Menyelidiki 40% teratas dalam daftar akan
memungkinkan kami menjangkau sekitar 85% orang berpenghasilan tinggi dalam daftar. Melewati titik ini, hukum
hasil yang semakin berkurang sangat berpengaruh.

Bagan peningkatan dan bagan keuntungan juga dapat digunakan untuk membandingkan kinerja model.
Gambar 11.7 menunjukkan bagan angkat gabungan untuk model 1 dan 2. Gambar tersebut menunjukkan bahwa
Machine Translated by Google

EVALUASI MODEL INTERWEAVING DENGAN MODEL GEDUNG 211

4,5

4 Di sini, Model 2 lebih disukai

3.5

3 Di sini, Model 1 lebih disukai

2.5

1.5

0,5
0 20 40 60 80 100
Persentil

Gambar 11.7 Bagan angkat gabungan untuk model 1 dan 2.

dalam pemilihan model, model tertentu mungkin tidak disukai secara seragam.
Misalnya, hingga sekitar persentil ke-6, tampaknya tidak ada perbedaan nyata dalam
peningkatan model. Kemudian, hingga kira-kira persentil ke-17, model 2 lebih disukai, asalkan
daya angkat sedikit lebih tinggi. Setelah itu, model 1 lebih disukai.
Oleh karena itu, jika tujuannya adalah untuk menjaring hingga 17% teratas dari orang-
orang di daftar kontak dengan pendapatan tinggi, model 2 mungkin akan dipilih. Namun, jika
tujuannya adalah untuk memperluas jangkauan inisiatif pemasaran hingga 20% atau lebih
dari kemungkinan kontak dengan pendapatan tinggi, model 1 mungkin akan dipilih. Pertanyaan
tentang banyak model dan pilihan model ini penting, yang kami habiskan banyak waktu untuk
membahasnya di Referensi 1.

EVALUASI MODEL INTERWEAVING DENGAN


BANGUNAN MODEL

Dalam Bab 1 grafik yang mewakili proses standar CRISP-DM untuk data mining berisi loop
umpan balik antara pembangunan model dan fase evaluasi. Dalam Bab 5 (Gambar 5.1) kami
menyajikan metodologi untuk pemodelan terawasi. Di mana metode untuk evaluasi model
dari Bab 11 cocok dengan proses ini?
Kami akan merekomendasikan bahwa evaluasi model menjadi proses yang hampir
"otomatis", dilakukan sampai tingkat tertentu setiap kali model baru dihasilkan. Oleh karena
itu, pada titik mana pun dalam proses, kami mungkin memiliki ukuran yang akurat tentang
kualitas model saat ini atau yang berfungsi. Oleh karena itu, disarankan agar evaluasi model
terjalin dengan mulus ke dalam metodologi untuk pemodelan terawasi yang disajikan dalam
Bab 5, yang dilakukan pada model yang dihasilkan dari masing-masing set pelatihan, set uji,
dan set validasi. Misalnya, ketika kita menyesuaikan model sementara untuk meminimalkan
tingkat kesalahan pada set pengujian, kita mungkin memiliki di ujung jari kita tingkat positif
palsu, tingkat negatif palsu, tingkat kesalahan keseluruhan, grafik peningkatan, dan grafik keuntungan.
Machine Translated by Google

212 BAB 11 TEKNIK EVALUASI MODEL

Langkah-langkah evaluatif ini kemudian dapat mengarahkan analis ke arah yang tepat untuk yang terbaik
memperbaiki kekurangan dari model kerja.

KONFLUENSI HASIL: MENERAPKAN SUITE MODEL

Dalam figure skating Olimpiade, skater dengan performa terbaik tidak dipilih oleh satu juri
sendiri. Sebagai gantinya, beberapa juri dipanggil untuk memilih skater terbaik dari
di antara semua calon skater. Demikian pula dalam pemilihan model, bila memungkinkan,
analis tidak boleh hanya bergantung pada metode penambangan data tunggal. Sebaliknya, dia
harus mencari pertemuan hasil dari serangkaian model penambangan data yang berbeda.
Misalnya, untuk database dewasa , Gambar 6.5, 6.7, dan 7.9, menunjukkan bahwa:
variabel yang tercantum dalam Tabel 11.2 adalah yang paling berpengaruh (diurutkan secara kasar dalam urutan
pentingnya) untuk mengklasifikasikan pendapatan, seperti yang diidentifikasi oleh CART, C5.0, dan saraf
algoritma jaringan, masing-masing. Meskipun tidak ada kecocokan yang sempurna dalam pemesanan
dari variabel-variabel penting, masih banyak yang ketiga klasifikasi terpisah ini
algoritma telah ditemukan, termasuk yang berikut:

Ketiga algoritma mengidentifikasi Status Perkawinan, pendidikan-num, capital gain,


kerugian modal, dan jam per minggu sebagai variabel yang paling penting, kecuali untuk
jaringan saraf, di mana usia menyelinap di masa lalu kehilangan modal.

Tak satu pun dari algoritme yang mengidentifikasi kelas pekerja atau seks sebagai variabel penting,
dan hanya jaringan saraf yang mengidentifikasi usia sebagai hal yang penting.

Algoritme menyetujui berbagai tren pemesanan, seperti jumlah pendidikan lebih banyak
penting daripada jam per minggu.

Ketika kita mengingat dasar matematika yang sangat berbeda di mana ketiganya
metode penambangan data dibangun, mungkin dianggap luar biasa bahwa meyakinkan seperti itu
persetujuan berlaku di antara mereka sehubungan dengan pengklasifikasian pendapatan. Ingat bahwa
CART mendasarkan keputusannya pada kriteria “goodness of split” (s|t), yang C5.0 berlaku
pendekatan teori informasi, dan jaringan saraf itu mendasarkan pembelajaran mereka pada
propagasi balik. Namun ketiga algoritme berbeda ini mewakili aliran yang secara luas
berbicara, telah datang bersama-sama, membentuk pertemuan hasil. Dengan cara ini, model
bertindak sebagai validasi satu sama lain.

TABEL 11.2 Variabel Paling Penting untuk Mengklasifikasikan Pendapatan, sebagai


Diidentifikasi oleh CART, C5.0, dan Algoritma Neural Network

KERANJANG C5.0 Jaringan syaraf

Status pernikahan Keuntungan dalam bentuk uang Keuntungan dalam bentuk uang

Pendidikan-nomor Kerugian modal Pendidikan-nomor

Keuntungan dalam bentuk uang


Status pernikahan Jam per minggu

Kerugian modal Pendidikan-nomor Status pernikahan

Jam per minggu Jam per minggu Usia

Kerugian modal
Machine Translated by Google

LATIHAN 213

REFERENSI
1. Daniel Larose, Metode dan Model Data Mining, Wiley-Interscience, Hoboken, NJ (untuk
muncul 2005).

LATIHAN
Analisis Langsung
Gunakan kumpulan data churn di situs Web seri buku untuk latihan berikut.
Pastikan bahwa variabel numerik dinormalisasi dan variabel berkorelasi telah
diperhitungkan.

1. Terapkan model CART untuk memprediksi churn. Gunakan biaya kesalahan klasifikasi default.

sebuah. Tentukan tingkat positif palsu. b.

Tentukan tingkat negatif palsu.


c. Tentukan tingkat kesalahan keseluruhan.

d. Tentukan akurasi model keseluruhan (1 tingkat kesalahan keseluruhan).

2. Dalam model churn yang khas, di mana perantara dengan calon churn relatif murah tetapi kehilangan pelanggan
itu mahal, kesalahan mana yang lebih mahal, negatif palsu atau positif palsu (di mana positif = pelanggan
diprediksi churn)? Menjelaskan.

3. Berdasarkan jawaban Anda pada Latihan 2, sesuaikan biaya kesalahan klasifikasi untuk model CART Anda
untuk mengurangi prevalensi jenis kesalahan yang lebih mahal. Jalankan kembali algoritma CART.
Bandingkan tingkat kesalahan positif palsu, negatif palsu, dan keseluruhan dengan model sebelumnya.
Diskusikan trade-off antara berbagai tarif dalam hal biaya untuk perusahaan.

4. Lakukan analisis biaya/manfaat untuk model CART default dari latihan 1 sebagai berikut.
Tetapkan biaya atau manfaat dalam dolar untuk setiap kombinasi positif dan negatif palsu dan benar, mirip
dengan Tabel 11.1. Kemudian, dengan menggunakan matriks konfusi, carilah biaya yang diantisipasi secara
keseluruhan.

5. Lakukan analisis biaya/manfaat untuk model CART dengan biaya kesalahan klasifikasi yang disesuaikan.
Gunakan penetapan biaya/manfaat yang sama seperti untuk model default. Cari perkiraan biaya keseluruhan.
Bandingkan dengan model default, dan rumuskan rekomendasi model mana yang lebih disukai.

6. Buat bagan angkat untuk model CART default. Berapa perkiraan kenaikan 20%? 33%?
40%? 50%?

7. Buat grafik keuntungan untuk model CART default. Jelaskan hubungan antara ini
grafik dan grafik angkat.

8. Buatlah bagan angkat untuk model CART dengan biaya kesalahan klasifikasi yang disesuaikan. Apa
adalah perkiraan lift sebesar 20%? 33%? 40%? 50%?

9. Buatlah bagan angkat tunggal untuk kedua model CART. Model mana yang lebih disukai daripada
wilayah mana?

10. Sekarang beralih ke model pohon keputusan C4.5, dan ulangi Latihan 1 sampai 9. Bandingkan hasilnya.
Model mana yang lebih disukai?
Machine Translated by Google

214 BAB 11 TEKNIK EVALUASI MODEL

11. Selanjutnya, terapkan model neural network untuk memprediksi churn.

sebuah. Tentukan tingkat positif palsu. b.

Tentukan tingkat negatif palsu.


c. Tentukan tingkat kesalahan keseluruhan.

d. Tentukan akurasi model keseluruhan (1 tingkat kesalahan keseluruhan).

12. Buatlah bagan angkat untuk model jaringan saraf. Berapa perkiraan kenaikan 20%?
33%? 40%? 50%?

13. Buatlah bagan pengangkatan tunggal yang mencakup yang lebih baik dari dua model CART, lebih baik dari dua
model C4.5, dan model jaringan saraf. Model mana yang lebih disukai daripada wilayah mana?

14. Mengingat hasil yang diperoleh di atas, diskusikan kualitas dan kecukupan churn kami secara keseluruhan
model klasifikasi.
Machine Translated by Google

EPILOG
“Kami Baru Mulai”
Undangan ke Data Mining
Metode dan Model

Saya harap Anda menikmati Discovering Knowledge in Data: An Introduction to Data Mining,
dan pengalaman kita bersama telah membangkitkan selera Anda untuk belajar lebih banyak
tentang bidang studi yang unik dan kuat ini. Faktanya, memang benar bahwa “kami baru saja
memulai” eksplorasi data mining kami. Lebih banyak volume dalam seri penambangan data
Wiley Interscience ini menunggu pemeriksaan Anda.
Metode dan Model Data Mining, akan memperluas susunan model yang kami miliki, dan
akan mempelajari lebih dalam metode dan model yang telah kami hadapi. Misalnya, kami akan
memperluas koleksi model klasifikasi kami untuk memasukkan metode nave Bayes dan jaringan
Bayesian.
Selanjutnya, Metode dan Model Penambangan Data akan berisi studi kasus bab, di
mana pembaca akan diperlihatkan bagaimana memecahkan masalah bisnis dan penelitian
yang sebenarnya menggunakan metode dan model penambangan data pada kumpulan data
dunia nyata yang besar. Setiap langkah dalam proses akan didemonstrasikan, mulai dari
identifikasi masalah bisnis, melalui pra-pemrosesan data, analisis data eksplorasi, pengembangan
model, penilaian model, dan akhirnya hingga pelaporan hasil dalam bentuk yang dapat dipahami
oleh non spesialis. Ini adalah penambangan data langsung di bawah kondisi dunia nyata.
Di luar ini, Data Mining Web akan mencakup tiga aspek utama penambangan web, yaitu
penambangan konten web, penambangan struktur web, dan penambangan penggunaan web.
Di antara topik yang akan dibahas dalam volume ini adalah analisis clickstream, pra-pemrosesan
file log web, sesi, penyelesaian jalur, dan analisis urutan log web.

Terima kasih telah berbagi pengalaman ini dengan saya, dan saya berharap dapat bekerja sama
dengan Anda di masa mendatang.

Daniel T. Larose, Ph.D.


Direktur, Data Mining @CCSU
www.ccsu.edu/datamining
Machine Translated by Google
Machine Translated by Google

INDEKS

Algoritma apriori yang Propagasi balik, 135 contoh,


menghasilkan aturan asosiasi, 186-187 137-138 aturan, 136–137
menghasilkan kumpulan item yang sering, 185–186
Adaptasi, 165, 166 Menyeimbangkan kumpulan data, 104

Analisis afinitas, 180-182 Bank Amerika, 1


Bidang anomali, 50–52 Diagram batang, 46–48
Anteseden, 183 Antara variasi cluster (BCV), 149, 154
Penerapan pemodelan jaringan saraf, 143–145
Algoritma apriori, 184–189 Bhandari, Inderpal, 3
Properti apriori, 184–185 Bias-variance trade-off, 93–95 mean
Asosiasi, 17 square error, 95
Aturan asosiasi, 17, 180–199 analisis Pohon biner, 109
afinitas, 180–182 anteseden, 183 Binning (pita), 61–62
algoritma apriori, 184–189 properti Boston Celtics, 3
apriori, 184–185 menghasilkan Bremmer, Eric, 2
aturan asosiasi, 186–187 Coklat, Dudley, 3
menghasilkan frequent itemset, 185–186
confidence, 184 perbedaan keyakinan metode, Algoritma C4.5, 116–127
195-196 metode rasio kepercayaan, 195-196 Perpecahan kandidat, 111
konsekuen, 183 representasi data untuk analisis CART, lihat Pohon klasifikasi dan regresi Studi kasus
keranjang pasar, 182-183
Daimler-Chrysler: menganalisis klaim garansi
mobil, 8–9
aturan asosiasi penambangan dari basis data hukum,
format data tabular, 182–183 19–21
format data transaksional, 182–183 memprediksi pengembalian pasar saham yang tidak normal,
definisi, 183 perluasan ke data kategori 18–19
umum, 189–190 frequent itemset, 184 induksi aturan memprediksi kebangkrutan perusahaan
umum (GRI), 190–196 penerapan GRI, 191–193 perilaku menggunakan pohon keputusan, 21-22
statistik J , 191 pembuatan profil bahan dan pasar menggunakan
pengelompokan, 23–24 Majalah CIO, 1 Claritas,
Inc., 16 Klasifikasi, 14–15, 95–96, 107–127, 128–146
J -measure, 190-191
itemset, 184 itemset
frekuensi, 184 pola lokal
versus model global, 197-198 analisis keranjang pasar, Pohon klasifikasi dan regresi (CART), 109–115,
180-182 prosedur untuk penambangan, 184 ukuran optimalitas 122–126, 110
pembelajaran yang diawasi atau tidak diawasi, 196
dukungan, 184 kapan tidak menggunakan aturan Kesalahan klasifikasi, 114
asosiasi , 193–196 Clinton, Presiden Bill, 2
Pusat cluster, 153

Discovering Knowledge in Data: An Introduction to Data Mining, Oleh Daniel T. Larose ISBN 0-471-66657-2
Hak Cipta C 2005 John Wiley & Sons, Inc.

217
Machine Translated by Google

218 INDEKS

Pengelompokan, 16–17, 147–162, 163–179 kebutuhan akan arahan manusia, 4, 10


antara variasi cluster (BCV), 149, 154 metode hierarkis, perangkat lunak

149-153 Advanced Scout oleh IBM, 3


metode aglomerasi, 149-153 hubungan Clementine oleh SPSS, Inc., 3
rata-rata, 150, 152-153 tautan lengkap, Enterprise Miner oleh SAS Institute, 158 Insightful
150-152 dendrogram, 149 metode divisi, Miner oleh Insightful Corp., 31 Minitab, 12 tugas, lihat
149–150 pengelompokan hierarkis, 49 Tugas, penambangan data mengapa penambangan
tautan tunggal, 150-151 k-means, lihat data, 4 Prapemrosesan data, 27– 40 pembersihan data,
pengelompokan k-means dalam cluster 28–30 pengkodean ambigu, 28–30 nilai anomali, 28–29
variasi (WCV), 149, 154 karakter versus pemformatan numerik, 28–29 min-max
normalisasi, 36–37 standarisasi z-score, 37–38
mengidentifikasi kesalahan klasifikasi, 33–34 hilang
Keanggotaan cluster untuk membuat prediksi, 161 data, 30-33 ganti dengan konstanta, 31 ganti dengan
Profil cluster, 175–177 mean atau modus, 31-32 ganti dengan nilai acak dari
Validitas cluster, 170 distribusi,
Fungsi kombinasi, 101-103 untuk jaringan
saraf, 132-133
Kompetisi, 165, 166
Pembelajaran kompetitif, 163
Jaringan yang sepenuhnya terhubung, 131-132
Keyakinan, 122, 184
Perkiraan interval kepercayaan, 73–74 31–33
Tingkat kepercayaan diri, 73 outlier, metode grafis untuk mengidentifikasi, 34-35
Pertemuan hasil, 19, 212
Matriks kebingungan, 203–204 definisi, 34 histogram,
Konsekuensinya, 183 34–35 rentang
Kerjasama, 165, 166 interkuartil, 39 kuartil, 39
Korelasi, 53–54, 78 scatterplot, 35 outlier,
Proses Standar Lintas Industri untuk Data Mining metode numerik untuk
(CRISP-DM), 5–7 mengidentifikasi, 38–39
fase pemahaman riset bisnis, 8,
18–19, 21, 23 mengapa data praproses, 27–28
fase persiapan data, 7–8, 18, 20–21, 23 fase Himpunan data

pemahaman data, 2, 8, 18, 20–21, 23 fase penyebaran, dewasa, 143


7, 9, 19, 21–22, 24 fase evaluasi, 7, 9 , 19, 20, 22, 24 fase sereal, 75
pemodelan, 7, 9, 18, 20–21, 23 churn, 42
Transformasi data, lihat Prapemrosesan data
Tabulasi silang, 47–48 Analisis biaya/manfaat keputusan, 207–208
Pengakhiran validasi silang, 139 Node keputusan, 107–108
Aturan keputusan, 121-122
Daimler-Chrysler, 5, 8–9 Pemangkasan pohon keputusan, 114–115, 121
Pembersihan data, lihat Prapemrosesan data Pohon keputusan, 107–127
Studi kasus Algoritma C4.5, 116–127 entropi,
penambangan data, lihat Studi kasus 116 entropi sebagai noise,
lintas proses standar industri (CRISP-DM), 117 pengurangan entropi,
5–7 116 informasi sebagai sinyal,
definisi, 2 mudah 117 perolehan informasi, 116
dilakukan dengan buruk, xii,
5 contoh klasifikasi dan pohon regresi (CART), 109–115, 122–
Bank Amerika, 1 126 pohon biner, 109 kandidat split, 111
Boston Celtics, 3 kesalahan klasifikasi, 114 ukuran optimalitas, 110
tumor otak, 2 pemangkasan pohon, 114–115
New York Knicks, 3
Clinton, Presiden Bill, 2
kekeliruan, 10–11
Machine Translated by Google

INDEKS 219

perbandingan algoritma CART dan C4.5, 122–126 Ekstensi ke data kategoris umum, 189–190

catatan minimum per node, 125 node Ekstrapolasi, 79


keputusan, 107–108 aturan keputusan,
121-122 kepercayaan, 122 dukungan, 122 Tingkat negatif palsu, 204
node grup, 107–108 node daun, 107– Negatif palsu, 204
108 persyaratan untuk, 109 Tingkat positif palsu, 204
Positif palsu, 204
FBI, 2
Jaringan umpan maju, 131-132
Dewan Pimpinan Demokrat, 2
Dendogram, 149 Grafik keuntungan, 208–211
Deskripsi, 11 Grup Gartner, 2
Deskripsi tugas, teknik evaluasi model, 201 Induksi aturan umum (GRI), 190–196
Fungsi "Berbeda dari", 100 penerapan, 191–193
Fungsi jarak (metrik jarak), 99-101 Minimum global, 139
jarak blok kota, 148 Metode penurunan gradien, 135–136
Jarak Euclidian, 99, 148 GRI, lihat Induksi aturan umum
Jarak Minkowski, 148 Grinstein, Georges, 5
Plot Juru Gambar, 83–84 Node grup, 107–108

Entropi, 116 Lapisan tersembunyi,


Pengurangan entropi, 116 ukuran 132, 132
Tingkat kesalahan, klasifikasi, 203–204 Pengelompokan hierarkis, 149
Tanggung jawab kesalahan, 137 Pinggul, Jochen, 8
Estimasi persamaan regresi (ERE), 76 Histogram, dinormalisasi, 55–58
Estimasi, 12–13, 67–88, 104–105, 131
Estimasi dan prediksi menggunakan jaringan saraf, Algoritma ID3, 116
131 Mengidentifikasi kesalahan klasifikasi, lihat
Kesalahan estimasi, 77, 201 Prapemrosesan data
Tugas estimasi, teknik evaluasi model, 201-202 Variabel indikator untuk jaringan saraf, 130
Perolehan informasi, 116
Jarak Euclidian, 99, 148 Encoding input dan output, jaringan saraf,
Analisis data eksplorasi, 41–66 bidang 129-131
anomali, 50–52 binning (banding), Lapisan masukan, 131-132
63 variabel kategori, 45–50 Perdagangan orang dalam, 18

Pembelajaran berbasis instans, 96


diagram batang perbandingan, 46– Analisis Data Cerdas (jurnal), 19
48 tabulasi silang, 47–48 grafik Rentang interkuartil, 39
web terarah, 50 interaksi dua arah Itemset, 184
antara variabel kategori, 48–50 berurusan frekuensi, 184
dengan variabel berkorelasi, 44–45 mengenal sering, 184
kumpulan data, 42–44 hubungan multivariat , 59–61
interaksi, 59–60 plot sebar tiga dimensi, 60–61 J -ukuran, 190-191
variabel numerik, 52–59 korelasi, 53–54 analisis J -statistik, perilaku, 191
grafis variabel numerik,
Kelly, Chris, 1 k-
means clustering, 153-162 aplikasi,
menggunakan SAS Enterprise Miner, 158-161

54–59 memilih k, 157


histogram yang dinormalisasi, cluster centroid, 153
55-58 variabel penahan dalam model, contoh, 153–158
58-59 memilih subset data yang menarik, 61-62 versus menggunakan keanggotaan cluster untuk membuat prediksi,
pengujian hipotesis, 41-42 161
Machine Translated by Google

220 INDEKS

algoritma k-nearest neighbor, 90–106 memilih Rata-rata, 69–70


k, 105–106 fungsi kombinasi, 101-103 Mean square error (MSE), 95, 201
Ukuran variabilitas, 70
voting sederhana tanpa bobot, 101-102 voting Median, 70
berbobot, 102-103 pertimbangan basis data, Prinsip panjang deskriptif minimum, 201
menyeimbangkan kumpulan data, Penyesuaian biaya kesalahan klasifikasi, 205–207
104 Data tidak ada, lihat Prapemrosesan data
fungsi jarak (metrik jarak), 99-101 fungsi "berbeda Modus, 70
dari", 100 Kompleksitas model, 92–93
Jarak Euclidian, 99 Teknik evaluasi model, 200–212 pertemuan hasil,
kesamaan, 99-101 212 tugas klasifikasi, 203–211
ketidaksetaraan segitiga, 99
estimasi dan prediksi, rata-rata berbobot lokal, 104– matriks kebingungan, 203–204
105 pembelajaran berbasis instans, 96 analisis biaya/manfaat keputusan, 207–208
peregangan sumbu, 103–104 tingkat kesalahan, 203–204 tingkat negatif palsu,
204 negatif palsu, 204 tingkat positif palsu, 204
Pembelajaran Kohonen, 165 positif palsu, 204 grafik keuntungan, 208–211
Jaringan Kohonen, 163–179 peningkatan, 208–209 bagan angkat, 208–211
adaptasi, 165, 166 algoritma, 166 kesalahan klasifikasi penyesuaian biaya, 205–
penerapan penggunaan 207 kesalahan tipe I, 205 kesalahan tipe II, 205
pengelompokan, 170–177 keanggotaan cluster tugas deskripsi, 201
sebagai masukan untuk model hilir, 177

profil klaster, 175-177 validitas


klaster, 170 kompetisi, 165,
166 kerjasama, 165, 166
contoh studi jaringan Kohonen, prinsip panjang deskriptif minimum, 201
166-170 pembelajaran, 165 ukuran lingkungan, 167 peta Pisau cukur Occam, 201
pengorganisasian mandiri (SOM), 163-165 pembelajaran tugas estimasi dan prediksi, 201–202
kompetitif , 163 fungsi penilaian, 163-164 simpul pemenang, kesalahan estimasi, 201
165 penyesuaian bobot, 167–169 mean square error (MSE), 201
residual, 201 kesalahan standar
estimasi, 202 jalinan evaluasi model dengan
bangunan model, 211–212

Kohonen, Tuevo, 163 Muhammad Atta, 2


Istilah momentum, 140-142
Jaringan berlapis, 131-132 Multikolinearitas, 84
Node daun, 107–108
Tingkat pembelajaran, 139-140 Naisbitt, John, 4
Kuadrat terkecil, 78 NCR, 5
Angkat, 208–209 Ukuran lingkungan, 167
Angkat grafik, 208–211 Jaringan saraf, 128–146
Lindner, Guido, 8 penerapan pemodelan jaringan saraf, 143–145
Rata-rata propagasi balik, 135

tautan, 150, 152-153 selesai,


150-152 tunggal, 150-151 contoh, 137-138
meminimalkan SSE, 135
Minimum lokal, 139 back-propagation stokastik, 137
Pola lokal versus model global, 197–198 aturan back-propagation, tanggung jawab
Louie, Jen Que, 10 kesalahan 136–137, estimasi dan
prediksi 137, metode penurunan gradien
Margin kesalahan, 73–74 131, 135–136 memberikan arahan untuk
Analisis keranjang pasar, 180-182 menyesuaikan bobot,
representasi data, 182-183 135
Machine Translated by Google

INDEKS 221

tingkat pembelajaran, 139-140 Garis regresi, 76–77


membantu memindahkan bobot ke minimum global, Regresi, linier sederhana, 12
139 mengurangi laju pembelajaran, 140 istilah persyaratan untuk, 109
momentum, 140-142 momentum mewakili inersia, 141 Sisa, 77, 201

neuron, 128-129 Sampel, 71


variabel indikator, 130 input Kesalahan
dan output encoding, 129-131 analisis pengambilan sampel, 73 Scatterplot, tiga
sensitivitas, 142-143 opacity jaringan saraf, dimensi, 60–61 Fungsi penilaian, SOM, 163–
142 164 Peta pengorganisasian mandiri (SOM),
fungsi aktivasi sigmoid, 134 fungsi 163–165 Analisis sensitivitas, 142–143 Fungsi
pemerasan, 134 aktivasi sigmoid, 134 Fungsi sigmoid, 133
contoh sederhana dari jaringan saraf, 131–134 fungsi Kesamaan , 99–101 Simoudis, Evangelos, 2
kombinasi, 132–133 jaringan yang terhubung Slope, 76 Rasio natrium/kalium, 14–15 SPSS,
sepenuhnya, 131–132 jaringan umpan maju, 131– Inc., 2, 5 Fungsi pemampatan, 134 Standar
132 lapisan tersembunyi, ukuran, 132 lapisan deviasi, 71 Standar kesalahan estimasi, 202
input, 131–132 jaringan berlapis, 131–132 perilaku Statistik, 71 Pendekatan statistik untuk estimasi
nonlinier , 133 lapisan keluaran, 132 fungsi dan prediksi, 67-89 metode bivariat, 75-82
sigmoid, 133 bobot, koneksi, 132 kepercayaan pada perkiraan kami, 73 kesalahan
pengambilan sampel, 73

kriteria penghentian, 139


penghentian validasi silang, 139
minimum global, 139 minimum lokal,
139
Neuron, 128–129 estimasi interval kepercayaan, 73–75
New York Knicks, 3 perkiraan interval kepercayaan, 73-74
Perilaku nonlinier jaringan saraf, 133 tingkat kepercayaan, 73 margin kesalahan,
Plot normal dari residu, 85 73-74 presisi, 74 t-interval untuk rata-rata,
74-75 interval kepercayaan untuk nilai
Pisau cukur Occam, 201 rata-rata
Pencilan, metode untuk mengidentifikasi, lihat
Prapemrosesan data y diberikan x, 80–
Lapisan keluaran, 132 82 ekstrapolasi, 79
Overfitting, 92–93 bahaya, 79–80 ukuran
pusat, 69–70 rata-rata, 69–70
Parameter, 71 ukuran lokasi, 69 mode, 70
Plot residu standar versus nilai pas, ukuran penyebaran, 70–71
86
Estimasi titik, 72
Estimasi titik, 72 ukuran variabilitas, rentang 70,
Populasi, 71 71 standar deviasi, 71 regresi
Presisi, 74 berganda, 83-88 plot juru
Prediksi, 13, 67–88, 104–105, 131 gambar, 83-84 multikolinearitas,
Kesalahan prediksi, 77 84 interval prediksi untuk nilai
Tugas prediksi, lihat Teknik evaluasi model y yang dipilih secara acak yang
Prosedur penambangan, 184 diberikan x, 80-82 pengamatan yang tidak biasa, 82
regresi linier sederhana, 75–82
Kuartil, 39
Quinlan, Ross, 116
korelasi, 78
Jangkauan, 71 estimasi persamaan regresi (ERE), 76 estimasi
Koefisien regresi, 76 error, 77
Machine Translated by Google

222 INDEKS

Pendekatan statistik untuk estimasi dan prediksi Format data tabel, 182-183
(Lanjutan ) kuadrat terkecil, 78 kesalahan Variabel target, 14
prediksi, 77 koefisien regresi, 76 garis Tugas, penggalian data, 11–17
regresi, 76–77 residual, 77 kemiringan, 76 asosiasi, 17 klasifikasi, 14–15
perpotongan y, 76 inferensi statistik, 71–75 pengelompokan, 16–17
estimasi, 72 parameter, 71 estimasi titik, deskripsi, 11 estimasi, 12–13
estimasi titik 72, populasi 72, sampel prediksi, 13
representatif 71 populasi, statistik 71-72,
metode 71 univariat, asumsi model verifikasi
69-75, plot residu normal 85-86, plot residu Kriteria penghentian, 139
standar 85 versus nilai yang dipasang, 86 Terorisme, 2
Kumpulan data uji, 91–92
t-interval untuk mean, 74–75
Kumpulan data pelatihan, 14, 91–92
Format data transaksional, 182-183
Pertidaksamaan segitiga, 99
Kesalahan tipe I, 205
Kesalahan tipe II, 205

Repositori UCI dari Basis Data Pembelajaran Mesin, 42, 122

Kurang pas, 92–93


Propagasi balik stokastik, 137 Metode tanpa pengawasan, 90
Metode yang diawasi, 91 Pengamatan yang tidak biasa, 82
Pemodelan yang diawasi, metodologi untuk, 91–93
kompleksitas model, 92–93 Kumpulan data validasi, 92
overfitting, 92–93 kumpulan data Voting
pengujian, 91–92 kumpulan data sederhana tanpa bobot, 101-102
pelatihan, 91–92 underfitting, 92– tertimbang, 102-103
93 kumpulan data validasi, 92
Grafik web, 50
Pembelajaran dengan pengawasan versus tanpa pengawasan, 90-91, Penyesuaian berat, 167–169
196 Bobot, sambungan, 132
metode yang diawasi, 91 Dalam variasi cluster (WCV), 149, 154
metode tanpa pengawasan, 90
Dukungan, 122, 184 y-intersep, 76

Anda mungkin juga menyukai