Bab 1 Data Mining (Terjemahan)

1
Intr oduction
Buku ini adalah pengantarto bidang data mining yang muda dan berkembang pesat (juga
dikenal sebagai penemuan pengetahuan dari data, atau disingkat KDD). Buku ini
berfokus pada konsep dan teknik penggalian data fundamental untuk menemukan pola
yang menarik dari data dalam berbagai aplikasi. Secara khusus, kami menekankan
teknik terkemuka untuk mengembangkan alat data mining yang efektif, efisien, dan
skalabel.
Bab ini disusun sebagai berikut. Di Bagian 1.1, Anda akan mempelajari mengapa
data mining sangat diminati dan bagaimana hal itu merupakan bagian dari evolusi
alami teknologi informasi. Bagian 1.2 mendefinisikan penggalian data sehubungan
dengan proses penemuan pengetahuan. Selanjutnya, Anda akan belajar tentang data
mining dari banyak aspek, seperti jenis data yang dapat ditambang (Bagian 1.3), jenis
pengetahuan yang akan ditambang (Bagian 1.4), jenis teknologi yang akan digunakan
(Bagian 1.5) , dan aplikasi yang ditargetkan (Bagian 1.6). Dengan cara ini, Anda akan
mendapatkan tampilan data mining multidimensi. Akhirnya, Bagian 1.7 menguraikan
masalah penelitian dan pengembangan data mining utama.
1.1 Mengapa Data Mining?

Necessity,who adalah ibu dari penemuan.- Plato
WKita hidup di dunia tempat sejumlah besar data dikumpulkan setiap hari.
Menganalisis data semacam itu merupakan kebutuhan penting. Bagian 1.1.1 melihat
bagaimana data mining dapat memenuhi kebutuhan ini dengan menyediakan alat
untuk menemukan pengetahuan dari data. Di Bagian 1.1.2, kami mengamati
bagaimana data mining dapat dilihat sebagai hasil dari evolusi alami teknologi
informasi.
1.1.1 Menuju Era Informasi

“Kita hidup di era informasi” adalah pepatah populer; Namun, kita sebenarnya hidup
di era data. Terabyte atau petabyte1 data mengalir ke jaringan komputer kami, World
Wide Web (WWW), dan berbagai perangkat penyimpanan data setiap hari dari bisnis,
1 Petabyteadalah satuan informasi atau penyimpanan komputer yang setara dengan 1 kuadriliun byte,
atau seribu terabyte, atau 1 juta gigabyte.
Data Mining: Konsepdan Teknik 1

c 2012 Elsevier Inc. Semua hak dilindungi undang-undang.
2 Chapter 1 Introduction 1.1 Why Data Mining?2
masyarakat, sains dan teknik, kedokteran, dan hampir setiap aspek kehidupan sehari-
hari. Pertumbuhan eksplosif dari volume data yang tersedia ini adalah hasil dari
komputerisasi masyarakat kita dan perkembangan cepat alat pengumpulan dan
penyimpanan data yang kuat. Bisnis di seluruh dunia menghasilkan kumpulan data
yang sangat besar, termasuk transaksi penjualan, catatan perdagangan saham, deskripsi
produk, promosi penjualan, profil dan kinerja perusahaan, dan umpan balik pelanggan.
Misalnya, toko besar, seperti Wal-Mart, menangani ratusan juta transaksi per minggu
di ribuan cabang di seluruh dunia. Praktik ilmiah dan teknik menghasilkan pesanan
tinggi dari petabyte data secara terus menerus, mulai dari penginderaan jauh,
pengukuran proses, eksperimen ilmiah, kinerja sistem, pengamatan teknik, dan
pengawasan lingkungan.
Jaringan telekomunikasi tulang punggung global membawa puluhan petabyte lalu
lintas data setiap hari. Industri medis dan kesehatan menghasilkan sejumlah besar data
dari rekam medis, pemantauan pasien, dan pencitraan medis. Miliaran pencarian Web
yang didukung oleh mesin pencari memproses puluhan petabyte data setiap hari.
Komunitas dan media sosial telah menjadi sumber data yang semakin penting,
menghasilkan gambar dan video digital, blog, komunitas Web, dan berbagai jenis
jejaring sosial. Daftar sumber yang menghasilkan data dalam jumlah besar tidak
terbatas.
Kumpulan data yang tumbuh secara eksplosif, tersedia secara luas, dan sangat besar
ini menjadikan waktu kita benar-benar era data. Alat yang kuat dan serbaguna sangat
dibutuhkan untuk secara otomatis mengungkap informasi berharga dari data yang
sangat banyak dan untuk mengubah data tersebut menjadi pengetahuan yang
terorganisir. Kebutuhan ini menyebabkan lahirnya data mining. Lapangannya masih
muda, dinamis, dan menjanjikan. Penambangan data telah dan akan terus membuat
langkah besar dalam perjalanan kita dari era data menuju era informasi yang akan
datang.
Contoh 1.1 Data mining mengubah sekumpulan besar data menjadi pengetahuan.Mesin
pencari (mis., Google) menerima ratusan juta kueri setiap hari. Setiap kueri dapat
dilihat sebagai transaksi di mana pengguna menggambarkan kebutuhan informasinya.
Pengetahuan baru dan berguna apa yang dapat dipelajari mesin pencari dari kumpulan
kueri yang begitu besar yang dikumpulkan dari pengguna sepanjang waktu?
Menariknya, beberapa pola yang ditemukan dalam kueri penelusuran pengguna dapat
mengungkapkan pengetahuan tak ternilai yang tidak dapat diperoleh dengan membaca
item data individu saja. Misalnya, Pantau Flu Dunia Google menggunakan istilah
penelusuran khusus sebagai indikator aktivitas flu. Ditemukan hubungan erat antara
jumlah orang yang mencari informasi terkait flu dan jumlah orang yang benar-benar
mengalami gejala flu. Sebuah pola muncul ketika semua kueri penelusuran yang
terkait dengan flu digabungkan. Menggunakan data pencarian Google yang
dikumpulkan,
1.1.2 Data Mining sebagai Evolusi Teknologi Informasi

Penambangan data dapat dilihat sebagai hasil dari evolusi alami teknologi informasi.
Industri database dan manajemen data berkembang dalam perkembangan
2 Ini dilaporkan di [GMP+ 09].

Pengumpulan Data dan Pembuatan Basis

Data
(1960-an dan
sebelumnya)
Pemrosesan file primitif
Sistem Manajemen Basis Data

(1970-an hingga awal 1980-an)
Sistem basis data hierarki dan jaringan
Sistem basis data relasional
Pemodelan data: model hubungan entitas, dll.
Mengindeks dan mengakses
metode
Bahasa kueri: SQL, dll.
Antarmuka pengguna, formulir, dan
laporan
Pemrosesan dan pengoptimalan
kueri
Transaksi, kontrol konkurensi, dan pemulihan
Pemrosesan transaksi online (OLTP)
Sistem Database Lanjutan Analisis Data Lanjutan

(pertengahan 1980-an (akhir 1980-an hingga
hingga sekarang) sekarang)
Model data tingkat lanjut: relasional Gudang data dan OLAP
diperpanjang, relasional objek, deduktif, dll. Penambangan data dan penemuan
Mengelola data kompleks: spasial, temporal, pengetahuan: klasifikasi, pengelompokan,
multimedia, urutan dan terstruktur, ilmiah, analisis pencilan, asosiasi dan korelasi,
teknik, objek bergerak, dll. Aliran data dan ringkasan komparatif, analisis diskriminasi,
sistem data fisik siber Database berbasis web penemuan pola, analisis tren dan deviasi, dll.
(XML, web semantik) Mengelola data yang Menambang jenis data yang kompleks: aliran,
tidak pasti dan pembersihan data Integrasi urutan, teks, spasial, temporal, multimedia,
heterogen sumber Web, jaringan, dll.
Sistem database teks dan integrasi dengan Aplikasi data mining: bisnis, masyarakat,
pencarian informasi ritel, perbankan, telekomunikasi, sains dan
Manajemen data yang sangat besar teknik, blog, kehidupan sehari-hari, dll.
Sistem database tuning dan sistem adaptif Penambangan data dan masyarakat:
Kueri lanjutan: peringkat, cakrawala, dll. penambangan data tidak terlihat,
penambangan data yang menjaga privasi,
Komputasi awan dan pemrosesan data paralel
penambangan jaringan sosial dan
Masalah privasi dan keamanan data informasi, sistem pemberi rekomendasi,
dll.
Generasi Sistem Informasi Masa Depan
(Sekarang untuk
masa depan)
Gambar 1.1Evolusi teknologi sistem database.
beberapa fungsi penting (Gambar 1.1): pengumpulan dan pembuatan database,

pengelolaan data (termasuk penyimpanan dan pengambilan data serta pemrosesan
transaksi database), dan analisis data tingkat lanjut (melibatkan data warehousing dan
data mining). Pengembangan awal dari pengumpulan data dan mekanisme pembuatan
database berfungsi sebagai prasyarat untuk pengembangan selanjutnya dari
mekanisme yang efektif untuk penyimpanan dan pengambilan data, serta kueri dan
pemrosesan transaksi. Saat ini banyak sistem basis data menawarkan pemrosesan kueri
dan transaksi sebagai praktik umum. Analisis data tingkat lanjut secara alami menjadi
langkah berikutnya.
SSejak tahun 1960-an, database dan teknologi informasi telah berkembang secara
sistematis dari sistem pemrosesan file primitif menjadi sistem database yang canggih
dan kuat. Penelitian dan pengembangan dalam sistem basis data sejak tahun 1970-an
berkembang dari sistem basis data hierarki dan jaringan awal ke sistem basis data
relasional (di mana data disimpan dalam struktur tabel relasional; lihat Bagian 1.3.1),
alat pemodelan data, dan metode pengindeksan dan pengaksesan. Selain itu, pengguna
memperoleh akses data yang nyaman dan fleksibel melalui bahasa kueri, antarmuka
pengguna, pengoptimalan kueri, dan manajemen transaksi. Metode efisien untuk
pemrosesan transaksi online (OLTP), di mana kueri dipandang sebagai transaksi hanya
baca, berkontribusi secara substansial terhadap evolusi dan penerimaan luas teknologi
relasional sebagai alat utama untuk penyimpanan yang efisien,
SEBUAHSetelah pembentukan sistem manajemen basis data, teknologi basis data
bergerak menuju pengembangan sistem basis data canggih, pergudangan data, dan
penambangan data untuk analisis data tingkat lanjut dan basis data berbasis web.
Sistem database yang maju, misalnya, dihasilkan dari peningkatan penelitian dari
pertengahan 1980-an dan seterusnya. Sistem ini menggabungkan model data baru dan
kuat seperti model relasional yang diperluas, berorientasi objek, relasional objek, dan
deduktif. Sistem basis data berorientasi aplikasi telah berkembang, termasuk basis data
spasial, temporal, multimedia, aktif, aliran dan sensor, basis data ilmiah dan teknik,
basis pengetahuan, dan basis informasi kantor. Masalah yang terkait dengan distribusi,
diversifikasi, dan berbagi data telah dipelajari secara ekstensif.
Iklananalisis data yang menguntungkan bermunculan sejak akhir 1980-an dan
seterusnya. Kemajuan yang mantap dan mempesona dari teknologi perangkat keras
komputer dalam tiga dekade terakhir menyebabkan banyak persediaan komputer,
peralatan pengumpulan data, dan media penyimpanan yang kuat dan terjangkau.
Teknologi ini memberikan dorongan besar untuk database dan industri informasi, dan
memungkinkan sejumlah besar database dan repositori informasi tersedia untuk
manajemen transaksi, pengambilan informasi, dan analisis data. Data sekarang dapat
disimpan di berbagai jenis database dan repositori informasi.
Salah satu arsitektur repositori data yang muncul adalah gudang data (Bagian
1.3.2). Ini adalah repositori dari beberapa sumber data heterogen yang diatur dalam
skema terpadu di satu situs untuk memfasilitasi pengambilan keputusan manajemen.
Teknologi data warehouse mencakup pembersihan data, integrasi data, dan
pemrosesan analitik online (OLAP) —yaitu, teknik analisis dengan fungsionalitas
seperti peringkasan, pemadatan, dan agregasi, serta kemampuan untuk melihat
informasi dari berbagai sudut. Meskipun alat OLAP mendukung analisis multidimensi
dan pengambilan keputusan, alat analisis data tambahan diperlukan untuk analisis
mendalam — misalnya, alat penambangan data yang menyediakan klasifikasi data,
pengelompokan, deteksi pencilan / anomali, dan karakterisasi perubahan dalam data.
waktu.
H.Sejumlah besar data telah terkumpul di luar database dan gudang data. Selama
tahun 1990-an, World Wide Web dan database berbasis web (misalnya, database
XML) mulai muncul. Basis informasi global berbasis internet, seperti WWW dan
berbagai jenis basis data heterogen yang saling berhubungan, telah muncul dan
memainkan peran penting dalam industri informasi. Analisis data yang efektif dan
efisien dari berbagai bentuk data dengan integrasi pencarian informasi, penggalian
data, dan teknologi analisis jaringan informasi adalah tugas yang menantang.
5 Chapter 1 Introduction 1.2 What Is Data Mining?5
Bagaimana cara menganalisis data ini?
Gambar 1.2Dunia kaya akan data tetapi miskin informasi.
sayaSingkatnya, banyaknya data, ditambah dengan kebutuhan akan alat analisis

data yang kuat, telah digambarkan sebagai situasi yang kaya data tetapi miskin
informasi (Gambar 1.2). Jumlah data yang berkembang pesat dan luar biasa,
dikumpulkan dan disimpan dalam repositori data yang besar dan banyak, telah jauh
melebihi kemampuan manusia kita untuk memahami tanpa alat yang kuat. Akibatnya,
data yang terkumpul di repositori data yang besar menjadi “kuburan data” —arsip data
yang jarang dikunjungi. Akibatnya, keputusan penting sering dibuat tidak berdasarkan
data kaya informasi yang disimpan dalam repositori data tetapi lebih pada intuisi
pembuat keputusan, hanya karena pembuat keputusan tidak memiliki alat untuk
mengekstrak pengetahuan berharga yang tertanam dalam sejumlah besar data. data.
Upaya telah dilakukan untuk mengembangkan sistem pakar dan teknologi berbasis
pengetahuan, yang biasanya mengandalkan pengguna atau pakar domain untuk
memasukkan pengetahuan secara manual ke dalam basis pengetahuan. Sayangnya,
bagaimanapun, prosedur input pengetahuan manual rentan terhadap bias dan kesalahan
serta sangat mahal dan memakan waktu. Kesenjangan yang semakin lebar antara data
dan informasi membutuhkan pengembangan sistematis dari alat data mining yang
dapat mengubah data tombs menjadi “golden nugget” pengetahuan.
1.2 Apa Itu Data Mining?
sayaTidaklah mengherankan jika data mining, sebagai subjek yang benar-benar

interdisipliner, dapat didefinisikan
dengan berbagai cara. Bahkan istilah data mining tidak benar-benar menampilkan
semua komponen utama dalam gambar. Untuk merujuk pada penambangan emas dari
batu atau pasir, kita mengatakan penambangan emas bukan penambangan batu atau
pasir. Secara analogi, data mining seharusnya lebih banyak
Pengetahua
n
Gambar 1.3Data mining — mencari pengetahuan (pola yang menarik) dalam data.
secara tepat dinamai "penambangan pengetahuan dari data", yang sayangnya agak
panjang. Namun, dalam jangka pendek, penambangan pengetahuan mungkin tidak
mencerminkan penekanan pada penambangan dari sejumlah besar data. Namun
demikian, penambangan adalah istilah yang jelas yang mencirikan proses yang
menemukan sekumpulan kecil nugget berharga dari banyak bahan mentah (Gambar
1.3). Jadi, kesalahan nama yang membawa baik "data" dan "penambangan" menjadi
pilihan populer. Selain itu, banyak istilah lain yang memiliki arti serupa dengan data
mining — misalnya, penambangan pengetahuan dari data, ekstraksi pengetahuan,
analisis data / pola, arkeologi data, dan pengerukan data.
Msetiap orang memperlakukan data mining sebagai sinonim untuk istilah lain yang
populer digunakan, penemuan pengetahuan dari data, atau KDD, sementara yang lain
melihat data mining hanya sebagai langkah penting dalam proses penemuan
pengetahuan. Proses penemuan pengetahuan ditunjukkan pada Gambar 1.4 sebagai
urutan iteratif dari langkah-langkah berikut:
1. Pembersihan data(untuk menghilangkan noise dan

data yang tidak konsisten)
2. Integrasi data(di mana beberapa sumber data dapat
digabungkan) 3
3 Trenpopuler dalam industri informasi adalah melakukan pembersihan data dan integrasi data
sebagai langkah preprocessing, dimana data yang dihasilkan disimpan di gudang data.
Evaluasi dan Pengetahuan

presentasi
Penam Pola
bangan
data
Seleksi dan
transformasi
Data
Gudang
Pembersihan
dan integrasi
File datar
Database
Gambar 1.4Data mining sebagai langkah dalam proses penemuan pengetahuan.

3. Pemilihan data(di mana data yang relevan dengan tugas analisis diambil dari
database)
4. Transformasi data(di mana data diubah dan dikonsolidasikan ke dalam bentuk
yang sesuai untuk penambangan dengan melakukan operasi ringkasan atau
agregasi) 4
5. Penambangan data(proses penting di mana metode cerdas diterapkan untuk
mengekstrak pola data)
6. Evaluasi pola(untuk mengidentifikasi pola yang benar-benar menarik yang
mewakili pengetahuan berdasarkan ukuran ketertarikan — lihat Bagian 1.4.6)
7. Presentasi pengetahuan(di mana teknik visualisasi dan representasi
pengetahuan digunakan untuk menyajikan pengetahuan yang ditambang kepada
pengguna)
Langkah1 hingga 4 adalah berbagai bentuk preprocessing data, di mana data

disiapkan untuk penambangan. Langkah penambangan data dapat berinteraksi dengan
pengguna atau basis pengetahuan. Pola yang menarik disajikan kepada pengguna dan
dapat disimpan sebagai pengetahuan baru di basis pengetahuan.
Tampilan sebelumnya menunjukkan data mining sebagai satu langkah dalam proses
penemuan pengetahuan, meskipun penting karena mengungkap pola tersembunyi
untuk evaluasi. Namun, dalam industri, media, dan lingkungan penelitian, istilah data
mining sering digunakan untuk merujuk pada seluruh proses penemuan pengetahuan
(mungkin karena istilah tersebut lebih pendek daripada penemuan pengetahuan dari
data). Oleh karena itu, kami mengadopsi pandangan luas tentang fungsionalitas
penambangan data: Data mining adalah proses menemukan pola dan pengetahuan
yang menarik dari sejumlah besar data. Sumber data dapat mencakup database,
gudang data, Web, repositori informasi lain, atau data yang dialirkan ke dalam sistem
secara dinamis.
1.3 Jenis Data Apa yang Dapat Ditambang?

SEBUAHSebagai teknologi umum, data mining dapat diterapkan pada semua jenis
data asalkan file
data sangat berarti untuk aplikasi target. Bentuk paling dasar dari data untuk aplikasi
pertambangan adalah data database (Bagian 1.3.1), data gudang data (Bagian 1.3.2),
dan data transaksional (Bagian 1.3.3). Konsep dan teknik yang disajikan dalam buku
ini berfokus pada data tersebut. Data mining juga dapat diterapkan pada bentuk data
lain (misalnya, aliran data, data urutan / urutan, grafik atau data jaringan, data spasial,
data teks, data multimedia, dan WWW). Kami menyajikan gambaran umum dari data
tersebut di Bagian 1.3.4. Teknik untuk menggali jenis data ini secara singkat
diperkenalkan di Bab 13. Perlakuan mendalam dianggap sebagai topik lanjutan.
Penambangan data pasti akan terus merangkul tipe data baru saat mereka muncul.
4 Terkadang transformasi dan konsolidasi data dilakukan sebelum proses pemilihan data, khususnya
dalam kasus data warehousing. Reduksi data juga dapat dilakukan untuk mendapatkan representasi
yang lebih kecil dari data asli tanpa mengorbankan integritasnya.
9 Chapter 1 Introduction 1.3 What Kinds of Data Can Be Mined?9
1.3.1 Data Database

Sistem basis data, juga disebut sistem manajemen basis data (DBMS), terdiri dari
kumpulan data yang saling terkait, yang dikenal sebagai basis data, dan sekumpulan
program perangkat lunak untuk mengelola dan mengakses data. Program perangkat
lunak menyediakan mekanisme untuk mendefinisikan struktur database dan
penyimpanan data; untuk menentukan dan mengelola akses data secara bersamaan,
dibagikan, atau didistribusikan; dan untuk memastikan konsistensi dan keamanan
informasi yang disimpan meskipun sistem crash atau upaya akses yang tidak sah.
Database relasional adalah kumpulan tabel, yang masing-masing diberi nama unik.
Setiap tabel terdiri dari satu set atribut (kolom atau bidang) dan biasanya menyimpan
sekumpulan besar tupel (catatan atau baris). Setiap tupel dalam tabel relasional
mewakili objek yang diidentifikasi dengan kunci unik dan dijelaskan oleh sekumpulan
nilai atribut. Model data semantik, seperti model data relasional entitas (ER), sering
dibuat untuk database relasional. Model data ER merepresentasikan database sebagai
sekumpulan entitas dan hubungannya.
Contoh 1.2 Database relasional untuk AllElectronics.Toko AllElectronics fiktif digunakan

untuk mengilustrasikan konsep di seluruh buku ini. Perusahaan dijelaskan oleh tabel
relasi berikut: pelanggan, item, karyawan, dan cabang. Header dari tabel yang
dijelaskan di sini ditunjukkan pada Gambar 1.5. (Header juga disebut skema relasi.)
Relasi pelanggan terdiri dari sekumpulan atribut yang mendeskripsikan informasi

pelanggan, termasuk nomor identitas pelanggan yang unik (cust ID), nama
pelanggan, alamat, usia, pekerjaan, pendapatan tahunan, informasi kredit, dan
kategori.
Ssama halnya,setiap item relasi, karyawan, dan cabang terdiri dari satu set atribut
yang mendeskripsikan properti entitas ini.
Tables juga dapat digunakan untuk merepresentasikan hubungan antara atau di
antara banyak entitas. Dalam contoh kami, ini termasuk pembelian (pelanggan
membeli barang, membuat transaksi penjualan ditangani oleh seorang karyawan),
barang yang dijual (daftar barang yang dijual dalam transaksi tertentu), dan bekerja
di (karyawan bekerja di cabang AllElectronics).
pelanggan(cust ID, nama, alamat, usia, pekerjaan, pendapatan tahunan, informasi

kredit, kategori,..)
barang(ID barang, merek, kategori, jenis, harga, tempat pembuatan, pemasok, biaya,..)
employee(empl ID, nama, kategori, grup, gaji, komisi,..)
cabang(ID cabang, nama, alamat,...)
pembelian(trans ID, cust ID, empl ID, tanggal, waktu, metode pembayaran, jumlah)
barang terjual(trans ID, item ID, qty)
works di(ID empl, ID cabang)
Gambar 1.5Relasionalskema untuk database relasional, AllElectronics.

Rdata elasional dapat diakses oleh query database yang ditulis dalam bahasa query
relasional (misalnya SQL) atau dengan bantuan antarmuka pengguna grafis. Kueri
tertentu diubah menjadi sekumpulan operasi relasional, seperti penggabungan,
pemilihan, dan proyeksi, dan kemudian dioptimalkan untuk pemrosesan yang efisien.
Query memungkinkan pengambilan subset tertentu dari data. Misalkan tugas Anda
adalah menganalisis data AllElectronics. Melalui penggunaan kueri relasional, Anda
dapat menanyakan hal-hal seperti, "Tunjukkan daftar semua item yang terjual pada
kuartal terakhir". Bahasa relasional juga menggunakan fungsi agregat seperti sum, avg
(average), count, max (maximum), dan min (minimum). Menggunakan agregat
memungkinkan Anda bertanya: "Tunjukkan total penjualan bulan lalu, dikelompokkan
menurut cabang, "Atau" Berapa banyak transaksi penjualan yang terjadi di bulan
Desember? " atau "Penjual mana yang memiliki penjualan tertinggi?"
WSaat menambang database relasional, kita dapat melangkah lebih jauh dengan
mencari tren atau pola data. Misalnya, sistem data mining dapat menganalisis data
pelanggan untuk memprediksi risiko kredit pelanggan baru berdasarkan pendapatan,
usia, dan informasi kredit sebelumnya. Sistem data mining juga dapat mendeteksi
penyimpangan — yaitu, item dengan penjualan yang jauh dari yang diharapkan
dibandingkan dengan tahun sebelumnya. Penyimpangan tersebut kemudian dapat
diselidiki lebih lanjut. Misalnya, data mining mungkin menemukan bahwa telah terjadi
perubahan kemasan suatu barang atau kenaikan harga yang signifikan.
Rdatabase elasionaladalah salah satu repositori informasi yang paling umum
tersedia dan terkaya, dan dengan demikian merupakan bentuk data utama dalam studi
data mining.
1.3.2 Gudang Data

Suppose bahwa AllElectronics adalah perusahaan internasional yang sukses dengan
cabang di seluruh dunia. Setiap cabang memiliki kumpulan database sendiri. Presiden
AllElectronics telah meminta Anda untuk memberikan analisis penjualan perusahaan
per jenis item per cabang untuk kuartal ketiga. Ini adalah tugas yang sulit, terutama
karena data yang relevan tersebar di beberapa database yang secara fisik terletak di
banyak situs.
sayaJika AllElectronics memiliki gudang data, tugas ini akan mudah. Gudang data
adalah tempat penyimpanan informasi yang dikumpulkan dari berbagai sumber,
disimpan di bawah skema terpadu, dan biasanya berada di satu situs. Gudang data
dibangun melalui proses pembersihan data, integrasi data, transformasi data, pemuatan
data, dan penyegaran data berkala. Proses ini dibahas dalam Bab 3 dan 4. Gambar 1.6
menunjukkan kerangka kerja khas untuk konstruksi dan penggunaan gudang data
untuk AllElectronics.
To memfasilitasi pengambilan keputusan, data dalam gudang data diatur seputar
subjek utama (misalnya, pelanggan, item, pemasok, dan aktivitas). Data disimpan
untuk memberikan informasi dari perspektif historis, seperti dalam 6 sampai 12 bulan
terakhir, dan biasanya diringkas. Misalnya, daripada menyimpan detail setiap transaksi
penjualan, gudang data dapat menyimpan ringkasan transaksi per jenis item untuk
setiap toko atau, diringkas ke tingkat yang lebih tinggi, untuk setiap wilayah
penjualan.
Gudang data biasanya dimodelkan oleh struktur data multidimensi, yang disebut
kubus data, di mana setiap dimensi terkait dengan atribut atau sekumpulan atribut
dalam skema, dan setiap sel menyimpan nilai dari beberapa ukuran agregat seperti
hitungan.
Sumber data di Chicago

Klien
Clean
Sumber data di New York Integrate Data Query dan
Transform
Load Warehouse alat analisis
Refresh
Sumber data di Toronto Klien
Sumber data di Vancouver
Gambar 1.6Typicalkerangka gudang data untuk AllElectronics.
Hair sum (jumlah penjualan). Sebuah kubus data menyediakan tampilan data
multidimensi dan memungkinkan prakomputasi dan akses cepat dari data yang
diringkas.
Contoh 1.3 Sebuah kubus data untuk AllElectronics.Kubus data untuk ringkasan data
penjualan AllElectronics disajikan pada Gambar 1.7 (a). Kubus memiliki tiga dimensi:
alamat (dengan nilai kota Chicago, New York, Toronto, Vancouver), waktu (dengan
nilai kuartal Q1, Q2, Q3, Q4), dan item (dengan nilai jenis item hiburan rumah,
komputer, telepon, keamanan ). Nilai agregat yang disimpan di setiap sel kubus adalah
jumlah penjualan (dalam ribuan). Misalnya, total penjualan untuk kuartal pertama, Q1,
untuk item yang terkait dengan sistem keamanan di Vancouver
$ 400, 000, sebagai disimpan di sel hVancouver, Q1, securityi. Kubus tambahan dapat
digunakan untuk menyimpan
agregat sums over setiap dimensi, sesuai dengan nilai agregat yang diperoleh dengan
menggunakan kelompok SQL yang berbeda (mis., jumlah total penjualan per kota dan
kuartal, atau per kota dan item, atau per kuartal dan item, atau per setiap dimensi
individu).
Byproviding tampilan data multidimensi dan prakomputasi data yang diringkas,

sistem gudang data dapat memberikan dukungan yang melekat untuk OLAP. Operasi
pemrosesan analisis online memanfaatkan pengetahuan latar belakang mengenai
domain data yang sedang dipelajari untuk memungkinkan penyajian data pada
berbagai tingkat abstraksi. Operasi tersebut mengakomodasi sudut pandang pengguna
yang berbeda. Contoh operasi OLAP termasuk drill-down dan roll-up, yang
memungkinkan pengguna untuk melihat data pada derajat yang berbeda dari
ringkasan, seperti yang diilustrasikan pada Gambar 1.7 (b). Misalnya, kami dapat
menelusuri data penjualan yang diringkas per kuartal untuk melihat data yang
diringkas per bulan. Demikian pula, kita dapat mengumpulkan data penjualan yang
diringkas menurut kota untuk melihat data yang diringkas menurut negara.
SEBUAHMeskipun alat data warehouse membantu mendukung analisis data, alat

tambahan untuk data mining sering kali diperlukan untuk analisis mendalam.
Penambangan data multidimensi (juga disebut penambangan data multidimensi
eksplorasi) melakukan penambangan data di
Chicago 440
New York 1560
Toronto 395
V.ancouver
<Vancouver,
P1 6085825 14400 Q1,
keamanan>
waktu(kuartal)
P2
P3
P4
komputer keamanan
hiburan telepon
rumah
barang(jenis
)
(Se
bu
ah)
Lihat perincian Roll-up
data waktu untuk Q1 di alamat
Chicago Ame 2000

rika
Serik
at
New York Kanada 1000
Toronto
waktu(kuartal)
P1
waktu(bulan)
V.ancouver
150 Jan P2
100 Feb P3
150 Maret P4
keamanan komputer keamanan komputer

telepon rumah telepon rumah
hiburan hiburan
barang (jenis) barang (jenis)
(b)
Gambar 1.7Sebuah kubus data multidimensi, biasanya digunakan untuk data warehousing, (a)
menunjukkan data ringkasan untuk AllElectronics dan (b) menampilkan data ringkasan
yang dihasilkan dari operasi drill-down dan roll-up pada kubus di (a). Untuk meningkatkan
keterbacaan, hanya beberapa nilai sel kubus yang ditampilkan.
mruang ultidimensi dalam gaya OLAP. Artinya, memungkinkan eksplorasi berbagai

kombinasi dimensi pada berbagai tingkat granularitas dalam data mining, dan dengan
demikian memiliki potensi lebih besar untuk menemukan pola menarik yang mewakili
pengetahuan. Gambaran umum tentang gudang data dan teknologi OLAP disajikan di
Bab 4. Masalah lanjutan terkait komputasi kubus data dan data mining multidimensi
dibahas di Bab 5.
1.3.3 TData ransaksional

sayaSecara umum, setiap record dalam database transaksional menangkap transaksi,
seperti pembelian pelanggan, pemesanan penerbangan, atau klik pengguna pada
halaman web. Transaksi biasanya menyertakan nomor identitas transaksi unik (trans
ID) dan daftar item yang membentuk transaksi, seperti item yang dibeli dalam
transaksi. Database transaksi mungkin memiliki tabel tambahan, yang berisi informasi
lain yang terkait dengan transaksi, seperti deskripsi item, informasi tentang penjual
atau cabang, dan sebagainya.
Contoh 1.4 Basis data transaksional untuk AllElectronics.Transactions dapat disimpan dalam
tabel, dengan satu record per transaksi. Sebuah fragmen dari database transaksional
untuk AllElectronics ditunjukkan pada Gambar 1.8. Dari sudut pandang database
relasional, tabel penjualan pada gambar adalah relasi bertingkat karena daftar atribut
ID item berisi sekumpulan item. Karena sebagian besar sistem database relasional
tidak mendukung struktur relasional bersarang, database transaksional biasanya
disimpan dalam file datar dalam format yang mirip dengan tabel pada Gambar 1.8 atau
dibuka menjadi relasi standar dalam format yang mirip dengan tabel item yang dijual
pada Gambar. 1.5.
SEBUAHSebagai seorang analis AllElectronics, Anda mungkin bertanya, "Item

mana yang terjual bersama dengan baik?" Analisis data keranjang pasar semacam ini
akan memungkinkan Anda untuk menggabungkan kelompok item menjadi satu
sebagai strategi untuk meningkatkan penjualan. Misalnya, mengingat pengetahuan
bahwa printer biasanya dibeli bersama dengan komputer, Anda dapat menawarkan
printer tertentu dengan diskon besar (atau bahkan gratis) kepada pelanggan yang
membeli komputer tertentu, dengan harapan dapat menjual lebih banyak komputer
(yang seringkali lebih mahal daripada printer). Sistem database tradisional tidak dapat
melakukan analisis data keranjang pasar. Untungnya, penambangan data pada data
transaksional dapat dilakukan dengan menambang kumpulan item yang sering, yaitu
kumpulan
trans ID daftar ID item

T100 I1, I3, I8, I16
T200 I2, I8
... ...
Gambar 1.8Frkumpulan database transaksional untuk penjualan di AllElectronics.

Haif barang yang sering dijual bersama. Penambangan pola yang sering terjadi dari
data transaksional dibahas di Bab 6 dan 7.
1.3.4 Jenis Data Lainnya

Bsampingrelational database data, data warehouse data, dan data transaksi, ada banyak
jenis data lain yang mempunyai bentuk dan struktur yang serba guna dan arti semantik
yang agak berbeda. Jenis data seperti itu dapat dilihat di banyak aplikasi: data terkait
waktu atau urutan (misalnya, catatan sejarah, data bursa saham, dan data urutan waktu
dan urutan biologis), aliran data (misalnya, pengawasan video dan data sensor, yang
terus menerus ditransmisikan), data spasial (misalnya, peta), data desain teknik
(misalnya, desain gedung, komponen sistem, atau sirkuit terintegrasi), hypertext dan
data multi-media (termasuk data teks, gambar, video, dan audio ), grafik dan data
jaringan (misalnya, jaringan sosial dan informasi), dan Web (gudang informasi yang
sangat besar dan tersebar luas yang disediakan oleh Internet).
V.berbagai jenis pengetahuan dapat ditambang dari jenis data ini. Di sini, kami
mencantumkan beberapa. Mengenai data temporal, misalnya, kami dapat menambang
data perbankan untuk mengubah tren, yang dapat membantu dalam penjadwalan teller
bank sesuai dengan volume lalu lintas pelanggan. Data bursa saham dapat digali untuk
mengungkap tren yang dapat membantu Anda merencanakan strategi investasi
(misalnya, waktu terbaik untuk membeli saham AllElectronics). Kami dapat
menambang aliran data jaringan komputer untuk mendeteksi gangguan berdasarkan
anomali aliran pesan, yang dapat ditemukan dengan pengelompokan, konstruksi
dinamis model aliran atau dengan membandingkan pola yang sering terjadi saat ini
dengan yang ada di waktu sebelumnya. Dengan data spasial, kami dapat mencari pola
yang menggambarkan perubahan tingkat kemiskinan metropolitan berdasarkan jarak
kota dari jalan raya utama. Hubungan antara sekumpulan objek spasial dapat diperiksa
untuk menemukan subset objek mana yang secara spasial terkait atau terkait secara
autokorelasi. Dengan menambang data teks, seperti literatur tentang data mining dari
sepuluh tahun terakhir, kami dapat mengidentifikasi evolusi topik hangat di lapangan.
Dengan mengumpulkan komentar pengguna tentang produk (yang sering dikirimkan
sebagai pesan teks singkat), kami dapat menilai sentimen pelanggan dan memahami
seberapa baik suatu produk diterima oleh pasar. Dari data multimedia, kita dapat
menambang gambar untuk mengidentifikasi objek dan mengklasifikasikannya dengan
memberikan label atau tag semantik. Dengan menambang data video dari permainan
hoki, kita dapat mendeteksi urutan video yang sesuai dengan tujuan. Penambangan
web dapat membantu kita mempelajari tentang distribusi informasi di WWW secara
umum, mengkarakterisasi dan mengklasifikasikan halaman web,
sayaPenting untuk diingat bahwa, dalam banyak aplikasi, ada banyak tipe data.
Sebagai contoh, dalam web mining, sering terdapat data teks dan data multimedia
(mis. Gambar dan video) pada halaman web, data grafik seperti grafik web, dan data
peta pada beberapa situs web. Dalam bioinformatika, urutan genom, jaringan biologis,
dan
15 Chapter 1 Introduction 1.4 What Kinds of Patterns Can Be Mined?15
Struktur spasial 3-D dari genom dapat hidup berdampingan untuk objek biologis
tertentu. Menambang berbagai sumber data dari data yang kompleks sering kali
menghasilkan temuan yang bermanfaat karena peningkatan timbal balik dan
konsolidasi berbagai sumber tersebut. Di sisi lain, ini juga menantang karena kesulitan
dalam pembersihan data dan integrasi data, serta interaksi yang kompleks di antara
berbagai sumber data tersebut.
WMeskipun data tersebut memerlukan fasilitas canggih untuk penyimpanan,
pengambilan, dan pembaruan yang efisien, data tersebut juga menyediakan lahan
subur dan menimbulkan masalah penelitian dan implementasi yang menantang untuk
data mining. Penambangan data pada data semacam itu adalah topik lanjutan. Metode
yang digunakan adalah perluasan dari teknik dasar yang disajikan dalam buku ini.
1.4 Macam Pola Apa yang Dapat Ditambang?
WKami telah mengamati berbagai jenis penyimpanan data dan informasi di mana
datanya
penambangan dapat dilakukan. Sekarang mari kita periksa jenis pola yang dapat
ditambang.
Ada sejumlah fungsi data mining. Ini termasuk karakterisasi dan diskriminasi
(Bagian 1.4.1); penambangan pola, asosiasi, dan korelasi yang sering (Bagian 1.4.2);
klasifikasi dan regresi (Bagian 1.4.3); analisis pengelompokan (Bagian 1.4.4); dan
analisis pencilan (Bagian 1.4.5). Fungsi data mining digunakan untuk menentukan
jenis pola yang akan ditemukan dalam tugas data mining. Secara umum, tugas
semacam itu dapat diklasifikasikan ke dalam dua kategori: deskriptif dan prediktif.
Tugas pertambangan deskriptif mencirikan properti data dalam kumpulan data target.
Tugas penambangan prediktif melakukan induksi pada data saat ini untuk membuat
prediksi.
Fungsi data mining, dan jenis pola yang dapat ditemukannya, dijelaskan di bawah
ini. Selain itu, Bagian 1.4.6 melihat apa yang membuat sebuah pola menarik. Pola
yang menarik mewakili pengetahuan.
1.4.1 Deskripsi Kelas / Konsep: Karakterisasi dan

Diskriminasi
Entri data dapat dikaitkan dengan kelas atau konsep. Misalnya, di toko AllElectronics,
kelas barang yang dijual termasuk komputer dan printer, dan konsep pelanggan
mencakup pemboros besar dan pembayar anggaran. Mendeskripsikan kelas dan
konsep individu dalam istilah yang diringkas, singkat, dan tepat dapat bermanfaat.
Deskripsi kelas atau konsep seperti itu disebut deskripsi kelas / konsep. Deskripsi
tersebut dapat diturunkan dengan menggunakan (1) karakterisasi data, dengan
meringkas data kelas yang diteliti (sering disebut kelas sasaran) secara umum, atau (2)
diskriminasi data, dengan membandingkan kelas sasaran dengan satu atau satu set.
kelas komparatif (sering disebut kelas kontras), atau (3) karakterisasi dan diskriminasi
data.
Karakterisasi dataadalah ringkasan dari karakteristik atau fitur umum dari kelas
data target. Data yang sesuai dengan kelas yang ditentukan pengguna biasanya
dikumpulkan oleh kueri. Misalnya, untuk mempelajari karakteristik produk perangkat
lunak dengan penjualan yang meningkat 10% pada tahun sebelumnya, data terkait
produk tersebut dapat dikumpulkan dengan menjalankan query SQL pada database
penjualan.
Ada beberapa metode untuk peringkasan dan karakterisasi data yang efektif.
Ringkasan data sederhana berdasarkan ukuran dan plot statistik dijelaskan di Bab 2.
Operasi roll-up OLAP berbasis kubus data (Bagian 1.3.2) dapat digunakan untuk
melakukan peringkasan data yang dikontrol pengguna sepanjang dimensi yang
ditentukan. Proses ini dijelaskan lebih lanjut di Bab 4 dan 5, yang membahas tentang
data warehousing. Teknik induksi berorientasi atribut dapat digunakan untuk
melakukan generalisasi dan karakterisasi data tanpa interaksi pengguna langkah demi
langkah. Teknik ini juga dijelaskan pada Bab 4.
Keluaran karakterisasi data dapat disajikan dalam berbagai bentuk. Contohnya
termasuk diagram lingkaran, diagram batang, kurva, kubus data multidimensi, dan
tabel multidimensi, termasuk tabel silang. Deskripsi yang dihasilkan juga dapat
disajikan sebagai relasi umum atau dalam bentuk aturan (disebut aturan karakteristik).
Contoh 1.5 Karakterisasi data.SEBUAHmanajer hubungan pelanggan di AllElectronics dapat

memesan tugas penambangan data berikut: Meringkas karakteristik pelanggan yang
menghabiskan lebih dari $ 5.000 setahun di AllElectronics. Hasilnya adalah profil
umum dari pelanggan ini, seperti usia mereka 40 hingga 50 tahun, bekerja, dan
memiliki peringkat kredit yang sangat baik. Sistem data mining harus memungkinkan
manajer hubungan pelanggan untuk menelusuri dimensi apa pun, seperti pekerjaan
untuk melihat pelanggan ini sesuai dengan jenis pekerjaan mereka.
Diskriminasi dataadalah perbandingan fitur umum objek data kelas target terhadap
fitur umum objek dari satu atau beberapa kelas yang kontras. Kelas target dan kontras
dapat ditentukan oleh pengguna, dan objek data yang sesuai dapat diambil melalui
kueri database. Misalnya, pengguna mungkin ingin membandingkan fitur umum
produk perangkat lunak dengan penjualan yang meningkat 10% tahun lalu
dibandingkan dengan penjualan yang turun setidaknya 30% selama periode yang
sama. Metode yang digunakan untuk diskriminasi data serupa dengan yang digunakan
untuk karakterisasi data. “Bagaimana keluaran deskripsi diskriminasi?” Bentuk-bentuk
presentasi keluaran
mirip dengan deskripsi karakteristik, meskipun deskripsi diskriminasi harus mencakup
tindakan komparatif yang membantu membedakan antara kelas sasaran dan kelas yang
kontras. Deskripsi diskriminasi yang diekspresikan dalam bentuk aturan disebut
sebagai aturan diskriminan.
Contoh 1.6 Diskriminasi data.Manajer hubungan pelanggan di AllElectronics mungkin ingin

membandingkan dua kelompok pelanggan — mereka yang berbelanja produk
komputer secara teratur (misalnya, lebih dari dua kali sebulan) dan mereka yang
jarang berbelanja produk semacam itu (misalnya, kurang dari tiga kali setahun).
Deskripsi yang dihasilkan memberikan profil komparatif umum dari pelanggan ini,
seperti bahwa 80% pelanggan yang sering membeli produk komputer berusia antara
20 dan 40 tahun dan memiliki pendidikan universitas, sedangkan 60% pelanggan yang
jarang membeli produk tersebut adalah baik senior atau remaja, dan tidak memiliki
gelar sarjana. Menelusuri dimensi seperti pekerjaan, atau menambahkan dimensi baru
seperti tingkat pendapatan, dapat membantu menemukan fitur yang lebih diskriminatif
di antara kedua kelas tersebut.
Bersamadeskripsi penerimaan, termasuk karakterisasi dan diskriminasi, dijelaskan dalam

CBab 4.
1.4.2 Pola Frekuensi Penambangan, Asosiasi, dan Korelasi

Frsetarapola, seperti namanya, adalah pola yang sering muncul dalam data. Ada
banyak jenis pola yang sering, termasuk kumpulan item yang sering, sub-urutan yang
sering (juga dikenal sebagai pola sekuensial), dan substruktur yang sering. Frequent
itemset biasanya mengacu pada sekumpulan item yang sering muncul bersama dalam
satu set data transaksional — misalnya, susu dan roti, yang sering dibeli bersama di
toko bahan makanan oleh banyak pelanggan. Hal yang sering terjadi, seperti pola
bahwa pelanggan, cenderung membeli laptop terlebih dahulu, diikuti oleh kamera
digital, dan kemudian kartu memori, adalah pola yang (sering) berurutan. Substruktur
dapat mengacu pada bentuk struktur yang berbeda (misalnya, grafik, pohon, atau kisi)
yang dapat dikombinasikan dengan kumpulan item atau urutan. Jika substruktur sering
muncul, itu disebut pola terstruktur (sering). Penambangan pola yang sering mengarah
pada penemuan asosiasi dan korelasi yang menarik dalam data.
Contoh 1.7 Analisis Asosiasi.SMisalnya, sebagai manajer pemasaran di AllElectronics, Anda

ingin mengetahui item mana yang sering dibeli bersama (misalnya, dalam transaksi
yang sama). Contoh aturan semacam itu, yang ditambang dari database transaksional
AllElectronics, adalah
membeli(X , "komputer")⇒ membeli (X, "perangkat lunak") [dukungan = 1%,
keyakinan = 50%], dengan X adalah variabel yang mewakili pelanggan.
Keyakinan, atau kepastian, 50%

Artinya, jika pelanggan membeli komputer, ada kemungkinan 50% dia akan membeli
perangkat lunak juga. Dukungan 1% berarti bahwa 1% dari semua transaksi yang
dianalisis menunjukkan bahwa komputer dan perangkat lunak dibeli bersama. Aturan
asosiasi ini melibatkan satu atribut atau predikat (yaitu, membeli) yang berulang.
Aturan asosiasi yang berisi satu predikat disebut sebagai aturan asosiasi satu dimensi.
Dengan menghapus notasi predikat, aturan tersebut dapat ditulis hanya sebagai
"komputer ⇒ perangkat lunak [1%, 50%]". Misalkan, sebagai gantinya, kita diberikan
database relasional AllElectronics yang terkait dengan
pembelian. Sistem penambangan data mungkin menemukan
aturan asosiasi seperti
usia(X , "20..29") ∧ pendapatan (X, "40K..49K") ⇒ membeli

(X, "laptop")
[dukungan =2%, keyakinan =
60%].
Aturan tersebut menunjukkan bahwa dari pelanggan AllElectronics yang diteliti, 2%

berusia 20 hingga 29 tahun dengan pendapatan $ 40.000 hingga $ 49.000 dan telah
membeli laptop (komputer) di AllElectronics. Ada kemungkinan 60% bahwa

pelanggan dalam kelompok usia dan pendapatan ini akan membeli laptop. Perhatikan
bahwa ini adalah asosiasi yang melibatkan lebih dari satu atribut atau predikat (yaitu,
usia, pendapatan, dan pembelian). Mengadopsi terminologi yang digunakan dalam
database multidimensi, di mana setiap atribut disebut sebagai dimensi, aturan di atas
dapat disebut sebagai aturan asosiasi multidimensi.
Typically,aturan asosiasi akan dianggap tidak menarik jika tidak memenuhi ambang
batas dukungan minimum dan ambang batas keyakinan minimum. Analisis tambahan
dapat dilakukan untuk mengungkap korelasi statistik yang menarik antara pasangan
atribut-nilai yang terkait.
Fritem yang samapertambanganadalah bentuk fundamental dari penambangan pola
yang sering dilakukan. Penambangan pola yang sering, asosiasi, dan korelasi dibahas
dalam Bab 6 dan 7, di mana penekanan khusus ditempatkan pada algoritma yang
efisien untuk penambangan item yang sering. Penambangan pola sekuensial dan
penambangan pola terstruktur dianggap sebagai topik lanjutan.
1.4.3 Klasifikasi dan Regresi untuk Analisis Prediktif

Classificationadalah proses menemukan model (atau fungsi) yang mendeskripsikan
dan membedakan kelas atau konsep data. Model diturunkan berdasarkan analisis
sekumpulan data pelatihan (yaitu, objek data yang label kelasnya diketahui). Model
digunakan untuk memprediksi label kelas dari objek yang label kelasnya tidak
diketahui.
"Bagaimanaapakah model turunan disajikan? "Model turunan dapat
direpresentasikan dalam berbagai bentuk, seperti aturan klasifikasi (yaitu, aturan IF-
THEN), pohon keputusan, rumus matematika, atau jaringan saraf (Gambar 1.9). Pohon
keputusan adalah struktur pohon seperti diagram alur, di mana setiap node
menunjukkan pengujian pada nilai atribut, setiap cabang mewakili hasil pengujian, dan
daun pohon mewakili kelas atau distribusi kelas. Pohon keputusan bisa dengan mudah
agex,“Remaja”) AND usia pendapatan kelas (X,“A

(X, “tinggi”) (X, “muda”) AND usia ") kelas (X,"
pendapatan (X, “rendah”) (X, B ") kelas
“usia_tengah”) (X," C ")
agex,"senior") kelas (X," C
")
(Sebuah)
age?
f3 f6kelas A
pemuda usia menengah,
agef1
f4 f7kelas B
pendapatan? kelas C senior
pendapatan f2
tinggi rendah f5 f8kelas C
kelas A kelas B
(b) (c)
Gambar 1.9Klasifikasimodel dapat direpresentasikan dalam berbagai bentuk: (a) IF-THEN rules, (b)
decision tree, atau (c) neural network.
be mengubahdisesuaikan dengan aturan klasifikasi. Jaringan saraf, ketika digunakan

untuk klasifikasi, biasanya merupakan kumpulan unit pemrosesan mirip neuron
dengan koneksi berbobot antar unit. Ada banyak metode lain untuk membangun model
klasifikasi, seperti klasifikasi na¨ıve Bayesian, mesin vektor pendukung, dan
klasifikasi k-terdekat-tetangga.
Wdi sini klasifikasi memprediksi label kategori (diskrit, tidak berurutan), model
regresi fungsi bernilai kontinu. Artinya, regresi digunakan untuk memprediksi nilai
data numerik yang hilang atau tidak tersedia daripada label kelas (diskrit). Prediksi
istilah mengacu pada prediksi numerik dan prediksi label kelas. Analisis regresi adalah
metodologi statistik yang paling sering digunakan untuk prediksi numerik, meskipun
metode lain juga ada. Regresi juga mencakup identifikasi tren distribusi berdasarkan
data yang tersedia.
Klasifikasidan regresi mungkin perlu didahului oleh analisis relevansi, yang
berupaya mengidentifikasi atribut yang secara signifikan relevan dengan proses
klasifikasi dan regresi. Atribut tersebut akan dipilih untuk proses klasifikasi dan
regresi. Atribut lain, yang tidak relevan, kemudian dapat dikeluarkan dari
pertimbangan.
Contoh 1.8 Klasifikasi dan regresi.Smisalkan sebagai manajer penjualan AllElectronics Anda
ingin mengklasifikasikan sekumpulan besar item di toko, berdasarkan tiga jenis
tanggapan untuk kampanye penjualan: tanggapan baik, tanggapan ringan, dan tidak
ada tanggapan. Anda ingin mendapatkan model untuk masing-masing dari ketiga kelas
ini berdasarkan fitur deskriptif item, seperti harga, merek, tempat pembuatan, jenis,
dan kategori. Klasifikasi yang dihasilkan harus secara maksimal membedakan setiap
kelas dari yang lain, menyajikan gambaran yang terorganisir dari kumpulan data.
Ssampai klasifikasi yang dihasilkan dinyatakan sebagai pohon keputusan. Pohon
keputusan, misalnya, dapat mengidentifikasi harga sebagai faktor tunggal yang paling
membedakan ketiga kelas tersebut. Pohon tersebut dapat mengungkapkan bahwa,
selain harga, fitur lain yang membantu untuk lebih membedakan objek dari setiap
kelas satu sama lain termasuk merek dan tempat yang dibuat. Pohon keputusan seperti
itu dapat membantu Anda memahami dampak kampanye penjualan yang diberikan
dan merancang kampanye yang lebih efektif di masa mendatang.
Suppose sebaliknya, daripada memprediksi label respons kategoris untuk setiap
item toko, Anda ingin memprediksi jumlah pendapatan yang akan dihasilkan setiap
item selama penjualan mendatang di AllElectronics, berdasarkan data penjualan
sebelumnya. Ini adalah contoh analisis regresi karena model regresi yang dibangun
akan memprediksi fungsi berkelanjutan (atau nilai yang dipesan).
CBab 8 dan 9 membahas klasifikasi secara lebih rinci. Analisis regresi berada di
luar cakupan buku ini. Sumber informasi lebih lanjut diberikan dalam catatan
bibliografi.
1.4.4 Analisis Cluster

Unseperti klasifikasi dan regresi, yang menganalisis kumpulan data berlabel kelas
(pelatihan), pengelompokan menganalisis objek data tanpa label kelas konsultasi.
Dalam banyak kasus, data berlabel kelas mungkin tidak ada di awal. Pengelompokan
dapat digunakan untuk menghasilkan
Gambar 1.10SEBUAHPlot data pelanggan 2-D sehubungan dengan lokasi pelanggan di sebuah kota,
yang menunjukkan tiga kluster data.
clabel gadisfora sekelompok data. Objek dikelompokkan atau dikelompokkan

berdasarkan prinsip memaksimalkan kesamaan intraclass dan meminimalkan
kesamaan antar kelas. Artinya, cluster objek dibentuk sehingga objek dalam cluster
memiliki kemiripan yang tinggi dibandingkan satu sama lain, tetapi agak berbeda
dengan objek di cluster lain. Setiap cluster yang terbentuk dapat dipandang sebagai
kelas objek, yang darinya aturan dapat diturunkan. Pengelompokan juga dapat
memfasilitasi pembentukan taksonomi, yaitu pengorganisasian observasi ke dalam
hierarki kelas yang mengelompokkan peristiwa serupa.
Contoh 1.9 Analisis cluster.Analisis cluster dapat dilakukan pada data pelanggan AllElectronics
untuk mengidentifikasi subpopulasi pelanggan yang homogen. Cluster ini mungkin
mewakili masing-masing kelompok sasaran pemasaran. Gambar 1.10 menunjukkan
plot 2-D pelanggan sehubungan dengan lokasi pelanggan di kota. Tiga kelompok titik
data terbukti.
Analisis cluster membentuk topik Bab 10 dan 11.
1.4.5 Analisis Pencilan

Kumpulan data mungkin berisi objek yang tidak sesuai dengan perilaku umum atau
model data. Objek data ini adalah outlier. Banyak metode data mining membuang
pencilan sebagai noise atau pengecualian. Namun, pada beberapa aplikasi (misalnya,
deteksi penipuan) jarang terjadi
malamnts bisa lebih menarik daripada yang lebih sering muncul. Analisis data
pencilan disebut sebagai analisis pencilan atau penambangan anomali.
Pencilan dapat dideteksi dengan menggunakan uji statistik yang mengasumsikan
model distribusi atau probabilitas untuk data, atau menggunakan pengukuran jarak di
mana objek yang jauh dari cluster lain dianggap pencilan. Daripada menggunakan
ukuran statistik atau jarak, metode berbasis kepadatan dapat mengidentifikasi pencilan
di wilayah lokal, meskipun mereka terlihat normal dari tampilan distribusi statistik
global.
Contoh 1.10 Analisis pencilan.Analisis outlier dapat mengungkap penipuan penggunaan kartu
kredit dengan mendeteksi pembelian dalam jumlah besar yang tidak biasa untuk
nomor rekening tertentu dibandingkan dengan biaya reguler yang ditimbulkan oleh
rekening yang sama. Nilai pencilan juga dapat dideteksi sehubungan dengan lokasi
dan jenis pembelian, atau frekuensi pembelian.
Analisis pencilan dibahas di Bab 12.
1.4.6 Apakah Semua Pola Menarik?

Sistem data mining berpotensi menghasilkan ribuan atau bahkan jutaan pola, atau
aturan.
Youmungkin bertanya, "Apakah semua polanya menarik?" Biasanya, jawabannya
tidak — hanya sebagian kecil dari pola yang berpotensi dihasilkan yang benar-benar
menarik bagi pengguna tertentu.
Ini menimbulkan beberapa pertanyaan serius untuk penggalian data. Anda mungkin
bertanya-tanya, “Apa yang membuat sebuah pola menarik? Bisakah sistem data
mining menghasilkan semua pola yang menarik? Atau, Bisakah sistem menghasilkan
hanya yang menarik? ”
To menjawab pertanyaan pertama, suatu pola menarik jika (1) mudah dipahami oleh
manusia, (2) valid pada data baru atau data uji dengan tingkat kepastian tertentu, (3)
berpotensi bermanfaat, dan (4) baru. Suatu pola juga menarik jika memvalidasi
hipotesis yang ingin dikonfirmasi oleh pengguna. Pola yang menarik mewakili
pengetahuan.
Ada beberapa ukuran objektif dari ketertarikan pola. Ini didasarkan pada struktur
pola yang ditemukan dan statistik yang mendasari pola tersebut. Ukuran objektif untuk
aturan asosiasi dalam bentuk X ⇒ Y adalah dukungan aturan, yang mewakili
persentase transaksi dari database transaksi yang dipenuhi aturan yang diberikan. Ini
dianggap sebagai probabilitas P (X ∪ Y), di mana X ∪ Y menunjukkan bahwa
transaksi mengandung X dan Y, yaitu gabungan dari kumpulan item X dan Y. Ukuran
objektif lain untuk aturan asosiasi adalah keyakinan, yang menilai tingkat kepastian
asosiasi yang terdeteksi. Ini dianggap sebagai probabilitas bersyarat P (Y | X), yaitu
probabilitas bahwa transaksi yang mengandung X juga mengandung Y. Secara lebih
formal, dukungan dan kepercayaan didefinisikan sebagai
dukung(X⇒ Y) = P (X ∪ Y),
confidence(X⇒ Y) = P (Y | X).
sayaSecara umum, setiap ukuran ketertarikan dikaitkan dengan ambang batas, yang
dapat dikontrol oleh pengguna. Misalnya, aturan yang tidak memenuhi ambang batas
keyakinan,
mengatakan,50% bisa dianggap tidak menarik. Aturan di bawah ambang batas

kemungkinan mencerminkan kebisingan, pengecualian, atau kasus minoritas dan
mungkin nilainya lebih rendah.
HAIukuran ketertarikan obyektif lainnya termasuk akurasi dan cakupan untuk
aturan klasifikasi (IF-THEN). Secara umum, akurasi memberi tahu kita persentase
data yang diklasifikasikan dengan benar berdasarkan aturan. Cakupan mirip dengan
dukungan, dalam hal ini memberi tahu kita persentase data yang diterapkan aturan.
Mengenai pemahaman, kami dapat menggunakan ukuran obyektif sederhana yang
menilai kompleksitas atau panjang bit dari pola yang ditambang.
SEBUAHMeskipun ukuran obyektif membantu mengidentifikasi pola yang
menarik, seringkali tidak cukup kecuali jika digabungkan dengan ukuran subjektif
yang mencerminkan kebutuhan dan minat pengguna tertentu. Misalnya, pola yang
menggambarkan karakteristik pelanggan yang sering berbelanja di AllElectronics
harus menarik bagi manajer pemasaran, tetapi mungkin sedikit menarik bagi analis
lain yang mempelajari database yang sama untuk pola kinerja karyawan. Lebih jauh,
banyak pola yang menarik menurut standar obyektif mungkin mewakili akal sehat dan,
oleh karena itu, sebenarnya tidak menarik.
Subjectiveukuran ketertarikandidasarkan pada keyakinan pengguna pada data.
Langkah-langkah ini menemukan pola yang menarik jika polanya tidak terduga
(bertentangan dengan keyakinan pengguna) atau menawarkan informasi strategis yang
dapat digunakan pengguna untuk bertindak. Dalam kasus terakhir, pola seperti itu
disebut sebagai dapat ditindaklanjuti. Misalnya, pola seperti "gempa bumi besar yang
sering mengikuti sekelompok gempa kecil" mungkin sangat dapat ditindaklanjuti jika
pengguna dapat bertindak berdasarkan informasi tersebut untuk menyelamatkan
nyawa. Pola yang diharapkan dapat menarik jika mereka mengkonfirmasi hipotesis
yang ingin divalidasi pengguna atau menyerupai firasat pengguna.
Pertanyaan kedua— “Bisakah sistem data mining menghasilkan semua pola yang
menarik?” - mengacu pada kelengkapan algoritma data mining. Seringkali tidak
realistis dan tidak efisien bagi sistem data mining untuk menghasilkan semua pola
yang mungkin. Sebaliknya, batasan yang diberikan pengguna dan ukuran ketertarikan
harus digunakan untuk memfokuskan pencarian. Untuk beberapa tugas penambangan,
seperti asosiasi, ini seringkali cukup untuk memastikan kelengkapan algoritme.
Penambangan aturan asosiasi adalah contoh di mana penggunaan batasan dan ukuran
menarik dapat memastikan kelengkapan penambangan. Metode yang terlibat diperiksa
secara rinci di Bab 6.
Akhirnya,pertanyaan ketiga— “Bisakah sistem data mining menghasilkan hanya
pola yang menarik?” - adalah masalah optimasi dalam data mining. Sangat diinginkan
untuk sistem data mining untuk menghasilkan hanya pola yang menarik. Ini akan
efisien untuk pengguna dan sistem data mining karena tidak ada yang perlu mencari
melalui pola yang dihasilkan untuk mengidentifikasi yang benar-benar menarik.
Kemajuan telah dibuat ke arah ini; namun, pengoptimalan seperti itu tetap menjadi
masalah yang menantang dalam penambangan data.
MkemudahanHaif ketertarikan pola sangat penting untuk penemuan pola yang
efisien oleh pengguna target. Langkah-langkah tersebut dapat digunakan setelah
langkah data mining untuk menentukan peringkat pola yang ditemukan menurut
ketertarikannya, menyaring pola yang tidak menarik. Lebih penting lagi, ukuran
tersebut dapat digunakan untuk memandu dan membatasi proses penemuan,

meningkatkan efisiensi pencarian dengan memangkas subset dari ruang pola yang
tidak memenuhi batasan ketertarikan yang telah ditentukan sebelumnya. Contoh dari
proses penambangan berbasis kendala dijelaskan dalam Bab 7 (berkenaan dengan
penemuan pola) dan Bab 11 (berkenaan dengan pengelompokan).
23 Chapter 1 Introduction 1.5 Which Technologies Are Used?23
Sayametode untuk menilai ketertarikan pola, dan penggunaannya untuk

meningkatkan efisiensi data mining, dibahas di seluruh buku ini sehubungan dengan
setiap jenis pola yang dapat ditambang.
1.5 Teknologi Apa yang Digunakan?

SEBUAHsdomain yang sangat digerakkan oleh aplikasi, data mining telah
memasukkan banyak teknik
dari domain lain seperti statistik, pembelajaran mesin, pengenalan pola, basis data dan
sistem gudang data, pengambilan informasi, visualisasi, algoritma, komputasi kinerja
tinggi, dan banyak domain aplikasi (Gambar 1.11). Sifat interdisipliner dari penelitian
dan pengembangan data mining berkontribusi secara signifikan terhadap keberhasilan
data mining dan aplikasinya yang luas. Pada bagian ini, kami memberikan contoh
beberapa disiplin ilmu yang sangat mempengaruhi perkembangan metode data mining.
1.5.1 Statistik
Statistikstudipengumpulan, analisis, interpretasi atau penjelasan, dan penyajian data.
Penambangan data memiliki hubungan yang melekat dengan statistik.
Model statistik adalah sekumpulan fungsi matematika yang mendeskripsikan
perilaku objek dalam kelas target dalam hal variabel acak dan distribusi probabilitas
yang terkait. Model statistik banyak digunakan untuk memodelkan data dan kelas data.
Misalnya, dalam tugas penambangan data seperti karakterisasi dan klasifikasi data,
statistik
Pengenalan Pola Pembelajaran Mesin Statistik
Sistem database Visualisasi
Penambanga
n Data
Gudang data Algoritma
Pengambila Komputasi kinerja

Aplikasi
n tinggi
informasi
Gambar 1.11Penambangan data mengadopsi teknik dari banyak domain.

model kelas sasaran dapat dibangun. Dengan kata lain, model statistik seperti itu dapat
menjadi hasil dari tugas data mining. Sebagai alternatif, tugas penambangan data dapat
dibangun di atas model statistik. Misalnya, kita dapat menggunakan statistik untuk
memodelkan kebisingan dan nilai data yang hilang. Kemudian, saat menambang pola
dalam kumpulan data besar, proses penambangan data dapat menggunakan model
tersebut untuk membantu mengidentifikasi dan menangani nilai yang berisik atau
hilang dalam data.
Penelitian statistik mengembangkan alat untuk prediksi dan peramalan
menggunakan data dan model statistik. Metode statistik dapat digunakan untuk
meringkas atau mendeskripsikan kumpulan data. Deskripsi statistik dasar dari data
diperkenalkan di Bab 2. Statistik berguna untuk menggali berbagai pola dari data serta
untuk memahami mekanisme yang mendasari menghasilkan dan mempengaruhi pola.
Statistik inferensial (atau statistik prediktif) memodelkan data dengan cara yang
memperhitungkan keacakan dan ketidakpastian dalam pengamatan dan digunakan
untuk menarik kesimpulan tentang proses atau populasi yang sedang diselidiki.
Statistikmetode juga dapat digunakan untuk memverifikasi hasil data mining.
Misalnya, setelah model klasifikasi atau prediksi ditambang, model tersebut harus
diverifikasi dengan pengujian hipotesis statistik. Uji hipotesis statistik (terkadang
disebut analisis data konfirmatori) membuat keputusan statistik menggunakan data
eksperimen. Suatu hasil disebut signifikan secara statistik jika tidak mungkin terjadi
secara kebetulan. Jika model klasifikasi atau prediksi benar, maka statistik deskriptif
model tersebut meningkatkan kesesuaian model.
ApplyingMetode statistik dalam data mining jauh dari kata sepele. Seringkali,
tantangan serius adalah bagaimana meningkatkan skala metode statistik pada
kumpulan data yang besar. Banyak metode statistik yang memiliki kompleksitas
komputasi yang tinggi. Ketika metode seperti itu diterapkan pada kumpulan data besar
yang juga didistribusikan di beberapa situs logis atau fisik, algoritme harus dirancang
dan disetel dengan cermat untuk mengurangi biaya komputasi. Tantangan ini semakin
berat untuk aplikasi online, seperti saran kueri online di mesin telusur, di mana data
mining diperlukan untuk terus menangani aliran data real-time yang cepat.
1.5.2 Pembelajaran mesin

Mbelajar achinemenyelidikibagaimana komputer dapat belajar (atau meningkatkan
kinerjanya) berdasarkan data. Area penelitian utama adalah agar program komputer
secara otomatis belajar mengenali pola kompleks dan membuat keputusan cerdas
berdasarkan data. Misalnya, masalah umum pembelajaran mesin adalah memprogram
komputer agar dapat secara otomatis mengenali kode pos tulisan tangan di email
setelah belajar dari sekumpulan contoh.
Machine learning adalah disiplin yang berkembang pesat. Di sini, kami
menggambarkan masalah klasik dalam pembelajaran mesin yang sangat terkait dengan
penggalian data.
Spembelajaran terbimbingpada dasarnya adalah sinonim untuk klasifikasi.

Pengawasan dalam pembelajaran berasal dari contoh berlabel di kumpulan data
pelatihan. Misalnya, dalam masalah pengenalan kode pos, sekumpulan gambar
kode pos yang ditulis tangan dan terjemahannya yang dapat dibaca mesin
digunakan sebagai contoh pelatihan, yang mengawasi pembelajaran model
klasifikasi.
Unsupervised learningpada dasarnya adalah sinonim untuk pengelompokan. Proses

pembelajaran tidak diawasi karena contoh input tidak berlabel kelas. Biasanya,
kami dapat menggunakan pengelompokan untuk menemukan kelas di dalam data.
Misalnya, metode pembelajaran tanpa pengawasan dapat mengambil, sebagai
masukan, serangkaian gambar digit tulisan tangan. Misalkan ia menemukan
10 kelompok data. Kluster ini mungkin sesuai dengan 10 digit berbeda dari 0
hingga
9, masing-masing. Namun, karena data pelatihan tidak diberi label, model yang
dipelajari tidak dapat memberi tahu kami arti semantik dari cluster yang ditemukan.
Semi-diawasibelajaradalah kelas teknik pembelajaran mesin yang menggunakan
contoh berlabel dan tidak berlabel saat mempelajari model. Dalam satu pendekatan,
contoh berlabel digunakan untuk mempelajari model kelas dan contoh tak berlabel
digunakan untuk memperjelas batas antar kelas. Untuk masalah dua kelas, kita
dapat menganggap kumpulan contoh milik satu kelas sebagai contoh positif dan
yang milik kelas lain sebagai contoh negatif. Pada Gambar 1.12, jika kita tidak
mempertimbangkan contoh yang tidak berlabel, garis putus-putus adalah batas
keputusan yang paling baik membagi contoh positif dari contoh negatif. Dengan
menggunakan contoh tak berlabel, kita dapat menyempurnakan batas keputusan
menjadi garis padat. Selain itu, kami dapat mendeteksi bahwa dua contoh positif di
sudut kanan atas, meskipun diberi label, kemungkinan berisik atau outlier.
SEBUAHpembelajaran aktifadalah pendekatan pembelajaran mesin yang
memungkinkan pengguna berperan aktif dalam proses pembelajaran. Pendekatan
pembelajaran aktif dapat meminta pengguna (misalnya, pakar domain) untuk
memberi label pada sebuah contoh, yang mungkin berasal dari sekumpulan contoh
yang tidak berlabel atau disintesis oleh program pembelajaran. Tujuannya adalah
untuk mengoptimalkan kualitas model dengan secara aktif memperoleh
pengetahuan dari pengguna manusia, mengingat batasan jumlah contoh yang dapat
diminta untuk diberi label.
Kebisingan / pencilan
Contoh positif Batas keputusan tanpa contoh yang tidak berlabel
Contoh negatif Batas keputusan dengan contoh tak berlabel
Contoh tak berlabel

Gambar 1.12Semi-diawasibelajar.
Youdapat melihat ada banyak kesamaan antara data mining dan pembelajaran
mesin. Untuk tugas klasifikasi dan pengelompokan, penelitian machine learning sering
kali berfokus pada keakuratan model. Selain akurasi, penelitian data mining sangat
menekankan pada efisiensi dan skalabilitas metode mining pada kumpulan data yang
besar, serta pada cara untuk menangani tipe data yang kompleks dan mengeksplorasi
metode alternatif baru.
1.5.3 Sistem Database dan Gudang Data

Databasepenelitian sistemfoalasanHai„pembuatan, pemeliharaan, dan penggunaan
database untuk organisasi dan pengguna akhir. Secara khusus, peneliti sistem database
telah menetapkan prinsip-prinsip yang sangat dikenal dalam model data, bahasa query,
metode pemrosesan dan optimasi query, penyimpanan data, dan metode pengindeksan
dan pengaksesan. Sistem database sering kali terkenal dengan skalabilitasnya yang
tinggi dalam memproses kumpulan data yang sangat besar dan relatif terstruktur.
Mtugas penambangan data apa pun perlu menangani kumpulan data besar atau
bahkan streaming data secara real-time dan cepat. Oleh karena itu, data mining dapat
memanfaatkan teknologi database yang dapat diskalakan untuk mencapai efisiensi
tinggi dan skalabilitas pada kumpulan data yang besar. Selain itu, tugas penambangan
data dapat digunakan untuk memperluas kemampuan sistem database yang ada untuk
memenuhi persyaratan analisis data canggih pengguna tingkat lanjut.
RSistem database saat ini telah membangun kemampuan analisis data yang
sistematis pada data database dengan menggunakan fasilitas data warehousing dan
data mining. Sebuah gudang data mengintegrasikan data yang berasal dari berbagai
sumber dan berbagai kerangka waktu. Ini mengkonsolidasikan data dalam ruang
multidimensi untuk membentuk kubus data yang terwujud sebagian. Model kubus data
tidak hanya memfasilitasi OLAP dalam database multidimensi tetapi juga
mempromosikan data mining multidimensi (lihat Bagian 1.3.2).
1.5.4 Pencarian Informasi

sayapengambilan informasi(IR) adalah ilmu mencari dokumen atau informasi dalam
dokumen. Dokumen dapat berupa teks atau multimedia, dan mungkin berada di Web.
Perbedaan antara pencarian informasi tradisional dan sistem database ada dua:
Pencarian informasi mengasumsikan bahwa (1) data yang dicari tidak terstruktur; dan
(2) kueri dibentuk terutama oleh kata kunci, yang tidak memiliki struktur kompleks
(tidak seperti kueri SQL dalam sistem database).
Pendekatan khas dalam temu kembali informasi mengadopsi model probabilistik.
Misalnya, dokumen teks dapat dianggap sebagai sekumpulan kata, yaitu sekumpulan
kata yang muncul di dokumen. Model bahasa dokumen adalah fungsi kepadatan
probabilitas yang menghasilkan sekumpulan kata dalam dokumen. Kesamaan antara
dua dokumen dapat diukur dengan kemiripan antara model bahasa yang sesuai.
FSelanjutnya, topik dalam sekumpulan dokumen teks dapat dimodelkan sebagai
distribusi probabilitas atas kosakata, yang disebut model topik. Sebuah dokumen teks,
yang mungkin melibatkan satu atau beberapa topik, dapat dianggap sebagai campuran
dari beberapa model topik. Dengan mengintegrasikan model pencarian informasi dan
teknik data mining, kita dapat menemukannya
27 Chapter 1 Introduction 1.6 Which Kinds of Applications Are Targeted?27
topik utama dalam kumpulan dokumen dan, untuk setiap dokumen dalam koleksi,
topik utama yang terlibat.
sayancreasinglysejumlah besar data teks dan multimedia telah dikumpulkan dan
tersedia secara online karena pertumbuhan yang cepat dari Web dan aplikasi seperti
perpustakaan digital, pemerintahan digital, dan sistem informasi perawatan kesehatan.
Pencarian dan analisis efektif mereka telah mengangkat banyak masalah yang
menantang dalam penggalian data. Oleh karena itu, penambangan teks dan penggalian
data multimedia, yang terintegrasi dengan metode pencarian informasi, menjadi
semakin penting.
1.6 Jenis Aplikasi Apa yang Ditargetkan?

Dimana adadata, ada aplikasi data mining
SEBUAHssebuah disiplin yang sangat digerakkan oleh aplikasi, data mining telah
meraih sukses besar dalam banyak aplikasi. Tidak mungkin untuk menghitung semua
aplikasi di mana data mining memainkan peran penting. Presentasi data mining dalam
domain aplikasi padat pengetahuan, seperti bioinformatika dan rekayasa perangkat
lunak, memerlukan perlakuan yang lebih mendalam dan berada di luar cakupan buku
ini. Untuk menunjukkan pentingnya aplikasi sebagai dimensi utama dalam penelitian
dan pengembangan data mining, kami secara singkat membahas dua contoh aplikasi
data mining yang sangat sukses dan populer: intelijen bisnis dan mesin pencari.
1.6.1 Business Intelligence

sayaSangat penting bagi bisnis untuk memperoleh pemahaman yang lebih baik tentang
konteks komersial organisasi mereka, seperti pelanggan, pasar, pasokan dan sumber
daya, serta pesaing. Teknologi kecerdasan bisnis (BI) memberikan pandangan historis,
terkini, dan prediktif dari operasi bisnis. Contohnya termasuk pelaporan, pemrosesan
analitik online, manajemen kinerja bisnis, intelijen kompetitif, benchmarking, dan
analitik prediktif.
"Bagaimanapentingkah intelijen bisnis? "Wtanpa data mining, banyak bisnis
mungkin tidak dapat melakukan analisis pasar yang efektif, membandingkan umpan
balik pelanggan pada produk serupa, menemukan kekuatan dan kelemahan pesaing
mereka, mempertahankan pelanggan yang sangat berharga, dan membuat keputusan
bisnis yang cerdas.
Jelas, penambangan data adalah inti dari intelijen bisnis. Alat pemrosesan analitik
online dalam business intelligence mengandalkan data warehousing dan data mining
multidimensi. Teknik klasifikasi dan prediksi adalah inti dari analitik prediktif dalam
kecerdasan bisnis, yang di dalamnya terdapat banyak aplikasi dalam menganalisis
pasar, persediaan, dan penjualan. Selain itu, pengelompokan memainkan peran sentral
dalam manajemen hubungan pelanggan, yang mengelompokkan pelanggan
berdasarkan kesamaan mereka. Dengan menggunakan teknik penambangan
karakterisasi, kami dapat lebih memahami fitur dari setiap grup pelanggan dan
mengembangkan program penghargaan pelanggan yang disesuaikan.
1.6.2 Web Mesin Pencari

Mesin pencari Web adalah server komputer khusus yang mencari informasi di Web.
Hasil pencarian dari kueri pengguna sering ditampilkan sebagai daftar (terkadang
disebut klik). Hit mungkin terdiri dari halaman web, gambar, dan jenis file lainnya.
Beberapa mesin pencari juga mencari dan mengembalikan data yang tersedia di
database publik atau direktori terbuka. Mesin pencari berbeda dari direktori web
karena direktori web dikelola oleh editor manusia sedangkan mesin pencari beroperasi
secara algoritmik atau dengan campuran masukan algoritmik dan manusia.
Wmesin pencari eb pada dasarnya adalah aplikasi penambangan data yang sangat
besar. Berbagai teknik data mining digunakan di semua aspek mesin pencari, mulai
dari merangkak 5 (misalnya, memutuskan halaman mana yang harus dirayapi dan
frekuensi perayapan), pengindeksan (misalnya, memilih halaman yang akan diindeks
dan memutuskan sejauh mana indeks harus dibangun), dan mencari (misalnya,
memutuskan bagaimana halaman harus diberi peringkat, iklan mana yang harus
ditambahkan, dan bagaimana hasil pencarian dapat dipersonalisasi atau dibuat "sadar
konteks").
Mesin pencari memberikan tantangan besar untuk penambangan data. Pertama,
mereka harus menangani data dalam jumlah besar dan terus bertambah. Biasanya, data
seperti itu tidak dapat diproses menggunakan satu atau beberapa mesin. Sebaliknya,
mesin telusur sering kali perlu menggunakan cloud komputer, yang terdiri dari ribuan
atau bahkan ratusan ribu komputer yang secara kolaboratif menambang data dalam
jumlah besar. Meningkatkan metode penambangan data melalui cloud komputer dan
kumpulan data terdistribusi besar adalah area untuk penelitian lebih lanjut.
Kedua, mesin pencari web seringkali harus berurusan dengan data online. Mesin
telusur mungkin mampu membangun model secara offline pada kumpulan data yang
sangat besar. Untuk melakukan ini, mungkin membuat pengklasifikasi kueri yang
menetapkan kueri penelusuran ke kategori yang ditentukan sebelumnya berdasarkan
topik kueri (yaitu, apakah kueri penelusuran "apel" dimaksudkan untuk mengambil
informasi tentang buah atau merek komputer). Apakah model dibuat secara offline,
penerapan model online harus cukup cepat untuk menjawab pertanyaan pengguna
dalam waktu nyata.
SEBUAHTantangan lainnya adalah mempertahankan dan secara bertahap
memperbarui model pada aliran data yang tumbuh cepat. Misalnya, pengklasifikasi
kueri mungkin perlu dipertahankan secara bertahap terus menerus karena kueri baru
terus muncul dan kategori yang telah ditentukan sebelumnya dan distribusi data dapat
berubah. Sebagian besar metode pelatihan model yang ada bersifat offline dan statis
sehingga tidak dapat digunakan dalam skenario seperti itu.
Ketiga, mesin telusur web sering kali harus menangani kueri yang hanya
ditanyakan beberapa kali. Misalkan mesin pencari ingin memberikan rekomendasi
kueri yang sadar konteks. Artinya, saat pengguna mengajukan kueri, mesin telusur
mencoba menyimpulkan konteks kueri menggunakan profil pengguna dan riwayat
kueri untuk mengembalikan jawaban yang lebih disesuaikan dalam sepersekian detik.
Namun, meskipun jumlah kueri yang ditanyakan bisa sangat besar, sebagian besar
kueri mungkin hanya ditanyakan sekali atau beberapa kali. Data yang sangat miring
seperti itu menjadi tantangan bagi banyak metode penambangan data dan
pembelajaran mesin.
5 SEBUAHWeb crawler adalah program komputer yang menjelajahi Web secara otomatis dan metodis.
29 Chapter 1 Introduction 1.7 Major Issues in Data Mining29
1.7 Masalah Utama dalam Data

Life pendek tapi seni itu panjang. -
Mining Hippocrates
Penambangan data adalah bidang yang dinamis dan berkembang cepat dengan
kekuatan besar. Di bagian ini, kami menguraikan secara singkat masalah utama dalam
penelitian data mining, membaginya menjadi lima kelompok: metodologi
penambangan, interaksi pengguna, efisiensi dan skalabilitas, keragaman tipe data, dan
penambangan data dan masyarakat. Banyak dari masalah ini telah ditangani dalam
penelitian dan pengembangan data mining hingga batas tertentu dan sekarang
dianggap sebagai persyaratan data mining; yang lainnya masih dalam tahap penelitian.
Masalah-masalah tersebut terus mendorong investigasi dan perbaikan lebih lanjut
dalam data mining.
1.7.1 Metodologi Penambangan

Rpeneliti telah dengan giat mengembangkan metodologi penambangan data baru. Ini
melibatkan penyelidikan jenis pengetahuan baru, penambangan dalam ruang
multidimensi, metode integrasi dari disiplin lain, dan pertimbangan hubungan
semantik di antara objek data. Selain itu, metodologi penambangan harus
mempertimbangkan masalah seperti ketidakpastian data, kebisingan, dan
ketidaklengkapan. Beberapa metode penambangan mengeksplorasi bagaimana ukuran
yang ditentukan pengguna dapat digunakan untuk menilai ketertarikan dari pola yang
ditemukan serta memandu proses penemuan. Mari kita lihat berbagai aspek
metodologi penambangan ini.
Mmempelajari berbagai jenis pengetahuan baru:Data mining mencakup spektrum

luas tugas analisis data dan penemuan pengetahuan, mulai dari karakterisasi dan
diskriminasi data hingga analisis asosiasi dan korelasi, klasifikasi, regresi,
pengelompokan, analisis outlier, analisis urutan, dan analisis tren dan evolusi.
Tugas-tugas ini dapat menggunakan database yang sama dengan cara berbeda dan
memerlukan pengembangan berbagai teknik penggalian data. Karena keragaman
aplikasi, tugas penambangan baru terus bermunculan, membuat data mining
menjadi bidang yang dinamis dan berkembang pesat. Misalnya, untuk penemuan
pengetahuan yang efektif dalam jaringan informasi, pengelompokan dan
pemeringkatan terintegrasi dapat mengarah pada penemuan cluster dan peringkat
objek berkualitas tinggi di jaringan besar.
MIning knowledge dalam ruang multidimensi:WSaat mencari pengetahuan dalam
kumpulan data yang besar, kita dapat menjelajahi data dalam ruang multidimensi.
Artinya, kita dapat mencari pola yang menarik di antara kombinasi dimensi
(atribut) pada berbagai tingkat abstraksi. Penambangan semacam itu dikenal
sebagai penambangan data multidimensi (eksplorasi). Dalam banyak kasus, data
dapat digabungkan atau dilihat sebagai kubus data multidimensi. Pengetahuan
penambangan di ruang kubus secara substansial dapat meningkatkan kekuatan dan

fleksibilitas data mining.
Data mining — upaya interdisipliner:Kekuatan data mining dapat ditingkatkan
secara substansial dengan mengintegrasikan metode baru dari berbagai disiplin
ilmu. Sebagai contoh,
to menambang data dengan teks bahasa alami, masuk akal untuk menggabungkan
metode penambangan data dengan metode pengambilan informasi dan pemrosesan
bahasa alami. Sebagai contoh lain, pertimbangkan penambangan bug perangkat
lunak dalam program besar. Bentuk penambangan ini, yang dikenal sebagai
penambangan bug, mendapatkan keuntungan dari penggabungan pengetahuan
rekayasa perangkat lunak ke dalam proses penambangan data.
Boostingkekuatan penemuan dalam lingkungan jaringan:MSebagian besar objek
data berada dalam lingkungan yang terhubung atau saling berhubungan, baik itu
Web, hubungan database, file, atau dokumen. Tautan semantik di beberapa objek
data dapat digunakan untuk memanfaatkan data mining. Pengetahuan yang
diperoleh dalam satu kumpulan objek dapat digunakan untuk meningkatkan
penemuan pengetahuan dalam kumpulan objek yang "terkait" atau terkait secara
semantik.
H.mengatasi ketidakpastian, kebisingan, atau ketidaklengkapan data:Data sering
kali berisi gangguan, kesalahan, pengecualian, atau ketidakpastian, atau tidak
lengkap. Kesalahan dan kebisingan dapat membingungkan proses penggalian data,
yang mengarah pada penurunan pola yang salah. Pembersihan data, preprocessing
data, deteksi dan penghapusan outlier, dan alasan ketidakpastian adalah contoh
teknik yang perlu diintegrasikan dengan proses data mining.
P.evaluasi atterndan penambangan yang dipandu pola atau batasan:Natau semua
pola yang dihasilkan oleh proses data mining menarik. Apa yang membuat pola
menarik mungkin berbeda dari pengguna ke pengguna. Oleh karena itu, teknik
diperlukan untuk menilai ketertarikan dari pola yang ditemukan berdasarkan
ukuran subjektif. Ini memperkirakan nilai pola sehubungan dengan kelas pengguna
tertentu, berdasarkan keyakinan atau harapan pengguna. Selain itu, dengan
menggunakan ukuran ketertarikan atau batasan yang ditentukan pengguna untuk
memandu proses penemuan, kami dapat menghasilkan pola yang lebih menarik dan
mengurangi ruang pencarian.
1.7.2 Interaksi pengguna

Pengguna memainkan peran penting dalam proses penggalian data. Bidang penelitian
yang menarik termasuk bagaimana berinteraksi dengan sistem data mining, bagaimana
menggabungkan pengetahuan dasar pengguna dalam mining, dan bagaimana
memvisualisasikan dan memahami hasil data mining. Kami memperkenalkan masing-
masing di sini.
sayanteraktifpertambangan:Proses penambangan data harus sangat interaktif.

Dengan demikian, penting untuk membangun antarmuka pengguna yang fleksibel
dan lingkungan penambangan eksplorasi, memfasilitasi interaksi pengguna dengan
sistem. Seorang pengguna mungkin ingin mengambil sampel pertama dari satu set
data, mengeksplorasi karakteristik umum dari data, dan memperkirakan potensi
hasil tambang. Penambangan interaktif harus memungkinkan pengguna untuk
secara dinamis mengubah fokus pencarian, untuk menyaring permintaan
penambangan berdasarkan hasil yang dikembalikan, dan untuk mengebor,

memotong, dan berputar melalui ruang data dan pengetahuan secara interaktif,
secara dinamis menjelajahi "ruang kubus" saat menambang.
sayancorporationHaif pengetahuan latar belakang:Bpengetahuan lapangan,
kendala, aturan, dan informasi lain mengenai domain yang diteliti harus
dimasukkan
ke dalam proses penemuan pengetahuan. Pengetahuan tersebut dapat digunakan

untuk evaluasi pola serta untuk memandu pencarian menuju pola yang menarik.
SEBUAHd hoc data mining dan bahasa kueri data mining:Bahasa kueri (mis.,
SQL) telah memainkan peran penting dalam pencarian fleksibel karena
memungkinkan pengguna mengajukan pertanyaan ad hoc. Demikian pula, bahasa
kueri penambangan data tingkat tinggi atau antarmuka pengguna fleksibel tingkat
tinggi lainnya akan memberi pengguna kebebasan untuk menentukan tugas
penambangan data ad hoc. Ini harus memfasilitasi spesifikasi dari kumpulan data
yang relevan untuk analisis, pengetahuan domain, jenis pengetahuan yang akan
ditambang, dan kondisi serta batasan yang akan diterapkan pada pola yang
ditemukan. Optimalisasi pemrosesan permintaan penambangan fleksibel seperti itu
adalah bidang studi lain yang menjanjikan.
Presentasidan visualisasi hasil data mining:HoBagaimana sistem data mining dapat
menyajikan hasil data mining dengan jelas dan fleksibel, sehingga pengetahuan
yang ditemukan dapat dengan mudah dipahami dan langsung dapat digunakan oleh
manusia? Ini sangat penting jika proses penambangan data bersifat interaktif. Ini
membutuhkan sistem untuk mengadopsi representasi pengetahuan ekspresif,
antarmuka yang ramah pengguna, dan teknik visualisasi.
1.7.3 Efisiensi dan Skalabilitas

Efisiensidan skalabilitas selalu dipertimbangkan saat membandingkan algoritma data
mining. Karena jumlah data terus bertambah, kedua faktor ini sangat penting.
Efficiencydan skalabilitas algoritma data mining:Algoritme penambangan data

harus efisien dan dapat diskalakan untuk mengekstrak informasi secara efektif dari
sejumlah besar data di banyak repositori data atau dalam aliran data dinamis.
Dengan kata lain, waktu berjalan dari algoritme data mining harus dapat diprediksi,
singkat, dan dapat diterima oleh aplikasi. Efisiensi, skalabilitas, kinerja,
pengoptimalan, dan kemampuan untuk mengeksekusi secara real time adalah
kriteria utama yang mendorong pengembangan banyak algoritme penambangan
data baru.
P.paralel, terdistribusi,dan algoritma penambangan tambahan:Ukuran yang sangat
besar dari banyak kumpulan data, distribusi data yang luas, dan kompleksitas
komputasi dari beberapa metode data mining adalah faktor-faktor yang memotivasi
pengembangan algoritma penambangan intensif data yang paralel dan terdistribusi.
Algoritme semacam itu pertama-tama mempartisi data menjadi "bagian". Setiap
bagian diproses, secara paralel, dengan mencari pola. Proses paralel dapat
berinteraksi satu sama lain. Pola dari setiap partisi akhirnya digabungkan.
Komputasi awandan komputasi cluster, yang menggunakan komputer dalam
cara terdistribusi dan kolaboratif untuk menangani tugas komputasi skala sangat
besar, juga merupakan tema penelitian aktif dalam data mining paralel. Selain itu,
biaya tinggi beberapa proses penambangan data dan sifat tambahan dari input
mendorong penambangan data tambahan, yang menggabungkan pembaruan data
baru tanpa harus menambang seluruh data "dari awal". Metode tersebut melakukan
modifikasi pengetahuan secara bertahap untuk mengubah dan memperkuat apa
yang telah ditemukan sebelumnya.
1.7.4 Keragaman Jenis Database

Keragaman jenis basis data yang luas menghadirkan tantangan bagi penambangan
data. Ini termasuk
H.menangani jenis data yang kompleks:Menyelamaplikasi rse menghasilkan

spektrum tipe data baru yang luas, dari data terstruktur seperti data relasional dan
data warehouse hingga data semi-terstruktur dan tidak terstruktur; dari repositori
data yang stabil ke aliran data dinamis; dari objek data sederhana hingga data
temporal, urutan biologis, data sensor, data spasial, data hypertext, data
multimedia, kode program perangkat lunak, data web, dan data jejaring sosial.
Tidak realistis mengharapkan satu sistem data mining untuk menambang semua
jenis data, mengingat keragaman tipe data dan tujuan data mining yang berbeda.
Sistem penambangan data khusus domain atau aplikasi sedang dibangun untuk
penambangan mendalam jenis data tertentu. Pembangunan alat penambangan data
yang efektif dan efisien untuk beragam aplikasi tetap menjadi bidang penelitian
yang menantang dan aktif.
Mdalam repositori data dinamis, jaringan, dan global:Mberbagai sumber data
dihubungkan oleh Internet dan berbagai jenis jaringan, membentuk sistem dan
jaringan informasi global yang besar, terdistribusi, dan heterogen. Penemuan
pengetahuan dari berbagai sumber data terstruktur, semi-terstruktur, atau tidak
terstruktur namun saling berhubungan dengan semantik data yang beragam
menimbulkan tantangan besar bagi data mining. Menambang jaringan informasi
yang sangat besar dan saling berhubungan dapat membantu mengungkap lebih
banyak pola dan pengetahuan dalam kumpulan data yang heterogen daripada yang
dapat ditemukan dari kumpulan kecil repositori data yang terisolasi. Penambangan
web, penambangan data multisumber, dan penambangan jaringan informasi telah
menjadi bidang penambangan data yang menantang dan berkembang pesat.
1.7.5 Penambangan Data dan Masyarakat

HoApa dampak data mining terhadap masyarakat? Langkah-langkah apa yang dapat
diambil data mining untuk menjaga privasi individu? Apakah kita menggunakan data
mining dalam kehidupan sehari-hari kita tanpa menyadarinya? Pertanyaan-pertanyaan
ini mengangkat masalah-masalah berikut:
Dampak sosialHaif data mining:Wengan data mining yang memasuki kehidupan

kita sehari-hari, penting untuk mempelajari dampak data mining pada masyarakat.
Bagaimana kita bisa menggunakan teknologi data mining untuk menguntungkan
masyarakat? Bagaimana kita bisa waspada terhadap penyalahgunaannya?
Pengungkapan atau penggunaan data yang tidak tepat dan potensi pelanggaran
privasi individu dan hak perlindungan data adalah area perhatian yang perlu
ditangani.
Privpengawetan acypenambangan data:Penambangan data akan membantu
penemuan ilmiah, manajemen bisnis, pemulihan ekonomi, dan perlindungan
keamanan (misalnya, penemuan real-time dari penyusup dan serangan siber).

Namun, hal itu berisiko mengungkapkan informasi pribadi seseorang. Studi tentang
penerbitan data yang menjaga privasi dan penggalian data sedang berlangsung.
Filosofinya adalah mengamati sensitivitas data dan menjaga privasi orang saat
melakukan penambangan data yang sukses.
33 Chapter 1 Introduction 1.8 Summary33
Invpenambangan data yang dapat dilihat:WKita tidak bisa mengharapkan semua

orang di masyarakat untuk belajar dan menguasai teknik penggalian data. Semakin
banyak sistem harus memiliki fungsi data mining yang dibangun di dalamnya
sehingga orang dapat melakukan data mining atau menggunakan hasil data mining
hanya dengan mengklik mouse, tanpa pengetahuan tentang algoritma data mining.
Mesin pencari yang cerdas dan penyimpanan berbasis Internet melakukan
penggalian data yang tidak terlihat dengan menggabungkan penggalian data ke
dalam komponennya untuk meningkatkan fungsionalitas dan kinerjanya. Hal ini
sering dilakukan tanpa sepengetahuan pengguna. Misalnya, saat membeli item
secara online, pengguna mungkin tidak menyadari bahwa toko tersebut
kemungkinan besar mengumpulkan data tentang pola pembelian pelanggannya,
yang dapat digunakan untuk merekomendasikan item lain untuk dibeli di masa
mendatang.
Masalah-masalah ini dan banyak masalah tambahan lainnya yang berkaitan dengan
penelitian, pengembangan, dan penerapan data mining dibahas di seluruh buku ini.
1.8 Ringkasan
Necessity adalahibu dari penemuan.Wengan meningkatnya pertumbuhan data di

setiap aplikasi
kation, data mining memenuhi kebutuhan yang akan segera terjadi akan analisis
data yang efektif, dapat diskalakan, dan fleksibel dalam masyarakat kita.
Penambangan data dapat dianggap sebagai evolusi alami dari teknologi informasi
dan pertemuan dari beberapa disiplin ilmu terkait dan domain aplikasi.
Datapertambanganadalah proses menemukan pola yang menarik dari sejumlah
besar data. Sebagai proses penemuan pengetahuan, biasanya melibatkan
pembersihan data, integrasi data, pemilihan data, transformasi data, penemuan pola,
evaluasi pola, dan penyajian pengetahuan.
Sebuah pola menarik jika valid pada data uji dengan tingkat kepastian tertentu,
baru, berpotensi berguna (misalnya, dapat ditindaklanjuti atau memvalidasi firasat
yang membuat pengguna penasaran), dan mudah dipahami oleh manusia. Pola-pola
yang menarik mewakili pengetahuan. Ukuran ketertarikan pola, baik obyektif
maupun subyektif, dapat digunakan untuk memandu proses penemuan.
We menyajikan pandangan multidimensi data mining. Dimensi utama adalah
data, pengetahuan,tgema, dan aplikasi.
Penambangan data dapat dilakukan pada semua jenis data selama data tersebut
berguna untuk aplikasi target, seperti data basis data, data gudang data, data
transaksional, dan tipe data lanjutan. Tipe data lanjutan termasuk data yang
berhubungan dengan waktu atau urutan, aliran data, data spasial dan spasial, data
teks dan multimedia, data grafik dan jaringan, dan data Web.
Sebuah gudang data adalahsebuah repositori untuk penyimpanan data jangka panjang
dari berbagai sumber, yang diatur sedemikian rupa untuk memfasilitasi
pengambilan keputusan manajemen. Data disimpan di bawah skema terpadu dan

biasanya diringkas. Sistem gudang data menyediakan kemampuan analisis data
multidimensi, secara kolektif disebut sebagai pemrosesan analitik online.
Mpenambangan data ultidimensi(juga disebut penambangan data multidimensi

eksplorasi) mengintegrasikan teknik penambangan data inti dengan analisis
multidimensi berbasis OLAP. Ini mencari pola yang menarik di antara beberapa
kombinasi dimensi (atribut) pada berbagai tingkat abstraksi, dengan demikian
menjelajahi ruang data multi-dimensi.
Datafungsi pertambangandigunakan untuk menentukan jenis pola atau
pengetahuan yang akan ditemukan dalam tugas data mining. Fungsionalitas
tersebut meliputi karakterisasi dan diskriminasi; penambangan pola, asosiasi, dan
korelasi yang sering; klasifikasi dan regresi; analisis cluster; dan deteksi outlier.
Karena jenis data baru, aplikasi baru, dan permintaan analisis baru terus
bermunculan, tidak diragukan lagi kita akan melihat semakin banyak tugas
penambangan data baru di masa mendatang.
Penambangan data, sebagai domain yang sangat digerakkan oleh aplikasi, telah
menggabungkan teknologi dari banyak domain lainnya. Ini termasuk statistik,
pembelajaran mesin, database dan sistem gudang data, dan pengambilan informasi.
Sifat interdisipliner dari penelitian dan pengembangan data mining berkontribusi
secara signifikan terhadap keberhasilan data mining dan aplikasinya yang luas.
Penambangan data memiliki banyak aplikasi yang berhasil, seperti intelijen bisnis,
pencarian Web, bioinformatika, informatika kesehatan, keuangan, perpustakaan
digital, dan pemerintahan digital.
Ada banyak masalah yang menantang dalam penelitian data mining. Area termasuk
metodologi penambangan, interaksi pengguna, efisiensi dan skalabilitas, dan
menangani berbagai jenis data. Riset data mining berdampak kuat pada masyarakat
dan akan terus berlanjut di masa depan.
1.9 Latihan
1.1 Apa itu data mining? Dalam jawaban Anda, alamatkan yang berikut:
(a) Apakah ini sensasi lain?
(b) Apakah transformasi sederhana atau aplikasi teknologi yang dikembangkan dari
database,
statistik, pembelajaran mesin,dan pengenalan pola?
(c) Kami telah mempresentasikan pandangan bahwa data mining adalah hasil evolusi
teknologi database. Apakah menurut Anda data mining juga merupakan hasil dari
evolusi penelitian pembelajaran mesin? Dapatkah Anda menyajikan pandangan
seperti itu berdasarkan sejarah kemajuan disiplin ini? Alamat yang sama untuk
bidang statistik dan pengenalan pola.
(d) Jelaskan langkah-langkah yang terlibat dalam penggalian data jika dipandang
sebagai proses penemuan pengetahuan.
1.2 Bagaimana data warehouse berbeda dari database? Bagaimana mereka mirip?
1.3 Tentukan setiap fungsi data mining berikut: karakterisasi, diskriminasi, asosiasi dan
analisis korelasi, klasifikasi, regresi, pengelompokan, dan
35 Chapter 1 Introduction 1.10 Bibliographic Notes35
analisis pencilan. Berikan contoh dari setiap fungsionalitas data mining, menggunakan
database kehidupan nyata yang Anda kenal.
1.4 Sajikan contoh di mana penambangan data sangat penting untuk keberhasilan bisnis.
Fungsi data mining apa yang dibutuhkan bisnis ini (misalnya, pikirkan jenis pola yang
dapat ditambang)? Dapatkah pola tersebut dihasilkan sebagai alternatif dengan
pemrosesan kueri data atau analisis statistik sederhana?
1.5 Jelaskan perbedaan dan persamaan antara diskriminasi dan klasifikasi, antara
karakterisasi dan pengelompokan, serta antara klasifikasi dan regresi.
1.6 Berdasarkan pengamatan Anda, jelaskan jenis pengetahuan lain yang mungkin perlu
ditemukan dengan metode data mining tetapi belum dicantumkan dalam bab ini.
Apakah ini memerlukan metodologi penambangan yang sangat berbeda dari yang
diuraikan dalam bab ini?
1.7 Pencilan sering kali diabaikan sebagai noise. Namun, sampah satu orang bisa menjadi
harta karun orang lain. Misalnya, pengecualian dalam transaksi kartu kredit dapat
membantu kami mendeteksi penggunaan kartu kredit yang tidak benar. Menggunakan
deteksi kecurangan sebagai contoh, usulkan dua metode yang dapat digunakan untuk
mendeteksi pencilan dan mendiskusikan mana yang lebih dapat diandalkan.
1.8 Jelaskan tiga tantangan untuk data mining mengenai metodologi data mining dan
masalah interaksi pengguna.
1.9 Apa tantangan utama dari menambang sejumlah besar data (misalnya, milyaran tupel)
dibandingkan dengan menambang sejumlah kecil data (misalnya, kumpulan data dari
beberapa ratus tupel)?
1.10 Garis besar tantangan penelitian utama dari data mining dalam satu domain aplikasi
tertentu, seperti analisis data stream / sensor, analisis data spasiotemporal, atau
bioinformatika.
1.10 Catatan Bibliografi

Buku Penemuan Pengetahuan di Database, diedit oleh Piatetsky-Shapiro dan Frawley
[P-SF91], adalah kumpulan awal makalah penelitian tentang penemuan pengetahuan
dari data. Buku Kemajuan dalam Penemuan Pengetahuan dan Penambangan Data,
diedit oleh Fayyad, Piatetsky-Shapiro, Smyth, dan Uthurusamy [FPSS + 96], adalah
kumpulan hasil penelitian selanjutnya tentang penemuan pengetahuan dan
penambangan data. Ada banyak buku data mining yang diterbitkan dalam beberapa
tahun terakhir, termasuk The Elements of Statistics Learning oleh Hastie, Tibshirani,
dan Friedman [HTF09]; Pengantar Data Mining oleh Tan, Steinbach, dan Kumar
[TSK05]; Data Mining: Alat dan Teknik Pembelajaran Mesin Praktis dengan
Implementasi Java oleh Witten, Frank, dan Hall [WFH11]; Prediksi Data Mining oleh
Weiss dan Indurkhya [WI98]; Menguasai Data Mining: Seni dan Ilmu Manajemen
Hubungan Pelanggan oleh Berry dan Linoff [BL99]; Prinsip Data Mining (Komputasi
Adaptif dan Pembelajaran Mesin) dengan Tangan, Mannila, dan Smyth [HMS01];
Menambang Web: Menemukan Pengetahuan dari Data Hypertext oleh Chakrabarti

[Cha03a]; Penambangan Data Web: Menjelajahi Hyperlink, Konten, dan Penggunaan
Databy Liu [Liu06]; Data Mining: Topik Pengantar dan Lanjutan oleh Dunham
[Dun03]; dan Data Mining: Multimedia, Soft Computing, dan Bioinformatika oleh
Mitra dan Acharya [MA03].
Ada juga buku yang berisi kumpulan makalah atau bab tentang aspek-aspek
tertentu dari penemuan pengetahuan — misalnya, Relational Data Mining yang diedit
oleh Dzeoski dan Lavrac [De01]; Data Grafik Penambangan diedit oleh Cook and
Holder [CH07]; Aliran Data: Model dan Algoritma diedit oleh Aggarwal [Agg06];
Data Mining Generasi Berikutnya diedit oleh Kargupta, Han, Yu, dkk. [KHY + 08];
Multimedia Data Mining: Pengantar Sistematika Konsep dan Teori yang diedit oleh Z.
Zhang dan R. Zhang [ZZ09]; Penambangan Data Geografis dan Penemuan
Pengetahuan diedit oleh Miller dan Han [MH09]; dan Link Mining: Model, Algoritma
dan Aplikasi diedit oleh Yu, Han, dan Faloutsos [YHF10]. Ada banyak catatan tutorial
tentang data mining di database utama, data mining, pembelajaran mesin, statistik, dan
konferensi teknologi Web.
KDNuggetsadalah buletin elektronik reguler yang berisi informasi yang relevan
dengan penemuan pengetahuan dan penggalian data, dimoderatori oleh Piatetsky-
Shapiro sejak 1991. Situs Internet KDNuggets(www.kdnuggets.com)bersamanmemiliki
kumpulan informasi yang berhubungan dengan KDD.
Komunitas data mining memulai konferensi internasional pertamanya tentang
penemuan pengetahuan dan penggalian data pada tahun 1995. Konferensi tersebut
berkembang dari empat lokakarya internasional tentang penemuan pengetahuan dalam
basis data, yang diadakan dari tahun 1989 hingga 1994. ACM-SIGKDD, sebuah
Kelompok Minat Khusus tentang Pengetahuan Discovery in Databases didirikan di
bawah ACM pada tahun 1998 dan telah menyelenggarakan konferensi internasional
tentang penemuan pengetahuan dan penambangan data sejak 1999. IEEE Computer
Science Society telah menyelenggarakan konferensi penambangan data tahunan,
Konferensi Internasional tentang Penambangan Data (ICDM), sejak 2001. SIAM
(Society on Industrial and Applied Mathematics) telah menyelenggarakan konferensi
data mining tahunannya, SIAM Data Mining Conference (SDM), sejak 2002. Jurnal
khusus, Data Mining and Knowledge Discovery, diterbitkan oleh Kluwers Publishers,
telah tersedia sejak 1997 .Jurnal ACM, ACM Transactions on Knowledge Discovery
from Data, menerbitkan volume pertamanya pada tahun 2007.
SEBUAHCM-SIGKDDjuga menerbitkan buletin dua tahunan, SIGKDD
Explorations. Ada beberapa konferensi internasional atau regional lainnya tentang data
mining, seperti European Conference on Machine Learning and Principles and
Practice of Knowledge Discovery in Databases (ECML PKDD), Pacific-Asia
Conference on Knowledge Discovery and Data Mining (PAKDD), dan Konferensi
Internasional tentang Data Warehousing and Knowledge Discovery (DaWaK).
Research dalam data mining juga telah diterbitkan dalam buku, konferensi, dan
jurnal tentang database, statistik, pembelajaran mesin, dan visualisasi data. Referensi
ke sumber-sumber tersebut dicantumkan di akhir buku ini.
PoBuku teks pokok pada sistem basis data meliputi Sistem Basis Data: Buku
Lengkap karangan Garcia-Molina, Ullman, dan Widom [GMUW08]; Sistem
Manajemen Basis Data oleh Ramakrishnan dan Gehrke [RG03]; Konsep Sistem
Database oleh Silberschatz, Korth, dan Sudarshan [SKS10]; dan Dasar-dasar Sistem
Database oleh Elmasri dan Navathe [EN10]. Untuk kumpulan artikel penting yang
diedit pada sistem database, lihat Bacaan dalam Sistem Database oleh Hellerstein dan
Stonebraker [HS05].
Ada juga banyak buku tentang teknologi data warehouse, sistem, dan aplikasinya,
seperti The Data Warehouse Toolkit: The Complete Guide to Dimensional Modeling
oleh Kimball dan Ross [KR02]; Perangkat Siklus Hidup Gudang Data oleh Kimball,
Ross, Thornthwaite, dan Mundy [KRTM08]; Menguasai Desain Data Warehouse:
Teknik Relasional dan Dimensi oleh Imhoff, Galemmo, dan Geiger [IGG03]; dan
Membangun Data Warehouse oleh Inmon [Inm96]. Satu set makalah penelitian
tentang tampilan terwujud dan implementasi gudang data dikumpulkan dalam
Tampilan Terwujud: Teknik, Implementasi, dan Aplikasi oleh Gupta dan Mumick
[GM99]. Chaudhuri dan Dayal [CD97] menyajikan gambaran umum awal yang
komprehensif tentang teknologi gudang data.
RHasil pencarian yang berkaitan dengan data mining dan data warehousing telah
diterbitkan dalam prosiding banyak konferensi database internasional, termasuk ACM-
SIGMOD International Conference on Management of Data (SIGMOD), International
Conference on Very Large Data Bases (VLDB), ACM SIGACT- SIGMOD-SIGART
Simposium Prinsip Sistem Basis Data (PODS), Konferensi Internasional tentang
Rekayasa Data (ICDE), Konferensi Internasional tentang Memperluas Teknologi
Basis Data (EDBT), Konferensi Internasional tentang Teori Basis Data (ICDT),
Konferensi Internasional tentang Manajemen Informasi dan Pengetahuan (CIKM),
Konferensi Internasional tentang Basis Data dan Aplikasi Sistem Pakar (DEXA), dan
Simposium Internasional tentang Sistem Basis Data untuk Aplikasi Tingkat Lanjut
(DASFAA).Riset dalam data mining juga dipublikasikan di jurnal database utama,
seperti IEEE Transactions on Knowledge and Data Engineering (TKDE), ACM
Transactions on Database Systems (TODS), Information Systems, The VLDB Journal,
Data and Knowledge Engineering, International Journal of Intelligent Sistem
Informasi (JIIS), dan Pengetahuan dan Sistem Informasi (KAIS).
Mmetode data mining yang efektif telah dikembangkan oleh ahli statistik dan
diperkenalkan dalam satu set buku teks yang kaya. Tinjauan klasifikasi dari perspektif
pengenalan pola statistik dapat ditemukan di Klasifikasi Pola oleh Duda, Hart, dan
Stork [DHS01]. Ada juga banyak buku teks yang membahas regresi dan topik lain
dalam analisis statistik, seperti Statistik Matematika: Ide Dasar dan Topik Pilihan oleh
Bickel dan Doksum [BD01]; Detektif Statistik: Kursus dalam Metode Analisis Data
oleh Ramsey dan Schafer [RS01]; Model Statistik Linear Terapan oleh Neter, Kutner,
Nacht- sheim, dan Wasserman [NKNW96]; Pengantar Model Linear Umum oleh
Dobson [Dob90]; Analisis Rangkaian Waktu Statistik Terapan oleh Shumway
[Shu88]; dan Analisis Statistik Multivariat Terapan oleh Johnson dan Wichern
[JW92].
Researchdalam statistik diterbitkan dalam prosiding beberapa konferensi statistik
utama, termasuk Rapat Statistik Bersama, Konferensi Internasional Masyarakat
Statistik Kerajaan dan Simposium tentang Antarmuka: Ilmu Komputer dan Statistik.
Sumber publikasi lain termasuk Journal of Royal Statistics Society, The Annals of
Statistics, Journal of American Statistics Association, Technometrics, dan Biometrika.
Textbooks dan buku referensi tentang pembelajaran mesin dan pengenalan pola
termasuk Machine Learning oleh Mitchell [Mit97]; Pengenalan Pola dan Pembelajaran
Mesin oleh Bishop [Bis06]; Pengenalan Pola oleh Theodoridis dan Koutroumbas
[TK08]; Pengenalan ke Machine Learning oleh Alpaydin [Alp11]; Model Grafis
Probabilistik: Prinsip
dan Teknikby Koller dan Friedman [KF09]; dan Pembelajaran Mesin: Perspektif
Algoritmik oleh Marsland [Mar09]. Untuk kumpulan artikel penting yang telah diedit
tentang pembelajaran mesin, lihat Pembelajaran Mesin, Pendekatan Kecerdasan
Buatan, Volume 1 sampai 4, diedit oleh Michalski et al. [MCM83, MCM86, KM90,
MT94], dan Bacaan dalam Pembelajaran Mesin oleh Shavlik dan Dietterich [SD90].
Mpembelajaran achine dan penelitian pengenalan pola diterbitkan dalam prosiding
beberapa pembelajaran mesin utama, kecerdasan buatan, dan konferensi pengenalan
pola, termasuk Konferensi Internasional tentang Pembelajaran Mesin (ML),
Konferensi ACM tentang Teori Pembelajaran Komputasi (COLT), Konferensi IEEE
tentang Visi Komputer dan Pengenalan Pola (CVPR), Konferensi Internasional
tentang Pengenalan Pola (ICPR), Konferensi Bersama Internasional tentang
Kecerdasan Buatan (IJCAI), dan Konferensi Asosiasi Kecerdasan Buatan Amerika
(AAAI). Sumber publikasi lainnya termasuk pembelajaran mesin utama, kecerdasan
buatan, pengenalan pola, dan jurnal sistem pengetahuan, beberapa di antaranya telah
disebutkan sebelumnya. Lainnya termasuk Machine Learning (ML), Pattern
Recognition (PR),
Textbooks dan buku referensi tentang pencarian informasi termasuk Pengantar
Pencarian Informasi oleh Manning, Raghavan, dan Schutz [MRS08]; Pengambilan
Informasi: Menerapkan dan Mengevaluasi Mesin Pencari oleh Bu¨tcher, Clarke, dan
Cormack [BCC10]; Mesin Pencari: Pengambilan Informasi dalam Praktek oleh Croft,
Metzler, dan Strohman [CMS09]; Pengambilan Informasi Modern: Konsep dan
Teknologi di Balik Pencarian oleh Baeza-Yates dan Ribeiro-Neto [BYRN11]; dan
Pengambilan Informasi: Algoritma dan Heuristik oleh Grossman dan Frieder [GR04].
sayaPenelitian pengambilan informasi dipublikasikan dalam prosiding beberapa
pencarian informasi dan pencarian Web dan konferensi pertambangan, termasuk
Konferensi Internasional ACM SIGIR tentang Penelitian dan Pengembangan dalam
Pencarian Informasi (SIGIR), Konferensi Web Dunia Internasional (WWW), ACM
Konferensi Internasional tentang Pencarian Web dan Penambangan Data (WSDM),
Konferensi ACM tentang Manajemen Informasi dan Pengetahuan (CIKM), Konferensi
Eropa tentang Pengambilan Informasi (ECIR), Konferensi Pengambilan Teks (TREC),
dan ACM / Konferensi Bersama IEEE tentang Perpustakaan Digital (JCDL). Sumber
publikasi lainnya termasuk pencarian informasi utama, sistem informasi, dan jurnal
Web, seperti Journal of Information Retrieval, ACM Transactions on Information
Systems (TOIS), Information Processing and Management,

Bab 1 Data Mining (Terjemahan)

Diunggah oleh

Informasi Dokumen

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Bab 1 Data Mining (Terjemahan)

Diunggah oleh

Hak Cipta:

Format Tersedia

1

1.1 Mengapa Data Mining?

1.1.1 Menuju Era Informasi

Data Mining: Konsepdan Teknik 1

1.1.2 Data Mining sebagai Evolusi Teknologi Informasi

2 Ini dilaporkan di [GMP+ 09].

Pengumpulan Data dan Pembuatan Basis

Sistem Manajemen Basis Data

Sistem Database Lanjutan Analisis Data Lanjutan

Gambar 1.1Evolusi teknologi sistem database.

beberapa fungsi penting (Gambar 1.1): pengumpulan dan pembuatan database,

Bagaimana cara menganalisis data ini?

Gambar 1.2Dunia kaya akan data tetapi miskin informasi.

sayaSingkatnya, banyaknya data, ditambah dengan kebutuhan akan alat analisis

1.2 Apa Itu Data Mining?

sayaTidaklah mengherankan jika data mining, sebagai subjek yang benar-benar

1. Pembersihan data(untuk menghilangkan noise dan

Evaluasi dan Pengetahuan

Gambar 1.4Data mining sebagai langkah dalam proses penemuan pengetahuan.

Langkah1 hingga 4 adalah berbagai bentuk preprocessing data, di mana data

1.3 Jenis Data Apa yang Dapat Ditambang?

1.3.1 Data Database

Contoh 1.2 Database relasional untuk AllElectronics.Toko AllElectronics fiktif digunakan

Relasi pelanggan terdiri dari sekumpulan atribut yang mendeskripsikan informasi

pelanggan(cust ID, nama, alamat, usia, pekerjaan, pendapatan tahunan, informasi

Gambar 1.5Relasionalskema untuk database relasional, AllElectronics.

1.3.2 Gudang Data

Sumber data di Chicago

Sumber data di Toronto Klien

Sumber data di Vancouver

Gambar 1.6Typicalkerangka gudang data untuk AllElectronics.

Byproviding tampilan data multidimensi dan prakomputasi data yang diringkas,

SEBUAHMeskipun alat data warehouse membantu mendukung analisis data, alat

Chicago Ame 2000

keamanan komputer keamanan komputer

mruang ultidimensi dalam gaya OLAP. Artinya, memungkinkan eksplorasi berbagai

1.3.3 TData ransaksional

SEBUAHSebagai seorang analis AllElectronics, Anda mungkin bertanya, "Item

trans ID daftar ID item

Gambar 1.8Frkumpulan database transaksional untuk penjualan di AllElectronics.

1.3.4 Jenis Data Lainnya

1.4 Macam Pola Apa yang Dapat Ditambang?

1.4.1 Deskripsi Kelas / Konsep: Karakterisasi dan

Contoh 1.5 Karakterisasi data.SEBUAHmanajer hubungan pelanggan di AllElectronics dapat

Contoh 1.6 Diskriminasi data.Manajer hubungan pelanggan di AllElectronics mungkin ingin

Bersamadeskripsi penerimaan, termasuk karakterisasi dan diskriminasi, dijelaskan dalam

1.4.2 Pola Frekuensi Penambangan, Asosiasi, dan Korelasi

Contoh 1.7 Analisis Asosiasi.SMisalnya, sebagai manajer pemasaran di AllElectronics, Anda

membeli(X , "komputer")⇒ membeli (X, "perangkat lunak") [dukungan = 1%,

keyakinan = 50%], dengan X adalah variabel yang mewakili pelanggan.

Keyakinan, atau kepastian, 50%

usia(X , "20..29") ∧ pendapatan (X, "40K..49K") ⇒ membeli

Aturan tersebut menunjukkan bahwa dari pelanggan AllElectronics yang diteliti, 2%

membeli laptop (komputer) di AllElectronics. Ada kemungkinan 60% bahwa

1.4.3 Klasifikasi dan Regresi untuk Analisis Prediktif

agex,“Remaja”) AND usia pendapatan kelas (X,“A

be mengubahdisesuaikan dengan aturan klasifikasi. Jaringan saraf, ketika digunakan

1.4.4 Analisis Cluster

clabel gadisfora sekelompok data. Objek dikelompokkan atau dikelompokkan

Analisis cluster membentuk topik Bab 10 dan 11.

1.4.5 Analisis Pencilan

Analisis pencilan dibahas di Bab 12.

1.4.6 Apakah Semua Pola Menarik?

mengatakan,50% bisa dianggap tidak menarik. Aturan di bawah ambang batas