Anda di halaman 1dari 39

LECTURE NOTES

Data Mining

Week ke-1

Introduction

Data Mining
LEARNING OUTCOMES

1. LO1: Explain concept, component and the advantages of mining

2. LO2: Demonstrate model of mining.

OUTLINE MATERI :

1. Mengapa Mining?
2. Apa yang Dimaksud dengan Mining?
3. Mining Multidimensi
4. Jenis-Jenis Data pada Mining
5. Pola Mining
6. Teknologi pada Mining
7. Aplikasi di Mining
8. Permasalahan pada Mining
9. Data Mining dan Masyarakat
10. Ringkasan

Data Mining
Introduction
Pada bab ini kita akan membahasa mengenai konsep, jenis-jenis data, pola, teknologi, aplikasi,
permasalahan, sejarah dan perkembangan dari mining.

1. Mengapa Mining?

Kita hidup di era informasi” adalah pepatah populer; Namun, kita sebenarnya hidup di
era data. Terabyte atau petabytes1 data mengalir ke jaringan komputer kami, the World
Wide Web (WWW), dan berbagai perangkat penyimpanan data setiap hari dari bisnis,
masyarakat, sains dan teknik, kedokteran, dan hampir setiap aspek kehidupan sehari-hari
lainnya. Pertumbuhan eksplosif dari volume data yang tersedia ini adalah hasil dari
komputerisasi masyarakat kita dan perkembangan pesat dari pengumpulan data yang kuat
dan alat penyimpanan.

Bisnis di seluruh dunia menghasilkan set data raksasa, termasuk transaksi penjualan,
stok catatan perdagangan, deskripsi produk, promosi penjualan, profil dan kinerja
perusahaan, dan umpan balik pelanggan. Misalnya, toko-toko besar, seperti Wal-Mart,
menangani ratusan juta transaksi per minggu di ribuan cabang di sekitar dunia. Praktik
ilmiah dan teknik menghasilkan data petabyte dalam jumlah besar secara terus menerus, dari
penginderaan jauh, pengukuran proses, eksperimen ilmiah, kinerja sistem, pengamatan
teknik, dan pengawasan lingkungan. Jaringan telekomunikasi backbone global membawa
puluhan petabyte lalu lintas data setiap hari. Industri medis dan kesehatan menghasilkan
banyak sekali data catatan medis, pemantauan pasien, dan pencitraan medis. Miliaran
pencarian Web didukung oleh mesin pencari memproses puluhan petabyte data setiap hari.
Komunitas dan media sosial telah menjadi sumber data yang semakin penting, menghasilkan
gambar digital dan video, blog, komunitas Web, dan berbagai jenis jejaring sosial. Itu daftar
sumber yang menghasilkan data dalam jumlah besar tidak ada habisnya.

Badan data yang tumbuh dengan eksplosif, tersedia luas, dan raksasa ini menjadikan
kami waktu benar-benar zaman data. Alat yang kuat dan serbaguna sangat dibutuhkan untuk
secara otomatis mengungkap informasi berharga dari jumlah data yang luar biasa dan untuk
mengubahnya data tersebut menjadi pengetahuan yang terorganisir. Kebutuhan ini telah
menyebabkan lahirnya mining. Lapangan ini muda, dinamis, dan menjanjikan. Mining telah
dan akan terus dilakukan langkah besar dalam perjalanan kami dari era data menuju era
informasi yang akan datang.

Contoh: Mining mengubah kumpulan besar data menjadi pengetahuan. Mesin pencari
(mis.,Google) menerima ratusan juta permintaan setiap hari. Setiap kueri dapat dilihat

Data Mining
sebagai transaksi di mana pengguna menggambarkan kebutuhan informasinya. Novel apa
dan pengetahuan yang berguna dapat dipelajari oleh mesin pencari dari sekumpulan besar
kueri yang dikumpulkan dari pengguna dari waktu ke waktu? Menariknya, beberapa pola
ditemukan dalam permintaan pencarian pengguna dapat mengungkapkan pengetahuan yang
sangat berharga yang tidak dapat diperoleh dengan membaca data individual barang saja.
Misalnya, Google Tren Flu Dunia menggunakan istilah pencarian spesifik sebagai indicator
aktivitas flu. Ia menemukan hubungan yang erat antara jumlah orang yang mencari
informasi terkait flu dan jumlah orang yang sebenarnya memiliki gejala flu. SEBUAH pola
muncul ketika semua permintaan pencarian terkait dengan flu dikumpulkan. Menggunakan
agregat Data pencarian Google, Tren Flu dapat memperkirakan aktivitas flu hingga dua
minggu lebih cepat daripada sistem tradisional bisa. 2 Contoh ini menunjukkan bagaimana
mining bisa menjadi besar pengumpulan data menjadi pengetahuan yang dapat membantu
memenuhi tantangan global saat ini.

Mining dapat dilihat sebagai hasil dari evolusi alami teknologi informasi. Industri
manajemen basis data dan data berkembang dalam pengembangan beberapa fungsi kritis
(Gambar 1.1): pengumpulan data dan pembuatan basis data, data manajemen (termasuk
penyimpanan dan pengambilan data dan pemrosesan transaksi basis data), dan analisis data
lanjutan (yang melibatkan data warehouse dan mining). Awal pengembangan pengumpulan
data dan mekanisme pembuatan basis data berfungsi sebagai prasyarat untuk pengembangan
selanjutnya dari mekanisme yang efektif untuk penyimpanan dan pengambilan data, serta
permintaan dan pemrosesan transaksi. Saat ini banyak sistem basis data menawarkan proses
permintaan dan transaksi sebagai praktik umum. Analisis data lanjutan telah secara alami
menjadi langkah selanjutnya.

Data Mining
Gambar 1.1 Evolusi System Basis Data (Sumber Jiawei Han, 2011, Hal: 3).

Sejak 1960-an, basis data dan teknologi informasi telah berkembang secara sistematis
dari sistem pemrosesan file primitif ke sistem basis data yang canggih dan kuat. Penelitian
dan pengembangan dalam sistem basis data sejak tahun 1970an berkembang dari awal
sistem hierarkis dan basis data jaringan ke sistem basis data relasional (di mana data
disimpan dalam struktur tabel relasional), alat pemodelan data, dan metode pengindeksan
dan pengaksesan. Selain itu, pengguna memperoleh kenyamanan dan fleksibilitas akses data
melalui bahasa permintaan, antarmuka pengguna, optimisasi permintaan, dan transaksi
pengelolaan. Metode yang efisien untuk pemrosesan transaksi online (OLTP), di mana
permintaan dipandang sebagai transaksi hanya-baca, berkontribusi besar pada evolusi dan
penerimaan luas teknologi relasional sebagai alat utama untuk penyimpanan, pengambilan
yang efisien, dan manajemen sejumlah besar data.

Data Mining
Setelah pembentukan sistem manajemen basis data, teknologi basis data bergerak
menuju pengembangan sistem basis data canggih, pergudangan data, dan penggalian data
untuk analisis data lanjutan dan basis data berbasis web. Basis data lanjutan sistem,
misalnya, dihasilkan dari kebangkitan penelitian sejak pertengahan 1980an dan seterusnya.
Sistem ini menggabungkan model data baru dan kuat seperti extended-relational, model
berorientasi objek, objek-relasional, dan deduktif. Database berorientasi aplikasi sistem telah
berkembang, termasuk spasial, temporal, multimedia, aktif, aliran dan sensor, basis data
ilmiah dan teknik, basis pengetahuan, dan informasi kantor pangkalan. Masalah yang terkait
dengan distribusi, diversifikasi, dan berbagi data telah terjadi dipelajari secara luas.

Analisis data lanjutan muncul dari akhir 1980an dan seterusnya. Yang stabil dan
kemajuan mempesona teknologi perangkat keras komputer dalam tiga dekade terakhir
menyebabkan persediaan besar komputer yang kuat dan terjangkau, peralatan pengumpulan
data, dan media penyimpanan. Teknologi ini memberikan dorongan besar untuk database
dan informasi industri, dan itu memungkinkan sejumlah besar database dan repositori
informasi menjadi tersedia untuk manajemen transaksi, pencarian informasi, dan analisis
data. Data sekarang dapat disimpan dalam berbagai jenis basis data dan repositori informasi.
Salah satu arsitektur repositori data yang muncul adalah mining. Ini adalah repositori dari
berbagai sumber data heterogen yang diselenggarakan di bawah satu skema di satu situs
untuk memfasilitasi pengambilan keputusan manajemen. Data warehouse teknologi
termasuk pembersihan data, integrasi data, dan pemrosesan analitis online (OLAP) —yaitu,
teknik analisis dengan fungsi seperti peringkasan, konsolidasi, dan agregasi, serta
kemampuan untuk melihat informasi dari yang berbeda sudut. Meskipun alat OLAP
mendukung analisis multidimensi dan pengambilan keputusan, alat analisis data tambahan
diperlukan untuk analisis mendalam — misalnya, mining alat yang menyediakan klasifikasi
data, pengelompokan, deteksi outlier / anomali, dan karakterisasi perubahan data dari waktu
ke waktu.

Volume data yang besar telah terakumulasi di luar basis data dan data warehouse.
Selama 1990-an, World Wide Web dan basis data berbasis web (mis., XML database) mulai
muncul. Basis informasi global berbasis internet, seperti HPW dan berbagai macam database
yang saling terhubung dan heterogen, telah muncul dan dimainkan peran vital dalam industri
informasi. Analisis data yang efektif dan efisien berbagai bentuk data seperti itu dengan
mengintegrasikan pengambilan informasi, penggalian data, dan teknologi analisis jaringan
informasi adalah tugas yang menantang.

Data Mining
Gambar 1.2. Kaya data tetapi miskin informasi (Jiawei Han, 2011, Hal:5).

Singkatnya, banyaknya data, ditambah dengan kebutuhan akan analisis data yang kuat
alat, telah digambarkan sebagai data kaya tetapi situasi informasi buruk (Gambar 1.2). Itu
data yang tumbuh cepat, luar biasa banyaknya, dikumpulkan dan disimpan dalam jumlah
besar dan banyak repositori data, telah jauh melampaui kemampuan manusia kita untuk
memahami tanpa kuat alat. Akibatnya, data yang dikumpulkan dalam repositori data besar
menjadi "data tombs" —data arsip yang jarang dikunjungi. Akibatnya, keputusan penting
sering dibuat tidak didasarkan pada data yang kaya informasi yang disimpan dalam
repositori data melainkan pada keputusan intuisi pembuat, hanya karena pembuat keputusan
tidak memiliki alat untuk melakukannya mengekstrak pengetahuan berharga yang tertanam
dalam sejumlah besar data. Upaya telah dibuat untuk mengembangkan sistem pakar dan
teknologi berbasis pengetahuan, yang biasanya mengandalkan pengguna atau pakar domain
untuk secara manual memasukkan pengetahuan ke dalam basis pengetahuan. Sayangnya,
bagaimanapun, prosedur input pengetahuan manual cenderung bias dan kesalahan dan
sangat mahal dan memakan waktu. Kesenjangan melebar antara data dan panggilan
informasi untuk pengembangan sistematis alat mining yang dapat mengubah data kuburan
menjadi "golden nugget " pengetahuan.

• Apa yang Dimaksud dengan Mining?

Tidak mengherankan bahwa mining, sebagai subjek yang benar-benar interdisipliner,


dapat didefinisikan dengan berbagai cara. Bahkan istilah mining tidak benar-benar

Data Mining
menyajikan semua yang utama komponen dalam gambar. Untuk merujuk pada mining emas
dari batu atau pasir, kita mengatakan mining emas bukan mining batu atau pasir. Secara
analog, mining seharusnya lebih banyak tepat disebut "mining pengetahuan dari data," yang
sayangnya agak panjang. Namun, jangka pendek, mining pengetahuan mungkin tidak
mencerminkan penekanan mining dari sejumlah besar data. Namun demikian, mining adalah
istilah yang sangat jelas proses yang menemukan sejumlah kecil nugget berharga dari banyak
bahan baku (Gambar 1.3). Dengan demikian, nama yang keliru seperti membawa "data" dan
"pertambangan" menjadi populer pilihan. Selain itu, banyak istilah lain yang memiliki arti
serupa dengan mining — untuk contohnya, mining pengetahuan dari data, ekstraksi
pengetahuan, data / analisis pola, data arkeologi, dan pengerukan data.

Gambar 1.3. Mining-mencari pengetahuan (pola menarik) dalam data


(Jiawei Han, 2011, Hal:6).
Banyak orang memperlakukan penggalian data sebagai sinonim untuk istilah lain yang
populer digunakan, penemuan pengetahuan dari data, atau KDD, sementara yang lain
melihat mining hanya sebagai langkah penting dalam proses penemuan pengetahuan. Proses
penemuan pengetahuan adalah ditunjukkan pada Gambar 1.4 sebagai urutan berulang dari
langkah-langkah berikut:
• Pembersihan data (untuk menghilangkan noise dan data yang tidak konsisten)
• Integrasi data (di mana banyak sumber data dapat digabungkan)
• Pemilihan data (di mana data yang relevan dengan tugas analisis diambil dari
basis data)
• Transformasi data (di mana data ditransformasikan dan dikonsolidasikan ke dalam
bentuk

Data Mining
• sesuai untuk mining dengan melakukan operasi ringkasan atau agregasi)
• Mining (proses penting di mana metode cerdas diterapkan untuk mengekstrak pola
data)
• Evaluasi pola (untuk mengidentifikasi pola yang benar-benar menarik yang mewakili
pengetahuan berdasarkan pada langkah-langkah menarik)
• Presentasi pengetahuan (dimana visualisasi dan teknik representasi pengetahuan
digunakan untuk menyajikan pengetahuan yang ditambang kepada pengguna)

Gambar 1.4 Mining sebagai langkah dalam proses penemuan pengetahuan. (Jiawei Han, Hal: 7).

Langkah 1 hingga 4 adalah berbagai bentuk preprocessing data, di mana data disiapkan
untuk mining. Langkah penggalian data dapat berinteraksi dengan pengguna atau basis
pengetahuan. Itu pola menarik disajikan kepada pengguna dan dapat disimpan sebagai
pengetahuan baru di Internet dasar pengetahuan.

Pandangan sebelumnya menunjukkan mining sebagai salah satu langkah dalam proses
penemuan pengetahuan, walaupun penting karena mengungkap pola tersembunyi untuk
evaluasi. Namun, di industri, media, dan di lingkungan penelitian, istilah mining sering
digunakan untuk itu lihat seluruh proses penemuan pengetahuan (mungkin karena istilahnya
lebih pendek dari penemuan pengetahuan dari data). Oleh karena itu, kami mengadopsi
pandangan luas tentang mining fungsi: mining adalah proses menemukan pola yang menarik
danpengetahuan dari sejumlah besar data. Sumber data dapat mencakup basis data, mining,
Web, repositori informasi lain, atau data yang dialirkan ke Internet sistem secara dinamis.

Data Mining
2. Mining Multidimensi

Sebagai teknologi umum, mining dapat diterapkan ke semua jenis data selama data
bermakna untuk aplikasi target. Bentuk data paling dasar untuk mining aplikasi adalah data
basis data, mining, dan data transaksional. Konsep dan teknik yang disajikan dalam hal ini
fokus buku pada data tersebut. Mining juga dapat diterapkan ke bentuk data lainnya (mis.,
aliran data, data pesanan / urutan, grafik atau data jaringan, data spasial, data teks, data
multimedia, dan the WWW).

1. Data Basis Data


Suatu sistem basis data, juga disebut sistem manajemen basis data (DBMS), terdiri
dari pengumpulan data yang saling terkait, dikenal sebagai basis data, dan satu set
program perangkat lunak untuk mengelola dan mengakses data. Program perangkat
lunak menyediakan mekanisme untuk mendefinisikan struktur basis data dan
penyimpanan data; untuk menentukan dan mengelola secara bersamaan, dibagikan,
atau akses data terdistribusi; dan untuk memastikan konsistensi dan keamanan
informasi disimpan meskipun sistem macet atau upaya akses yang tidak sah.
Database relasional adalah kumpulan tabel, yang masing-masing diberikan nama unik.
Setiap tabel terdiri dari sekumpulan atribut (kolom atau bidang) dan biasanya
menyimpan satu set besar tupel (catatan atau baris). Setiap tuple dalam tabel relasional
mewakili suatu objek diidentifikasi oleh kunci unik dan dijelaskan oleh satu set nilai
atribut. Semantik model data, seperti model data entitas-hubungan (ER), sering
dibangun untuk database relasional. Model data ER mewakili database sebagai
sekumpulan entitas dan hubungan mereka.

Contoh: Basis data relasional untuk AllElectronics.

Toko AllElectronics fiktif digunakan untuk menggambarkan konsep-konsep di seluruh


buku ini. Perusahaan dijelaskan sebagai berikut tabel relasi: pelanggan, barang,
karyawan, dan cabang. Header tabel dijelaskan di sini ditunjukkan pada Gambar 1.5.
(Header juga disebut skema relasi.) Relasi pelanggan terdiri dari seperangkat atribut
yang menggambarkan informasi pelanggan, termasuk nomor identitas pelanggan unik
(cust ID), nama pelanggan, alamat, umur, pekerjaan, pendapatan tahunan, informasi
kredit, dan kategori. Demikian pula, masing-masing item hubungan, karyawan, dan
cabang terdiri dari serangkaian atribut menggambarkan sifat-sifat entitas ini. Tabel
juga dapat digunakan untuk mewakili hubungan antara atau di antara banyak entitas.
Dalam contoh kami, ini termasuk pembelian (barang pembelian pelanggan, membuat
transaksi penjualan yang ditangani oleh seorang karyawan), barang yang dijual (daftar

Data Mining
barang yang dijual di suatu diberikan transaksi), dan bekerja di (karyawan bekerja di
cabang AllElectronics).

Gambar 1.5 Skema relasional untuk basis data relasional, AllElectronics. (Jiawei Han, 2011, Hal:
9)

Data relasional dapat diakses oleh kueri basis data yang ditulis dalam kueri
relasional bahasa (mis., SQL) atau dengan bantuan antarmuka pengguna grafis. Kueri
yang diberikan adalah diubah menjadi seperangkat operasi relasional, seperti
bergabung, seleksi, dan proyeksi, dan kemudian dioptimalkan untuk pemrosesan yang
efisien. Kueri memungkinkan pengambilan subset tertentu dari data. Misalkan
pekerjaan Anda adalah menganalisis data AllElectronics. Melalui menggunakan kueri
relasional, Anda dapat menanyakan hal-hal seperti, “Tunjukkan daftar semua item
yang sebelumnya dijual di kuartal terakhir. "Bahasa relasional juga menggunakan
fungsi agregat seperti jumlah, rata-rata (rata-rata), jumlah, maksimum (maksimum),
dan minimum (minimum). Menggunakan agregat memungkinkan Anda untuk
bertanya: "Tunjukkan kepada saya total penjualan bulan lalu, dikelompokkan
berdasarkan cabang," atau "Berapa banyak penjualan transaksi terjadi di bulan
Desember? "atau" Tenaga penjualan mana yang paling tinggi penjualan?"

Saat mining basis data relasional, kita bisa melangkah lebih jauh dengan
mencari tren atau pola data. Misalnya, sistem mining dapat menganalisis data
pelanggan untuk diprediksi risiko kredit pelanggan baru berdasarkan pendapatan, usia,
dan kredit sebelumnya informasi. Sistem mining juga dapat mendeteksi penyimpangan
— yaitu, item dengan penjualan yang jauh dari yang diharapkan dibandingkan dengan
tahun sebelumnya. Penyimpangan seperti itu kemudian dapat diselidiki lebih lanjut.
Misalnya, mining mungkin menemukan bahwa ada telah terjadi perubahan dalam
pengemasan suatu barang atau kenaikan harga yang signifikan. Database relasional
adalah salah satu informasi yang paling umum tersedia dan terkaya repositori, dan
dengan demikian mereka adalah bentuk data utama dalam studi mining.

Data Mining
2. Data Warehouse
Misalkan AllElectronics adalah perusahaan internasional yang sukses dengan
cabang di sekitar Dunia. Setiap cabang memiliki set databasenya sendiri. Presiden
AllElectronics memiliki meminta Anda untuk memberikan analisis penjualan
perusahaan per jenis barang per cabang untuk kuartal ketiga. Ini adalah tugas yang
sulit, terutama karena data yang relevan tersebar lebih dari beberapa basis data yang
secara fisik terletak di banyak situs. Jika AllElectronics memiliki mining, tugas ini
akan mudah. Mining adalah gudang informasi yang dikumpulkan dari berbagai
sumber, disimpan di bawah satu kesatuan skema, dan biasanya berada di satu situs.

Mining dibangun melalui proses pembersihan data, integrasi data,


transformasi data, pemuatan data, dan berkala menyegarkan data. Gambar 1.6
menunjukkan kerangka kerja umum untuk konstruksi dan penggunaan mining untuk
AllElectronics. Untuk memfasilitasi pengambilan keputusan, data dalam data
warehouse diorganisasikan subjek utama (mis., pelanggan, barang, pemasok, dan
aktivitas).

Data disimpan untuk disediakan informasi dari perspektif sejarah, seperti


dalam 6 hingga 12 bulan terakhir, dan sedang biasanya diringkas. Misalnya, daripada
menyimpan detail setiap transaksi penjualan, data warehouse dapat menyimpan
ringkasan transaksi per jenis barang untuk masing-masing toko atau, dirangkum ke
tingkat yang lebih tinggi, untuk setiap wilayah penjualan. Mining biasanya
dimodelkan oleh struktur data multidimensi, yang disebut data cube, di mana setiap
dimensi sesuai dengan atribut atau sekumpulan atribut dalam skema, dan setiap sel
menyimpan nilai beberapa ukuran agregat seperti jumlah atau jumlah penjualan. Data
cube memberikan tampilan data multidimensi dan memungkinkan precomputation dan
akses cepat dari data yang dirangkum.

Data Mining
Gambar 1.6 Kerangka kerja umum dari data warehouse untuk AllElectronics.

Contoh: Data cube untuk AllElectronics.


Data cube untuk ringkasan data penjualan AllElectronics disajikan pada
Gambar 1.7 (a). Kubus memiliki tiga dimensi: alamat (dengan nilai kota Chicago, New
York, Toronto, Vancouver), waktu (dengan nilai kuartal Q1, Q2, Q3, Q4), dan item
(dengan nilai itemtype hiburan rumah, komputer, telepon, keamanan). Agregat nilai
yang disimpan di setiap sel kubus adalah jumlah penjualan (dalam ribuan). Misalnya
total penjualan untuk kuartal pertama, Q1, untuk barang-barang yang berkaitan dengan
sistem keamanan di Vancouver adalah $ 400.000, seperti yang disimpan di sel
hVancouver, Q1, securityi. Kubus tambahan dapat digunakan untuk menyimpan
jumlah agregat yang lebih tinggi untuk setiap tingkat, sesuai dengan nilai agregat yang
diperoleh dengan menggunakan SQL group-bys yang berbeda (mis., jumlah total
penjualan per kota dan kuartal, atau per kota dan item, atau per kuartal dan item, atau
per setiap dimensi individu).

Dengan memberikan tampilan data multidimensi dan perhitungan awal yang


dirangkum data, sistem mining dapat memberikan dukungan yang melekat untuk
OLAP. Analitik online operasi pemrosesan memanfaatkan latar belakang pengetahuan
tentang domain data yang sedang dipelajari untuk memungkinkan penyajian data pada
berbagai tingkat abstraksi. Operasi semacam itu mengakomodasi sudut pandang
pengguna yang berbeda. Contoh operasi OLAP termasuk drill-down dan roll-up, yang
memungkinkan pengguna untuk melihat data secara berbeda derajat peringkasan,
seperti yang diilustrasikan dalam Gambar 1.7 (b). Misalnya, kita bisa mengebor turun
pada data penjualan yang diringkas per kuartal untuk melihat data yang diringkas
berdasarkan bulan.

Data Mining
Demikian pula, kita dapat menggulung data penjualan yang dirangkum oleh
kota untuk melihat data yang dirangkum oleh negara. Meskipun alat mining membantu
mendukung analisis data, alat tambahan untuk mining sering dibutuhkan untuk analisis
mendalam. Mining multidimensi (juga disebut mining multidimensi eksplorasi)
melakukan mining di Indonesia barang yang sering dijual bersama.

Gambar 1.7. Data Cube multidimensi, yang biasa digunakan untuk pergudangan data, (a)
menunjukkan ringkasannya data untuk AllElectronics dan (b) menampilkan data yang diringkas
yang dihasilkan dari drill-down dan operasi roll-up pada kubus di (a). Untuk meningkatkan
keterbacaan, hanya beberapa sel kubus nilai ditampilkan. (Jiaweii Han, 2011, Hal: 12)

3. Data Transaksional
Secara umum, setiap catatan dalam basis data transaksional menangkap
transaksi, seperti pembelian pelanggan, pemesanan penerbangan, atau klik

Data Mining
pengguna pada halaman web. Suatu transaksi biasanya termasuk nomor identitas
transaksi unik (ID trans) dan daftar barang mengarang transaksi, seperti barang
yang dibeli dalam transaksi. Transaksional database mungkin memiliki tabel
tambahan, yang berisi informasi lain yang terkait untuk transaksi, seperti deskripsi
item, informasi tentang tenaga penjualan atau cabang, dan sebagainya.
Contoh 1.4 Basis data transaksional untuk AllElectronics.

Transaksi dapat disimpan dalam sebuah tabel, dengan satu catatan per
transaksi. Sebuah fragmen dari basis data transaksional untuk AllElectronics adalah
ditunjukkan pada Gambar 1.8. Dari sudut pandang basis data relasional, tabel
penjualan di gambar adalah relasi bersarang karena daftar atribut ID item berisi
sekumpulan item. Karena sebagian besar sistem database relasional tidak
mendukung struktur relasional bersarang, database transaksional biasanya disimpan
dalam file flat dalam format yang mirip tabel pada Gambar 1.8 atau dibuka menjadi
relasi standar dalam format yang mirip dengan tabel item terjual pada Gambar 1.5.
Sebagai seorang analis dari AllElectronics, Anda mungkin bertanya, "Barang mana
yang laris manis?" jenis analisis data keranjang pasar akan memungkinkan Anda
untuk menyatukan kelompok item bersama-sama sebagai strategi untuk
meningkatkan penjualan. Misalnya, diberi pengetahuan tentang printer biasanya
dibeli bersama dengan komputer, Anda dapat menawarkan printer tertentu di
diskon besar (atau bahkan gratis) bagi pelanggan yang membeli komputer tertentu,
dengan harapan menjual lebih banyak komputer (yang seringkali lebih mahal
daripada printer). Tradisional sistem basis data tidak dapat melakukan analisis data
keranjang pasar. Untung, penggalian data pada data transaksional dapat
melakukannya dengan mining item yang sering, yaitu set
barang yang sering dijual bersama.

Gambar 1.8 Fragmen dari basis data transaksional untuk penjualan di AllElectronics. (Jiawei
Han, 2011, Hal: 13).

Data Mining
3. Jenis-Jenis Data pada Mining

Selain data basis data relasional, data data warehouse, dan data transaksi, ada banyak
jenis data lain yang memiliki bentuk dan struktur serbaguna dan agak berbeda makna
semantik. Jenis data seperti itu dapat dilihat di banyak aplikasi: terkait waktu atau
mengurutkan data (mis., catatan historis, data bursa, dan seri waktu dan biologis) data
urutan), aliran data (mis., video pengawasan dan data sensor, yaitu terus ditransmisikan),
data spasial (mis., peta), data desain teknik (mis., data desain bangunan, komponen sistem,
atau sirkuit terpadu), hiperteks dan multimedia data (termasuk data teks, gambar, video, dan
audio), grafik dan data jaringan (mis., jaringan sosial dan informasi), dan Web (informasi
yang sangat besar dan tersebar luas repositori disediakan oleh Internet). Aplikasi ini
menghadirkan hal baru tantangan, seperti bagaimana menangani data yang membawa
struktur khusus (mis., urutan, pohon, grafik, dan jaringan) dan semantik tertentu (seperti
pemesanan, gambar, audio dan video konten, dan konektivitas), dan cara mining pola yang
membawa struktur kaya dan semantik.

Berbagai macam pengetahuan dapat ditambang dari jenis data ini. Di sini, kami daftar
hanya sedikit. Mengenai data sementara, misalnya, kita dapat mining data perbankan untuk
diubah tren, yang dapat membantu dalam penjadwalan teller bank sesuai dengan volume lalu
lintas pelanggan. Data bursa dapat ditambang untuk mengungkap tren yang bisa membantu
Anda merencanakan strategi investasi (mis., waktu terbaik untuk membeli saham
AllElectronics). Kita dapat mining aliran data jaringan komputer untuk mendeteksi intrusi
berdasarkan anomali aliran pesan, yang dapat ditemukan dengan pengelompokan, konstruksi
dinamis aliran model atau dengan membandingkan pola sering saat ini dengan yang ada di
waktu sebelumnya. Dengan data spasial, kita dapat mencari pola yang menggambarkan
perubahan di metropolitan tingkat kemiskinan berdasarkan jarak kota dari jalan raya utama.
Hubungan antara satu set objek spasial dapat diperiksa untuk menemukan subset objek yang
mana secara autokorelasi atau terkait secara spasial. Dengan mining data teks, seperti
literatur tentang mining dari sepuluh tahun terakhir, kita dapat mengidentifikasi evolusi
topik hangat di lapangan. Oleh mining komentar pengguna tentang produk (yang sering
dikirimkan sebagai pesan singkat), kami dapat menilai sentimen pelanggan dan memahami
seberapa baik suatu produk dianut sebuah pasar. Dari data multimedia, kita dapat mining
gambar untuk mengidentifikasi objek dan mengklasifikasikan mereka dengan menetapkan
label atau tag semantik. Dengan mining data video dari permainan hoki, kami dapat
mendeteksi urutan video yang sesuai dengan sasaran. Mining web dapat membantu kami
mempelajari distribusi informasi di WWW secara umum, mencirikan dan
mengklasifikasikan web halaman, dan mengungkap dinamika web dan asosiasi serta
hubungan lainnya di antara halaman web yang berbeda, pengguna, komunitas, dan aktivitas
berbasis web.

Data Mining
Penting untuk diingat bahwa, dalam banyak aplikasi, berbagai jenis data hadir Misalnya,
dalam mining web, sering ada data teks dan multimedia data (mis., gambar dan video) di
laman web, data grafik seperti grafik web, dan peta data di beberapa situs web. Dalam
bioinformatika, sekuens genom, jaringan biologis, dan Struktur spasial 3-D genom dapat
hidup berdampingan untuk objek biologis tertentu. Pertambangan berbagai sumber data dari
data yang kompleks sering kali menghasilkan temuan yang bermanfaat karena saling
menguntungkan peningkatan dan konsolidasi berbagai sumber seperti itu. Di sisi lain, itu
juga menantang karena kesulitan dalam pembersihan data dan integrasi data, serta interaksi
yang kompleks di antara berbagai sumber data tersebut. Sementara data tersebut
membutuhkan fasilitas canggih untuk penyimpanan, pengambilan, dan memperbarui,
mereka juga menyediakan lahan subur dan meningkatkan penelitian dan implementasi yang
menantang masalah untuk mining.

4. Pola Mining

Ada sejumlah fungsi mining. Ini termasuk karakterisasi dan diskriminasi; mining pola
yang sering, asosiasi, dan korelasi; klasifikasi dan regresi; analisis pengelompokan; dan
analisis outlier. Fungsi mining adalah digunakan untuk menentukan jenis pola yang dapat
ditemukan dalam tugas-tugas mining. Secara umum, seperti itu tugas dapat diklasifikasikan
ke dalam dua kategori: deskriptif dan prediktif. Mining deskriptif tugas mengkarakterisasi
properti data dalam kumpulan data target. Tugas mining prediktif melakukan induksi pada
data saat ini untuk membuat prediksi.
Fungsionalitas mining, dan jenis pola yang dapat mereka temukan, dijelaskan di bawah.
Selain itu, melihat apa yang membuat suatu pola menarik. Menarik pola mewakili
pengetahuan.

1. Deskripsi Kelas / Konsep: Karakterisasi dan Diskriminasi

Entri data dapat dikaitkan dengan kelas atau konsep. Misalnya, di AllElectronics
toko, kelas barang yang dijual termasuk komputer dan printer, dan konsep pelanggan
termasuk bigSpenders dan budgetSpenders. Dapat bermanfaat untuk menggambarkan
kelas individu dan konsep dalam hal yang diringkas, ringkas, dan tepat. Deskripsi kelas
seperti itu atau suatu konsep disebut deskripsi konsep / kelas. Deskripsi ini dapat
diturunkan menggunakan (1) karakterisasi data, dengan merangkum data kelas yang
diteliti (sering kali disebut kelas target) secara umum, atau (2) diskriminasi data, dengan
perbandingan kelas target dengan satu atau satu set kelas komparatif (sering disebut
kontras kelas), atau (3) karakterisasi data dan diskriminasi. Karakterisasi data adalah
ringkasan karakteristik atau fitur umum dari kelas target data. Data yang sesuai dengan
kelas yang ditentukan pengguna biasanya dikumpulkan oleh kueri. Misalnya, untuk

Data Mining
mempelajari karakteristik produk perangkat lunak dengan penjualan yang meningkat
10% di tahun sebelumnya, data yang terkait dengan produk tersebut bisa dikumpulkan
dengan mengeksekusi query SQL pada database penjualan.

Ada beberapa metode untuk peringkasan dan karakterisasi data yang efektif.
Operasi roll-up OLAP berbasis data cube (Bagian 3.2) dapat digunakan untuk
melakukan peringkasan data yang dikontrol pengguna sepanjang dimensi yang
ditentukan. Sebuah teknik induksi yang berorientasi atribut dapat digunakan untuk
melakukan generalisasi data dan karakterisasi tanpa interaksi pengguna langkah demi
langkah.

Output dari karakterisasi data dapat disajikan dalam berbagai bentuk. Contohnya
termasuk diagram lingkaran, diagram batang, kurva, data cube multidimensi, dan
multidimensi tabel, termasuk tab silang. Deskripsi yang dihasilkan juga dapat disajikan
sebagai hubungan umum atau dalam bentuk aturan (disebut aturan karakteristik).

Contoh: Karakterisasi data.

Manajer hubungan pelanggan di AllElectronics dapat memesan tugas mining


berikut: Ringkas karakteristik pelanggan yang menghabiskan lebih banyak dari $ 5000
setahun di AllElectronics. Hasilnya adalah profil umum dari para pelanggan ini, seperti
mereka berusia 40 hingga 50 tahun, bekerja, dan memiliki peringkat kredit yang sangat
baik. Itu sistem mining harus memungkinkan manajer hubungan pelanggan untuk
menelusuri dimensi apa pun, seperti pada pekerjaan untuk melihat pelanggan ini sesuai
dengan jenisnya pekerjaan.

Diskriminasi data adalah perbandingan fitur umum dari data kelas target objek
terhadap fitur umum objek dari satu atau beberapa kelas yang kontras. Kelas target dan
kontras dapat ditentukan oleh pengguna, dan yang sesuai objek data dapat diambil
melalui kueri basis data. Misalnya, pengguna mungkin ingin bandingkan fitur umum
produk perangkat lunak dengan penjualan yang meningkat 10% terakhir tahun terhadap
mereka yang penjualannya menurun setidaknya 30% selama periode yang sama. Itu
metode yang digunakan untuk diskriminasi data mirip dengan yang digunakan untuk
karakterisasi data. "Bagaimana deskripsi diskriminasi dihasilkan?" Bentuk-bentuk
presentasi output mirip dengan deskripsi karakteristik, meskipun deskripsi diskriminasi
harus mencakup langkah-langkah komparatif yang membantu membedakan antara
target dan kelas yang kontras. Deskripsi diskriminasi dinyatakan dalam bentuk aturan
disebut sebagai aturan diskriminatif.

Data Mining
Contoh: Diskriminasi data.

Seorang manajer hubungan pelanggan di AllElectronics mungkin ingin


bandingkan dua kelompok pelanggan — mereka yang berbelanja produk komputer
secara teratur (mis., lebih dari dua kali sebulan) dan mereka yang jarang berbelanja
untuk produk semacam itu (mis., kurang dari tiga kali setahun). Deskripsi yang
dihasilkan memberikan perbandingan umum profil pelanggan ini, misalnya 80%
pelanggan yang sering membeli produk komputer berusia antara 20 dan 40 tahun dan
memiliki pendidikan universitas, sedangkan 60% dari pelanggan yang jarang membeli
produk tersebut adalah senior atau pemuda, dan tidak memiliki gelar sarjana. Mengebor
pada dimensi seperti pekerjaan, atau menambahkan dimensi baru seperti tingkat
pendapatan, dapat membantu menemukan yang lebih diskriminatif fitur antara dua
kelas.

2. Pola, Asosiasi, dan Pola Korelasi Frekuensi


Pola yang sering, seperti namanya, adalah pola yang sering terjadi dalam data.
Ada banyak jenis pola frekuensi, termasuk set item yang sering, urutan berikutnya (Juga
dikenal sebagai pola berurutan), dan substruktur yang sering. Sering itemset biasanya
mengacu pada satu set item yang sering muncul bersama dalam suatu transaksi
kumpulan data — misalnya, susu dan roti, yang sering dibeli bersama di toko bahan
makanan toko oleh banyak pelanggan. Urutan yang sering terjadi, seperti pola bahwa
pelanggan, cenderung membeli pertama laptop, diikuti oleh kamera digital, dan
kemudian kartu memori, adalah pola berurutan (sering). Substruktur dapat merujuk ke
yang berbeda bentuk struktural (mis., grafik, pohon, atau kisi) yang dapat digabungkan
dengan itemset atau sesudahnya. Jika suatu substruktur sering terjadi, itu disebut
(sering) terstruktur pola. Mining pola yang sering mengarah pada penemuan asosiasi
yang menarik dan korelasi dalam data.

Contoh: Analisis asosiasi.


Misalkan, sebagai manajer pemasaran di AllElectronics, Anda inginkan untuk
mengetahui item mana yang sering dibeli bersama (mis., dalam transaksi yang sama).
Contoh dari aturan semacam itu, yang ditambang dari basis data transaksional
AllElectronics, adalah

di mana X adalah variabel yang mewakili pelanggan. Kepercayaan, atau kepastian,


sebesar 50% berarti bahwa jika pelanggan membeli komputer, ada kemungkinan 50%
bahwa dia akan membeli perangkat lunak juga. Dukungan 1% berarti 1% dari semua
transaksi yang dianalisis menunjukkan bahwa komputer dan perangkat lunak dibeli

Data Mining
bersama. Aturan asosiasi ini melibatkan atribut tunggal atau predikat (mis., membeli)
yang berulang. Aturan asosiasi yang mengandung predikat tunggal disebut sebagai
aturan asosiasi satu dimensi. Menjatuhkan predikat notasi, aturan dapat ditulis hanya
sebagai perangkat lunak “computer )software [1%, 50%].” Misalkan, sebaliknya, kita
diberi database relasional AllElectronics terkait pembelian. Sistem mining dapat
menemukan aturan asosiasi seperti

age.X, “20..29”/^income.X, “40K..49K”/)buys.X, “laptop”/ [support D 2%, confidence


D 60%].
Aturan menunjukkan bahwa dari pelanggan AllElectronics yang diteliti, 2% adalah 20
hingga 29 tahun tua dengan penghasilan $ 40.000 hingga $ 49.000 dan telah membeli
laptop (komputer) di AllElectronics. Ada kemungkinan 60% bahwa pelanggan di usia
dan pendapatan ini grup akan membeli laptop. Perhatikan bahwa ini adalah asosiasi
yang melibatkan lebih dari satu atribut atau predikat (mis., usia, pendapatan, dan
pembelian). Mengadopsi terminologi yang digunakan di database multidimensi, di mana
setiap atribut disebut sebagai dimensi, aturan di atas dapat disebut sebagai aturan
asosiasi multidimensi.
Biasanya, aturan asosiasi dibuang sebagai tidak menarik jika tidak memenuhi keduanya
ambang dukungan minimum dan ambang kepercayaan minimum. Analisis tambahan
dapat dilakukan untuk mengungkap korelasi statistik yang menarik antara yang terkait
pasangan atribut-nilai. Mining itemset yang sering adalah bentuk mendasar dari mining
pola yang sering.

3. Klasifikasi dan Regresi untuk Analisis Prediktif


Klasifikasi adalah proses menemukan model (atau fungsi) yang
menggambarkan dan membedakan kelas atau konsep data. Model diturunkan
berdasarkan analisis satu set data pelatihan (mis., objek data yang label kelasnya
diketahui). Model ini digunakan untuk memprediksi label kelas objek yang label
kelasnya tidak diketahui. "Bagaimana model yang diturunkan disajikan?" Model yang
diturunkan dapat diwakili dalam berbagai formulir, seperti aturan klasifikasi (mis.,
aturan IF-THEN), decision tree, matematika formula, atau neural network (Gambar
1.9). Keputusan pengadilan adalah struktur pohon seperti diagram alur, di mana setiap
node menunjukkan tes pada nilai atribut, masing-masing cabang mewakili hasil tes, dan
daun pohon mewakili kelas atau distribusi kelas.

Decision tree dapat dengan mudah ikonversi ke aturan klasifikasi. Jaringan


saraf, ketika digunakan untuk klasifikasi, biasanya koleksi unit pemrosesan seperti
neuron dengan koneksi tertimbang antara unit. Ada banyak metode lain untuk

Data Mining
membangun model klasifikasi, seperti Klasifikasi Naïve Bayesian, mesin dukungan
vektor, dan klasifikasi k-near-neighbour. Sedangkan klasifikasi memprediksi label
kategori (diskrit, tidak berurutan), regresi memodelkan fungsi bernilai kontinu. Artinya,
regresi digunakan untuk memprediksi hilang atau nilai data numerik yang tersedia tidak
tersedia daripada label (diskrit) kelas. Istilah prediksi mengacu pada prediksi numerik
dan prediksi label kelas. Analisis regresi adalah metodologi statistik yang paling sering
digunakan untuk prediksi numerik, meskipun lainnya metode juga ada. Regresi juga
mencakup identifikasi distribusi tren berdasarkan data yang tersedia. Klasifikasi dan
regresi mungkin perlu didahului oleh analisis relevansi, yang upaya untuk
mengidentifikasi atribut yang secara signifikan relevan dengan klasifikasi dan proses
regresi. Atribut tersebut akan dipilih untuk klasifikasi dan regresi proses. Atribut lain,
yang tidak relevan, kemudian dapat dikecualikan dari pertimbangan.

Gambar 1.9. Model klasifikasi dapat direpresentasikan dalam berbagai bentuk: (a)
aturan IF -THEN, (b) decision tree, atau (c) neural networks.
Contoh: Klasifikasi dan regresi.
Misalkan sebagai manajer penjualan AllElectronics yang Anda inginkan
mengklasifikasikan sejumlah besar item di toko, berdasarkan tiga jenis respons terhadap
kampanye penjualan: respons baik, respons ringan, dan tanpa respons. Anda ingin
mendapatkan model untuk masing-masing model dari tiga kelas ini berdasarkan fitur
deskriptif dari barang-barang, seperti harga, merek, tempat dibuat, jenis, dan kategori.
Klasifikasi yang dihasilkan harus secara maksimal membedakan masing-masing kelas
dari yang lain, menyajikan gambar yang terorganisir dari kumpulan data. Misalkan
klasifikasi yang dihasilkan dinyatakan sebagai pohon keputusan. Keputusan pohon,
misalnya, dapat mengidentifikasi harga sebagai faktor tunggal yang paling membedakan

Data Mining
tiga kelas. Pohon dapat mengungkapkan bahwa, selain harga, fitur lain yang membantu
selanjutnya membedakan objek dari masing-masing kelas dari yang lain termasuk
merek dan tempat dibuat. Pohon keputusan semacam itu dapat membantu Anda
memahami dampak dari kampanye penjualan yang diberikan dan merancang kampanye
yang lebih efektif di masa depan. Misalkan sebaliknya, daripada memprediksi label
respons kategoris untuk setiap toko item, Anda ingin memprediksi jumlah pendapatan
yang akan dihasilkan setiap item selama penjualan mendatang di AllElectronics,
berdasarkan pada data penjualan sebelumnya. Ini adalah sebuah contoh analisis regresi
karena model regresi yang dibangun akan memprediksi fungsi kontinu (atau nilai yang
dipesan.)

4 Analisis Cluster
Tidak seperti klasifikasi dan regresi, yang menganalisis kumpulan data
berlabel kelas (pelatihan), clustering menganalisis objek data tanpa berkonsultasi
dengan label kelas. Dalam banyak kasus, diberi label kelas data mungkin tidak ada di
awal. Clustering dapat digunakan untuk menghasilkan label kelas untuk sekelompok
data. Objek dikelompokkan atau dikelompokkan berdasarkan prinsip memaksimalkan
kemiripan intraclass dan meminimalkan kemiripan antar kelas. Itu adalah, cluster objek
dibentuk sehingga objek dalam sebuah cluster memiliki kesamaan tinggi dibandingkan
satu sama lain, tetapi agak berbeda dengan objek di cluster lain. Setiap cluster jadi
terbentuk dapat dilihat sebagai kelas objek, dari mana aturan dapat diturunkan.
Clustering juga dapat memfasilitasi pembentukan taksonomi, yaitu, organisasi
pengamatan ke dalam hierarki kelas yang mengelompokkan acara serupa bersama-sama.

Gambar 1.10. Plot 2-D data pelanggan berkenaan dengan lokasi pelanggan di kota, menunjukkan
tiga data kelompok.

Data Mining
Contoh 1.9 Analisis cluster.
Analisis cluster dapat dilakukan pada data pelanggan AllElectronics
mengidentifikasi subpopulasi yang homogen dari pelanggan. Cluster ini dapat mewakili
individu kelompok sasaran untuk pemasaran. Gambar 1.10 menunjukkan plot 2-D
pelanggan dengan menghormati lokasi pelanggan di kota. Tiga kelompok titik data
jelas.

5. Analisis Outlier
Kumpulan data dapat berisi objek yang tidak sesuai dengan perilaku atau
model umum dari data. Objek data ini adalah outlier. Banyak metode mining membuang
pencilan sebagai kebisingan atau pengecualian. Namun, di beberapa aplikasi (mis.,
Deteksi penipuan) jarang terjadi peristiwa bisa lebih menarik daripada yang lebih
sering terjadi. Analisis data outlier disebut sebagai analisis outlier atau mining anomali.
Pencilan dapat dideteksi menggunakan uji statistik yang mengasumsikan distribusi atau
probabilitas model untuk data, atau menggunakan pengukuran jarak tempat objek yang
jauh dari cluster lain dianggap outlier. Daripada menggunakan ukuran statistik atau
jarak, metode berbasis kepadatan dapat mengidentifikasi outlier di wilayah lokal,
meskipun terlihat normal dari tampilan distribusi statistik global.
Contoh 1.10 Analisis pencilan.
Analisis outlier dapat mengungkap penipuan penggunaan kartu kredit oleh
mendeteksi pembelian dalam jumlah besar yang luar biasa untuk jumlah akun tertentu
sebagai perbandingan untuk biaya reguler yang dikeluarkan oleh akun yang sama. Nilai
outlier juga dapat dideteksi sehubungan dengan lokasi dan jenis pembelian, atau
frekuensi pembelian.

6. Apakah Semua Pola Menarik?


Sistem mining berpotensi menghasilkan ribuan atau bahkan jutaan pola, atau
aturan. Anda mungkin bertanya, “Apakah semua polanya menarik?” Biasanya,
jawabannya tidak — hanya sebagian kecil dari pola yang berpotensi dihasilkan
sebenarnya akan menarik bagi a diberikan pengguna. Ini menimbulkan beberapa
pertanyaan serius untuk mining. Anda mungkin bertanya-tanya, “Apa yang membuat a
pola yang menarik? Bisakah sistem mining menghasilkan semua pola yang menarik?
Atau, Bisakah sistem hanya menghasilkan yang menarik? ” Untuk menjawab
pertanyaan pertama, sebuah pola menarik jika (1) mudah dipahami manusia, (2) valid
pada data baru atau uji dengan tingkat kepastian tertentu, (3) berpotensi berguna, dan

Data Mining
(4) novel. Sebuah pola juga menarik jika memvalidasi hipotesis bahwa pengguna
berusaha mengonfirmasi. Pola yang menarik mewakili pengetahuan. Ada beberapa
ukuran obyektif dari ketertarikan pola. Ini didasarkan pada struktur pola yang
ditemukan dan statistik yang mendasarinya. Sebuah tujuan ukuran untuk aturan asosiasi
dari formulir X) Y adalah dukungan aturan, mewakili persentase transaksi dari database
transaksi yang memenuhi aturan yang diberikan. Ini adalah diambil sebagai probabilitas
P.X [Y /, di mana X [Y menunjukkan bahwa transaksi berisi baik X dan Y, yaitu
penyatuan itemset X dan Y. Ukuran obyektif lain untuk aturan asosiasi adalah
kepercayaan, yang menilai tingkat kepastian yang terdeteksi asosiasi. Ini dianggap
sebagai probabilitas bersyarat P.YjX), yaitu probabilitas bahwa transaksi yang
mengandung X juga mengandung Y. Lebih formal, mendukung dan kepercayaan
didefinisikan sebagai:

support.X )Y/ D P.X [Y/,


confidence.X )Y/ D P.YjX/.

Secara umum, setiap ukuran ketertarikan dikaitkan dengan ambang, yang


mungkin dikontrol oleh pengguna. Misalnya, aturan yang tidak memenuhi ambang batas
kepercayaan, katakanlah, 50% dapat dianggap tidak menarik. Aturan di bawah ambang
batas kemungkinan mencerminkan kebisingan, pengecualian, atau kasus minoritas dan
mungkin kurang bernilai. Ukuran ketertarikan obyektif lainnya termasuk akurasi dan
cakupan untuk klasifikasi (IF-THEN) aturan.

Secara umum, akurasi memberi tahu kami persentase data yang ada
diklasifikasikan dengan benar berdasarkan aturan. Cakupan mirip dengan dukungan,
karena memberi tahu kami persentase data yang aturannya berlaku. Mengenai
pemahaman, kami dapat menggunakan sederhana langkah-langkah obyektif yang
menilai kompleksitas atau panjang dalam bit dari pola yang ditambang. Meskipun
langkah-langkah obyektif membantu mengidentifikasi pola yang menarik, mereka
sering tidak memadai kecuali jika dikombinasikan dengan tindakan subjektif yang
mencerminkan kebutuhan pengguna tertentu dan minat. Misalnya, pola yang
menggambarkan karakteristik pelanggan yang berbelanja sering di AllElectronics harus
menarik bagi manajer pemasaran, tetapi mungkin tidak terlalu menarik bagi analis lain
yang mempelajari basis data yang sama untuk pola pada karyawan kinerja. Selain itu,
banyak pola yang menarik dengan standar objektif dapat mewakili akal sehat dan, oleh
karena itu, sebenarnya tidak menarik. Ukuran ketertarikan subyektif didasarkan pada
keyakinan pengguna dalam data. Ini tindakan menemukan pola yang menarik jika
polanya tidak terduga (bertentangan dengan pengguna kepercayaan) atau menawarkan

Data Mining
informasi strategis di mana pengguna dapat bertindak. Dalam kasus terakhir, seperti itu
polanya disebut sebagai tindakan. Misalnya, pola-pola seperti “gempa bumi besar sering
mengikuti sekelompok gempa kecil ”mungkin sangat dapat ditindaklanjuti jika
pengguna dapat bertindak atas informasi untuk menyelamatkan nyawa. Pola yang
diharapkan bisa menarik jika mereka mengkonfirmasi hipotesis bahwa pengguna ingin
memvalidasi atau mereka menyerupai firasat pengguna.

Pertanyaan kedua— "Bisakah sistem mining menghasilkan semua pola yang


menarik?" - mengacu pada kelengkapan algoritma mining. Itu sering tidak realistis dan
tidak efisien untuk sistem mining untuk menghasilkan semua pola yang mungkin. Alih-
alih, disediakan pengguna kendala dan langkah-langkah menarik harus digunakan untuk
memfokuskan pencarian. Untuk beberapa tugas mining, seperti asosiasi, ini seringkali
cukup untuk memastikan kelengkapannya dari algoritma. Asosiasi aturan mining adalah
contoh di mana penggunaan kendala dan tindakan menarik dapat memastikan
kelengkapan mining.

Akhirnya, pertanyaan ketiga— "Bisakah sistem mining hanya menghasilkan


pola yang menarik?" - adalah masalah optimisasi dalam mining. Sangat diinginkan
untuk data sistem mining hanya menghasilkan pola yang menarik. Ini akan efisien bagi
pengguna dan sistem mining karena tidak ada yang harus mencari melalui pola yang
dihasilkan untuk mengidentifikasi yang benar-benar menarik. Kemajuan telah dibuat ke
arah ini; Namun, pengoptimalan tersebut tetap menjadi masalah yang menantang dalam
mining. Ukuran ketertarikan pola sangat penting untuk penemuan pola yang efisien oleh
pengguna target. Langkah-langkah tersebut dapat digunakan setelah langkah mining
untuk menentukan peringkat yang ditemukan pola menurut ketertarikannya, menyaring
yang tidak menarik. Lebih penting lagi, tindakan tersebut dapat digunakan untuk
memandu dan membatasi proses penemuan, meningkatkan efisiensi pencarian dengan
memangkas himpunan bagian dari ruang pola itu tidak memenuhi kendala ketertarikan
yang ditentukan sebelumnya.

6. Teknologi pada Mining


Sebagai domain yang digerakkan oleh aplikasi, mining telah memasukkan banyak
Teknik dari domain lain seperti statistik, pembelajaran mesin, pengenalan pola, database dan
sistem mining, pencarian informasi, visualisasi, algoritma, kinerja tinggi komputasi, dan
banyak domain aplikasi (Gambar 1.11). Antar disiplin ilmu sifat mining, penelitian dan
pengembangan berkontribusi secara signifikan terhadap keberhasilan mining dan aplikasi
yang luas. Di bagian ini, kami memberikan contoh dari beberapa disiplin ilmu yang sangat
mempengaruhi pengembangan metode mining.

Data Mining
a. Statistik
Statistik mempelajari pengumpulan, analisis, interpretasi atau penjelasan, dan
presentasi data. Mining memiliki koneksi yang melekat dengan statistik. Model statistik
adalah seperangkat fungsi matematika yang menggambarkan perilaku objek dalam kelas
target dalam hal variabel acak dan probabilitas yang terkait distribusi. Model statistik
banyak digunakan untuk memodelkan data dan kelas data. Misalnya, dalam tugas-tugas
mining seperti karakterisasi dan klasifikasi data, statistik
model kelas target dapat dibangun. Dengan kata lain, model statistik tersebut dapat
menjadi hasil dari tugas mining. Atau, tugas-tugas mining dapat dibangun di atas model
statistik. Misalnya, kita dapat menggunakan statistik untuk memodelkan noise dan data
yang hilang nilai-nilai. Kemudian, saat pola mining dalam kumpulan data besar, proses
mining dapat digunakan model untuk membantu mengidentifikasi dan menangani nilai
berisik atau hilang dalam data.

Gambar 1.11 Mining mengadopsi teknik dari banyak domain.

Penelitian statistik mengembangkan alat untuk prediksi dan peramalan menggunakan data dan
statistik model. Metode statistik dapat digunakan untuk meringkas atau menggambarkan koleksi
data. Statistik adalah berguna untuk mining berbagai pola dari data serta untuk memahami yang
mendasarinya mekanisme yang menghasilkan dan mempengaruhi pola. Statistik inferensial
(atau prediksi statistik) memodelkan data dengan cara yang memperhitungkan keacakan dan
ketidakpastian dalam pengamatan dan digunakan untuk menarik kesimpulan tentang proses atau
populasi di bawah penyelidikan. Metode statistik juga dapat digunakan untuk memverifikasi
hasil mining. Misalnya setelah model klasifikasi atau prediksi ditambang, model tersebut harus
diverifikasi secara statistik pengujian hipotesis.
Tes hipotesis statistik (kadang-kadang disebut data konfirmasi) analisis membuat keputusan
statistik menggunakan data eksperimen. Hasilnya disebut secara statistik signifikan jika tidak
mungkin terjadi secara kebetulan. Jika klasifikasi atau prediksi Model berlaku, maka statistik

Data Mining
deskriptif model meningkatkan kesehatan model. Menerapkan metode statistik dalam mining
jauh dari sepele. Seringkali, tantangan serius adalah bagaimana meningkatkan metode statistik
pada set data yang besar. Banyak statistik metode memiliki kompleksitas tinggi dalam
perhitungan. Ketika metode tersebut diterapkan pada set data besar yang juga didistribusikan di
banyak situs logis atau fisik, algoritma harus dirancang dan disetel dengan cermat untuk
mengurangi biaya komputasi. Tantangan ini menjadi lebih sulit untuk aplikasi online, seperti
saran permintaan online di mesin pencari, di mana mining diperlukan untuk terus menangani
secara cepat, waktu nyata aliran data.

b. Machine Learning
Machine learning menyelidiki bagaimana komputer dapat belajar (atau
meningkatkan kinerjanya) berdasarkan data. Area penelitian utama adalah untuk
program komputer untuk secara otomatis belajar mengenali pola yang rumit dan
membuat keputusan cerdas berdasarkan data. Misalnya, Masalah machine learning yang
umum adalah memprogram komputer sehingga dapat secara otomatis mengenali kode
pos tulisan tangan pada surat setelah belajar dari serangkaian contoh.
Pembelajaran mesin adalah disiplin yang tumbuh cepat. Di sini, kami menggambarkan
masalah klasik machine learning yang sangat terkait dengan mining.
• Supervised Learning pada dasarnya adalah sinonim untuk klasifikasi. Supervised
Learning berasal dari contoh yang diberi label dalam kumpulan data pelatihan.
Misalnya, dalam masalah pengenalan kode pos, satu set gambar kode pos tulisan
tangan dan terjemahan yang sesuai dengan mesin yang digunakan digunakan
sebagai contoh pelatihan, yang mengawasi pembelajaran model klasifikasi.
• Unsupervised learning pada dasarnya adalah sinonim untuk pengelompokan. Proses
unsupervised learning karena contoh input tidak diberi label kelas. Biasanya, kita
dapat menggunakan pengelompokan untuk menemukan kelas dalam data. Misalnya,
unsupervised learning metode dapat mengambil, sebagai input, satu set gambar
digit tulisan tangan. Misalkan ia menemukan 10 kelompok data. Cluster ini dapat
sesuai dengan 10 digit 0 hingga 9, masing-masing. Namun, karena data pelatihan
tidak diberi label, model yang dipelajari tidak dapat memberi tahu kami arti
semantik dari gugus yang ditemukan.
• Semi-supervised learning adalah kelas teknik pembelajaran mesin yang
memanfaatkan contoh berlabel dan tidak berlabel saat mempelajari model. Dalam
satu pendekatan, contoh berlabel digunakan untuk mempelajari model kelas dan
contoh yang tidak berlabel digunakan untuk itu perbaiki batas antar kelas. Untuk
masalah dua kelas, kita dapat memikirkannya set contoh milik satu kelas sebagai
contoh positif dan milik mereka ke kelas lain sebagai contoh negatif. Pada Gambar
1.12, jika kita tidak mempertimbangkan contoh tidak berlabel, garis putus-putus

Data Mining
adalah batas keputusan yang partisi terbaik contoh positif dari contoh negatif.
Menggunakan contoh yang tidak berlabel, kita dapat memperbaiki batas keputusan
ke garis yang solid. Apalagi kita bisa mendeteksi itu dua contoh positif di sudut
kanan atas, meskipun berlabel, kemungkinan berisik atau pencilan.
• Active learning adalah pendekatan pembelajaran mesin yang memungkinkan
pengguna memainkan peran aktif dalam proses pembelajaran. Pendekatan
pembelajaran aktif dapat meminta pengguna (mis., Domain ahli) untuk memberi
label contoh, yang mungkin dari satu set contoh yang tidak berlabel atau disintesis
oleh program pembelajaran. Tujuannya adalah untuk mengoptimalkan kualitas
model dengan aktif memperoleh pengetahuan dari pengguna manusia, diberi
batasan pada berapa banyak contoh-contoh yang bisa mereka tanyakan.

Gambar 1.12. Semi-supervised learning.


Anda dapat melihat ada banyak kesamaan antara mining dan machine learning.
Untuk tugas klasifikasi dan pengelompokan, penelitian machine learning sering
berfokus pada akurasi model. Selain akurasi, tempat penelitian mining kuat
penekanan pada efisiensi dan skalabilitas metode mining pada kumpulan data besar,
juga seperti pada cara-cara untuk menangani tipe data yang kompleks dan
mengeksplorasi metode alternatif baru.

c. Sistem Basis Data dan Mining


Penelitian sistem basis data berfokus pada pembuatan, pemeliharaan, dan
penggunaan basis data untuk organisasi dan pengguna akhir. Terutama, peneliti
sistem basis data telah dibentuk prinsip yang sangat dikenal dalam model data,
bahasa permintaan, pemrosesan permintaan dan metode pengoptimalan,
penyimpanan data, serta metode pengindeksan dan pengaksesan. Basis data sistem
sering dikenal dengan skalabilitas tinggi dalam pemrosesan sangat besar, relatif set
data terstruktur. Banyak tugas penggalian data perlu menangani kumpulan data

Data Mining
besar atau bahkan streaming cepat secara real-time data. Oleh karena itu, mining
dapat memanfaatkan teknologi basis data yang dapat diskalakan mencapai efisiensi
tinggi dan skalabilitas pada set data besar. Terlebih lagi, tugas mining dapat
digunakan untuk memperluas kemampuan sistem basis data yang ada untuk
memuaskan pengguna tingkat lanjut persyaratan analisis data yang canggih. Sistem
basis data terbaru telah membangun kemampuan analisis data sistematis pada basis
data data menggunakan data pergudangan dan fasilitas mining. Mining terintegrasi
data yang berasal dari berbagai sumber dan berbagai kerangka waktu. Ini
mengkonsolidasikan data dalam ruang multidimensi untuk membentuk data cube
yang sebagian terwujud. Data cube model tidak hanya memfasilitasi OLAP dalam
database multidimensi tetapi juga mempromosikan data multidimensi mining.

d. Information Retrieval
Information retrieval (IR) adalah ilmu mencari dokumen atau informasi
dalam dokumen. Dokumen dapat berupa teks atau multimedia, dan dapat berada di
Web. Itu perbedaan antara pengambilan informasi tradisional dan sistem basis data
ada dua: information retrieval mengasumsikan bahwa (1) data dalam pencarian
tidak terstruktur; dan (2) pertanyaan dibentuk terutama oleh kata kunci, yang tidak
memiliki struktur kompleks (tidak seperti query SQL dalam sistem basis data).
Pendekatan khas dalam pencarian informasi mengadopsi model probabilistik.
Untuk misalnya, dokumen teks dapat dianggap sebagai sekumpulan kata, yaitu
sekumpulan kata muncul di dokumen. Model bahasa dokumen adalah kepadatan
probabilitas fungsi yang menghasilkan kantong kata dalam dokumen. Kesamaan
antara keduanya dokumen dapat diukur dengan kesamaan antara bahasa yang sesuai
model. Selanjutnya, topik dalam satu set dokumen teks dapat dimodelkan sebagai
distribusi probabilitas lebih dari kosakata, yang disebut model topik. Dokumen
teks, yang dapat melibatkan satu atau beberapa topik, dapat dianggap sebagai
campuran dari beberapa model topik. Dengan mengintegrasikan model
pengambilan informasi dan teknik mining, kita dapat menemukannya.

Topik utama dalam kumpulan dokumen dan untuk setiap dokumen dalam
koleksi, topik utama yang terlibat. Semakin banyak data teks dan multimedia telah
diakumulasikan dan tersedia secara online karena pertumbuhan cepat dari Web dan
aplikasi seperti digital perpustakaan, pemerintah digital, dan sistem informasi
perawatan kesehatan. Mereka efektif pencarian dan analisis telah mengangkat
banyak masalah menantang dalam mining. Oleh karena itu, teks mining dan data
multimedia mining, terintegrasi dengan metode pencarian informasi, menjadi
semakin penting.

Data Mining
7. Aplikasi di Mining

Untuk menunjukkan pentingnya aplikasi sebagai Dimensi utama dalam penelitian dan
pengembangan mining, kami membahas secara singkat dua contoh aplikasi mining yang
sangat sukses dan populer: business intelligent dan search engine.
a. Business Intelligent
Sangat penting bagi bisnis untuk memperoleh pemahaman yang lebih baik
tentang konteks komersial organisasi mereka, seperti pelanggan mereka, pasar,
persediaan dan sumber daya, dan pesaing.

Teknologi business intelligent (BI) memberikan sejarah, saat ini, dan


pandangan prediksi operasi bisnis. Contohnya termasuk pelaporan, analitik
online pemrosesan, manajemen kinerja bisnis, intelijen kompetitif,
benchmarking, dan analitik prediktif. "Seberapa penting intelijen bisnis?" Tanpa
penggalian data, banyak bisnis mungkin tidak dapat melakukan analisis pasar
yang efektif, membandingkan umpan balik pelanggan pada yang serupa produk,
temukan kekuatan dan kelemahan pesaing mereka, pertahankan dengan sangat
tinggi pelanggan yang berharga, dan membuat keputusan bisnis yang cerdas.
Jelas, mining adalah inti dari intelijen bisnis. Pemrosesan analitis online alat
dalam intelijen bisnis bergantung pada data pergudangan dan data multidimensi
pertambangan.
Klasifikasi dan teknik prediksi adalah inti dari analisis prediktif dalam
intelijen bisnis, yang ada banyak aplikasi dalam menganalisis pasar, persediaan,
dan penjualan. Selain itu, pengelompokan memainkan peran sentral dalam
hubungan pelanggan manajemen, yang mengelompokkan pelanggan berdasarkan
kesamaan mereka. Menggunakan karakterisasi teknik mining, kami dapat lebih
memahami fitur dari setiap kelompok pelanggan dan mengembangkan program
hadiah pelanggan yang disesuaikan.

b. Web Search Engine


Mesin pencari Web adalah server komputer khusus yang mencari informasi di web.
Hasil pencarian permintaan pengguna sering dikembalikan sebagai daftar (kadang-
kadang disebut hit). Hit mungkin terdiri dari halaman web, gambar, dan jenis file
lainnya. Beberapa mesin pencari juga mencari dan mengembalikan data yang tersedia
di database publik atau direktori terbuka.
Mesin pencari berbeda dari direktori web dalam hal direktori web dikelola oleh editor
manusia sedangkan mesin pencari beroperasi secara algoritmik atau dengan campuran

Data Mining
input algoritmik dan manusia. Mesin pencari web pada dasarnya adalah aplikasi
mining yang sangat besar. Berbagai data teknik mining digunakan dalam semua aspek
mesin pencari, mulai dari crawling (mis., memutuskan laman mana yang harus
dirayapi dan frekuensi perayapan), pengindeksan (mis., memilih halaman yang akan
diindeks dan memutuskan sejauh mana indeks seharusnya dikonstruksikan), dan
mencari (mis., memutuskan bagaimana peringkat halaman, iklan mana harus
ditambahkan, dan bagaimana hasil pencarian dapat dipersonalisasi atau dibuat
“context aware”).
Mesin pencari menimbulkan tantangan besar untuk penggalian data. Pertama, mereka
harus menangani jumlah data yang sangat besar dan terus bertambah. Biasanya, data
tersebut tidak dapat diproses menggunakan satu atau beberapa mesin. Sebaliknya,
mesin pencari sering perlu menggunakan cloud komputer, yang terdiri dari ribuan atau
bahkan ratusan ribu komputer yang secara kolaboratif mining sejumlah besar data.
Meningkatkan metode mining melalui cloud komputer dan set data terdistribusi besar
adalah bidang untuk penelitian lebih lanjut.

Kedua, mesin pencari Web sering harus berurusan dengan data online. Mesin pencari
mungkin mampu membangun model offline di set data besar. Untuk melakukan ini, itu
mungkin membangun classifier kueri yang memberikan kueri pencarian untuk kategori
yang telah ditentukan berdasarkan topik kueri (mis., apakah kueri penelusuran "apel"
dimaksudkan untuk mengambil informasi tentang buah atau merek komputer). Apakah
model dibangun secara offline, the aplikasi model online harus cukup cepat untuk
menjawab pertanyaan pengguna secara real time. Tantangan lain adalah memelihara
dan secara bertahap memperbarui model tentang pertumbuhan cepat aliran data.
Misalnya, penggolong kueri mungkin perlu secara bertahap dipertahankan terus
menerus karena kueri baru terus muncul dan kategori yang telah ditentukan
sebelumnya dan distribusi data dapat berubah. Sebagian besar metode pelatihan model
yang ada adalah offline dan statis dan karenanya tidak dapat digunakan dalam skenario
seperti itu.

Ketiga, mesin pencari Web sering harus berurusan dengan pertanyaan yang hanya
diminta sangat sejumlah kecil kali. Misalkan mesin pencari ingin memberikan kueri
sadar konteks rekomendasi. Artinya, ketika pengguna mengajukan pertanyaan, mesin
pencari mencoba menyimpulkan konteks kueri menggunakan profil pengguna dan
riwayat kueri untuk kembali lebih banyak jawaban khusus dalam sepersekian detik.
Namun, meski demikian total jumlah kueri yang diminta bisa sangat besar, sebagian
besar kueri hanya dapat ditanyakan sekali atau beberapa kali. Data yang sangat miring
tersebut menantang bagi banyak mining dan metode pembelajaran mesin.

Data Mining
8. Permasalahan pada Mining

Mining adalah bidang yang dinamis dan berkembang cepat dengan kekuatan luar biasa. Di
bagian ini secara singkat menguraikan masalah utama dalam penelitian mining, mempartisi
mereka menjadi lima kelompok: mining methodology, user interaction, efisiensi dan
skalabilitas, keanekaragaman tipe data, dan mining dan masyarakat. Selain itu, metodologi
mining harus mempertimbangkan masalah seperti ketidakpastian data, kebisingan, dan
ketidaklengkapan. Beberapa metode mining mengeksplorasi cara yang ditentukan pengguna
langkah-langkah dapat digunakan untuk menilai ketertarikan pola yang ditemukan sebagai
serta memandu proses penemuan. Mari kita lihat berbagai aspek dari mining methodology.

a. Mining Methodology
• Mining various and new kinds of knowledge: Mining mencakup spektrum luas
analisis data dan tugas penemuan pengetahuan, dari karakterisasi data dan
diskriminasi untuk asosiasi dan analisis korelasi, klasifikasi, regresi, pengelompokan,
analisis pencilan, analisis urutan, dan analisis tren dan evolusi. Tugas-tugas ini
mungkin menggunakan database yang sama dengan cara yang berbeda dan
membutuhkan pengembangan banyak teknik mining. Karena keragaman aplikasi,
tugas mining baru terus berlanjut untuk muncul, menjadikan mining bidang yang
dinamis dan tumbuh cepat. Sebagai contoh, untuk penemuan pengetahuan yang
efektif dalam jaringan informasi, pengelompokan terintegrasi dan peringkat dapat
mengarah pada penemuan cluster dan objek peringkat berkualitas tinggi pada
umumnya jaringan.
• Mining knowledge in multidimensional space
Saat mencari pengetahuan secara luas set data, kita dapat menjelajahi data dalam
ruang multidimensi. Artinya, kita bisa mencari untuk pola yang menarik di antara
kombinasi dimensi (atribut) di berbagai tingkat abstraksi. Mining semacam itu
dikenal sebagai data multidimensi (eksplorasi) pertambangan. Dalam banyak kasus,
data dapat dikumpulkan atau dilihat sebagai data multidimensi kubus. Mining
pengetahuan di ruang kubus secara substansial dapat meningkatkan daya dan
fleksibilitas mining.
• Mining—an interdisciplinary effort
Kekuatan mining bisa sangat besar ditingkatkan dengan mengintegrasikan metode
baru darib erbagai disiplin ilmu. Sebagai contoh, untuk mining data dengan teks
bahasa alami, masuk akal untuk menggabungkan metode mining dengan metode
pengambilan informasi dan pemrosesan bahasa alami. Seperti yang lainnya
Misalnya, perhatikan mining bug perangkat lunak dalam program besar. Bentuk

Data Mining
mining ini, dikenal sebagai mining bug, manfaat dari penggabungan rekayasa
perangkat lunak pengetahuan ke dalam proses mining.
• Boosting the power of discovery in a networked environment
Sebagian besar objek data berada dalam lingkungan yang terhubung atau saling
berhubungan, apakah itu Web, hubungan basis data, file, atau dokumen. Tautan
semantik di beberapa objek data dapat digunakan untuk keuntungan dalam mining.
Pengetahuan yang diturunkan dalam satu set objek dapat digunakan untuk
meningkatkan penemuan pengetahuan dalam rangkaian "terkait" atau yang terkait
secara semantik benda.
• Handling uncertainty, noise, or incompleteness of data
Data sering mengandung noise, kesalahan, pengecualian, atau ketidakpastian, atau
tidak lengkap. Kesalahan dan kebisingan mungkin membingungkan proses mining,
yang mengarah ke derivasi pola yang salah. Pembersihan data, preprocessing data,
deteksi outlier dan penghapusan, dan penalaran ketidakpastian contoh teknik yang
perlu diintegrasikan dengan proses mining.
• Pattern evaluation and pattern- or constraint-guided mining
Tidak semua pola dihasilkan oleh proses mining menarik. Yang membuat sebuah
pola menarik dapat bervariasi dari pengguna ke pengguna. Karena itu, diperlukan
teknik untuk menilai ketertarikan pola yang ditemukan berdasarkan langkah-langkah
subjektif. Ini memperkirakan nilai pola sehubungan dengan kelas pengguna yang
diberikan, berdasarkan keyakinan atau harapan pengguna. Selain itu, dengan
menggunakan langkah-langkah menarik atau batasan yang ditentukan pengguna
memandu proses penemuan, kita dapat menghasilkan pola yang lebih menarik dan
mengurangi ruang pencarian.

b. User Interaction
Pengguna memainkan peran penting dalam proses mining. Bidang penelitian yang
menarik termasuk cara berinteraksi dengan sistem mining, cara menggabungkan latar
belakang pengguna pengetahuan dalam mining, dan bagaimana memvisualisasikan dan
memahami hasil mining. Kami memperkenalkan masing-masing di sini.
• Mining interaktif:
Proses mining harus sangat interaktif. Jadi begitulah penting untuk membangun
antarmuka pengguna yang fleksibel dan lingkungan pertambangan eksplorasi,
memfasilitasi interaksi pengguna dengan sistem. Seorang pengguna mungkin ingin
sampel pertama mengatur data, mengeksplorasi karakteristik umum dari data, dan
memperkirakan potensi mining hasil. Mining interaktif harus memungkinkan
pengguna mengubah fokus secara dinamis dari pencarian, untuk menyaring
permintaan mining berdasarkan hasil yang dikembalikan, dan untuk mengebor,

Data Mining
memotong, dan berputar melalui ruang data dan pengetahuan secara interaktif,
mengeksplorasi secara dinamis "Ruang kubus" saat mining.
• Penggabungan pengetahuan latar belakang:
Pengetahuan latar belakang, kendala, aturan, dan informasi lain mengenai domain
yang diteliti harus dimasukkan ke dalam proses penemuan pengetahuan. Pengetahuan
seperti itu dapat digunakan untuk pola evaluasi serta untuk memandu pencarian
menuju pola yang menarik.
• Mining ad hoc dan bahasa permintaan mining:
Bahasa kueri (mis., SQL) telah memainkan peran penting dalam pencarian fleksibel
karena memungkinkan pengguna untuk berpose kueri ad hoc. Demikian pula, bahasa
kueri mining tingkat tinggi atau tingkat tinggi lainnya antarmuka pengguna yang
fleksibel akan memberi pengguna kebebasan untuk mendefinisikan tugas mining ad
hoc. Ini harus memfasilitasi spesifikasi dari set data yang relevan untuk analisis,
domain pengetahuan, jenis-jenis pengetahuan yang akan ditambang, da n kondisi dan
kendala untuk ditegakkan pada pola yang ditemukan. Optimalisasi pemrosesan
tersebut permintaan mining yang fleksibel adalah bidang studi lain yang
menjanjikan.
• Presentasi dan visualisasi hasil mining:
Bagaimana sistem mining menyajikan data hasil mining, secara jelas dan fleksibel,
sehingga pengetahuan yang ditemukan dapat dengan mudah dipahami dan langsung
dapat digunakan oleh manusia? Ini sangat pentingjika proses mining bersifat
interaktif. Untuk itu diperlukan sistem untuk mengadopsi ekspresif representasi
pengetahuan, antarmuka yang mudah digunakan, dan teknik visualisasi.

c. Efisiensi dan Skalabilitas


Efisiensi dan skalabilitas selalu dipertimbangkan ketika membandingkan algoritma
mining. Karena jumlah data terus berlanjut secara ganda, kedua faktor ini sangat
penting.
• Efisiensi dan skalabilitas algoritma mining
Algoritma mining harus efisien dan terukur untuk mengekstraksi informasi secara
efektif dari jumlah besar data dalam banyak repositori data atau dalam aliran data
dinamis. Dengan kata lain, waktu berjalan suatu algoritma mining harus dapat
diprediksi, singkat, dan dapat diterima oleh aplikasi. Efisiensi, skalabilitas, kinerja,
optimisasi, dan kemampuan untuk mengeksekusi dalam waktu nyata adalah kriteria
utama yang mendorong pengembangan banyak data baru algoritma mining.
• Algoritma mining paralel, terdistribusi, dan tambahan
Ukuran besar banyak set data, distribusi data yang luas, dan kompleksitas
komputasi beberapa metode mining adalah faktor yang memotivasi pengembangan

Data Mining
paralel dan terdistribusi algoritma mining-intensif. Algoritma tersebut pertama-
tama mempartisi data menjadi “bagian.” Setiap bagian diproses secara paralel
dengan mencari pola. Paralel proses dapat berinteraksi satu sama lain. Pola dari
setiap partisi adalah akhirnya digabung.

Cloud computing dan cluster computing, yang menggunakan komputer secara


terdistribusi Dan cara kolaboratif untuk menangani tugas komputasi berskala sangat
besar, juga aktif tema penelitian dalam mining paralel. Selain itu, tingginya biaya
beberapa mining proses dan sifat tambahan input mempromosikan mining tambahan,
yang menggabungkan pembaruan data baru tanpa harus mining seluruh data “dari scratch.
”Metode tersebut melakukan modifikasi pengetahuan secara bertahap untuk diubah dan
memperkuat apa yang sebelumnya ditemukan.

9. Keragaman Jenis Basis Data


Keragaman luas dari tipe-tipe basis data menimbulkan tantangan untuk penggalian data.
Ini termasuk:
• Menangani tipe data yang kompleks
Beragam aplikasi menghasilkan spektrum luas tipe data baru, dari data terstruktur
seperti data relasional dan data data warehouse semi-terstruktur dan tidak terstruktur;
dari repositori data yang stabil ke data dinamis aliran; dari objek data sederhana ke
data temporal, sekuens biologis, data sensor, data spasial, data hypertext, data
multimedia, kode program perangkat lunak, data Web, dan data jejaring sosial. Tidak
realistis mengharapkan satu sistem data mining untuk mining semua jenis data,
mengingat keragaman jenis data dan berbagai tujuan data mining. Sistem data mining
khusus aplikasi atau domain sedang dibangun untuk mendalam penambangan jenis
data tertentu. Konstruksi yang efektif dan efisien alat data mining untuk beragam
aplikasi tetap menjadi bidang yang menantang dan aktif penelitian.
• Mining repositori data dinamis, jaringan, dan global
Berbagai sumber data dihubungkan oleh Internet dan berbagai jenis jaringan,
membentuk raksasa, didistribusikan, dan sistem dan jaringan informasi global yang
heterogen. Penemuan pengetahuan dari berbagai sumber terstruktur, semi-terstruktur,
atau tidak terstruktur namun data yang saling berhubungan dengan beragam data
semantik menimbulkan tantangan besar terhadap data pertambangan. Mining jaringan
informasi raksasa dan saling terkait semacam itu dapat membantu mengungkapkan
lebih banyak pola dan pengetahuan dalam set data heterogen yang dapat ditemukan
dari satu set kecil repositori data yang terisolasi. Penambangan web, data multi sumber
penambangan, dan penambangan jaringan informasi telah menjadi tantangan dan
berkembang dengan cepat bidang data mining.

Data Mining
10. Data mining dan Masyarakat
Bagaimana data mining berdampak pada masyarakat? Langkah apa yang bisa
dilakukan data mining untuk melestarikan privasi individu? Apakah kita menggunakan
data mining dalam kehidupan sehari-hari kita tanpa menyadarinya yang kita lakukan?
Pertanyaan-pertanyaan ini menimbulkan masalah berikut:
• Dampak sosial dari data mining: Dengan data mining menembus kehidupan kita
sehari-hari, itu benar penting untuk mempelajari dampak dari data mining pada
masyarakat. Bagaimana kita dapat menggunakan data mining teknologi untuk
memberi manfaat bagi masyarakat? Bagaimana kita bisa menjaga dari
penyalahgunaannya? Yang tidak pantas pengungkapan atau penggunaan data dan
potensi pelanggaran privasi dan data individu hak-hak perlindungan adalah bidang-
bidang yang perlu diperhatikan.
• Data mining yang menjaga privasi
Data mining akan membantu penemuan ilmiah, bisnis manajemen, pemulihan
ekonomi, dan perlindungan keamanan (mis., penemuan waktu nyata penyusup dan
serangan siber). Namun, hal itu menimbulkan risiko pengungkapan informasi
pribadi individu. Studi tentang penerbitan data pelestarian privasi dan data mining
sedang berlangsung. Falsafahnya adalah mengamati kepekaan dan pelestarian
data privasi orang saat melakukan data mining yang sukses.
• Data mining tak terlihat
Kami tidak dapat mengharapkan semua orang di masyarakat untuk belajar dan menguasai
teknik data mining. Semakin banyak sistem harus memiliki fungsi data mining dibangun di
dalam sehingga orang dapat melakukan data mining atau menggunakan hasil data mining
cukup dengan mengklik mouse, tanpa pengetahuan tentang algoritma data mining. Mesin
cerdas pencari dan toko berbasis internet melakukan data mining tak kasat mata oleh
memasukkan penggalian data ke dalam komponen mereka untuk meningkatkan
fungsionalitas dan kinerja. Ini dilakukan sering tanpa sepengetahuan pengguna. Misalnya
saat membeli item online, pengguna mungkin tidak menyadari bahwa toko kemungkinan
mengumpulkan data pola pembelian pelanggannya, yang dapat digunakan untuk
merekomendasikan barang-barang lainnya untuk pembelian di masa depan.

Data Mining
11. Ringkasan

• Kebutuhan adalah ibu dari penemuan. Dengan meningkatnya pertumbuhan data


dalam setiap aplikasi, data mining memenuhi kebutuhan yang mendesak untuk data
yang efektif, terukur, dan fleksibel analisis dalam masyarakat kita. Data mining
dapat dianggap sebagai evolusi informasi yang alami teknologi dan pertemuan
beberapa disiplin ilmu terkait dan aplikasi domain.
• Data mining adalah proses menemukan pola yang menarik dari jumlah besar data.
Sebagai proses penemuan pengetahuan, biasanya melibatkan pembersihan data,
integrasi data, pemilihan data, transformasi data, penemuan pola, evaluasi pola, dan
presentasi pengetahuan.
• Sebuah pola menarik jika valid pada data uji dengan tingkat kepastian tertentu,
novel, berpotensi bermanfaat (mis., dapat ditindaklanjuti atau memvalidasi firasat
tentang pengguna itu ingin tahu), dan mudah dipahami oleh manusia. Pola menarik
mewakili pengetahuan. Ukuran ketertarikan pola, baik obyektif atau subyektif,
dapat digunakan untuk memandu proses penemuan.
• Kami menyajikan pandangan multidimensi dari data mining. Dimensi utama adalah
data, pengetahuan, teknologi, dan aplikasi.
• Data mining dapat dilakukan pada semua jenis data selama data tersebut bermakna
untuk aplikasi target, seperti data basis data, data data warehouse, transaksional
data, dan tipe data lanjutan. Tipe data lanjutan termasuk yang terkait dengan waktu
atau urutan data, aliran data, data spasial dan spasial, data teks dan multimedia,
grafik dan data jaringan, dan data Web.
• Data warehouse adalah gudang penyimpanan jangka panjang data dari beberapa
sumber, terorganisir untuk memfasilitasi pengambilan keputusan manajemen. Data
disimpan di bawah skema terpadu dan biasanya dirangkum. Sistem data warehouse
menyediakan kemampuan analisis data multidimensi, secara kolektif disebut
sebagai online pemrosesan analitis.
• Data mining multidimensi (juga disebut data multidimensi eksplorasi mining)
mengintegrasikan teknik-teknik data mining inti dengan multidimensi berbasis
OLAP analisis. Ia mencari pola yang menarik di antara banyak kombinasi dimensi
(atribut) pada berbagai tingkat abstraksi, sehingga menjelajahi multidimensi ruang
data.
• Fungsionalitas data mining digunakan untuk menentukan jenis pola atau
pengetahuan dapat ditemukan dalam tugas-tugas data mining. Fungsionalitas
termasuk karakterisasi dan diskriminasi; penambangan pola yang sering, asosiasi,
dan korelasi; klasifikasi dan regresi; analisis klaster; dan deteksi outlier. Sebagai tipe

Data Mining
data baru, aplikasi baru, dan tuntutan analisis baru terus muncul, tidak ada
keraguan kita akan melihat semakin banyak tugas data mining baru di masa depan.
• Data mining, sebagai domain driven oleh aplikasi, telah memasukkan teknologi dari
banyak domain lain. Ini termasuk statistik, pembelajaran mesin, database dan
sistem data warehouse, dan pengambilan informasi. Sifat interdisipliner dari
penelitian dan pengembangan data mining berkontribusi secara signifikan terhadap
keberhasilan PT data mining dan aplikasi yang luas.
• Data mining memiliki banyak aplikasi yang sukses, seperti intelijen bisnis, Web
pencarian, bioinformatika, informatika kesehatan, keuangan, perpustakaan digital,
dan digital pemerintah.
• Ada banyak masalah yang menantang dalam penelitian data mining. Area termasuk
pertambangan metodologi, interaksi pengguna, efisiensi dan skalabilitas, dan
berurusan dengan beragam tipe data. Penelitian data mining telah sangat
memengaruhi masyarakat dan akan terus berlanjut lakukan di masa depan.

Data Mining
Daftar Pustaka
Mining: Concepts and Techniques (2011), chapter 1. https://hanj.cs.illinois.edu/bk3/.
Mining Structures of Factual Knowledge from Text: An Effort-Light Approach, 2018.
https://www.morganclaypool.com/doi/10.2200/S00860ED1V01Y201806DMK015.
Machine Learning and Knowledge Discovery for Engineering Systems Health Management,
2011. https://www.crcpress.com/Machine-Learning-and-Knowledge-Discovery-for-
Engineering-Systems-Health/Srivastava-Han/p/book/9781439841785
Mining Software Specifications: Methodologies and Applications , 2011.
https://www.crcpress.com/Mining-Software-Specifications-Methodologies-and-
Applications/Lo-Khoo-Han-Liu/p/book/9781439806265
S. Chakrabarti. Mining the Web: Statistical Analysis of Hypertex and Semi-Structured Data.
Morgan Kaufmann, 2002.
R. O. Duda, P. E. Hart, and D. G. Stork, Pattern Classification, 2ed., Wiley-Interscience,
2000.
T. Dasu and T. Johnson. Exploratory Mining and Data Cleaning. John Wiley & Sons, 2003.
U. M. Fayyad, G. Piatetsky-Shapiro, P. Smyth, and R. Uthurusamy. Advances in Knowledge
Discovery and Mining. AAAI/MIT Press, 1996.
U. Fayyad, G. Grinstein, and A. Wierse, Information Visualization in Mining and Knowledge
Discovery, Morgan Kaufmann, 2001.
J. Han and M. Kamber. Mining: Concepts and Techniques. Morgan Kaufmann, 3rd ed., 2011.
D. J. Hand, H. Mannila, and P. Smyth, Principles of Mining, MIT Press, 2001.
T. Hastie, R. Tibshirani, and J. Friedman, The Elements of Statistical Learning: Mining,
Inference, and Prediction, 2nd ed., Springer-Verlag, 2009.
B. Liu, Web Mining, Springer 2006.
T. M. Mitchell, Machine Learning, McGraw Hill, 1997.
G. Piatetsky-Shapiro and W. J. Frawley. Knowledge Discovery in Databases. AAAI/MIT
Press, 1991.
P.-N. Tan, M. Steinbach and V. Kumar, Introduction to Mining, Wiley, 2005.
S. M. Weiss and N. Indurkhya, Predictive Mining, Morgan Kaufmann, 1998.
I. H. Witten and E. Frank, Mining: Practical Machine Learning Tools and Techniques with
Java Implementations, Morgan Kaufmann, 2nd ed. 2005.

Data Mining

Anda mungkin juga menyukai