Anda di halaman 1dari 12

Mengapa Data Mining?

 Pertumbuhan Data yang eksplosif: dari terabytes hingga petabytes.

.Data coltection dan data availatbility

. Alat pengumpulan data otomatis, database systerris, Web, komputerisasi masyarakat.

 Sumber utama data yang melimpah.

.Bisnis: Web, e-niaga, transaksi, saham,.

. Sains: Penginderaan jauh, bioinformatika, simulasi ilmiah,.

. Masyarakat dan semua orang: berita, kamera digital, YouTube

 Kami berdatangan dalam data, tetapi kelaparan untuk pengetahuan!

."Kebutuhan adalah ibu dari penemuan" -Data penambangan-analisis otomatis dari set
data besar Evolution of Datahase

Evolution of Sciences

 Sebelum 1600, -sains empiris

 1600-1950, ilmu teoritis.

.Setiap disiplin telah mengembangkan sebuah komponen/teoritis. model teoritis sering


-. menggerakkan eksperimen dan menggeneralisasikan pemahaman kita

 1950-1990-an, ilmu komputasi -

.Lebih dari 50 tahun terakhir, sebagian besar disiplin ilmu telah tumbuh ketiga, cabang
perhitungan (misalnya ekologi empiris, teoritis, dan komputasional, atau fisika, atau
linguistik.)

. Ilmu Komputasi secara tradisional berarti simulasi. Itu tumbuh dari ketidakmampuan
kami untuk menemukan solusi bentuk tertutup untuk model matematika kompleks

 1990-sekarang, ilmu data.

.Banjir data dari instrumen ilmiah baru dan simulasi.

.Kemampuan untuk menyimpan dan mengelola petabyte data ontine secara ekonomis.
.Internet dan komputasi Grid yang membuat arsip ini dapat diakses secara universal.

.Informasi ilmiah, manajemen, akuisisi, organisasi, query, dan skala tasis visualisasi
hampir linearty dengan data vołurmes. Penambangan data merupakan tantangan besar
baru .

 Jm Gray dan Alex Szalay, The World Wide Telescope: Archeype untuk Onine Scrence Comm.
ACM. 45 (11): 50-54, November 2002 24, 2018 Konsep dan Teknologi

Evolusi Teknologi Database

 1960an:.

.Pengumpulan data, pembuatan basis data, IMS, dan DBMS jaringan.

 1970an:.

.Model data relasional, implementasi DBMS relasional.

 1980-an:

.RDBMS, model data tingkat lanjut (diperpanjang-relasional, 00, deduktif, dll) Aplikasi
berorientasi DBMS (spasial, scientfic, teknik, dll)

 1990-an:

.Data mining, data warehousing, multimedia database, dan Web database -

 2000s .

.Aliran manajemen data dan penambangan.

.Aplikasi penambangan data dan ts.

. Teknologi web (XML, integrasi data) dan sistem informasi global

Apa itu Data Mining?

 Penambangan data (penemuan pengetahuan dari data)

.Ekstraksi pola-pola yang menarik (tidak penting, implisit yang sebelumnya tidak
diketahui dan berpotensi berguna) atau pengetahuan dari sejumlah besar data.
.Penambangan data: salah kaprah?

 Nama alternatif.

.Penemuan Knowledge (penambangan) dalam basis data (KDD), ekstraksi pengetahuan,


analisis data / pola, arkeologi data, pengerukan data, pengumpulan informasi, intelijen
bisnis, dll.

 Awas: Apakah semuanya "penambangan data"?

. Pencarian sederhana dan pemrosesan kueri

. (deduktif) expert system .

Contoh: Kerangka Pertambangan Web

.Penambangan web biasanya melibatkan

 Data pembersihan

 .Integrasi data dari berbagai sumber.

 . Pergudangan data -

 . Konstruksi kubus data

 .Pemilihan data untuk penambangan data.

 . Data mining -

 .Presentasi hasil penambangan -

 . Pola dan pengetahuan yang akan digunakan atau disimpan ke basis pengetahuan

Contoh: Pertambangan vs Eksplorasi Data

 .Tampilan intelijen bisnis

.Gudang data , Data canggih, laporan tetapi tidak banyak pengguna(mining)

 .Objek bisnis vs. alat penambangan data


 .Contoh rantai pasokan: alat

 .Presentasi data

 . Eksplorasi

Contoh: Penambangan Data Medis

 Perawatan kesehatan & penambangan data medis sering mengadopsi pandangan seperti dalam
statistik dan pembelajaran mesin -

 Preprocessing data (termasuk ekstraksi fitur dan pengurangan dimensi)

 Klasifikasi atau / dan proses pengelompokan.

 Pasca-pemrosesan untuk presentasi

Tampilan Data Pertambangan Multi Dimensi.

 . Data yang akan ditambang

.Database data (diperpanjang-relasional, berorientasi objek, heterogen, warisan),


gudang data, data transaksional, streaming, spatiotemporal, time-series, urutan, teks
dan web, multi-media, grafik & sosial dan informasi jaringan

 Pengetahuan yang akan ditambang (atau: Fungsi penambangan data)

. Karakterisasi, diskriminasi, asosiasi, klasifikasi, pengelompokan, tren / penyimpangan,


analisis pencilan, dll.

.Penambangan data deskriptif dan prediktif.

.Beragam fungsi / terintegrasi dan menambang di berbagai level.

 Teknik digunakan.

 Data-intensif, gudang data (OLAP), pembelajaran mesin, pengenalan pola statistik, visualisasi,
kinerja tinggi, dll. -

 Aplikasi diadaptasi.
.Eceran, telekomunikasi, perbankan, analisis penipuan, analisis pasar saham
pertambangan bio-data texi Weo, dll.

Data Mining: On What Kinds of Data?

 Kumpulan data dan aplikasi data-terdetail.

.Database relasional, gudang data, transaksional

 .Set data lanjutan dan aplikasi lanjutan

.Data aliran dan data sensor

.Tirme-series data, data temporal, data urutan (termasuk. Bio-urutan) -

. Struktur data, grafik, jaringan sosial dan data multi-linked.

.Database relasional-objek.

.Heterogen database dan database warisan -

.Data spasial dan data spasiotemporal.

. Database multimedia.

.Database teks -

.World-Wide Web

Fungsi Data Mining: (1) Generalisasi.

 Integrasi informasi dan konstruksi data warehouse.

.Pembersihan data, transformasi, integrasi, dan model data multidimensi.

 Teknologi kubus data.

. Metode skalabel untuk komputasi (yaitu, materialisasi) agregat multidimensional

. OLAP (pemrosesan analitik online).

 Deskripsi konsep multidimensi: Karakterisasi dan diskriminasi

. Menggeneralisasi, meringkas, dan membedakan karakteristik data, misalnya, wilayah


kering vs. basah
Fungsi Data Mining: (2) Asosiasi dan Analisis Korelasi.

 Pola yang sering (atau frequent itemset) -

.Item apa yang sering dibeli bersama di Walmart -

 Association, korelasi vs. kausalitas Anda.

. Aturan asosiasi yang khas.

.Popok-> Bir [0,596, 7596] (dukungan, keyakinan).

.Apakah unsur-unsur yang terkait erat juga berkorelasi kuat? .

 .Bagaimana cara menambang pola dan aturan tersebut secara efisien dalam dataset besar.

 Bagaimana cara menggunakan pola-pola seperti itu untuk klasifikasi, pengelompokan, dan
aplikasi lain?

Fungsi Data Mining: (3) Klasifikasi

 Klasifikasi dan prediksi label

.Membangun model (fungsi) berdasarkan beberapa contoh pelatihan

.Menggambarkan dan membedakan kelas atau konsep untuk prediksi masa depan

. Misalnya, mengklasifikasikan negara berdasarkan (iklim), atau


mengklasifikasikan mobil berdasarkan (jarak tempuh)

. Memprediksi beberapa label kelas yang tidak dikenal.

 Metode Khas

.Pohon keputusan, klasifikasi Bayesian naif, mendukung mesin vektor, jaringan syaraf
tiruan, klasifikasi berbasis aturan, klasifikasi berdasarkan pola, regresi logistik,

 aplikasi umum:

. Deteksi penipuan kartu kredit, pemasaran langsung, mengklasifikasikan bintang,


penyakit, halaman web, ..
Fungsi Data Mining: (4) Analisis Cluster

 Pembelajaran yang tidak diawasi (yaitu, label Kelas tidak diketahui) rumah cluster untuk
menemukan pola distribusi kesamaan antargener -

 Data grup untuk membentuk kategori baru (yaitu, kluster), misalnya,.

 Prinsip: Memaksimalkan kesamaan dalam kelas & meminimalkan

 Banyak metode dan aplikasi

Fungsi Data Mining: (5) Analisis Outlier.

 Analisis outier.

. Outier: Objek data yang tidak sesuai dengan perilaku umum data.

.Kebisingan atau pengecualian? Sampah satu orang bisa menjadi harta orang lain -

.Metode: oleh produk dari analisis pengelompokan atau regresi, -

. Berguna dalam deteksi penipuan, analisis peristiwa langka

Waktu dan Pengurutan: Pola Sekuensial, Analisis Kecenderungan dan Evolusi

 Analisis urutan, tren dan evolusi -

. Analisis tren, waktu, dan penyimpangan: misalnya, regresi dan prediksi nilai -

. Penambangan pola berurutan.

. misal, pertama beli kamera digital, kemudian beli kartu memori SD besar.

.Analisis periodisitas.

.Motif dan analisis urutan biologis.

.Perkiraan dan motif berurutan -

. Analisis berbasis kesamaan -

 Aliran data pertambangan.


.Memesan, waktu bervariasi, berpotensi tak terbatas, aliran data

Struktur dan Analisis Jaringan

 Penggalian grafik

.Mencari subgraph yang sering (misalnya, senyawa kimia), pohon (XML), substruktur
(fragmen web)

 Analisis jaringan informasi -

.Jaringan sosial: aktor (objek, simpul) dan hubungan (sisi) -

.misalnya, penulis jaringan di CS, jaringan teroris -

. Beberapa jaringan heterogen.

. Seseorang bisa menjadi beberapa jaringan informasi: teman,.

 Tautan membawa banyak informasi semantik: Penambangan tautan -

. Web adalah jaringan informasi besar: dari PageRank ke keluarga Google, teman
sekelas,. Penambangan web.

. Analisis jaringan informasi Web.

. Penemuan komunitas web, penambangan opini, penggunaan penambangan,

Evaluasi Pengetahuan.

 Apakah semua pengetahuan yang ditambang menarik? .

. Seseorang dapat menambang sejumlah "pola" dan pengetahuan yang luar biasa -

. Beberapa orang mungkin hanya memenuhi ruang dimensi tertentu (waktu, lokasi, .. -

.Beberapa mungkin tidak representatif, mungkin sementara,


 Evaluasi pengetahuan yang ditambang - langsung menambang hanya pengetahuan yang
menarik?.

. Deskriptif vs. prediksi.

. Cakupan.

.Sifat tipikal vs.

.ketepatan waktu

.Akurasi Kebaruan

Mengapa Confluence of Multiple Disciplines?

 Banyak sekali data.

. Algoritma harus sangat skalabel untuk ditangani seperti data tera-byte.

 Dimensi-tinggi data.

.Micro-array mungkin memiliki puluhan ribu dimensi.

 Kompleksitas data yang tinggi.

.Aliran data dan data sensor.

. Data seri waktu, data sementara, data urutan.

.Struktur data, grafik, jejaring sosial dan data multi-link

. Heterogen database dan warisan database

.Spasial, spatiotemporal, multimedia, teks dan data Web

. Program perangkat lunak, simulasi ilmiah.

.Aplikasi baru dan canggih

Aplikasi analisis halaman


 Web Mining Data: dari klasifikasi halaman web, pengelompokan untuk algoritma

 PageRank & HITS Analisis kolaboratif & sistem rekomendasi

 Analisis data keranjang untuk pemasaran yang ditargetkan

 Analisis data biologis dan medis: klasifikasi, analisis klaster (analisis data microarray), analisis
urutan biologis, analisis jaringan biologis - -.

 Penambangan data dan rekayasa perangkat lunak (misalnya, IEEE Computer, edisi Agustus 2009).

 Dari sistem / alat penambangan data khusus terdedikasi (mis., SAS, MS SQL- Server Analysis
Manager, Alat Pertambangan Data Oracle) hingga penambangan data tak terlihat

Masalah-masalah besar dalam Penambangan Data (1)

 Metodologi Penambangan

.Menambang berbagai dan jenis pengetahuan baru

.Miitny kowledye irn ruang multi-dimensi

.Penambangan data: Upaya interdisipliner.

.Meningkatkan kekuatan penemuan dalam lingkungan jaringan.

.Menahan kebisingan, ketidakpastian, dan ketidaklengkapan data Evaluasi

.Pattern dan penambangan dengan patten atau kendala yang dipandu.

 Interaksi Pengguna

.Penambangan interaktif

.Penggabungan latar belakang pengetahuan.

.Presentasi dan visualisasi hasil penambangan data

Masalah Utama dalam Penambangan Data (2)

 Efisiensi dan Skalabilitas.


. Efisiensi dan skalabilitas dari algoritma penambangan data.

. Metode penambangan secara paralel, terdistribusi, aliran, dan bertahap.

 Keanekaragaman tipe data.

.Menangani jenis data yang kompleks.

. Penambangan dinamik, jaringan, dan penyimpanan data global

 Penambangan data dan masyarakat -

.Dampak sosial dari penambangan data.

.Penambangan data pelestarian privasi.

.Penambangan data tak terlihat

Sejarah Singkat Data yang Sedang Menembus Kemandirian

 1989 ULAI Workshop knowleage uiscovery dalam databases

. Knowledge Discovery dalam Database (G. Piatetsky-Shapiro dan w. Fravdey, 1991)

 1991-1994 Lokakarya Penemuan Pengetahuan dalam Kemajuan Database

. dalam Pengetahuan Penemuan dan Penambangan Data (U. Fayyad, G. Piatetsky-


Shapiro, P. Smyth, dan R. Uthurusamy, 1996)

 .1995-1998 Konferensi Internasional tentang Penemuan Pengetahuan dalam Database dan


Pertambangan Data (KDD'95-98)

.Jurnal Penambangan Data dan Discovery Knowledge (1997)

 ACM SIGKDD konferensi sejak tahun 1998 dan SIGKDD Eksplorasi

 Lebih banyak konferensi tentang penambangan data.

. PAKDD (1997), PKDD (1997), SIAM-Data Mining (2001), (IEEE) ICDM (2001), dll.

 ACM Transactions on KDD dimulai pada tahun 2007


Ringkasan

 Penambangan data: Menemukan pola dan pengetahuan menarik dari sejumlah besar data

 Evolusi alami dari teknologi basis data, sangat diminati, dengan aplikasi yang luas.

 Proses KDD termasuk pembersihan data, integrasi data, pemilihan data, transformasi,
penambangan data, evaluasi pola, dan

 Penambangan dapat dilakukan dalam berbagai data

 Fungsi data mining: karakterisasi, asosiasi diskriminasi, klasifikasi, pengelompokan, outlier dan
analisis tren, dll

 Teknologi dan aplikasi penambangan data

 Masalah utama dalam penambangan data

Anda mungkin juga menyukai