."Kebutuhan adalah ibu dari penemuan" -Data penambangan-analisis otomatis dari set
data besar Evolution of Datahase
Evolution of Sciences
.Lebih dari 50 tahun terakhir, sebagian besar disiplin ilmu telah tumbuh ketiga, cabang
perhitungan (misalnya ekologi empiris, teoritis, dan komputasional, atau fisika, atau
linguistik.)
. Ilmu Komputasi secara tradisional berarti simulasi. Itu tumbuh dari ketidakmampuan
kami untuk menemukan solusi bentuk tertutup untuk model matematika kompleks
.Kemampuan untuk menyimpan dan mengelola petabyte data ontine secara ekonomis.
.Internet dan komputasi Grid yang membuat arsip ini dapat diakses secara universal.
.Informasi ilmiah, manajemen, akuisisi, organisasi, query, dan skala tasis visualisasi
hampir linearty dengan data vołurmes. Penambangan data merupakan tantangan besar
baru .
Jm Gray dan Alex Szalay, The World Wide Telescope: Archeype untuk Onine Scrence Comm.
ACM. 45 (11): 50-54, November 2002 24, 2018 Konsep dan Teknologi
1960an:.
1970an:.
1980-an:
.RDBMS, model data tingkat lanjut (diperpanjang-relasional, 00, deduktif, dll) Aplikasi
berorientasi DBMS (spasial, scientfic, teknik, dll)
1990-an:
2000s .
.Ekstraksi pola-pola yang menarik (tidak penting, implisit yang sebelumnya tidak
diketahui dan berpotensi berguna) atau pengetahuan dari sejumlah besar data.
.Penambangan data: salah kaprah?
Nama alternatif.
Data pembersihan
. Pergudangan data -
. Data mining -
. Pola dan pengetahuan yang akan digunakan atau disimpan ke basis pengetahuan
.Presentasi data
. Eksplorasi
Perawatan kesehatan & penambangan data medis sering mengadopsi pandangan seperti dalam
statistik dan pembelajaran mesin -
Teknik digunakan.
Data-intensif, gudang data (OLAP), pembelajaran mesin, pengenalan pola statistik, visualisasi,
kinerja tinggi, dll. -
Aplikasi diadaptasi.
.Eceran, telekomunikasi, perbankan, analisis penipuan, analisis pasar saham
pertambangan bio-data texi Weo, dll.
.Database relasional-objek.
. Database multimedia.
.Database teks -
.World-Wide Web
.Bagaimana cara menambang pola dan aturan tersebut secara efisien dalam dataset besar.
Bagaimana cara menggunakan pola-pola seperti itu untuk klasifikasi, pengelompokan, dan
aplikasi lain?
.Menggambarkan dan membedakan kelas atau konsep untuk prediksi masa depan
Metode Khas
.Pohon keputusan, klasifikasi Bayesian naif, mendukung mesin vektor, jaringan syaraf
tiruan, klasifikasi berbasis aturan, klasifikasi berdasarkan pola, regresi logistik,
aplikasi umum:
Pembelajaran yang tidak diawasi (yaitu, label Kelas tidak diketahui) rumah cluster untuk
menemukan pola distribusi kesamaan antargener -
Analisis outier.
. Outier: Objek data yang tidak sesuai dengan perilaku umum data.
.Kebisingan atau pengecualian? Sampah satu orang bisa menjadi harta orang lain -
. Analisis tren, waktu, dan penyimpangan: misalnya, regresi dan prediksi nilai -
. misal, pertama beli kamera digital, kemudian beli kartu memori SD besar.
.Analisis periodisitas.
Penggalian grafik
.Mencari subgraph yang sering (misalnya, senyawa kimia), pohon (XML), substruktur
(fragmen web)
. Web adalah jaringan informasi besar: dari PageRank ke keluarga Google, teman
sekelas,. Penambangan web.
Evaluasi Pengetahuan.
. Seseorang dapat menambang sejumlah "pola" dan pengetahuan yang luar biasa -
. Beberapa orang mungkin hanya memenuhi ruang dimensi tertentu (waktu, lokasi, .. -
. Cakupan.
.ketepatan waktu
.Akurasi Kebaruan
Dimensi-tinggi data.
Analisis data biologis dan medis: klasifikasi, analisis klaster (analisis data microarray), analisis
urutan biologis, analisis jaringan biologis - -.
Penambangan data dan rekayasa perangkat lunak (misalnya, IEEE Computer, edisi Agustus 2009).
Dari sistem / alat penambangan data khusus terdedikasi (mis., SAS, MS SQL- Server Analysis
Manager, Alat Pertambangan Data Oracle) hingga penambangan data tak terlihat
Metodologi Penambangan
Interaksi Pengguna
.Penambangan interaktif
. PAKDD (1997), PKDD (1997), SIAM-Data Mining (2001), (IEEE) ICDM (2001), dll.
Penambangan data: Menemukan pola dan pengetahuan menarik dari sejumlah besar data
Evolusi alami dari teknologi basis data, sangat diminati, dengan aplikasi yang luas.
Proses KDD termasuk pembersihan data, integrasi data, pemilihan data, transformasi,
penambangan data, evaluasi pola, dan
Fungsi data mining: karakterisasi, asosiasi diskriminasi, klasifikasi, pengelompokan, outlier dan
analisis tren, dll