Anda di halaman 1dari 21

Data Mining

Kelompok 4 :
Allina Kurniasari (21402200030)
Hendra Sudarsono (21402200034)
Sriningsih (21402200040)
Pengertian Data Mining
• Data Mining adalah studi tentang mengumpulkan, membersihkan, memproses, menganalisis, dan memperoleh manfaat
wawasan dari data.
• Disiplin ilmu yang mempelajari metode untuk mengekstrak pengetahuan atau menemukan pola dari suatu data yang besar
• Ekstraksi dari data ke pengetahuan:
1. Data: fakta yang terekam dan tidak membawa arti
2. Pengetahuan: pola, rumus, aturan atau model yang muncul dari data

• Nama lain data mining:


• Knowledge Discovery in Database (KDD)
• Knowledge extraction
• Pattern analysis
• Information harvesting
• Business intelligence
Konsep Proses Data Mining

Metode
Himpunan
Data Pengetahuan
Data
Mining
Tahapan Data Mining
1. Seleksi Data
Pemilihan (seleksi) data daru sekumpulan data operasional perlu dilakukan
sebelum tahap penggalian informasi dimulai. Data hasil seleksi yang akan
digunakan untuk proses data mining, disimpan dalam suatu berkas, terpisah
dari basis data operasional.
2. Pre-processing/ Cleaning ( pemilihan data )
Hasil Sebelum proses data mining dapat dilaksanakan, perlu dilakukan
proses cleaning pada data. Proses cleaning mencakup antara lain membuang
duplikasi data, memeriksa data yang inkonsisten, dan memperbaiki
kesalahan pada data, seperti kesalahan cetak (tipografi). Juga dilakukan
proses enrichment, yaitu proses “memperkaya” data yang sudah ada dengan
data atau informasi lain yang relevan dan diperlukan seperti data atau
informasi eksternal.
3. Pengujian Algoritma
Pengujian Algoritma adalah proses mencari pola atau informasi menarik
dalam data terpilih dengan menggunakan teknik atau metode tertentu.
Teknik, metode, atau algoritma dalam data mining sangat bervariasi.
Pemilihan metode atau algoritma yang tepat
4. Evaluasi/Hasil
Pola informasi yang dihasilkan dari proses data mining perlu ditampilkan
dalam bentuk yang mudah dimengerti oleh pihak yang berkepentingan.
Tujuan Data Mining
• Sebagai sarana penjelasan (explanatory)
• Data mining adalah sebuah sarana untuk menjelaskan suatu kondisi. Sebagai contoh nyata yaitu mengapa
harga penjualan masker di Indonesia meningkat. Tentu saja dalam mengetahui alasannya, diperlukan
kumpulan data yang diperoleh dari hasil data mining.
• Sebagai sarana konfirmasi (confirmatory)
• Data mining adalah sebuah sarana untuk mengklarifikasi sebuah pernyataan atau mempertegas adanya
hipotesa. Contohnya adalah orang dengan tingkat ekonomi menengah keatas lebih suka membeli mobil
daripada membeli unit sepeda motor.
• Sebagai sarana eksplorasi (exploratory)
• Data mining adalah suatu sarana yang dapat digunakan untuk mencari pola baru yang sebelumnya tidak
terdeteksi. Contohnya adalah pola terkait alasan mengapa seorang pelaku pembunuhan menargetkan orang
yang tinggal di apartemen seorang diri (walau korban tidak terikat hubungan kontak apapun dengan
pelaku).
Awal mula Data Mining
• Berasal dari machine learning / AI, pattern recognition, statistic dan database
systems
• Data mining cocok untuk data yang berkarakteristik
• Large-scale
• High dimensional
• Heterogeneous
• Complex
• distributed
Masalah-Masalah di Data Mining

1. Jumlah data yang luar biasa


2. Dimensi data yang tinggi
3. Kompleksitas data yang tinggi
Hubungan Data Mining dan Bidang Lain

Statistics
Machine Computing
Learning Algorithms

Data Database
Pattern
Minin Technology
Recognition
g
Metode Data Mining
1. Estimation (Estimasi):
Estimasi merupakan metode yang paling tepat untuk menyelsaikan yang
berkaitan dengan memperkirakan seberapa banyak hasil produksi.
Algoritma yang digunakan:
Linear Regression (LR), Neural Network (NN), Deep Learning (DL),
Support Vector Machine (SVM), Generalized Linear Model (GLM), dan lain
lain.
2. Forecasting (Prediksi/Peramalan):
Forecasting data mining adalah metode yang digunakan untuk
memprediksi nilai yang akan dicapai pada satu periode. Dengan menggunakan
teknik ini, noise data dan nilai pada periode sebelumnya dijadikan dasar
bahan prediksi.
Algoritma yang di gunakan:
Linear Regression (LR), Neural Network (NN), Deep Learning (DL),
Support Vector Machine (SVM), Generalized Linear Model (GLM), dll.
3. Classification (Klasifikasi):
Classification adalah metode data mining yang dilakukan untuk
memprediksi kelas suatu objek. Ini adalah metode yang paling umum
digunakan dalam data mining. Caranya adalah dengan menentukan
kategori terlebih dahulu. Lalu, algoritma data mining akan memasukkan
elemen tertentu ke dalam kelompok atau klasifikasi yang sudah ditentukan
sebelumnya.
Algoritma yang digunakan:
Decision Tree (CART, ID3, C4.5, Credal DT, Credal C4.5, Adaptative Credal
C4.5), Naive Bayes (NB), K-Nearest Neighbor (kNN), Linear Discriminant
Analysis (LDA), Logistic Regression (LogR), dll.
4. Clustering (Klastering):
Clustering digunakan dalam membagi kumpulan data menjadi beberapa
kelompok berdasarkan kemiripan atribut yang dimiliki. Contoh
kasusnya adalah Customer Segmentation. Ia membagi pelanggan ke dalam
beberapa grup berdasarkan tingkat kemiripannya.
Algoritma yang digunakan:
K-Means, K-Medoids, Self-Organizing Map (SOM), Fuzzy C-Means
(FCM), dll.
5. Association (Asosiasi):
Association adalah metode berbasis aturan yang digunakan untuk
menemukan asosiasi dan hubungan variabel dalam satu set data.
Biasanya analisis ini terdiri dari pernyataan “if atau then” sederhana.
Association banyak digunakan dalam mengidentifikasi korelasi produk
dalam keranjang belanja untuk memahami kebiasaan konsumsi
pelanggan. Sehingga, perusahaan dapat mengembangkan strategi
penjualan dan membuat sistem rekomendasi yang lebih baik.
Algoritma yang digunakan:
FP-Growth, A Priori, Coefficient of Correlation, Chi Square, dll.
Metode Learning Algoritma Data Mining

Supervised Semi-
Supervised
Unsupervised
Learning Learning Learning

Association based
Learning
1. Supervised Learning
• Pembelajaran dengan guru, data set memiliki target/label/class
• Sebagian besar algoritma data mining (estimation,
prediction/forecasting, classification) adalah supervised
learning
• Algoritma melakukan proses belajar berdasarkan nilai dari
variabel target yang terasosiasi dengan nilai dari variable
prediktor
2. Unsupervised Learning
• Algoritma data mining mencari pola dari semua variable
(atribut)
• Variable (atribut) yang menjadi target/label/class tidak
ditentukan (tidak ada)
• Algoritma clustering adalah algoritma unsupervised learning
3. Semi-Supervised Learning
• Semi-supervised learning adalah metode data mining yang menggunakan
data dengan label dan tidak berlabel sekaligus dalam proses
pembelajarannya
• Data yang memiliki kelas digunakan untuk membentuk model
(pengetahuan), data tanpa label digunakan untuk membuat batasan antara
kelas
Data Reduction in Data Mining
• Reduksi data adalah teknik yang digunakan dalam penambangan data
untuk mengurangi ukuran kumpulan data sambil tetap
mempertahankan informasi yang paling penting. Ini dapat
bermanfaat dalam situasi di mana kumpulan data terlalu besar untuk
diproses secara efisien, atau di mana kumpulan data berisi sejumlah
besar informasi yang tidak relevan atau berlebihan.
Ada beberapa teknik reduksi data yang berbeda yang dapat
digunakan dalam Data Mining

1. Sampling Data: Teknik ini melibatkan pemilihan subset data untuk


dikerjakan, daripada menggunakan seluruh dataset. Ini dapat berguna
untuk mengurangi ukuran kumpulan data sambil tetap mempertahankan
keseluruhan tren dan pola dalam data.
2. Pengurangan Dimensi: Teknik ini melibatkan pengurangan jumlah
fitur dalam kumpulan data, baik dengan menghapus fitur yang tidak
relevan atau dengan menggabungkan beberapa fitur menjadi satu fitur.
3. Kompresi Data: Teknik ini melibatkan penggunaan teknik seperti
kompresi lossy atau lossless untuk mengurangi ukuran kumpulan data.
4. Diskritisasi Data: Teknik ini melibatkan konversi data kontinu
menjadi data diskrit dengan mempartisi rentang nilai yang mungkin
menjadi interval atau tempat sampah.
5. Seleksi Fitur: Teknik ini melibatkan pemilihan subset fitur dari
kumpulan data yang paling relevan dengan tugas yang ada.

Penting untuk dicatat bahwa reduksi data dapat memiliki trade-off antara
akurasi dan ukuran data. Semakin banyak data yang direduksi, semakin
kurang akurat modelnya dan semakin tidak dapat digeneralisasikan.

Anda mungkin juga menyukai