Data Mining
Data Mining
Menentukan apa saja Menyiapkan data yang Mengolah data yang Menentukan wawasan Kebijakan yang
yang ingin dicari atau ada dari kumpulan atau telah dipilih. dari data yang telah didukung dengan data
ditemukan ? tumpukan data-data diolah. visualisasi.
yang kompleks. Output data analisis
adalah hipotesis atau Merupakan output dari
Memilah dan memilih wawasan yang proses data analisis.
sesuatu yang diverifikasi berdasarkan
tersembunyi data. Wawasan dari data
yang ada.
Proses penggalian Membutuhkan keahlian
informasi, pola, dan dalam ilmu komputer, Digunakan untuk
tren yang berguna dari matematika, statistik, mengkaji kebijakan
data mentah. AI.
Tapi, ada beberapa literatur bilang data mining dan data analisis
itu berbeda. Ada juga yang bilang sama. Gimana sih?
Ok, Mari kita pahami data mining dan kawan-kawannya dengan beranalogi !
Objective Data Mining Data Analisis Statistik Informasi
Proses
Peleburan dan
Tujuan Gold Mining pemisahan Packaging
pencetakan
emas murni
Menghasilkan emas Proses pendulangan Filterisasi atau Butiran-butiran emas Packaging dan
murni atau mengambil emas pelindian. Dimana murni hasil pemisahan sertifikasi.
dari tumpukan bahan emas murni harus dileburkan dengan
alam di area tambang. dipisahkan dari jumlah tertentu dan
senyawa lain. dicetak kembali dalam
bentuk yang telah
Terdapat banyak teknik ditentukan.
untuk memisahkan
emas murni dari hasil
tambang lain.
Objective Data Mining Data Analisis Statistik Informasi
Proses
Peleburan dan
Tujuan Gold Mining pemisahan Packaging
pencetakan
emas murni
Terkadang kata “data mining” dimaksudkan sebagai seluruh proses dari hulu ke
hilir. Begitu juga dengan kata “Penambangan emas” di-interpretasikan sebagai
seluruh proses pembuatan emas batangan.
Karena teknologi berkembang sangat pesat dalam 3 dekade ini, metode-metode
analisa data pun berkembang sehingga ada pergeseran interpretasi (gagasan)
terhadap data mining itu sendiri.
Pergeseran interpretasi juga bisa terjadi karena tahapan proses data mining
berbeda-beda disetiap organisasi, bergantung pada kompleksitas data yang
dimiliki.
Itu sebabnya, Kalau mencari pengertian dan tahapan data mining di
internet, hasilnya bisa berbeda-beda.
https://businesspostbd.com/files/media/daily-media/2022/03/29/1.jpg https://tutorialshut.com/wp-content/uploads/2021/02/Data-Mining-768x685.png
menurut saya, Data mining adalah:
● Identifikasi Pola dan Tren: menemukan pola pembelian tertentu oleh pelanggan.
● Ramalan dan Prediksi: di bidang keuangan, kita dapat menggunakan Data Mining untuk
meramalkan pergerakan pasar atau tingkat keberhasilan investasi.
● Segmentasi Pelanggan: kita ingin menyesuaikan strategi pemasaran dan layanan untuk
melayani setiap kelompok umur dan gender dengan lebih baik.
● Penemuan Peraturan Asosiasi: dalam data transaksi belanja, kita dapat menemukan aturan
seperti "jika pelanggan membeli produk A, mereka cenderung juga membeli produk B."
● Pengenalan Anomali: Data Mining dapat membantu mendeteksi kecurangan atau aktivitas
penipuan yang tidak wajar.
● Klasifikasi (Classification):
○ Contoh: Mengklasifikasikan email sebagai "spam" atau "non-spam", Mengklasifikasikan kelas BPJS
kesehatan.
○ Teknik/model/metode: Naive Bayes, Decision Trees, Support Vector Machines (SVM), k-Nearest
Neighbors (k-NN), dan Logistic Regression
● Penggugusan (Clustering):
○ Contoh: menemukan aturan seperti "jika A dan B terjadi, maka C cenderung juga terjadi."
○ Teknik/model/metode: Apriori Algorithm dan FP-Growth
● Analisis Regresi (Regression Analysis):
○ Contoh: menemukan hubungan antara variabel dependen dan variabel independen untuk
melakukan prediksi nilai variabel dependen berdasarkan nilai variabel independen.
○ Teknik/model/metode: Linear Regression, Polynomial Regression, dan Neural Network
Regression
○ Contoh: mendeteksi anomali atau data yang tidak biasa yang berbeda dari pola umum
dalam data. Mendeteksi kejadian yang tidak biasa atau tidak diharapkan dalam transaksi
keuangan, jaringan komputer, atau kesehatan.
○ Teknik/model/metode: Density-Based Anomaly Detection, Isolation Forest, dan Local
Outlier Factor (LOF)
○ Contoh: menemukan pola-pola urutan yang terjadi berulang kali dalam data, seperti pola
pembelian pelanggan dari waktu ke waktu.
○ Teknik/model/metode: Linear Regression, Polynomial Regression, dan Neural Network
Regression
● Klasifikasi Berbasis Aturan (Rule-Based Classification): Teknik ini menggunakan aturan-aturan
logika untuk mengklasifikasikan data ke dalam kategori tertentu berdasarkan kondisi-kondisi
yang diberikan.
● Pemodelan Penggugusan (Cluster Modeling): Teknik ini berfokus pada memodelkan kelompok
data yang ada dalam bentuk geometris, seperti menggambarkan kelompok data dalam bentuk
lingkaran atau bentuk lainnya.
● Pembelajaran Mesin (Machine Learning): Teknik ini mencakup berbagai algoritma dan model
yang memungkinkan komputer untuk "belajar" dari data dan melakukan tugas tanpa perlu
diprogram secara eksplisit. Beberapa algoritma populer dalam Machine Learning adalah Decision
Trees, Support Vector Machines (SVM), Neural Networks, dan k-Nearest Neighbors (k-NN).
● Teknik Optimasi: Teknik ini digunakan untuk mencari solusi optimal dalam masalah-masalah
dengan berbagai kriteria atau batasan tertentu.
Contoh Produk Data Mining di
kepemerintahan gimana?
Analisa Tol-Laut Program
Pemerintah.
Proses Data
STEP 4
Mining
Pemilihan Model dan Penerapan
STEP 2
Algoritma
Pra pemprosesan dan Pembersihan Data
Pemilihan model sangat tergantung pada
Melakukan kategorisasi, normalisasi, standarisasi,
jenis masalah, tipe data, dan tujuan analisis.
membuang data yang jelek, dan lain-lain sesuai dengan
Beberapa contoh algoritma termasuk
kebutuhan.
Decision Trees, Naive Bayes, k-Nearest
Neighbors, k-Means, dan lainnya.
STEP 3
Analisis Data Terbuka (Exploratory Data Analysis - EDA)
Melakukan statistik deskriptif, melihat pola, hubungan, dan karakteristik menarik dalam
data. EDA membantu dalam mengidentifikasi pertanyaan-pertanyaan yang menarik
untuk ditindaklanjuti dalam tahap selanjutnya.
05. Masalah/kelemahan Data Mining
Terdapat beberapa hal yang mengganggu kesuksesan
data mining dan itu merupakan hal-hal yang lumrah
namun juga beresiko tinggi.
1. Isu Kualitas dan Integrasi Data
● Data Mining membutuhkan data yang berkualitas tinggi dan akurat untuk menghasilkan
hasil yang bermakna dan dapat diandalkan.
● Dalam lingkungan bisnis atau penelitian yang kompleks, data seringkali tersebar di
berbagai sumber, format, dan kualitas. Integrasi data dari berbagai sumber yang
heterogen menjadi tugas yang rumit.
● Ketika data yang buruk, tidak lengkap, atau tidak relevan digunakan dalam proses Data
Mining, hasilnya mungkin tidak akurat atau bahkan menyesatkan.
2. Privasi dan Isu Etika
● Data Mining dapat mengungkapkan informasi yang sensitif atau pribadi tentang individu
atau kelompok tertentu.
● Penggunaan data tanpa izin atau tanpa perlindungan privasi dapat menimbulkan
masalah hukum dan etika.
● Penting untuk memastikan bahwa data yang digunakan dalam Data Mining telah
diotentikasi, diotorisasi, dan dijaga privasinya agar tidak menimbulkan masalah bagi
individu atau organisasi yang terlibat.
3. Overfitting
● Overfitting adalah masalah umum dalam Data Mining dan Machine Learning, terutama
ketika model terlalu kompleks dan disesuaikan terlalu erat dengan data pelatihan.
● Dapat menyebabkan model berkinerja sangat baik pada data pelatihan, tetapi gagal
dalam melakukan prediksi yang akurat pada data baru atau uji.
● Overfitting dapat mengurangi generalisasi model dan menghasilkan hasil yang tidak
dapat diandalkan.
4. Pengendalian Data Besar (Big Data) dan
Scalability