Anda di halaman 1dari 47

Data Mining

Mengungkap insight tersembunyi dalam lautan data


Muhammad Rheza Muztahid (Boge)
United Nations Global Pulse - Asia Pacific
Program Akademi Talenta - Aparatur Sipil Negara
8 Agustus 2023
Data is the new gold,
we must mine it!
Artificial Intelligence (9 Agustus) Cloud Computing (Done 7 Agustus)
Penggunaan cloud computing untuk media
Suatu produk akhir dari data mining khususnya
penyimpanan data, dan pemrosesan data.
yang menggunakan metode Machine learning

Data Mining (Today)


Proses menambang wawasan ataupun
Big Data (10 Agustus)
informasi berharga dari Big Data. terdapat
teknik yang menarik di dalamnya salah Penggunaan sistem secara continue akan
satunya adalah Machine learning, suatu menghasilkan data yang semakin besar pada
teknik penghasil produk Artificial storage cloud, sehingga menjadi Big Data.
Intelligence

Big Data Analysis (10 Agustus)


Analisis data yang berfokus pada pengolahan dan analisis dataset yang sangat
besar dan kompleks, yang sering kali tidak terstruktur dan memerlukan
pendekatan khusus untuk menanganinya.
01. Apa itu Data Mining?
Data Mining, atau Penambangan Data, merujuk kepada
proses penyelidikan dan analisis data besar untuk
menggambarkan pola, insight/wawasan, dan
pengetahuan yang berharga yang tersembunyi di dalam
set data yang kompleks.
Era digital perlu Data Mining.
Menambang informasi, pola, dan tren yang berguna dari ladang data mentah.
Sejak kapan namanya jadi Data Mining?
Dulu hanya disebut sebagai analisa data atau statistik. Sejak tahun 1990, karena
jumlah data yang tersimpan dalam basis data (database) semakin besar dan
beragam, muncullah istilah data mining.

Kenapa pakai istilah Mining/tambang?


Seperti penambangan sumber daya alam, proses Data Mining juga melibatkan
ekstraksi informasi yang berharga dari kumpulan data yang besar dan rumit. Data
Mining berusaha untuk "menambang" pengetahuan berharga dari data.
Bukannya yang berkaitan dengan data itu
selalu disebut data analisis dan statistik?
Data mining ini apa lagi? Siapanya data analisis? dan apanya data statistik?
Objective Data Mining Data Analisis Statistik Informasi

Menentukan apa saja Menyiapkan data yang Mengolah data yang Menentukan wawasan Kebijakan yang
yang ingin dicari atau ada dari kumpulan atau telah dipilih. dari data yang telah didukung dengan data
ditemukan ? tumpukan data-data diolah. visualisasi.
yang kompleks. Output data analisis
adalah hipotesis atau Merupakan output dari
Memilah dan memilih wawasan yang proses data analisis.
sesuatu yang diverifikasi berdasarkan
tersembunyi data. Wawasan dari data
yang ada.
Proses penggalian Membutuhkan keahlian
informasi, pola, dan dalam ilmu komputer, Digunakan untuk
tren yang berguna dari matematika, statistik, mengkaji kebijakan
data mentah. AI.
Tapi, ada beberapa literatur bilang data mining dan data analisis
itu berbeda. Ada juga yang bilang sama. Gimana sih?
Ok, Mari kita pahami data mining dan kawan-kawannya dengan beranalogi !
Objective Data Mining Data Analisis Statistik Informasi

Proses
Peleburan dan
Tujuan Gold Mining pemisahan Packaging
pencetakan
emas murni

Menghasilkan emas Proses pendulangan Filterisasi atau Butiran-butiran emas Packaging dan
murni atau mengambil emas pelindian. Dimana murni hasil pemisahan sertifikasi.
dari tumpukan bahan emas murni harus dileburkan dengan
alam di area tambang. dipisahkan dari jumlah tertentu dan
senyawa lain. dicetak kembali dalam
bentuk yang telah
Terdapat banyak teknik ditentukan.
untuk memisahkan
emas murni dari hasil
tambang lain.
Objective Data Mining Data Analisis Statistik Informasi

Proses
Peleburan dan
Tujuan Gold Mining pemisahan Packaging
pencetakan
emas murni

Terkadang kata “data mining” dimaksudkan sebagai seluruh proses dari hulu ke
hilir. Begitu juga dengan kata “Penambangan emas” di-interpretasikan sebagai
seluruh proses pembuatan emas batangan.
Karena teknologi berkembang sangat pesat dalam 3 dekade ini, metode-metode
analisa data pun berkembang sehingga ada pergeseran interpretasi (gagasan)
terhadap data mining itu sendiri.

Pergeseran interpretasi juga bisa terjadi karena tahapan proses data mining
berbeda-beda disetiap organisasi, bergantung pada kompleksitas data yang
dimiliki.
Itu sebabnya, Kalau mencari pengertian dan tahapan data mining di
internet, hasilnya bisa berbeda-beda.

https://businesspostbd.com/files/media/daily-media/2022/03/29/1.jpg https://tutorialshut.com/wp-content/uploads/2021/02/Data-Mining-768x685.png
menurut saya, Data mining adalah:

“Suatu kegiatan untuk menambang atau menggali informasi pada


kumpulan data yang besar dengan menggunakan berbagai metode data
analisis seperti statistik dan/atau ilmu komputer”
02. Kenapa dan kapan
kita butuh data mining?
Kita memerlukan Data Mining ketika kita berhadapan
dengan data yang besar dan kompleks, dan kita ingin
menemukan pola, wawasan, dan pengetahuan yang tidak
dapat ditemukan melalui analisis manual biasa.
Kita butuh Data Mining
Untuk mengambil nilai dan wawasan yang berharga dari kumpulan data
yang besar dan kompleks. bukan hanya sekedar informasi min, max,
average, dan kawan-kawan.
Berbagai kegunaan data mining

● Identifikasi Pola dan Tren: menemukan pola pembelian tertentu oleh pelanggan.

● Ramalan dan Prediksi: di bidang keuangan, kita dapat menggunakan Data Mining untuk
meramalkan pergerakan pasar atau tingkat keberhasilan investasi.

● Segmentasi Pelanggan: kita ingin menyesuaikan strategi pemasaran dan layanan untuk
melayani setiap kelompok umur dan gender dengan lebih baik.

● Penemuan Peraturan Asosiasi: dalam data transaksi belanja, kita dapat menemukan aturan
seperti "jika pelanggan membeli produk A, mereka cenderung juga membeli produk B."

● Pengenalan Anomali: Data Mining dapat membantu mendeteksi kecurangan atau aktivitas
penipuan yang tidak wajar.

● Pengoptimasian Proses: kita dapat menggunakan Data Mining untuk mengidentifikasi


langkah-langkah dalam rantai pasokan yang memerlukan perbaikan.

● Pengambilan Keputusan: mencari wawasan yang berharga untuk mendukung pengambilan


keputusan yang lebih cerdas dan berdasarkan bukti.
Sepertinya data mining lebih untuk private company deh..,
Kenapa Pemerintah perlu faham Data Mining?
Karena masyarakat semakin kritis.
Pemerintah harus membuat kebijakan berdasarkan DATA.

“Data-driven policy making”


Sepertinya saya belum menjadi pemimpin yang memutuskan kebijakan, untuk apa
saya faham data mining ?

“Pembuatan Laporan, Presentasi, serta Berargumentasi”


Karena kalimat yang diawali “berdasarkan data..” selalu sexy
03. Contoh data mining dan tekniknya
di kepemerintahan
Dalam konteks kepemerintahan, Data Mining dapat
menjadi alat yang kuat untuk mengoptimalkan
pengambilan keputusan dan memberikan manfaat bagi
masyarakat.
Kaya gini kan contoh data mining? ini mah kita sering bikin..
Bukan!..
Dalam konteks sederhana, Produk-produk ini disebut:
statistik deskriptif
Kaya gini nih data mining..
Kaya gini nih data mining..
Kaya gini nih data mining..
Setiap tugas data mining memiliki metode-metode
tertentu untuk menyelesaikannya
Contoh 10 tugas data mining

● Klasifikasi (Classification):

○ Contoh: Mengklasifikasikan email sebagai "spam" atau "non-spam", Mengklasifikasikan kelas BPJS
kesehatan.
○ Teknik/model/metode: Naive Bayes, Decision Trees, Support Vector Machines (SVM), k-Nearest
Neighbors (k-NN), dan Logistic Regression

● Penggugusan (Clustering):

○ Contoh: mengelompokkan pelanggan berdasarkan pola pembelian mereka. Mengelompokkan kelas


ekonomi masyarakat.
○ Teknik/model/metode: k-Means Clustering, Hierarchical Clustering, dan DBSCAN

● Penemuan Peraturan Asosiasi (Association Rule Mining):

○ Contoh: menemukan aturan seperti "jika A dan B terjadi, maka C cenderung juga terjadi."
○ Teknik/model/metode: Apriori Algorithm dan FP-Growth
● Analisis Regresi (Regression Analysis):

○ Contoh: menemukan hubungan antara variabel dependen dan variabel independen untuk
melakukan prediksi nilai variabel dependen berdasarkan nilai variabel independen.
○ Teknik/model/metode: Linear Regression, Polynomial Regression, dan Neural Network
Regression

● Pengenalan Anomali (Anomaly Detection):

○ Contoh: mendeteksi anomali atau data yang tidak biasa yang berbeda dari pola umum
dalam data. Mendeteksi kejadian yang tidak biasa atau tidak diharapkan dalam transaksi
keuangan, jaringan komputer, atau kesehatan.
○ Teknik/model/metode: Density-Based Anomaly Detection, Isolation Forest, dan Local
Outlier Factor (LOF)

● Penggalian Urutan (Sequential Pattern Mining):.

○ Contoh: menemukan pola-pola urutan yang terjadi berulang kali dalam data, seperti pola
pembelian pelanggan dari waktu ke waktu.
○ Teknik/model/metode: Linear Regression, Polynomial Regression, dan Neural Network
Regression
● Klasifikasi Berbasis Aturan (Rule-Based Classification): Teknik ini menggunakan aturan-aturan
logika untuk mengklasifikasikan data ke dalam kategori tertentu berdasarkan kondisi-kondisi
yang diberikan.

● Pemodelan Penggugusan (Cluster Modeling): Teknik ini berfokus pada memodelkan kelompok
data yang ada dalam bentuk geometris, seperti menggambarkan kelompok data dalam bentuk
lingkaran atau bentuk lainnya.

● Pembelajaran Mesin (Machine Learning): Teknik ini mencakup berbagai algoritma dan model
yang memungkinkan komputer untuk "belajar" dari data dan melakukan tugas tanpa perlu
diprogram secara eksplisit. Beberapa algoritma populer dalam Machine Learning adalah Decision
Trees, Support Vector Machines (SVM), Neural Networks, dan k-Nearest Neighbors (k-NN).

● Teknik Optimasi: Teknik ini digunakan untuk mencari solusi optimal dalam masalah-masalah
dengan berbagai kriteria atau batasan tertentu.
Contoh Produk Data Mining di
kepemerintahan gimana?
Analisa Tol-Laut Program
Pemerintah.

Garis Biru mengindikasikan tol


laut telah berjalan dengan baik.
04. Tahapan proses Data Mining
Proses Data Mining adalah rangkaian langkah-langkah
untuk mengekstrak informasi yang berharga dan pola
tersembunyi dari data.
STEP 5
STEP 1
Penilaian Hasil
Pengumpulan dan Integrasi Data
Evaluasi, menggunakan metrik evaluasi
Bagaimana kita mengumpulkan data dan
yang relevan untuk mengukur kinerja model
menggabungkan data-data yang berkaitan
dan memahami sejauh mana model
berhasil mencapai objectives.

Proses Data
STEP 4
Mining
Pemilihan Model dan Penerapan
STEP 2
Algoritma
Pra pemprosesan dan Pembersihan Data
Pemilihan model sangat tergantung pada
Melakukan kategorisasi, normalisasi, standarisasi,
jenis masalah, tipe data, dan tujuan analisis.
membuang data yang jelek, dan lain-lain sesuai dengan
Beberapa contoh algoritma termasuk
kebutuhan.
Decision Trees, Naive Bayes, k-Nearest
Neighbors, k-Means, dan lainnya.

STEP 3
Analisis Data Terbuka (Exploratory Data Analysis - EDA)
Melakukan statistik deskriptif, melihat pola, hubungan, dan karakteristik menarik dalam
data. EDA membantu dalam mengidentifikasi pertanyaan-pertanyaan yang menarik
untuk ditindaklanjuti dalam tahap selanjutnya.
05. Masalah/kelemahan Data Mining
Terdapat beberapa hal yang mengganggu kesuksesan
data mining dan itu merupakan hal-hal yang lumrah
namun juga beresiko tinggi.
1. Isu Kualitas dan Integrasi Data
● Data Mining membutuhkan data yang berkualitas tinggi dan akurat untuk menghasilkan
hasil yang bermakna dan dapat diandalkan.

● Dalam lingkungan bisnis atau penelitian yang kompleks, data seringkali tersebar di
berbagai sumber, format, dan kualitas. Integrasi data dari berbagai sumber yang
heterogen menjadi tugas yang rumit.

● Ketika data yang buruk, tidak lengkap, atau tidak relevan digunakan dalam proses Data
Mining, hasilnya mungkin tidak akurat atau bahkan menyesatkan.
2. Privasi dan Isu Etika
● Data Mining dapat mengungkapkan informasi yang sensitif atau pribadi tentang individu
atau kelompok tertentu.

● Penggunaan data tanpa izin atau tanpa perlindungan privasi dapat menimbulkan
masalah hukum dan etika.

● Penting untuk memastikan bahwa data yang digunakan dalam Data Mining telah
diotentikasi, diotorisasi, dan dijaga privasinya agar tidak menimbulkan masalah bagi
individu atau organisasi yang terlibat.
3. Overfitting
● Overfitting adalah masalah umum dalam Data Mining dan Machine Learning, terutama
ketika model terlalu kompleks dan disesuaikan terlalu erat dengan data pelatihan.

● Dapat menyebabkan model berkinerja sangat baik pada data pelatihan, tetapi gagal
dalam melakukan prediksi yang akurat pada data baru atau uji.

● Overfitting dapat mengurangi generalisasi model dan menghasilkan hasil yang tidak
dapat diandalkan.
4. Pengendalian Data Besar (Big Data) dan
Scalability

● Akan dibahas di tanggal 10. 😋


● Hint: kalau size datanya 10 GB, gimana cara bukanya? MS.Excel pun not responding
07. Keterkaitan dengan Pembahasan lain
Artificial Intelligence (9 Agustus) Cloud Computing (done 7 Agustus)
Penggunaan cloud computing untuk media
Suatu produk akhir dari data mining khususnya
penyimpanan data, dan pemrosesan data.
yang menggunakan metode Machine learning

Data Mining (Today)


Proses menambang wawasan ataupun
Big Data (10 Agustus)
informasi berharga dari Big Data. terdapat
teknik yang menarik di dalamnya salah Penggunaan sistem secara continue akan
satunya adalah Machine learning, suatu menghasilkan data yang semakin besar pada
teknik penghasil produk Artificial storage cloud, sehingga menjadi Big Data.
Intelligence

Big Data Analysis (10 Agustus)


Analisis data yang berfokus pada pengolahan dan analisis dataset yang sangat
besar dan kompleks, yang sering kali tidak terstruktur dan memerlukan
pendekatan khusus untuk menanganinya.
Yuk, kita diskusi!

Anda mungkin juga menyukai