Anda di halaman 1dari 15

Pengenalan

Data Mining
Capaian Belajar

1 2 3 4

Mampu Memahami Memahami Memahami


memahami proses-proses konsep konsep
konsep data dalam data klasifikasi clustering
mining mining
Data Mining •Merupakan langkah penting dalam
proses penemuan pengetahuan.

Proses dalam pencarian pola yang


menarik serta pengetahuan dari
data dalam jumlah yang besar.

•Sumber data termasuk database, data


warehouse, Web, repositori informasi,,
atau data yang langsung dimasukkan ke
dalam sistem secara dinamis.
Find Knowledge?
1. Data cleaning (to remove noise and inconsistent data)
2. Data integration (where multiple data sources may be
combined)
3. Data selection (where data relevant to the analysis task
are retrieved from the database)
4. Data transformation (where data are transformed and
consolidated into forms appropriate for mining by
performing summary or aggregation operations)
5. Data mining (an essential process where intelligent
methods are applied to extract data patterns)
6. Pattern evaluation (to identify the truly interesting
patterns representing knowledge based on
interestingness measures
7. Knowledge presentation (where visualization and
knowledge representation techniques are used to present
mined knowledge to users)
What Can Data Mining Do and Not Do?
Data mining sangat membantu dalam menentukan hubungan dan pola antar data, namun
hal tersebut tidak bekerja dengan sendirinya dan tidak mengeliminasi syarat-syarat
dalam memahami data, metode analisis, dan pengetahuan mengenai bisnis.
Data mining mengekstrak informasi tersembunyi dari data, tetapi tidak dapat menilai
nilai dari informasi tersebut.

Contoh:
Data mining dapat membantu dalam menentukan bahwa laki-laki dengan pendapatan antara
Rp. 4.000.000 - Rp. 10.000.000 dapat membeli produk sesuai hasil yang telah dianalisis.
Informasi tersebut dapat membantu dalam mengembangkan strategi pemasaran. Namun,
tidak semua populasi yang diidentifikasi melalui data mining tersebut akan membeli produk
tersebut dengan mudah hanya karena berada di kategori yang sama.
How Data Mining Works?
Data Mining Processes (I)
Tahap I -> Pendefinisian Masalah: memahami persyaratan
dan tujuan dari proyek tersebut dan diputuskan sebagai
masalah data mining.
Tahap II -> Pemahaman Data: Dalam tahap ini, data
dikumpulkan dari berbagai sumber, data tersebut dianalisis
dengan cermat untuk menentukan apakah data tersebut
akan mengatasi masalah bisnis atau tidak.
Tahap III -> Persiapan Data: tahap ini hampir memakan 90%
dari waktu proyek. Sumber data yang tersedia diidentifikasi,
dipilih, dibersihkan, dibangun dan diformat ke dalam bentuk
yang diinginkan untuk diproses lebih lanjut.
Data Mining Processes (II)
Tahap IV -> Pemodelan: Algoritma data mining yang berbeda
diterapkan untuk membangun model. Algoritma data mining yang
sesuai dipilih dan diterapkan pada data yang diberikan untuk
mencapai tujuan solusi yang diusulkan.
Tahap V -> Evaluasi: Hasil model dievaluasi untuk menentukan
apakah model tersebut menjawab permasalaha atau tidak. Data
yang diberikan dibagi menjadi set data pelatihan dan pengujian.
Model dilatih pada data pelatihan dan diuji pada data pengujian.
Jika akurasi model pada data pengujian tidak memadai maka
seseorang kembali ke tahap sebelumnya untuk menyempurnakan
area yang mungkin menjadi alasan akurasi rendah.
Tahap III -> Penerapan: pengetahuan atau informasiberharga yang
diperoleh dari data disajikan agar pemangku kepentingan dapat
menggunakannya untuk mengambil sebuah keputusan nantinya.
Data Mining Techniques
Classification
Prediction
Clustering
Estimation
Description
Association
Classification (Klasifikasi)

Dalam klasifikasi Contoh:


•Klasifikasi dan prediksi terdapat 2
adalah dua bentuk analisis kemungkinan yaitu: Perusahaan kartu kredit ingin meminjamkan
data yang dapat digunakan Ya sebuah pinjaman kepada nasabah, Riwayat
untuk mengekstrak model dari nasabah tersebut harus dianalisis yang
Tidak
terdiri dari pendapatan, pengeluaran,
yang menggambarkan kelas
tabungan dan lainnya yang dapat
data penting atau untuk
mempengaruhi dalam pengelompokan apakah
memprediksi tren data di nasabah tersebut akan menjadi nasabah yang
masa depan. berpotensi tidak membayar pinjaman maupun
sebaliknya [0=default,1=non-default].
Classification Case
Cluster adalah kumpulan record yang serupa satu sama

lain, dan berbeda dengan record di cluster lain.


Clustering Pengelompokan berbeda dari klasifikasi karena tidak ada

variabel target untuk pengelompokan.

Teknik ini digunakan untuk menganalisis objek data

tanpa label kelas

Pada beberapa kasus, label kelas bisa saja tidak muncul

diawal. Clustering dapat digunakan untuk menghasilkan

label kelas pada kelompok data.

Pengelompokan juga disebut segmentasi data di

beberapa aplikasi karena pengelompokan mempartisi

kumpulan data yang besar menjadi beberapa kelompok

sesuai dengan kemiripannya.


Clustering Case

Gambar di atas merupakan pengelompokan data pelanggan pada 3 lokasi dalam kota
yang sama.
Clustering sering dilakukan sebagai langkah awal dalam proses data mining, dengan
cluster yang dihasilkan digunakan sebagai input lebih lanjut ke teknik hilir yang
berbeda.
Do you have any questions?
Alhamdulillah

Anda mungkin juga menyukai