Data Mining adalah serangkaian proses pencarian sebuah informasi secara otomatis yang tidak
diketahuin secara manual dari suata basis data. Data mining digunakan untuk mencari pengetahuan
yang ada didalam basis data yang berukuran besar. Istilah lain yang sering digunakan diantaranya
knowledge discovery (mining) in database (KDD), knowledge extraction, data/pattern analysis, data
archeology dan business intelligence. Proses pencarian pengetahuan ini menggunakan beberapa
teknik pembelajaran komputer untuk menganalisisnya. Ada dua sifat proses pencarian tersebut, yaitu
iteratif dan interaktif. Keseluruhan proses KDD untuk konversi raw data ke dalam informasi yang
berguna ditunjukkan dalam gambar berikut.
Information Postprocessing
Manfaat
Pemanfaatan data mining dapat dilihat dari dua sudut pandang, yaitu :
Arsitektur sebuah sistem data mining dapat dilihat dalam gambar berikut.
sebuah
Graphical user interface
Pattern evaluation
Knowledge-base
Database or data warehouse server
DATA
DATABASES
WAREHOUSE
Fungsi-fungsi Data Mining
1. Association
>> merupakan proses untuk menemukan aturan asisiatif antara suatu kombinasi item dalam
suatu web.
2. Secuence
>> hampir sama dengan association bedanya secuence diterapkan lebih dari satu periode.
3. Clastering
>> merupakan proses pengelompokkan sejumlah data kedalam kelompok data (klaster)
sehingga setiap klaster akan berisi data yang saling mirip.
4. Classification
>> merupakan proses penemuan model atau fungsi yang menjelaskan konsep, dengan tujuan
untuk data memperkirakan kelas dari suatu objek yang labelnya tidak diketahui.
5. Regretion
>> merupakan proses pemetaan data dalam suatu nilai prediksi.
6. Forecasting
>> merupakan proses pengestimasian nilai prediksi berdasarkan pola-pola didalam
sekumpulan data.
7. Solution
>> merupakan proses penemuan akar masalah dan problem solving dari persoalan yang
dihadapi.
APLIKASI DARI DATA CLASSIFICATION
1) Definisi Klasifikasi
Klasifikasi merupakan suatu proses untuk menyatakan suatu objek ke salah satu kategori yang
sudah didefinisikan sebelumnya. Tujuannya adalah record-record yang sebelumnya tidak
terlihat dinyatakan kelasnya seakurat mungkin.
Model
Menentukan
banyaknya cluster (k)
Menentukan centroid
Centroid Tidak
berubah Selesai
ya
Mengelompokan data
berdasarkan jarak
terdekat