Oleh:
HERDIN HIDAYAT
(1602011011)
2020
A. Pengertian Data Mining
Salah satu tuntutunan dari data mining ketika diterapkan pada data
berskala besar adalah diperlukan metodologi sistematis tidak hanya ketika
melakukan analisa saja tetapi juga ketika mempersiapkan data dan juga
melakukan interpretasi dari hasilnya sehingga dapat menjadi aksi ataupun
kepurusan yang bermanfaat.
1. Data selection
Pemilihan (seleksi) data dari sekumpulan data operasional perlu
dilakukan sebelum tahap penggalian informasi dalam KDD dimulai. Data
hasil seleksi yang digunakan untuk proses data mining, disimpan dalam
suatu berkas, terpisah dari basis data operasional.
2. Pre-processing / cleaning
Sebelum proses data mining dapat dilaksanakan, perlu dilakukan proses
cleaning pada data yang menjadi fokus KDD. Proses cleaning mencakup
antara lain membuang duplikasi data, memeriksa data yang inkonsisten,
dan memperbaiki kesalahan pada data.
3. Transformation
Coding adalah proses transformasi pada data yang telah dipilih, sehingga
data tersebut sesuai untuk proses data mining. Proses coding dalam KDD
merupakan proses kreatif dan sangat tergantung pada jenis atau pola
informasi yang akan dicari dalam basis data.
4. Data mining
Data mining adalah proses mencari pola atau informasi menarik dalam
data terpilih dengan menggunakan teknik atau metode tertentu. Teknik,
metode, atau algoritma dalam data mining sangat bervariasi. Pemilihan
metode atau algoritma yang tepat sangat bergantung pada tujuan dan
proses KDD secara keseluruhan.
5. Interpretation / evalution
Pola informasi yang dihasilkan dari proses data mining perlu ditampilkan
dalam bentuk yang mudah dimengerti oleh pihak yang berkepentingan.
Tahap ini merupakan bagian dari proses KDD yang disebut
interpretation. Tahap ini mencakup pemeriksaan apakah pola atau
informasi yang ditemukan bertentangan dengan fakta atau hipotesis yang
ada sebelumnya.
6. Knowledge Pengetahuan
(Knowledge) yang dapat diketahui dari serangkaian proses
penambangan data. Dan ini adalah bagian akhir dari Data mining.
B. pengertian Clustering
D
imana :
P : dimensi data
Lp (Minkowski) distance space yang merupakan generalisasi dari
beberapa distance space yang ada seperti L1 (Manhattan/City
Block) dan L2 (Euclidean), juga telah diimplementasikan. Tetapi
secara umum distance space yang sering digunakan adalah
manhattan dan Euclidean. Euclidean sering digunakan karena
perhitungan jarak dalam distance space ini merupakan jarak
terpendek yang bisa didapatkan antara dua titik yang
diperhitungkan, sedangkan Mahanttan seringd igunakan karena
kemampuannya dalam mendeteksi keadaan khusus seperti
keberadaan outliers dengan lebih baik.
Proses algoritma K-Means sebagai berikut :
1. Pilih secara acak objek sebanyak k, objek-objek tersebut akan
dipresentasikan sebagai mean pada cluster.
2. Untuk setiap objek dimasukkan ke dalam cluster yang tingkat
kemiripan objek terhadap cluster tersebut tinggi. Tingkat
kemiripan ditentukan denganjarak objek terhadap mean atau
centroid cluster tersebut. Semakin dekatjarak objek tersebut
dengan mean semakin mirip pula karakteristik objek dengan
mean.
3. Hitung nilai centroid yang baru pada masing-masing cluster
yang terbentuk. Proses algoritma K-Means dapat seperti
dijabarkan dalam flowchart berikut :