Anda di halaman 1dari 6

Definisi Data Mining

Data mining atau penggalian data merupakan proses yang memperkerjakan satu atau lebih teknik (pola) pembelajaran
komputer untuk mengekstraksi serta menganalisis suatu pengetahuan dengan cara otomatis. Definisi lain ialah
pembelajaran berbasis induksi (induction-based learning) merupakan proses pembentukan definisi konsep umum yang
dilakukan dengan cara mengobservasi contoh spesifik dari konsep-konsep yang akan dipelajari. Knoeledge Discovery in
Database (KDD) merupakan sebuah penerapan metode saintifik pada data mining. Dalam konteks ini data mining adalah
satu langkah dari proses KDD.

Data mining mempunyai beberapa nama alternatif, walaupun definisi eksaknya berbeda, sperto KDD, analisis pola,
arkeologi data, intelegensia bisnis, serta pemanenan informasi. Data mining diperlukan pada saat data tersedia terlalu
banyak (contohnya data yang didapat dari sistem basis data perusahaan, e-commerce, data bionformatika, serta data
saham), namun tidak tahu pola apa yang bisa didapatkan.

Latar Belakang dari Data Mining

Perkembangan yang sangat pesat pada bidang pengumpulan data serta teknologi penyimpanan di berbagai bidang, yang
dapat menghasilkan basis data yang terlalu besar. Tetapi, data yang sudah dikumpulkan jarang dilihat lagi, sebab terlalu
panjang, membosankan, serta tidak menarik. Sering, keputusan yang katanya berdasarkan data- bibuat tidak lagi
berdasarkand ata, namun dari intuisi para pembuat keputusan, sehingga, lahirlah cabang ilmu penggalian data tersebut.

Analisis data tanpa memakai otomasi dari penggalian data merupakan hal yang tidak memungkinkan lagi, jika 1) data
terlalu banyak 2) dimensionalitas data terlalu besar, 3) data terlampau kompleks untuk dianalisis manual ( contohnya:
data time series, data spatiotemporal, data multimedia, data streams).

Proses Pencarian Pola

Penggalian data adalah salah satu bagian dari proses pencarian pola. Berikut ini urutan proses pencarian pola:

Pembersihan Data: yaitu menghapus data pengganggu (noise) dan mengisi data yang hilang.

Integrasi Data: yaitu menggabungkan berbagai sumber data.

Pemilihan Data: yaitu memilih data yang relevan.

Transformasi Data: yaitu mentransformasi data ke dalam format untuk diproses dalam penggalian data.

Penggalian Data: yaitu menerapkan metode cerdas untuk ekstraksi pola.

Evaluasi pola: yaitu mengenali pola-pola yang menarik saja.

Penyajian pola: yaitu memvisualisasi pola ke pengguna.


TAHAP-TAHAP DATA MINING

Sebagai suatu rangkaian proses, data mining dapat dibagi menjadi beberapa tahap. Tahap-tahap tersebut bersifat
interaktif di mana pemakai terlibat langsung atau dengan perantaraan knowledge base. Tahapan-tahapan tersebut,
diantaranya :

1.Pembersihan data

Pada umumnya data yang diperoleh, baik dari database suatu perusahaan maupun hasil eksperimen, memiliki isian-isian
yang tidak sempurna seperti data yang hilang, data yang tidak valid atau juga hanya sekedar salah ketik. Selain itu, ada
juga atribut-atribut data yang tidak relevan dengan hipotesa data mining yang kita miliki. Data-data yang tidak relevan itu
juga lebih baik dibuang karena keberadaannya bisa mengurangi mutu atau akurasi dari hasil data mining nantinya.
Garbage in garbage out (hanya sampah yang akan dihasilkan bila yang dimasukkan juga sampah) merupakan istilah yang
sering dipakai untuk menggambarkan tahap ini. Pembersihan data juga akan mempengaruhi performasi dari sistem data
mining karena data yang ditangani akan berkurang jumlah dan kompleksitasnya.

2.Integrasi data

Integrasi data dilakukan pada atribut-aribut yang mengidentifikasikan entitas-entitas yang unik seperti atribut nama, jenis
produk, nomor pelanggan dsb. Integrasi data perlu dilakukan secara cermat karena kesalahan pada integrasi data bisa
menghasilkan hasil yang menyimpang dan bahkan menyesatkan pengambilan aksi nantinya. Sebagai contoh bila integrasi
data berdasarkan jenis produk ternyata menggabungkan produk dari kategori yang berbeda maka akan didapatkan
korelasi antar produk yang sebenarnya tidak ada. Dalam integrasi data ini juga perlu dilakukan transformasi dan
pembersihan data karena seringkali data dari dua database berbeda tidak sama cara penulisannya atau bahkan data yang
ada di satu database ternyata tidak ada di database lainnya.
3.Transformasi data

Beberapa teknik data mining membutuhkan format data yang khusus sebelum bisa diaplikasikan. Sebagai contoh
beberapa teknik standar seperti analisis asosiasi dan klastering hanya bisa menerima input data kategorikal. Karenanya
data berupa angka numerik yang berlanjut perlu dibagi-bagi menjadi beberapa interval. Proses ini sering disebut binning.
Disini juga dilakukan pemilihan data yang diperlukan oleh teknik data mining yang dipakai. Transformasi dan pemilihan
data ini juga menentukan kualitas dari hasil data mining nantinya karena ada beberapa karakteristik dari teknik-teknik
data mining tertentu yang tergantung pada tahapan ini.

4.Aplikasi teknik data mining

Aplikasi teknik data mining sendiri hanya merupakan salah satu bagian dari proses data mining. Ada beberapa teknik data
mining yang sudah umum dipakai. Kita akan membahas lebih jauh mengenai teknik-teknik yang ada di seksi berikutnya.
Perlu diperhatikan bahwa ada kalanya teknik-teknik data mining umum yang tersedia di pasar tidak mencukupi untuk
melaksanakan data mining di bidang tertentu atau untuk data tertentu. Sebagai contoh akhir-akhir ini dikembangkan
berbagai teknik data mining baru untuk penerapan di bidang bioinformatika seperti analisa hasil microarray untuk
mengidentifikasi DNA dan fungsi-fungsinya.

5.Evaluasi pola yang ditemukan

Dalam tahap ini hasil dari teknik data mining berupa pola-pola yang khas maupun model prediksi dievaluasi untuk menilai
apakah hipotesa yang ada memang tercapai. Bila ternyata hasil yang diperoleh tidak sesuai hipotesa ada beberapa
alternatif yang dapat diambil seperti : menjadikannya umpan balik untuk memperbaiki proses data mining, mencoba
teknik data mining lain yang lebih sesuai, atau menerima hasil ini sebagai suatu hasil yang di luar dugaan yang mungkin
bermanfaat.

6.Presentasi pola yang ditemukan untuk menghasilkan aksi

Tahap terakhir dari proses data mining adalah bagaimana memformulasikan keputusan atau aksi dari hasil analisa yang
didapat. Ada kalanya hal ini harus melibatkan orang-orang yang tidak memahami data mining. Karenanya presentasi hasil
data mining dalam bentuk pengetahuan yang bisa dipahami semua orang adalah satu tahapan yang diperlukan dalam
proses data mining. Dalam presentasi ini, visualisasi juga bisa membantu mengkomunikasikan hasil data mining.

Jenis-jenis DataMining:
1. Market Basket Analysis

Himpunan data yang dijadikan sebagai objek penelitan pada area data mining. Market basket analysis adalah proses untuk
menganalisis kebiasaan pelanggan dalam menyimpan item-item yang akan dibeli ke dalam keranjang belanjaannya.
Market basket analysis memanfaatkan data transaksi penjualan untuk dianalisis sehingga dapat ditemukan pola berupa
item-item yang cenderung muncul bersama dalam sebuah transaksi. Selanjutnya pola yang ditemukan dapat
dimanfaatkan untuk merancang strategi penjualan atau pemasaran yang efektif, yaitu dengan menempatkan item-item
yang sering dibeli bersamaan ke dalam sebuah area yang berdekatan, merancang tampilan item-item di katalog,
merancang kupon diskon (untuk diberikan kepada pelanggan yang membeli item tertentu), merancang penjualan item-
item dalam bentuk paket, dan sebagainya. Dengan menggunakan teknologi data mining, analisis data secara manual tidak
diperlukan lagi.

2. Memory-Based Reasoning

Metode klasifikasi yang digabungkan dengan penalaran berbasis memori. proses menggunakan satu set data untuk
membuat model dari prediksi atau asumsi-asumsi yang dapat dibuat tentang objek baru yang diperkenalkan. Ada dua
komponen dasar untuk metode MBR. Yang pertama adalah kesamaan fungsi, yang mengukur bagaimana anggota yang
sama dari setiap pasangan object satu sama lain. Yang kedua adalah fungsi kombinasi, yang digunakan untuk
menggabungkan hasil dari himpunan tetangga untuk sampai pada keputusan.

3. Cluster Detection

Ada dua pendekatan untuk clustering. Pendekatan pertama adalah dengan mengasumsikan bahwa sejumlah cluster sudah
tersimpan dalam data, tujuannya adalah untuk memecah data ke dalam cluster. Pendekatan lain, disebut clustering
agglomerative, dengan asumsi keberadaan setiap jumlah yang telah ditetapkan cluster tertentu, setiap item keluar di
cluster sendiri, dan proses terjadi berulang-ulang yang berupaya untuk menggabungkan cluster, meskipun proses
komputasi sama.

4. Link Analysis

proses mencari dan membangun hubungan antara object dalam kumpulan data juga mencirikan sifat yang terkait dengan
hubungan antara dua object. Link Analysis berguna untuk aplikasi analitis yang mengandalkan teori grafik untuk
mengambil kesimpulan. Selain itu Link Analysis berguna untuk proses optimasi.

5. Rule Induction

Ekstraksi aturan sebab-akibat dari data secara statistic. identifikasi aturan bisnis yang tersimpan di dalam data. Metode
berhubungan dengan induksi aturan yang digunakan untuk proses penemuan. Salah satu pendekatan untuk penemuan
aturan adalah menggunakan pohon keputusan.

6. Neural Networks

model prediksi non linear yang melakukan pembelajaran melalui latihan dan menyerupai struktur jaringan nerual yang
terdapat pada mahluk hidup. Mampu menurunkan pengertian dari data yang kompleks dan tidak jelas dan dapat
digunakan pula untuk mengekstrak pola dan mendeteksi tren2 yang sangat kompleks untuk dibicarakan baik oleh manusia
maupun teknik komputer lainnya.

Preprocessing & Teknik pengukuran data


sebelum melakukan data mining perlu dilakukan pre processing untuk memastikan data yang akan diolah di data mining
adalah data yang baik. data yang kualitasnya kurang baik, dapat disebabkan oleh beberapa hal yaitu

1.tidak lengkap, data kolom tertentu tidak ada atau banyak data yang hilang

2.noisy, adanya data yang lain sendiri dibandingkan dengan data yang lain (random error atau varian)

3.tidak konsisten, tidak sesuai dengan rule tertentu

Untuk mengatasi masalah data tersebut, dilakukan pre-processing terhadap data sebelum diolah dengan data mining. pre
processing dapat dilakukan dengan beberapa teknik yaitu

1.cleaning memperkecil jumlah data yang hilang atau berbeda, dapat dilakukan dengan mengisi data yang hilang dengan
default value

2.mengisi data secara manual, misal: trace ulang transaksi untuk mengetahui data yang hilang

4.mengisi dengan rata-rata atribut tersebut, misal: gaji pegawai yang kosong diisi dengan rata-rata gaji pegawai

5.mengisi dengan rata-rata suatu atribut untuk kelas yang sama, misal: gaji pegawai yang kosong diisi dengan rata-rata
gaji pegawai yang memiliki jabatan yang sama
6.menggunakan regresi, prediksi berdasarkan dua variabel yang lain, misal: mengisi gaji pegawai yang kosong dengan
nilai prediksi dengan regresi berdasarkan jabatan dan lama masa kerja

7.menghilangkan baris yang mengandung data yang hilang. misal: menghilangkan data pegawai yang gaji pegawainya
kosong

8.binning by means, menggunakan rata-rata pengelompokkan. misal: sorted data dibagi menjadi beberapa kelompok,
dan dicari rata-rata masing2 kelompok untuk mengganti setiap data yang ada, sesuai dengan kelompoknya. misal data
dari kelompok A diganti dengana rata-rata kelompok A

9.binning by range boundries, menggunakan batas terdekat suatu kelompok data, misal: sorted data dibagi menjadi
beberapa kelompok, di cari nilai minimum dan maximum dari masing-masing kelompok, lalu gantikan tiap nilai di suatu
kelompok dengan batas atas atau batas bawah kelompoknya, sesuai dengan yang paling dekat.

9.mencari dan menghilangkan outlier dengan pengelompokan atau regresi

Binning merupakan mengganti suatu nilai outlier dengan nilai yang lebih sesuai dengan data lain yang ada di sekitar data
outlier tersebut (local smoothing)

Integrasi merupakan menggabungkan beberapa sumber data sehingga dapat saling melengkapi. data perlu digabungkan
dengan key yang sesuai. key ini mungkin memiliki nama yang berbeda di sumber data yang berbeda. misal di tabel a
menggunakan nama atribut ‘id’, di tabel b menggunakan nama atribut ‘nomor’, atau satuan yang digunakan untuk konsep
yang sama (misal harga) disimpan dalam juta dan ribu.

Transformasi adalah mengubah data yang kompleks dengan tidak menghilangkan isi, sehingga lebih mudah diolah,
dilakukan dengan cara

1.smoothing (binning, clustering dan regresi)

2.agregasi (summarize, menggunakaan dimensi yang lebih general (cube construction ))

3.generalisasi, misal menggunakan dimensi propinsi daripada kabupaten atau grouping (hirarki konsep)

normalisasi, mengelompokkan data sesuai skala tertentu, misal IPK.

 normalisasi min-max, standarisasi data dengan menempatkan data dalam range 0 sampai 1, nilai terkecil sebagai
0, dan nilai

terbesar sebagai 1. nilai baru = ((nilai lama – nilai minimal) / (nilai maksimal – nilai minimal))
(range maksimal – range minimal) +

range minimal. range minimal = 0, range maksimal = 1.

 normalisasi z-index, nilai baru = (nilai lama – rata-rata)/standar deviasi


 normalisasi skala desimal, nilai baru = nilai lama / 10 ^ x,

diskretisasi adalah membagi nilai data menjadi beberapa range data, dilakukan dengan cara

1.binning, seperti di atas

2.hirarki konsep, misal mengelompokkan harga produk menjadi, mahal, biasa, murah

reduksi mengurangi jumlah data sehingga resource yang digunakan lebih sedikit, sehingga prosesnya dapat lebih cepat
dilakukan dengan cara:
1.sampling/generalisasi,

2.agregasi, seperti agregasi pada transformasi. data ribuan memiliki volume byte yang lebih kecil daripada data jutaan

3.mengurangi atribut yang tidak perlu (korelasi yang rendah terhadap keseluruhan data),

4.misal nomor telepon, nama ibu atau nama jalan. jika data set memiliki atribut sejumlah n, maka ada 2^n kemungkinan
korelasi antar atribut

5.kompresi data,

Statistik Data & Visualisasi Data

Anda mungkin juga menyukai