Sebagai contoh lain kasus data mining yaitu misalnya dalam bidang pemasaran, sebelum
sebuah perusahaan mengeluarkan suatu produk baru kepasaran, perusahaan tersebut harus
memiliki informasi tentang kecenderungan pelanggan untuk membeli produk yang akan di
keluarkan. Perkiraan (hypothesis) dapat disusun untuk mengidentifikasikan pelanggan yang
potensial dan karakteristik dari pelanggan yang ada. Data-data tentang pembelian pelanggan
sebelumnya dan data tentang keadaan pelanggan, dapat digunakan untuk melakukan perbandingan
antara pembelian dan karakteristik pelanggan untuk menetapkan dan menguji target yang telah
diperkirakan sebelumnya. Dari keseluruhan operasi yang ada selanjutnya dapat dilakukan
penyaringan dengan cermat sehingga jumlah perkiraan (hypothesys) yang sebelumnya banyak
akan menjadi semakin berkurang sesuai dengan keadaan yang sebenarnya.Permasalahan utama
dengan model ini adalah tidak ada informasi baru yang dapat dibuat, melainkan hanya pembuktian
atau melemahkan perkiraan (hypothesys) dengan data-data yang ada sebelumnya. Datadata yang
ada pada model ini hanya digunakan untuk membuktikan mendukung perkiraan (hypothesis) yang
telah diambil sebelumnya. Jadi model ini sepenuhnya tergantung pada kemampuan user untuk
melakukan analisa terhadap permasalahan yang ingin digali dan diperoleh informasinya.
1. Prediksi trend dan sifat-sifat bisnis, dimana data mining mengotomatisasi proses pencarian
informasi pemprediksi di dalam basis data yang besar.
2. Penemuan pola-pola yang tidak diketahui sebelumnya, dimana data mining menyapu basis
data, kemudian mengidentifikasi pola-pola yang sebelumnya tersembunyi dalam satu
sapuan.
3. Data mining berguna untuk membuat keputusan yang kritis, terutama dalam strategi.
Berikut ini beberapa definisi data mining dari beberapa sumber (Larose, 2005):
• Data mining adalah proses menemukan sesuatu yang bermakna dari suatu korelasi baru, pola dan
tren yang ada dengan cara memilah-milah data berukuran besar yang disimpan dalam repositori,
menggunakan teknologi pengenalan pola serta teknik matematika dan statistik.
• Data mining adalah analisis pengamatan database untuk menemukan hubungan yang tidak
terduga dan untuk meringkas data dengan cara atau metode baru yang dapat dimengerti
dan bermanfaat kepada pemilik data.
• Data mining merupakan bidang ilmu interdisipliner yang menyatukan teknik pembelajaran
dari mesin (machine learning), pengenalan pola (pattern recognition), statistik, database,
dan visualisasi untuk mengatasi masalah ekstraksi informasi dari basis data yang besar.
• Data mining diartikan sebagai suatu proses ekstraksi informasi berguna dan potensial dari
sekumpulan data yang terdapat secara implisit dalam suatu basis data.
1. Fungsi Prediksi (prediction). Proses untuk menemukan pola dari data dengan
menggunakan beberapa variabel untuk memprediksikan variabel lain yang tidak diketahui
jenis atau nilainya.
2. Fungsi Deskripsi (description). Proses untuk menemukan suatu karakteristik penting dari
data dalam suatu basis data.
3. Fungsi Klasifikasi (classification). Klasifikasi merupakan suatu proses untuk menemukan
model atau fungsi untuk menggambarkan class atau konsep dari suatu data. Proses yang
digunakan untuk mendeskripsikan data yang penting serta dapat meramalkan
kecenderungan data pada masa depan.
4. Fungsi Asosiasi (association). Proses ini digunakan untuk menemukan suatu hubungan
yang terdapat pada nilai atribut dari sekumpulan data.
Deskripsi bertujuan untuk mengidentifikasi pola yang muncul secara berulang pada suatu data dan
mengubah pola tersebut menjadi aturan dan kriteria yang dapat mudah dimengerti oleh para ahli
pada domain aplikasinya. Aturan yang dihasilkan harus mudah dimengerti agar dapat dengan
efektif meningkatkan tingkat pengetahuan (knowledge) pada sistem. Tugas deskriptif merupakan
tugas data mining yang sering dibutuhkan pada teknik postprocessing untuk melakukan validasi
dan menjelaskan hasil dari proses data mining. Postprocessing merupakan proses yang digunakan
untuk memastikan hanya hasil yang valid dan berguna yang dapat digunakan oleh pihak yang
berkepentingan.
b. Prediksi
Prediksi memiliki kemiripan dengan klasifikasi, akan tetapi data diklasifikasikan berdasarkan
perilaku atau nilai yang diperkirakan pada masa yang akan datang. Contoh dari tugas prediksi
misalnya untuk memprediksikan adanya pengurangan jumlah pelanggan dalam waktu dekat dan
prediksi harga saham dalam tiga bulan yang akan datang.
c. Estimasi
Estimasi hampir sama dengan prediksi, kecuali variabel target estimasi lebih ke arah numerik dari
pada ke arah kategori. Model dibangun menggunakan record lengkap yang menyediakan nilai dari
variabel target sebagai nilai prediksi. Selanjutnya, pada peninjauan berikutnya estimasi nilai dari
variabel target dibuat berdasarkan nilai variabel prediksi. Sebagai contoh, akan dilakukan estimasi
tekanan darah sistolik pada pasien rumah sakit berdasarkan umur pasien, jenis kelamin, berat
badan, dan level sodium darah. Hubungan antara tekanan darah sistolik dan nilai variabel prediksi
dalam proses pembelajaran akan menghasilkan model estimasi.
d. Klasifikasi
Klasifikasi merupakan proses menemukan sebuah model atau fungsi yang mendeskripsikan dan
membedakan data ke dalam kelas-kelas. Klasifikasi melibatkan proses pemeriksaan karakteristik
dari objek dan memasukkan objek ke dalam salah satu kelas yang sudah didefinisikan sebelumnya.
e. Clustering
Clustering merupakan pengelompokan data tanpa berdasarkan kelas data tertentu ke dalam kelas
objek yang sama. Sebuah kluster adalah kumpulan record yang memiliki kemiripan suatu dengan
yang lainnya dan memiliki ketidakmiripan dengan record dalam kluster lain. Tujuannya adalah
untuk menghasilkan pengelompokan objek yang mirip satu sama lain dalam kelompok-kelompok.
Semakin besar kemiripan objek dalam suatu cluster dan semakin besar perbedaan tiap cluster maka
kualitas analisis cluster semakin baik.
f. Asosiasi
Tugas asosiasi dalam data mining adalah menemukan atribut yang muncul dalam suatu waktu.
Dalam dunia bisnis lebih umum disebut analisis keranjang belanja (market basket analisys). Tugas
asosiasi berusaha untuk mengungkap aturan untuk mengukur hubungan antara dua atau lebih
atribut.
• Menentukan apakah dengan kondisi yang ada layak untuk bermaintenis atau tidak
Support Vector Machine (SVM) pertama kali diperkenalkan oleh Vapnik pada tahun 1992
sebagai rangkaian harmonis konsep-konsep unggulan dalam bidang pattern recogn ition. Sebagai
salah satu metode pattern recognition, usia SVM terbilang masih relatif muda. Walaupun demikian
, evaluasi kemampuannya dalam berbagai aplikasinya menempatkannya sebagai state of the art
dalam pattern recognition, dan dewasa ini merupakan salah satu tema yang berkembang dengan
pesat. SVM adalah metode learning machine yang bekerja atas prinsip Structural Risk
Minimization (SRM) dengan tujuan menemukan hyperplane terbaik yang memisahkan dua buah
class pada input space. Tulisan ini membahas teori dasar SVM dan aplikasinya dalam bioinf
ormatika, khususnya pada analisa ekspresi gen yang diperoleh dari analisa microarray
Sedangkan Menurut Santoso (2007) Support vector machine (SVM) adalah suatu teknik
untuk melakukan prediksi, baik dalam kasus klasifikasi maupun regresi. SVM berada dalam satu
kelas dengan Artificial Neural Network (ANN) dalam hal fungsi dan kondisi permasalahan yang
bisa diselesaikan. Keduanya masuk dalam kelas supervised learning.
Dalam penelitian ini, teknik SVM digunakan untuk menemukan fungsi pemisah(klasifier)
yang optimal yang bisa memisahkan dua set data dari dua kelas yang berbeda. Penggunaan teknik
machine learning tersebut, karena performansinya yang meyakinkan dalam memprediksi kelas
suatu data baru. Teori SVM dimulai dengan kasus klasifikasi yang secara linier bisa dipisahkan.
Dalam hal ini fungsi pemisah yang dicari adalah fungsi linier. Fungsi ini bisa didefinisikan sebagai;
g(x) := sgn(f(x)) (2.1)
dengan (2,2)
atau (2.3)
dimana x, w ∈
and b ∈
Masalah klasifikasi ini bisa dirumuskan set parameter (w, b) sehingga f(xi) =< w, x > +b =
yi untuk semua i. Teknik SVM berusaha menemukan fungsi pemisah (klasifier/hyperplane) terbaik
diantara fungsi yang tidak terbatas jumlahnya untuk memisahkan dua macam obyek. Hyperplane
terbaik adalah hyperplane yang terletak di tengah-tengah antara dua set obyek dari dua kelas.
Mencari hyperplane terbaik ekuivalen dengan memaksimalkan margin atau jarak antara dua set
obyek dari kelas yang berbeda. Jika adalah hyperplane-pendukung (supporting hyperplane) dari
kelas dan hyperplane-pendukung dari kelas
, margin antara dua kelas dapat dihitung dengan mencari jarak antara kedua hyperplane-pendukung
dari kedua kelas. Secara spesifik
4. Data Mining - Tahap Tahapan Knowladge Discovery In Database (KDD)
1. KDD berhubungan dengan teknik integrasi dan penemuan ilmiah, interprestasi dan
visualisasi dari pola-pola sejumlah kumpulan data.
1. Data selection
Pemilihan (seleksi) data dari sekumpulan data operasional perlu dilakukan sebelum tahap
penggalian informasi dalam KDD dimulai. Data hasil seleksi yang digunakan untuk proses data
mining, disimpan dalam suatu berkas, terpisah dari basis data operasional.
2. Pre-processing / cleaning
Sebelum proses data mining dapat dilaksanakan, perlu dilakukan proses cleaning pada data
yang menjadi fokus KDD. Proses cleaning mencakup antara lain membuang duplikasi data,
memeriksa data yang inkonsisten, dan memperbaiki kesalahan pada data.
3. Transformation
Coding adalah proses transformasi pada data yang telah dipilih, sehingga data tersebut sesuai
untuk proses data mining. Proses coding dalam KDD merupakan proses kreatif dan sangat
tergantung pada jenis atau pola informasi yang akan dicari dalam basis data.
4. Data mining
Data mining adalah proses mencari pola atau informasi menarik dalam data terpilih dengan
menggunakan teknik atau metode tertentu. Teknik, metode, atau algoritma dalam data mining
sangat bervariasi. Pemilihan metode atau algoritma yang tepat sangat bergantung pada tujuan dan
proses KDD secara keseluruhan.
5. Interpretation / evalution
Pola informasi yang dihasilkan dari proses data mining perlu ditampilkan dalam bentuk yang
mudah dimengerti oleh pihak yang berkepentingan. Tahap ini merupakan bagian dari proses KDD
yang disebut interpretation. Tahap ini mencakup pemeriksaan apakah pola atau informasi yang
ditemukan bertentangan dengan fakta atau hipotesis yang ada sebelumnya.
Daftar Pustaka :
• Turban, E, 2005, Decision Support Systems and Intelligent Systems Edisi Bahasa Indonesia
Jilid 1. Andi: Yogyakarta.
• Larose, Daniel T. 2005. Discovering Knowledge in Data : An Introduction to Data Mining. John
Willey & Sons, Inc.
• ayyad, Usama. 1996. Advances in Knowledge Discovery and Data Mining. MIT Press.