1. Classification
Classification adalah tindakan untuk memberikan kelompok pada setiap keadaan. Setiap
keadaan berisi sekelompok atribut, salah satunya adalah class attribute. Metode ini butuh
untuk menemukan sebuah model yang dapat menjelaskan class attribute itu sebagai fungsi
dari input attribute.
Contohnya kita lihat pada contoh kasus College Plan
Class adalah attribute CollegePlans yang berisi dua pernyataan, Yes dan No, perhatikan ini.
Sebuah Classification Model akan menggunakan atribut lain dari kasus tersebut (input
attribut; yaitu kolom IQ, Gender, ParentIncome, dan ParentEncouragement) untuk dapat
menentukan pola (pattern) class (Output Attribute; yaitu Kolom CollegePlans yang berisi Yes
atau No).
Algoritma Data Mining yang membutuhkan variabel target untuk belajar (sampai
mendapatkan rule / pola yang berlaku pada data tersebut) kita standarkan dengan sebutan
dengan Supervised Algorithm. Yang termasuk kepada Classification Algorithm adalah
Decision Trees, Neural Network dan Naives Bayes.
2. Clustering
Clustering juga disebut sebagai segmentation. Metoda ini digunakan untuk mengidentifikasi
kelompok alami dari sebuah kasus yang di dasarkan pada sebuah kelompok atribut,
mengelompokkan data yang memiliki kemiripan atribut. Gambar ini menunjukkan kelompok
data pelanggan sederhana yang berisi dua atribut, yaitu Age (Umur) dan Income
(Pendapatan). Algoritma Clustering mengelompokkan kelompok data kedalam tiga segment
berdasarkan
kedua
atribut
ini.
Cluster 2 berisi populasi berusia menengah dengan pendapatan yang lebih tinggi
Cluster 3 berisi populasi berusia tua dengan pendapatan yang relatif rendah.
Clustering adalah metode data mining yang Unsupervised, karena tidak ada satu atributpun
yang digunakan untuk memandu proses pembelajaran, jadi seluruh atribut input diperlakukan
sama. Kebanyakan Algoritma Clustering membangun sebuah model melalui serangkaian
pengulangan dan berhenti ketika model tersebut telah memusat atau berkumpul (batasan dari
segmentasi ini telah stabil).
3. Association
Association juga disebut sebagai Market Basket Analysis. Sebuah problem bisnis yang khas
adalah menganalisa tabel transaksi penjualan dang mengidentifikasi produk-produk yang
seringkali dibeli bersamaan oleh customer, misalnya apabila orang membeli sambal, biasanya
juga dia membeli kecap. Kesamaan yang ada dari data pembelian digunakan untuk
mengidentifikasi kelompok kesamaan dari produk dan kebiasaan apa yang terjadi guna
kepentingan cross-selling seperti gambar dibawah ini.
Beberapa hal dapat kita baca, misalnya :
Ketika orang membeli pepsi atau coke, biasanya dia membeli juice
4. Regression
Metode Regression mirip dengan metode Classification, yang membedakannya adalah
metode regression tidak bisa mencari pola yang dijabarkan sebagai class (kelas). Metoda
regression bertujuan untuk mecari pola dan menentukan sebuah nilai numerik.
Sebuah Teknik Linear Line-fitting sederhana adalah sebuah contoh dari Regression, dimana
hasilnya adalah sebuah fungsi untuk menentukan hasil yang berdasarkan nilai dari input.
Bentuk yang lebih canggih dari regression sudah mendukung input berupa kategori, jadi tidak
hanya input berupa numerik. Teknik paling popular yang digunakan untuk regression adalah
linear regression dan logistic regression. Teknik lain yang didukung oleh SQL Server Data
mining adalah Regression Trees (bagian dari dari algoritma Microsoft Decission Trees) dan
Neural Network.
Regression digunakan untuk memecahkan banyak problem bisnis, contohnya untuk
memperkirakan metode distribusi, kapasitas distribusi, musim dan untuk memperkirakan
kecepatan angin berdasarkan temperatur, tekanan udara, dan kelembaban.
5. Forecasting
Forecasting adalah metode data mining yang sangat penting. Contohnya digunakan untuk
menjawab pertanyaan seperti berikut:
Seperti apa jadinya nilai saham dari Microsoft Corporation (pada NASDAQ, disimbolkan
sebagai MSFT) pada keesokan hari?
Baik Sequence maupun time-series data mempunyai kemiripan, mereka sama sama berisi
tinjauan berdekatan yang urutannya bergantung. Bedanya adalah sebuah time-series berisi
data bertipe numerik, dan sebuah sequence series berisi bagian yang khas.
Gambar ini menunjukan rangkaian klik pada sebuah website berita. Setiap node adalah
sebuah kategori URL. Dan garis melambangkan transisi antar kategori URL tersebut. Setiap
transisi di kelompokan dengan sebuah bobot yang menggambarkan kemungkinan transisi
antara satu URL dan URL yang lain.
Kami akan membahas mengenai Teknik dan Metode dari Data Mining , dimana Teknik data Mining
terbagi atas :
Predictive Modelling,
Discovery, dan
Deviation Detection.
3. Clustering
Berbeda dengan association rule mining dan classification dimana kelas data telah ditentukan
sebelumnya, clustering melakukan pengelompokan data tanpa berdasarkan kelas data tertentu. Bahkan
clustering dapat dipakai untuk memberikan label pada kelas data yang belum diketahui itu. Karena itu
clustering sering digolongkan sebagai metode unsupervised learning. Prinsip dari clustering adalah
memaksimalkan kesamaan antar anggota satu kelas dan meminimumkan kesamaan antar kelas/cluster.
Clustering dapat dilakukan pada data yan memiliki beberapa atribut yang dipetakan sebagai ruang
multidimensi.
Abstrak
Perkembangan data mining (DM) yang pesat tidak dapat lepas dari perkembangan teknologi
informasi yang memungkinkan data dalam jumlah besar terakumulasi sejalan dengan pertumbuhan
teknologi informasi. Mining berarti usaha untuk mendapatkan sedikit barang berharga dari sejumlah
besar material dasar. Olehnya itu, data mining memiliki akar yang panjang dari bidang ilmu seperti
kecerdasan buatan (artificial intelligent), machine learning, statistik dan database.
Data Mining (DM) sendiri adalah serangkaian proses untuk menggali nilai tambah berupa
pengetahuan yang selama ini tidak diketahui secara manual dari suatu kumpulan data.Seorang analis
menerapkan tahapan-tahapan data mining tersebut. Sebagai prasyarat penerapan data mining,
diperlukan pemahaman terhadap data dan proses diperolehnya data tersebut. Yang lebih mendasar
lagi adalah diperlukannya pemahaman mengapa menerapkan data mining dan target yang ingin
dicapai. Sehingga secara garis besar sudah ada hipotesa mengenai aksi-aksi yang dapat diterapkan
dari hasilnya nanti. Penulis juga mencoba merangkum perkembangan terakhir dari teknik-teknik DM
beserta implikasinya di dunia bisnis.
Pendahuluan
Perkembangan data mining (DM) yang pesat tidak dapat lepas dari perkembangan teknologi
informasi yang memungkinkan data dalam jumlah besar terakumulasi. Sebagai contoh, toko swalayan
merekam setiap penjualan barang dengan memakai alat POS (point of sales). Database data
penjualan tsb. bisa mencapai beberapa GB setiap harinya untuk sebuah jaringan toko swalayan
berskala nasional. Perkembangan internet juga punya andil cukup besar dalam akumulasi data.
Tetapi pertumbuhan yang pesat dari akumulasi data itu telah menciptakan kondisi yang sering disebut
sebagai rich of data but poor of information karena data yang terkumpul itu tidak dapat digunakan
untuk aplikasi yang berguna. Tidak jarang kumpulan data itu dibiarkan begitu saja seakan-akan
kuburan data (data tombs).
Patut diingat bahwa kata mining sendiri berarti usaha untuk mendapatkan sedikit barang berharga
dari sejumlah besar material dasar. Karena itu data mining sebenarnya memiliki akar yang panjang
dari bidang ilmu seperti kecerdasan buatan (artificial intelligent), machine learning, statistik dan
database. Beberapa teknik yang sering disebut-sebut dalam literatur DM antara lain: clustering,
classification, association rule mining, neural network, genetic algorithm dan lain-lain. Yang
membedakan persepsi terhadap DM adalah perkembangan teknik-teknik DM untuk aplikasi pada
database skala besar yang ternyata penerapan pada data berskala besar memberikan tantangantantangan baru yang akhirnya memunculkan metodologi baru. Sebelum populernya data mining,
teknik-teknik
tersebut
hanya
dapat
dipakai
untuk
data
skala
kecil
saja.
Bermula dari penerapan di dunia bisnis, sekarang ini data mining juga diterapkan pada bidang-bidang
lain yang memerlukan analisa data berskala besar seperti bioinformasi dan pertahanan Negara.
Data mining adalah serangkaian proses untuk menggali nilai tambah dari suatu kumpulan
data berupa pengetahuan yang selama ini tidak diketahui secara manual.
Data mining adalah analisa otomatis dari data yang berjumlah besar atau kompleks dengan
tujuan untuk menemukan pola atau kecenderungan yang penting yang biasanya tidak disadari
keberadaannya
Dari definisi-definisi itu, dapat dilihat ada beberapa faktor yang mendefinisikan data mining :
1. Data mining adalah proses otomatis terhadap data yang dikumpulkan di masa lalu
2. Objek dari data mining adalah data yang berjumlah besar atau kompleks
3. Tujuan dari data mining adalah menemukan hubungan-hubungan atau pola-pola yang mungkin
memberikan indikasi yang bermanfaat
Sejarah Data mining bukanlah suatu bidang yang sama sekali baru. Salah satu kesulitan untuk
mendefinisikan data mining adalah kenyataan bahwa data mining mewarisi banyak aspek dan teknik
dari bidang-bidang ilmu yang sudah mapan terlebih dulu. Gambar 1, menunjukkan bahwa data mining
memiliki akar yang panjang dari bidang ilmu seperti kecerdasan buatan (artificial intelligent), machine
learning, statistic, database dan juga information retrieval.
Gambar 1
Beberapa teknik yang sering disebut-sebut dalam literatur data mining seperti classification, neural
network, genetic algorithm dll. sudah lama dikenal di dunia kecerdasan buatan. Statistik memberikan
kontribusi pada data mining dengan teknik-teknik untuk menyeleksi data dan evaluasi hasil data
mining selain teknik-teknik data mining seperti clustering. Yang membedakan persepsi terhadap data
mining adalah perkembangan teknik-teknik data mining untuk aplikasi pada database skala besar.
Sebelum populernya data mining, teknik-teknik tersebut pada umunya diterapkan untuk data skala
kecil saja. Selain itu beberapa teknik dari bidang database untuk transformasi data juga merupakan
bagian integral dari proses data mining.
Akhir-akhir ini ada beberapa bidang ilmu seperti information retrieval yang juga terlibat dalam proses
data mining untuk mengekstrak sumber data bagi data mining dari sumber-sumber seperti teks dan
website. Walaupun data mining memiliki sumber dari beberapa bidang ilmu, data mining berbeda
dalam beberapa aspek dibandingkan dengan bidang ilmu seperti berikut :
Statistik : model statistik dipersiapkan oleh para ahli statistik, sedangkan data mining
mengembangkan statistik untuk menangani data berjumlah besar secara otomatis -
Expert system (sistem cerdas) : model pada expert system dibuat berupa aturan-aturan
berdasar pada pengalaman-pengalaman para ahli
Data Warehouse (DWH) : sering terjadi kerancuan antara data mining dan data warehouse
karena keduanya sering dipakai bersamaan. Pada umumnya data warehouse lebih merujuk
pada tempat untuk menyimpan data yang terkonsolidasi sedangkan data mining bisa dianggap
sebagai perkakas untuk menganalisa otomatis nilai dari data itu
OLAP : seperti data warehouse, OLAP juga sering dibahas bersama data mining. Tetapi
OLAP memiliki tujuan untuk memastikan hipotesa yang sudah diformulasikan terlebih dulu oleh
penggunanya.
Salah satu tuntutan dari data mining ketika diterapkan pada data berskala besar adalah diperlukan
metodologi sistematis tidak hanya ketika melakukan analisa saja tetapi juga ketika mempersiapkan
data dan juga melakukan interpretasi dari hasilnya sehingga dapat menjadi aksi ataupun keputusan
yang bermanfaat. Karenanya data mining seharusnya dipahami sebagai suatu proses, yang memiliki
tahapan-tahapan tertentu dan juga ada umpan balik dari setiap tahapan ke tahapan sebelumnya.
Pada umumnya proses data mining berjalan interaktif karena tidak jarang hasil data mining pada
awalnya tidak sesuai dengan harapan analisnya sehingga perlu dilakukan desain ulang prosesnya.
Disini akan diuraikan tahap-tahap umum dari data mining tapi perlu diingat sebelum seorang analis
menerapkan tahapan-tahapan data mining tersebut, sebagai prasyarat penerapan data mining,
diperlukan pemahaman terhadap data dan proses diperolehnya data tersebut. Yang lebih mendasar
lagi adalah diperlukannya pemahaman mengapa menerapkan data mining dan target yang ingin
dicapai. Sehingga secara garis besar sudah ada hipotesa mengenai aksi-aksi yang dapat diterapkan
dari hasilnya nanti. Pemahaman-pemahaman tersebut akan sangat membantu dalam mendesain
proses data mining dan juga pemilihan teknik data mining yang akan diterapkan. Selain itu, bagi dunia
bisnis akan memudahkan untuk melakukan pengukuran return on investment-nya (ROI).
Pembersihan data (untuk membuang data yang tidak konsisten dan noise)
Pada umumnya data yang diperoleh, baik dari database suatu perusahaan maupun hasil
eksperimen, memiliki isian-isian yang tidak sempurna seperti data yang hilang, data yang tidak
valid atau juga hanya sekedar salah ketik. Selain itu, ada juga atribut-atribut data yang tidak
relevan dengan hipotesa data mining yang kita miliki. Data-data yang tidak relevan itu juga lebih
baik dibuang karena keberadaannya bisa mengurangi mutu atau akurasi dari hasil data mining
nantinya. Garbage in garbage out (hanya sampah yang akan dihasilkan bila yang dimasukkan
juga sampah) merupakan istilah yang sering dipakai untuk menggambarkan tahap ini.
Pembersihan data juga akan mempengaruhi performasi dari sistem data mining karena data
yang ditangani akan berkurang jumlah dan kompleksitasnya.
2.
Tidak jarang data yang diperlukan untuk data mining tidak hanya berasal dari satu database
tetapi juga berasal dari beberapa database atau file teks. Integrasi data dilakukan pada atributaribut yang mengidentifikasikan entitas-entitas yang unik seperti atribut nama, jenis produk,
nomor pelanggan dsb. Integrasi data perlu dilakukan secara cermat karena kesalahan pada
integrasi data bisa menghasilkan hasil yang menyimpang dan bahkan menyesatkan
pengambilan aksi nantinya. Sebagai contoh bila integrasi data berdasarkan jenis produk
ternyata menggabungkan produk dari kategori yang berbeda maka akan didapatkan korelasi
antar produk yang sebenarnya tidak ada. Dalam integrasi data ini juga perlu dilakukan
transformasi dan pembersihan data karena seringkali data dari dua database berbeda tidak
sama cara penulisannya atau bahkan data yang ada di satu database ternyata tidak ada di
database lainnya.
3.
Transformasi data (data diubah menjadi bentuk yang sesuai untuk di-mining)
Beberapa teknik data mining membutuhkan format data yang khusus sebelum bisa
diaplikasikan. Sebagai contoh beberapa teknik standar seperti analisis asosiasi dan klastering
hanya bisa menerima input data kategorikal. Karenanya data berupa angka numerik yang
berlanjut perlu dibagi-bagi menjadi beberapa interval. Proses ini sering disebut binning. Disini
juga dilakukan pemilihan data yang diperlukan oleh teknik data mining yang dipakai.
Transformasi dan pemilihan data ini juga menentukan kualitas dari hasil data mining nantinya
karena ada beberapa karakteristik dari teknik-teknik data mining tertentu yang tergantung pada
tahapan ini.
4.
5.
mining lain yang lebih sesuai, atau menerima hasil ini sebagai suatu hasil yang di luar dugaan
yang mungkin bermanfaat.
Ada beberapa teknik data mining yang menghasilkan hasil analisa berjumlah besar seperti
analisis asosiasi. Visualisasi hasil analisa akan sangat membantu untuk memudahkan
pemahaman dari hasil data mining.
6.
Cross-Market Analysis
dengan produk lainnya. Berikut ini saya sajikan beberapa contoh:
Cari pola penjualan Coca Cola sedemikian rupa sehingga kita dapat mengetahui
barang apa sajakah yang harus kita sediakan untuk meningkatkan penjualan Coca Cola?
Cari pola penjualan IndoMie sedemikian rupa sehingga kita dapat mengetahui barang
apa saja yang juga dibeli oleh pembeli IndoMie. Dengan demikian kita bisa mengetahui
dampak jika kita tidak lagi menjual IndoMie.
Cari pola penjualan
Profil Customer
Data mining dapat membantu Anda untuk melihat profil customer/pembeli/nasabah sehingga
kita dapat mengetahui kelompok customer tertentu suka membeli produk apa saja.
Informasi Summary
Anda juga dapat memanfaatkan data mining untuk membuat laporan summary yang bersifat
multi-dimensi dan dilengkapi dengan informasi statistik lainnya.
Dalam menemukan informasi yang menarik ini, ciri khas data mining adalah kemampuan pencarian
secara hampir otomatis. Mengapa disebut hampir otomatis karena dalam banyak teknik data mining
ada beberapa parameter yang masih harus ditentukan secara manual atau semi manual. Penelitian
untuk melakukan setting secara adaptif merupakan bidang yang hangat diteliti. Data mining juga
dapat memanfaatkan pengalaman atau bahkan kesalahan di masa lalu untuk meningkatkan kualitas
dari model maupun hasil analisanya, salah satunya dengan kemampuan pembelajaran yang dimiliki
beberapa teknik data mining seperti klasifikasi. Data Mining juga memiliki kemampuan, diantaranya :
Selain itu penelitian tentang algoritma parallel dari data mining juga membuka jalan agar data
mining dapat diterapkan pada program skala yang lebih besar lagi.
Sebaliknya, disamping memiliki kemampuan ada beberapa hal yang tidak bisa dilakukan oleh data
mining, diantaranya :
Perlu disadari bahwa data mining bukanlah solusi yang cocok untuk setiap masalah. Ada
banyak masalah yang justru lebih baik diselesaikan dengan statistic yang sederhana.
Data mining juga tidak bisa menemukan pengetahuan yang bermanfaat secara instan.
Seorang analis data mining perlu tahu perbedaan, kelebihan dan kekurangan dari teknikteknik data mining yang ada sebelumnya mengaplikasikan yang paling cocok untuk masalah
yang dihadapinya.
Ketika menjalankan teknik data mining itu sendiri, si analis juga perlu mengarahkan
programnya dengan melakukan persiapan-persiapan dan pemilihan parameternya.
Setelah data mining dilaksanakan pun si analis harus melakukan evaluasi terhadap pola-pola
yang dihasilkan sebelumnya bisa merumuskan hasilnya.
Terakhir perlu diingat bahwa data mining tidak bisa memberikan hasil yang bisa langsung
digunakan. Banyak hasil dari data mining yang tidak bisa langsung diinterpretasikan dengan
mudah.
Hal-hal ini juga disadari oleh perusahaan-perusahaan yang menerapkan data mining dan
OLAP, yang sering dirangkum dalam istilah business intelligence (BI). Untuk memecahkan
masalah ini, mulai banyak perusahaan yang membuat pusat untuk business intelligence yang
membantu karyawan biasa untuk menggunakan piranti OLAP maupun data mining dengan
menyediakan pelatihan dan informasi praktis pemakaian dan aplikasi hasilnya.
Data mining adalah serangkaian proses untuk menggali nilai tambah dari suatu kumpulan
data berupa pengetahuan yang selama ini tidak diketahui secara manual, juga diartikan sebagai
analisa otomatis dari data yang berjumlah besar atau kompleks dengan tujuan untuk
menemukan
pola
atau
kecenderungan
yang
penting
yang
biasanya
tidak
disadari
keberadaannya
Disamping memiliki kemampuan, data mining juga memiliki keterbatasan yang tidak bisa
dilakukannya.
Salah satu tuntutan dari data mining ketika diterapkan pada data berskala besar adalah
diperlukan metodologi sistematis tidak hanya ketika melakukan analisa saja tetapi juga ketika
mempersiapkan data dan juga melakukan interpretasi dari hasilnya sehingga dapat menjadi aksi
ataupun keputusan yang bermanfaat. Karenanya data mining seharusnya dipahami sebagai
suatu proses, yang memiliki tahapan-tahapan tertentu dan juga ada umpan balik dari setiap
tahapan ke tahapan sebelumnya.
Saran
Tulisan ini masih butuh pengembangan, karenanya kritik dan saran yang sifatnya membangun tetap
penulis nantikan.
Daftar Pustaka
Yudho
Giri
Sucahyo,
2003, Penerapan
Data
Mining,
Artikel
Populer
Data Mining
gorbyrashid Filed Under: Labels: Data Mining
Data mining adalah analisa otomatis dari data yang berjumlah besar
atau kompleks dengan tujuan untuk menemukan pola atau
kecenderungan yang penting yang biasanya tidak disadari
keberadaannya
Menarik untuk diingat bahwa kata mining sendiri berarti usaha untuk mendapatkan sedikit
barang berharga dari sejumlah besar material dasar. Dari definisi-definisi itu, dapat dilihat ada
beberapa faktor yang mendefinisikan data mining :
1. data mining adalah proses otomatis terhadap data yang
dikumpulkan di masa lalu
2. objek dari data mining adalah data yang berjumlah besar atau
kompleks
3. tujuan dari data mining adalah menemukan hubungan-hubungan
atau pola-pola yang mungkin memberikan indikasi yang bermanfaat
Sejarah Data mining bukanlah suatu bidang yang sama sekali baru. Salah satu kesulitan untuk
mendefinisikan data mining adalah kenyataan bahwa data mining mewarisi banyak aspek dan
teknik dari bidang-bidang ilmu yang sudah mapan terlebih dulu. Gambar 1 menunjukkan
bahwa data mining memiliki akar yang panjang dari bidang ilmu seperti kecerdasan buatan
(artificial intelligent), machine learning, statistic, database dan juga information retrieval.
Beberapa teknik yang sering disebut-sebut dalam literatur data mining seperti classification,
neural network, genetic algorithm dll. sudah lama dikenal di dunia kecerdasan buatan.
Statistik memberikan kontribusi pada data mining dengan teknik-teknik untuk menyeleksi
data dan evaluasi hasil data mining selain teknik-teknik data mining seperti clustering. Yang
membedakan persepsi terhadap data mining adalah perkembangan teknik-teknik data mining
untuk aplikasi pada database skala besar. Sebelum populernya data mining, teknik-teknik
tersebut pada umunya diterapkan untuk data skala kecil saja. Selain itu beberapa teknik dari
bidang database untuk transformasi data juga merupakan bagian integral dari proses data
mining.
Akhir-akhir ini ada beberapa bidang ilmu seperti information retrieval yang juga terlibat
dalam proses data mining untuk mengekstrak sumber data bagi data mining dari sumbersumber seperti teks dan website. Walaupun data mining memiliki sumber dari beberapa
bidang ilmu, data mining berbeda dalam beberapa aspek dibandingkan dengan bidang ilmu
seperti berikut :
statistik : model statistik dipersiapkan oleh para ahli statistik,
sedangkan data mining mengembangkan statistik untuk menangani
data berjumlah besar secara otomatis expert system (sistem cerdas) : model pada expert system dibuat
berupa aturan-aturan berdasar pada pengalaman-pengalaman para
ahli
data warehouse (DWH) : sering terjadi kerancuan antara data
mining dan data warehouse karena keduanya sering dipakai
bersamaan. Pada umumnya data warehouse lebih merujuk pada
tempat untuk menyimpan data yang terkonsolidasi sedangkan data
mining bisa dianggap sebagai perkakas untuk menganalisa otomatis
nilai dari data itu
OLAP : seperti data warehouse, OLAP juga sering dibahas bersama data mining. Tetapi
OLAP memiliki tujuan untuk memastikan hipotesa yang sudah diformulasikan terlebih dulu
oleh penggunanya.
Kemampuan kita dalam memperoleh dan mengolah data telah meningkat secara drastis
belakangan ini. Banyak faktor yang mempengaruhi peningkatan data ini, diantaranya
komputerisasi dalam bisnis, pemerintahan dan juga ilmiah. Semakin tingginya kapasitas
media penyimpanan dengan harga yang relatif terjangkau serta meluasnya penggunaan
kamera digital, alat-alat publik, penggunaan bar code dalam proses transaksi produk
menjadikan data tumbuh secara ekplosif dalam berbagai bidang. Selain itu, perkembangan
jaringan internet sebagai sarana informasi global menjadikan penumpukan data ini semakin
tak terkendali.
Pertumbuhan data yang ekplosif itu disimpan dalam database-database sementara yang
bersifat operasional. Dengan berjalannya waktu, databse tersebut menjadi gudang data atau
lebih dikenal dengan data warehouse. Di dalam data warehouse ini tersimpan banyak sekali
data yang telah direkap setiap harinya. Melalui data-data ini lah terdapat informasi yang harus
digali untuk menunjang proses bisnis yang ada dalam menjalankan visi misi perusahaan.
Dibutuhkan suatu teknik untuk menggali informasi yang terdapat pada data warehouse
tersebut. Lahirlah data mining, yaitu suatu teknik untuk meng-ekstrasi suatu pola dari data.
Data mining diterapkan dengan paradigma untuk melihat informasi yang tersembunyi. Proses
pencarian ini dilakukan secara otomatis terhadap pola dalam data dengan jumlah besar
dengan menggunakan teknik-teknik seperti klasifikasi, clustering, dll. Data mining adalah
suatu multidisiplin ilmu yang kompleks dan beririsan dengan ilmu lain seperti statistika,
database, information retrieval, machine learning, pattern recognition, algoritma dan ilmu
lainnya.
Menurut para ahli, data mining merupakan sebuah analisa dari observasi data dalam jumlah
besar untuk menemukan hubungan yang tidak diketahui sebelumnya dan metode baru untuk
meringkas data agar mudah dipahami serta kegunaannya untuk pemilik data (David Hand,
2001). Data mining dikenal juga dengan istilah Knowledge Discovery from Data (KDD)Data
mining merupakan suatu tahapan dalam penemuan pengetahuan dan menjadi core proses dari
suatu jumlah data yang besar, tahapan-tahapan tersebut yaitu :
Gambar 1. Data mining sebagai tahapan dalam penemuan pengetahuan (Jiawei Han, 2006)
1. Data cleaning, untuk membersihkan data dari noise data dan data yang tidak konsiten
2. Data integration, megkombinasikan/mengintegrasikan beberapa sumber data
3. Data selection, mengambil data-data yang relevan dari database untuk dianalisis
4. Data transformation, mentransformasikan data summary ataupun operasi agregasi
5. Data mining, merupakan proses yang esensial dimana metode digunakan untuk mengekstrak
pola data yang tersembunyi
6. Pattern evaluation, untuk mengidentifikasi pola sehingga mereperesentasikan pengetahuan
berdasarkan nilai-nilai yang menarik
7. Knowledge presentation, dimana teknik representasi dan visualisai data digunakan untuk
mempresentasikan pengetahuan yang diadapat kepada user
Apa itu Data Mining ?
Secara singkat Data Mining adalah sebuah proses penggalian pola dari data, dalam
penjabaran yang lebih luas Data mining adalah sebuah proses dari pencarian korelasi
yang baru, pola dan trend yang memberikan informasi, dengan cara menyaring data
dalam kuantitas yang besar, menggunakan teknologi pola pengenalan yang serupa
dengan teknik statistik dan teknik matematika.
Data mining semakin menjadi hal yang sangat penting dalam mengubah data menjadi
informasi. Tidak seperti statistik yang menggunakan sampel populasi sebagai datanya,
data mining membutuhkan data yang besar, semakin besar, proses menambangan akan
semakin efektif menemukan pola-pola tertentu.
Dimana Data Mining digunakan?
Data mining digunakan di banyak tempat, dan bidang penerapannya juga dapat bermacam
macam, misalnya:
militer menggunakan data mining untuk mempelajari apa saja yang
menjadi fator utama dalam ketepatan sasaran pengeboman
Agen intelejen dapat mengaplikasikan data mining dalam
menangkap dan memilah informasi-informasi yang sesuai dengan
apa yang ingin dipelajari
Spesialis keamanan jaringan dapat memanfaatkan data mining
untuk melihat paket data mana yang berpotensi memicu ancaman
Analis kartu kredit dapat menggunakan data mining dalam memilah
calon nasabah kartu kredit yang berpotensi melakukan kredit
macet.
Pelaku retail dapat menggunakan data mining untuk melihat
karakteristik dan perilaku pembelinya, sehingga dapat selalu
menjual produk yang diinginkan oleh customer.
Walaupun metode dan tools yang digunakan untuk data mining dapat diaplikasikan pada
banyak hal, saya akan lebih memberikan pendekatan dari sudut pandang bisnis. Beberapa
pertanyaan umum berkaitan dengan bisnis dapat di jawab dengan menggunakan Data
Mining, termasuk diantaranya adalah:
1. Dari sekian banyak daftar calon customer, kira-kira mana
yang akan benar-benar menjadi customer baru? Kita dapat
menggunakan teknik klasifikasi (misal: Logistic Regression,
Classification Trees, atau metode lainnya) untuk mengenali individu
yang mempunya kemiripan faktor dengan customer terbaik yang
kita miliki. faktor ini dapat berupa faktor demografi, faktor usia,
faktor kelas pendapatan, atau faktor lainnya.
2. Customer mana yang kira kira berpotensi untuk melakukan
kejahatan penipuan ?, kita dapat menggunakan metode
klasisfikasi untuk mengenali aplikasi kartu kredit yang berpotensi
tinggi dalam keterlibatan kejahatan penipuan, serta memberikan
perhatian lebih kepada mereka-mereka yang masuk dalam
klasifikasi tersebut.
3. Mengenali calon nasabah mana yang mungkin akan
menunggak pembayaran personal loan ?, kita dapat
menggunakan teknik klasifikasi dalam mengidentifikasi mereka
(atau dengan metode logistic regression dalam menentukan nilai
yang akan menjadi patokan dalam mengidentifikasi calon
penunggak)
4. Mengenali pelanggan mana yang kira-kira berpotensi akan
mengabaikan tagihan berlangganan (telepon, majalah, dan
lainnya) ?. sekali lagi, kita dapat menggunakan teknik klasifikasi
untuk mengidentifikasikan mereka (logistic regression dapat
digunakan untuk menetapkan nilai "probability of leaving")
Asal Mula Data Mining
Data Mining sangat dipengaruhi oleh pertemuan statistik dan machine learning (atau
yang juga dikenal dengan artificial intelligence / kecerdasan buatan).
Beragam teknik yang digunakan untuk mengeksplorasi data dan membangun model,
sebenarnya telah ada sejak lama di dalam statistika seperti linear regression, logistic
regression, discriminant analysis, dan principal component analysis.
menggunakannya, harga microsoft office relatif lebih murah dibanding microsoft SQL Server
(memang saya akui ada kesenjangan luar biasa dalam fiturnya), tapi kembali lagi bahwa kita
akan fokus kepada fitur business intelligence, dan untuk Usaha Kecil Menengah
(UKM),Keluarga Microsoft Office adalah senjata yang tepat. harga terjangkau dan
mudah dalam menggunakannya. The Most Cost Effective Solution.
Alasan kedua adalah Working Environment yang familiar, ketika saya tanyakan, siapa
yang tidak bisa menggunakan microsoft excel ? saya rasa setiap orang yang menggunakan
microsoft office dalam perjalanan hidupnya pasti bisa menggunakan microsoft excel. ini yang
akan kita gali lebih dalam lagi.
Microsoft Office sejatinya adalah tools yang luar biasa, tapi tidak banyak orang mau
untuk mengeksplorasinya. kebanyakan pengguna hanya menggunakan microsoft word
sebagai pengganti mesin ketik, menggunakan microsoft excel hanya sebagai pengganti
kalkulator, Microsoft Outlook hanya sebagai alat untuk mengirim dan menerima e-mail, dll.
saya berharap bisa terus berbagi ilmu dan pengalaman saya dalam Industri Retail dengan
menggunakan produk Microsoft Office secara optimal.
Data Mining merupakan disiplin ilmu yang kini sedang hot dimana-mana.
Dipakai di industri perbankan sampai mikrobiologi. Data mining
merupakan gabungan dari statistika, machine learning, database dan
visualisasi.
Ada tiga pilar data mining: data, teknik data mining dan modelling. Jadi
harus ada data sebagai bahan untuk diolah. Dan yang penting
kemampuan pemodelan. Bagaimana model yang kita pilih untuk
menyelesaikan problem yang kita hadapi. Aapakah klstering, klasifikasi
atau prediksi. Setelah itu harus ada teknik data mining yang kita kuasai
untuk menyelesaikan model yang kita punyai.
Tugas utama data mining adalah: Klastering, klasifikasi, prediksi, analisis
pola berurutan dan asosiasi. Masing-masing tugas mempunyai tool yang
berbeda. Klastering memerlukan kmeans, hirarchical clustering atau fuzzy
c means. Klasifikasi memerlukan analisis diskriminan, decision tree, neural
networks atau suppur vector machines.
Sedangkan prediksi memerlukan regresi, support vector regresi, neural
networks. Sebelum kita bisa menerapkan teknik mana yang akan
diterapkan, kita harus memahami dulu kasus apa yang kita hadapi.
Setelah itu perlu dilakukan data preprocessing sebelum bisa digunakan
sebagai input untuk teknik data mining yang dipilih.
Dengan meningkatnya transaksi yang disimpan dengan sistem basis data sekarang ini, maka
dibutuhkan proses untuk menangani data tersebut. Proses untuk menangani data tersebut
dikenal dengan Knowledge Discovery in Databases (KDD). Data Mining adalah kegiatan
untuk menemukan informasi atau pengetahuan yang berguna secara otomatis dari data yang
jumlahnya besar. Data Mining merupakan salah satu proses dari keseluruhan proses yang ada
pada Knowledge Discovery in Databases (KDD). KDD sendiri merupakan sekumpulan
proses untuk menemukan pengetahuan yang bermanfaat dari data. KDD terdiri dari
serangkaian langkah perubahan, termasuk data preprocessing dan juga post processing.
Datapreprocessing merupakan langkah untuk mengubah data mentah menjadi format yang
sesuai untuk tahap analisis berikutnya.
Selain itu data preprocessing juga digunakan untuk membantu dalam pengenalan atribut dan
data segmen yang relevan dengan task data mining. Data preprocessing kemungkinan akan
membutuhkan waktu yang sangat lama, hal ini dikarenakan data yang mentah kemungkinan
disimpan dengan format dan database yang berbeda. Post processing meliputi semua operasi
yang harus dilakukan agar hasil dari Data Mining dapat diakses dan lebih mudah untuk
diinterpretasikan oleh para analis. Teknik visualisasi juga dapat digunakan untuk
mempermudah para analis untuk menggali dan memahami kegunaan dari data mining.
Kumpulan proses dalam KDD meliputi : pembersihan data (data cleaning), integrasi data
(data integration), pemilihan data (data selection), transformasi data (data transformation),
penambangan data (data mining), evaluasi pola (pattern evaluation), dan presentasi
pengetahuan (knowledge presentation). Berdasarkan definisi ini terlihat bahwa data
mininghanya merupakan salah satu proses dari keseluruhan proses yang ada pada KDD,
tetapi merupakan proses yang sangat penting dalam usaha menemukan pola-pola yang
berguna dari sejumlah data yang besar (data tersebut bisa disimpan dalam basisdata, data
warehouse, atau media penyimpanan informasi lainnya).
Data Mining Task
Pada umumnya, data mining task dibagi menjadi dua kategori yang penting, yaitu:
1. Predictive tasks
Tujuan dari task ini adalah untuk memprediksi nilai sebuah atribut yang penting berdasarkan
nilai dari atribut yang lainnya. Atribut yang diprediksi biasanya dikenal sebagai target
ataudependent variable, sedangkan atribut yang digunakan untuk melakukan prediksi dikenal
dengan explanatory atau independent variable.
2. Descriptive task
Tujuan dari task ini adalah untuk menghasilkan pola (correlations, trends, clusters,
trajecttories dan anomalies) yang merangkum keterhubungan dalam data.
Dari gambar diatas , data yang ada dapat digunakan sebagai inti dari data mining task. Data
mining task tersebut antara lain:
1) Predictive Modelling
Predictive Modelling digunakan untuk membangun sebuah model untuk target variable
sebagai fungsi dari explanatory variable. Explanatory variable dalam hal ini merupakan
semua atribut yang digunakan untuk melakukan prediksi, sedangkan target variable
merupakan atribut yang akan diprediksi nilainya. Predictive modeling task dibagi menjadi
dua tipe yaitu : Classification digunakan untuk memprediksi nilai dari target variable
yang discrete(diskret) dan regression digunakan untuk memprediksi nilai dari target variable
yang continu(berkelanjutan).
2) Association Analysis
Association analysis digunakan untuk menemukan aturan association yang memperlihatkan
kondisi-kondisi nilai atribut yang sering muncul secara bersamaan dalam sebuah himpunan
data.
3) Cluster Analysis
Tidak seperti klasifikasi yang menganalisa kelas data obyek yang mengandung label.
Clustering menganalisa objek data tanpa memeriksa kelas label yang diketahui. Label-label
kelas dilibatkan di dalam data training. Karena belum diketahui sebelumnya. Clustering
merupakan proses pengelompokkan sekumpulan objek yang sangat mirip.
4) Anomaly Detection
Anomaly Detection merupakan metode pendeteksian suatu data dimana tujuannya adalah
menemukan objek yang berbeda dari sebagian besar objek lain. Anomaly dapat di deteksi
dengan menggunakan uji statistik yang menerapkan model distribusi atau probabilitas untuk
data.
Pendahuluan
Manusia telah secara manual mengekstrak pola dari data selama berabad-abad, tetapi
meningkatnya volume data yang di zaman modern telah menyerukan pendekatan yang lebih
otomatis. Metode awal untuk mengidentifikasi pola-pola dalam data termasuk Bayes
teorema (1700) dan Analisis Regresi (1800). Proliferasi, di mana-mana dan meningkatkan
kekuatan teknologi komputer telah meningkat pengumpulan data dan penyimpanan. Seperti
kumpulan data telah tumbuh dalam ukuran dan kompleksitas, tangan langsung-analisis data
telah semakin telah ditambah dengan tidak langsung, pemrosesan data otomatis. Ini telah
dibantu oleh penemuan-penemuan lain dalam ilmu komputer, seperti jaringan saraf,
Clustering, Genetic algorithms (1950), Keputusan pohon (1960) dan Dukungan mesin vektor
(1980). Diperlukan sebuah metode sebagai penerapan pengumpulan data yang dapat
menampung, menganalisis secara akurat data yang bagitu besar, metode tersebut hingga saat
ini dikenal sebagai Data Mining.
Data Mining
Data Mining adalah serangkaian proses untuk menggali nilai tambah dari suatu kumpulan
data
berupa pengetahuan yang selama ini tidak diketahui secara manual. Patut diingat bahwa kata
mining sendiri berarti usaha untuk mendapatkan sedikit barang berharga dari sejumlah besar
material dasar. Karena itu DM sebenarnya memiliki akar yang panjang dari bidang ilmu
seperti kecerdasan buatan (artificial intelligent), machine learning, statistik dan database.
Data mining adalah proses menerapkan metode ini untuk data dengan maksud untuk
mengungkap pola-pola tersembunyi. Dengan arti lain Data mining adalah proses untuk
penggalian pola-pola dari data. Data mining menjadi alat yang semakin penting untuk
mengubah data tersebut menjadi informasi. Hal ini sering digunakan dalam berbagai praktek
profil, seperti pemasaran, pengawasan, penipuan deteksi dan penemuan ilmiah. Telah
digunakan selama bertahun-tahun oleh bisnis, ilmuwan dan pemerintah untuk menyaring
volume data seperti catatan perjalanan penumpang penerbangan, data sensus dan supermarket
scanner data untuk menghasilkan laporan riset pasar.
Alasan utama untuk menggunakan data mining adalah untuk membantu dalam analisis
koleksi pengamatan perilaku. Data tersebut rentan terhadap collinearity karena diketahui
keterkaitan. Fakta yang tak terelakkan data mining adalah bahwa subset/set data yang
dianalisis mungkin tidak mewakili seluruh domain, dan karenanya tidak boleh berisi contohcontoh hubungan kritis tertentu dan perilaku yang ada di bagian lain dari domain . Untuk
mengatasi masalah semacam ini, analisis dapat ditambah menggunakan berbasis percobaan
dan pendekatan lain, seperti Choice Modelling untuk data yang dihasilkan manusia.
Dalam situasi ini, yang melekat dapat berupa korelasi dikontrol untuk, atau dihapus sama
sekali, selama konstruksi desain eksperimental. Beberapa teknik yang sering disebut-sebut
dalam literatur Data Mining dalam penerapannya antara lain: clustering, classification,
association rule mining, neural network, genetic algorithm dan lain-lain. Yang membedakan
persepsi terhadap Data Mining adalah perkembangan teknik-teknik Data Mining untuk
aplikasi 1 pada database skala besar. Sebelum populernya Data Mining, teknik-teknik
tersebut hanya dapat dipakaiuntuk data skala kecil saja.
Proses Data Mining
Tahap-Tahap Data Mining. Karena Data Mining adalah suatu rangkaian proses, Data Mining
dapat dibagi menjadi beberapa tahap:
1. Pembersihan data (untuk membuang data yang tidak konsisten dan noise)
2. Integrasi data (penggabungan data dari beberapa sumber)
3. Transformasi data (data diubah menjadi bentuk yang sesuai untuk di-mining)
4. Aplikasi teknik Data Mining
5. Evaluasi pola yang ditemukan (untuk menemukan yang menarik/bernilai)
6. Presentasi pengetahuan (dengan teknik visualisasi)
Tahap-tahap tsb. bersifat interaktif di mana pemakai terlibat langsung atau dengan
perantaraan knowledge base.
Teknik Data Mining
Berikut beberapa jenis teknik Data Mining yang paling populer dikenal dan digunakan:
1. Association Rule Mining
Association rule mining adalah teknik mining untuk menemukan aturan assosiatif antara
suatu kombinasi item. Penting tidaknya suatu aturan assosiatif dapat diketahui dengan dua
parameter, support yaitu persentase kombinasi item tsb. dalam database dan confidence yaitu
kuatnya hubungan antar item dalam aturan assosiatif. Algoritma yang paling populer dikenal
sebagai Apriori dengan paradigma generate and test, yaitu pembuatan kandidat kombinasi
item yang mungkin berdasar aturan tertentu lalu diuji apakah kombinasi item tsb memenuhi
syarat support minimum. Kombinasi item yang memenuhi syarat tsb. disebut frequent
itemset, yang nantinya dipakai untuk membuat aturan-aturan yang memenuhi syarat
confidence minimum. Algoritma baru yang lebih efisien bernama FP-Tree.
2. Classification Classification adalah proses untuk menemukan model atau fungsi yang
menjelaskan atau membedakan konsep atau kelas data, dengan tujuan untuk dapat
memperkirakan kelas dari suatu objek yang labelnya tidak diketahui. Model itu sendiri bisa
berupa aturan jika-maka, berupa decision tree, formula matematis atau neural network.
Decision tree adalah salah satu metode classification yang paling populer karena mudah
untuk
diinterpretasi oleh manusia. Disini setiap percabangan menyatakan kondisi yang harus
dipenuhi dan tiap ujung pohon menyatakan kelas data. Algoritma decision tree yang paling
terkenal adalah C4.5, tetapi akhir- akhir ini telah dikembangkan algoritma yang mampu
menangani data skala besar yang tidak dapat ditampung di main memory seperti RainForest.
Metode-metode classification yang lain adalah Bayesian, neural network, genetic algorithm,
fuzzy, case-based reasoning, dan k-nearest neighbor. Proses classification biasanya dibagi
menjadi dua fase : learning dan test. Pada fase learning, sebagian data yang telah diketahui
kelas datanya diumpankan untuk membentuk model perkiraan. Kemudian pada fase test
model yang sudah terbentuk diuji dengan sebagian data lainnya untuk mengetahui akurasi
dari model tsb. Bila akurasinya mencukupi model ini dapat dipakai untuk prediksi kelas data
yang belum diketahui.
3. Clustering
Berbeda dengan association rule mining dan classification dimana kelas data telah ditentukan
sebelumnya, clustering melakukan penge-lompokan data tanpa berdasarkan kelas data
tertentu. Bahkan clustering dapat dipakai untuk memberikan label pada kelas data yang
belum diketahui itu. Karena itu clustering sering digolongkan sebagai metode unsupervised
learning. Prinsip dari clustering adalah memaksimalkan kesamaan antar anggota satu kelas
dan meminimumkan kesamaan antar kelas/cluster. Clustering dapat dilakukan pada data yan
memiliki beberapa atribut yang dipetakan sebagai ruang multidimensi. Banyak algoritma
clustering memerlukan fungsi jarak untuk mengukur kemiripan antar data, diperlukan juga
metode untuk normalisasi bermacam atribut yang dimiliki data. Beberapa kategori algoritma
clustering yang banyak dikenal adalah metode partisi dimana pemakai harus menentukan
jumlah k partisi yang diinginkan lalu setiap data dites untuk dimasukkan pada salah satu
partisi, metode lain yang telah lama dikenal adalah metode hierarki yang terbagi dua lagi :
bottom-up yang menggabungkan cluster kecil menjadi cluster lebih besar dan top-down yang
memecah cluster besar menjadi cluster yang lebih kecil.
Kelemahan 3 metode ini adalah bila bila salah satu penggabungan/pemecahan dilakukan pada
tempat yang salah, tidak dapat didapatkan cluster yang optimal. Pendekatan yang banyak
diambil adalah menggabungkan metode hierarki dengan metode clustering lainnya seperti
yang dilakukan oleh Chameleon. Akhir-akhir ini dikembangkan juga metode berdasar
kepadatan data, yaitu jumlah data yang ada di sekitar suatu data yang sudah teridentifikasi
dalam suatu cluster. Bila jumlah data dalam jangkauan tertentu lebih besar dari nilai ambang
batas, data-data tsb dimasukkan dalam cluster. Kelebihan metode ini adalah bentuk cluster
yang lebih fleksibel. Algoritma yang terkenal adalah DBSCAN.
Implementasi (Penerapan)
Dalam bidang apasaja data mining dapat diterapkan? Berikut beberapa contoh bidang
penerapan data mining:
- Analisa pasar dan manajemen.
Solusi yang dapat diselesaikan dengan data mining, diantaranya: Menembak target pasar,
Melihat pola beli pemakai dari waktu ke waktu, Cross-Market analysis, Profil Customer,
Identifikasi kebutuhan Customer, Menilai loyalitas Customer, Informasi Summary.
- Analisa Perusahaan dan Manajemen resiko.
Solusi yang dapat diselesaikan dengan data mining, diantaranya: Perencanaan keuangan dan
Evaluasi aset, Perencanaan sumber daya (Resource Planning), Persaingan (Competition).
- Telekomunikasi.
Sebuah perusahaan telekomunikasi menerapkan data mining untuk melihat dari jutaan
transaksi yang masuk, transaksi mana sajakah yang masih harus ditangani secara manual.
- Keuangan.
Financial Crimes Enforcement Network di Amerika Serikat baru-baru ini menggunakan data
mining untuk me-nambang trilyunan dari berbagai subyek seperti property, rekening bank
dan transaksi keuangan lainnya untuk mendeteksi transaksi-transaksi keuangan yang
mencurigakan (seperti money laundry) .
- Asuransi.
Australian Health Insurance Commision menggunakan data mining untuk mengidentifikasi
layanan kesehatan yang sebenarnya tidak perlu tetapi tetap dilakukan oleh peserta asuransi .
- Olahraga.
IBM Advanced Scout menggunakan data mining untuk menganalisis statistik permainan
NBA (jumlah shots blocked, assists dan fouls) dalam rangka mencapai keunggulan bersaing
(competitive advantage) untuk tim New York Knicks dan Miami Heat.
- Astronomi.
Jet Propulsion Laboratory (JPL) di Pasadena, California dan Palomar Observatory berhasil
menemukan 22 quasar dengan bantuan data mining. Hal ini merupakan salah satu kesuksesan
penerapan data mining di bidang astronomi dan ilmu ruang angkasa.
- Internet Web surf-aid
IBM Surf-Aid menggunakan algoritma data mining untuk mendata akses halaman Web
khususnya yang berkaitan dengan pemasaran guna melihat prilaku dan minat customer serta
melihat ke- efektif-an pemasaran melalui Web.
Contoh kasus penerapan: Implementasi data mining dengan teknik Clustering untuk
melakukan Competitive Intelligence perusahaan.
Pembangunan perangkat lunak data mining dengan metode clustering menggunakan
algoritma hirarki divisive untuk pengelompokan customer dalam studi kasus ini, fungsi
fungsi yang dipakai adalah fungsi untuk menentukan titik-titik pusat yang berguna sebagai
pusat-pusat kelompok customer.
bayangkan kasus di bidang penggunaan kartu kredit. Apakah anda punya kartu
kredit? saya mempunyai contoh kasus yang berkaitan dengan kartu kredit.
Suatu hari ayah ditelpon oleh bank yang menginformasikan dan mengkonfirmasi
penggunaan kartu kredit yang tidak biasa, yaitu kartu kredit ayah digunakan di
Malaysia untuk membeli sejumlah besar barang dengan pengeluaran yang
sangat besar. Cerita cukup di sana saja, persoalannya sekarang adalah dari
mana bank tahu bahwa sebuah transaksi itu tergolong sebuah transaksi yang
aneh. Hal ini dapat dideteksi secara otomatis dengan data mining.Data mining
dapat mencari dengan pengetahuannya bahwa transaksi kartu kredit ayah
tergolong aneh. Contoh kasus lain adalah program penawaran jasa/barang
kepada customer. Kalau penyedia layanan tahu bahwa sekelompok pelanggan
biasa menelpon pada jam 17.00-18.00 (misalnya karena macet, maka iseng
ngegosip dengan teman-temannya),
maka perusahaan dapat menarik
pelanggan dari kelompok ini dengan menawarkan tarif yang bersaing dan
menarik pada jam-jam tersebut. So, data mining dapat membantu meningkatkan
kemampuan layanan sebuah perusahaan, baik di bidang keamanan ataupun juga
kualitas
layanan.
Data Mining merupakan disiplin ilmu yang kini sedang hot dimana-mana. Dipakai
di industri perbankan sampai mikrobiologi. Data mining merupakan gabungan
dari statistika, machine learning, database dan visualisasi. Ada tiga pilar data
mining: data, teknik data mining dan modelling. Jadi harus ada data sebagai
bahan untuk diolah. Dan yang penting kemampuan pemodelan. Bagaimana
model yang kita pilih untuk menyelesaikan problem yang kita hadapi. Apakah
klstering, klasifikasi atau prediksi. Setelah itu harus ada teknik data mining yang
kita kuasai untuk menyelesaikan model yang kita punyai.
Tugas utama data mining adalah: Klastering, klasifikasi, prediksi, analisis pola
berurutan dan asosiasi. Masing-masing tugas mempunyai tool yang berbeda.
Klastering memerlukan kmeans, hirarchical clustering atau fuzzy c means.
Klasifikasi memerlukan analisis diskriminan, decision tree, neural networks atau
suppur vector machines. Sedangkan prediksi memerlukan regresi, support vector
regresi, neural networks. Sebelum kita bisa menerapkan teknik mana yang akan
diterapkan, kita harus memahami dulu kasus apa yang kita hadapi. Setelah itu
perlu dilakukan data preprocessing sebelum bisa digunakan sebagai input untuk
teknik data mining yang dipilih.
besar. Data Mining merupakan salah satu proses dari keseluruhan proses yang
ada pada Knowledge Discovery in Databases (KDD). KDD sendiri merupakan
sekumpulan proses untuk menemukan pengetahuan yang bermanfaat dari data.
KDD
terdiri
dari
serangkaian
langkah
perubahan,
termasuk
data preprocessing dan juga post processing. Data preprocessingmerupakan
langkah untuk mengubah data mentah menjadi format yang sesuai untuk tahap
analisis berikutnya.
Implementasi (Penerapan)
Dalam bidang apasaja data mining dapat diterapkan? Berikut beberapa contoh
bidang penerapan data mining:
- Telekomunikasi.
- Keuangan.
- Asuransi.
- Olahraga.
- Astronomi.
IBM Surf-Aid menggunakan algoritma data mining untuk mendata akses halaman
Web khususnya yang berkaitan dengan pemasaran guna melihat prilaku dan
minat customer serta melihat ke- efektif-an pemasaran melalui Web.
Pengertian
Knowledge Discovery and Data Mining(KDD) adalah proses yang dibantu oleh komputer
untuk menggali dan menganalisis sejumlah besar himpunan data dan mengekstrak informasi
dan pengetahuan yang berguna. Data mining tools memperkirakan perilaku dan tren masa
depan, memungkinkan bisnis untuk membuat keputusan yang proaktif dan berdasarkan
pengetahuan.Data mining tools mampu menjawab permasalahan bisnis yang secara tradisional
terlalu lama untuk diselesaikan. Data mining tools menjelajah database untuk mencari pola
tersembunyi, menemukan infomasi yang prediktif yang mungkin dilewatkan para pakar karena
berada di luar ekspektasi mereka.
Metode
Banyak teknik dan metode yang ada untuk melakukan berbagai jenis tugas data mining.
Metode ini dikelompokkan dalam 3 paradigma utama data mining: Predictive
Modeling,Discovery, dan Deviation Detection.
Predictive Modeling
Aplikasi Predictive Modeling menghasilkan klasifikasi
atau
prediksi.
Tujuan
dari predictive modeling adalah menemukan pola yang melibatkan variabel untuk memprediksi
dan mengklasifikasi perilaku masa depan dari sebuah entitas. Ada dua tipe masalah yang
diselesaikan oleh predictive modeling: klasifikasi dan regresi.
Klasifikasi melibatkan model pembelajaran yang memetakan (atau mengklasifikasi) data
contoh ke dalam satu atau beberapa kelas yang telah didefinisikan. Sebagai contoh, bank
dapat menggunakan skema klasifikasi untuk menentukan pengajuan pinjaman yang akan
disetujui. Teknik klasifikasi meliputi Naive Bayesian, neural networks, dan decision trees.
Regresi melibatkan model yang memetakan data contoh ke prediksi real-valued. Teknik
regresi meliputi neural networks dan decision (atau regression) trees.
Discovery
Aplikasi discovery adalah
pendekatan
eksploratoris
untuk
analisis
data.
Aplikasi discoverymenggunakan teknik yang menganalisis data set yang besar untuk
menemukan association rules(atau pola), atau menemukan kluster dari sampel yang dapat
dikelompokan. Hasil dari metode discovery umumnya dimaksudkan untuk pengguna. Walau
begitu, hasilnya juga dapat diaplikasikan ke metode data mining yang lain
Deviation Detection
Deviation Detection melakukan deteksi anomali secara otomatis. Tujuannya untuk mengidentifikasi
kebiasaan suatu entitas dan menetapkan sejumlah norm melalui pattern discovery. Sampel yang
berdeviasi dari norm lalu diidentifikasi sebagai tidak biasa. teknik Deviation Detection melalui
visualisasi melalui parallel coordinates, scatterplots, dan surface plots.
Aplikasi
Aplikasi dari KDD dalam bisnis antara lain:
Market segmentation Mengidentifikasi karakteristik umum dari pelanggan yang
membeli produk yang sama dari perusahaan
Customer churn Memprediksi pelanggan yang mungkin meninggalkan perusahaan
untuk beralih ke kompetitor
Fraud detection Mengidentifikasi transaksi yang mungkin merupakan transaksi
curang.
Direct marketing Memprediksi prospek yang harus dimasukkan dalam mailinglistuntuk mendapatkan respon maksimum
Referensi :
Introduction to Data Mining and Knowledge Discovery Third Edition
Penulis : Herbert A. Edelstein
Publisher : Two Crows Corporation (October 8, 1999)
Penulis : Kurt Thearling
Judul : An Introduction to Data Mining, Discovering hidden value in your data warehouse
http://www.thearling.com/text/dmwhite/dmwhite.htm
Publisher : Wikipedia Foundation
Judul : Data Mining
http://en.wikipedia.org/wiki/Data_mining
Publisher : ALG (Automated Learning Group), NCSA (National Center for Supercomputing
Applications)
Judul : Data Mining
http://alg.ncsa.uiuc.edu/tools/docs/d2k/manual/dataMining.html