Anda di halaman 1dari 39

Teknik-Teknik Data Mining

1. Classification
Classification adalah tindakan untuk memberikan kelompok pada setiap keadaan. Setiap
keadaan berisi sekelompok atribut, salah satunya adalah class attribute. Metode ini butuh
untuk menemukan sebuah model yang dapat menjelaskan class attribute itu sebagai fungsi
dari input attribute.
Contohnya kita lihat pada contoh kasus College Plan

Class adalah attribute CollegePlans yang berisi dua pernyataan, Yes dan No, perhatikan ini.
Sebuah Classification Model akan menggunakan atribut lain dari kasus tersebut (input
attribut; yaitu kolom IQ, Gender, ParentIncome, dan ParentEncouragement) untuk dapat
menentukan pola (pattern) class (Output Attribute; yaitu Kolom CollegePlans yang berisi Yes
atau No).
Algoritma Data Mining yang membutuhkan variabel target untuk belajar (sampai
mendapatkan rule / pola yang berlaku pada data tersebut) kita standarkan dengan sebutan
dengan Supervised Algorithm. Yang termasuk kepada Classification Algorithm adalah
Decision Trees, Neural Network dan Naives Bayes.
2. Clustering

Clustering juga disebut sebagai segmentation. Metoda ini digunakan untuk mengidentifikasi
kelompok alami dari sebuah kasus yang di dasarkan pada sebuah kelompok atribut,
mengelompokkan data yang memiliki kemiripan atribut. Gambar ini menunjukkan kelompok
data pelanggan sederhana yang berisi dua atribut, yaitu Age (Umur) dan Income
(Pendapatan). Algoritma Clustering mengelompokkan kelompok data kedalam tiga segment
berdasarkan
kedua
atribut
ini.

Cluster 1 berisi populasi berusia muda dengan pendapatan rendah

Cluster 2 berisi populasi berusia menengah dengan pendapatan yang lebih tinggi

Cluster 3 berisi populasi berusia tua dengan pendapatan yang relatif rendah.

Clustering adalah metode data mining yang Unsupervised, karena tidak ada satu atributpun
yang digunakan untuk memandu proses pembelajaran, jadi seluruh atribut input diperlakukan
sama. Kebanyakan Algoritma Clustering membangun sebuah model melalui serangkaian
pengulangan dan berhenti ketika model tersebut telah memusat atau berkumpul (batasan dari
segmentasi ini telah stabil).
3. Association

Association juga disebut sebagai Market Basket Analysis. Sebuah problem bisnis yang khas
adalah menganalisa tabel transaksi penjualan dang mengidentifikasi produk-produk yang
seringkali dibeli bersamaan oleh customer, misalnya apabila orang membeli sambal, biasanya
juga dia membeli kecap. Kesamaan yang ada dari data pembelian digunakan untuk

mengidentifikasi kelompok kesamaan dari produk dan kebiasaan apa yang terjadi guna
kepentingan cross-selling seperti gambar dibawah ini.
Beberapa hal dapat kita baca, misalnya :

Ketika orang membeli susu, dia biasanya membeli keju

Ketika orang membeli pepsi atau coke, biasanya dia membeli juice

Didalam istilah association, setiap item dipertimbangkan sebagai informasi.


Metode association memiliki dua tujuan:

Untuk mencari produk apa yang biasanya terjual bersamaan

Untuk mencari tahu apa aturan yang menyebabkan kesamaan tersebut.

4. Regression
Metode Regression mirip dengan metode Classification, yang membedakannya adalah
metode regression tidak bisa mencari pola yang dijabarkan sebagai class (kelas). Metoda
regression bertujuan untuk mecari pola dan menentukan sebuah nilai numerik.
Sebuah Teknik Linear Line-fitting sederhana adalah sebuah contoh dari Regression, dimana
hasilnya adalah sebuah fungsi untuk menentukan hasil yang berdasarkan nilai dari input.
Bentuk yang lebih canggih dari regression sudah mendukung input berupa kategori, jadi tidak
hanya input berupa numerik. Teknik paling popular yang digunakan untuk regression adalah
linear regression dan logistic regression. Teknik lain yang didukung oleh SQL Server Data
mining adalah Regression Trees (bagian dari dari algoritma Microsoft Decission Trees) dan
Neural Network.
Regression digunakan untuk memecahkan banyak problem bisnis, contohnya untuk
memperkirakan metode distribusi, kapasitas distribusi, musim dan untuk memperkirakan
kecepatan angin berdasarkan temperatur, tekanan udara, dan kelembaban.
5. Forecasting
Forecasting adalah metode data mining yang sangat penting. Contohnya digunakan untuk
menjawab pertanyaan seperti berikut:

Seperti apa jadinya nilai saham dari Microsoft Corporation (pada NASDAQ, disimbolkan
sebagai MSFT) pada keesokan hari?

Sebanyak apa penjualan produk tertentu pada bulan depan?

Teknik Forecasting dapat membantu menjawab pertanyaan-pertanyaan diatas. Sebagai


inputnya teknik Forecasting akan mengambil sederetan angka yang menunjukkan nilai yang
berjalan seiring waktu dan kemudian Teknik Forecasting ini akan menghubungkan nilai masa
depan dengan menggunakan bermacam-macam teknik machine-learning dan teknik statistik
yang berhubungan dengan musim, trend, dan noise pada data.
Gambar diatas menunjukkan dua kurva, garis yang tegas adalah time-series data sebenarnya
dari nilai saham Microsoft, dan garis putus-putus adalah time series model yang memprediksi
nilai saham berdasarkan nilai saham pada masa lalu.
6. Sequence Analysis
Sequence Anlysis digunakan untuk mencari pola pada serangkaian kejadian yang disebut
dengan Sequence. Sebagai contoh sebuah DNA terdiri dari rangaian bagian: A, G, C, dan T.
dan rangkaian klik pada sebuah website berisi rentetan URL. Pada kejadian nyata anda
mungkin memodelkan pembelian oleh pelanggan sebagai sebuah sequence (rangkaian) data,
rangkaian tersebut adalah:

Pertama-tama Seorang pelanggan membeli komputer

kemudian membeli speaker

dan akhirnya membeli sebuah webcam.

Baik Sequence maupun time-series data mempunyai kemiripan, mereka sama sama berisi
tinjauan berdekatan yang urutannya bergantung. Bedanya adalah sebuah time-series berisi
data bertipe numerik, dan sebuah sequence series berisi bagian yang khas.

Gambar ini menunjukan rangkaian klik pada sebuah website berita. Setiap node adalah
sebuah kategori URL. Dan garis melambangkan transisi antar kategori URL tersebut. Setiap
transisi di kelompokan dengan sebuah bobot yang menggambarkan kemungkinan transisi
antara satu URL dan URL yang lain.

TEKNIK DAN METODE DATA MINING

Kami akan membahas mengenai Teknik dan Metode dari Data Mining , dimana Teknik data Mining
terbagi atas :

Association Rule Mining


Classification
Clustering

Dan Metode Data Mining terbagi atas tiga :

Predictive Modelling,
Discovery, dan
Deviation Detection.

Teknik Teknik Data Mining


1. Association Rule Mining
Association rule mining adalah teknik mining untuk menemukan aturan assosiatif antara suatu
kombinasi item. Contoh dari aturan assosiatif dari analisa pembelian di suatu pasar swalayan adalah
bisa diketahui berapa besar kemungkinan seorang pelanggan membeli roti bersamaan dengan susu.
Dengan pengetahuan tsb. pemilik pasar swalayan dapat mengatur penempatan barangnya atau
merancang kampanye pemasaran dengan memakai kupon diskon untuk kombinasi barang tertentu.
Penting tidaknya suatu aturan assosiatif dapat diketahui dengan dua parameter, support yaitu
persentase kombinasi item tsb. dalam database dan confidence yaitu kuatnya hubungan antar item
dalam aturan assosiatif.
2. Classification
Classification adalah proses untuk menemukan model atau fungsi yang menjelaskan atau
membedakan konsep atau kelas data, dengan tujuan untuk dapat memperkirakan kelas dari suatu
objek yang labelnya tidak diketahui. Model itu sendiri bisa berupa aturan jika-maka, berupa
decision tree, formula matematis atau neural network.
Decision tree adalah salah satu metode classification yang paling populer karena mudah untuk
diinterpretasi oleh manusia. Contoh dari decision tree dapat dilihat pada gambar diatas. Disini setiap
percabangan menyatakan kondisi yang harus dipenuhi dan tiap ujung pohon menyatakan kelas data.
Contoh di Gambar 3 adalah identifikasi pembeli komputer, dari decision tree tsb. diketahui bahwa
salah satu kelompok yang potensial membeli komputer adalah orang yang berusia di bawah 30 tahun
dan juga pelajar.

3. Clustering
Berbeda dengan association rule mining dan classification dimana kelas data telah ditentukan
sebelumnya, clustering melakukan pengelompokan data tanpa berdasarkan kelas data tertentu. Bahkan
clustering dapat dipakai untuk memberikan label pada kelas data yang belum diketahui itu. Karena itu
clustering sering digolongkan sebagai metode unsupervised learning. Prinsip dari clustering adalah
memaksimalkan kesamaan antar anggota satu kelas dan meminimumkan kesamaan antar kelas/cluster.
Clustering dapat dilakukan pada data yan memiliki beberapa atribut yang dipetakan sebagai ruang
multidimensi.

Metode Data Mining


Banyak teknik dan metode yang ada untuk melakukan berbagai jenis tugas data mining. Metode ini
dikelompokkan dalam 3 paradigma utama data mining:
Predictive Modeling, Discovery, dan Deviation Detection.
1. Predictive Modeling
Aplikasi Predictive Modeling menghasilkan klasifikasi atau prediksi. Tujuan dari predictive modeling
adalah menemukan pola yang melibatkan variabel untuk memprediksi dan mengklasifikasi perilaku
masa depan dari sebuah entitas. Ada dua tipe masalah yang diselesaikan oleh predictive modeling:
klasifikasi dan regresi.
1.1 Klasifikasi melibatkan model pembelajaran yang memetakan (atau mengklasifikasi) data contoh
ke dalam satu atau beberapa kelas yang telah didefinisikan. Sebagai contoh, bank dapat menggunakan
skema klasifikasi untuk menentukan pengajuan pinjaman yang akan disetujui. Teknik klasifikasi
meliputi Naive Bayesian, neural networks, dan decision trees.
1.2 Regresi melibatkan model yang memetakan data contoh ke prediksi real-valued. Teknik regresi
meliputi neural networks dan decision (atau regression) trees.
2. Discovery
Aplikasi discovery adalah pendekatan eksploratoris untuk analisis data. Aplikasi discovery
menggunakan teknik yang menganalisis data set yang besar untuk menemukan association rules(atau
pola), atau menemukan kluster dari sampel yang dapat dikelompokan. Hasil dari metode discovery
umumnya dimaksudkan untuk pengguna. Walau begitu, hasilnya juga dapat diaplikasikan ke metode
data mining yang lain
3. Deviation Detection
Deviation Detection melakukan deteksi anomali secara otomatis. Tujuannya untuk mengidentifikasi
kebiasaan suatu entitas dan menetapkan sejumlah norm melalui pattern discovery. Sampel yang
berdeviasi dari norm lalu diidentifikasi sebagai tidak biasa. teknik Deviation Detection melalui
visualisasi melalui parallel coordinates, scatterplots, dan surface plots.

Data Mining Proses, Tahapan dan Penerapannya


April 24, 2009 at 4:36 am (Management Database)
Oleh Rezqiwati

Abstrak
Perkembangan data mining (DM) yang pesat tidak dapat lepas dari perkembangan teknologi
informasi yang memungkinkan data dalam jumlah besar terakumulasi sejalan dengan pertumbuhan
teknologi informasi. Mining berarti usaha untuk mendapatkan sedikit barang berharga dari sejumlah
besar material dasar. Olehnya itu, data mining memiliki akar yang panjang dari bidang ilmu seperti
kecerdasan buatan (artificial intelligent), machine learning, statistik dan database.
Data Mining (DM) sendiri adalah serangkaian proses untuk menggali nilai tambah berupa
pengetahuan yang selama ini tidak diketahui secara manual dari suatu kumpulan data.Seorang analis
menerapkan tahapan-tahapan data mining tersebut. Sebagai prasyarat penerapan data mining,
diperlukan pemahaman terhadap data dan proses diperolehnya data tersebut. Yang lebih mendasar
lagi adalah diperlukannya pemahaman mengapa menerapkan data mining dan target yang ingin
dicapai. Sehingga secara garis besar sudah ada hipotesa mengenai aksi-aksi yang dapat diterapkan
dari hasilnya nanti. Penulis juga mencoba merangkum perkembangan terakhir dari teknik-teknik DM
beserta implikasinya di dunia bisnis.

Kata Kunci: data mining, process, tahapan, penerapan

Pendahuluan

Perkembangan data mining (DM) yang pesat tidak dapat lepas dari perkembangan teknologi
informasi yang memungkinkan data dalam jumlah besar terakumulasi. Sebagai contoh, toko swalayan
merekam setiap penjualan barang dengan memakai alat POS (point of sales). Database data
penjualan tsb. bisa mencapai beberapa GB setiap harinya untuk sebuah jaringan toko swalayan
berskala nasional. Perkembangan internet juga punya andil cukup besar dalam akumulasi data.
Tetapi pertumbuhan yang pesat dari akumulasi data itu telah menciptakan kondisi yang sering disebut

sebagai rich of data but poor of information karena data yang terkumpul itu tidak dapat digunakan
untuk aplikasi yang berguna. Tidak jarang kumpulan data itu dibiarkan begitu saja seakan-akan
kuburan data (data tombs).
Patut diingat bahwa kata mining sendiri berarti usaha untuk mendapatkan sedikit barang berharga
dari sejumlah besar material dasar. Karena itu data mining sebenarnya memiliki akar yang panjang
dari bidang ilmu seperti kecerdasan buatan (artificial intelligent), machine learning, statistik dan
database. Beberapa teknik yang sering disebut-sebut dalam literatur DM antara lain: clustering,
classification, association rule mining, neural network, genetic algorithm dan lain-lain. Yang
membedakan persepsi terhadap DM adalah perkembangan teknik-teknik DM untuk aplikasi pada
database skala besar yang ternyata penerapan pada data berskala besar memberikan tantangantantangan baru yang akhirnya memunculkan metodologi baru. Sebelum populernya data mining,
teknik-teknik

tersebut

hanya

dapat

dipakai

untuk

data

skala

kecil

saja.

Bermula dari penerapan di dunia bisnis, sekarang ini data mining juga diterapkan pada bidang-bidang
lain yang memerlukan analisa data berskala besar seperti bioinformasi dan pertahanan Negara.

Apa dan Bagaimana Proses Data Mining


Ada beberapa definisi dari data mining yang dikenal di buku-buku teks data mining, diantaranya
adalah :

Data mining adalah serangkaian proses untuk menggali nilai tambah dari suatu kumpulan
data berupa pengetahuan yang selama ini tidak diketahui secara manual.

Data mining adalah analisa otomatis dari data yang berjumlah besar atau kompleks dengan
tujuan untuk menemukan pola atau kecenderungan yang penting yang biasanya tidak disadari
keberadaannya

Dari definisi-definisi itu, dapat dilihat ada beberapa faktor yang mendefinisikan data mining :
1. Data mining adalah proses otomatis terhadap data yang dikumpulkan di masa lalu
2. Objek dari data mining adalah data yang berjumlah besar atau kompleks
3. Tujuan dari data mining adalah menemukan hubungan-hubungan atau pola-pola yang mungkin
memberikan indikasi yang bermanfaat
Sejarah Data mining bukanlah suatu bidang yang sama sekali baru. Salah satu kesulitan untuk
mendefinisikan data mining adalah kenyataan bahwa data mining mewarisi banyak aspek dan teknik
dari bidang-bidang ilmu yang sudah mapan terlebih dulu. Gambar 1, menunjukkan bahwa data mining

memiliki akar yang panjang dari bidang ilmu seperti kecerdasan buatan (artificial intelligent), machine
learning, statistic, database dan juga information retrieval.

Gambar 1
Beberapa teknik yang sering disebut-sebut dalam literatur data mining seperti classification, neural
network, genetic algorithm dll. sudah lama dikenal di dunia kecerdasan buatan. Statistik memberikan
kontribusi pada data mining dengan teknik-teknik untuk menyeleksi data dan evaluasi hasil data
mining selain teknik-teknik data mining seperti clustering. Yang membedakan persepsi terhadap data
mining adalah perkembangan teknik-teknik data mining untuk aplikasi pada database skala besar.
Sebelum populernya data mining, teknik-teknik tersebut pada umunya diterapkan untuk data skala
kecil saja. Selain itu beberapa teknik dari bidang database untuk transformasi data juga merupakan
bagian integral dari proses data mining.
Akhir-akhir ini ada beberapa bidang ilmu seperti information retrieval yang juga terlibat dalam proses
data mining untuk mengekstrak sumber data bagi data mining dari sumber-sumber seperti teks dan
website. Walaupun data mining memiliki sumber dari beberapa bidang ilmu, data mining berbeda
dalam beberapa aspek dibandingkan dengan bidang ilmu seperti berikut :

Statistik : model statistik dipersiapkan oleh para ahli statistik, sedangkan data mining
mengembangkan statistik untuk menangani data berjumlah besar secara otomatis -

Expert system (sistem cerdas) : model pada expert system dibuat berupa aturan-aturan
berdasar pada pengalaman-pengalaman para ahli

Data Warehouse (DWH) : sering terjadi kerancuan antara data mining dan data warehouse
karena keduanya sering dipakai bersamaan. Pada umumnya data warehouse lebih merujuk

pada tempat untuk menyimpan data yang terkonsolidasi sedangkan data mining bisa dianggap
sebagai perkakas untuk menganalisa otomatis nilai dari data itu

OLAP : seperti data warehouse, OLAP juga sering dibahas bersama data mining. Tetapi
OLAP memiliki tujuan untuk memastikan hipotesa yang sudah diformulasikan terlebih dulu oleh
penggunanya.

Salah satu tuntutan dari data mining ketika diterapkan pada data berskala besar adalah diperlukan
metodologi sistematis tidak hanya ketika melakukan analisa saja tetapi juga ketika mempersiapkan
data dan juga melakukan interpretasi dari hasilnya sehingga dapat menjadi aksi ataupun keputusan
yang bermanfaat. Karenanya data mining seharusnya dipahami sebagai suatu proses, yang memiliki
tahapan-tahapan tertentu dan juga ada umpan balik dari setiap tahapan ke tahapan sebelumnya.
Pada umumnya proses data mining berjalan interaktif karena tidak jarang hasil data mining pada
awalnya tidak sesuai dengan harapan analisnya sehingga perlu dilakukan desain ulang prosesnya.
Disini akan diuraikan tahap-tahap umum dari data mining tapi perlu diingat sebelum seorang analis
menerapkan tahapan-tahapan data mining tersebut, sebagai prasyarat penerapan data mining,
diperlukan pemahaman terhadap data dan proses diperolehnya data tersebut. Yang lebih mendasar
lagi adalah diperlukannya pemahaman mengapa menerapkan data mining dan target yang ingin
dicapai. Sehingga secara garis besar sudah ada hipotesa mengenai aksi-aksi yang dapat diterapkan
dari hasilnya nanti. Pemahaman-pemahaman tersebut akan sangat membantu dalam mendesain
proses data mining dan juga pemilihan teknik data mining yang akan diterapkan. Selain itu, bagi dunia
bisnis akan memudahkan untuk melakukan pengukuran return on investment-nya (ROI).

Gambar 2 : TahapTahap Data Mining

Tahap-Tahap Data Mining


Sebagai suatu rangkaian proses, data mining dapat dibagi menjadi beberapa tahap yang
diilustrasikan pada Gambar 2 di atas. Tahap-tahap tersebut bersifat interaktif di mana pemakai terlibat
langsung atau dengan perantaraan knowledge base. Tahapan-tahapan tersebut, diantaranya :
1.

Pembersihan data (untuk membuang data yang tidak konsisten dan noise)
Pada umumnya data yang diperoleh, baik dari database suatu perusahaan maupun hasil
eksperimen, memiliki isian-isian yang tidak sempurna seperti data yang hilang, data yang tidak
valid atau juga hanya sekedar salah ketik. Selain itu, ada juga atribut-atribut data yang tidak
relevan dengan hipotesa data mining yang kita miliki. Data-data yang tidak relevan itu juga lebih
baik dibuang karena keberadaannya bisa mengurangi mutu atau akurasi dari hasil data mining
nantinya. Garbage in garbage out (hanya sampah yang akan dihasilkan bila yang dimasukkan
juga sampah) merupakan istilah yang sering dipakai untuk menggambarkan tahap ini.
Pembersihan data juga akan mempengaruhi performasi dari sistem data mining karena data
yang ditangani akan berkurang jumlah dan kompleksitasnya.

2.

Integrasi data (penggabungan data dari beberapa sumber)

Tidak jarang data yang diperlukan untuk data mining tidak hanya berasal dari satu database
tetapi juga berasal dari beberapa database atau file teks. Integrasi data dilakukan pada atributaribut yang mengidentifikasikan entitas-entitas yang unik seperti atribut nama, jenis produk,
nomor pelanggan dsb. Integrasi data perlu dilakukan secara cermat karena kesalahan pada
integrasi data bisa menghasilkan hasil yang menyimpang dan bahkan menyesatkan
pengambilan aksi nantinya. Sebagai contoh bila integrasi data berdasarkan jenis produk
ternyata menggabungkan produk dari kategori yang berbeda maka akan didapatkan korelasi
antar produk yang sebenarnya tidak ada. Dalam integrasi data ini juga perlu dilakukan
transformasi dan pembersihan data karena seringkali data dari dua database berbeda tidak
sama cara penulisannya atau bahkan data yang ada di satu database ternyata tidak ada di
database lainnya.
3.

Transformasi data (data diubah menjadi bentuk yang sesuai untuk di-mining)
Beberapa teknik data mining membutuhkan format data yang khusus sebelum bisa
diaplikasikan. Sebagai contoh beberapa teknik standar seperti analisis asosiasi dan klastering
hanya bisa menerima input data kategorikal. Karenanya data berupa angka numerik yang
berlanjut perlu dibagi-bagi menjadi beberapa interval. Proses ini sering disebut binning. Disini
juga dilakukan pemilihan data yang diperlukan oleh teknik data mining yang dipakai.
Transformasi dan pemilihan data ini juga menentukan kualitas dari hasil data mining nantinya
karena ada beberapa karakteristik dari teknik-teknik data mining tertentu yang tergantung pada
tahapan ini.

4.

Aplikasi teknik data mining


Aplikasi teknik data mining sendiri hanya merupakan salah satu bagian dari proses data mining.
Ada beberapa teknik data mining yang sudah umum dipakai. Kita akan membahas lebih jauh
mengenai teknik-teknik yang ada di seksi berikutnya. Perlu diperhatikan bahwa ada kalanya
teknik-teknik data mining umum yang tersedia di pasar tidak mencukupi untuk melaksanakan
data mining di bidang tertentu atau untuk data tertentu. Sebagai contoh akhir-akhir ini
dikembangkan berbagai teknik data mining baru untuk penerapan di bidang bioinformatika
seperti analisa hasil microarray untuk mengidentifikasi DNA dan fungsi-fungsinya.

5.

Evaluasi pola yang ditemukan (untuk menemukan yang menarik/bernilai)


Dalam tahap ini hasil dari teknik data mining berupa pola-pola yang khas maupun model
prediksi dievaluasi untuk menilai apakah hipotesa yang ada memang tercapai. Bila ternyata
hasil yang diperoleh tidak sesuai hipotesa ada beberapa alternatif yang dapat diambil seperti :
menjadikannya umpan balik untuk memperbaiki proses data mining, mencoba teknik data

mining lain yang lebih sesuai, atau menerima hasil ini sebagai suatu hasil yang di luar dugaan
yang mungkin bermanfaat.
Ada beberapa teknik data mining yang menghasilkan hasil analisa berjumlah besar seperti
analisis asosiasi. Visualisasi hasil analisa akan sangat membantu untuk memudahkan
pemahaman dari hasil data mining.
6.

Presentasi pola yang ditemukan untuk menghasilkan aksi


Tahap terakhir dari proses data mining adalah bagaimana memformulasikan keputusan atau
aksi dari hasil analisa yang didapat. Ada kalanya hal ini harus melibatkan orang-orang yang
tidak memahami data mining. Karenanya presentasi hasil data mining dalam bentuk
pengetahuan yang bisa dipahami semua orang adalah satu tahapan yang diperlukan dalam
proses data mining. Dalam presentasi ini, visualisasi juga bisa membantu mengkomunikasikan
hasil data mini

Penerapan Data Mining


Terkadang muncul pertanyaan tentang penerapan data mining itu sendiri. Di bidang apa saja
penerapannya dapat dilakukan? Artikel singkat ini berusaha memberikan jawabannya.

Analisa Pasar dan Manajemen


Untuk analisa pasar, banyak sekali sumber data yang dapat digunakan seperti transaksi kartu kredit, kartu
anggota club tertentu, kupon diskon, keluhan pembeli, ditambah dengan studi tentang gaya hidup publik.
Beberapa solusi yang bisa diselesaikan dengan data mining diantaranya:

Menembak target pasar


Data mining dapat melakukan pengelompokan (clustering) dari model-model pembeli dan
melakukan klasifikasi terhadap setiap pembeli sesuai dengan karakteristik yang diinginkan
seperti kesukaan yang sama, tingkat penghasilan yang sama, kebiasaan membeli dan
karakteristik lainnya.

Melihat pola beli pemakai dari waktu ke waktu


Data mining dapat digunakan untuk melihat pola beli seseorang dari waktu ke waktu. Sebagai
contoh, ketika seseorang menikah bisa saja dia kemudian memutuskan pindah dari single
account ke joint account (rekening bersama) dan kemudian setelah itu pola beli-nya berbeda
dengan ketika dia masih bujangan.

Cross-Market Analysis
dengan produk lainnya. Berikut ini saya sajikan beberapa contoh:
Cari pola penjualan Coca Cola sedemikian rupa sehingga kita dapat mengetahui

barang apa sajakah yang harus kita sediakan untuk meningkatkan penjualan Coca Cola?
Cari pola penjualan IndoMie sedemikian rupa sehingga kita dapat mengetahui barang

apa saja yang juga dibeli oleh pembeli IndoMie. Dengan demikian kita bisa mengetahui
dampak jika kita tidak lagi menjual IndoMie.
Cari pola penjualan

Profil Customer
Data mining dapat membantu Anda untuk melihat profil customer/pembeli/nasabah sehingga
kita dapat mengetahui kelompok customer tertentu suka membeli produk apa saja.

Identifikasi Kebutuhan Customer


Anda dapat mengidentifikasi produk-produk apa saja yang terbaik untuk tiap kelompok customer
dan menyusun faktor-faktor apa saja yang kira-kira dapat menarik customer baru untuk
bergabung/membeli.

Menilai Loyalitas Customer


VISA International Spanyol menggunakan data mining untuk melihat kesuksesan programprogram customer loyalty mereka. Anda bisa lihat dihttp://www.visa.es/ingles/info/300300.html

Informasi Summary
Anda juga dapat memanfaatkan data mining untuk membuat laporan summary yang bersifat
multi-dimensi dan dilengkapi dengan informasi statistik lainnya.

Data Mining Yang Bisa dan Tidak Bisa Dilakukan


Secara umum, data mining dapat melakukan dua hal yaitu :

Memberikan kesempatan untuk menemukan informasi menarik yang tidak terduga.

Dapat menangani data berskala besar.

Dalam menemukan informasi yang menarik ini, ciri khas data mining adalah kemampuan pencarian
secara hampir otomatis. Mengapa disebut hampir otomatis karena dalam banyak teknik data mining
ada beberapa parameter yang masih harus ditentukan secara manual atau semi manual. Penelitian
untuk melakukan setting secara adaptif merupakan bidang yang hangat diteliti. Data mining juga
dapat memanfaatkan pengalaman atau bahkan kesalahan di masa lalu untuk meningkatkan kualitas
dari model maupun hasil analisanya, salah satunya dengan kemampuan pembelajaran yang dimiliki
beberapa teknik data mining seperti klasifikasi. Data Mining juga memiliki kemampuan, diantaranya :

Mampu menangani data dalam jumlah besar.

Memungkinkan data mining untuk diterapkan pada masalah-masalah kompleks yang


ukurannya tidak dibatasi lagi oleh otak manusia.

Selain itu penelitian tentang algoritma parallel dari data mining juga membuka jalan agar data
mining dapat diterapkan pada program skala yang lebih besar lagi.

Sebaliknya, disamping memiliki kemampuan ada beberapa hal yang tidak bisa dilakukan oleh data
mining, diantaranya :

Perlu disadari bahwa data mining bukanlah solusi yang cocok untuk setiap masalah. Ada
banyak masalah yang justru lebih baik diselesaikan dengan statistic yang sederhana.

Data mining juga tidak bisa menemukan pengetahuan yang bermanfaat secara instan.

Beberapa hal yang perlu diperhatikan oleh seorang analis :

Seorang analis data mining perlu tahu perbedaan, kelebihan dan kekurangan dari teknikteknik data mining yang ada sebelumnya mengaplikasikan yang paling cocok untuk masalah
yang dihadapinya.

Ketika menjalankan teknik data mining itu sendiri, si analis juga perlu mengarahkan
programnya dengan melakukan persiapan-persiapan dan pemilihan parameternya.

Setelah data mining dilaksanakan pun si analis harus melakukan evaluasi terhadap pola-pola
yang dihasilkan sebelumnya bisa merumuskan hasilnya.

Terakhir perlu diingat bahwa data mining tidak bisa memberikan hasil yang bisa langsung
digunakan. Banyak hasil dari data mining yang tidak bisa langsung diinterpretasikan dengan
mudah.

Hal-hal ini juga disadari oleh perusahaan-perusahaan yang menerapkan data mining dan
OLAP, yang sering dirangkum dalam istilah business intelligence (BI). Untuk memecahkan
masalah ini, mulai banyak perusahaan yang membuat pusat untuk business intelligence yang
membantu karyawan biasa untuk menggunakan piranti OLAP maupun data mining dengan
menyediakan pelatihan dan informasi praktis pemakaian dan aplikasi hasilnya.

Kesimpulan dan Saran


Kesimpulan

Data mining adalah serangkaian proses untuk menggali nilai tambah dari suatu kumpulan
data berupa pengetahuan yang selama ini tidak diketahui secara manual, juga diartikan sebagai
analisa otomatis dari data yang berjumlah besar atau kompleks dengan tujuan untuk
menemukan

pola

atau

kecenderungan

yang

penting

yang

biasanya

tidak

disadari

keberadaannya

Disamping memiliki kemampuan, data mining juga memiliki keterbatasan yang tidak bisa
dilakukannya.

Salah satu tuntutan dari data mining ketika diterapkan pada data berskala besar adalah
diperlukan metodologi sistematis tidak hanya ketika melakukan analisa saja tetapi juga ketika
mempersiapkan data dan juga melakukan interpretasi dari hasilnya sehingga dapat menjadi aksi
ataupun keputusan yang bermanfaat. Karenanya data mining seharusnya dipahami sebagai
suatu proses, yang memiliki tahapan-tahapan tertentu dan juga ada umpan balik dari setiap
tahapan ke tahapan sebelumnya.

Saran
Tulisan ini masih butuh pengembangan, karenanya kritik dan saran yang sifatnya membangun tetap
penulis nantikan.

Daftar Pustaka
Yudho

Giri

Sucahyo,

2003, Penerapan

Data

Mining,

Artikel

Populer

IlmuKomputer.Com (Artikel Internet www.google.com)


Iko Pramudiono, 2003, Pengantar Data Mining, Kuliah Umum IlmuKomputer.Com (Artikel
Internet www.google.com)
Iko Pramudiono, 2006, Indo Data Mining, (Artikel Internet www.google.com)

Data Mining
gorbyrashid Filed Under: Labels: Data Mining

Apa itu Data Mining


Pendahuluan Perkembangan data mining(DM) yang pesat tidak dapat
lepas dari perkembangan teknologi informasi yang memungkinkan data
dalam jumlah besar terakumulasi. Sebagai contoh, toko swalayan
merekam setiap penjualan barang dengan memakai alat POS(point of
sales). Database data penjualan tsb. bisa mencapai beberapa GB setiap
harinya untuk sebuah jaringan toko swalayan berskala nasional.
Perkembangan internet juga punya andil cukup besar dalam akumulasi
data. Tetapi pertumbuhan yang pesat dari akumulasi data itu telah
menciptakan kondisi yang sering disebut sebagai rich of data but poor
of information karena data yang terkumpul itu tidak dapat digunakan
untuk aplikasi yang berguna. Tidak jarang kumpulan data itu dibiarkan
begitu saja seakan-akan kuburan data (data tombs). Investasi yang
besar di bidang IT untuk mengumpulkan data berskala besar ini perlu
dijustifikasi dengan didapatnya nilai tambah dari kumpulan data ini.
Kebutuhan dari dunia bisnis yang ingin memperoleh nilai tambah dari data yang telah mereka
kumpulkan telah mendorong penerapan teknik-teknik analisa data dari berbagai bidang
seperti statistik, kecerdasan buatan dsb pada data berskala besar itu. Ternyata penerapan pada
data berskala besar memberikan tantangan-tantangan baru yang akhirnya memunculkan
metodologi baru yang disebut data mining ini. Bermula dari penerapan di dunia bisnis,
sekarang ini data mining juga diterapkan pada bidang-bidang lain yang memerlukan analisa
data berskala besar seperti bioinformasi dan pertahanan negara.
Dalam tulisan ini, penulis mencoba memperkenalkan data mining dengan
membandingkannya dengan bidang ilmu yang sudah ada, dan juga memberikan beberapa
ilustrasi tentang teknik-teknik yang umum dipakai di data mining,
Definisi
Ada beberapa definisi dari data mining yang dikenal di buku-buku teks data mining.
Diantaranya adalah :
Data mining adalah serangkaian proses untuk menggali nilai
tambah dari suatu kumpulan data berupa pengetahuan yang
selama ini tidak diketahui secara manual.

Data mining adalah analisa otomatis dari data yang berjumlah besar
atau kompleks dengan tujuan untuk menemukan pola atau
kecenderungan yang penting yang biasanya tidak disadari
keberadaannya
Menarik untuk diingat bahwa kata mining sendiri berarti usaha untuk mendapatkan sedikit
barang berharga dari sejumlah besar material dasar. Dari definisi-definisi itu, dapat dilihat ada
beberapa faktor yang mendefinisikan data mining :
1. data mining adalah proses otomatis terhadap data yang
dikumpulkan di masa lalu
2. objek dari data mining adalah data yang berjumlah besar atau
kompleks
3. tujuan dari data mining adalah menemukan hubungan-hubungan
atau pola-pola yang mungkin memberikan indikasi yang bermanfaat
Sejarah Data mining bukanlah suatu bidang yang sama sekali baru. Salah satu kesulitan untuk
mendefinisikan data mining adalah kenyataan bahwa data mining mewarisi banyak aspek dan
teknik dari bidang-bidang ilmu yang sudah mapan terlebih dulu. Gambar 1 menunjukkan
bahwa data mining memiliki akar yang panjang dari bidang ilmu seperti kecerdasan buatan
(artificial intelligent), machine learning, statistic, database dan juga information retrieval.
Beberapa teknik yang sering disebut-sebut dalam literatur data mining seperti classification,
neural network, genetic algorithm dll. sudah lama dikenal di dunia kecerdasan buatan.
Statistik memberikan kontribusi pada data mining dengan teknik-teknik untuk menyeleksi
data dan evaluasi hasil data mining selain teknik-teknik data mining seperti clustering. Yang
membedakan persepsi terhadap data mining adalah perkembangan teknik-teknik data mining
untuk aplikasi pada database skala besar. Sebelum populernya data mining, teknik-teknik
tersebut pada umunya diterapkan untuk data skala kecil saja. Selain itu beberapa teknik dari
bidang database untuk transformasi data juga merupakan bagian integral dari proses data
mining.
Akhir-akhir ini ada beberapa bidang ilmu seperti information retrieval yang juga terlibat
dalam proses data mining untuk mengekstrak sumber data bagi data mining dari sumbersumber seperti teks dan website. Walaupun data mining memiliki sumber dari beberapa
bidang ilmu, data mining berbeda dalam beberapa aspek dibandingkan dengan bidang ilmu
seperti berikut :
statistik : model statistik dipersiapkan oleh para ahli statistik,
sedangkan data mining mengembangkan statistik untuk menangani
data berjumlah besar secara otomatis expert system (sistem cerdas) : model pada expert system dibuat
berupa aturan-aturan berdasar pada pengalaman-pengalaman para
ahli
data warehouse (DWH) : sering terjadi kerancuan antara data
mining dan data warehouse karena keduanya sering dipakai
bersamaan. Pada umumnya data warehouse lebih merujuk pada
tempat untuk menyimpan data yang terkonsolidasi sedangkan data
mining bisa dianggap sebagai perkakas untuk menganalisa otomatis
nilai dari data itu
OLAP : seperti data warehouse, OLAP juga sering dibahas bersama data mining. Tetapi
OLAP memiliki tujuan untuk memastikan hipotesa yang sudah diformulasikan terlebih dulu
oleh penggunanya.

Kemampuan kita dalam memperoleh dan mengolah data telah meningkat secara drastis
belakangan ini. Banyak faktor yang mempengaruhi peningkatan data ini, diantaranya
komputerisasi dalam bisnis, pemerintahan dan juga ilmiah. Semakin tingginya kapasitas
media penyimpanan dengan harga yang relatif terjangkau serta meluasnya penggunaan
kamera digital, alat-alat publik, penggunaan bar code dalam proses transaksi produk
menjadikan data tumbuh secara ekplosif dalam berbagai bidang. Selain itu, perkembangan
jaringan internet sebagai sarana informasi global menjadikan penumpukan data ini semakin
tak terkendali.
Pertumbuhan data yang ekplosif itu disimpan dalam database-database sementara yang
bersifat operasional. Dengan berjalannya waktu, databse tersebut menjadi gudang data atau
lebih dikenal dengan data warehouse. Di dalam data warehouse ini tersimpan banyak sekali
data yang telah direkap setiap harinya. Melalui data-data ini lah terdapat informasi yang harus
digali untuk menunjang proses bisnis yang ada dalam menjalankan visi misi perusahaan.
Dibutuhkan suatu teknik untuk menggali informasi yang terdapat pada data warehouse
tersebut. Lahirlah data mining, yaitu suatu teknik untuk meng-ekstrasi suatu pola dari data.
Data mining diterapkan dengan paradigma untuk melihat informasi yang tersembunyi. Proses
pencarian ini dilakukan secara otomatis terhadap pola dalam data dengan jumlah besar
dengan menggunakan teknik-teknik seperti klasifikasi, clustering, dll. Data mining adalah
suatu multidisiplin ilmu yang kompleks dan beririsan dengan ilmu lain seperti statistika,
database, information retrieval, machine learning, pattern recognition, algoritma dan ilmu
lainnya.
Menurut para ahli, data mining merupakan sebuah analisa dari observasi data dalam jumlah
besar untuk menemukan hubungan yang tidak diketahui sebelumnya dan metode baru untuk
meringkas data agar mudah dipahami serta kegunaannya untuk pemilik data (David Hand,
2001). Data mining dikenal juga dengan istilah Knowledge Discovery from Data (KDD)Data
mining merupakan suatu tahapan dalam penemuan pengetahuan dan menjadi core proses dari
suatu jumlah data yang besar, tahapan-tahapan tersebut yaitu :
Gambar 1. Data mining sebagai tahapan dalam penemuan pengetahuan (Jiawei Han, 2006)
1. Data cleaning, untuk membersihkan data dari noise data dan data yang tidak konsiten
2. Data integration, megkombinasikan/mengintegrasikan beberapa sumber data
3. Data selection, mengambil data-data yang relevan dari database untuk dianalisis
4. Data transformation, mentransformasikan data summary ataupun operasi agregasi
5. Data mining, merupakan proses yang esensial dimana metode digunakan untuk mengekstrak
pola data yang tersembunyi
6. Pattern evaluation, untuk mengidentifikasi pola sehingga mereperesentasikan pengetahuan
berdasarkan nilai-nilai yang menarik
7. Knowledge presentation, dimana teknik representasi dan visualisai data digunakan untuk
mempresentasikan pengetahuan yang diadapat kepada user
Apa itu Data Mining ?
Secara singkat Data Mining adalah sebuah proses penggalian pola dari data, dalam
penjabaran yang lebih luas Data mining adalah sebuah proses dari pencarian korelasi
yang baru, pola dan trend yang memberikan informasi, dengan cara menyaring data
dalam kuantitas yang besar, menggunakan teknologi pola pengenalan yang serupa
dengan teknik statistik dan teknik matematika.
Data mining semakin menjadi hal yang sangat penting dalam mengubah data menjadi
informasi. Tidak seperti statistik yang menggunakan sampel populasi sebagai datanya,
data mining membutuhkan data yang besar, semakin besar, proses menambangan akan
semakin efektif menemukan pola-pola tertentu.
Dimana Data Mining digunakan?

Data mining digunakan di banyak tempat, dan bidang penerapannya juga dapat bermacam
macam, misalnya:
militer menggunakan data mining untuk mempelajari apa saja yang
menjadi fator utama dalam ketepatan sasaran pengeboman
Agen intelejen dapat mengaplikasikan data mining dalam
menangkap dan memilah informasi-informasi yang sesuai dengan
apa yang ingin dipelajari
Spesialis keamanan jaringan dapat memanfaatkan data mining
untuk melihat paket data mana yang berpotensi memicu ancaman
Analis kartu kredit dapat menggunakan data mining dalam memilah
calon nasabah kartu kredit yang berpotensi melakukan kredit
macet.
Pelaku retail dapat menggunakan data mining untuk melihat
karakteristik dan perilaku pembelinya, sehingga dapat selalu
menjual produk yang diinginkan oleh customer.
Walaupun metode dan tools yang digunakan untuk data mining dapat diaplikasikan pada
banyak hal, saya akan lebih memberikan pendekatan dari sudut pandang bisnis. Beberapa
pertanyaan umum berkaitan dengan bisnis dapat di jawab dengan menggunakan Data
Mining, termasuk diantaranya adalah:
1. Dari sekian banyak daftar calon customer, kira-kira mana
yang akan benar-benar menjadi customer baru? Kita dapat
menggunakan teknik klasifikasi (misal: Logistic Regression,
Classification Trees, atau metode lainnya) untuk mengenali individu
yang mempunya kemiripan faktor dengan customer terbaik yang
kita miliki. faktor ini dapat berupa faktor demografi, faktor usia,
faktor kelas pendapatan, atau faktor lainnya.
2. Customer mana yang kira kira berpotensi untuk melakukan
kejahatan penipuan ?, kita dapat menggunakan metode
klasisfikasi untuk mengenali aplikasi kartu kredit yang berpotensi
tinggi dalam keterlibatan kejahatan penipuan, serta memberikan
perhatian lebih kepada mereka-mereka yang masuk dalam
klasifikasi tersebut.
3. Mengenali calon nasabah mana yang mungkin akan
menunggak pembayaran personal loan ?, kita dapat
menggunakan teknik klasifikasi dalam mengidentifikasi mereka
(atau dengan metode logistic regression dalam menentukan nilai
yang akan menjadi patokan dalam mengidentifikasi calon
penunggak)
4. Mengenali pelanggan mana yang kira-kira berpotensi akan
mengabaikan tagihan berlangganan (telepon, majalah, dan
lainnya) ?. sekali lagi, kita dapat menggunakan teknik klasifikasi
untuk mengidentifikasikan mereka (logistic regression dapat
digunakan untuk menetapkan nilai "probability of leaving")
Asal Mula Data Mining
Data Mining sangat dipengaruhi oleh pertemuan statistik dan machine learning (atau
yang juga dikenal dengan artificial intelligence / kecerdasan buatan).
Beragam teknik yang digunakan untuk mengeksplorasi data dan membangun model,
sebenarnya telah ada sejak lama di dalam statistika seperti linear regression, logistic
regression, discriminant analysis, dan principal component analysis.

{akan saya tambahkan kemudian}


Kenapa ada banyak metode yang berbeda-beda?
Ada banyak metode pada data mining, anda mungkin bertanya kenapa ada banyak
metode klasifikasi dan prediksi, dan metode mana yang terbaik?
Masing-masing metode memiliki kelebihan dan kekurangan, metode yang cocok
bergantung kepada beberapa faktor, seperti ukuran dari dataset, tipe dari pola yang sudah
ada dalam data, apakah data cocok dengan asumsi dari metode yang ditetapkan, seberapa
banyak noise dalam data, dan apa tujuan khusus dari analisa. Gunakan metode yang tepat,
tidak perlu menghantam nyamuk dengan menggunakan meriam :).
Terminologi dan notasi pada data mining
Karena data mining berasal dari pertemuan antara statistik dan machine learning, para
praktisi sering menggunakan beberapa istilah untuk mengacu kepada hal yang sama.
sebagai contoh, machine learning menggunakan istilah target variable atau output variable
untuk variabel yang sedang di prediksi, tapi para pengguna statistik menyebutnya dengan
dependent variable atau the response.
Berikut ini adalah rangkuman dari istilah yang biasa di gunakan:
Algorithm - Mengacu kepada prosedur spesifik yang digunakan
untuk menerapkan sebuah teknik khusus dari data mining, seperti:
clasification tree, discriminant analysis, dll.
Atribute - Lihat ke Predictor
Case - lihat ke Observation
Confidence - Confidence mempunyai arti khusus didalam
Association Rule, misalnya di dalam pernyataan "Apabila A dan B
dibeli, maka C juga dibeli" maka, Confidence adalah kondisi
kemungkinan C juga di beli apabila A dan B dibeli. Confidence juga
memiliki arti yang lebih luas didalam statistik (Confidence Interval),
mengenai derajat dari kesalahan didalam sebuah estimasi yang
dihasilkan dari pemilihan sebuah sample sebagai lawan dari sample
lainnya.
Dependent Variable - lihat Response
Estiation - Lihat Prediction
Feature - Lihat Predictor
Holdout Sample - Adalah sebuah sample dari data yang tidak
digunakan didalam fitting sebuah model, digunakan untuk menilai
performa dari model tersebut.
Input Variable - Lihat Predictor
Model - Mengacu kepada sebuah algoritma yang diterakan kepada
sebuah dataset, lengkap dengan settingnya (beberapa algoritma
mempunyai parameter yang dapat disesuaikan oleh user)
Observation - Adalah sebuah unit dari analisis dimana sebuah
pengukuran di ambil (misal; transaksi dari customer) juga dikenal
sebagai case, record, pattern atau row (setiap row seringkali
merepresentasikan sebuah record setiap kolom adalah satu
variabel).
Outcome Variable - Lihat Response
Output Variable - Lihat Response

Pattern - Adalah sebuah seperangkat pengukuran pada sebuah


observasi atau pengamatan.(misal: tinggi, berat, dan umur dari
seseorang)
Prediction - Berarti ramalan dalam sebuah nilai yang didapat dari
output variabel yang terus menerus (Juga dikenal sebagai
estimation).
Predictor - Biasanya di notasikan dengan X juga disebut dengan
Feature, Input Variable, Independent Variable, atau dari perspektif
database, predictor disebut dengan field.
Record - Lihat observation
Response - Biasanya dinotasikan dengan Y, adalah variabel yang
sedang diramalkan pada supervised learning; juga dikenal dengan
dependent variable, output variable, target variable, atau outcome
variable.
Score - mengacu kepada value atau class yang di prediksi. Scoring
new data berarti menggunakan sebuah model yang dibangun
dengan training data untuk memprediksi output value di data yang
baru.
Success Class - Adalah sebuah class of interest pada sebuah hasil
binary (misal: purchaser didalam outcome purchase / no purchase)
Supervised learning - Mengacu kepada proses dalam penyediaan
algoritma (logistic regression, regression tree, dll) dengan record
didalam sebuah output variable of interest yang diketahui dan
algoritma belajar bagaimana memprediksi nilai dengan record baru
dimana outputnya tidak diketahui.
Test Data (atau Test Set) - Mengacu kepada porsi dari data yang
digunakan hanya pada akhir dari pembangunan model dan proses
seleksi untuk menaksir seberapa bagus final model pada
penambahan data.T
Training Data (atau Training Set) - Mengacu kepada porsi dari
data yang digunakan untuk mencocokan sebuah model.
Unsupervised Learning - Mengacu kepada analisa tentang
analisis mana yang melakukan percobaan untuk mempelajari
sesuatu dari data daripada mencari nilai outputnya.
Validation data (atau validation set) - Mengacu kepada porsi dari
data yang digunakan untuk menilai seberapa baik model itu cocok,
untuk menyesuaikan beberapa model, dan untuk memilih model
terbaik dari model-model yang pernah dicoba.
Variable - Segala pengukuran pada record, termasuk variable input
(X) dan variable Output (Y).
Mungkin membosankan membaca teori dasarnya ya? :) i know it, tapi ini adalah pondasi
dari apa yang akan saya terus tuliskan, tujuan akhirnya adalah membangun sebuah
Business Intelligence dengan menggunakan Microsoft Excel (+ beberapa plug in) dan
Microsoft Access (kalau ada waktu lebih, saya akan tambahkan sentuhan sharepoint
disini),kenapa menggunakan dua tools ini? padahal kan di SQL Server 2005 ke atas sudah
ada fitur Business Intelligence ? mudah lagi menggunakannya.
Jawabannya, yang pertama ada pada harganya, tidak semua orang atau perusahaan mampu
membeli lisensi Microsoft SQL 2005 ke atas, dan tidak semua orang bisa dengan cepat

menggunakannya, harga microsoft office relatif lebih murah dibanding microsoft SQL Server
(memang saya akui ada kesenjangan luar biasa dalam fiturnya), tapi kembali lagi bahwa kita
akan fokus kepada fitur business intelligence, dan untuk Usaha Kecil Menengah
(UKM),Keluarga Microsoft Office adalah senjata yang tepat. harga terjangkau dan
mudah dalam menggunakannya. The Most Cost Effective Solution.
Alasan kedua adalah Working Environment yang familiar, ketika saya tanyakan, siapa
yang tidak bisa menggunakan microsoft excel ? saya rasa setiap orang yang menggunakan
microsoft office dalam perjalanan hidupnya pasti bisa menggunakan microsoft excel. ini yang
akan kita gali lebih dalam lagi.
Microsoft Office sejatinya adalah tools yang luar biasa, tapi tidak banyak orang mau
untuk mengeksplorasinya. kebanyakan pengguna hanya menggunakan microsoft word
sebagai pengganti mesin ketik, menggunakan microsoft excel hanya sebagai pengganti
kalkulator, Microsoft Outlook hanya sebagai alat untuk mengirim dan menerima e-mail, dll.
saya berharap bisa terus berbagi ilmu dan pengalaman saya dalam Industri Retail dengan
menggunakan produk Microsoft Office secara optimal.
Data Mining merupakan disiplin ilmu yang kini sedang hot dimana-mana.
Dipakai di industri perbankan sampai mikrobiologi. Data mining
merupakan gabungan dari statistika, machine learning, database dan
visualisasi.
Ada tiga pilar data mining: data, teknik data mining dan modelling. Jadi
harus ada data sebagai bahan untuk diolah. Dan yang penting
kemampuan pemodelan. Bagaimana model yang kita pilih untuk
menyelesaikan problem yang kita hadapi. Aapakah klstering, klasifikasi
atau prediksi. Setelah itu harus ada teknik data mining yang kita kuasai
untuk menyelesaikan model yang kita punyai.
Tugas utama data mining adalah: Klastering, klasifikasi, prediksi, analisis
pola berurutan dan asosiasi. Masing-masing tugas mempunyai tool yang
berbeda. Klastering memerlukan kmeans, hirarchical clustering atau fuzzy
c means. Klasifikasi memerlukan analisis diskriminan, decision tree, neural
networks atau suppur vector machines.
Sedangkan prediksi memerlukan regresi, support vector regresi, neural
networks. Sebelum kita bisa menerapkan teknik mana yang akan
diterapkan, kita harus memahami dulu kasus apa yang kita hadapi.
Setelah itu perlu dilakukan data preprocessing sebelum bisa digunakan
sebagai input untuk teknik data mining yang dipilih.
Dengan meningkatnya transaksi yang disimpan dengan sistem basis data sekarang ini, maka
dibutuhkan proses untuk menangani data tersebut. Proses untuk menangani data tersebut
dikenal dengan Knowledge Discovery in Databases (KDD). Data Mining adalah kegiatan
untuk menemukan informasi atau pengetahuan yang berguna secara otomatis dari data yang
jumlahnya besar. Data Mining merupakan salah satu proses dari keseluruhan proses yang ada
pada Knowledge Discovery in Databases (KDD). KDD sendiri merupakan sekumpulan
proses untuk menemukan pengetahuan yang bermanfaat dari data. KDD terdiri dari
serangkaian langkah perubahan, termasuk data preprocessing dan juga post processing.
Datapreprocessing merupakan langkah untuk mengubah data mentah menjadi format yang
sesuai untuk tahap analisis berikutnya.
Selain itu data preprocessing juga digunakan untuk membantu dalam pengenalan atribut dan
data segmen yang relevan dengan task data mining. Data preprocessing kemungkinan akan
membutuhkan waktu yang sangat lama, hal ini dikarenakan data yang mentah kemungkinan

disimpan dengan format dan database yang berbeda. Post processing meliputi semua operasi
yang harus dilakukan agar hasil dari Data Mining dapat diakses dan lebih mudah untuk
diinterpretasikan oleh para analis. Teknik visualisasi juga dapat digunakan untuk
mempermudah para analis untuk menggali dan memahami kegunaan dari data mining.
Kumpulan proses dalam KDD meliputi : pembersihan data (data cleaning), integrasi data
(data integration), pemilihan data (data selection), transformasi data (data transformation),
penambangan data (data mining), evaluasi pola (pattern evaluation), dan presentasi
pengetahuan (knowledge presentation). Berdasarkan definisi ini terlihat bahwa data
mininghanya merupakan salah satu proses dari keseluruhan proses yang ada pada KDD,
tetapi merupakan proses yang sangat penting dalam usaha menemukan pola-pola yang
berguna dari sejumlah data yang besar (data tersebut bisa disimpan dalam basisdata, data
warehouse, atau media penyimpanan informasi lainnya).
Data Mining Task
Pada umumnya, data mining task dibagi menjadi dua kategori yang penting, yaitu:
1. Predictive tasks
Tujuan dari task ini adalah untuk memprediksi nilai sebuah atribut yang penting berdasarkan
nilai dari atribut yang lainnya. Atribut yang diprediksi biasanya dikenal sebagai target
ataudependent variable, sedangkan atribut yang digunakan untuk melakukan prediksi dikenal
dengan explanatory atau independent variable.
2. Descriptive task
Tujuan dari task ini adalah untuk menghasilkan pola (correlations, trends, clusters,
trajecttories dan anomalies) yang merangkum keterhubungan dalam data.
Dari gambar diatas , data yang ada dapat digunakan sebagai inti dari data mining task. Data
mining task tersebut antara lain:
1) Predictive Modelling
Predictive Modelling digunakan untuk membangun sebuah model untuk target variable
sebagai fungsi dari explanatory variable. Explanatory variable dalam hal ini merupakan
semua atribut yang digunakan untuk melakukan prediksi, sedangkan target variable
merupakan atribut yang akan diprediksi nilainya. Predictive modeling task dibagi menjadi
dua tipe yaitu : Classification digunakan untuk memprediksi nilai dari target variable
yang discrete(diskret) dan regression digunakan untuk memprediksi nilai dari target variable
yang continu(berkelanjutan).
2) Association Analysis
Association analysis digunakan untuk menemukan aturan association yang memperlihatkan
kondisi-kondisi nilai atribut yang sering muncul secara bersamaan dalam sebuah himpunan
data.
3) Cluster Analysis
Tidak seperti klasifikasi yang menganalisa kelas data obyek yang mengandung label.
Clustering menganalisa objek data tanpa memeriksa kelas label yang diketahui. Label-label
kelas dilibatkan di dalam data training. Karena belum diketahui sebelumnya. Clustering
merupakan proses pengelompokkan sekumpulan objek yang sangat mirip.
4) Anomaly Detection
Anomaly Detection merupakan metode pendeteksian suatu data dimana tujuannya adalah
menemukan objek yang berbeda dari sebagian besar objek lain. Anomaly dapat di deteksi
dengan menggunakan uji statistik yang menerapkan model distribusi atau probabilitas untuk
data.
Pendahuluan
Manusia telah secara manual mengekstrak pola dari data selama berabad-abad, tetapi
meningkatnya volume data yang di zaman modern telah menyerukan pendekatan yang lebih
otomatis. Metode awal untuk mengidentifikasi pola-pola dalam data termasuk Bayes

teorema (1700) dan Analisis Regresi (1800). Proliferasi, di mana-mana dan meningkatkan
kekuatan teknologi komputer telah meningkat pengumpulan data dan penyimpanan. Seperti
kumpulan data telah tumbuh dalam ukuran dan kompleksitas, tangan langsung-analisis data
telah semakin telah ditambah dengan tidak langsung, pemrosesan data otomatis. Ini telah
dibantu oleh penemuan-penemuan lain dalam ilmu komputer, seperti jaringan saraf,
Clustering, Genetic algorithms (1950), Keputusan pohon (1960) dan Dukungan mesin vektor
(1980). Diperlukan sebuah metode sebagai penerapan pengumpulan data yang dapat
menampung, menganalisis secara akurat data yang bagitu besar, metode tersebut hingga saat
ini dikenal sebagai Data Mining.
Data Mining
Data Mining adalah serangkaian proses untuk menggali nilai tambah dari suatu kumpulan
data
berupa pengetahuan yang selama ini tidak diketahui secara manual. Patut diingat bahwa kata
mining sendiri berarti usaha untuk mendapatkan sedikit barang berharga dari sejumlah besar
material dasar. Karena itu DM sebenarnya memiliki akar yang panjang dari bidang ilmu
seperti kecerdasan buatan (artificial intelligent), machine learning, statistik dan database.
Data mining adalah proses menerapkan metode ini untuk data dengan maksud untuk
mengungkap pola-pola tersembunyi. Dengan arti lain Data mining adalah proses untuk
penggalian pola-pola dari data. Data mining menjadi alat yang semakin penting untuk
mengubah data tersebut menjadi informasi. Hal ini sering digunakan dalam berbagai praktek
profil, seperti pemasaran, pengawasan, penipuan deteksi dan penemuan ilmiah. Telah
digunakan selama bertahun-tahun oleh bisnis, ilmuwan dan pemerintah untuk menyaring
volume data seperti catatan perjalanan penumpang penerbangan, data sensus dan supermarket
scanner data untuk menghasilkan laporan riset pasar.
Alasan utama untuk menggunakan data mining adalah untuk membantu dalam analisis
koleksi pengamatan perilaku. Data tersebut rentan terhadap collinearity karena diketahui
keterkaitan. Fakta yang tak terelakkan data mining adalah bahwa subset/set data yang
dianalisis mungkin tidak mewakili seluruh domain, dan karenanya tidak boleh berisi contohcontoh hubungan kritis tertentu dan perilaku yang ada di bagian lain dari domain . Untuk
mengatasi masalah semacam ini, analisis dapat ditambah menggunakan berbasis percobaan
dan pendekatan lain, seperti Choice Modelling untuk data yang dihasilkan manusia.
Dalam situasi ini, yang melekat dapat berupa korelasi dikontrol untuk, atau dihapus sama
sekali, selama konstruksi desain eksperimental. Beberapa teknik yang sering disebut-sebut
dalam literatur Data Mining dalam penerapannya antara lain: clustering, classification,
association rule mining, neural network, genetic algorithm dan lain-lain. Yang membedakan
persepsi terhadap Data Mining adalah perkembangan teknik-teknik Data Mining untuk
aplikasi 1 pada database skala besar. Sebelum populernya Data Mining, teknik-teknik
tersebut hanya dapat dipakaiuntuk data skala kecil saja.
Proses Data Mining
Tahap-Tahap Data Mining. Karena Data Mining adalah suatu rangkaian proses, Data Mining
dapat dibagi menjadi beberapa tahap:
1. Pembersihan data (untuk membuang data yang tidak konsisten dan noise)
2. Integrasi data (penggabungan data dari beberapa sumber)
3. Transformasi data (data diubah menjadi bentuk yang sesuai untuk di-mining)
4. Aplikasi teknik Data Mining
5. Evaluasi pola yang ditemukan (untuk menemukan yang menarik/bernilai)
6. Presentasi pengetahuan (dengan teknik visualisasi)
Tahap-tahap tsb. bersifat interaktif di mana pemakai terlibat langsung atau dengan
perantaraan knowledge base.
Teknik Data Mining

Berikut beberapa jenis teknik Data Mining yang paling populer dikenal dan digunakan:
1. Association Rule Mining
Association rule mining adalah teknik mining untuk menemukan aturan assosiatif antara
suatu kombinasi item. Penting tidaknya suatu aturan assosiatif dapat diketahui dengan dua
parameter, support yaitu persentase kombinasi item tsb. dalam database dan confidence yaitu
kuatnya hubungan antar item dalam aturan assosiatif. Algoritma yang paling populer dikenal
sebagai Apriori dengan paradigma generate and test, yaitu pembuatan kandidat kombinasi
item yang mungkin berdasar aturan tertentu lalu diuji apakah kombinasi item tsb memenuhi
syarat support minimum. Kombinasi item yang memenuhi syarat tsb. disebut frequent
itemset, yang nantinya dipakai untuk membuat aturan-aturan yang memenuhi syarat
confidence minimum. Algoritma baru yang lebih efisien bernama FP-Tree.
2. Classification Classification adalah proses untuk menemukan model atau fungsi yang
menjelaskan atau membedakan konsep atau kelas data, dengan tujuan untuk dapat
memperkirakan kelas dari suatu objek yang labelnya tidak diketahui. Model itu sendiri bisa
berupa aturan jika-maka, berupa decision tree, formula matematis atau neural network.
Decision tree adalah salah satu metode classification yang paling populer karena mudah
untuk
diinterpretasi oleh manusia. Disini setiap percabangan menyatakan kondisi yang harus
dipenuhi dan tiap ujung pohon menyatakan kelas data. Algoritma decision tree yang paling
terkenal adalah C4.5, tetapi akhir- akhir ini telah dikembangkan algoritma yang mampu
menangani data skala besar yang tidak dapat ditampung di main memory seperti RainForest.
Metode-metode classification yang lain adalah Bayesian, neural network, genetic algorithm,
fuzzy, case-based reasoning, dan k-nearest neighbor. Proses classification biasanya dibagi
menjadi dua fase : learning dan test. Pada fase learning, sebagian data yang telah diketahui
kelas datanya diumpankan untuk membentuk model perkiraan. Kemudian pada fase test
model yang sudah terbentuk diuji dengan sebagian data lainnya untuk mengetahui akurasi
dari model tsb. Bila akurasinya mencukupi model ini dapat dipakai untuk prediksi kelas data
yang belum diketahui.
3. Clustering
Berbeda dengan association rule mining dan classification dimana kelas data telah ditentukan
sebelumnya, clustering melakukan penge-lompokan data tanpa berdasarkan kelas data
tertentu. Bahkan clustering dapat dipakai untuk memberikan label pada kelas data yang
belum diketahui itu. Karena itu clustering sering digolongkan sebagai metode unsupervised
learning. Prinsip dari clustering adalah memaksimalkan kesamaan antar anggota satu kelas
dan meminimumkan kesamaan antar kelas/cluster. Clustering dapat dilakukan pada data yan
memiliki beberapa atribut yang dipetakan sebagai ruang multidimensi. Banyak algoritma
clustering memerlukan fungsi jarak untuk mengukur kemiripan antar data, diperlukan juga
metode untuk normalisasi bermacam atribut yang dimiliki data. Beberapa kategori algoritma
clustering yang banyak dikenal adalah metode partisi dimana pemakai harus menentukan
jumlah k partisi yang diinginkan lalu setiap data dites untuk dimasukkan pada salah satu
partisi, metode lain yang telah lama dikenal adalah metode hierarki yang terbagi dua lagi :
bottom-up yang menggabungkan cluster kecil menjadi cluster lebih besar dan top-down yang
memecah cluster besar menjadi cluster yang lebih kecil.
Kelemahan 3 metode ini adalah bila bila salah satu penggabungan/pemecahan dilakukan pada
tempat yang salah, tidak dapat didapatkan cluster yang optimal. Pendekatan yang banyak
diambil adalah menggabungkan metode hierarki dengan metode clustering lainnya seperti
yang dilakukan oleh Chameleon. Akhir-akhir ini dikembangkan juga metode berdasar
kepadatan data, yaitu jumlah data yang ada di sekitar suatu data yang sudah teridentifikasi
dalam suatu cluster. Bila jumlah data dalam jangkauan tertentu lebih besar dari nilai ambang

batas, data-data tsb dimasukkan dalam cluster. Kelebihan metode ini adalah bentuk cluster
yang lebih fleksibel. Algoritma yang terkenal adalah DBSCAN.
Implementasi (Penerapan)
Dalam bidang apasaja data mining dapat diterapkan? Berikut beberapa contoh bidang
penerapan data mining:
- Analisa pasar dan manajemen.
Solusi yang dapat diselesaikan dengan data mining, diantaranya: Menembak target pasar,
Melihat pola beli pemakai dari waktu ke waktu, Cross-Market analysis, Profil Customer,
Identifikasi kebutuhan Customer, Menilai loyalitas Customer, Informasi Summary.
- Analisa Perusahaan dan Manajemen resiko.
Solusi yang dapat diselesaikan dengan data mining, diantaranya: Perencanaan keuangan dan
Evaluasi aset, Perencanaan sumber daya (Resource Planning), Persaingan (Competition).
- Telekomunikasi.
Sebuah perusahaan telekomunikasi menerapkan data mining untuk melihat dari jutaan
transaksi yang masuk, transaksi mana sajakah yang masih harus ditangani secara manual.
- Keuangan.
Financial Crimes Enforcement Network di Amerika Serikat baru-baru ini menggunakan data
mining untuk me-nambang trilyunan dari berbagai subyek seperti property, rekening bank
dan transaksi keuangan lainnya untuk mendeteksi transaksi-transaksi keuangan yang
mencurigakan (seperti money laundry) .
- Asuransi.
Australian Health Insurance Commision menggunakan data mining untuk mengidentifikasi
layanan kesehatan yang sebenarnya tidak perlu tetapi tetap dilakukan oleh peserta asuransi .
- Olahraga.
IBM Advanced Scout menggunakan data mining untuk menganalisis statistik permainan
NBA (jumlah shots blocked, assists dan fouls) dalam rangka mencapai keunggulan bersaing
(competitive advantage) untuk tim New York Knicks dan Miami Heat.
- Astronomi.
Jet Propulsion Laboratory (JPL) di Pasadena, California dan Palomar Observatory berhasil
menemukan 22 quasar dengan bantuan data mining. Hal ini merupakan salah satu kesuksesan
penerapan data mining di bidang astronomi dan ilmu ruang angkasa.
- Internet Web surf-aid
IBM Surf-Aid menggunakan algoritma data mining untuk mendata akses halaman Web
khususnya yang berkaitan dengan pemasaran guna melihat prilaku dan minat customer serta
melihat ke- efektif-an pemasaran melalui Web.
Contoh kasus penerapan: Implementasi data mining dengan teknik Clustering untuk
melakukan Competitive Intelligence perusahaan.
Pembangunan perangkat lunak data mining dengan metode clustering menggunakan
algoritma hirarki divisive untuk pengelompokan customer dalam studi kasus ini, fungsi
fungsi yang dipakai adalah fungsi untuk menentukan titik-titik pusat yang berguna sebagai
pusat-pusat kelompok customer.

Teknik-teknik/Jenis-jenis Data Mining


Teknik-teknik/Jenis-jenis DataMining
1. Market Basket Analysis
Himpunan data yang dijadikan sebagai objek penelitan pada area data
mining. Market basket analysis adalah proses untuk menganalisis kebiasaan
pelanggan dalam menyimpan item-item yang akan dibeli ke dalam keranjang
belanjaannya. Market basket analysis memanfaatkan data transaksi
penjualan untuk dianalisis sehingga dapat ditemukan pola berupa item-item
yang cenderung muncul bersama dalam sebuah transaksi. Selanjutnya pola
yang ditemukan dapat dimanfaatkan untuk merancang strategi penjualan
atau pemasaran yang efektif, yaitu dengan menempatkan item-item yang
sering dibeli bersamaan ke dalam sebuah area yang berdekatan, merancang
tampilan item-item di katalog, merancang kupon diskon (untuk diberikan
kepada pelanggan yang membeli item tertentu), merancang penjualan itemitem dalam bentuk paket, dan sebagainya. Dengan menggunakan teknologi
data mining, analisis data secara manual tidak diperlukan lagi.
2. Memory-Based Reasoning
Metode klasifikasi yang digabungkan dengan penalaran berbasis memori.
proses menggunakan satu set data untuk membuat model dari prediksi atau
asumsi-asumsi yang dapat dibuat tentang objek baru yang diperkenalkan.
Ada dua komponen dasar untuk metode MBR. Yang pertama adalah
kesamaan fungsi, yang mengukur bagaimana anggota yang sama dari setiap
pasangan object satu sama lain. Yang kedua adalah fungsi kombinasi, yang
digunakan untuk menggabungkan hasil dari himpunan tetangga untuk
sampai pada keputusan.
3. Cluster Detection
Ada dua pendekatan untuk clustering. Pendekatan pertama adalah dengan
mengasumsikan bahwa sejumlah cluster sudah tersimpan dalam data,
tujuannya adalah untuk memecah data ke dalam cluster. Pendekatan lain,
disebut clustering agglomerative, dengan asumsi keberadaan setiap jumlah
yang telah ditetapkan cluster tertentu, setiap item keluar di cluster sendiri,
dan proses terjadi berulang-ulang yang berupaya untuk menggabungkan
cluster, meskipun proses komputasi sama.
4. Link Analysis
proses mencari dan membangun hubungan antara object dalam kumpulan
data juga mencirikan sifat yang terkait dengan hubungan antara dua object.
Link Analysis berguna untuk aplikasi analitis yang mengandalkan teori grafik
untuk mengambil kesimpulan. Selain itu Link Analysis berguna untuk proses
optimasi.
5. Rule Induction
Ekstraksi aturan sebab-akibat dari data secara statistic. identifikasi aturan
bisnis yang tersimpan di dalam data. Metode berhubungan dengan induksi
aturan yang digunakan untuk proses penemuan. Salah satu pendekatan

untuk penemuan aturan adalah menggunakan pohon keputusan.


6. Neural Networks
model prediksi non linear yang melakukan pembelajaran melalui latihan dan
menyerupai struktur jaringan nerual yang terdapat pada mahluk hidup.
Mampu menurunkan pengertian dari data yang kompleks dan tidak jelas dan
dapat digunakan pula untuk mengekstrak pola dan mendeteksi tren2 yang
sangat kompleks untuk dibicarakan baik oleh manusia maupun teknik
komputer lainnya.

Artikel sebelumnya telah membahas perkenalan data warehouse. Baca di sini.


Selanjutnya dalam artikel kali ini akan di bahas metode apa saja yang ada dalam
data mining. Terdapat beberapa metode dalam data mining, antara lain metode
untuk clustering, classification, dan association.
Clustering atau pengelompokan merupakan teknik untuk mengelompokkan data ke
dalam suatu kelompok tertentu. Metode clustering dalam data mining antara lain
DBScan, Simple K-mean, Hierarchical CLustering. Dua terakhir pada metode
clustering dalam data mining ini juga dipelajari pada mata kuliah Statistika
Multivariat Terapan. Sebagai contoh untuk clustering: Terdapat 5 negara: Indonesia,
Singapura, India, Inggris, Jerman. Maka 5 negara tersebut dapat dijadikan dua
klaster berdasarkan letak geografisnya: Eropa (Inggris, Jerman) dan Asia
(Indonesia, Singapura, India). Namun juga dapat dijadikan dua klaster yang
berbeda berdasarkan tingkat sector industri dan jasa: Negara maju (Singapura,
Inggris, Jerman) dan Negara berkembang (Indonesia, India).
Classification merupakan teknik pengklasifikasian data. Bedanya data dengan
clustering pada clustering variabel dependen tidak ada sedangkan pada classification
diharuskan ada variabel dependen. Contohnya pembagian criteria calon debitur
yakni debitur baik dan buruk. Metode classification dalam data mining banyak sekali,
misalnya ID3, C4.5, K Nearest Neighbors.
Associaton merupakan teknik dalam data mining yang mempelajari hubungan
data. Associatin Rule ini biasa digunakan pada supermarket untuk menganalisis

perilaku pelanggan dalam berbelanja. Sebagai contoh jika pelanggan membeli


barang A, B, C maka pelanggan akan membeli barang X. Atau dalam notasi biasa
ditulis: A, B, C -> X .
Biasanya dalam software data mining juga ada beberapa metode baik clustering
atau klasifikasi yang berasal dari cabang soft computing, misalnya neural network.
Metode yang berasal dari soft computing yang biasanya juga disinggung dalam data
mining antara lain perceptron , backpropagation (multilayer perceptron), self
organizing map (SOM).

Contoh Kasus Data Mining


Apakah kalian sudah pernah menonton film jepang yang berjudul Death Note 2:
Last Name? Kalau sudah, mungkin bisa mengingat-ingat salah satu scene di
mana Light menjelaskan tentang bagaimana cara mengetahui identitas 3rd Kira
berdasarkan pembunuhan-pembunuhan yang dilakukan oleh Kira. Saya ga akan
bercerita lebih jauh tentang film ini, namun saya ingin mengacu kepada scene
tersebut. Di scene tersebut, ditunjukkan bagaimana Light dapat mengetahui
identitas 3rd kira berdasarkan modus operandinya. Cara mendapatkan modus
operandinya dilakukan dengan melakukan analisis terhadap kumpulan data
pembunuhan. Data pembunuhan (yang mungkin juga dilakukan oleh orang lain)
dikelompokkan berdasarkan waktu dan metode pembunuhan. Persoalannya
adalah polisi tidak tahu bahwa pembunuhan itu dilakukan oleh siapa, apakah
sudah pasti itu dilakukan oleh Kira atau mungkin juga dilakukan oleh orang lain
yang membunuh dengan meniru metode pembunuhan Kira. Persoalan
pengelompokan data ini dalam bidang informatik adalah salah satu contoh
aplikasi Data
Clustering di
bidang
riset/kajian Data
Mining.

Data Mining menurut saya adalah teknik untuk mengekstrak pengetahuan


ataupun pola yang menarik dari kumpulan besar data (biasanya tersimpan di
dalam database) menjadi sebuah informasi bernilai dan bermanfaat.
Pengetahuan ini bersifattersirat karena pengetahuan itu tersembunyi di dalam
data dalam bentuk suatu pola. Kalau kita pengen tahu data penjualan tahun
2007, dan ternyata itu udah ada di database, yaa berarti (sesuai namanya) data
penjualan tahun 2007 bukanlah pengetahuan. Selain itu pengetahuan juga nontrivial karena ya tentu saja, buat apa kita mendapatkan pengetahuan yang telah
kita ketahui (trivial/common knowledge). Contoh common knowledge adalah
semua yang melahirkan adalah wanita. Semua orang pasti mengetahuinya! Tapi
kalau kita bisa mendapatkan informasi bahwa, misalnya, wanita yang melahirkan
pada usia di atas 35 tahun mempunyai kecenderungan untuk meminta mobil
pada saat ngidam, sekali lagi ini cuma misalnya loh, nah ini baru sebuah
informasi
baru
yang
menarik.
Apa sebenarnya pentingnya data mining bagi perusahaan? Ok, mari kita

bayangkan kasus di bidang penggunaan kartu kredit. Apakah anda punya kartu
kredit? saya mempunyai contoh kasus yang berkaitan dengan kartu kredit.
Suatu hari ayah ditelpon oleh bank yang menginformasikan dan mengkonfirmasi
penggunaan kartu kredit yang tidak biasa, yaitu kartu kredit ayah digunakan di
Malaysia untuk membeli sejumlah besar barang dengan pengeluaran yang
sangat besar. Cerita cukup di sana saja, persoalannya sekarang adalah dari
mana bank tahu bahwa sebuah transaksi itu tergolong sebuah transaksi yang
aneh. Hal ini dapat dideteksi secara otomatis dengan data mining.Data mining
dapat mencari dengan pengetahuannya bahwa transaksi kartu kredit ayah
tergolong aneh. Contoh kasus lain adalah program penawaran jasa/barang
kepada customer. Kalau penyedia layanan tahu bahwa sekelompok pelanggan
biasa menelpon pada jam 17.00-18.00 (misalnya karena macet, maka iseng
ngegosip dengan teman-temannya),
maka perusahaan dapat menarik
pelanggan dari kelompok ini dengan menawarkan tarif yang bersaing dan
menarik pada jam-jam tersebut. So, data mining dapat membantu meningkatkan
kemampuan layanan sebuah perusahaan, baik di bidang keamanan ataupun juga
kualitas
layanan.

Data Mining merupakan disiplin ilmu yang kini sedang hot dimana-mana. Dipakai
di industri perbankan sampai mikrobiologi. Data mining merupakan gabungan
dari statistika, machine learning, database dan visualisasi. Ada tiga pilar data
mining: data, teknik data mining dan modelling. Jadi harus ada data sebagai
bahan untuk diolah. Dan yang penting kemampuan pemodelan. Bagaimana
model yang kita pilih untuk menyelesaikan problem yang kita hadapi. Apakah
klstering, klasifikasi atau prediksi. Setelah itu harus ada teknik data mining yang
kita kuasai untuk menyelesaikan model yang kita punyai.

Tugas utama data mining adalah: Klastering, klasifikasi, prediksi, analisis pola
berurutan dan asosiasi. Masing-masing tugas mempunyai tool yang berbeda.
Klastering memerlukan kmeans, hirarchical clustering atau fuzzy c means.
Klasifikasi memerlukan analisis diskriminan, decision tree, neural networks atau
suppur vector machines. Sedangkan prediksi memerlukan regresi, support vector
regresi, neural networks. Sebelum kita bisa menerapkan teknik mana yang akan
diterapkan, kita harus memahami dulu kasus apa yang kita hadapi. Setelah itu
perlu dilakukan data preprocessing sebelum bisa digunakan sebagai input untuk
teknik data mining yang dipilih.

Dengan meningkatnya transaksi yang disimpan dengan sistem basis data


sekarang ini, maka dibutuhkan proses untuk menangani data tersebut. Proses
untuk menangani data tersebut dikenal dengan Knowledge Discovery in
Databases (KDD).Data Mining adalah kegiatan untuk menemukan informasi atau
pengetahuan yang berguna secara otomatis dari data yang jumlahnya

besar. Data Mining merupakan salah satu proses dari keseluruhan proses yang
ada pada Knowledge Discovery in Databases (KDD). KDD sendiri merupakan
sekumpulan proses untuk menemukan pengetahuan yang bermanfaat dari data.
KDD
terdiri
dari
serangkaian
langkah
perubahan,
termasuk
data preprocessing dan juga post processing. Data preprocessingmerupakan
langkah untuk mengubah data mentah menjadi format yang sesuai untuk tahap
analisis berikutnya.

Kumpulan proses dalam KDD meliputi : pembersihan data (data cleaning),


integrasi data (data integration), pemilihan data (data selection), transformasi
data (data transformation), penambangan data (data mining), evaluasi pola
(pattern evaluation), dan presentasi pengetahuan (knowledge presentation).
Berdasarkan definisi ini terlihat bahwa data mininghanya merupakan salah satu
proses dari keseluruhan proses yang ada pada KDD, tetapi merupakan proses
yang sangat penting dalam usaha menemukan pola-pola yang berguna dari
sejumlah data yang besar (data tersebut bisa disimpan dalam basisdata, data
warehouse, atau media penyimpanan informasi lainnya).

Implementasi (Penerapan)

Dalam bidang apasaja data mining dapat diterapkan? Berikut beberapa contoh
bidang penerapan data mining:

- Analisa pasar dan manajemen.

Solusi yang dapat diselesaikan dengan data mining, diantaranya: Menembak


target pasar, Melihat pola beli pemakai dari waktu ke waktu, Cross-Market
analysis, Profil Customer, Identifikasi kebutuhan Customer, Menilai loyalitas
Customer, Informasi Summary.

- Analisa Perusahaan dan Manajemen resiko.

Solusi yang dapat diselesaikan dengan data mining, diantaranya: Perencanaan


keuangan dan Evaluasi aset, Perencanaan sumber daya (Resource Planning),
Persaingan (Competition).

- Telekomunikasi.

Sebuah perusahaan telekomunikasi menerapkan data mining untuk melihat dari


jutaan transaksi yang masuk, transaksi mana sajakah yang masih harus
ditangani secara manual.

- Keuangan.

Financial Crimes Enforcement Network di Amerika Serikat baru-baru ini


menggunakan data mining untuk me-nambang trilyunan dari berbagai subyek
seperti property, rekening bank dan transaksi keuangan lainnya untuk
mendeteksi transaksi-transaksi keuangan yang mencurigakan (seperti money
laundry) .

- Asuransi.

Australian Health Insurance Commision menggunakan data mining untuk


mengidentifikasi layanan kesehatan yang sebenarnya tidak perlu tetapi tetap
dilakukan oleh peserta asuransi .

- Olahraga.

IBM Advanced Scout menggunakan data mining untuk menganalisis statistik


permainan NBA (jumlah shots blocked, assists dan fouls) dalam rangka mencapai
keunggulan bersaing (competitive advantage) untuk tim New York Knicks dan
Miami Heat.

- Astronomi.

Jet Propulsion Laboratory (JPL) di Pasadena, California dan Palomar Observatory


berhasil menemukan 22 quasar dengan bantuan data mining. Hal ini merupakan
salah satu kesuksesan penerapan data mining di bidang astronomi dan ilmu
ruang angkasa.

- Internet Web surf-aid

IBM Surf-Aid menggunakan algoritma data mining untuk mendata akses halaman
Web khususnya yang berkaitan dengan pemasaran guna melihat prilaku dan
minat customer serta melihat ke- efektif-an pemasaran melalui Web.

Contoh kasus penerapan: Implementasi data mining dengan teknik


Clustering untuk melakukan Competitive Intelligence perusahaan.
Pembangunan perangkat lunak data mining dengan metode clustering
menggunakan algoritma hirarki divisive untuk pengelompokan customer dalam
studi kasus ini, fungsi fungsi yang dipakai adalah fungsi untuk menentukan
titik-titik pusat yang berguna sebagai pusat-pusat kelompok customer.

Knowledge Discovery and Data Mining


Database sekarang dapat memiliki besar sampai hitungan terrabyte. Dalam data yang
besar ini tersembunyi informasi yang bersifat strategik. Tapi dengan banyaknya data, timbul
masalah untuk menggali informasi yang berguna dari data.
Banyak perusahaan telah mengumpulkan data berkuantitas besar. Teknik data mining
dapat diimplementasikan ke platform software dan hardware yang sudah ada untuk
meningkatkan nilai dari sumberdaya informasi yang sudah ada. Implementasi data mining pada
client/server berperforma tingi atau komputasi paralel dapat menganalisis database yang
besae untuk menjawab pertanyaan seperti,Klien mana yang paling mungkin merespon surat
promosi kami selanjutnya, dan kenapa?

Pengertian
Knowledge Discovery and Data Mining(KDD) adalah proses yang dibantu oleh komputer
untuk menggali dan menganalisis sejumlah besar himpunan data dan mengekstrak informasi
dan pengetahuan yang berguna. Data mining tools memperkirakan perilaku dan tren masa
depan, memungkinkan bisnis untuk membuat keputusan yang proaktif dan berdasarkan
pengetahuan.Data mining tools mampu menjawab permasalahan bisnis yang secara tradisional
terlalu lama untuk diselesaikan. Data mining tools menjelajah database untuk mencari pola
tersembunyi, menemukan infomasi yang prediktif yang mungkin dilewatkan para pakar karena
berada di luar ekspektasi mereka.

Proses Data Mining


Proses dalam KDD adalah proses yang digambarkan pada dan terdiri dari rangkaian proses
iteratif sebagai berikut:
1. Data cleaning, menghilangkan noise dan data yang inkonsisten.
2. Data integration, menggabungkan data dari berbagai sumber data yang berbeda
3. Data selection, mengambil data yang relevan dengan tugas analisis dari database
4. Data transformation, Mentransformasi atau menggabungkan data ke dalam bentuk yang
sesuai untuk penggalian lewat operasi summary atau aggregation.
5. Data mining, proses esensial untuk mengekstrak pola dari data dengan metode cerdas.
6. Pattern evaluation, mengidentifikasikan pola yang menarik dan merepresentasikan
pengetahuan berdasarkan interestingness measures.
7. Knowledge presentation, penyajian pengetahuan yang digali kepada pengguna dengan
menggunakan visualisasi dan teknik representasi pengetahuan.

Metode
Banyak teknik dan metode yang ada untuk melakukan berbagai jenis tugas data mining.
Metode ini dikelompokkan dalam 3 paradigma utama data mining: Predictive
Modeling,Discovery, dan Deviation Detection.

Predictive Modeling
Aplikasi Predictive Modeling menghasilkan klasifikasi
atau
prediksi.
Tujuan
dari predictive modeling adalah menemukan pola yang melibatkan variabel untuk memprediksi
dan mengklasifikasi perilaku masa depan dari sebuah entitas. Ada dua tipe masalah yang
diselesaikan oleh predictive modeling: klasifikasi dan regresi.
Klasifikasi melibatkan model pembelajaran yang memetakan (atau mengklasifikasi) data
contoh ke dalam satu atau beberapa kelas yang telah didefinisikan. Sebagai contoh, bank
dapat menggunakan skema klasifikasi untuk menentukan pengajuan pinjaman yang akan
disetujui. Teknik klasifikasi meliputi Naive Bayesian, neural networks, dan decision trees.
Regresi melibatkan model yang memetakan data contoh ke prediksi real-valued. Teknik
regresi meliputi neural networks dan decision (atau regression) trees.

Discovery
Aplikasi discovery adalah

pendekatan

eksploratoris

untuk

analisis

data.

Aplikasi discoverymenggunakan teknik yang menganalisis data set yang besar untuk
menemukan association rules(atau pola), atau menemukan kluster dari sampel yang dapat
dikelompokan. Hasil dari metode discovery umumnya dimaksudkan untuk pengguna. Walau
begitu, hasilnya juga dapat diaplikasikan ke metode data mining yang lain

Deviation Detection
Deviation Detection melakukan deteksi anomali secara otomatis. Tujuannya untuk mengidentifikasi
kebiasaan suatu entitas dan menetapkan sejumlah norm melalui pattern discovery. Sampel yang
berdeviasi dari norm lalu diidentifikasi sebagai tidak biasa. teknik Deviation Detection melalui
visualisasi melalui parallel coordinates, scatterplots, dan surface plots.

Aplikasi
Aplikasi dari KDD dalam bisnis antara lain:
Market segmentation Mengidentifikasi karakteristik umum dari pelanggan yang
membeli produk yang sama dari perusahaan
Customer churn Memprediksi pelanggan yang mungkin meninggalkan perusahaan
untuk beralih ke kompetitor
Fraud detection Mengidentifikasi transaksi yang mungkin merupakan transaksi
curang.
Direct marketing Memprediksi prospek yang harus dimasukkan dalam mailinglistuntuk mendapatkan respon maksimum

Interactive marketing Memprediksi hal-hal yang menarik bagi setiap individu


yang mengakses website.
Market basket analysis Memahami produk atau layanan yang biasanya dibeli
bersamaan.
Trend analysis Mengungkap perbedaan antara tipikal pelanggan bulan ini dan
bulan lalu dan prediksi tipikal pelanggan bulan depan.

Referensi :
Introduction to Data Mining and Knowledge Discovery Third Edition
Penulis : Herbert A. Edelstein
Publisher : Two Crows Corporation (October 8, 1999)
Penulis : Kurt Thearling
Judul : An Introduction to Data Mining, Discovering hidden value in your data warehouse
http://www.thearling.com/text/dmwhite/dmwhite.htm
Publisher : Wikipedia Foundation
Judul : Data Mining
http://en.wikipedia.org/wiki/Data_mining
Publisher : ALG (Automated Learning Group), NCSA (National Center for Supercomputing
Applications)
Judul : Data Mining
http://alg.ncsa.uiuc.edu/tools/docs/d2k/manual/dataMining.html

Penulis : Jiawei Han, Micheline Kamber


Judul : Data Mining: Concept and Techniques
Publisher : Academic Press Sand Diego, CA, 2001
Buku TA-ku yang belum jadi.

Anda mungkin juga menyukai