Penerapan Data Mining Untuk Mengolah Dat
Penerapan Data Mining Untuk Mengolah Dat
ABSTRAK: Pertumbuhan yang pesat dari akumulasi data telah menciptakan kondisi
kaya akan data tapi minim informasi. Data mining merupakan penambangan atau penemuan
informasi baru dengan mencari pola atau aturan tertentu dari sejumlah data dalam jumlah besar
yang diharapkan dapat mengatasi kondisi tersebut. Dengan memanfaatkan data kunjungan
perpustakaan, dapat menggali informasi tentang buku-buku apa yang sering dipinjam oleh siswa
dan keterkaitan antar masing – masing peminjaman sehingga dapat melakukan penyusunan buku
sesuai dengan tingkat support dan confidence. Kemudian setelah itu dibuat suatu aplikasi yang
dapat menujukkan lokasi buku secara lebih spesifik sehingga memudahkan pencarian bagi para
pengunjung.
Penelitian yang dibuat di SMK TI PAB 7 Lubuk Pakam ini dibuat dengan menggunakan
beberapa software seperti XL Miner untuk data mining dan Visual Basic 6.0 untuk aplikasi pencari
buku. Sementara untuk basis data digunakan Microsoft Access dan software – software pendukung
lainnya.Hasil penelitian ini adalah, pertama, dalam tumpukan data kunjungan perpustakaan,
terdapat pengetahuan yang bermanfaat bagi perpustakaan itu dan para pengunjung perpustakaan
tersebut, kedua, hasil mining data kunjungan perpustakaan SMK TI PAB 7 Lubuk Pakam
didapatkan informasi bahwa buku yang paling sering dipinjam oleh siswa dengan nilai support 9
adalah buku Biologi Kelas X, ketiga, terdapat beberapa aturan asosiasi yang memiliki nilai
confidence 100% misalnya jika meminjam Conversation dan matematika bilingual maka meminjam
Matematika X. Artinya jika meminjam buku Conversation dan matematika maka kemungkinan
meminjam matematika bilingual adalah 100%.
Kata kunci : data mining, association rules, support, confidence.
Oleh karena itu data warehouse digunakan agar data sesuai dengan format
mempunyai karakter menyediakan dan kriteria, atau sebagai validasi data dari
secara singkat dan sederhana gambaran source system. Proses ETL tidak hanya
seputar subjek lebih detail yang dibuat menyimpan data ke data warehouse, tetapi
dari data luar yang tidak berguna dalam juga digunakan untuk berbagai proses
proses pendukung keputusan. pemindahan data. Kebanyakan ETL mempunya
2. Integrated : Data warehouse biasanya mekanisme untuk membersihkan data dari
dibangun dari bermacam-macam sumber source system sebelum disimpan ke
yang berbeda, seperti database warehouse. Pembersihan data merupakan proses
relasional, flat files, dan on-line identifikasi dan koreksi data yang kotor. Proses
transaction records. Pembersihan dan pembersihan ini menerapkan aturan-aturan
penyatuan data diterapkan untuk tertentu yang mendefinisikan data bersih.
menjamin konsistensi dalam penamaan,
struktur kode, ukuran atribut, dan yang C. DATA MINING
lainnya.
3. Time Variant : data disimpan untuk Secara sederhana data mining adalah
menyajikan informasi dari sudut pandang penambangan atau penemuan informasi baru
masa lampau (misal 5 – 10 tahun yang dengan mencari pola atau aturan tertentu dari
lalu). Setiap struktur kunci dalam data sejumlah data yang sangat besar (Davies.
warehouse mempunyai elemen waktu baik 2004). Data mining juga disebut sebagai
secara implisit maupun eksplisit serangkaian proses untuk menggali nilai
4. Nonvolatile : sebuah data warehouse secara tambah berupa pengetahuan yang selama ini
fisik selalu disimpan terpisah dari data tidak diketahui secara manual dari suatu
aplikasi operasional. Penyimpanan yang kumpulan data (Pramudiono, 2007).
terpisah ini, data warehouse tidak Data mining, sering juga disebut Sebagai
memerlukan proses transaksi, recovery Knowledge Discovery In Database (KDD).
dan mekanisme pengendalian KDD adalah kegiatan yang meliputi
konkurensi. Biasanya hanya pengumpulan, pemakaian data, historis untuk
membutuhkan dua operasi dalam akses menemukan keteraturan, pola atau hubungan
data yaitu initial load of data dan access dalam set data berukuran besar (Santoso, 2007).
of data Data mining adalah kegiatan menemukan
Dari pengertian tersebut, sebuah data pola yang menarik dari data dalam jumlah
warehouse merupakan penyimpanan data tetap besar, data dapat disimpan dalam database,
sebagai implementasi fisik dari pendukung data warehouse, atau penyimpanan informasi
keputusan model data. Data warehouse juga lainnya. Data mining berkaitan dengan bidang
biasanya dilihat sebagai arsitektur, ilmu – ilmu lain, seperti database system,
pembangunan dan penyatuan data dari data warehousing, statistik, machine
bermacam macam sumber data yang berbeda learning, information retrieval, dan komputasi
untuk mendukung struktur dan atau query tingkat tinggi. Selain itu, data mining
tertentu, laporan analisis, dan pembuatan didukung oleh ilmu lain seperti neural
keputusan. network, pengenalan pola, spatial data
Extract, transform, dan load (ETL) analysis, image database, signal processing
merupakan sebuah sistem yang dapat (Han, 2006).
membaca data dari suatu data store, merubah Data mining didefinisikan sebagai proses
bentuk data, dan menyimpan ke data store yang menemukan pola-pola dalam data. Proses ini
lain. Data store yang dibaca ETL disebut Data otomatis atau seringnya semiotomatis (Witten,
Source, sedangkan data store yang disimpan 2005).. Pola yang ditemukan harus penuh
ETL disebut Target. Proses pengubahan data
139
Jurnal SAINTIKOM
Vol. 10 / No. 2 / Mei 2011
Dian Wirdasari dan Ahmad Calam: Penerapan Data Mining…
arti dan pola tersebut memberikan keuntungan, umumnya data yang diperoleh, baik dari
biasanya keuntungan secara ekonomi. database suatu perusahaan maupun hasil
Karakteristik data mining sebagai berikut eksperimen, memiliki isian-isian yang tidak
1. Data mining berhubungan dengan sempurna seperti data yang hilang, data yang
penemuan sesuatu yang tersembunyi dan tidak valid atau juga hanya sekedar salah ketik.
pola data tertentu yang tidak diketahui Selain itu, ada juga atribut-atribut data yang
sebelumnya. tidak relevan dengan hipotesa data mining yang
2. Data mining biasa menggunakan data yang dimiliki. Data-data yang tidak relevan itu juga
sangat besar. Biasanya data yang besar lebih baik dibuang. Pembersihan data juga akan
digunakan untuk membuat hasil lebih mempengaruhi performasi dari teknik data
dipercaya. mining karena data yang ditangani akan
3. Data mining berguna untuk membuat berkurang jumlah dan kompleksitasnya.
keputusan yang kritis, terutama dalam 2. Integrasi data (data integration)
strategi (Davies, 2004). Integrasi data merupakan penggabungan
Berdasarkan beberapa pengertian tersebut data dari berbagai database ke dalam satu
dapat ditarik kesimpulan bahwa data mining database baru. Tidak jarang data yang
adalah suatu teknik menggali informasi diperlukan untuk data mining tidak hanya
berharga yang terpendam atau tersembunyi berasal dari satu database tetapi juga berasal
pada suatu koleksi data (database) yang dari beberapa database atau file teks. Integrasi
sangat besar sehingga ditemukan suatu pola data dilakukan pada atribut-aribut yang
yang menarik yang sebelumnya tidak mengidentifikasikan entitas-entitas yang unik
diketahui. Datamining sendiri berarti usaha seperti atribut nama, jenis produk, nomor
untuk mendapatkan sedikit barang berharga pelanggan dan lainnya. Integrasi data perlu
dari sejumlah besar material dasar. Karena itu dilakukan secara cermat karena kesalahan pada
data mining sebenarnya memiliki akar yang integrasi data bisa menghasilkan hasil yang
panjang dari bidang ilmu seperti kecerdasan menyimpang dan bahkan menyesatkan
buatan (artificial intelligent), machine pengambilan aksi nantinya. Sebagai contoh
learning, statistik dan database. Beberapa bila integrasi data berdasarkan jenis produk
metode yang sering disebut-sebut dalam ternyata menggabungkan produk dari kategori
literatur data mining antara lain clustering, yang berbeda maka akan didapatkan korelasi
classification, association rules mining, neural antar produk yang sebenarnya tidak ada.
network, genetic algorithm dan lain-lain 3. Seleksi Data (Data Selection)
(Pramudiono, 2007). Data yang ada pada database sering kali
tidak semuanya dipakai, oleh karena itu hanya
data yang sesuai untuk dianalisis yang akan
D. TAHAP-TAHAP DATA MINING diambil dari database. Sebagai contoh,
sebuah kasus yang meneliti faktor
Sebagai suatu rangkaian proses, data kecenderungan orang membeli dalam kasus
mining dapat dibagi menjadi beberapa tahap market basket analysis, tidak perlu
yang diilustrasikan di Gambar . Tahap-tahap mengambil nama pelanggan, cukup dengan id
tersebut bersifat interaktif, pemakai terlibat pelanggan saja.
langsung atau dengan perantaraan knowledge 4. Transformasi data (Data Transformation)
base. Data diubah atau digabung ke dalam
Tahap-tahap data mining ada 6 yaitu : format yang sesuai untuk diproses dalam data
1. Pembersihan data (data cleaning) mining. Beberapa metode data mining
Pembersihan data merupakan proses membutuhkan format data yang khusus
menghilangkan noise dan data yang tidak sebelum bisa diaplikasikan. Sebagai contoh
konsisten atau data tidak relevan. Pada beberapa metode standar seperti analisis
140
Jurnal SAINTIKOM
Vol. 10 / No. 2 / Mei 2011
Dian Wirdasari dan Ahmad Calam: Penerapan Data Mining…
asosiasi dan clustering hanya bisa menerima a. Support, suatu ukuran yang menunjukkan
input data kategorikal. Karenanya data berupa seberapa besar tingkat dominasi suatu item
angka numerik yang berlanjut perlu dibagi-bagi atau itemset dari keseluruhan transaksi.
menjadi beberapa interval. Proses ini sering b. Confidence, suatu ukuran yang
disebut transformasi data. menunjukkan hubungan antar dua item
5. Proses mining, secara conditional.
Merupakan suatu proses utama saat
metode diterapkan untuk menemukan
pengetahuan berharga dan tersembunyi dari F. METODE ASSOCIATION RULES
data.
6. Evaluasi pola (pattern evaluation), Association rules (aturan asosiasi) atau
Untuk mengidentifikasi pola-pola affinity analysis (analisis afinitas) berkenaan
menarik kedalam knowledge based yang dengan studi tentang “apa bersama apa”.
ditemukan. Dalam tahap ini hasil dari teknik Sebagai contoh dapat berupa studi transaksi di
data mining berupa pola-pola yang khas supermarket, misalnya seseorang yang membeli
maupun model prediksi dievaluasi untuk susu bayi juga membeli sabun mandi. Pada
menilai apakah hipotesa yang ada memang kasus ini berarti susu bayi bersama dengan
tercapai. Bila ternyata hasil yang diperoleh sabun mandi. Karena awalnya berasal dari
tidak sesuai hipotesa ada beberapa alternatif studi tentang database transaksi pelanggan
yang dapat diambil seperti menjadikannya untuk menentukan kebiasaan suatu produk
umpan balik untuk memperbaiki proses data dibeli bersama produk apa, maka aturan asosiasi
mining, mencoba metode data mining lain yang juga sering dinamakan market basket analysis
lebih sesuai, atau menerima hasil ini sebagai (Santoso,2007).
suatu hasil yang di luar dugaan yang Aturan asosiasi ingin memberikan
mungkin bermanfaat. informasi tersebut dalam bentuk hubungan “if-
7. Presentasi pengetahuan (Knowledge then” atau “jika-maka”. Aturan ini dihitung dari
Presentation), data yang sifatnya probabilistik Analisis
Merupakan visualisasi dan penyajian asosiasi dikenal juga sebagai salah satu
pengetahuan mengenai metode yang metode data mining yang menjadi dasar dari
digunakan untuk memperoleh pengetahuan berbagai metode data mining lainnya.
yang diperoleh pengguna. Tahap terakhir dari Khususnya salah satu tahap dari analisis
proses data mining adalah bagaimana asosiasi yang disebut analisis pola frekuensi
memformulasikan keputusan atau aksi dari hasil tinggi (frequent pattern mining) menarik
analisis yang didapat. Ada kalanya hal ini harus perhatian banyak peneliti untuk menghasilkan
melibatkan orang-orang yang tidak memahami algoritma yang efisien. Penting tidaknya suatu
data mining. Karenanya presentasi hasil data aturan assosiatif dapat diketahui dengan dua
mining dalam bentuk pengetahuan yang bisa parameter, support (nilai penunjang) yaitu
dipahami semua orang adalah satu tahapan prosentase kombinasi item tersebut. Dalam
yang diperlukan dalam proses data mining. database dan confidence (nilai kepastian) yaitu
Dalam presentasi ini, visualisasi juga bisa kuatnya hubungan antar item dalam aturan
membantu mengkomunikasikan hasil Data assosiatif. Analisis asosiasi didefinisikan
Mining (Han, 2006) suatu proses untuk menemukan semua aturan
assosiatif yang memenuhi syarat minimum
untuk support (minimum support) dan syarat
E. SUPPORT DAN CONFIDENCE minimum untuk confidence (minimum
confidence) (Pramudiono, 2007)
Ada beberapa algoritma yang sudah
dikembangkan mengenai aturan asosiasi,namun
141
Jurnal SAINTIKOM
Vol. 10 / No. 2 / Mei 2011
Dian Wirdasari dan Ahmad Calam: Penerapan Data Mining…
144
Jurnal SAINTIKOM
Vol. 10 / No. 2 / Mei 2011
Dian Wirdasari dan Ahmad Calam: Penerapan Data Mining…
“Jika pinjam Kamus B.Inggris maka pinjam 9 Kamus Jika pinjam Kamus
B.Inggris, B.Inggris dan Hello
Hello Magazine” didapatkan nilai confidence Hello Magazine, maka
yaitu sebagai berikut : 0 0/3 -
Magazine, pinjam Bahasa Inggris
Bahasa X
C
(Ta Tc ) Inggris X
Ta 10 Jika pinjam Bahasa
Inggris X, maka
3 pinjam Kamus 3 3/7 43%
0,33 33%
9 B.Inggris dan Hello
Magazine
Untuk aturan asosiasi Jika pinjam Hello 11 Jika pinjam Kamus
Magazine maka pinjam Kamus B.Inggris B.Inggris dan Bahasa
Inggris X, maka 0 0/6 -
didaptkan nilai confidence yaitu sebagai berikut: pinjam Hello
C
(Ta Tc ) 12
Magazine
Jika pinjam Hello
Ta Magazine,
pinjam
maka
Kamus 0 0/4 -
3
0,75 75% B.Inggris dan Bahasa
4 Inggris X
Untuk daftar calon aturan asosiasi yang lain 13 Jika pinjam Hello
Magazine dan Kamus
dapat dilihat pada daftar calon aturan asosiasi di 100
B.Inggris maka 3 3/3
%
tabel 8 berikut ini. pinjam Bahasa Inggris
Tabel 8. Daftar calon aturan asosiasi X
14 Jika pinjam Bahasa
N Dari Dihasilkan aturan Sup Confidence Inggris X maka
o Frequent asosiasi port pinjam Hello 0 0/7 -
ItemSet Magazine dan Kamus
1 Kamus Jika pinjam Kamus B.Inggris
B.Inggris, B.Inggris maka 3/9
3 33% 15 Jika pinjam Hello
Hello pinjam Hello Magazine dan Bahasa
Magazine Magazine Inggris X maka 0 0/1 -
2 Jika pinjam Hello pinjam Kamus B.
Magazine maka Inggris
3 3/4 75%
pinjam Kamus 16 Jika pinjam Kamus
B.Inggris B.Inggris maka
3 Kamus Jika pinjam Kamus pinjam Hello 1 1/9 11%
B.Inggris, B.Inggris maka Magazine dan Bahasa
6 6/9 67%
Bahasa pinjam Bahasa Inggris Inggris X
Inggris X X 17 Jika pinjam Bahasa
4 Jika pinjam Bahasa Inggris X dan Kamus
Inggris X, Maka B.Inggris maka 3 3/6 50%
6 6/7 86%
pinjam Kamus pinjam Hello
B.Inggris Magazine
5 Fisika X, Jika pinjam Fisika X, 18 Jika pinjam Hello
Kumpulan maka pinjam Magazine maka
rumus – Kumpulan rumus - 4 4/6 67% pinjam Bahasa Inggris 3 3/4 75%
rumus rumus Fisika dan Kamus B.Inggris
fisika
6 Jika pinjam 19 Jika pinjam Bahasa
Kumpulan rumus - 100 Inggris X dan hello
4 4/4 100
rumus Fisika maka % magazine maka 3 3/3
%
pinjam Fisika X pinjam Kamus
7 Hello Jika pinjam Hello B.Inggris
Magazine, Magazine maka 20 Jika pinjam Kamus
3 3/4 75% B.Inggris maka
Bahasa pinjam Bahasa Inggris
Inggris X X pinjam Bahasa Inggris 0 0/9 -
8 Jika pinjam Bahasa X dan Hello
Inggris X maka Magazine
3 3/7 43%
pinjam Hello
Magazine.
145
Jurnal SAINTIKOM
Vol. 10 / No. 2 / Mei 2011
Dian Wirdasari dan Ahmad Calam: Penerapan Data Mining…
146
Jurnal SAINTIKOM
Vol. 10 / No. 2 / Mei 2011
Dian Wirdasari dan Ahmad Calam: Penerapan Data Mining…
147
Jurnal SAINTIKOM
Vol. 10 / No. 2 / Mei 2011
Dian Wirdasari dan Ahmad Calam: Penerapan Data Mining…
Menu Utama
Keluar
J. DAFTAR PUSTAKA
150
Jurnal SAINTIKOM
Vol. 10 / No. 2 / Mei 2011