BAB II
TINJAUAN PUSTAKA
Data mining adalah suatu istilah yang digunakan untuk menguraikan penemuan
Definisi umum dari data mining itu sendiri adalah proses pencarian pola-pola
diketahui sebelumnya dari suatu sekumpulan data yang mana data tersebut dapat
yang lain. Hal penting yang terkait di dalam data mining adalah:
1. Data mining merupakan suatu proses otomatis terhadap data yang sudah ada.
3. Tujuan data mining adalah mendapatkan hubungan atau pola yang mungkin
Data mining dilakukan dengan tool khusus, yang mengeksekusi operasi data
yang tersembunyi pada sejumlah data besar yang disimpan ketika menjalankan
bisnis perusahaan. Kemajuan luar biasa yang terus berlanjut dalam bidang data
globalisasi ekonomi.
teknologi.
(Larose, 2005)
Istilah data mining dan knowledge discovery in databases (KDD) sering kali
tersembunyi dalam suatu basis data yang besar. Sebenarnya kedua istilah tersebut
memiliki konsep yang berbeda, tetapi berkaitan satu sama lainnya. Salah satu
tahapan dalam keseluruhan proses KDD adalah data mining. Proses KDD itu ada
1. Data selection
sebelum tahap penggalian informasi dalam KDD dimulai. Data hasil seleksi
yang digunakan untuk proses data mining, disimpan dalam suatu berkas,
2. Pre-processing / cleaning
cleaning pada data yang menjadi fokus KDD. Proses cleaning mencakup
antara lain membuang duplikasi data, memeriksa data yang inkonsisten, dan
3. Transformation
Coding adalah proses transformasi pada data yang telah dipilih, sehingga data
tersebut sesuai untuk proses data mining. Proses coding dalam KDD
merupakan proses kreatif dan sangat tergantung pada jenis atau pola informasi
4. Data mining
Data mining adalah proses mencari pola atau informasi menarik dalam data
atau algoritma dalam data mining sangat bervariasi. Pemilihan metode atau
algoritma yang tepat sangat bergantung pada tujuan dan proses KDD secara
keselurahan.
5. Interpretation / evalution
Pola informasi yang dihasilkan dari proses data mining perlu ditampilkan
dalam bentuk yang mudah dimengerti oleh pihak yang berkepentingan. Tahap
9
ini merupakan bagaian dari proses KDD yang disebut interpretation. Tahap ini
(Fayyad, 1996)
Data mining dibagi menjadi beberapa kelompok berdasarkan tugas yang dapat
dilakukan, yaitu:
1. Deskripsi
Terkadang peneliti dan analis secara sederhana ingin mencoba mencari cara
keterangan atau fakta bahwa siapa yang tidak cukup profesional akan sedikit
kecendrungan.
2. Estimasi
Estimasi hampir sama dengan klasifikasi, kecuali variabel target estimasi lebih
ke arah numerik dari pada ke arah kategori. Model dibangun dengan record
3. Prediksi
Prediksi hampir sama dengan klasifikasi dan estimasi, kecuali bahwa dalam
prediksi nilai dari hasil akan ada di masa mendatang. Beberapa metode dan
teknik yang digunakan dalam klasifikasi dan estimasi dapat pula digunakan
4. Klasifikasi
5. Pengklusteran
Kluster adalah kumpulan record yang memiliki kemiripan satu dengan yang
6. Asosiasi
Tugas asosiasi dalam data mining adalah menemukan atribut yang muncul
dalam satu waktu. Dalam dunia bisnis lebih umum disebut analisis keranjang
(Larose,2005)
Arsitektur utama dari sistem data mining, pada umumnya terdiri dari beberapa
1. Database, data warehouse, atau media penyimpanan informasi, terdiri dari satu
atau beberapa database, data warehouse, atau data dalam bentuk lain.
4. Data mining engine, merupakan bagaian penting dari sistem dan idealnya
dengan modul-modul data mining. Dan bagian dari software yang berfungsi
untuk menemukan pattern atau pola-pola yang terdapat dalam database yang
12
yang sesuai.
Pattern Evaluation
Data Warehouse
Database
Market basket analysis adalah salah satu cara yang digunakan untuk menganalisis
data penjualan dari suatu perusahaan. Proses ini menganalisis buying habits
diletakkan konsumen dalam shopping basket. Hasil yang telah didapatkan ini
13
nantinya dapat dimanfaatkan oleh perusahaan retail seperti toko atau swalayan
yang sering dibeli secara bersamaan oleh konsumen. (Han Kamber, 2001)
Untuk beberapa kasus, pola dari item-item yang dibeli secara bersamaan oleh
konsumen mudah untuk ditebak, misalnya susu dibeli bersamaan dengan roti.
Namun, mungkin saja terdapat suatu pola pembelian item yang tidak pernah
Mungkin saja pola seperti ini tidak pernah terpikirkan sebelumnya karena minyak
goreng dan deterjen tidak mempunyai hubungan sama sekali, baik sebagai barang
Hal ini mungkin tidak pernah terpikirkan sebelumnya sehingga tidak dapat
diantisipasi jika terjadi sesuatu, seperti kekurangan stok deterjen misalnya. Inilah
salah satu manfaat yang dapat diperoleh dari melakukan market basket analysis.
Dengan melakukan proses ini dan menggunakan komputer maka secara otomatis
mengenai item apa saja yang mungkin dibeli secara bersamaan, karena data dari
Association rule mining adalah suatu procedure untuk mencari hubungan antar
item dalam suatu data set yang ditentukan. (Han Kamber, 2001). Association rule
1. Support: suatu ukuran yang menunjukan seberapa besar tingkat dominasi suatu
transaksi yang ada, seberapa besar tingkat dominasi yang menunjukan bahwa
conditional (misal, seberapa sering item B dibeli jika orang membeli item A).
rules, yaitu untuk dibandingkan dengan batasan (treshold) yang ditentukan oleh
Artinya :
item A dan B dibeli bersamaan sebesar 2% dari keseluruhan data transaksi yang
dianalisis dan 60% dari semua konsumen yang membeli item A juga membeli
item B.
15
Dari contoh di atas, jika support-nya >= min_support dan confidence-nya >=
yang memenuhi syarat minimum dari nilai support dalam database. Nilai
Support (A,B) = P (A B)
Setelah semua pola frekuensi tinggi ditemukan, maka mencari aturan asosiasi
Algoritma Apriori adalah algoritma yang paling terkenal untuk menemukan pola
frekuensi tinggi. Pola frekuensi tinggi adalah pola-pola item di dalam suatu
16
database yang memiliki frekuensi atau support di atas ambang batas tertentu
disebut dengan istilah minimum support. Pola frekuensi tinggi ini digunakan
untuk menyusun aturan assosiatif dan juga beberapa teknik data mining lainnya.
Algoritma Apriori dibagi menjadi beberapa tahap yang disebut iterasi. Tiap iterasi
menghasilkan pola frekuensi tinggi dengan panjang yang sama dimulai dari iterasi
pertama yang menghasilkan pola frekuensi tinggi dengan panjang satu. Di iterasi
pertama ini, support dari setiap item dihitung dengan men-scan database. Setelah
support dari setiap item didapat, item yang memiliki support di atas minimum
support dipilih sebagai pola frekuensi tinggi dengan panjang 1 atau sering
disingkat 1-itemset. Singkatan k-itemset berarti 1 set yang terdiri dari k item.
Iterasi kedua menghasilkan 2-itemset yang tiap setnya memiliki 2 item. Pertama
dibuat kandidat 2-itemset dari kombinasi semua 1-itemset. Lalu untuk tiap
sini artinya jumlah transaksi dalam database yang mengandung kedua item dalam
sebagai 2-itemset yang juga merupakan pola frekuensi tinggi dengan panjang 2.
Untuk selanjutnya pada iterasi ke-k dapat dibagi lagi menjadi beberapa bagian:
kandidat k-itemset yang subset-nya yang berisi k-1 item tidak termasuk dalam
Support dari setiap kandidat k-item set didapat dengan men-scan database
kandidat k-itemset tersebut. Ini adalah juga termasuk ciri dari Algoritma
Pola frekuensi tinggi yang memuat k item atau k-itemset ditetapkan dari
4. Bila tidak didapat pola frekuensi tinggi baru maka seluruh proses dihentikan.
(Pramudiono, I. 2007)
Proceduree dari Algoritma Apriori dapat dilihat dari potongan program yang
pemangkasannya dapat dilihat dari potongan program gambar 2.3 berikut ini:
(Pramudiono, I. 2007)
Algoritma Apriori termasuk jenis aturan asosiasi pada data mining. Algoritma
Apriori ini mempunyai tujuan utama adalah untuk mencari maksimum frekuensi
yaitu:
penggunaan I/O.