UNIVERSITAS AMIKOM YOGYAKARTA | Jl. Ring Road Utara, Condong Catur, Sleman, Yogyakarta
Daftar Isi
i
Daftar Gambar
ii
Daftar Tabel
iii
1. Data Mining
1.1. Konsep Dasar Data Mining
Data mining merupakan sebuah cara agar pelaku bisnis dapat menjelajahi data
mandiri, membuat penemuan informatif, dan menempatkan informasi itu untuk
bekerja dalam kegiatan bisni sehari-hari.
Sebuah perusahaan yang sudah berdiri selama belasan bahkan hingga puluhan
tahun, perusahaan yang telah memiliki banyak konsumen, banyak transaksi, dan
bahkan memiliki banyak cabang, biasanya akan memiliki banyak sekali data. Akan
tetapi data-data tersebut hanya akan menjadi arsip dan bukti historis dari aktivitas
perusahaan. Selebihnya data-data tersebut hanya akan tersimpan begitu saja dalam
media penyimpanan yang besar dan tidak akan ada yang mengakses data-data tidak
terpakai seperti itu. Semua itu akan terasa sangat rugi karena database server yang
dibangun dengan biaya mahal sebagai penyimpanan data tidak dipergunakan dengan
baik.
Apakah data tersebuh sebaiknya dibuang saja? Tidak! Justru data-data tersebut
adalah asset yang sangat berharga bagi perusahaan. Kita hanya perlu melihat dengan
cara yang sedikit berbeda. Yaitu dengan cara menambang data tersebut (data mining).
Dengan menggunakan tool data mining dapat memprediksi tren, perilaku, sehingga
mampu membuat perusahaan untuk semakin proaktif dan memperkaya pengetahuan
atau informasi dalam membuat keputusan bagi perusahaan.
1
4. Mendeteksi kejadian pada perilaku, seperti menelusuri riwayat aktivitas yang
unik atau tidak wajar.
5. Memperlengkapi perusahaan dalam menemukan pola, dan korelasi data, yang
menuntun pada pengetahuan dan temuan bernilai lainnya.
Data mining dibagi menjadi beberapa kelompok berdasarkan tugas yang dapat
dilakukan, yiatu :
1. Klasifikasi
2. Clustering
3. Estimasi
4. Prediksi
5. Asosiasi
2
1. Alter S Output Classification
Alter’s (1980), klasifikasi didasarkan pada “tingkat implikasi tindakan dari
output sistem” atau sejauh mana output sistem dapat secara langsung
mendukung (atau menentukan) keputusan tersebut. Menurut klasifikasi ini
terdapat 3 kategori DSS dapat di lihat pada tabel 1.1.
2. Holsapple And Whinston’s Classification
Holsapple and Whinston (1996), mengklasifikasikan DSS ke dalam enam
framewok, yaitu, text-oriented DSS, database-oriented DSS, spreadsheet-
oriented DSS, solver-oriented DSS, rule-oriented DSS, dan compound DSS.
1. Text-oriented DSS
DSS ini memungkinkan dokumen dokumen untuk dibuat secara
elektronik, direvisi dan dilihat ketika diperlukan. Imaging dokumen
berbasis Web, hypertext, dan agen cerdas dapat digabungkan kedalam
aplikasi DSS berorientasi teks.
2. DSS Berorientasi Database
Pada jenis ini database merupakan peran utama, yang mana isisnya
terorganisir dan terstruktur.
3. DSS Berorientasi Spreadsheet
DSS ini berisi informasi dalam Spreadsheet yang memungkinkan untuk
membuat, melihat, serta memodifikasi pengetahuan procedural dan juga
menginstruksikan sistem untuk menjalankan instruksi mandiri. Untuk
DSS berorientasi Spreadsheet, Tools yang paling popular dan paling
banyak diketahui adalah Excel dan Lotus 123.
4. DSS Berorientasi Solve
Hal ini didasarkan pada solver atau penyelesaian masalah, yang
merupakan algoritma atau prosedur tertulis untuk melakukan
perhitungan tertentu dan jenis program tertentu.
5. DSS Berorientasi Aturan
DSS ini mengikuti prosedur tertentu yang diadopsi sebagai aturan yang
nantinya akan digunakan.
3
6. DSS Gabungan
DSS yang dibangun dengan menggunakan dua atau lebih dari lima
struktur yang telah dipaparkan di atas.
7. DSS Cerdas
Jenis ini juga lebih sering disebut sebagai sistem pendukung keputusan
berbasis pengetahuan.
Klasifikasi data terdiri dari 2 langkah proses. Pertama adalah learning (fase
training), dimana algoritma klasifikasi dibuat untuk menganalisa data training lalu
direpresentasikan dalam bentuk rule klasifikasi. Proses kedua adalah klasifikasi,
dimana data tes digunakan untuk memperkirakan akurasi dari rule klasifikasi [3].
Contoh Kasus :
Data didapatkan dari kuisioner dengan obyek pengujian berupa dua atribut (daya
tahan keasaman dan kekuatan) untuk mengklasifikasikan apakah sebuah kertas tissue
tergolong kualitas bagus atau jelek. Berikut contoh datanya.
Rumus : {1}
4
Tabel 1.1 Data Pengujian Kasus 1
Sebuah prabik memproduksi kertas tissue baru yang memiliki X1 = 3 dan X2= 7.
Tentukan apakah kertas tissue baru termasuk klasifikasi apa (jelek atau bagus).
Langka-langkah Penyelesaian :
3. Urutkan jarak tersebut dan tentukan tetangga mana yang terdekat berdasarkan
jarak minimum ke – K.
5
Tabel 1.3. Data tetangga terdekat berdasarkan jarak minimum ke K
4. Tentukan kategori dari tetangga terdekat. Perhatikan pada baris kedua pada kolom
terakhir: katagori dari tetangga terdekat (Y) tidak termasuk karena ranking dari
data ini lebih dari 3 (=K).
Tabel 1.4. Menentukan Kategori dari tetangga terdekat
Hasil : Kita punya 2 kategori Bagus dan 1 Kategori Jelek, karena 2 > 1 maka kita
simpulkan bahwa kertas tissue baru tadi yang memiliki X1=3 dan X2=7 adalah
kertas tissue dengan klasifikasi Bagus.
6
1.4. Naïve Bayes
Naie bayes merupakan sebuah metode klasifikasi yang berakar pada teorema bayes.
Bila terdapat dua kejadian yang terpisah (misalkan A dan B), maka teorema Bayes
dirumuskan sebagai berikut :
{2}
Teorema Bayes sering pula dikembangkan mengingat berlakunya hukum
probabilitas total, menjadi seperti berikut:
{3}
Untuk menjelaskan teorema Naïve Bayes, perlu dietahui bahwa proses klasifikasi
memerlukan sejumlah petunjuk untuk menentukan kelas apa yang cocok bagi sampel
yang dianalisis tersebut [5]. Karena itu, teorema Bayes diatas disesuaikan sebagai
berikut:
{4}
Contoh Kasus :
PT. Pertamina berencana membuka satu SPBU baru di Jl. Merah Putih dengan kondisi
sebagai berikut:
1. Lebar Jalan - jalan tol
2. Volume kendaraan – sepi
3. Jumlah pesaing (SPBU) - >1
4. Jumlah pemukiman - <3000
Bila didapat suatu data lokasi dari 10 SPBU yang telah didirikan.
Tabel 1.5. Data SPBU yang telah di dirikan
Jalan Lebar Jalan Volume Jumlah Jumlah Lokasi
Kendaraan Pesaing Pemukiman Strategis
Jl. Pahlawan Jalan 2 mobil Sedang 1 <3000 Tidak
Jl. Berduri Jalan tol Ramai >1 3000-5000 Ya
Jl. Insiden Jalan 4 mobil Ramai 0 <3000 Ya
Jl. Deklarasi Jalan 4 mobil Sepi 1 <3000 Tidak
Jl. Bangkok Jalan 2 mobil Ramai 0 >5000 Ya
7
Jl. Harapan Jalan tol Sepi >1 <3000 Tidak
Jl. Marzuki Jalan 4 mobil Sedang 0 3000-5000 Ya
Jl. Denpasar Jalan 2 mobil Sepi 0 <3000 Tidak
Jl. H.Soleh Jalan 4 mobil Ramai 0 <3000 Ya
Jl. M.Said Jalan tol Sepi 1 >5000 Ya
Keterangan :
Jumlah data = 10
Ya = lokasi strategis bernilai “ya”
Tidak = lokasi strategis bernilai “tidak”
8
Dari 10 data, jumlah lokasi strategis yang bernilai “ya” = 6 , dan yang benilai “tidak”
=4
Maka,
Karena nilai ”prosterior tidak” lebih besar dari “prosterior ya” maka lokasi strategis
= Tidak
Tabel 1.7. Data Hasil Penentuan Lokasi Strategis
Jalan Lebar Jalan Volume Jumlah Jumlah Lokasi
Kendaraan Pesaing Pemukiman Strategis
Jl. Merah Putih Jalan tol Sepi >1 <3000 Tidak
9
Berikut contoh kasus menggunakan algoritma C4.5 :
Gain :
n
Gain(S,A)=Entropy(S) - ∑ |Si| * Entropy(Si)
i=1 |S|
S : Himpunan kasus
A : Atribut
n : Jumlah partisi atribut a
|Si| : Jumlah kasus pada partisi ke-I
|S| : Jumlah kasus dalam S
10
Entropy
n
Entropy(S)= ∑ - pi * log2 pi
i=1
S : Himpunan kasus
N : Jumlah partisi S
Pi : Proporsi dari Si terhadap S
Entropy(Total) = (-4/14*log2(4/14))+
(-10/14 * log2(10/14))
Entropy(Total) = 0.863121
11
Gambar 1.3. Menghitung Entropy Total
Menghitung Gain :
n
Gain(S,A)=Entropy(S) - ∑ |Si| * Entropy(Si)
i=1 |S|
Gain(Total,OutLook)= Entropy(Total) –
n
∑ |OutLook| * Entropy(OutLook)
i=1 |Total|
Gain(Total,OutLook)= 0.8631206 –
((4/14*0)+(5/14*0.722)+(5/14*0.97))
Gain(Total,OutLook)=0.258521
12
Gambar 1.4. Menghitung Gain
13
Gambar 1.6. Memilih Atribut Sebagai Node 1.1
1.6. Clustering
Berbeda dengan association rule mining dan klasifikasi di mana kelas data telah
ditentukan sebelumnya, clustering melakukan pengelompokan data tanpa
berdasarkan kelas data tertentu [7]. Prinsip dari clustering sendiri adalah untuk
memaksimalkan kesamaan antar anggota satu kelas dan meminimalkan kesamaan
antar cluster.
14
Kesamaan merupakan sebuah dasar untuk mendefinisikan sebuah cluster, ukuran
kesamaan antara dua pola yang diambil dari ruang fitur yang sama sangat penting
didalam algoritma clustering.
Potensi clustering adalah dapat digunakan untuk mengetahui struktur dalam data
yang dapat dipakai lebih lanjut dalam berbagai aplikasi secara luas seperti
klasifikasi, pengolahan gambar, dan pengenalan wajah [4]. Salah satu algoritma
yang digunakan dalam metode clustering adalah algoritma K-Means Clustering.
15
perubahan nilai pada objective function yang digunakan di atas nilai
threshold yang ditentukan.
Menentukan Centroid (titik pusat) setiap kelompok diambil dari nilai rata-
rata (Means) semua nilai data pada setiap fiturnya. Jika M menyatakan jumlah
data pada suatu kelompok, I menyatakan fitur ke-I dalam sebuah kelompok,
berikut rumus untuk menghitung centroid :
{5}
{6}
{7}
Fungsi Objektif :
{8}
16
Tabel 1.9 Dataset Kasus K-Means
Inisialisasi :
K = 3,
Fungsi Objektif (F) = 0,
Threshold (T) = 0.8, dan Data dicluster sebanyak K secara random.
Tentukan Hasil Akhir Clusteringnya !
17
Tabel 1.11 Hasil Centroid Setiap Cluster
18
Gambar 1.11 Iterasi 1 (Mengalokasikan data pada centroid terdekat)
19
Tabel 1.14 Menghitung Jarak Data Ke Centroid
20
Tabel 1.15 Iterasi 2 ( Menghitung Centroid Setiap Cluster )
21
Gambar 1.13 Hasil Clustering Akhir
1.7.2. Prediksi
Prediksi lebih menekankan pada identifikasi trend dari distribusi
berdasarkan data yang tersedia. Data mining digunakan untuk prediksi,
memprediksi apa yang akan terjadi di masa mendatang. Misalnya prediksi
harga stok 3 bulan yang akan datang, prediksi kenaikan presentase meninggal
dalam kecelakaan tahun depan jika batas kecepatan dinaikan.
Prediksi adalah mengkonstruksi satu atau lebih sekumpulan data model
(misalnya: pohon keputusan), menarik kesimpulan dari data set yang ada,
melakukan prediksi perilaku data set yang baru. [1]
22
1.8. Association
Associaton rule merupakan metode yang sering dijumpai ketika melibatkan sebuah
dataset yang mengandung transaksi. Secara umum association rule memiliki dua
bagian penting yaitu antecedent (sebab) yang biasa diistilahkan dengan IF dan
consequent (akibat) yang biasa diistilahkan dengan THEN. Antecedent merupakan
item-item yang terdapat di dalam basket atau dataset, sementara consequent
merupakan item yang dihasilkan dari analisis kejadian item-item yang erambil
sebelumnya. [9]
Association rules digunakan untuk menganalisis pola-pola yang seting keluar, yaitu
pola yang sering dipakai pembeli dalam membeli item produk.
1.9. Apriori
Algoritma apriori termasuk jenis aturan asosiasi pada data mining. Menurut Erwin
(2009), algoritma apriori merupakan salah satu algoritma yang melakukan pencarian
frequent intemset dengan memakai teknik association rule [7].
Pada algoritma apriori menentukan kandidat yang mungkin muncul dengan cara
memerhatikan minimum support & minimum confidence. Support adalah nilai
pengunjung atau presentase kombinasi sebuah item dalam database. Rumus support
adalah seperti persamaan 9 di bawah.
{9}
Sedangkan confidence adalah nilai kepastian yaitu kuatnya hubungan antar item
dalam sebuah Apriori. Rumus untuk menghitung confidence di tunjukan oleh
persamaan 10.
{10}
Langkah-langkah yang digunakan pada algoritma apriori diberikan sebagai berikut:
1. Mencari frequent itemsets yang terdiri dari k-item
2. Menggunakan frequent itemsets untuk membangun kaidah aturan asosasi
(association rule).
3. Kemudian membentuk k+1 frequent itemset dari Panjang k-frequent itemset.
23
4. Memotong atau memangkas semua masing-masing kandidat itemset dari
keseluruhan database dengan masukan min support.
5. Memangkas kandidat itemsets yang tidak frequent sehingga menghasilkan
aturan yang didapatkan berdasarkan minsup yang dimasukkan oleh user.
2. Data Warehouse
Data warehouse ialah sekumpulan informasi yang disimpan dalam baris data yang
digunakan untuk mendukung pengambilan keputusan dalam sebuah organisasi [10].
Pembangunan sebauh data warehouse merupakan salah satu cara atau teknik untuk
mengekstrak informasi penting dari data-data yang tersebar pada beberapa sistem
informasi ke dalam suatu penyimpanan terintegrasi yang terpusatkan dan mendukung
adanya kebutuhan akan data history.
Data warehouse digunakan untuk mendukung pengambilan keputusan, bukan
untuk melaksanakan perosesan transaksi. Data warehouse meliputi extraction,
transportation, transformation, loading solution, online analytical processing
(OLAP),client analysis tool, dan aplikasi lain yang mengatur proses pengumpulan data dan
mengirimkan ke business user. Contoh data warehouse adalah sebagai berikut : data
penjualan pada suatu perusahaan. Dengan data warehouse maka dapat menjawab
pertanyaan “Siapakah customer terbesar pada akhir tahun?”.
24
2.1. Online Transactional Processing (OLTP)
25
2. Relational On-Line Analytical Processing (ROLAP), mekanisme penyimpanan
ROLAP menggunakan DBMS orisinil, seperti SQL Server, untuk menyiman
agregasi dalam bentuk tabung yang kemudian dapat digunakan oleh mesin
OLAP.
3. Hybrid On-Line Analytical Processing (HOLAP), HOLAP di desain dengan
mengkombinasikan keuntungan MOLAP dan ROLAP dengan menyimpan
agregasi level tinggi pada cube MOLAP dan menyimpan agregasi level rendah
dan line item pada tabel relational database.
4. Desktop On-Line Analytical Processing (DOLAP), peningkatan kategori yang
terkenal dari OLAP adalah DOLAP. System DOLAP menyimpan data OLAP
di dalam file berbasis klien dan mendukung proses multi dimensi menggunakan
sebuah sistem multi dimensi klien.
26
Gambar 2.3 Data Mart bagian dari data warehouse
a. Data mart hanya mengandung sedikit informasi dibandingkan dengan
data warehouse.
b. Data mart memfokuskan hanya pada kebutuhan-kebutuhan pemakai
yang terkait dalam sebuah departemen atau fungsi bisnis.
c. Data mart biasanya tidak mengandung data operasional yang rinci
seperti pada data warehouse.
d. Data mart adalah bagian (subset) dari data warehouse yang sederhana,
lebih cepat bekerja.
e. Data mart merupakan data tingkat departemen/bidang sedang data
warehouse merupakan data tingkat Lembaga/perusahaan
f. Data mart berasal dari proses bisnis tunggal, sedangkan data warehouse
berasal dari gabungna semua data mart
g. Data mart ditunjukkan dalam struktur data, sedang data warehouse
biasanya ditunjukan dalam E-R model.
27
2.4. Extraction, Transform, Load (ETL)
ETL merupakan singkatan dari Extraction, yaitu proses untuk mengumpulkan data
dari berbagai sumber, Transform memindahkan dan membersihkannya, kemudian
Load untuk menyimpan ke dalam sistem yang lain. [14]
ETL adalah sekumpulan proses yang harus dilalui dalam pembentukan data
warehouse. Tujuan ETL adalah mengumpulkan, menyaring, mengolah dan
menggabungkan data-data yang relevan dari berbagai sumber untuk disimpan ke
dalam data warehouse. Proses ETL sendiri terdiri dati extracting, transform, loading.
2.4.1. Extract
Extract adalah proses memilih dan mengambil data dari satu atau beberapa
sumber dan membaca/mengakses data yang dipilih tersebut. Proses ini dapat
menggunakan query, atau aplikasi ETL. Sebaiknya sebelum proses extract kita
lakukan, akan lebih mudah jika user sudah mendefinisikan kebutuhan terhadap
sumber data yang akan kita butuhkan.
2.4.2. Transform
Pada Proses ini data yang telah diambil pada proses extract akan dibersihkan
dan mengubah data dari bentuk asli menjadi bentuk yang sesuai dengan
kebutuhan data warehouse. Kendala yang biasanya terjadi pada proses
28
transform adalah sulitnya menggabungkan data dari beberapa sistem yang harus
dibersihkan sehingga data bersifat konsisten.
2.4.3. Load
Load adalah proses terakhir yang berfungsi untuk memasukkan data ke
dalam target akhir, yaiut ke dalam data warehouse. Cara untuk memasukkan
data adalah dengan menjalankan SQL script secara periodic. Pada proses ini
akan mengubah data kedalam bentuk dimensional data storage adar format data
cocok untuk diterapkan pada proses analisis dan telah terintegrasi dengan
beberapa sumber data. Proses Load yang termasuk proses terakhir dalam ETL
akan sampai ke berbagai macam output yang sesuai dengan skemanya, yaitu
terdiri dari proses load-up data (lodup), load-insert data (lodins), dan load bulk
data (lodbold).
29
Daftar Pustaka
[1] F. Sulianta and D. Juju, Data Mining, Jakarta: PT.Elex Media Komputindo, 2010.
[2] E. Turban, E. J. Aronson and T.-P. Liang, Decicion Support Systems And Intelligent
System, New Delhi: Asoke K. Ghosh, 2007.
[3] H. Leidiyana, "Penerapan Algoritma K-Nearest Neighbor Untuk Penentuan Resiko Kredit
Kepemilikan Kendaraan Bermotor," Jurnal Penelitian Ilmu Komputer, System Embedded &
Logic, pp. 65-76, 2013.
[4] K. and E. T. Luthfi, Algoritma Data Mining, Yogyakarta: Andi Offset, 2009.
[7] A. M. Siregar and A. Puspabhuana, Data Mining : Pengolahan Data Menjadi Informasi
dengan Rapidminer, Surakarta: CV. Kekata Group, 2002.
[9] S. Adinugroho and Y. A. Sari, Implementasi Data Mining Menggunakan WEKA, Malang:
UB Press, 2018.
[10] A. Handojo and S. Rostianingsih, "Pembuatan Data Warehouse Pengukuran Kinerja Proses
Belajar Mengajar Di Jurusan Teknik Informatika Universitas Kristen Petra," Jurnal
Informatika, vol. 5, pp. 53-58, 2004.
[11] L. Muflikhah, D. E. Ratnawati and R. R. M. Putri, Data Mining, Malang: UB Press, 2018.
[12] Indrajani, Database System All In One Theory, Practice, And Case Study, Jakarta: Elex
Media Komputindo, 2018.
30
[13] D. M. Kroenke, Database Processing, Jakarta: Erlangga, 2005.
[14] A. S. Kusumo, Inteligensi Bisnis SQL Server 2004, Jakart: PT. Elex Media Komputindo,
2017.
[15] M. S. Brown, Data Mining For Dummies A Wiley Brand, New Jersey: John Wiley & Sons,
Inc, 2014.
31