Chapter II - 3 PDF
Chapter II - 3 PDF
TINJAUAN PUSTAKA
2.1
Penambangan data (Data Mining) adalah serangkaian proses untuk menggali nilai
tambah dari sekumpulan data berupa pengetahuan yang selama ini tersembunyi
dibalik data atau tidak diketahui secara manual (Han, J dan Kamber, M, 2006).
Proses untuk menggali nilai tambah dari sekumpulan data sering juga dikenal
sebagai penemuan pengetahuan dari pangkalan data (Knowledge Discovery in
Databases = KDD) yaitu tahap-tahap yang dilakukan dalam menggali
pengetahuan dari sekumpulan data. Tahap-tahap yang dimaksud digambarkan
seperti Gambar 2.1.
Tahap-tahap data mining seperti yang diilustrasikan pada Gambar 2.1 dapat
dijelaskan sebagai berikut:
1. Pembersihan Data (Untuk membuang data yg tidak konsisten dan Noise)
2. Integrasi data ( Penggabungan data dari berbagai sumber)
3. Transformasi data (Data diubah menjadi bentuk yang sesuai untuk teknik
data mining)
4. Aplikasi Teknik Data Mining
5. Evaluasi pola yang ditemukan (untuk menemukan informasi dan
pengetahuan yang menarik)
6. Presentasi pengetahuan (dengan menggunakan teknik visualisasi)
data
(Data
Mining)
adalah
satu
proses
untuk
Estimasi hampir sama dengan klasifikasi, kecuali variabel target estimasi lebih
ke arah numerik daripada ke arah kategori. Model dibangun menggunakan
record lengkap yang menyediakan nilai dari variabel target sebagai nilai
prediksi. Selanjutnya, pada peninjauan berikutnya estimasi nilai dari variabel
target dibuat berdasarkan nilai variabel prediksi. Sebagai contoh, akan
dilakukan estimasi tekanan darah sistolik pada pasien rumah sakit berdasarkan
umur pasien, jenis kelamin, indeks berat badan, dan level sodium darah.
Hubungan antara tekanan darah sistolik dan nilai variabel prediksi dalam
proses pembelajaran akan menghasilan model estimasi. Model estimasi yang
dihasilkan dapat digunakan untuk kasus baru lainnya
3. Prediksi (Prediction)
Prediksi hampir sama dengan klasifikasi dan estimasi, kecuali bahwa dalam
prediksi nilai dari hasil akan ada di masa datang. Contoh prediksi dalam bisnis
dan penelitian adalah :
Prediksi harga beras dalam tiga bulan yang akan datang
Prediksi persentase kenaikan kecelakaan lalu lintas tahun depan jika batas
bawah kecepatan dinaikkan.
Beberapa metode dan teknik yang digunakan dalam klasifikasi dan estimasi
dapat pula digunakan (untuk keadaan yang tepat) untuk prediksi
4. Klasifikasi (Classification)
Dalam klasifikasi, terdapat target variabel kategori. Sebagai contoh,
penggolongan pendapatan dapat dipisahkan dalam tiga kategori, yaitu
pendapatan tinggi, pendapatan sedang dan pendapatan rendah.
merupakan
pengelompokkan
record,
pengamatan
atau
2.3
penting untuk mencari kesamaan dalam data dan menempatkan data yang sama ke
dalam kelompok-kelompok. Clustering membagi kumpulan data ke dalam
beberapa kelompok dimana kesamaan dalam sebuah kelompok adalah lebih besar
daripada diantara kelompok-kelompok (Rui Xu dan Donald 2009). Gagasan
mengenai pengelompokkan data atau clustering, memiliki sifat yang sederhana
dan dekat dengan cara berpikir manusia, kapanpun kepada kita dipresentasikan
jumlah data yang besar, kita biasanya cenderung merangkumkan jumlah data yang
besat ini ke dalam sejumlah kecil kelompok-kelompok atau kategori-kategori
untuk memfasilitasi analisanya lebih lanjut. Selain dari itu, sebagian besar data
yang dikumpulkan dalam banyak masalah terlihat memiliki beberapa sifat yang
melekat yang mengalami pengelompokkan-pengelompokkan natural (Hammuda
dan Karay, 2003).
Algoritma-algoritma clustering digunakan secara ekstensif tidak hanya
untuk mengorganisasikan dan mengkategorikan data, akan tetapi juga sangat
bermanfaat untuk kompresi data dan konstruksi model. Melalui pencarian
kesamaan dalam data, seseorang dapat mempresentasikan data yang sama dengan
lebih sedikit simbol misalnya. Juga, jika kita dapat menemukan kelompokkelompok data, kita dapat membangun sebuah model masalah berdasarkan
pengelompokkan-pengelompokkan ini (Dubes dan Jain, 1988).
Clustering menunjuk pada pengelompokkan record, observasi-observasi,
atau kasus-kasus ke dalam kelas-kelas objek yang sama. Cluster adalah
sekumpulan record yang adalah sama dengan satu sama lain dan tidak sama
dengan record dalam cluster lain. Clustering berbeda dari klasifikasi dimana tidak
ada variabel target untuk clustering. Tugas clustering tidak mencoba untuk
mengklasifikasikan, mengestimasi atau mempredikasi nilai variabel target
(Larose, 2005). Bahkan, algoritma clustering berusaha mensegmentasikan seluruh
kumpulan data ke dalam subkelompok-subkelompok atau cluster-cluster
a(i) d
(C i , C k )+ a(k) d (C j , C k )+
bd
(C i , C j )+ cld (C i , C k )- d (C j , C k )
orthogonal pada eigenvector dengan nilai singular yang besar. Pembagian cara
k (konstanta) juga memungkinkan jika k nilai singular yang besar. Pembagian
cara k juga memungkinkan jika k nilai singular terbesar dipertimbangkan. Divisive
hirarki yang membagi dua rata-rata k terbukti (Steinbach et al. 2000) dapat dipilih
untuk clustering dokumen network. karena ukuran yang besar dari banyak
database yang direpresentasikan saat ini, maka sering sangat membantu untuk
menggunakan analisa clustering terlebih dahulu, untuk mengurangi ruang
pencarian untuk algoritma-algoritma downstream. Aktivitas clustering pola
khusus meliputi langkah-langkah berikut (Dubes dan Jain, 1988) :
(I)
(II)
(III)
Clustering pengelompokkan
(IV)
(V)
dan jumlah, tipe dan skala fitur yang tersedia untuk algoritma clustering.
Beberapa informasi ini dapat tidak bisa dikontrol oleh praktisioner. Seleksi sifat
(fitur) adalah proses pengidentifikasian subset fitur original yang paling efektif
untuk digunakan dalam clustering. Ekstraksi fitur adalah penggunaan satu atau
lebih transformasi dari sifat-sifat input untuk menghasilkan sifat-sifat baru yang
lebih baik.
(I)
(II)
(III)
(II)
algoritma-algoritma partitioning optimasi literative dibagi lagi ke dalam metodemetode K-medoids dan K-means.
2.4
Analisis Cluster
Analisis cluster adalah suatu analisis statitik yang bertujuan memisahkan obyek
kedalam beberapa kelompok yang mempunyai sifat berbeda antar kelompok yang
satu dengan yang lain. Dalam analisis ini tiap-tiap kelompok bersifat homogen
antar anggota dalam kelompok atau variasi obyek dalam kelompok yang terbentuk
sekecil mungkin (Prayudho, 2008).
1. Merumuskan permasalahan
2. Memilih ukuran jarak atau kesamaan
3. Memilih prosedur pengklusteran
4. Menetapkan jumlah cluster
5. Interpretasi dan profil dari cluster
6. Menaksir reliabilitas dan validitas
2.5
Metode Kernel
(2.1)
2.6
Fungsi Kernel
Ada kalanya tidak cukup bagi machine learning untuk bekerja dalam ruang input
karena asumsi di belakang mesin tidak menyesuaikan pola riil dari data. Sebagai
contoh, SVM (support vector machine) dan Perceptron memerlukan data yang
tidak dapat dipisahkan secara linier, sedangkan K-means dengan jarak Euclidean
mengharapkan data terdistribusi ke dalam daerah elliptical. Ketika asumsi tersebut
tidak digunakan, maka kita dapat menggunakan beberapa jenis transformasi pada
data, dengan memetakan mereka pada ruang baru dimana machine learning dapat
digunakan. Fungsi Kernel memberikan kepada kita sebuah alat untuk
mendefenisikan transformasi.
(2.2)
Sebuah fakta penting mengenai fungsi kernel adalah bahwa fungsi ini
dibangun tanpa mengetahui bentuk kongkrit dari , yaitu transformasi yang
didefinisikan secara implicit. Tiga fungsi kernel yang secara umum tercantum di
bawah ini :
Polynomial k ( x i , x j ) = (x i . x j + 1 )d
(2.3)
(2.4)
(2.5)
Kelemahan utama dari fungsi Kernel meliputi, pertama beberapa sifat dari
ruang baru hilang, misalnya, dimensionalitas dan tingkatan nilainya, sehingga
kekurangan bentuk eksplisit untuk . Kedua, penentuan bentuk kernel yang tepat
untuk kumpulan data tertentu harus diwujudkan melalui eksperimen-eksperimen.
Bahkan, biaya penghitungan dan penyimpanan meningkat menurut margin
luas. Prinsip ini menjamin bahwa fungsi kernel dapat selalu diexpresikan sebagi
dot product diantara dua input vector dalam beberapa ruang dimensi yang tinggi.
Feature Space
Input Space
k ( x1 , x
) = ( x1 ) ( x
Kamber,M, 2006)
K-Means Clustering merupakan teknik dalam klaster data yang sangat
terkenal karena kecepatannya dalam mengklasterkan data. Akan tetapi K-Means
Clustering memiliki kelemahan didalam memproses data yang berdimensi banyak.
Khususnya untuk masukan yang bersifat non-linierly separable. K-Means
clustering juga tidak mampu mengrupkan data yang bertipe kategorikal dan juga
data campuran (numeric dan kategorikal). Kenyataan didunia nyata data yang
tersedia atau yang diperoleh memiliki dimensi yang banyak dan juga bersifat
campuran. Untuk mengatasi permasalahan ini, telah banyak diusulkan oleh para
peneliti metode-metode yang dapat mengatasi kelemahan ini, salah satu
diantaranya adalah Kernel K-Means Clustering (L.S Dhillon, et. al, 2005).
yang dapat dielakkan oleh kelas melalui pemetaan data yang diamati pada ruang
data berdimensi yang lebih tinggi dengan cara nonlinear sehingga setiap cluster
untuk setiap kelas membentang ke dalam bentuk sederhana. Meskipun demikian,
tidak jelas bagaimana kernel K-means berhubungan dengan sebuah operasi pada
kumpulan data ruang input. Juga tidak jelas cara menghubungkan lebar kernel
dengan sifat-sifat kumpulan data input. Beberapa pemikiran yang disebutkan pada
point-point ini telah dibuat dalam (Girolami, 2002; Cristianini & Taylor, 2000).
Biasanya perluasan dari k-means ke kernel k-means direalisasi melalui
pernyataan jarak dalam bentuk fungsi kernel (Girolami, 2002; Muller et al 2003).
Meskipun demikian, implementasi tersebut mengalami masalah seris seperti biaya
clustering tinggi karena kalkulasi yang berulang dari nilai-nilai kernel, atau
memori yang tidak cukup untuk menyimpan matriks kernel, yang membuatnya
tidak dapat sesuai untuk corpora yang besar.
Anggaplah kumpulan data memiliki N sampel x 1 , x 2 ,x N . Algoritma Kmeans bertujuan untuk membagi sampel N ke dalam cluster K, C 1 , C 2 , , C K ,
dan kemudian mengembalikan pusat dari setiap cluster, m 1 , m 2 ,,m k sebagai
representative dari kumpulan data. Selanjutnya kumpulan data N-point dipadatkan
ke dalam code book point K. Algoritma K-means clustering mode batch yang
menggunakan jarak Euclidean bekerja sebagai berikut :
Algoritma 1
Langkah 1
Langkah 2
Mk =
n
i =1
( xi , C k ) xi
Ck =
Langkah 4
i =1
( xi , Ck ) xi
(2.6)
1
ck
N
i =1
(u i , C k ) u i
(2.7)
1
D {u i ,z k } = u i
ck
2
N
i =1
(u i , C k ) u i
= k (x i , x i ) + f (x i , C k ) + g (C k )
Dimana,
f (x i , C k ) =
2
ck
N
i =1
(u j , C k ) k ( x i , x j )
(2.8)
Algoritma 2
Langkah 1
Langkah 2
Langkah 3
=
untuk j k
0, yang lain
Langkah 4
pada
kategori
tertentu.
pohon
keputusan
juga
berguna
untuk
model
pohon,
mengubah
model
pohon
menjadi
rule,
dan
2. Jika semua sampel positif, berhenti dengan suatu pohon dengan satu simpul
akar, beri tanda (+)
3. Jika semua sampel negatif, berhenti dengan suatu pohon dengan satu simpul
akar, beri tanda (-)
4. Jika atribut kosong, berhenti dengan suatu bohon dengan suatu simpul akar,
dengan label sesuai nilai yang terbanyak yang ada pada label training
5. Untuk yang lain, Mulai
a. A ---- atribut yang mengklasifikasikan sampel dengan hasil
terbaik (berdasarkan Gain rasio)
b. Atribut keputusan untuk simpul akar ---- A
c. Untuk setiap nilai, vi, yang mungkin untuk A
1) Tambahkan cabang di bawah akar yang berhubungan
dengan A = vi
2) Tentukan sampel Svi sebagai sbset dari sampel yang
mempunyai nilai vi untuk atribut A
3) Jika sampel Svi kosong
i. Di bawah cabang tambahkan simpul daun
dengan label = nilai yang terbanyak yang ada
pada label training
ii. Yang lain tambah cabang baru di bawah cabang
yang sekarang C 4.5 (sampel training, label
training, atribut [A].
d. Berhenti
Mengubah tree yang dihasilkan dalam beberapa rule. Jumlah rule sma
dengan jumlah path yang mungkin dapat dibangun dari root sampai leaf node.
Tree Praining dilakukan untuk menyederhanakan tree sehingga akurasi
dapat bertambah. Pruning ada dua pendekatan, yaitu :
a. Pre-praining, yaitu menghentian pembangunan suatu subtree lebih
awal (yaitu dengan memutuskan untuk tidak lebih jauh mempartisi
data training). Saat seketika berhenti, maka node berubah menjadi leaf
(node akhir). Node akhir ini menjadi kelas yang paling sering muncul
di antara subset sampel.
Untuk memilih atribut sebagai akar, didasarkan pada nilai Gain tertinggi
dari atribut-atribut yang ada. Untuk menghitung Gain digunakan rumus seperti
tertera dalam Rumus I (Craw, 2005).
Gain(S,A) = Entropy(S)
n
i =1
Si
S
* Entropy ( Si )
Dengan
S
: Himpunan Kasus
: Atribut
|Si|
|S|
n
i =1
pi * log 2 pi
Dengan
S
: Himpunan Kasus
: Fitur
: Jumlah partisi S
pi
Riset-Riset Terkait
Terdapat beberapa riset yang telah dilakukn oleh banyak peneliti berkaitan dengan
domain pendidikan, seperti yang akan dijelaskan di bawah ini.
Yu et al (2010) dalam risetnya menjelaskan mengenai sebuah pendekatan
data mining dapat diaplikasikan untuk meneliti faktor-faktor yang mempengaruhi
tingkat daya ingat mahasiswa. Oyelade et al. (2010) dalam risetnya
mengimplementasikan algoritma k-means clustering dikombinasikan dengan
deterministik model untuk menganalisa hasil prestasi mahasiswa pada perguruan
tinggi swasta
Nugroho, (2008) menjelaskan dalam risetnya mengenai Implementasi
decision tree berbasis analisis teknikal untuk pembelian dan penjualan saham,
menyimpulkan system pendukung keputusan decision tree yang dibangun
berdasarkan analisis teknikal mampu memberikan gambaran saat saham
diperdagangkan hanya beerdasarkan pergerakan trend. Perdagangan berdasarkan
diperoleh dari hasil penambangan data yang telah ditentukan oleh perguruan
tinggi.
Beberapa kemungkinan lain mungkin dianggap penting adalah dosen wali
dapat menggunakan informasi yang diberikan dalam mengambil beberapa
tindakan untuk meningkatkan kinerja mahasiswa dalam meningkatkan predikat
kelulusan.
Pembuat keputusan bisa menggunakan model profil mahasiswa yang
potensial drop out menggunakan Teknik kernel k-mean clustering dan Decision
tree untuk meningkatkan kualitas pengambilan keputusan. Penelitian ini
memperkenalkan aplikasi metode Kernel K-Means Clustering untuk lembaga
pendidikan tinggi