Anda di halaman 1dari 31

BAB II

TINJAUAN PUSTAKA

2.1

Penambangan Data (Data Mining)

Penambangan data (Data Mining) adalah serangkaian proses untuk menggali nilai
tambah dari sekumpulan data berupa pengetahuan yang selama ini tersembunyi
dibalik data atau tidak diketahui secara manual (Han, J dan Kamber, M, 2006).
Proses untuk menggali nilai tambah dari sekumpulan data sering juga dikenal
sebagai penemuan pengetahuan dari pangkalan data (Knowledge Discovery in
Databases = KDD) yaitu tahap-tahap yang dilakukan dalam menggali
pengetahuan dari sekumpulan data. Tahap-tahap yang dimaksud digambarkan
seperti Gambar 2.1.

Universitas Sumatera Utara

Gambar 2.1. Tahap-Tahap Menggali Pengetahuan Dari Pangkalan Data


Sumber : Fayyad 1996

Tahap-tahap data mining seperti yang diilustrasikan pada Gambar 2.1 dapat
dijelaskan sebagai berikut:
1. Pembersihan Data (Untuk membuang data yg tidak konsisten dan Noise)
2. Integrasi data ( Penggabungan data dari berbagai sumber)
3. Transformasi data (Data diubah menjadi bentuk yang sesuai untuk teknik
data mining)
4. Aplikasi Teknik Data Mining
5. Evaluasi pola yang ditemukan (untuk menemukan informasi dan
pengetahuan yang menarik)
6. Presentasi pengetahuan (dengan menggunakan teknik visualisasi)

Berdasarkan beberapa pengertian tersebut dapat ditarik kesimpulan bahwa


data mining adalah suatu teknik menggali informasi berharga yang terpendam
atau tersembunyi pada suatu koleksi data (database) yang sangat besar sehingga
ditemukan suatu pola yang menaik yang sebelumnya tidak diketahui. Data mining
sendiri berarti usaha untuk mendapatkan sedikit barang berharga dari sejumlah
besar material dasar. Karena itu data mining sebenarnya memiliki akar yang
panjang dari bidang ilmu seperti kecerdasan buatan (artificial intelligent) machine
learning, statistik dan database. Beberapa metode yang sering disebut dalam
literatur data mining antara lain clustering, classification, association rules,
neural network genetic algorithm dan lain-lain (Pramudiono, 2006).

Universitas Sumatera Utara

Data mining sering digunakan untuk membangun model prediksi/inferensi


yang bertujuan untuk memprediksi tren masa depan atau prilaku berdasarkan
analisis data terstruktur. Dalam konteks ini, prediksi adalah pembangunan dan
penggunaan model untuk menilai kelas dari contoh tanpa label, atau untuk menilai
jangkauan nilai atau contoh yang cenderung memiliki nilai atribut. Klasifikasi dan
regresi adalah dua bagian utama dari masalah prediksi, dimana klasifikasi
digunakan untuk memprediksi nilai diskrit atau nominal sedangkan regresi
digunakan untuk memprediksi nilai terus-menerus atau nilai yang ditentukan
(Larose, 2005).
Masalah-masalah yang sesuai untuk diselesaikan dengan teknik data mining dapat
dicirikan dengan (Piatetsky dan Shapiro, 2006) :
- Memerlukan keputusan yang bersifat knowledge-based
- Mempunyai lingkungan yang berubah
- Metode yang ada sekarang bersifat sub-optimal
- Tersedia data yang bisa diakses, cukup dan relevan
- Memberikan keuntungan yang tinggi jika keputusan yang diambil tepat

2.2. Penambangan Data Pada Pendidikan Tinggi


Penambangan

data

(Data

Mining)

adalah

satu

proses

untuk

mengungkapkan informasi atau pengetahuan yang tidak nampak dipermukaan


tetapi mungkin potensial digunakan dan tersembunyi didalam data (Han J dan
Kember, 2006). Aplikasi data mining pada perguruan tinggi adalah area yang baru
yang disebut sebagai Educational Data Mining. Romero C dan Ventura S,(2007)
telah melakukan survey pada educational data mining dari tahun 1995 2005 ,

Universitas Sumatera Utara

mereka menyimpulkan bahwa pendidikan adalah wilayah penelitian yang sangat


menjanjikan, dan cukup spesifik yang tidak dipresentasikan pada domain riset
yang lain. Merceron. A dan Yacep.K (2005), memberikan sebuah studi kasus
yang menggunakan data mining untuk mengidentifikasi prilaku mahasiswa yang
gagal untuk memperingatkan mahasiswa sebelum ujian akhir. Data mining pada
area pendidikan juga digunakan oleh Naeimeh D, et. al (2005), untuk
mengidentifikasi dan kemudian meningkatkan proses pendidikan pada system
pendidikan tinggi. Waiyamai K (2003), menggunakan data mining untuk
membantu pengembangan kurikulum yang baru dan membantu mahasiswa teknik
untuk menseleksi bidang utamanya. Sajadin S, et al (2009), menggunakan data
mining untuk memonitor pencapaian dan meningkatkan prestasi akademik
mahasiswa.
Data mining dibagi menjadi beberapa kelompok berdasarkan tugas yang dapat
dilakukan, yaitu (Larose, 2005) :
1. Deskripsi (Description)
Terkadang penelitian analisis secara sederhana ingin mencoba mencari cara
untuk menggambarkan pola dan kecenderungan yang terdapat dalam data.
Sebagai contoh, petugas pengumpulan suara mungkin tidak dapat menemukan
keterangan atau fakta bahwa siapa yang tidak cukup profesional akan sedikit
didukung dalam pemilihan presiden. Deskripsi dari pola dan kecenderungan
sering memberikan kemungkinan penjelasan untuk suatu pola atau
kecenderungan.
2. Estimasi (Estimation)

Universitas Sumatera Utara

Estimasi hampir sama dengan klasifikasi, kecuali variabel target estimasi lebih
ke arah numerik daripada ke arah kategori. Model dibangun menggunakan
record lengkap yang menyediakan nilai dari variabel target sebagai nilai
prediksi. Selanjutnya, pada peninjauan berikutnya estimasi nilai dari variabel
target dibuat berdasarkan nilai variabel prediksi. Sebagai contoh, akan
dilakukan estimasi tekanan darah sistolik pada pasien rumah sakit berdasarkan
umur pasien, jenis kelamin, indeks berat badan, dan level sodium darah.
Hubungan antara tekanan darah sistolik dan nilai variabel prediksi dalam
proses pembelajaran akan menghasilan model estimasi. Model estimasi yang
dihasilkan dapat digunakan untuk kasus baru lainnya
3. Prediksi (Prediction)
Prediksi hampir sama dengan klasifikasi dan estimasi, kecuali bahwa dalam
prediksi nilai dari hasil akan ada di masa datang. Contoh prediksi dalam bisnis
dan penelitian adalah :
Prediksi harga beras dalam tiga bulan yang akan datang
Prediksi persentase kenaikan kecelakaan lalu lintas tahun depan jika batas
bawah kecepatan dinaikkan.
Beberapa metode dan teknik yang digunakan dalam klasifikasi dan estimasi
dapat pula digunakan (untuk keadaan yang tepat) untuk prediksi
4. Klasifikasi (Classification)
Dalam klasifikasi, terdapat target variabel kategori. Sebagai contoh,
penggolongan pendapatan dapat dipisahkan dalam tiga kategori, yaitu
pendapatan tinggi, pendapatan sedang dan pendapatan rendah.

Universitas Sumatera Utara

Contoh lain klasifikasi dalam bisnis dan penelitian adalah :


Menentukan apakah suatu transaksi kartu kredit merupakan transaksi yang
curang atau bukan
Memperkirakan apakah suatu pengajuan hipotek oleh nasabah merupakan
suatu kredit yang baik atau buruk
Mendiagnosis penyakit seorang pasien untuk mendapatkan kategori
penyakit apa.
5. Pengklusteran (Clustering)
Pengklusteran

merupakan

pengelompokkan

record,

pengamatan

atau

memperhatikan dan membentuk kelas objek-objek yang memiliki kemiripan.


Cluster adalah kumpulan record yang memiliki kemiripan satu dengan yang
lainnya dan memiliki ketidakmiripan dengan record-record dalam cluster lain.
Pengklusteran berbeda dengan klasifikasi yaitu tidak adanya variabel target
dalam pengklusteran. Pengklusteran tidak mencoba untuk melakukan
klasifikasi, mengestimasi, atau memprediksi nilai dari variabel target. Akan
tetapi, algoritma pengklusteran mencoba untuk melakukan pembagian
terhadap keseluruhan data menjadi kelompok-kelompok yang memiliki
kemiripan (homogen), yang mana kemiripan record dalam satu kelompok
akan bernilai maksimal, sedangkan kemiripan dengan record dalam kelompok
lain akan bernilai minimal.
Contoh pengklusteran dalam bisnis dan penelitian adalah :
Melakukan pengklusteran terhadap ekspresi dari gen, untuk mendapatkan
kemiripan perilaku dari gen dalam jumlah besar.

Universitas Sumatera Utara

Mendapatkan kelompok-kelompok konsumen untuk target pemasaran dari


suatu produk bagi perusahaan yang tidak memiliki dana pemasaran yang
besar.
Untuk tujuan audit akuntansi, yaitu melakukan pemisahan terhadap
perilaku finansial dalam keadaan baik atau mencurigakan.
6. Asosiasi (Assosiation)
Tugas asosiasi dalam data mining adalah menemukan atribut yang muncul
dalam satu waktu. Dalam dunia bisnis lebih umum disebut analisis keranjang
belanja
Contoh asosiasi dalam bisnis dan penelitian adalah :
Menemukan barang dalam supermarket yang dibeli secara bersamaan dan
barang yang tidak pernah dibeli secara bersamaan.
Meneliti jumlah pelanggan dari perusahaan telekomunikasi seluler yang
diharapkan untuk memberikan respons posistif terhadap penawaran
upgrade layanan yang diberikan.

2.3

Algoritma Clustering (Clustering Algorithm)


Clustering (pengelompokkan data) mempertimbangkan sebuah pendekatan

penting untuk mencari kesamaan dalam data dan menempatkan data yang sama ke
dalam kelompok-kelompok. Clustering membagi kumpulan data ke dalam
beberapa kelompok dimana kesamaan dalam sebuah kelompok adalah lebih besar
daripada diantara kelompok-kelompok (Rui Xu dan Donald 2009). Gagasan
mengenai pengelompokkan data atau clustering, memiliki sifat yang sederhana

Universitas Sumatera Utara

dan dekat dengan cara berpikir manusia, kapanpun kepada kita dipresentasikan
jumlah data yang besar, kita biasanya cenderung merangkumkan jumlah data yang
besat ini ke dalam sejumlah kecil kelompok-kelompok atau kategori-kategori
untuk memfasilitasi analisanya lebih lanjut. Selain dari itu, sebagian besar data
yang dikumpulkan dalam banyak masalah terlihat memiliki beberapa sifat yang
melekat yang mengalami pengelompokkan-pengelompokkan natural (Hammuda
dan Karay, 2003).
Algoritma-algoritma clustering digunakan secara ekstensif tidak hanya
untuk mengorganisasikan dan mengkategorikan data, akan tetapi juga sangat
bermanfaat untuk kompresi data dan konstruksi model. Melalui pencarian
kesamaan dalam data, seseorang dapat mempresentasikan data yang sama dengan
lebih sedikit simbol misalnya. Juga, jika kita dapat menemukan kelompokkelompok data, kita dapat membangun sebuah model masalah berdasarkan
pengelompokkan-pengelompokkan ini (Dubes dan Jain, 1988).
Clustering menunjuk pada pengelompokkan record, observasi-observasi,
atau kasus-kasus ke dalam kelas-kelas objek yang sama. Cluster adalah
sekumpulan record yang adalah sama dengan satu sama lain dan tidak sama
dengan record dalam cluster lain. Clustering berbeda dari klasifikasi dimana tidak
ada variabel target untuk clustering. Tugas clustering tidak mencoba untuk
mengklasifikasikan, mengestimasi atau mempredikasi nilai variabel target
(Larose, 2005). Bahkan, algoritma clustering berusaha mensegmentasikan seluruh
kumpulan data ke dalam subkelompok-subkelompok atau cluster-cluster

Universitas Sumatera Utara

homogen secara relatif. Dimana kesamaan record dalam cluster dimaksimalkan


dan kesamaan dengan record diluar cluster ini diminimalkan.
Clustering sering dilaksanakan sebagai langkah pendahuluan dalam proses
pengumpulan data, dengan cluster-cluster yang dihasilkan digunakan sebagai
input lebih lanjut ke dalam sebuah teknik yang berbeda, seperti neural diatas
dapat diperoleh sebagai jarak dari pembaharuan formula Lance-Williams (Lance
& Williams, 1967).
D(C 1 .. C 1 , C k =

a(i) d

(C i , C k )+ a(k) d (C j , C k )+

bd

(C i , C j )+ cld (C i , C k )- d (C j , C k )

Dimana, a,b,c, adalah koefisien-koefisien yang sesuai dengan hubungan tertentu.


Formula ini menyatakan sebuah metrik hubungan antara kesatuan dari dua cluster
dan cluster ketiga dalam bentuk komponen-komponen yang mendasari.
Clustering hirarki berdasarkan metrik hubungan mengalami kompleksitas
waktu. Dibawah asumsi-asumsi yang tepat, seperti kondisi daya reduksi (metodemetode grafik memenuhi kondisi ini), metode-metode metrik hubungan memiliki
kompleksitas (N2) (Olson 1995).
Dalam

linguistik, pencarian informasi dan taksonomi biner aplikasi

clustering dokumen adalah sangat membantu. Metode-metode aljabar linear, yang


didasarkan pada dekomposisi nilai singular (Singular Value Decomposition-SVD)
digunakan untuk tujuan ini dalam filtering kolaboratif dan pencarian informasi
(Berry & Browne, 1999). Aplikasi SVD terhadap clustering divisive hirarkhi dari
kumpulan dokumen menghasilkan algroitma PDDP (Prinsipal Direction Divisive
Partitioning) (Boley, 1998). Algoritma ini membagi dua data dalam ruang
Euclidean dengan sebuah hyperplane yang mengalir melalui centroid data secara

Universitas Sumatera Utara

orthogonal pada eigenvector dengan nilai singular yang besar. Pembagian cara
k (konstanta) juga memungkinkan jika k nilai singular yang besar. Pembagian
cara k juga memungkinkan jika k nilai singular terbesar dipertimbangkan. Divisive
hirarki yang membagi dua rata-rata k terbukti (Steinbach et al. 2000) dapat dipilih
untuk clustering dokumen network. karena ukuran yang besar dari banyak
database yang direpresentasikan saat ini, maka sering sangat membantu untuk
menggunakan analisa clustering terlebih dahulu, untuk mengurangi ruang
pencarian untuk algoritma-algoritma downstream. Aktivitas clustering pola
khusus meliputi langkah-langkah berikut (Dubes dan Jain, 1988) :
(I)

Representasi pola (secara opsional termasuk ekstraksi dan/atau seleksi


sifat)

(II)

Defenisi ukuran kedekatan pola yang tepat untuk domain data

(III)

Clustering pengelompokkan

(IV)

Penarikan data (jika dibutuhkan) dan

(V)

Pengkajian output (jika dibutuhkan)


Representasi pola merujuk pada jumlah kelas, jumlah pola-pola yang ada,

dan jumlah, tipe dan skala fitur yang tersedia untuk algoritma clustering.
Beberapa informasi ini dapat tidak bisa dikontrol oleh praktisioner. Seleksi sifat
(fitur) adalah proses pengidentifikasian subset fitur original yang paling efektif
untuk digunakan dalam clustering. Ekstraksi fitur adalah penggunaan satu atau
lebih transformasi dari sifat-sifat input untuk menghasilkan sifat-sifat baru yang
lebih baik.

Universitas Sumatera Utara

Pertimbangan dataset X yang terdiri dari point-point data (atau secara


sinonim, objek-objek, hal-hal kasus-kasus, pola, tuple, transaksi) x i = (x i1 , ,
x id ) A dalam ruang atribut A, dimana i = 1, N, dan setiap komponen adalah
sebuah atribut A kategori numerik atau nominal. Sasaran akhir dari clustering
adalah untuk menemukan point-point pada sebuah sistem terbatas dari subset k,
cluster. Biasanya subset tidak berpotongan (asumsi ini terkadang dilanggar), dan
kesatuan mereka sama dengan dataset penuh dengan pengecualian yang
memungkinkan outlier. C i adalah sekelompok point data dalam dataset X, dimana
X = C i .. C k .. C outliers , C jl .. C j2 = 0.

2.3.1. Clustering Hirarkhi (Hierarchical Clustering)


Clustering hirarkhi membangun sebuah hirarkhi cluster atau dengan kata lain
sebuah pohon cluster, yang juga dikenal sebagai dendrogram. Setiap node cluster
mengandung cluster anak; cluster-cluster saudara yang membagi point yang
ditutupi oleh induk mereka. Metode-metode clustering hirarkhi dikategorikan ke
dalam agglomerative (bawah-atas) dan idivisive (atas-bawah) (Jain & Dubes,
1988; Kaufman & Russeeuw, 1990). Clustering agglomerative dimulai dengan
cluster satu point (singleton) dan secara berulang mengabungkan dua atau lebih
cluster yang paling tepat. Cluster divisive dimulai dengan satu cluster dari semua
point data dan secara berulang membagi cluster yang paling tepat. Proses tersebut
berlanjut hingga kriteria penghentian (seringkali, jumlah k yang diperlukan dari
cluster) dicapai. Kelebihan cluster hirarkhi meliputi :

Universitas Sumatera Utara

(I)

Fleksibilitas yang tertanam mengenai level granularitas

(II)

Kemudahan menangani bentuk-bentuk kesamaan atau jarak

(III)

Pada akhirnya, daya pakai pada tipe-tipe atribut apapun

Kelemahan dari clustering hirarkhi berhubungan dengan :


(I)

Ketidakjelasan kriteria terminasi

(II)

Terhadap perbaikan hasil clustering, sebagian besar algoritma hirarkhi


tidak mengunjungi kembali cluster-clusternya yang telah dikonstruksi.

Untuk clustering hirarkhi, menggabungkan atau memisahkan subset dari


point-point dan bukan point-point individual, jarak antara pint-point individu
harus digeneralisasikan terhadap jarak antara subset.
Ukuran kedekatan yang diperoleh disebut metrik hubungan. Tipe metrik
hubungan yang digunakan secara signifikan mempengaruhi algortima hirarkhi,
karena merefleksikan konsep tertentu dari kedekatan dan koneksitas. Metrik
hubungan antar cluster utama (Murtagh 1985, Olson 1995) termasuk hubungan
tunggal, hubungan rata-rata dan hubungan sempurna. Semua metrik hubungan

2.3.2. Clustering Partisional (Partitional Clustering)


Dengan mengetahui objek-objek database N, sebuah algoritma clustering
partisional membentuk k bagian dari data, dimana setiap cluster mengoptimalkan
kriteria clustering, seperti minimasi jumlah jarak kuadrat dari rata-rata dalam
setiap cluster.

Universitas Sumatera Utara

Salah satu isu dengan algoritma-algoritma tersebut adalah kompleksitas


tinggi, karena menyebutkan semua pengelompokkan yang memungkinkan dan
berusaha mencari optimum global. Bahkan untuk jumlah objek yang kecil, jumlah
partisi adalah besar. Itulah sebabnya mengapa solusi-solusi umum dimulai dengan
sebuah partisi awal, biasanya acak, dan berlanjut dengan penyempurnaannya.
Praktek yang lebih baik akan berupa pelaksanaan algoritma partisional untuk
kumpulan point-point awal yang berbeda (yang dianggap sebagai representative)
dan meneliti apakah semua solusi menyebabkan partisi akhir yang sama atau
tidak. Algoritma-algoritma clustering partisional berusaha memperbaiki secara
local sebuah kriteria tertentu. Pertama, menghitung nilai-nilai kesamaan atau
jarak, mengurutkan hasil, dan mengangkat nilai yang mengoptimalkan kriteria.
Oleh karena itu, dapat dianggap sebagai algoritma seperti greedy.
Sebuah pendekatan terhadap pembagian data adalah mengambil sudut
pandang konseptual yang mengidentifikasikan cluster dengan model tertentu
yang parameternya tidak diketahui harus ditemukan. Model-model probabilistik
menganggap bahwa data berasal dari campuran beberapa populasi yang
didistribusi dan prioritasnya ingin ditemukan. Sebuah kelebihan yang jelas dari
metode-metode probabilitas adalah daya interpretasi dari cluster-cluster yang
dibuat. Dengan memiliki representasi cluster yang tepat juga memungkinkan
penghitungan yang tidak ekspensif dari ukuran-ukuran intra-cluster dari
kesesuaian yang memberikan fungsi objektif yang tergantung pada sebuah
pembagian (partition). Tergantung pada bagaimana representative dibuat,

Universitas Sumatera Utara

algoritma-algoritma partitioning optimasi literative dibagi lagi ke dalam metodemetode K-medoids dan K-means.

2.4

Analisis Cluster

Analisis cluster adalah suatu analisis statitik yang bertujuan memisahkan obyek
kedalam beberapa kelompok yang mempunyai sifat berbeda antar kelompok yang
satu dengan yang lain. Dalam analisis ini tiap-tiap kelompok bersifat homogen
antar anggota dalam kelompok atau variasi obyek dalam kelompok yang terbentuk
sekecil mungkin (Prayudho, 2008).

Tujuan Analisis Cluster :


1. Untuk mengelompokkan objek-objek (individu-individu) menjadi kelompokkelompok yang mempunyai sifat yang relatif sama (homogen)
2. Untuk membedakan dengan jelas antara satu kelompok (cluster) dengan
kelompok lainnya.

Adapun manfaat Analisis Cluster sebagai berikut :


1. Untuk menerapkan dasar-dasar pengelompokkan dengan lebih konsisten
2. Untuk mengembangkan suatu metode generalisasi secara induktif, yaitu
pengambilan kesimpulan secara umum dengan berdasarkan fakta-fakta
khusus.
3. Menemukan tipologi yang cocok dengan karakter obyek yang diteliti
4. Mendeskripsikan sifat-sifat / karakteristik dari masing-masing kelompok
Analisis cluster dilakukan dengan langkah-langkah berikut :

Universitas Sumatera Utara

1. Merumuskan permasalahan
2. Memilih ukuran jarak atau kesamaan
3. Memilih prosedur pengklusteran
4. Menetapkan jumlah cluster
5. Interpretasi dan profil dari cluster
6. Menaksir reliabilitas dan validitas

2.5

Metode Kernel

Machine learning untuk penelitian pengolah sinyal sangat dipengaruhi oleh


metode yang popular kernel Mercer (Christianini & Taylor, 2000). Point utama
dalam metode kernel adalah apa yang disebut kernel trick, yang memungkinkan
penghitungan dalam beberapa inner product, kemungkinan dengan dimensi yang
tidak terbatas, ruang fitur Anggaplah x i dan x j adalah dua point data ruang input.
Jika fungsi kernel k() memenuhi kondisi Mercer maka :
k (x i , x j ) = (x i ).(x j )

(2.1)

Dimana, (x i, x j ) menunjukkan inner product dan (.) melambangkan


pemetaan non-linier dari ruang input kepada fitur kernel. Kernel trick
memungkinkan pelaksanaan dari algoritma pembelajaran, yang dinyatakan dalam
bentuk inner product ruang fitur kernel.
Metode-metode Kernel adalah algoritma yang secara implisit melaksanakan,
melalui penggantian inner product dengan Kernel Mercer yang tepat, sebuah
pemetaan nonlinear dari data input ke ruang fitur berdimensi tinggi (Vapnik,

Universitas Sumatera Utara

1995). Metode-metode kernel yang sangat disupervisi telah dikembangkan untuk


menyelesaikan masalah-masalah klasifikasi dan regresi.
K-means adalah algoritma unsupervised learning yang membagi kumpulan
data ke dalam sejumlah cluster yang dipilih dibawah beberapa ukuran-ukuran
optimisasi. Sebagai contoh, kita sering ingin meminimalkan jumlah kuadrat dari
jarak Euclidean antara sampel dari centroid. Asumsi di belakang ukuran ini adalah
keyakinan bahwa ruang data terdiri dari daerah elliptical yang terisolasi.
Meskipun demikian, asumsi tersebut tidak selalu ada pada aplikasi spesifik. Untuk
menyelesaikan masalah ini, sebuah gagasan meneliti ukuran-ukuran lain, misalnya
kesamaan kosinus yang digunakan dalam pencarian informasi. Gagasan lain
adalah memetakan data pada ruang baru yang memenuhi persyaratan untuk
ukuran optimasi. Dalam hal ini, fungsi kernel merupakan pilihan yang baik.

2.6

Fungsi Kernel

Ada kalanya tidak cukup bagi machine learning untuk bekerja dalam ruang input
karena asumsi di belakang mesin tidak menyesuaikan pola riil dari data. Sebagai
contoh, SVM (support vector machine) dan Perceptron memerlukan data yang
tidak dapat dipisahkan secara linier, sedangkan K-means dengan jarak Euclidean
mengharapkan data terdistribusi ke dalam daerah elliptical. Ketika asumsi tersebut
tidak digunakan, maka kita dapat menggunakan beberapa jenis transformasi pada
data, dengan memetakan mereka pada ruang baru dimana machine learning dapat
digunakan. Fungsi Kernel memberikan kepada kita sebuah alat untuk
mendefenisikan transformasi.

Universitas Sumatera Utara

Anggaplah kita diberikan sekumpulan sampel x 1 , x 2 , x 3 ,, x N , dimana x i


RD, dan fungsi pemetaan yang memetakan x 1 dari ruang input RD pada ruang
baru Q. Fungsi kernel didefenisikan sebagai dot product dalam ruang baru Q :
k (x i , x j ) = (x i ).(x j )

(2.2)

Sebuah fakta penting mengenai fungsi kernel adalah bahwa fungsi ini
dibangun tanpa mengetahui bentuk kongkrit dari , yaitu transformasi yang
didefinisikan secara implicit. Tiga fungsi kernel yang secara umum tercantum di
bawah ini :
Polynomial k ( x i , x j ) = (x i . x j + 1 )d

(2.3)

Radial k ( x i , x j ) = exp (-r || x i x j ||2)

(2.4)

Neural k ( x i , x j ) = tanh (ax i . x j + b)

(2.5)

Kelemahan utama dari fungsi Kernel meliputi, pertama beberapa sifat dari
ruang baru hilang, misalnya, dimensionalitas dan tingkatan nilainya, sehingga
kekurangan bentuk eksplisit untuk . Kedua, penentuan bentuk kernel yang tepat
untuk kumpulan data tertentu harus diwujudkan melalui eksperimen-eksperimen.
Bahkan, biaya penghitungan dan penyimpanan meningkat menurut margin
luas. Prinsip ini menjamin bahwa fungsi kernel dapat selalu diexpresikan sebagi
dot product diantara dua input vector dalam beberapa ruang dimensi yang tinggi.

Universitas Sumatera Utara

Feature Space

Input Space

k ( x1 , x

) = ( x1 ) ( x

Gambar 2.2. Proses Pemetaan Kernel

2.7. KERNEL K-MEANS CLUSTERING


Clustering adalah salah satu metode yang terkenal dalam data mining, yang
digunakan untuk mendapatkan kelompok-kelompok dari data, dimana setiap objek
data akan dikelompokkan kedalam satu kelompok berdasarkan kemiripannya, dan
yang lainnya akan dikelompokan pada

kelompok yang lain.( Han,J. and

Kamber,M, 2006)
K-Means Clustering merupakan teknik dalam klaster data yang sangat
terkenal karena kecepatannya dalam mengklasterkan data. Akan tetapi K-Means
Clustering memiliki kelemahan didalam memproses data yang berdimensi banyak.
Khususnya untuk masukan yang bersifat non-linierly separable. K-Means
clustering juga tidak mampu mengrupkan data yang bertipe kategorikal dan juga
data campuran (numeric dan kategorikal). Kenyataan didunia nyata data yang
tersedia atau yang diperoleh memiliki dimensi yang banyak dan juga bersifat
campuran. Untuk mengatasi permasalahan ini, telah banyak diusulkan oleh para
peneliti metode-metode yang dapat mengatasi kelemahan ini, salah satu
diantaranya adalah Kernel K-Means Clustering (L.S Dhillon, et. al, 2005).

Universitas Sumatera Utara

Kernel K-Means Clustering, pada prinsipnya mirip dengan K-Means


tradisional, letak perbedaan yang mendasar ada pada perubahan masukannya.
Dalam Kernel K-Means data point akan dipetakan pada dimensi baru yang lebih
tinggi menggunakan fungsi non-linier sebelum dilakukan proses clustering
(Cristianini N, Taylor,J.S.2000) Kemudian Kernel K-Means akan mempartisi
data menggunakan linier separator pada space yang baru.
Metode kernel pertama dan barangkali yang paling tepat adalah Support
Vector Machine (SVM) (Burges, 1998), yang mengoptimalkan kriteria margin
maksimum dalam ruang fitur kernel. Algoritma k-means barangkali telah menjadi
teknik clustering popular sejak diperkenalkan dalam era 1960an. Ini
memaksimalkan jarak Euclidean kuadrat antara pusat-pusat cluster. Meskipun
demikian, telah diketahui bahwa ini hanya optimal untuk (yang dapat dipisahkan
secara linear) cluster terdistribusi Gaussian. Metode yang berbeda untuk
melaksanakan algoritma ini dalam ruang kernel yakni kernel k-means telah
diperoleh. Dalam (Zang dan Alexander, 2006) teknik optimasi stochastic
dikembangkan dengan menggunakan kernel trick, sedangkan dalam (Girolami,
2002) pemetaan data actual diperkirakan melalui eigenvector dari apa yang
disebut matriks kernel.
Secara eksperimental, penelitian-penelitian ini memperlihatkan bahwa
keterbatasan k-means bisa telah teratasi, dan hasil yang baik dicapai juga untuk
kumpulan-kumpulan data yang memiliki batasan-batasan cluster nonlinear.
Motivasi untuk keinginan melaksanakan K-means dalam ruang fitur kernel
dinyatakan secara longgar sebagai masalah kemampuan memisahkan nonlinear

Universitas Sumatera Utara

yang dapat dielakkan oleh kelas melalui pemetaan data yang diamati pada ruang
data berdimensi yang lebih tinggi dengan cara nonlinear sehingga setiap cluster
untuk setiap kelas membentang ke dalam bentuk sederhana. Meskipun demikian,
tidak jelas bagaimana kernel K-means berhubungan dengan sebuah operasi pada
kumpulan data ruang input. Juga tidak jelas cara menghubungkan lebar kernel
dengan sifat-sifat kumpulan data input. Beberapa pemikiran yang disebutkan pada
point-point ini telah dibuat dalam (Girolami, 2002; Cristianini & Taylor, 2000).
Biasanya perluasan dari k-means ke kernel k-means direalisasi melalui
pernyataan jarak dalam bentuk fungsi kernel (Girolami, 2002; Muller et al 2003).
Meskipun demikian, implementasi tersebut mengalami masalah seris seperti biaya
clustering tinggi karena kalkulasi yang berulang dari nilai-nilai kernel, atau
memori yang tidak cukup untuk menyimpan matriks kernel, yang membuatnya
tidak dapat sesuai untuk corpora yang besar.
Anggaplah kumpulan data memiliki N sampel x 1 , x 2 ,x N . Algoritma Kmeans bertujuan untuk membagi sampel N ke dalam cluster K, C 1 , C 2 , , C K ,
dan kemudian mengembalikan pusat dari setiap cluster, m 1 , m 2 ,,m k sebagai
representative dari kumpulan data. Selanjutnya kumpulan data N-point dipadatkan
ke dalam code book point K. Algoritma K-means clustering mode batch yang
menggunakan jarak Euclidean bekerja sebagai berikut :

Algoritma 1
Langkah 1

Pilih awal pusat K : m 1 , m 2 , . m K

Langkah 2

Menentukan setiap sampel x 1 (1 < I < N) pada pusat

Universitas Sumatera Utara

terdekat, yang membentuk cluster K. yaitu menghitung


nilai fungsi indicator (x i , C k ), (1 < k < K).
1, D ( x i , m k ) < D( x i , m j ) for all j k
(x i , c k ) =
0, otherwise
Langkah 3

Hitunglah pusat baru m k untuk setiap cluster C k


1
ck

Mk =

n
i =1

( xi , C k ) xi

Dimana C k adalah jumlah sampel dalam C k

Ck =
Langkah 4

i =1

( xi , Ck ) xi

menghasilkan m k (1 < k < K)

Isu utama yang memperluas k-means tradisional ke kernel k-means adalah


penghitungan jarak dalam ruang baru. Anggaplah u i = (x i ) menunjukkan
transformasi x 1 . Jarak Euclidean antara u i dan u j ditulis sebagai :
D2 (u i , u j ) = || (x i ) (x j ) ||2
= 2 (x i ) -2 (x i ) (x j ) + 2(x j )
= k (x i , x i ) -2 k (x i , x i ) + k (x j , x j )

(2.6)

Anggaplah z k adalah pusat cluster dalam ruang yang ditransformasikan dimana,


Zk =

1
ck

N
i =1

(u i , C k ) u i
(2.7)

Dimana (u i , C k ) adalah fungsi indikator. Jarak antara u i dan z k dinyatakan


sebagai berikut :
2

1
D {u i ,z k } = u i
ck
2

N
i =1

(u i , C k ) u i

Universitas Sumatera Utara

= k (x i , x i ) + f (x i , C k ) + g (C k )
Dimana,
f (x i , C k ) =

2
ck

N
i =1

(u j , C k ) k ( x i , x j )

(2.8)

Perbedaan utama antara kernel k-means dengan versi tradisional k-means


ada di langkah 4, dalam algoritma Kernel K-means. Karena cluster dalam ruang
yang ditransformasikan tidak dapat dinyatakan secara eksplisit, maka harus
memilih pseudo centre. Dengan menggunakan Jarak Euclidean pada tradisional kmeans, diperoleh kernel berdasarkan algoritma k-means sebagai berikut :

Algoritma 2
Langkah 1

Tentukan (x i , C k ) (1< I < N, 1 < k < K) dengan nilai awal,


yang membentuk cluster initial K C 1 , C 2 ,, C k

Langkah 2

Untuk setiap cluster C k hitunglah |C k | dan g (C k )

Langkah 3

Untuk setiap sampel latihan x i dan cluster C k , hitunglah


f(x i , C k ) dan kemudian tentukan x i pada cluster terdekat
(x i , C k )
1, f ( x i , C k ) + g (C k ) < f ( x i , C j ) + g (C j )

=
untuk j k
0, yang lain

Langkah 4

Untuk setiap cluster C k , pilih sampel yang terdekat dengan


pusat sebagai representative dari C k , m k = arc min D (
(x i ),z k ). x i , dimana (x 19 , C k ) = 1

Universitas Sumatera Utara

Dalam persamaan faktor k (x i , x j ) diabaikan karena tidak berkontribusi untuk


menentukan cluster terdekat. Perbedaan utama antara kernel k-means dan versi
tradisionalnya ada dalam langkah 4.

2.8. DECISION TREE


Decision tree merupakan salah satu metode klasifikasi yang menggunakan
representasi struktur pohon (tree) dimana setiap node mempresentasikan atribut,
cabangnya merepresentasikan nilai dari atribut, dan daun merepresentasikan kelas.
Node yang paling atas dari decision tree disebut sebagai root
Decision tree merupakan metode klasifikasi yang paling popular
digunakan. Selain karena pembangunannya relatif cepat, hasil dari model yang
dibangun mudah untuk dipahami.
Pada decision tree terdapat 3 jenis node, yaitu :
a. Root Node, merupakan node paling atas, pada node ini tidak ada input dan
bisa tidak mempunyai output atau mempunyai output atau mempunyai output
lebih dari satu.
b. Internal Node, merupakan node percabangan, pada node ini hanya terdapat
satu input dan mempunyai output minimal dua.
c. Leaf node atau terminal node, merupakan node akhir, pada node ini hanya
terdapat satu input dan tidak mempunyai output.

Universitas Sumatera Utara

2.9. ALGORITMA C 4.5


Algoritma C 4.5 adalah salah satu metode untuk membuat decision tree
berdasarkan training data yang telah disediakan. Algoritma C 4.5 merupakan
pengembangan dari ID3. Beberapa pengembangan yang dilakukan pada C 4.5
adalah sebagai antara lain bisa mengatasi missing value, bisa mengatasi continue
data, dan praining.
Pohon keputusan merupakan metode klasifikasi dan prediksi yang sangat
kuat dan terkenal. Metode pohon keputusan mengubah fakta yang sangat besar
menjadi pohon keputusan yang merepresentasikan aturan. Aturan dapat dengan
mudah dipahami dengan bahasa alami. Dan mereka juga dapat diekspresikan
dalam bentuk bahasa basis data seperti Structured Query Language untuk mencari
record

pada

kategori

tertentu.

pohon

keputusan

juga

berguna

untuk

mengeksplorasi data, menemukan hubungan tersembunyi antara sejumlah calon


variable input dengan sebuah variable target.
Karena pohon keputusan memadukan antara eksplorasi data dan
pemodelan, pohon keputusan sangat bagus sebagai langkah awal dalam proses
pemodelan bahkan ketika dijadikan sebagai model akhir dari beberapa teknik lain.
Sebuah model pohon keputusan terdiri dari sekumpulan aturan untuk
membagi sejumlah populasi yang heterogen menjadi lebih kecil, lebih homogeny
dengan memperhatikan pada variable tujuannya. Sebuah pohon keputusan
mungkin dibangun dengan seksama secara manual atau dapat tumbuh secara
otomatis dengan menerapkan salah satu atau beberapa algoritma pohon keputusan
untuk memodelkan himpunan data yang belum terklasifikasi.

Universitas Sumatera Utara

Variabel tujuan bisaanya dikelompokkan dengan pasti dan model pohon


keputusan lebih mengarah pada perhitungan probability dari tiap-tiap record
terhadap kategori-kategori tersebut atau untuk mengklasifikasi record dengan
mengelompokkannya dalam satu kelas. Pohon keputusan juga dapat digunakan
untuk mengestimasi nilai dari variabel continue meskipun ada beberapa teknik
yang lebih sesuai untuk kasus ini.
Banyak algoritma yang dapat dipakai dalam pembentukan pohon
keputusan, antara lain ID3, CART, dan C4.5 (Larose, 2006).
Data dalam pohon keputusan bisaanya dinyatakan dalam bentuk tabel
dengan atribut dan record. Atribut menyatakan suatu parameter yang dibuat
sebagai criteria dalam pembentukan pohon. Misalkan untuk menentukan main
tenis, kriteria yang diperhatikan adalah cuaca, angin dan temperatur.
Salah satu atribut merupakan atribut yang menyatakan data solusi per item
data yang disebut target atribut. Atribut memiliki nilai-nilai yang dinamakan
dengan instance. Misalkan atribut cuaca mempunyai instance berupa cerah,
berawan dan hujan (Basuki dan Syarif, 2003).
Proses pada pohon keputusan adalah mengubah bentuk data (tabel)
menjadi

model

pohon,

mengubah

model

pohon

menjadi

rule,

dan

menyederhanakan rule (Basuki dan Syarif, 2003).

Berikut ini algoritma dasar dari C 4.5 :


Input : sampel training, label training, atribut
1. Membuat simpul akar untuk pohon yang dibuat

Universitas Sumatera Utara

2. Jika semua sampel positif, berhenti dengan suatu pohon dengan satu simpul
akar, beri tanda (+)
3. Jika semua sampel negatif, berhenti dengan suatu pohon dengan satu simpul
akar, beri tanda (-)
4. Jika atribut kosong, berhenti dengan suatu bohon dengan suatu simpul akar,
dengan label sesuai nilai yang terbanyak yang ada pada label training
5. Untuk yang lain, Mulai
a. A ---- atribut yang mengklasifikasikan sampel dengan hasil
terbaik (berdasarkan Gain rasio)
b. Atribut keputusan untuk simpul akar ---- A
c. Untuk setiap nilai, vi, yang mungkin untuk A
1) Tambahkan cabang di bawah akar yang berhubungan
dengan A = vi
2) Tentukan sampel Svi sebagai sbset dari sampel yang
mempunyai nilai vi untuk atribut A
3) Jika sampel Svi kosong
i. Di bawah cabang tambahkan simpul daun
dengan label = nilai yang terbanyak yang ada
pada label training
ii. Yang lain tambah cabang baru di bawah cabang
yang sekarang C 4.5 (sampel training, label
training, atribut [A].
d. Berhenti

Mengubah tree yang dihasilkan dalam beberapa rule. Jumlah rule sma
dengan jumlah path yang mungkin dapat dibangun dari root sampai leaf node.
Tree Praining dilakukan untuk menyederhanakan tree sehingga akurasi
dapat bertambah. Pruning ada dua pendekatan, yaitu :
a. Pre-praining, yaitu menghentian pembangunan suatu subtree lebih
awal (yaitu dengan memutuskan untuk tidak lebih jauh mempartisi
data training). Saat seketika berhenti, maka node berubah menjadi leaf
(node akhir). Node akhir ini menjadi kelas yang paling sering muncul
di antara subset sampel.

Universitas Sumatera Utara

b. Post-praining, yaitu menyederhanaan tree dengan cara membuang


beberapa cabang subtree setelah tree selesai dibangun. Node yang
jarang dipotong akan menjadi leaf (node akhir) dengan kelas yang
paling sering muncul.

Secara umum algoritma C 4.5 untuk membangun pohon keputusan adalah


sebagai berikut :
1. Pilih atribut sebagai akar
2. Buat cabang untuk masing-masing nilai
3. Bagi kasus dalam cabang
4. Ulangi proses untuk masing-masing cabang sampai semua kasus pada
cabang memiliki kelas yang sama

Untuk memilih atribut sebagai akar, didasarkan pada nilai Gain tertinggi
dari atribut-atribut yang ada. Untuk menghitung Gain digunakan rumus seperti
tertera dalam Rumus I (Craw, 2005).
Gain(S,A) = Entropy(S)

n
i =1

Si
S

* Entropy ( Si )

Dengan
S

: Himpunan Kasus

: Atribut

: Jumlah Partisi atribut A

|Si|

: Jumlah kasus pada partisi ke i

|S|

: Jumlah kasus dalam S

Universitas Sumatera Utara

Sedangkan perhitungan nilai Entropy dapat dilihat pada rumus 2 berikut


(Craw, 2005) :
Entropy(A) =

n
i =1

pi * log 2 pi

Dengan
S

: Himpunan Kasus

: Fitur

: Jumlah partisi S

pi

: Proporsi dari Si terhadap S

Riset-Riset Terkait
Terdapat beberapa riset yang telah dilakukn oleh banyak peneliti berkaitan dengan
domain pendidikan, seperti yang akan dijelaskan di bawah ini.
Yu et al (2010) dalam risetnya menjelaskan mengenai sebuah pendekatan
data mining dapat diaplikasikan untuk meneliti faktor-faktor yang mempengaruhi
tingkat daya ingat mahasiswa. Oyelade et al. (2010) dalam risetnya
mengimplementasikan algoritma k-means clustering dikombinasikan dengan
deterministik model untuk menganalisa hasil prestasi mahasiswa pada perguruan
tinggi swasta
Nugroho, (2008) menjelaskan dalam risetnya mengenai Implementasi
decision tree berbasis analisis teknikal untuk pembelian dan penjualan saham,
menyimpulkan system pendukung keputusan decision tree yang dibangun
berdasarkan analisis teknikal mampu memberikan gambaran saat saham
diperdagangkan hanya beerdasarkan pergerakan trend. Perdagangan berdasarkan

Universitas Sumatera Utara

pergerakan trend ini bersifat spekulasi namun cukup mampu memberikan


keuntungan.
Sunjana (2010b) menjelaskan dalam risetnya tentang klasifikasi data
nasabah sebuah asuransi menggunakan algoritma C 4.5, berikut adalah
kesimpulan yang dapat diambil dari data nasabah asuransi setelah dilakukan
analisis menggumakan metode algoritma C 4.5 :
1. Aplikasi dapat menyimpulkan bahwa rata-rata nasabah memiliki status L
dikarenakan pembayaran premi yang melebihi 10% dari penghasilam
2. Dengan persentase atribut premi dasar dan penghasilan, maka dapat
diketahui rata-rata status nasabah memiliki nilai P atau L
Bhargavi at al (2008) menjelaskan dalam risetnya tetang menguraikan
pengetahuan menggunakan aturan dengan pendekatan decision tree.
Al-Radaideh et al (2006) menjelaskan dalam risetnya tentang pemanfaatan
data mining terhadap data mahasiswa menggunakan decision tree.
Adeyemo dan Kuye (2006) menjelaskan dalam risetnya untuk memprediksi
kinerja mahasiswa di bidang akademik menggunakan algoritma decision tree.
Dedy Hartama (2011) menjelaskan model aturan keterhubungan data
mahasiswa menggunakan Algoritma C 4.5 untuk meningkatkan indeks prestasi.
2.10. Persamaan dengan Riset-Riset Lain
Kruck dan Lending (2003) dalam penelitiannya menjelaskan sebuah model untuk
memprediksi kinerja di tingkat perguruan tinggi dalam mata kuliah pengantar
sistem informasi.

Universitas Sumatera Utara

Ogor (2007) dalam penelitiannya menggunakan teknik data mining yang


digunakan untuk membangun prototype Penilaian Kinerja Monitoring Sistem
(PAMS) untuk mengevaluasi kinerja mahasiswa.
Sajadin et al (2009) menggunakan teknik data mining dalam pemantauan
dan memprediksi peningkatan prestasi mahasiswa berdasarkan minat, prilaku
belajar, pemanfaatan waktu dan dukungan orang tua di perguruan tinggi.

2.11. Perbedaan dengan Riset-Riset Lain


Dari beberapa riset yang dilakukan peneliti sebelumnya, terdapat beberapa titik
perbedaan dengan riset yang akan dilakukan ini :
Analisa dalam proses pengambilan keputusan dalam melakukan tindakan
preventif terhadap mahasiswa yang cenderung gagal kuliah atau drop-out,
diperlukan sebuah model profil mahasiswa yang dapat menggambarkan situasi ril
mahasiswa tersebut pada saat mengikuti perkuliahan, selanjutnya bagaimana
model ini dapat dijadikan sebagai indikator untuk deteksi dini kondisi mahasiswa
yang cenderung drop-out.
Pada penelitian ini hasil akhir yang diharapkan dengan analisa model
profil mahasiswa dan model prediksi yang diperoleh dari penelitian ini juga dapat
dipergunakan oleh institusi-institusi pendidikan tinggi yang memiliki program
sarjana, sebagai sistem informasi pendukung dalam proses pengambilan
keputusan untuk melakukan tindakan preventif terhadap mahasiswa diploma tiga
yang cenderung drop-out.

Universitas Sumatera Utara

2.12. Kontribusi Riset


Penelitian ini memberikan kontribusi pada pemahaman kita tentang hubungan
para dosen untuk lebih mengenal situasi para mahasiswanya, dan dapat dijadikan
sebagai pengetahuan dini dalam proses pengambilan keputusan untuk tindakan
preventif dalam hal mengantisipasi mahasiswa drop-out, untuk meningkatkan
prestasi mahasiswa, untuk meningkatkan kurikulum, meningkatkan proses
kegiatan belajar dan mengajar

dan banyak lagi keuntungan lain yang bisa

diperoleh dari hasil penambangan data yang telah ditentukan oleh perguruan
tinggi.
Beberapa kemungkinan lain mungkin dianggap penting adalah dosen wali
dapat menggunakan informasi yang diberikan dalam mengambil beberapa
tindakan untuk meningkatkan kinerja mahasiswa dalam meningkatkan predikat
kelulusan.
Pembuat keputusan bisa menggunakan model profil mahasiswa yang
potensial drop out menggunakan Teknik kernel k-mean clustering dan Decision
tree untuk meningkatkan kualitas pengambilan keputusan. Penelitian ini
memperkenalkan aplikasi metode Kernel K-Means Clustering untuk lembaga
pendidikan tinggi

Universitas Sumatera Utara

Anda mungkin juga menyukai