Anda di halaman 1dari 5

Prosiding Seminar Nasional Ilmu Komputer 2014

ISBN:XXXX

Data Mining Untuk Analisis Pola Penggunaan Internet


Menggunakan Metode Clustering
Yudi Wahyu W, Program Studi Teknik Elektro, and Third C. Author
Abstrak1 Pada saat ini dimana sistem informasi
dan data semakin berkembang dikenal dengan adanya
teknik aplikasi data mining untuk melakukan
pengolahan data sehingga akan diperoleh pola. Data
clustering diperlukan agar mendapatkan suatu
pengetahuan (knowledge discovery) tentang pola
(pattern recognition) pelaksanaan sistem informasi
berupa internet pada perguruan tinggi. Banyak
metode dalam data mining salah satunya adalah
teknik clustering yaitu dimana proses pengelompokan
beberapa data ke dalam cluster dan didalam cluster
akan terdapat data yang mirip dan berbeda dengan
obyek dalam suatu cluster lainnya. Didalam cluster
ada dua metode yaitu hierarki dan partisi dengan
menggabungkan
keduanya
diharapkan
dapat
menghasilkan hasil yang baik. Dari data problem
yang ada akan diperoleh pola penggunaan internet
dalam suatu komputer.
Keywordscluster, data mininig, pengolahan data
internet

1. PENDAHULUAN

emasuki
era sistem informasi.
penggunaan internet bukanlah hal
yang baru. Perkembangan teknologi yang
semakin pesat terus bermunculan menggantikan
teknologi yang sebelumnya. Teknologi yang
baru terus dapat dirasakan manfaatnya untuk
mengatasi segala permasalahan yang ada untuk
memtu proses kerja manusia . Namun yang
menjadi permasalahan justru fokus pada cara
mengolah dan mengoperasikan teknologi
tersebut.
Sumber daya manusia yang berkualitas sangat
diperlukan untuk menunjang perkembangan
teknologi yang ada. Salah satu cara untuk
meningkatkan jumlah sumber daya manusia yang
berkualitas ini tentunya dengan cara kerja yang
lebih produktif.Data mining merupakan suatu
proses untuk memperoleh nilai dari sebuah data
yang kurang di pelajari lebih lanjut.
Dalam hal ini funsi utamanya adalah dengan
melakukan pembelajaran, pembuatan rangkuman,
1

First1 Last1 Name, Institusi Anda, Alamat, Kota (e-mail).


Ida Maratul Khamidah, Program Studi S2 Ilmu Komputer,
FMIPA UGM, Jl. Sekip Utara, Sleman, Yogyakarta,
(yudeztyra@gmail.com)

pemodelan, dan pedeteksian yang secara


keseluruhan berdasarkan data yang tersedia.
Permasalahan yang dihadapi adalah bagaimana
penggunaan akses internet dalam suatu komputer
sehingga komputer akan bekerja secara
maksimal. Bnyak pengguna yang menggunakan
akses internet pada suatu komputer, tetapi tidak
paham
dalam
mengorganisir
pemakaian
internet.sehingga akan menimbulkan kurang
maksimalnya proses dalam komputer.[1]
Adapun tujuan dari penelitian ini adalah untuk
melihat cluster dalam suatu komputer yang
terhubung dengan akses internet. Dari analisis
tersebut dapat diketahui pola lalu lintas
penggunaan internet yang terjadi dalam komputer
tersebut [2]. Oleh karenan itu yang menjadi
pertanyyan
dalam penelitian ini adalah
bagaimana mengetahui mengidentifikasi dan
analisis terhadap karakteristik penggunaan
internet sehingga akan diperoleh data yang dapag
memaksimalkan penggunaan komputer dan akses
internet.

Gambar 1. Ide dasar data mining pada perguruan tinggi


(Delavari, 2008).

2. METODE PENELITIAN
Pada bagian metodologi penelitian ini akan
diuraikan sumber dari teknik data mining seperti
langkah-langkah sistematis dan terarah dalam
menganalisis cluster yang akan dijadikan acuan
sebagai kerangka penelitian penentuan kemiripan
atau membandingkan pencarian pola penggunaan
internet.[3] Dengan menggunakan kombinasi
semua metode K-means sehingga dapat diketahui
metode manakah yang menghasilkan hasil cluster
yang terbaik.[4][5] Penelitian ini menggunakan
583 data internet yang telah studi di satu unit
komputer yang terkoneksi dengan akses internet.
[6] Pengolahan data dirancang aplikasi yang
berbasis tipe data model *arff serta menggunakan
weka versi 3.6.10 untuk melakukan clustering.

Prosiding Seminar Nasional Ilmu Komputer 2013


ISBN:XXXX

Langkah-langkah
yang
dilakukan
dalam
penelitian ini secara singkat dapat dilihat pada
Gambar 2

2. Sebuah cluster yang didalamnya terdapat poin


poin yang dipunyai semua cluster didalamnya.
Single cluster ini berada di level yang paling atas.

Hasil keseluruhan dari algoritma hierarchical


clustering secara grafik dapat digambarkan
sebagai tree, yang disebut dengan dendogram.
Tree ini secara grafik menggambarkan proses
penggabungan dari cluster cluster yang ada,
sehingga menghasilkan cluster dengan level yang
lebih tinggi.

Gambar 2.Alur penelitian

2.1. Tahap Pengolahan Data Kedalam Metadata


Dari data yang diperoleh yang dapat
digunakan untuk melakukan analisis clustering
untuk mendapatkan pola nantinya digunakan
untuk tahap selanjutnya.dengan menggunakan
metode document clustering.[7] Dalam penelitian
ini digunakan algoritma document clustering
sederhana karena domain teks yang akan dibawa
kedalam suatu cluster bersifat spesifik, yaitu
penentuan data antara dosen dan mahasiswa.
Sehingga keywords yang akan digunakan dalam
metadata dapat ditentukan secara manual oleh
peneliti.
2.2. Tahap Clustering
Harap Kategori algoritma clustering yang
banyak dikenal adalah Hierarchical Clustering.
[8] Hierarchical Clustering adalah salah satu
algoritma clustering yang dapat digunakan untuk
meng-cluster dokumen (document clustering). [9]
Dari teknik hierarchical clustering, dapat
dihasilkan suatu kumpulan partisi yang
berurutan, dimana dalam kumpulan tersebut
terdapat:
1. Cluster cluster yang mempunyai poin poin
individu. Cluster cluster ini berada di level yang
paling bawah.

Dalam teknik multivariat lain proses analisis


cluster dijelaskan dalam enam tahap antara lain:
Tahap Pertama : Tujuan Analisis Cluster
Tujuan utama analisis cluster adalah
mempartisi suatu set objek menjadi dua
kelompok atau lebih berdasarkan kesamaan
karakteristik khusus yang dimilikinya yaitu :
A.
Deskripsi
klasifikasi
(taxonomy
description)
Penerapan analisis cluster secara tradisisonal
bertujuan mengeksplorasi dan membentuk suatu
klasisfikasi/taksonomi
secara
empiris.[10]
Karena kemampuan partisinya analisis cluster
dapat diterapkan secara luas. Meskipun secara
empiris merupakan teknik eksplorasi analisis
cluster dapat pula digunakan untuk tujuan
konfirmasi.
1. Penyederhanaan Data
Merupakan bagian dari suatu taksonomi.
Dengan struktur yang terbatas observasi/objek
dapat dikelompokkan untuk analisis selanjutnya.
2. Identifikasi Hubungan (Relationship
Identification)
Hubungan antar objek diidentifikasi secara
empiris. Struktur analisis cluster yang sederhana
dapat menggambarkan adanya hubungan atau
kesamaan dan perbedaan yang tidak dinyatakan
sebelumnya.
Tujuan analisis cluster tidak dapat dipisahkan
dengan pemilihan variabel yang digunakan untuk
menggolongkan objek ke dalam clucter-cluster.
Cluster yang terbentuk merefleksikan struktur
yang melekat pada data seperti yang
didefinisikan oleh variabel-variabel. Pemilihan
variabel harus sesuai dengan teori dan konsep
yang umum digunakan dan harus rasional.[11]
Rasionalitas ini didasarkan pada teori-teori
eksplisit atau penelitian sebelumnya. Variabelvariabel yang dipilih hanyalah variabel yang
dapat
mencirikan
objek
yang
akan

Prosiding Seminar Nasional Ilmu Komputer 2014


ISBN:XXXX

dikelompokkan dan secara spesifik harus sesuai


dengan tujuan analisis cluster.
Tahap Kedua : Desain Penelitian dalam
Analisis Cluster
Tiga hal penting dalam tahap ini adalah
pendeteksian outlier, mengukur kesamaan, dan
standarisasi data.
1. Pendeteksian Outlier
Outlier adalah suatu objek yang sangat
berbeda dengan objek lainnya. Outlier dapat
digambarkan sebagai observasi yang secara nyata
kebiasaan, tidak mewakili populasi umum, dan
adanya undersampling dapat pula memunculkan
outlier. Outlier menyebabkan menyebabkan
struktur yang tidak benar dan cluster yang
terbentuk menjadi tidak representatif.
2. Mengukur Kesamaan antar Objek
Konsep kesamaan adalah hal yang
fundamental dalam analisis cluster. Kesamaan
antar objek merupakan ukuran korespondensi
antar objek. Ada tiga metode yang dapat
diterapkan, yaitu ukuran korelasi, ukuran jarak,
dan ukuran asosiasi.
2.1 Ukuran Korelasi
Ukuran ini dapat diterapkan pada data
dengan skala metrik, namun jarang digunakan
karena titik bertnya pada nilai suatu pola tertentu,
padahal tisik berat analisis cluster adalah
besarnya objek. Kesamaan antar objek dapat
dilihat dari koefisien korelasi antar pasangan
objek yang diukur dengan beberapa variabel.
2.2 Ukuran Jarak
Merupakan ukuran yang paling sering
digunakan. Diterapkan untuk data berskala
metrik.
Sebenarnya
merupakan
ukuran
ketidakmiripan, dimana jarak yang besar
menunjukkan sedikit kesamaan sebaliknya jarak
yang pendek/kesil menunjukkan bahwa suatu
objek makin mirip dengan objek lain. Bedanya
dengan ukuran korelasi adalah bnahwa ukuran
jarak fokusnya pada besarnya nilai. Cluster
berdasarkan ukuran korelasi bisa saja tidak
memiliki kesamaan nilai tapi memiliki kesamaan
pola, sedangkan cluster dberdasrkan ukuran jarak
lebih memiliki kesamaan nilai meskipun polanya
berbeda.
2.3 Ukuran Asosiasi

Ukuran asosiasi dipakai untuk mengukur data


berskala nonmetrik (nominal atau ordinal).
3. Standarisasi Data
a. Standarisasi Variabel
Bentuk paling umum dalam standarisasi
variabel adalah konversi setiap variabel terhadap
skor standar ( dikenal dengan Z score) dengan
melakukan substraksi nilai tengan dan
membaginyadengan standar deviasi tiap variabel.
b. Standarisasi Data
Berbeda dengan standarisasi variabel,
standarisasi
ndata
dilakukan
terhadap
observasi/objek yang akan dikelompokkan.
Tahap Ketiga : Asumsi-asumsi dalam
Analisis Cluster
Seperti hal teknik analisis lain,analisis cluster
juga menetapkan adanya suatu asumsi. Ada dua
asumsi dalam analisis cluster, yaitu :
1. Kecukupan
Sampel
untuk
merepresentasikan / mewakili populasi.
Biasanya suatu penelitian dilakukan terhadap
populasi diwakili oleh sekelompok sampel.
Sampel yang digunakan dalam analisis ckuster
harus dapat mewakili populasi yang ingin
dijelaskan, karena analisis ini baik jika sampel
representatif. Jumlah sampel yang diambil
tergantung penelitinya, seorang peneliti harus
yakin bahwa sampil yang diambil representatif
terhadap populasi.
2. Pengaruh Multukolinieritas
Ada atau tidaknya multikolinieritas antar
variabel sangat diperhatikan dalam analisis
cluster karena hal itu berpengaruh, sehingga
variabel-variabel yang bersifat multikolinieritas
secara eksplisit dieprtimbangkan dengan lebih
seksama.
Tahap Keempat : Proses Mendapatkan
Cluster dan Menilai kelayakan
secara
keseluruhan.
Ada dua proses penting yaitu algoritma
cluster dalam pembentukan cluster dan
menentukan jumlah cluster yang akan dibentuk.
Keduanya mempunyai implikasi substansial tidak
hanya pada hasil yang diperoleh tetapi juga pada
interpretasi yang akan dilakukan terhadap hasil
tersebut.

Prosiding Seminar Nasional Ilmu Komputer 2013


ISBN:XXXX

Tahap Kelima : Interpretasi terhadap Cluster


Tahap interpretasi meliputi pengujian tiap
cluster dalam term untuk menamai dan menandai
dengan suatu label yang secara akurat dapat
menjelaskan kealamian cluster. Proses ini dimulai
dengan suatu ukuran yang sering digunakan yaitu
centroid cluster.
Membuat profil dan interpretasi cluster tidak
hanya tidak hanya untuk memoeroleh suatu
gambaran saja melainkan pertama, menyediakan
suatu rata-rata untuk menilai korespondensi pada
cluster yang terbentuk, kedua, profil cluster
memberikan araha bagi penilainan terhadap
signifikansi praktis.
Tahap Keenam: Proses Validasi dan
Pembuatan Profil (PROFILING) Cluster
1. Proses validasi solusi cluster
Proses validasi bertujuan menjamin bahwa
solusi yang dihasilkan dari analisis cluster dapat
mewakili populasi dan dapat digeneralisasi untuk
objek lain. Pendekatan ini membandingkan solusi
cluster dan menilai korespondensi hasil.
Terkadang tidak dapat dipraktekkan karena
adanya kendala waktu dan biaya atau
ketidaktersediaan ibjek untuk analisis cluster
ganda.
2. Pembuatan Profil ( PROFILING) Solusi
Cluster
Tahap ini menggambarkan karakteristik tiap
cluster untuk menjelaskan cluster-cluster tersebut
dapat dapat berbeda pada dimensi yang relevan.
Titik beratnta pada karakteristik yang secara
signifikan berbeda antar clustre dan memprediksi
anggota dalam suatu cluster khusus.
Secara keseluruhan proses analisis cluster
berakhir setelah keenam tahap ini dilalui. Hasil
analisis cluster dapat digunakan untuk berbagai
kepentingan sesuai dengan materi yang
dianalisis.
3. HASIL DAN PEMBAHASAN
Analisa klaster bisa diperoleh dari kepadatan
klaster yang dibentuk (cluster density). Proses
cluster dibagi menjadi 4 cluster. Algoritma yang
diguakan adalah Simple Kmeans, dan
menghasilkan data sebagai berikut

Table 1 cluster Centroid Kmeans

sedang kan untuk tampilan


menghasilkan data sebagai berikut:

clusternya

Gambar 3. Tampilan visual setelah


clustering
Dari gambar yang dihasilkan dari proses
clustering. Disimpulkan bahwa semakin sering
aktifitas yang dilakukan dalam penggunaan akses
computer yang tehubung dengan internet, maka
akan menghasilkan proses tukar data yang
banyak juga.
Untuk kesimpulan banyaknya data yang
terdapat setiap cluster adalah sebagai berikut dari
total data sebanyak 583.
Tabel 2. Hasil K-Means Clustering
Cluster 0

Cluster 1

Cluster 2

Cluster 3

8 data

519 data

47 data

9 data

Dari table 2 disimpulkan bahwa proses data


banyak terjadi pada cluster 1 yaitu sebanyak 519
data, hal ini terjadi karena dalam aktivitas
computer tersebut yang terhubung dengan
internet secara cepat dan banyak data yang saling
mengirim dan menerima.
4. KESIMPULAN

Prosiding Seminar Nasional Ilmu Komputer 2014


ISBN:XXXX

1. Semakain banyak proses aktivitas yang di


lakukan dalam computer yang terhubung
internet. Maka akan menhasilkan proses
tukar data yang banyak pula.
2. Data mining sendiri sering disebut sebagai
knowledge discovery in database (KDD)
adalah kegiatan yang meliputi pengumpulan
pemakaian data historis untuk menemukan
keteraturan, pola hubungan dalam set data
berukuran besar. Output dari data mining ini
dapat
digunakan
untuk
pengambilan
keputusan di masa depan.
3. Metode clustering sangat efektif dan efisien
dalam pemrosesan datanya
sehingga
mempermudah medapatkan hasilnya .
5. SARAN
Penelitian ini mendapatkan jumlanya data
tiap cluster. Diharapkan pada penelitian
berikutnya ledih detail dalam pembagian data.
Ucapan Terima kasih
Penulis mengucapkan terima kasih kepada
Universitas Gadjah Mada yang telah memberikan
fasilitas untuk melakukan penelitian ini.
DAFTAR PUSTAKA
[1] Castleman, Laleh Arshadi, Amir Hossein Jahangir."Benford's
law behavior of internet traffic". Journal of Network and
Computer Applications.2013
[2] Zainuddin Zaslina "Pola Pemanfaatan Internet oleh Mahasiswa
Program Magister Ilmu Hukum Program Pascasarjana
Universita Sumatra Utara".pustaha: Jurnal Studi
Perpustakaan dan Informasi, Vol.2, No.1, Juni 2006
[3] Shu-Hsien Liao, Pei-Hui Chu, Pei-Yuan Hsiao. "Data mining
techniques and applications A decade review from
2000 to 2011".Expert Systems with Applications 39
(2012)
[4] Tahta Alfina, Budi Santosa, dan Ali Ridho Barakbah."Analisa
Perbandingan Metode Hierarchical Clustering, K-means
dan Gabungan Keduanya dalam Cluster Data (Studi
kasus : Problem Kerja Praktek Jurusan Teknik Industri
ITS)".JURNAL TEKNIK ITS Vol. 1, (Sept, 2012) ISSN:
2301-9271
[5] Lindawati".
DATA
MINING
DENGAN
TEKNIK
CLUSTERING DALAM PENGKLASIFIKASIAN
DATA MAHASISWA STUDI KASUS PREDIKSI
LAMA STUDI MAHASISWA UNIVERSITAS BINA
NUSANTARA".Seminar Nasional Informatika 2008
(semnasIF 2008) ISSN: 1979-2328 UPN Veteran
Yogyakarta, 24 Mei 2008
[6] Raymond T. Ng,Jiawei Hany."Effocient and Effective
Clustering Methods for Spatial Data Mining".IEEE
TRANSACTIONS ON KNOWLEDGE AND DATA
ENGINEERING,
VOL.
14,
NO.
5,
SEPTEMBER/OCTOBER 2002
[7] Naeimeh DELAVARI, Somnuk PHON-AMNUAISUK."Data
Mining
Application
in
Higher
Learning

Institutions".Informatics in Education, 2008, Vol. 7, No.


1, 3154
[8] Kohei Arai* and Ali Ridho Barakbah,"Hierarchical K-means:
an algorithm for centroids initialization for Kmeans".Reports of the Faculty of Science and
Engineering, Saga University, Vol. 36, No.1, 2007
[9] Dake Zhanga, Kang Jianga,"Application of Data Mining
Techniques in the Analysis of Fire Incidents".Procedia
Engineering 43 ( 2012 ) 250 256
[10] Luca Cagliero, Paolo Garza."Improving classification models
with taxonomy information".Data & Knowledge
Engineering 86 (2013) 85101
[11]Steven Lonn a, Stephanie D. Teasley b, Andrew E.
Krummc."Who needs to do what where?: Using learning
management systems on residential vs. commuter
campuses".Computers & Education 56 (2011) 642649