ABSTRACT
Development of technology and information systems use data mining as a method of data
processing is growing, due to the large amount of data available and growing every day, especially
economy, health, and education data. One of the benefits that can be obtained by applying information
technology, among others, is to conduct the analysis and clustering of large amounts of data. The human
development index (IPM) is a factor of public welfare measurement in Indonesia, but quite difficult to
analyze because there has not been a proper measurement clustering method for cluster the data (IPM) in
the future. This research aims to make it easier to read the data and classifying data by using K-Means.
With the aim of obtaining the results of the cluster so as to facilitate reading the index.
Key Words : Clustering, Human Development Index, Data Mining, K-Means, Rapidminer.
13
Jurnal Informatika dan Bisnis
14
Jurnal Informatika dan Bisnis
tentunya muncul berbagai kendala yang Menurut [12], sistem informasi memiliki
dihadapi, seperti kesulitan dalam membaca data empat komponen penting, antara lain
dan mengetahui kabupaten apa saja yang sebagai berikut:
memiliki nilai IPM yang tertinggi maupun
terendah karena data tidak praktis. Disamping 1. Manusia
itu, data dalam bentuk tabel memberikan Membuat rancangan, mengembangkan,
informasi yang kurang informatif, sehingga menjalankan, dan perawatan sistem
kesulitan dalam membaca data secara spesifik informasi apa pun yang melibatkan
karena jumlah data yang sangat banyak. Kendala berbagai kelompok atau tim kerja.
lain yang muncul yaitu belum ada metode 2. Teknologi
klasterisasi (clustering) dari BPS dalam mem- Terdiri dari hardware, software, dan
visualisasikan data IPM per kabupaten di telekomunikasi.
Indonesia ke dalam bentuk grafik maupun 3. Data
diagram. Merupakan keunggulan bagi setiap
sistem informasi, dan merupakan fakta
Oleh karena itu, dalam penelitian tugas akhir mentah yang dapat menggambarkan diri
ini penulis melakukan penelitian dengan cara mereka dalam berbagai macam rupa dan
segmentasi atau klasterisasi (clustering) bentuk.
terhadap Indeks Pembangunan Manusia (IPM) 4. Proses
per kabupaten di Indonesia dengan Sekumpulan aktivitas atau kegiatan
menggunakan algoritma K-Means untuk perancangan untuk menyelesaikan suatu
mengelompokkan tingkat IPM ke dalam bentuk pekerjaan.
data gambar berupa grafik maupun diagram
serta memberikan penjelasan secara informatif
serta mengetahui tingkat IPM dengan mudah. 2.2. Data
Data dapat diterjemahkan sebagai aliran
fakta mentah yang mewakili peristiwa yang
2. LANDASAN TEORI terjadi dalam organisasi atau lingkungan
2.1. Sistem Informasi fisik sebelum diatur dan disusun menjadi
bentuk yang dapat dipahami dan digunakan
Sistem informasi dapat didefinisikan [5].
kombinasi teratur apa pun dari orang-orang,
hardware, software, jaringan komunikasi, 2.3. Database
dan sumber daya data yang mengumpulkan, Database adalah kumpulan terintegrasi
mengubah, dan menyebarkan informasi dari elemen data yang secara logika saling
dalam sebuah organisasi [9]. Pendapat lain berhubungan [9]. Pendapat lain
mengatakan bahwa sistem informasi dapat mengemukakan database merupakan
didefinisikan secara teknis sebagai satu kumpulan informasi yang terintegrasi yang
kumpulan komponen yang mengumpulkan secara logika saling berhubungan dan
(atau mengambil), memproses, menyimpan, disimpan dengan cara seperti meminimalkan
dan mendistribusikan informasi untuk duplikasi dan memberi kemudahan
mendukung pengambilan keputusan dan pencarian keterangan yang cepat [12].
pengendalian dalam suatu organisasi [5].
Pendapat lain mengemukakan sistem 2.4. Data Mining
informasi merupakan suatu sistem yang
Data mining adalah penggunaan utama
membawa empat komponen penting
dari database dalam data warehouse. Dalam
bersama-sama untuk mengumpulkan,
data mining, data di suatu data warehouse
memproses, mengatur, menganalisa, dan
dianalisis untuk mengungkapkan pola dan
menyalurkan informasi [12].
tren tersembunyi dalam aktivitas bisnis yang
telah lewat [9]. Pendapat lain mengatakan
15
Jurnal Informatika dan Bisnis
16
Jurnal Informatika dan Bisnis
2. Data Understanding (pemahaman data): dari atribut dalam suatu kumpulan data, dan
Tahap pemahaman dan pengumpulan mengelompokkan mereka bersama-sama
data yang dibutuhkan untuk sebelum berdasarkan pada kesamaan atribut-atribut
dilakukan persiapan untuk analisa. Pada tersebut pada rata-rata kelompok. Karena
tahap ini data yang dikumpulkan harus atribut apa pun dapat diukur serta dapat
merupakan data yang tepat digunakan memiliki perhitungan mean, k-Means
untuk proses penelitian dan mewakili clustering memberikan cara yang efektif
masalah yang akan diselesaikan serta dalam mengelompokkan pengamatan
sesuai dengan kebutuhan dan bersama-sama berdasarkan pada jenis
kepentingan. kelompok tersebut. Juga dapat membantu
3. Data Preparation (persiapan data): kita memahami dimana suatu kelompok
Tahap persiapan dan seleksi data yang memulai dan yang lainnya berhenti dalam
telah dikumpulkan dan diubah menjadi proses yang terjadi di antara kelompok
bentuk yang dapat diolah dalam model dalam kumpulan data.
yang ditentukan selanjutnya.
4. Modeling (pemodelan): Proses analisa K-Means clustering sangat fleksibel
dan pemodelan data yang telah dalam kemampuannya mengelompokkan
disiapkan dimana dalam hal ini pengamatan bersama-sama. Juga
dilakukan penerapan atau penghitungan mengijinkan pengguna untuk mengatur
berdasarkan algoritma atau metode yang jumlah cluster yang mereka inginkan untuk
ditentukan untuk mendapatkan hasil menghasilkan, menentukan jumlah sampel
yang diinginkan sesuai dengan mean yang digunakan untuk menentukan
kebutuhan pengguna dan melakukan cluster, dan menggunakan sejumlah
representasi pemecahan masalah. algoritma yang berbeda-beda untuk
5. Evaluation (evaluasi): Melakukan mengevaluasi mean. Disamping pengaturan
analisa dan evaluasi dari hasil model dan definisinya yang sederhana, k-Means
yang telah dibuat apakah sudah sesuai clustering merupakan metode yang kuat
standar dan telah memecahkan masalah untuk menemukan kelompok alami dari
atau memenuhi kebutuhan dari pengamatan di dalam suatu kumpulan data.
pengguna.
6. Deployment (penerapan): Tahap
penerapan hasil dari model yang telah 3. METODOLOGI PENELITIAN
dievaluasi dan dianalisa untuk kemudian
dijadikan bentuk yang dapat diolah 3.1. Teknik Pengumpulan Data
kembali. Dalam penelitian ini, data yang
digunakan adalah data sekunder dari indeks
pembangunan manusia per kabupaten di
Indonesia yang diambil dari
http://data.go.id/ berdasarkan survei dan
pendataan yang dilakukan oleh Badan Pusat
Statistik (BPS).
Dalam pengumpulan data, penulis
menggunakan metode kuantitatif. Metode
Gambar 1. Tahapan Data Mining kuantitatif yaitu penelitian ilmiah yang
(CRISP-DM) sistematis terhadap bagian-bagian dan
fenomena serta hubungan-hubungannya.
2.7. K-Means Tujuan penelitian kuantitatif adalah
Menurut [1], k-means clustering adalah mengembangkan model-model matematis,
teori-teori dan/atau hipotesis yang berkaitan
model data mining yang mirip dengan
klasifikasi. Dengan mengetahui indikator dengan fenomena alam. Proses pengukuran
17
Jurnal Informatika dan Bisnis
adalah bagian yang sentral dalam penelitian c. Data Preparation: Tahap persiapan dan
kuantitatif karena hal ini memberikan seleksi data yang telah dikumpulkan dan
hubungan yang fundamental antara diubah menjadi bentuk yang dapat
pengamatan empiris dan ekspresi matematis diolah dalam model yang ditentukan
dari hubungan-hubungan kuantitatif. selanjutnya.
Menurut [7], metode kuantitatif d. Modeling: Proses analisa dan pemodelan
didefinisikan sebagai penelitian yang data yang telah disiapkan dimana dalam
mengacu pada pengukuran variabel-variabel ini dilakukan penerapan atau
dan pengujian hipotesis-hipotesis. Penelitian penghitungan berdasarkan algoritma
kuantitatif memiliki ciri-ciri sebagai berikut: atau metode yang ditentukan untuk
a. Peneliti menguji hipotesis-hipotesis mendapatkan hasil yang diinginkan
yang sudah ditetapkan diawal. sesuai dengan kebutuhan pengguna dan
b. Konsep berupa variabel yang jelas. melakukan representasi pemecahan
c. Pengukuran secara sistematis masalah.
diciptakan sebelum pengumpulan e. Evaluation: Melakukan analisa dan
data dan telah distandarisasikan. evaluasi dari hasil model yang telah
d. Data berupa angka dari hasil dibuat apakah sudah sesuai standar dan
pengukuran atau perhitungan akurat. telah memecahkan masalah atau
e. Teori merupakan sebab-akibat dan memenuhi kebutuhan dari pengguna.
bersifat menyimpulkan. f. Deployment: Tahap penerapan hasil dari
f. Prosedur penelitian standar, dan model yang telah dievaluasi dan
balasan sering muncul. dianalisa untuk kemudian dijadikan
g. Analisis dilanjutkan menggunakan bentuk yang dapat diolah kembali.
statistik, tabel, atau grafik dan
didiskusikan apakah penelitian
menunjukkan hasil sesuai dengan
hipotesis.
18
Jurnal Informatika dan Bisnis
e. Ulangi langkah ke-3 (c) dan ke-5 (e) pembaca dan pengguna aplikasi untuk
hingga data-data pada tiap cluster memudahkan proses pengujian klasterisasi
menjadi terpusat atau sesuai. Indeks Pembangunan Manusia (IPM)
menggunakan Data Mining dengan
2. Pengukuran Jarak Data Dengan menggunakan algoritma K-Means
Centroid Metode Clustering: Clustering. Perancangan GUI dilakukan
Pengukuran jarak data metode dengan menggunakan aplikasi Microsoft
clustering penulis menggunakan Access 2013.
rumus Euclidean Distance untuk
menghitung jarak data dengan 4.2. Rancangan Basis Data
centroid berdasarkan data yang Berdasarkan data kependudukan yang
digunakan: telah diunduh dari http://data.go.id/ yang
memiliki ekstensi .csv diambil data Angka
Harapan Hidup, Angka Melek Huruf, Lama
Sekolah, Pengeluaran Perkapita dan IPM
(Indeks Pembangunan Manusia) untuk
dilakukan proses klasterisasi dengan aplikasi
d = jarak Rapidminer. Setelah data hasil klasterisasi
j = banyaknya data diperoleh, maka data hasil klasterisasi akan
y = centroid di copy dan di paste ke dalam Microsoft
x = data Excel untuk mengetahui perkembangan IPM
per Kabupaten di Indonesia dari tahun 2004
hingga tahun 2012. Data yang diperoleh
3.4. Teknik Perancangan GUI
dalam tabel Excel akan diimpor ke dalam
tabel Microsoft Access untuk kemudian
Perancangan dan pengembangan GUI
dirancang ke dalam GUI.
akan dilakukan dengan terlebih dahulu
Sebelum implementasi GUI dilakukan,
melakukan pemilahan data sesuai urutan
akan dilakukan proses klasterisasi data
tahun 2004 hingga 2012 menjadi beberapa
untuk memperoleh data klasterisasi dengan
dataset untuk dilakukan proses clustering
menggunakan algoritma K-Means
dalam RapidMiner. Sehingga diperoleh data
Clustering. Penulis menggunakan aplikasi
IPM per tahun dengan menggunakan metode
Rapidminer 5.3 sebagai aplikasi pengolahan
clustering.
dan pengelompokkan data yang dibutuhkan.
Kemudian penulis akan
mengimplementasikan hasil klasterisasi dan
1. Pengujian Data Klasterisasi
analisa tersebut kedalam Microsoft Access
a. Import Dataset (Memasukkan
untuk kemudian melakukan perancangan
Dataset)
GUI sederhana yang didalamnya terdapat
b. Process Building (Membangun
proses penghitungan penyimpangan
Alur Proses)
keakuratan klasterisasi dan menghasilkan
data aktual secara sistematis dan siap 4.3. Implementasi Sistem GUI
diberikan pada pembaca untuk diteliti dan
dipelajari lebih lanjut sesuai dengan metode Setelah data dan pengukuran hasil
yang dilakukan oleh penulis. klasterisasi didapat, tahap selanjutnya adalah
menerapkan data dan hasil analisa tersebut
4. HASIL DAN PEMBAHASAN ke dalam GUI (Graphical User Interface)
untuk memudahkan pembaca melihat hasil
4.1. Rancangan Sistem penelitian yang telah dilakukan.
Perancangan GUI yang dilakukan
Penulis melakukan perancangan sistem
menggunakan aplikasi Microsoft Access
informasi berupa GUI (Graphic User
2013 untuk menghasilkan tampilan GUI
Interface). Rancangan ini dibuat untuk para
19
Jurnal Informatika dan Bisnis
20
Jurnal Informatika dan Bisnis
21
Jurnal Informatika dan Bisnis
22
Jurnal Informatika dan Bisnis
23
Jurnal Informatika dan Bisnis
24
Jurnal Informatika dan Bisnis
Adapun hasil analisis penelitian yang Tinggi : IPM lebih dari 80.0
dilakukan oleh penulis adalah sebagai Menengah Atas : IPM antara 66.0 -
berikut: 79.9
Kategori IPM: Menengah Bawah : IPM antara 50.0 -
Konsep Pembangunan Manusia yang 65.9
dikembangkan oleh Perserikatan Bangsa- Rendah : IPM kurang dari
Bangsa (PBB), menetapkan peringkat 50.0
kinerja pembangunan manusia pada skala
0.0 - 100.0 dengan kategori sebagai berikut:
Hasil analisa data IPM 2004-2012 anggota cluster 1 termasuk golongan rendah,
menunjukkan bahwa hasil penyebaran karena nilai IPM yang dimiliki kurang dari
cluster mengindikasikan anggota cluster 0 50.0, yaitu sebesar 49.5. Untuk melihat
termasuk golongan menengah atas, karena anggota cluster data IPM 2004-2012, dapat
nilai IPM yang dimiliki diantara 66.0 hingga dilihat pada tampilan report anggota cluster
79.9, yaitu sebesar 74.036. Sedangkan IPM 2004-2012 berikut.
25
Jurnal Informatika dan Bisnis
26
Jurnal Informatika dan Bisnis
27
Jurnal Informatika dan Bisnis
28
Jurnal Informatika dan Bisnis
Clustering selain yang digunakan oleh [4] Lakshmi, K.R. dan S. Prem Kumar (2013),
penulis untuk memperoleh hasil cluster Utilization of Data Mining Techniques for
yang optimal. Prediction of Diabetes Disease
Survivability, International Journal of
3. Rancangan GUI yang dibuat oleh Scientific & Engineering Research, Vol. 4,
penulis sengaja dibuat secara sederhana, Issue 6.
agar mudah dipahami dan digunakan
oleh setiap user, dan juga memakan [5] Laudon, Kenneth C. dan Jane P. Laudon
waktu yang relatif singkat karena (2012), Management Information Systems:
implementasi algoritma dilakukan Managing the Digital Firm, Edisi ke-12,
dengan segera. Apabila merasa kurang New Jersey: Pearson Prentice Hall.
berkenan mengenai rancangan GUI yang
telah dibuat oleh penulis, maka dapat [6] Madhulatha, T. Soni (2012), An Overview
dikembangkan atau ditambahkan sesuai on Clustering Methods, IOSR Journal of
dengan kebutuhan dan keinginan Engineering, Vol. 2(4) pp: 719-725.
pengembang selanjutnya agar tampilan
GUI dapat lebih diperbaiki. [7] Neuman, W. Lawrence (2014), Social
Research Methods: Qualitative and
4. Data yang digunakan oleh penulis hanya Quantitative Approaches, Edisi ke-7,
terbatas data IPM hingga tahun 2012 Harlow: Pearson Education Limited.
saja, maka disarankan bagi peneliti
selanjutnya dapat menambahkan data [8] Nurul Afifah (2014), Skripsi: Clustering
IPM beberapa tahun kedepan agar Data Indeks Pembangunan Manusia (IPM)
informasi mengenai Indeks Pulau Jawa Menggunakan Algoritma ST-
Pembangunan Manusia (IPM) semakin DBSCAN dan Bahasa Pemrograman R,
diperbaharui serta dapat menggunakan Bogor Agricultural University, Bogor.
metode klasterisasi yang lebih efektif
agar hasil yang diperoleh semakin [9] O’Brien, James A. dan George M. Marakas
kompleks dan optimal. (2010), Introduction to Information
Systems, Edisi ke-15, New York: McGraw-
7. DAFTAR REFERENSI Hill/Irwin.
[1] A. North, Matthew (2012), Data Mining for [10] Sofi Defiyanti dan Mohamad Jajuli (2015),
the Masses, Edisi ke-1, Georgia: Global “Integrasi Metode Klasifikasi Dan
Text Project. Clustering dalam Data Mining”, Konferensi
Nasional Informatika (KNIF).
[2] Abd. Rozak (2012), “Analisis
Pengelompokan (Clustering Analysis) [11] Stanton, Jeffrey dan Robert W. De Graaf
Dengan Metode K-Means Cluster”, Media (2013), Version 3: An Introduction to Data
Kampus: Jurnal Pendidikan, Vol. 7, No. 1, Science, New York: Creative Commons.
STKIP PGRI Jombang, Jombang.
[12] Wallace, Patricia (2015), Introduction to
[3] J. Zaki, Mohammed dan Wagner Meira JR Information Systems, Edisi ke-2, New
(2014), Data Mining and Analysis Jersey: Pearson.
Fundamentals Concepts dan Algorithms,
New York: Cambridge University Press. [13] Ye, Nong (2014), Data Mining: Theories,
Algorithms, and Examples, New York:
CRC Press.
29