Anda di halaman 1dari 3

Penerapan K-Means Clustering Untuk Analisis per Data Karyawan

Bosowa Group Dengan Menggunakan Weka


Wahyudi Eka Setiawan
P2700214006
1.

PENDAHULUAN

Bosowa Group merupakan salah satu perusahan


swasta nasional yang menjalankan bisnis di 9
(sembilan) sektor dengan lebih dari 40 (empat puluh)
anak perusahaan dan mempekerjakan lebih dari
10.000 (sepuluh ribu) orang karyawan. Dengan
jumlah karyawan begitu besar tentunya akan menjadi
persoalan tersendiri bagi pihak manajemen Bosowa
Corporindo yang merupakan induk dari Bosowa
Group dan khususnya Corporate HR (Human
Resources) dalam pengambilan keputusan terkait
penilaian performa kinerja dan produktivitas
karyawan dilingkup Bosowa Group.
Berangkat dari masalah tersebut penulis mencoba
membuat suatu analisis data karyawan dengan
menggunakan algoritma K-Means dari metode
Clustering dan perangkat lunak data mining yaitu
weka. Penulis memilih algoritma K-Means untuk
pengolahan data karena metode ini merupakan
unsupervised learning juga dari segi kemudahan
implementasi, waktu yang menjalankan pembelajaran
relatif cepat dan mudah diadaptasikan(1). Selain
algoritma K-Means alasan penulis juga menggunakan
perangkat lunak pendukung dalam pengolahan data
mining weka karena tool ini merupakan aplikasi data
mining open source berbasis java dan memiliki
koleksi algoritma machine learning yang dapat
menunjang pengolahan data klasterisasi(2). Adapun
tempat pelaksanaan penelitian di Bosowa Corporindo,
Menara Bosowa lantai 23 Makassar selama 1 (satu)
hari, data yang akan digunakan dalam penelitian ini
bersumber dari wawancara dengan pihak Corporate
HR (Human Resources) dan validasi data.
Penelitian data mining dengan penerapan
algoritma K-Means clustering dan penggunaan
perangkat lunak weka telah banyak dilakukan
sebelumnya oleh beberapa peneliti ataupun akademisi.
Hal ini disebabkan karena penggunaan K-Means
sebagai algoritma clustering terbukti cukup handal
sebagaimana yang diungkapkan pada penelitian Data
clustering: 50 years beyond K-means (Jain, 2009)(3)
dan Top 10 Algorithm in Data Mining (Wu,
2008)(4). Sebagai contoh penelitian data mining
tentang performa kinerja karyawan oleh Adem
Karahoca, Dilek Karahoca, Osman Kaya dari
Bahcesehir University, Engineering Faculty Computer
Engineering Department 34538 Bahcesehir Istanbul,
TURKEY dengan judul DATA MINING TO
CLUSTER HUMAN PERFORMANCE BY
USING
ONLINE
SELF
REGULATING
CLUSTERING METHOD. Dalam penelitian ini
dijelaskan efektivitas SDM sangat penting dan

merupakan isu penting. Prosedur SDM sangat


menekankan
pada
peningkatan
pengambilan
keputusan dalam kaitannya dengan sumber daya
manusia. Sumber daya manusia itu sendiri menjadi
penentu seberapa jauh suatu bisnis dapat ditingkatkan
dan mencapai target. Dalam penelitian ini juga
menyajikan tentang
self-regulating
clustering
algorithm (SRCA) untuk melakukan pencocokan
identifikasi konfigurasi cluster tanpa adanya apriori
pengetahuan tentang kumpulan data yang diberikan.
Contoh lain penelitian data mining yang tidak
berkaitan dengan analisis data karyawan tapi
menggunakan algoritma K-Means clustering yaitu
penelitian yang dilakukan oleh Minky Jindal and
Nisha Kharb dari CSE/IT Department, ITM

University, Sector-23A, Gurgaon, INDIA


dalam International Journal of Information and
Computation Technology, International Research
Publications
House
http://www.irphouse.com
/ijict.htm dengan judul penelitian K-means
Clustering Technique on Search Engine Dataset
using Data Mining Tool. Dalam tulisannya mereka
melakukan penelitian tentang penerapan K-Means
untuk cluster dari dataset yang besar dan membangun
cluster baru untuk optimasi di mesin pencari (search
engine) dengan menggunakan applikasi data mining
weka(5).
2.

TINJAUAN PUSTAKA

Data mining sebagai salah satu cabang ilmu yang


relatif baru mempunyai potensi pengembangan yang
sangat besar dan diprediksi akan menjadi salah satu
yang paling revolusioner pada dekade ini (Larose,
2006)(6). Teknik data mining merupakan sebuah
proses ekstraksi informasi untuk menggali
pengetahuan (knowledge discovery) dan menemukan
pola (pattern recognition) pada tumpukan data dalam
database yang biasanya berskala besar. Fungsi-fungsi
dalam data mining antara lain: fungsi deskripsi, fungsi
estimasi, fungsi Prediksi, fungsi Klasifikasi, fungsi
Clustering dan fungsi asosiasi (Larose, 2005)(7).
Istilah data mining memiliki beberapa padanan seperti
knowledge discovery atau pattern recognition. Istilah
knowledge discovery atau penemuan pengetahuan
digunakan kerena tujuan utama dari data mining
memang untuk mendapatkan pengetahuan yang masih
tersembunyi di dalam bongkahan data. Istilah pattern
recognition atau pengenalan pola pun tepat digunakan
kerena pengetahuan yang hendak digali memang
berbentuk pola-pola yang mungkin juga masih perlu

digali dari dalam bongkahan data yang tengah


dihadapi. (Susanto, 2010)(8).
Clustering adalah studi formal metode dan
algoritma untuk partisi atau pengelompokan. Analisis
clustering tidak menggunakan pelabelan kategori
sebelumnya. Clustering bersifat unsupervised
learning atau tidak mempunyai tahap pelatihan data,
berbeda dengan klasifikasi (Jain, 2009)(3). Clustering
adalah alat penemuan mengungkapkan hubungan dan
struktur di dalam data yang sebelumnya tidak jelas
menjadi pengetahuan yang bermanfaat ketika
ditemukan. Tujuan utama dari metode clustering
adalah pengelompokan sejumlah data / obyek ke
dalam cluster (group) sehingga dalam setiap cluster
akan berisi data yang semirip mungkin. Clustering
adalah metode yang berusaha untuk menempatkan
obyek yang mirip (jaraknya dekat) dalam satu cluster
dan membuat jarak antar cluster sejauh mungkin. Ini
berarti obyek dalam satu cluster sangat mirip satu
sama lain dan berbeda dengan obyek dalam clustercluster yang lain. Clustering digunakan untuk
menganalisis pengelompokkan berbeda terhadap data,
mirip dengan klasifikasi, namun pengelompokkan
belum didefinisikan sebelum dijalankannya tool data
mining. Clustering membagi item menjadi kelompokkelompok berdasarkan yang ditemukan tool data
mining. Prinsip dari clustering adalah memaksimalkan
kesamaan
antar
anggota
satu
kelas
dan
meminimumkan kesamaan antar cluster. Clustering
dapat dilakukan pada data yang memiliki beberapa
atribut yang dipetakan sebagai ruang multidimensi
(Kusnawi, 2007)(9). Ilustrasi dari clustering dapat
dilihat pada Gambar 2.10. Singkatnya, clustering
berusaha untuk menemukan komponen kelompok
secara natural, berdasarkan pada kedekatan data.

Gambar 2.10. Ilustrasi Pengelompokan


Konsep dasar dari algoritma K-means adalah
pencarian pusat cluster (centroid points) secara
iteratif. Pusat cluster ditetapkan berdasarkan jarak
setiap data ke pusat cluster. Proses clustering dimulai
dengan mengidentifikasi data yang akan di-cluster, xij
(i=1,...,n; j=1,...,m) dengan n adalah jumlah data yang
akan di-cluster dan m adalah jumlah variabel. Pada
awal iterasi, pusat setiap cluster ditetapkan secara

bebas (sembarang), ckj (k=1,...,k; j=1,...,m).


Kemudian dihitung jarak antara setiap data dengan
setiap pusat cluster. Untuk melakukan penghitungan
jarak data ke-i (xi) pada pusat cluster ke-k (ck), diberi

nama (dik), dapat digunakan formula Euclidean,


dipersamaan (1)yaitu:
Suatu data akan menjadi anggota dari cluster ke-j
apabila jarak data tersebut ke pusat cluster ke-j
bernilai paling kecil jika dibandingkan dengan jarak
ke pusat cluster lainnya. (2) Selanjutnya,
kelompokkan data-data yang menjadi anggota pada
setiap cluster.

Nilai pusat cluster yang baru dapat dihitung


dengan cara mencari nilai rata-rata dari data-data yang
menjadi anggota pada cluster tersebut, dengan rumus
(3):

K-means merupakan salah satu algoritma


clustering(10). Tujuan algoritma ini yaitu untuk
membagi data menjadi beberapa kelompok. Algoritma
ini menerima masukan berupa data tanpa label kelas.
Hal ini berbeda dengan supervised learning yang
menerima masukan berupa vektor (x1 , y1) , (x2 , y2) ,
, (xi , yi), di mana xi merupakan data dari suatu data
pelatihan dan yi merupakan label kelas untuk xi (11).
Pada algoritma pembelajaran ini, komputer
mengelompokkan sendiri data-data yang menjadi
masukannya tanpa mengetahui terlebih dulu target
kelasnya(12). Pembelajaran ini termasuk dalam
unsupervised learning. Masukan yang diterima adalah
data atau objek dan k buah kelompok (cluster) yang
diinginkan. Algoritma ini akan mengelompokkan
data atau objek ke dalam k buah kelompok tersebut.
Pada setiap cluster terdapat titik pusat (centroid) yang
merepresentasikan cluster tersebut.
K-means ditemukan oleh beberapa orang yaitu
Lloyd (1957, 1982), Forgey (1965) , Friedman and
Rubin (1967) , and McQueen (1967) (10). Ide dari
clustering pertama kali ditemukan oleh Lloyd pada
tahun 1957, namun hal tersebut baru dipublikasi pada
tahun 1982. Pada tahun 1965, Forgey juga
mempublikasi teknik yang sama sehingga terkadang
dikenal sebagai Lloyd-Forgy pada beberapa sumber.

Algoritma untuk melakukan K-Means clustering


adalah sebagai berikut(11):
1. Pilih K buah titik centroid secara acak
2. Kelompokkan data sehingga terbentuk K buah
cluster dengan titik centroid dari setiap cluster
merupakan titik centroid yang telah dipilih
sebelumnya.
3. Perbaharui nilai titik centroid
4. Ulangi langkah 2 dan 3 sampai nilai dari titik
centroid tidak lagi berubah
Proses pengelompokkan data ke dalam suatu cluster
dapat dilakukan dengan cara menghitung jarak
terdekat dari suatu data ke sebuah titik centroid.
Perhitungan jarak Minkowski dapat digunakan untuk
menghitung jarak antar 2 buah data. Rumus untuk
menghitung jarak tersebut adalah(12):
Di mana:
g = 1, untuk menghitung jarak Manhattan
g = 2, untuk menghitung jarak Euclidean
g = , untuk menghitung jarak Chebychev
xi , xj adalah dua buah data yang akan
dihitung jaraknya
p = dimensi dari sebuah data
Pembaharuan suatu titik centroid dapat dilakukan
dengan rumus berikut(12):
Di mana:
k = titik centroid dari cluster ke-K
Nk = banyaknya data pada cluster ke-K

xq = data ke-q pada cluster ke-K

3. Daftar Pustaka
(1) http://id.wikipedia.org/wiki/K-means
(2) https://www.scribd.com/doc/49014520/WEK
A
(3) Anil K. Jain; Data clustering: 50 years
beyond K-means, 2009
(4) Xindong Wu; Top 10 Algorithm in Data
Mining , 2008
(5) www.ripublication.com/irph/ijict_spl/04_ijict
v3n6spl.pdf
(6) Daniel T. Larose Ph.D; Data Mining
Methods and Models, 2006
(7) Daniel T. Larose Ph.D; Discovering
Knowledge in Data: An Introduction to Data
Mining, 2005
(8) Dedy Susanto; Pengantar Data Mining
Menggali Pengetahuan Dari Bongkahan
Data, 2010
(9) Kusnawi; Pengantar Solusi Data Mining,
Seminar
Nasional
Teknologi,
Yogyakarta,2007
(10) http://id.wikipedia.org/wiki/K-means

Anda mungkin juga menyukai