Abstrak—Pola penggunaan listrik dari masyarakat pola penggunaan peralatan di masyarakat terhadap daya
merupakan salah satu hal yang penting diketahui oleh yang dipakai. Klasterisasi (clustering) merupakan salah
perusahaan penyedia energi listrik, dengan mengetahui satu algoritma unsupervised learning dimana algoritma
pola yang ada perusahaan dapat menentukan suplai daya
yang tepat agar tidak terjadi pemborosan energi dan
ini menjalankan tugas yaitu menentukan sebuah set
sumber daya, pada paper kali ini penulis akan mencoba objek kedalam grup yang disebut cluster [2].
mengklasterkan pengguna listrik dengan algoritma
unsupervised learning yaitu K-Means clustering dan
B. Batasan Masalah
Hierarchical clustering, setelah dilakukan klasterisasi
dataset yang telah disiapkan, selanjutnya penulis Batasan-batasan yang digunakan dalam paper ini antara
melakukan komparasi dan analisis performa dari kedua lain,
algoritma dan menemukan perbedaan dari kedua 1. Data yang digunakan adalah dataset Household
algoritma yang ada. Electric Power Consumption yang didapat dari
website penyedia dataset online Kaggle.
Kata Kunci— Unsupervised Learning, K-Means,
Hierarchical Clustering, Pola Penggunaan Listrik, Analisis
2. Dari 9 atribut yang terdapat dalam dataset,dipilih
Performa dua atribut pada implementasi ini yaitu
Submetering 1 dan Global Active Power.
3. Metode yang digunakan adalah
I. PENDAHULUAN
a. K-Means Clustering
A. Latar Belakang b. Hierarchical Clustering
4. Implementasi K-Means Clustering dan
Squared euclidean
∑(ai − bi ) 2 (3)
B. K-means Clustering distance i
K-means adalah algoritma pengelompokkan cluster
Manhattan distance
sederhana yang berfungsi untuk mencari banyak K ∑ |ai − bi | 2 (4)
cluster yang tidak tumpang tindih antara satu dengan i
yang lainnya. Pada metode ini, sebuah cluster Maximum distance max |ai − bi | 2 (5)
diasosiasikan dengan satu centroid. Centroid adalah titik
rata-rata dari data yang terdapat dalam suatu cluster. Mahalanobis distance
Secara matematis, perhitungan K-means dapat ditulis √(a − b) S ⊤ −1
(a − b) (6)
pada persamaan 1 sebagai berikut [4]: ,
a·b
K Cosine similarity
||a||·||b||
(7)
min{m },1≤k≤K ∑ ∑ π x dist(x, mk ) (1)
k
k=1 x∈C k
Dalam paper ini, dipilih metode Euclidean distance
untuk mencari nilai dissimilarity tiap data. Nilai
K-Means memiliki kelebihan daripada metode
dissimilarity yang diperoleh kemudian dimasukkan ke
clustering lainnya, yaitu:
dalam satu matriks. Setelah itu dilakukan proses
1. Algoritma lebih sederhana
pengelompokan data yang dilakukan berdasarkan tiga
2. Sangat efisien
metode, yaitu perbandingan jarak terdekat, perbandingan
3. Dapat diimplementasikan ke berbagai macam data
jarak terjauh, dan perbandingan jarak rata-rata dari tiap
3
data. Jenis average linkage, complete linkage, dan single B. Desain Sistem Agglomerative Hierarchical
linkage semua dihitung menggunakan software orange Clustering
dengan menggunakan widget yang sesuai. Kemudian,
hasil clustering yang diperoleh dari metode-metode di
atas dibandingkan. Persamaan dari metode single
linkage, complete linkage, dan average linkage masing
masing ditunjukkan pada persamaan 8-10 [2],
D(X, Y ) = min d(x, y ) (8)
D(X, Y ) = max d(x, y ) (9)
1
D(X, Y ) = nX·nY Σ d(x, y ) (10)
Di mana X dan Y adalah setiap dua set elemen yang
dianggap sebagai cluster, dan d (x, y) menunjukkan
jarak.
Pada Gambar. 1. ditunjukkan cara kerja atau alur Gambar. 3. Diagram Alir K-Means dan Hierarchical Clustering
algoritma K-Means dalam mengklasterkan data yang
sudah kita siapkan.
IV. HASIL UJI COBA DAN ANALISIS
A. Skenario Uji Coba
4
B. Analisis Data
Dari skenario hasil uji coba, pada K-Means diperoleh
nilai jumlah klaster terbaik atau yang paling optimal
berdasarkan silhouette scores tertinggi adalah K = 2
yaitu 0,857 sedangkan pada Hierarchical Clustering,
setelah dilakukan clustering menggunakan metode single
Gambar. 4.d. Silhouette Scores dari K-Means linkage, complete linkage, dan average linkage, metode
single linkage maupun complete linkage menunjukkan
Selanjutnya adalah implementasi algoritma Hierarchical hasil terbaik atau paling optimal, hal ini dilihat
Clustering dengan metode single, average, dan complete berdasarkan dengan Tabel 1. di mana nilai silhouette
linkage, Gambar. 4e. menunjukkan hasil dengan single scores dari silhouette plot yang paling tinggi (0,971091)
linkage, 4f. dengan average linkage, dan 4g. dengan setelah membandingkan ketiga metode diperoleh bahwa
5
single linkage atau complete linkage merupakan yang terlebih dahulu sebelum bisa diklasterisasi sedangkan
paling baik. pada K-Means tidak perlu, visualisasi pada K-Means
dapat dilakukan dengan scatter plot, pada Hierarchical
V. KESIMPULAN clustering dilakukan dengan dendogram.
Berdasarkan hasil yang diperoleh dari implementasi
algoritma K-Means dan Hierarchical Clustering untuk DAFTAR PUSTAKA
data penggunaan listrik diperoleh bahwa pada K-Means [1] A. B. Setyarso, O. Penangsang, R. S. Wibowo, and J. A. R.
jumlah klaster yang optimal adalah K = 2, sehingga Hakim, “PENENTUAN DAYA REAKTIF UNTUK
PERBAIKAN KUALITAS DAYA BERDASARKAN
diperoleh dua klaster dari pola penggunaan listrik, pada VOLTAGE STATE ESTIMATION PADA JARINGAN
Hierarchical Clustering diperoleh bahwa metode single DISTRIBUSI RADIAL 20 KV DI SURABAYA,” vol. 1, no. 1,
linkage dan complete linkage merupakan yang paling p. 6, 2013.
[2] K. Sasirekha and P. Baby, “Agglomerative Hierarchical
optimal untuk dataset yang ada, didapatkan juga Clustering Algorithm- A Review,” vol. 3, no. 3, p. 3, 2013.
perbedaan mendasar dari algoritma K-Means dan [3] L. Kaufman and P. J. Rousseeuw, Finding groups in data: an
Hierarchical Clustering ada tiga yaitu K-Means introduction to cluster analysis. Hoboken, NJ: Wiley, 2005.
[4] J. Wu, Advances in K-means Clustering. Berlin, Heidelberg:
Clustering membutuhkan dua fitur atau dua variabel data
Springer Berlin Heidelberg, 2012.
untuk dilakukan klasterisasi sedangkan pada [5] J. Demšar and B. Zupan, “Orange: Data Mining Fruitful and Fun
Hierarchical Clustering hanya membutuhkan satu - A Historical Perspective,” p. 6.
variabel untuk dilakukan klasterisasi, pada Hierarchical
Clustering data harus dirubah ke data jarak/similaritas