Paper Esol

1
Analisis Performa Clustering pada Data Pola

Penggunaan Listrik dengan Menggunakan K-Means
Clustering dan Agglomerative Hierarchical
Clustering
Brilian P. Amiruddin1, Evanbill A. Kore1, Dhiya A. Ulhaq2, dan Auzan W1.
1
Departemen Teknik Elektro, Fakultas Teknologi Elektro dan Informatika Cerdas, Institut Teknologi Sepuluh
Nopember (ITS), Jl. Arief Rahman Hakim Surabaya 60111 Indonesia
2
Departemen Teknik Mesin, Fakultas Teknologi Industri dan Rekayasa Sistem, Institut Teknologi Sepuluh
Nopember (ITS), Jl. Arief Rahman Hakim Surabaya 60111 Indonesia
Abstrak—Pola penggunaan listrik dari masyarakat pola penggunaan peralatan di masyarakat terhadap daya
merupakan salah satu hal yang penting diketahui oleh yang dipakai. Klasterisasi (clustering) merupakan salah
perusahaan penyedia energi listrik, dengan mengetahui satu algoritma unsupervised learning dimana algoritma
pola yang ada perusahaan dapat menentukan suplai daya
yang tepat agar tidak terjadi pemborosan energi dan
ini menjalankan tugas yaitu menentukan sebuah set
sumber daya, pada paper kali ini penulis akan mencoba objek kedalam grup yang disebut cluster [2].
mengklasterkan pengguna listrik dengan algoritma
unsupervised learning yaitu K-Means clustering dan
B. Batasan Masalah
Hierarchical clustering, setelah dilakukan klasterisasi
dataset yang telah disiapkan, selanjutnya penulis Batasan-batasan yang digunakan dalam paper ini antara
melakukan komparasi dan analisis performa dari kedua lain,
algoritma dan menemukan perbedaan dari kedua 1. Data yang digunakan adalah dataset Household
algoritma yang ada. Electric Power Consumption yang didapat dari
website penyedia dataset online Kaggle.
Kata Kunci— Unsupervised Learning, K-Means,
Hierarchical Clustering, Pola Penggunaan Listrik, Analisis
2. Dari 9 atribut yang terdapat dalam dataset,dipilih
Performa dua atribut pada implementasi ini yaitu
Submetering 1 dan Global Active Power.
3. Metode yang digunakan adalah
I. PENDAHULUAN
a. K-Means Clustering
A. Latar Belakang b. Hierarchical Clustering
4. Implementasi K-Means Clustering dan
D EWASA ini kebutuhan penggunaan listrik

Hierarchical Clustering menggunakan software
Orange
dikalangan masyarakat semakin meningkat, penggunaan
ini tidak hanya sekadar untuk penggunaan untuk C. Tujuan
kebutuhan sehari-hari namun juga penggunaan untuk Tujuan yang akan dicapai dalam ini adalah:
kebutuhan industri, dalam penggunaan listrik sehari-hari 1. Mengimplementasikan algoritma unsupervised
sudah semestinya kita perhatikan bahwa setiap peralatan learning K-Means Clustering dan Hierarchical
yang kita pakai membutuhkan aliran daya, aliran daya Clustering pada data yang telah dipilih.
atau load flow merupakan sebuah studi yang paling dasar 2. Menemukan metode mana yang memiliki performa
ketika kita akan melakukan analisis pada sebuah sistem lebih baik dalam pengelompokan data dari dataset
tenaga listrik. Dari pengertiannya, aliran daya yaitu yang ada.
sebuah proses penyaluran daya baik daya aktif maupun 3. Memperoleh perbandingan metode K-Means dan
daya reaktif dari sumber ke beban [1], aliran daya reaktif Agglomerative Hierarchical
dan aktif harus memiliki standar tertentu agar tidak
memengaruhi proses distribusi dalam sistem tenaga
listrik, beban reaktif penyebab daya reaktif yang terlalu
tinggi dapat menyebabkan turunnya power factor (faktor
daya) dari daya, hal ini dapat menyebabkan efisiensi dari
distribusi dan transmisi menurun. Pola penggunaan
listrik di lingkungan masyarakat ini dapat juga
mempengaruhi bagaimana kualitas pendistribusian
listrik, oleh karena itu di sini dibutuhkan klasterisasi dari
2
D. Manfaat Tetapi, K-Means memiliki memiliki kekurangan yakni:

Berikut manfaat yang akan diperoleh dari paper ini: 1. Performa yang buruk pada non-globular cluster,
1. Mendapatkan pola konsumsi dan penggunaan yaitu tipe data cluster yang tidak berkumpul dalam
listrik masyarakat suatu lokasi, menyerupai bentuk bola.
2. Bisa memberikan saran pola penggunaan alat 2. Sangat sensitif terhadap outlier.
elektronik dalam kehidupan sehari-hari Secara sederhana, langkah kerja k-means adalah sebagai
berikut:
1. K initial centroid dipilih secara random, dimana
II. DASAR TEORI
nilai K menunjukkan jumlah cluster yang
A. Dataset diinginkan oleh pengguna.
Dataset yang digunakan dalam paper ini merupakan
2. Setiap data kemudian dikelompokkan ke dalam
data penggunaan peralatan listrik dalam rumah tangga.
centroid terdekat, sehingga terbentuklah klaster.
dengan rincian sebagai berikut:
3. Melalui perhitungan rata rata jarak antara centroid
Nama Dataset : Household Electric Power
dan titik data, posisi centroid dipindah untuk
Consumption
mendapatkan hasil yang lebih akurat dan lebih
Penyedia : UCI Machine Learning
merepresentasikan sebuah klaster. Proses ini
Sumber : Kaggle
diulangi hingga tidak terdapat lagi perubahan
Total Fitur :9
posisi dari centroid, atau dalam kata lain, centroid
Tipe : Numerik
telah stabil.
Dataset orisinil berupa file .txt, sehingga perlu diubah
dahulu ke dalam format .csv. Selain itu, data orisinil juga
C. Agglomerative Hierarchical Clustering
berjumlah 1,048,576 entry. Akan tetapi dalam paper ini
Metode clustering kedua yang digunakan dalam paper
hanya diambil 5,000 entry pertama dari data karena
ini adalah Agglomerative Hierarchical Clustering, yaitu
limitasi dari software orange yang hanya dapat
pengelompokan secara hirarki dengan membandingkan
menampilkan silhouette score dengan maksimal 5,000
nilai dissimilarity antara data satu dengan data lainnya
data. Data yang digunakan tidak memiliki outlier
[3]. Nilai dissimilarity dapat diperoleh dari perbedaan
sehingga tidak memerlukan preprocessing terlebih
nilai kuantitatif dari data (berat, jarak, tinggi, dsb).
dahulu. Dalam proses clustering, fitur yang
Terdapat beberapa metode antara lain, single linkage,
dibandingkan adalah fitur “global active power”, dan
average linkage, dan complete linkage, untuk
“sub_metering1”. “Global active power” adalah daya
pengukuran, untuk mendapatkan nilai distance atau
aktif yang dikonsumsi oleh rumah tangga dalam
dissimilarity dapat digunakan berbagai metode pada
penggunaan alat elektronik, sementara “sub_metering1”
persamaan 2-7 berikut [2]:
adalah jumlah alat elektronik yang digunakan. Dari
kedua fitur tersebut, penulis bermaksud untuk
memperoleh pengelompokkan rumah tangga berdasarkan Metode Rumus
penggunaan alat elektronik serta daya yang dikonsumsi.
Euclidean distance
Untuk memperoleh pengelompokan tersebut, digunakan
dua metode clustering yaitu K-means dan Agglomerative
Hierarchical.
√ ∑(ai − bi ) 2
i
(2)
Squared euclidean
∑(ai − bi ) 2 (3)
B. K-means Clustering distance i
K-means adalah algoritma pengelompokkan cluster
Manhattan distance
sederhana yang berfungsi untuk mencari banyak K ∑ |ai − bi | 2 (4)
cluster yang tidak tumpang tindih antara satu dengan i
yang lainnya. Pada metode ini, sebuah cluster Maximum distance max |ai − bi | 2 (5)
diasosiasikan dengan satu centroid. Centroid adalah titik
rata-rata dari data yang terdapat dalam suatu cluster. Mahalanobis distance
Secara matematis, perhitungan K-means dapat ditulis √(a − b) S ⊤ −1
(a − b) (6)
pada persamaan 1 sebagai berikut [4]: ,
a·b
K Cosine similarity
||a||·||b||
(7)
min{m },1≤k≤K ∑ ∑ π x dist(x, mk ) (1)
k
k=1 x∈C k
Dalam paper ini, dipilih metode Euclidean distance
untuk mencari nilai dissimilarity tiap data. Nilai
K-Means memiliki kelebihan daripada metode
dissimilarity yang diperoleh kemudian dimasukkan ke
clustering lainnya, yaitu:
dalam satu matriks. Setelah itu dilakukan proses
1. Algoritma lebih sederhana
pengelompokan data yang dilakukan berdasarkan tiga
2. Sangat efisien
metode, yaitu perbandingan jarak terdekat, perbandingan
3. Dapat diimplementasikan ke berbagai macam data
jarak terjauh, dan perbandingan jarak rata-rata dari tiap
3
data. Jenis average linkage, complete linkage, dan single B. Desain Sistem Agglomerative Hierarchical
linkage semua dihitung menggunakan software orange Clustering
dengan menggunakan widget yang sesuai. Kemudian,
hasil clustering yang diperoleh dari metode-metode di
atas dibandingkan. Persamaan dari metode single
linkage, complete linkage, dan average linkage masing
masing ditunjukkan pada persamaan 8-10 [2],
D(X, Y ) = min d(x, y ) (8)
D(X, Y ) = max d(x, y ) (9)
1
D(X, Y ) = nX·nY Σ d(x, y ) (10)
Di mana X dan Y adalah setiap dua set elemen yang
dianggap sebagai cluster, dan d (x, y) menunjukkan
jarak.
D. Orange Data Mining

Orange adalah sebuah software untuk
Gambar. 2. Diagram Alir Proses Agglomerative Hierarchical
pembelajaran mesin dan penambangan data. Orange Clustering
mulai dikembangkan pada tahun 1997 oleh Janez
Demsar dan Blaz Zupan. Pengembangan Orange Pada Gambar. 2. menunjukkan diagram alir atau cara
berlanjut di Artificial Intelligence Laboratory dan kerja algoritma secara umum dari agglomerative
Laboratory of Bioinformatics di University of Ljubljana. clustering dalam mengklasterkan data.
Orange pada awalnya adalah library pembelajaran mesin C. Implementasi K-Means Clustering dan
diantaranya preprocessing, sampling, dan manipulasi Hierarchical Clustering dengan Orange
data lainnya pada bahasa pemrograman C++. Namun Pada pengimplementasian K-Means Clustering dan
karena keterbatasan C++, Orange dikembangkan Hierarchical Clustering dengan Orange digunakan
kembali dengan menggunakan bahasa pemrograman widget CSV File Import untuk membaca dataset yang
Python. Python yang merupakan bahasa pemrograman telah dipilih karena ekstensi file dari dataset yang dipilih
yang modern dipilih karena mempunyai sintaks yang adalah csv. Pada bagian K-Means Clustering data yang
sederhana yang membuatnya mudah untuk dipelajari. telah dipilih dimasukan kedalam widget algoritma
Pembuatan program dengan Python dapat dilakukan K-Means Clustering. Hasil dari clustering dengan
dengan cepat, sehingga sangat cocok dalam pembuatan algoritma K-Means lalu ditampilkan menggunakan
metode baru, dan relatif mudah mengembangkan Python widget scatter plot yang disediakan oleh Orange, pada
dengan modul yang ditulis dengan bahasa C atau C++ widget K-Means juga dapat dilihat bagaimana .
[5]. Sedangkan pada bagian Hierarchical Clustering data
yang telah di-import dihitung antar baris dan kolomnya
III. DESAIN SISTEM DAN IMPLEMENTASI menggunakan widget distance dengan distance metric
Euclidean. Hasil perhitungan distance dimasukan
A. Desain Sistem K-Means Clustering
kedalam widget algoritma Hierarchical Clustering dan
ditampilkan silhouette-nya menggunakan widget
silhouette plot. Gambar. 3. menunjukkan diagram alir
K-Means clustering dan Hierarchical clustering
menggunakan software Orange.
Gambar. 1. Diagram Alir Proses K-Means Clustering
Pada Gambar. 1. ditunjukkan cara kerja atau alur Gambar. 3. Diagram Alir K-Means dan Hierarchical Clustering
algoritma K-Means dalam mengklasterkan data yang
sudah kita siapkan.
IV. HASIL UJI COBA DAN ANALISIS
A. Skenario Uji Coba
4
Dari implementasi K-Means Clustering dan complete linkage,

Hierarchical Clustering didapatkan pada algoritma
K-Means sebagai berikut, dilakukan tiga skenario
percobaan pada K-Means, Gambar. 4a. menunjukkan
hasil klasterisasi ketika jumlah klaster K = 2, Gambar.
4b. K = 3, Gambar. 4c. K = 4,
Gambar. 4e. Single Linkage Hierarchical Clustering
Gambar. 4a. K-Means dengan K = 2
Gambar. 4f. Average Linkage Hierarchical Clustering
Gambar. 4b. K-Means dengan K = 3
Gambar. 4g. Complete Linkage Hierarchical Clustering
Berikut Tabel 1. merupakan silhouette scores dari single

linkage, average linkage, dan complete linkage
hierarchical clustering,
. Tabel 1.
Gambar. 4c. K-Means dengan K = 4 Nilai Silhouette Scores dari Hierarchical Clustering
Metode Nilai Silhouette Scores
Berikut Gambar. 4d. menunjukkan plot silhouette scores
dari algoritma K-Means, Single Linkage 0,971091
Complete Linkage 0,971091
Average Linkage 0,955091
B. Analisis Data
Dari skenario hasil uji coba, pada K-Means diperoleh
nilai jumlah klaster terbaik atau yang paling optimal
berdasarkan silhouette scores tertinggi adalah K = 2
yaitu 0,857 sedangkan pada Hierarchical Clustering,
setelah dilakukan clustering menggunakan metode single
Gambar. 4.d. Silhouette Scores dari K-Means linkage, complete linkage, dan average linkage, metode
single linkage maupun complete linkage menunjukkan
Selanjutnya adalah implementasi algoritma Hierarchical hasil terbaik atau paling optimal, hal ini dilihat
Clustering dengan metode single, average, dan complete berdasarkan dengan Tabel 1. di mana nilai silhouette
linkage, Gambar. 4e. menunjukkan hasil dengan single scores dari silhouette plot yang paling tinggi (0,971091)
linkage, 4f. dengan average linkage, dan 4g. dengan setelah membandingkan ketiga metode diperoleh bahwa
5
single linkage atau complete linkage merupakan yang terlebih dahulu sebelum bisa diklasterisasi sedangkan
paling baik. pada K-Means tidak perlu, visualisasi pada K-Means
dapat dilakukan dengan scatter plot, pada Hierarchical
V. KESIMPULAN clustering dilakukan dengan dendogram.
Berdasarkan hasil yang diperoleh dari implementasi
algoritma K-Means dan Hierarchical Clustering untuk DAFTAR PUSTAKA
data penggunaan listrik diperoleh bahwa pada K-Means [1] A. B. Setyarso, O. Penangsang, R. S. Wibowo, and J. A. R.
jumlah klaster yang optimal adalah K = 2, sehingga Hakim, “PENENTUAN DAYA REAKTIF UNTUK
PERBAIKAN KUALITAS DAYA BERDASARKAN
diperoleh dua klaster dari pola penggunaan listrik, pada VOLTAGE STATE ESTIMATION PADA JARINGAN
Hierarchical Clustering diperoleh bahwa metode single DISTRIBUSI RADIAL 20 KV DI SURABAYA,” vol. 1, no. 1,
linkage dan complete linkage merupakan yang paling p. 6, 2013.
[2] K. Sasirekha and P. Baby, “Agglomerative Hierarchical
optimal untuk dataset yang ada, didapatkan juga Clustering Algorithm- A Review,” vol. 3, no. 3, p. 3, 2013.
perbedaan mendasar dari algoritma K-Means dan [3] L. Kaufman and P. J. Rousseeuw, Finding groups in data: an
Hierarchical Clustering ada tiga yaitu K-Means introduction to cluster analysis. Hoboken, NJ: Wiley, 2005.
[4] J. Wu, Advances in K-means Clustering. Berlin, Heidelberg:
Clustering membutuhkan dua fitur atau dua variabel data
Springer Berlin Heidelberg, 2012.
untuk dilakukan klasterisasi sedangkan pada [5] J. Demšar and B. Zupan, “Orange: Data Mining Fruitful and Fun
Hierarchical Clustering hanya membutuhkan satu - A Historical Perspective,” p. 6.
variabel untuk dilakukan klasterisasi, pada Hierarchical
Clustering data harus dirubah ke data jarak/similaritas

Paper Esol

Diunggah oleh

Informasi Dokumen

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Paper Esol

Diunggah oleh

Hak Cipta:

Format Tersedia

1

Analisis Performa Clustering pada Data Pola

D EWASA ini kebutuhan penggunaan listrik

D. Manfaat Tetapi, K-Means memiliki memiliki kekurangan yakni:

D. Orange Data Mining

Gambar. 1. Diagram Alir Proses K-Means Clustering

Dari implementasi K-Means Clustering dan complete linkage,

Gambar. 4e. Single Linkage Hierarchical Clustering

Gambar. 4a. K-Means dengan K = 2

Gambar. 4f. Average Linkage Hierarchical Clustering

Gambar. 4b. K-Means dengan K = 3

Gambar. 4g. Complete Linkage Hierarchical Clustering

Berikut Tabel 1. merupakan silhouette scores dari single

Complete Linkage 0,971091

Average Linkage 0,955091

Anda mungkin juga menyukai

Paper Esol

Diunggah oleh

Informasi Dokumen

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Paper Esol

Diunggah oleh

Hak Cipta:

Format Tersedia

1

Analisis Performa ​Clustering ​pada Data Pola

D​ EWASA ini ​kebutuhan penggunaan listrik

D. Manfaat Tetapi, K-Means memiliki memiliki kekurangan yakni:

D​. Orange Data Mining

Gambar. 1. Diagram Alir Proses ​K-Means Clustering

Dari implementasi ​K-Means Clustering dan complete linkage,

Gambar. 4e. ​Single Linkage Hierarchical Clustering

Gambar. 4a. ​K-Means ​dengan K = 2

Gambar. 4f. ​Average Linkage Hierarchical Clustering

Gambar. 4b. ​K-Means ​dengan K = 3

Gambar. 4g. ​Complete Linkage Hierarchical Clustering

Berikut Tabel 1. merupakan ​silhouette scores dari ​single

Complete Linkage 0,971091

Average Linkage 0,955091

Anda mungkin juga menyukai

Analisis Performa Clustering pada Data Pola

D EWASA ini kebutuhan penggunaan listrik

D. Orange Data Mining

Gambar. 1. Diagram Alir Proses K-Means Clustering

Dari implementasi K-Means Clustering dan complete linkage,

Gambar. 4e. Single Linkage Hierarchical Clustering

Gambar. 4a. K-Means dengan K = 2

Gambar. 4f. Average Linkage Hierarchical Clustering

Gambar. 4b. K-Means dengan K = 3

Gambar. 4g. Complete Linkage Hierarchical Clustering

Berikut Tabel 1. merupakan silhouette scores dari single