Anda di halaman 1dari 5

1

Analisis Performa ​Clustering ​pada Data Pola


Penggunaan Listrik dengan Menggunakan ​K-Means
Clustering ​dan ​Agglomerative Hierarchical
Clustering
Brilian P. Amiruddin​1​, Evanbill A. Kore​1​, Dhiya A. Ulhaq​2​, dan Auzan W​1​.
1​
Departemen Teknik Elektro, Fakultas Teknologi Elektro dan Informatika Cerdas, Institut Teknologi Sepuluh
Nopember (ITS), Jl. Arief Rahman Hakim Surabaya 60111 Indonesia
2​
Departemen Teknik Mesin, Fakultas Teknologi Industri dan Rekayasa Sistem, Institut Teknologi Sepuluh
Nopember (ITS), Jl. Arief Rahman Hakim Surabaya 60111 Indonesia

​Abstrak—Pola penggunaan listrik dari masyarakat pola penggunaan peralatan di masyarakat terhadap daya
merupakan salah satu hal yang penting diketahui oleh yang dipakai. Klasterisasi (​clustering​) merupakan salah
perusahaan penyedia energi listrik, dengan mengetahui satu algoritma ​unsupervised learning dimana algoritma
pola yang ada perusahaan dapat menentukan suplai daya
yang tepat agar tidak terjadi pemborosan energi dan
ini menjalankan tugas yaitu menentukan sebuah set
sumber daya, pada ​paper ​kali ini penulis akan mencoba objek kedalam grup yang disebut ​cluster​ [2].
mengklasterkan pengguna listrik dengan algoritma
unsupervised learning yaitu ​K-Means clustering ​dan
B. Batasan Masalah
Hierarchical clustering, ​setelah dilakukan klasterisasi
dataset ​yang telah disiapkan, selanjutnya penulis Batasan-batasan yang digunakan dalam ​paper ini antara
melakukan komparasi dan analisis performa dari kedua lain,
algoritma dan menemukan perbedaan dari kedua 1. Data yang digunakan adalah ​dataset Household
algoritma yang ada. Electric Power Consumption yang didapat dari
website penyedia ​dataset ​online Kaggle.
Kata Kunci— Unsupervised Learning​, K-Means,
Hierarchical Clustering, Pola Penggunaan Listrik​, ​Analisis
2. Dari 9 atribut yang terdapat dalam ​dataset​,dipilih
Performa dua atribut pada implementasi ini yaitu
Submetering 1 ​dan ​Global Active​ ​Power​.
3. Metode yang digunakan adalah
I. PENDAHULUAN
a. K-Means Clustering
A. Latar Belakang b. Hierarchical Clustering
4. Implementasi K-Means Clustering dan

D​ EWASA ini ​kebutuhan penggunaan listrik


Hierarchical Clustering menggunakan ​software
Orange
dikalangan masyarakat semakin meningkat, penggunaan
ini tidak hanya sekadar untuk penggunaan untuk C. Tujuan
kebutuhan sehari-hari namun juga penggunaan untuk Tujuan yang akan dicapai dalam ini adalah:
kebutuhan industri, dalam penggunaan listrik sehari-hari 1. Mengimplementasikan algoritma ​unsupervised
sudah semestinya kita perhatikan bahwa setiap peralatan learnin​g ​K-Means Clustering dan ​Hierarchical
yang kita pakai membutuhkan aliran daya, aliran daya Clustering​ pada data yang telah dipilih.
atau ​load flow merupakan sebuah studi yang paling dasar 2. Menemukan metode mana yang memiliki performa
ketika kita akan melakukan analisis pada sebuah sistem lebih baik dalam pengelompokan data dari ​dataset
tenaga listrik. Dari pengertiannya, aliran daya yaitu yang ada.
sebuah proses penyaluran daya baik daya aktif maupun 3. Memperoleh perbandingan metode ​K-Means dan
daya reaktif dari sumber ke beban [1], aliran daya reaktif Agglomerative Hierarchical
dan aktif harus memiliki standar tertentu agar tidak
memengaruhi proses distribusi dalam sistem tenaga
listrik, beban reaktif penyebab daya reaktif yang terlalu
tinggi dapat menyebabkan turunnya ​power factor (faktor
daya) dari daya, hal ini dapat menyebabkan efisiensi dari
distribusi dan transmisi menurun. Pola penggunaan
listrik di lingkungan masyarakat ini dapat juga
mempengaruhi bagaimana kualitas pendistribusian
listrik, oleh karena itu di sini dibutuhkan klasterisasi dari
2

D. Manfaat Tetapi, K-Means memiliki memiliki kekurangan yakni:


Berikut manfaat yang akan diperoleh dari ​paper​ ini: 1. Performa yang buruk pada ​non-globular cluster​,
1. Mendapatkan pola konsumsi dan penggunaan yaitu tipe data cluster yang tidak berkumpul dalam
listrik masyarakat suatu lokasi, menyerupai bentuk bola.
2. Bisa memberikan saran pola penggunaan alat 2. Sangat sensitif terhadap ​outlier​.
elektronik dalam kehidupan sehari-hari Secara sederhana, langkah kerja k-means adalah sebagai
berikut:
1. K ​initial centroid dipilih secara random, dimana
II. DASAR TEORI
nilai K menunjukkan jumlah cluster yang
A. Dataset diinginkan oleh pengguna.
Dataset ​yang digunakan dalam ​paper ini merupakan
2. Setiap data kemudian dikelompokkan ke dalam
data penggunaan peralatan listrik dalam rumah tangga.
centroid​ terdekat, sehingga terbentuklah klaster.
dengan rincian sebagai berikut:
3. Melalui perhitungan rata rata jarak antara ​centroid
Nama ​Dataset : ​Household Electric Power
dan titik data, posisi ​centroid dipindah untuk
Consumption
mendapatkan hasil yang lebih akurat dan lebih
Penyedia : UCI Machine Learning
merepresentasikan sebuah klaster. Proses ini
Sumber : Kaggle
diulangi hingga tidak terdapat lagi perubahan
Total Fitur :9
posisi dari ​centroid​, atau dalam kata lain, ​centroid
Tipe : Numerik
telah stabil.
Dataset ​orisinil berupa ​file .txt, sehingga perlu diubah
dahulu ke dalam format .csv. Selain itu, data orisinil juga
C.​ Agglomerative Hierarchical Clustering
berjumlah 1,048,576 ​entry​. Akan tetapi dalam ​paper ini
Metode ​clustering kedua yang digunakan dalam ​paper
hanya diambil 5,000 ​entry pertama dari data karena
ini adalah ​Agglomerative Hierarchical Clustering​, yaitu
limitasi dari ​software orange yang hanya dapat
pengelompokan secara hirarki dengan membandingkan
menampilkan ​silhouette score ​dengan maksimal 5,000
nilai ​dissimilarity antara data satu dengan data lainnya
data. Data yang digunakan tidak memiliki ​outlier
[3]. Nilai ​dissimilarity dapat diperoleh dari perbedaan
sehingga tidak memerlukan ​preprocessing terlebih
nilai kuantitatif dari data (berat, jarak, tinggi, dsb).
dahulu. Dalam proses ​clustering​, fitur yang
Terdapat beberapa metode antara lain, ​single linkage,
dibandingkan adalah fitur “global active power”, dan
average linkage, ​dan ​complete linkage​, untuk
“sub_metering1”. “Global active power” adalah daya
pengukuran, untuk mendapatkan nilai ​distance ​atau
aktif yang dikonsumsi oleh rumah tangga dalam
dissimilarity dapat digunakan ​berbagai metode pada
penggunaan alat elektronik, sementara “sub_metering1”
persamaan 2-7 berikut [2]:
adalah jumlah alat elektronik yang digunakan. Dari
kedua fitur tersebut, penulis bermaksud untuk
memperoleh pengelompokkan rumah tangga berdasarkan Metode Rumus
penggunaan alat elektronik serta daya yang dikonsumsi.
Euclidean distance
Untuk memperoleh pengelompokan tersebut, digunakan
dua metode clustering yaitu ​K-means ​dan ​Agglomerative
Hierarchical​.
√ ∑(ai − bi ) 2
i
(2)

Squared euclidean
∑(ai − bi ) 2 (3)
B. K-means Clustering distance i
K-means adalah algoritma pengelompokkan cluster
Manhattan distance
sederhana yang berfungsi untuk mencari banyak K ∑ |ai − bi | 2 (4)
cluster ​yang tidak tumpang tindih antara satu dengan i

yang lainnya. Pada metode ini, sebuah cluster Maximum distance max |ai − bi | 2 (5)
diasosiasikan dengan satu ​centroid​. ​Centroid adalah titik
rata-rata dari data yang terdapat dalam suatu cluster. Mahalanobis distance
Secara matematis, perhitungan K-means dapat ditulis √(a − b) S ⊤ −1
(a − b) (6)
pada persamaan 1 sebagai berikut [4]: ,
a·b
K Cosine similarity
||a||·||b||
​(7)
min{m },1≤k≤K ∑ ∑ π x dist(x, mk ) (1)
k
k=1 x∈C k
Dalam ​paper ini, dipilih metode Euclidean ​distance
untuk mencari nilai ​dissimilarity tiap data. Nilai
K-Means memiliki kelebihan daripada metode
dissimilarity ​yang diperoleh kemudian dimasukkan ke
clustering lainnya, yaitu:
dalam satu matriks. Setelah itu dilakukan proses
1. Algoritma lebih sederhana
pengelompokan data yang dilakukan berdasarkan tiga
2. Sangat efisien
metode, yaitu perbandingan jarak terdekat, perbandingan
3. Dapat diimplementasikan ke berbagai macam data
jarak terjauh, dan perbandingan jarak rata-rata dari tiap
3

data. Jenis ​average linkage, complete linkage, ​dan ​single B. Desain Sistem Agglomerative Hierarchical
linkage semua dihitung menggunakan ​software orange Clustering
dengan menggunakan ​widget ​yang sesuai. Kemudian,
hasil clustering yang diperoleh dari metode-metode di
atas dibandingkan. Persamaan dari metode ​single
linkage, complete linkage, ​dan ​average linkage ​masing
masing ditunjukkan pada persamaan 8-10 [2],
D(X, Y ) = min d(x, y ) (8)
D(X, Y ) = max d(x, y ) (9)
1
D(X, Y ) = nX·nY Σ d(x, y ) (10)
Di mana X dan Y adalah setiap dua set elemen yang
dianggap sebagai ​cluster​, dan d (x, y) menunjukkan
jarak.

D​. Orange Data Mining


Orange adalah sebuah ​software ​untuk
Gambar. 2. Diagram Alir Proses ​Agglomerative Hierarchical
pembelajaran mesin ​dan penambangan data. Orange Clustering
mulai dikembangkan pada tahun 1997 oleh Janez
Demsar dan Blaz Zupan. Pengembangan Orange Pada Gambar. 2. menunjukkan diagram alir atau cara
berlanjut di Artificial Intelligence Laboratory dan kerja algoritma secara umum dari ​agglomerative
Laboratory of Bioinformatics di University of Ljubljana. clustering ​dalam mengklasterkan data.
Orange pada awalnya adalah ​library ​pembelajaran mesin C. Implementasi K-Means Clustering dan
diantaranya ​preprocessing​, ​sampling​, dan manipulasi Hierarchical Clustering dengan Orange
data lainnya pada bahasa pemrograman C++. Namun Pada pengimplementasian ​K-Means Clustering ​dan
karena keterbatasan C++, Orange dikembangkan Hierarchical Clustering dengan Orange digunakan
kembali dengan menggunakan bahasa pemrograman widget CSV File Import untuk membaca ​dataset ​yang
Python. Python yang merupakan bahasa pemrograman telah dipilih karena ekstensi ​file ​dari ​dataset yang dipilih
yang modern dipilih karena mempunyai sintaks yang adalah csv. Pada bagian ​K-Means Clustering data yang
sederhana yang membuatnya mudah untuk dipelajari. telah dipilih dimasukan kedalam ​widget ​algoritma
Pembuatan program dengan Python dapat dilakukan K-Means Clustering​. Hasil dari ​clustering dengan
dengan cepat, sehingga sangat cocok dalam pembuatan algoritma K-Mean​s lalu ditampilkan menggunakan
metode baru, dan relatif mudah mengembangkan Python widget ​scatter plot yang disediakan oleh Orange, pada
dengan modul yang ditulis dengan bahasa C atau C++ widget K-Means ​juga dapat dilihat bagaimana .
[5]. Sedangkan pada bagian ​Hierarchical Clustering ​data
yang telah di-​import dihitung antar baris dan kolomnya
III. DESAIN SISTEM DAN IMPLEMENTASI menggunakan ​widget ​distance ​dengan ​distance metric
Euclidean. Hasil perhitungan ​distance dimasukan
A. Desain Sistem K-Means Clustering
kedalam widget algoritma ​Hierarchical Clustering dan
ditampilkan ​silhouette-​nya menggunakan widget
silhouette plot.​ Gambar. 3. menunjukkan diagram alir
K-Means clustering dan ​Hierarchical clustering
menggunakan ​software Orange.

Gambar. 1. Diagram Alir Proses ​K-Means Clustering

Pada Gambar. 1. ditunjukkan cara kerja atau alur Gambar. 3. Diagram Alir ​K-Means ​dan ​Hierarchical Clustering
algoritma ​K-Means ​dalam mengklasterkan data yang
sudah kita siapkan.
IV. HASIL UJI COBA DAN ANALISIS
A. Skenario Uji Coba
4

Dari implementasi ​K-Means Clustering dan complete linkage,


Hierarchical Clustering didapatkan pada algoritma
K-Means ​sebagai berikut, dilakukan tiga skenario
percobaan pada ​K-Means​, Gambar. 4a. menunjukkan
hasil klasterisasi ketika jumlah klaster K = 2, Gambar.
4b. K = 3, Gambar. 4c. K = 4,

Gambar. 4e. ​Single Linkage Hierarchical Clustering

Gambar. 4a. ​K-Means ​dengan K = 2

Gambar. 4f. ​Average Linkage Hierarchical Clustering

Gambar. 4b. ​K-Means ​dengan K = 3

Gambar. 4g. ​Complete Linkage Hierarchical Clustering

Berikut Tabel 1. merupakan ​silhouette scores dari ​single


linkage, average linkage, dan complete linkage
hierarchical clustering​,
. Tabel 1.
Gambar. 4c. ​K-Means ​dengan K = 4 Nilai ​Silhouette Scores ​dari ​Hierarchical Clustering
Metode Nilai ​Silhouette Scores
Berikut Gambar. 4d. menunjukkan ​plot silhouette scores
dari algoritma ​K-Means, Single Linkage 0,971091

Complete Linkage 0,971091

Average Linkage 0,955091

B. Analisis Data
Dari skenario hasil uji coba, pada ​K-Means ​diperoleh
nilai jumlah klaster terbaik atau yang paling optimal
berdasarkan ​silhouette scores ​tertinggi adalah K = 2
yaitu 0,857 sedangkan pada ​Hierarchical Clustering​,
setelah dilakukan ​clustering ​menggunakan metode ​single
Gambar. 4.d. ​Silhouette Scores​ dari ​K-Means linkage, complete linkage, ​dan ​average linkage​, metode
single linkage ​maupun ​complete linkage ​menunjukkan
Selanjutnya adalah implementasi algoritma ​Hierarchical hasil terbaik atau paling optimal, hal ini dilihat
Clustering ​dengan metode ​single, average, ​dan ​complete berdasarkan dengan Tabel 1. di mana nilai ​silhouette
linkage​, Gambar. 4e. menunjukkan hasil dengan ​single scores dari ​silhouette plot yang paling tinggi (0,971091)
linkage​, 4f. dengan ​average linkage​, dan 4g. dengan setelah membandingkan ketiga metode diperoleh bahwa
5

single linkage ​atau ​complete linkage ​merupakan yang terlebih dahulu sebelum bisa diklasterisasi sedangkan
paling baik. pada K-Means tidak perlu, visualisasi pada ​K-Means
dapat dilakukan dengan ​scatter plot​, pada ​Hierarchical
V. KESIMPULAN clustering​ dilakukan dengan dendogram.
Berdasarkan hasil yang diperoleh dari implementasi
algoritma ​K-Means ​dan ​Hierarchical Clustering ​untuk DAFTAR PUSTAKA
data penggunaan listrik diperoleh bahwa pada ​K-Means [1] A. B. Setyarso, O. Penangsang, R. S. Wibowo, and J. A. R.
jumlah klaster yang optimal adalah K = 2, sehingga Hakim, “PENENTUAN DAYA REAKTIF UNTUK
PERBAIKAN KUALITAS DAYA BERDASARKAN
diperoleh dua klaster dari pola penggunaan listrik, pada VOLTAGE STATE ESTIMATION PADA JARINGAN
Hierarchical Clustering ​diperoleh bahwa metode ​single DISTRIBUSI RADIAL 20 KV DI SURABAYA,” vol. 1, no. 1,
linkage dan ​complete linkage merupakan yang paling p. 6, 2013.
[2] K. Sasirekha and P. Baby, “Agglomerative Hierarchical
optimal untuk ​dataset ​yang ada, didapatkan juga Clustering Algorithm- A Review,” vol. 3, no. 3, p. 3, 2013.
perbedaan mendasar dari algoritma ​K-Means ​dan [3] L. Kaufman and P. J. Rousseeuw, ​Finding groups in data: an
Hierarchical Clustering ​ada tiga yaitu ​K-Means introduction to cluster analysis​. Hoboken, NJ: Wiley, 2005.
[4] J. Wu, ​Advances in K-means Clustering​. Berlin, Heidelberg:
Clustering membutuhkan dua fitur atau dua variabel data
Springer Berlin Heidelberg, 2012.
untuk dilakukan klasterisasi sedangkan pada [5] J. Demšar and B. Zupan, “Orange: Data Mining Fruitful and Fun
Hierarchical Clustering hanya membutuhkan satu - A Historical Perspective,” p. 6.
variabel untuk dilakukan klasterisasi, pada ​Hierarchical
Clustering data harus dirubah ke data jarak/similaritas

Anda mungkin juga menyukai