Anda di halaman 1dari 7

IMPLEMENTASI ALGORITMA DENSITY-BASED SPATIAL CLUSTERING OF

APPLICATIONS WITH NOISE (DBSCAN) PADA KONSUMSI DAYA LISTRIK


RUMAH TANGGA

Kurniawan, M. F.1, Nugraha, B. C.2, Putri, I.3, & Hasyim, A.4


1,4
Jurusan Ilmu Komputasi Institut Teknologi Telkom, Bandung
1
mokhamad.fajar.kurniawan@gmail.com, 2bayu_cahaya_n@yahoo.com, 3irzanesputri@gmail.com,
4
alihasyim92@gmail.com

Abstrak
Untuk mengetahui pola konsumsi listrik di rumah tangga dengan mengetahui daya listrik yang dipakai
setiap menit di rumah tangga yang direpresentasikan dengan global active power dan tambahan perlatan
listrik yang belum diukur yaitu sub-meterings 1,2 dan 3. Dalam menyelesaikan kasus seperti ini
diperlukan algoritma yang dapat menggambarkan pola konsumsi listrik di rumah tangga. Pada paper ini
akan menggunakan teknik clustering dengan algoritma DBSCAN untuk menganalisis dan
mengelompokkan pola konsumsi listrik di rumah tangga. Untuk menentukan cluster pola konsumsi listrik
dengan DBSCAN dibutuhkan Eps dan MinPts yang nilainya didapatkan secara heuristik dengan
membandingkan nilai dari kedua parameter tersebut dengan jumlah cluster yang diperoleh menggunakan
tools Weka untuk mengetahui model dan evaluation dari training set yang digunakan.

Kata kunci : DBSCAN, Konsumsi Listrik, Cluster

Abstract
To determine the pattern of electricity consumption in households with electrical power used to know
every minute in the household are represented by active global power and the additional electrical
equipment that has not been measured, namely sub-Meterings 1, 2 and 3. In resolving this case as
necessary algorithms to describe the pattern of electricity consumption in households. In this paper, using
a clustering technique with DBSCAN algorithm to analyze and classify the pattern of electricity
consumption in households. To determine the cluster power consumption patterns with DBSCAN takes
Eps and MinPts the heuristic value is obtained by comparing the value of both parameter is the number of
clusters obtained using Weka tools to know the model and evaluation of the training set used.

Keywords: DBSCAN, Electricity consumption, Cluster

1. Pendahuluan prediction, yaitu klasifikasi (classification) yang


digunakan untuk memetakan sebuah unsur (item)
Data merupakan catatan atas kumpulan data ke dalam salah satu dari beberapa kelas yang
beberapa fakta. Di dalam data terdapat beberapa sudah didefinisikan, dan anomaly detection yang
record yang menyatakan isi dari data tersebut. Tidak merupakan sebuah proses otomatis (automated
semua data itu berkualitas baik. Banyak data yang process) yang mengidentifikasikan data yang tidak
record-nya hilang dan bahkan data tersebut ada yang termasuk di dalam suatu kumpulan atau pola.
berkualitas buruk. Oleh sebab itu, diperlukan adanya Sedangkan pada metode description terdapat dua
suatu metode untuk menyempurnakan data agar data tipe yang digunakan, yaitu clustering yang
tersebut dapat diproses. merupakan pengelompokkan record, pengamatan
atau memperhatikan dan membentuk kelas objek
Data mining adalah suatu proses yang
yang memiliki kemiripan, dan association yang
digunakan untuk mencari informasi dan pengetahuan
digunakan untuk menemukan suatu atribut yang
yang berguna, dimana informasi dan pengetahuan
muncul dalam suatu waktu.
tersebut diperoleh dari data-data yang telah dimiliki.
Pada dasarnya data mining memiliki dua Pada jurnal ini, kami hanya memfokuskan pada
fungsionalitas, yaitu prediction dan description. salah satu teknik clustering yaitu DBSCAN atau
Prediction menggunakan beberapa variable atau Density-Based Spatial Clustering of Applications
field-field basis data untuk memprediksi nilai-nilai with Noise.
variable di masa yang akan datang, yang belum
Berdasarkan analisis situasi yang telah
diketahui saat ini. Description berfokus pada
disampaikan, dapat dikemukakan rumusan masalah
penemuan pola-pola tersembunyi dari sekumpulan
sebagai berikut:
data yang telah ditelaah. Ada dua tipe dari metode
a. Apakah pengertian dari DBSCAN? Noise point adalah titik yang berada di luar core
b. Bagaimana proses kerja dari DBSCAN? point dan border point
c. Bagaimana peranan algoritma DBSCAN
mengatasi clustering pada data konsumsi daya
listrik rumah tangga?

Tujuan penelitian dari jurnal ini adalah sebagai


berikut:
a. Menjelaskan pengertian dari algoritma
DBSCAN.
b. Menjelaskan proses kerja dari DBSCAN
c. Menjelaskan peranan algoritma DBSCAN
mengatasi clustering pada data konsumsi daya
listrik rumah tangga.

2. Pengertian DBSCAN (Density-Based Spatial


Clustering of Applications with Noise) Titik S direct density reacheable terhadap titik
T. Titik S juga merupakan density reacheable
DBSCAN adalah salah satu jenis density based terhadap T. Karena titik T direct density / density
clustering dengan karakteristik yang dapat reacheable dari titik U, dan titik S direct density /
menangani noise, bentuk dari data yang cukup density reacheable terhadap titik T maka titik S dan
bervariasi (arbitrary shape), tidak menciptakan titik U density connected. Tidak menutup
complete clustering, dan cocok digunakan untuk kemungkinan juga titik S, T, U, V saling ber-density
data dengan jumlah yang besar. Algoritma ini connected.
memperluas wilayah dengan kepadatan yang tinggi
ke dalam cluster dan menempatkan cluster irregular 3. Algoritma DBSCAN (Density-Based Spatial
pada database spasial dengan noise. Untuk Clustering of Applications with Noise)
menentukan sebuah cluster, DBSCAN diawali
dengan menentukan sebuah titik dengan heuristik, Berikut ini adalah algoritma dari DBSCAN
yaitu p dan mendapatkan kembali semua point (Density-Based Spatial Clustering of Applications
density reachable dari p, dimana p bisa dikatakan with Noise) :
dengan titik pusat, yang mempunyai Eps (Jari-jari) Pilih sebuah titik secara heuristik dengan
dan MinPts (Jumlah titik minimum di setiap area memastikan bahwa titik yang akan diambil
untuk mengubah titik tersebut menjadi core point). belum masuk ke dalam suatu cluster
Jika p merupakan core point maka akan
menghasilkan suatu cluster. Akan tetapi, jika p Ambil semua titik yang density-reachable
merupakan border point (Titik yang berada di tepi dari yang memenuhi syarat Eps dan
area), maka tidak ada titik density reachable atau untuk menghasilkan cluster :
tidak ada titik yang bisa menjadi suatu core point o Jika adalah core points, maka
dari p dan DBSCAN kemudian men-tracing ke titik sebuah cluster akan terbentuk
berikutnya. o Jika adalah sebuah border point,
DBSCAN memiliki 2 parameter yang maka tidak ada titik yang density-
mempengaruhi untuk menentukan cluster di setiap reachable dari , DBSCAN akan
point yaitu MinPts dan Eps. mengunjungi titik berikutnya
Lanjutkan proses ini sampai semua titik
MinPts adalah jumlah titik minimum untuk
diproses.
menentukan core point
Eps adalah jarak antara core point dan border
(diameter) atau bisa disebut juga jari-jari 4. Teknik Pengukuran Jarak
MinPts dan Eps bisa ditentukan dengan
heuristik, tetapi jika ingin lebih baik hasil Euclidean Distance
heuristiknya yaitu dengan menggunakan metode K- Merupakan ukuran jarak antara dua item X
Graph. Ada 3 titik yaitu core point, border point, dan Y.
dan noise point:
Core point adalah titik pusat yang didapat dari
MinPts point tersebut
Border point adalah point yang terdapat di Squared Euclidean Distance
daerah core point
Merupakan ukuran jarak antara dua item X
dan Y.

Pearson Correlation
Korelasi antara vektor nilai

Dimana Zxi adalah nilai x yang telah


distandarkan untuk item ke-i dan N adalah
jumlah item-nya
Misalkan dalam iterasi terpilih titik C1
Chebychev secara heuristik. Maka dicari titik-titik yang
bertetanggaan dari C1. Sesuai dengan syarat
bahwa Eps yaitu 1 cm dan MinPts adalah 3,
Block maka diperoleh titik-titik yang bertetanggaan
dari C1 yaitu 1, 2, 3, 4, dan 5. Terdapat 5 titik
yang bertetanggan dengan titik C1. Karena
memenuhi syarat dimana titik berada pada Eps =
1 cm dan MinPts = 3, maka titik tersebut akan
5. Contoh Kasus dengan Menggunakan
menjadi Core Object.
Algoritma DBSCAN (Density-Based Spatial
Clustering of Applications with Noise)
Iterasi 2

Berikut ini merupakan contoh Data Base:

Iterasi berikutnya dilanjutkan dengan titik


lain di dalam database. Maka diperoleh titik C2
Diketahui MinPts = 3 dan Eps = 1 cm secara heuristik lagi. Didapatlah titik yang
bertetanggan dari titik C2, sejumlah 5 titik,
Iterasi 1 yaitu 1, 2, 4, 6 dan 7. Karena memenuhi syarat
dimana titik berada pada Eps = 1 cm dan
MinPts = 3, maka titik tersebut akan menjadi
Core Object. Lakukan hal yang sama pada
iterasi berikutnya sampai Cn.
yang mempunyai dimensi yang sangat besar dan
mempunyai tingkat variasi yang tinggi pada
kepadatan antar titik.

6. Informasi Data Set yang digunakan

Data diambil dari Uci Repository dan berisi


daya penggunaan listrik suatu rumah tangga yang
diambil dalam jangka waktu 4 tahun. Berikut ini
merupakan dataset konsumsi daya listrik rumah
tangga:
Jumlah record : Pada awalnya jumlah record
sebanyak 2.075.259, tetapi yang diambil
sebanyak 10.259 record
Jumlah atribut : 7
C1, C2 dan C3 adalah density-reachable. Hal Karakteristik Data Set : Multivariate, Time
ini terjadi karena C1 directdensity-reachable dari Series
C2 maupun C3. Karakteristik atribut : Real
Tipe Data : Unsupervised
Missing value : Mendekati 1.25 % dari tiap
baris, tetapi dari 10.259 record yang diambil,
tidak terdapat missing value
Informasi atribut :
o global_active_power: rataan daya aktif
yang digunakan oleh rumah tangga
dalam satuan kilowatt
o global_reactive_power: rataan daya
reaktif yang digunakan oleh rumah
tangga dalam satuan kilowatt
o voltage: rata-rata tegangan per menit
dalam satuan volt
o global_intensity: rataan intensitas
penggunaan daya pada rumah tanggah
per menit dalam satuan ampere
Ci dan Cn direct density reachable dan o sub_metering_1: energy sub-metering
sudah tentu mereka density-connected. Iterasi
No. 1 (dalam satuan watt per jam dari
dilakukan sampai node n. Setelah melewati
keadaan energi yang aktif). Didalamnya
beberapa iterasi, didapatkan cluster sebanyak
termasuk penggunaan dapur, mesin cuci
dua kelompok dengan beberapa noise. Berikut
piring, oven, dan microwave
ini merupakan hasil dari clustering dengan
o sub_metering_2: energy sub-metering
menggunakan algoritma DBSCAN.
No. 2 (dalam satuan watt per jam dari
keadaan energi yang aktif). Di dalamnya
termasuk ruangan laundry It
corresponds to the laundry room, mesin
cuci pakaian, tumble-drier, kulkas dan
lampu
o sub_metering_3: energy sub-metering
No. 3 (dalam satuan watt per jam dari
keadaan energi yang aktif). Di dalamnya
termasuk electric water-heater dan air-
conditioner.

7. Skenario Pengujian

Ada beberapa skenario yang digunakan pada


Keunggulan DBSCAN yaitu tahan terhadap pengujian ini yaitu:
noise, dan dapat mengatasi cluster yang ukuran dan a) Pemilihan dua parameter DBSCAN yaitu
bentuknya berbeda. Sedangkan kelemahan dari MinPts dan Eps yang ditentukan secara
DBSCAN yaitu sangat buruk dalam mengatasi data heuristik.
b) Membandingkan beberapa nilai dari kedua
parameter tersebut dengan jumlah cluster yang
dihasilkan.

8. Analisis Hasil Pengujian

Setelah menentukan jumlah MinPts dan Eps


yang optimal secara trial and error, hasil pengujian
beberapa MinPts dan Eps pada data set untuk setiap
skenario pengujian dapat dilihat pada tabel 1.

Tabel 1. Analisis Penentuan Heuristik MinPts


dan Eps
Kemudian pilih aplikasi explorer.
MinPts Eps Cluster Unclustered
5 0,27 1 14
8 0,27 4 17
10 0,27 4 23
13 0,27 5 57
13 0,22 5 149
13 0,18 7 197
13 0,14 11 383
13 0,1 8 687

Keterangan:
MinPts : Minimal titik/poin di suatu core point
(syarat untuk menjadi core point). Selanjutnya open file dan pilih data yang
Eps : Jarak maksimal antara 2 titik pada titik akan diuji.
pusat atau bisa juga jari-jari pada area titik pusat
tertentu.
Cluster : Wilayah yang sudah terbagi.
Unclustered : Titik atau poin yang tidak
termasuk ke dalam cluster. Unclustered juga
biasa disebut Noise Point

Dari hasil analisis tersebut, semakin kecil Eps


yang dimasukkan kedalam proses clustering maka
akan semakin besar nilai unclustered point-nya.
Setelah melakukan trial and error, akan mengambil
MinPts yang bernilai 8, dan eps yang bernilai 0.27.
Karena menghasilkan jumlah cluster dan
unclestered yang optimal. Penentuan nilai MinPts
dan Eps scara heuristik mendekati default dari Weka.
Pada pengujian ini menggunakan aplikasi Weka. Pilih tab cluster
Berikut ini merupakan tahapan-tahapannya :
Tahap pertama yang dilakukan adalah open
weka software.
Kemudian pilih DBSCAN sebagai Jika nilai MinPts = 8, dan Eps = 0,27, akan
algoritma cluster didapatkan hasil cluster 0 terdapat 9902 instances,
cluster 1 terdapat 137 instances, cluster 2 terdapat
188 instances, dan cluster 3 terdapat 15 instances.
Sedangkan uncluster nya terdapat 17 instances.
Dari analisis kami cluster 0, 1, 2, 3 merupakan
jenis pola dari konsumsi listrik per jam.
Cluster 0 = Pola konsumsi rendah
Cluster 1 = Pola konsumsi normal
Cluster 2 = Pola konsumsi tinggi
Cluster 3 = Pola konsumsi sangat tinggi

Untuk melihat sample hasil clustering, akan


ditampilkan pada tabel 2.
Tabel 2. Sample Hasil clustering
Global Global
Global Submetering Submetering Submetering
Active Reactive Voltage Cluster
Selanjutnya klik DBSCAN dan masukkan Power Power
Intensity 1 2 3

nilai Eps dan MinPts yang diinginkan 1,194 0,062 232,29 5 0 0 16 0

secara heuristik, default nya MinPts = 0,9 1,196 0,062 232,54 5 0 0 17 0


dan Eps = 6. 4,294 0 238,56 18 37 0 0 1

4,004 0 238,33 17,2 37 0 0 1

3,142 0,214 230,4 14 22 0 16 2

3,602 0,208 229,74 15,6 32 0 17 2

5,762 0,184 233,9 24,6 0 73 16 3

5,812 0,166 233,66 24,8 0 73 17 3

2,662 0,358 229,22 23,4 15 1 16 Noise

2,662 0,22 231,05 12,2 21 0 16 Noise

Dari segi performansi DBSCAN dalam


membuat cluster, semakin banyak record & atribut
nya, maka performansi DBSCAN akan menurun
(kompleksitas waktu tinggi). Begitu pula semakin
tinggi nilai Eps nya, maka akan semakin tinggi
kompleksitas waktunya untuk membuat suatu
cluster. Hasil pengujian dapat dilihat pada tabel 2.
Tabel 3. Hasil Perbandingan Kompleksitas
Pilih training set pada cluster mode dan klik Waktu
start sehingga akan dihasilkan model dan
evaluation dari training set. Eps MinPts Running Time
0,1 8 63,91 s 2. (t.thn.). Dalam A. Budiarti, Aplikasi dan
Analisis Literatur.
0,27 8 68,3 s 3. Hebrail, G. (2012, Agustus 30). UCI. Dipetik
0,4 8 68,76 s Mei 9, 2013, dari Machine Learning
0,1 10 64,93 s Repository:
http://archive.ics.uci.edu/ml/datasets/Individual
0,27 10 65,97 s +household+electric+power+consumption
0,4 10 67,43 s 4. Peter, J. H., & Antonysamy, A. (2010).
International Journal of Computer Applications
(0975 8887) Volume 6 No.9, September
9. Validasi
2010. An Optimised Density Based Clustering
Algorithm, 1-6.
Pada validasi akan menggunakan metode
5. UII, L. D. (t.thn.). LABORATORIUM DATA
similiarity matrix untuk menemukan nilai validasi
MINING JURUSAN TEKNIK INDUSTRI
dalam range [0..1]. Berikut ini merupakan
FAKULTAS TEKNOLOGI INDUSTRI
rumusnya.
UNIVERSITAS ISLAM INDONESIA.
CLUSTERING, 1-12.
(6)

Matriks A merupakan matriks inputan dari data


yang diteliti. Matriks B adalah matriks yang
mempunyai karakteristik yang hampir sama dengan
matriks A. Matriks P merupakan matriks non-
singular yang berisi nilai validasi nya.

10. Kesimpulan dan Saran

Kesimpulan
Dari hasil akhir yang didapat maka dapat
ditarik kesimpulan sebagai berikut :
a. MinPts dan Eps akan mempengaruhi
pembentukan cluster
b. Dengan adanya Algoritma DBSCAN
yang dapat mengelompokkan jumlah
pemakaian daya listrik pada rumah
tangga, dapat mengetahui pola
konsumsi listrik pada suatu rumah
tangga berdasarkan waktu
penggunaan.
Saran
Jumlah data yang terlalu banyak
mengakibatkan terjadinya pemotongan
data, data yang pada awalnya berjumlah
2.075.259 record, sehingga jumlah record
akan direduksi menjadi 10.259 record.
Keakuratan data mungkin akan menurun
ketika terjadinya pereduksian jumlah
record. Tetapi di sisi lainnya akan
mempercepat proses DBSCAN dalam
meng-cluster.

Daftar Pustaka

1. Agustin, F., Jayanto, D. D., Widiyanto, T. P.,


Agustina, R., Kusumawardani, W., &
Pramudianti, S. (t.thn.). Density Based Method.
hal. 1-2.

Anda mungkin juga menyukai