Anda di halaman 1dari 48

TimRevolusiKopiLuwakPoliteknikCaltexRiau

Big Data and Clustering Analysis

Analisis Cluster Pola Kebiasaan Penghuni Rumah


Tangga dalam Pengonsumsian Energi Listrik

DosenPembimbing

:MuhammadIhsanZul,S.Pd.,M.Eng
[ihsan@pcr.ac.id
]

KetuaTim

:OktaRiveranda
[okta12si@mahasiswa.pcr.ac.id
]

AnggotaTim1

:MuhammadMahrusZain
[mahrus12si@mahasiswa.pcr.ac.id
]

AnggotaTim2

:SyahmiaGusriani
[syahmia12si@mahasiswa.pcr.ac.id
]

TimRevolusiKopiLuwakPoliteknikCaltexRiau

1.

LatarBelakang
Manusia hidup di dunia dimana jumlahdata meningkat setiaphari sebagaiakibat
dari komputerisasi. Sejumlah besar data disimpan berdasarkan rangkaian waktu
(
timeseries)
dan terus terkumpul selama transaksi berlangsung. Dengan munculnya
teknologi penyimpanan data yang murah, memungkinkan untuk menyimpan data secara
rinciuntukdilakukan tindakanlebih lanjut.Datadatarinciyangterusbertambahinilahyang
melatarbelakangipenelitianDataMining.
Data Mining digunakan untuk mencari pengetahuan dari basis data yang besar
besar sehingga sering disebut Knowledge Discovery in Databases (KDD).
Data Mining
merupakan salah satudisiplin ilmu dalamIlmu Komputer yangmemadukan antara disiplin
ilmu statistika dengan
Artificial Intelligence
(AI). Konsep statistika diterapkan dengan
adanya pengambilan sampel dalam suatu data, yang dikenal dengan istilah
sampling
.
Sementara untuk AI,
DataMining menerapkan beberapa algoritma
machinelearning,baik
dalam analisis suatu data mentah yang ada maupun dalam proses pembentukan model
dalamprosesklasifikasidata(Han,2005).
Dalam Data Mining juga dikenal suatu istilah yang disebut dengan big data. Big
data merupakansekumpulandatamentahyangtelahdisimpan dalamselangwaktutertentu
dan belum memiliki arti maupun informasi (Han, 2005). Big data telahmenjadi salah satu
topik hangat yang sedang menjadi bahanperbincangan para profesionalITdidunia.Salah
satu topik utama seputar bigdata adalahketersediaandataberbasiswaktu(
realtime)atau
telemetry data
(Rosario& Phil,2013).
Telemetrydata
dapatdiartikanpengukuranjarakjauh
terhadapdatauntukperekamandananalisis datadimasayangakandatang.Datatelemetri
tersebutmerupakankumpulannilai yangdiperolehdaripengukuran berurutandariwaktuke
waktu(
timeseries).
Data pemakaian alatalat listrik merupakan salah satu big data. Datadata yang
terkumpul bertambah dari waktu ke waktu (
timeseries).

Individual Household Electric


PowerConsumption DataSet
adalahdatayangdiperolehdaripengukurankonsumsilistrik
pada sebuah rumah tangga di Irlandia. Sebuah rumah tangga yang darinya mampu
dihasilkan sekumpulan data mentah yang berukuran sangat besar, setelah disimpan
selama hampir 4 tahun untuk tiap menitpemakaian alat listrik.Datadatatersebutberupa
hasilpencatatandalampemakaianalatlistrikseharihari.

TimRevolusiKopiLuwakPoliteknikCaltexRiau

Jenis alat listrik pada data rumah tangga ini dikelompokkan menjadi 3 yakni
peralatan dapur, mesin
laundry
, serta alat pemanas air dan
airconditioner
. Meteran
(pengukur) untuk tiap jenis alat listrik pada rumah tangga tidak digabung menjadi satu
(paralel). Halitu memberikankeuntungandalampengukuranpemakaianalatlistrik,dimana,
jika salah satu meteranalatlistrik terputus,makahalitutidakakan mempengaruhimeteran
jenis

alatlistriklainnya.
Analisisterhadap bigdatamerupakanhalyangperludilakukanuntukmendapatkan
suatu pola tertentu dari data set rumah tangga itu. Proses analisis yangmelibatkan jenis
alat listrik menghasilkan 3
cluster
sesuai dengan karakteristik atau pola yang akan
dihasilkan. DataMiningdapatditerapkandalampengolahanbigdata
timeseries
. Hasil dari
pemrosesan Data Mining dapat
menggambarkan visualisasi bentuk pola data. Dengan
adanyavisualisasipoladata,sangatmungkinuntukmemperolehsuatuinformasiberharga.
Ketepatan dalam memilih
tools
untuk
data mining adalah hal yang tidak kalah
penting. Besarnya jumlah data harus dipertimbangkan sebelum memulai proses
mining
.
JumlahdatapadaData Setyangakandiprosesmencapai 2.075.259barisdata.Kecepatan
pemrosesan datajuga menjadipertimbangan dalammemilih
tools.
Semakinbanyakjumlah
data, maka lamanya waktu pemrosesan juga semakin besar. Mempertimbangkan jumlah
datayangada,KNIMEmenjadiaplikasiyangtepatuntukpemrosesanbigdata.
KNIMEadalahsebuahaplikasimultiplatformyangopensourceuntukanalisisdata,
menyediakan grafis area kerja yang
userfriendly untuk seluruh proses analisis:
data
access, data transformation, initial investigation, powerful predictive analytics
, visualisasi,
danlaporan.Tersedialebihdari1000modul(nodes)didalamnya.(Rosario&Phil,2013)
Berdasarkan uraian di atas, melalui makalah ini, dilakukan penelitian terhadap

Individual Household Electric PowerConsumption DataSet


denganmenerapkankonsep
Data Mining menggunakan
software
KNIME, serta visualisasi informasi yang dihasilkan
dari data dengan Microsoft Excel 2013. Sehingga, diperoleh informasi berupa pola
kebiasaanpemakaianalatlistrikpadasebuahrumahtangga.

TimRevolusiKopiLuwakPoliteknikCaltexRiau

2.

TujuandanManfaat
Tujuandaripenelitianyangdilakukanadalahsebagaiberikut:
1. Mendapatkan pola pemakaian alat listrik pada suatu rumah tanggaberdasarkan
periodemusim,bulan,haridan
range
waktutertentu.
2. Dapatmengetahuijenisalatapasajayangpalingseringdigunakandalam periode
waktutertentu.
3. Mengelompokkan pola penggunaan alat listrik menjadi beberapa kategori
berdasarkanlamapemakaiannya.
4. Memberikan label tingkat keborosan penggunaan alat listrik berdasarkan total
dayalistrikyangdihasilkandenganbiayayangdikeluarkan.
5. Visualisasiinformasidalambentukgrafik(
infographic
)sehinggamudahdipahami.
Sementaraitu,manfaatyangdihasilkandaritujuandiatasialahsebagaiberikut:
1. Mengetahui kebiasaan anggota rumah tangga dalam menggunakan alat listrik
seharihari.
2. Dapatmenghasilkaninformasiyangakuratdarihasilanalisisyangdilakukan.
3. Mengetahui pola penggunaan alat listrik untuk kemudian bisa dijadikan bahan
pertimbanganapabilasuatusaatdilakukananalisisuntukdatayanglain.

3.

BatasanMasalah
BatasanMasalahdaripenelitianiniadalah:
1. Data set yang digunakan berasal dari satu rumah tangga dengan jumlah data
2.075.259baris.
2. Datasetyangdianalisisadalahdatayangdikumpulkandalam47bulan.
3. Menggunakan algoritma
kmeans untuk
cluster analysis dan beberapa algoritma
klasifikasisebagaiperbandinganakurasitiapalgoritma.
4. Clusteryangditentukanberjumlah3cluster.

TimRevolusiKopiLuwakPoliteknikCaltexRiau

4.

Metode
4.1.

Software
4.1.1.

KNIME
KNIME atau Konstanz Information Miner merupakan
software analisis datayangbersifat
open source.
Beberapa tahun
terakhir, KNIME semakin banyak di gunakan untuk proses data
mining.KNIMEmemberikemudahan dalampengolahandataskala
besar. Bahkan untuk mengolah big data, KNIME mampu
memroses dengan cepat. Sehingga, sangat menghemat waktu
pengerjaanjikadibandingkandengan
software
lain.

Gambar4.1.1.1LogoKNIME

TimRevolusiKopiLuwakPoliteknikCaltexRiau

Pada pemrosesan data digunakan aplikasi KNIME


sebagai
software pendukung utama. Prosesproses yang
dilakukan diantaranya transformasi data,
filtering
, fungsi operasi
matematika,pengondisian,
clusteranalysis
hinggaklasifikasi.
Gambar di bawah ini menjelaskan perbandingan antara
kecepatan analisis data dengan KNIME versi komunitas dengan
KNIME yang ditambah dengan ekstensi komersil berdasarkan
ukurandatayangdiolah.

Gambar4.1.1.2GrafikKelebihanKNIME2.10

TimRevolusiKopiLuwakPoliteknikCaltexRiau

Pada gambar di atas, ada tiga bagian pemrosesan


kecepatan dengan
software KNIME. Bagian berwarna coklat
merupakan KNIMEstandar yangdigunakanuntuk skalakomunitas
(
community edition
). RushAccelerator menempati urutan kedua
lebih cepat 210 kali dibanding versi standar. RushAnalytics
menjadi yang tercepat yakni, 10100 kali lipat dibanding versi
komunitas. RuschAccelerator dan RushAnalytics merupakan
ekstensiKNIMEyangbersifatkomersil.

4.1.2.

MicrosoftExcel2013
Bagian dari MicrosoftOfficeinimemilikiberbagaifiturfitur
spreadsheet
. Microsoft Excel 2013 merupakan applikasi dengan
kemudahan mengolah data berstruktur tabel. Mendukung operasi
perhitungan, pembuatan grafik, tabel pivot dan beberapa fungsi
kondisi.

Gambar4.1.2.1LogoMicrosoftExcel2013

TimRevolusiKopiLuwakPoliteknikCaltexRiau

Microsoft Excel digunakan sebagai apikasi pendukung


setelah KNIME.Hal ini disebabkanoleh hasil data olahan KNIME
yang terdiri dari kolom dan baris data yang sangat banyak.Data
hasiltersebutdipindahkandan divisualisasidenganmenggunakan
Microsoft Excel. Lalu, fitur pivot digunakan untuk membantu
menampilkan datayangada dalamsuatutabeldengan cara yang
berbeda tanpa merubah data asli. Data yang diolah dapat
ditampilkan dalam tampilan grafik ataupun
chart
. Tampilan ini
mempermudah dalam analisis data dalam jumlah banyak yang
biasanyasulitdianalisisjikahanyatampildalambentuktabel.

4.2.

DataSet
Data set yang digunakan adalah data yang diambil dari sebuah
rumah tangga dalam menggunakan alat listrikseharihari setiap menitnya
selama47bulan(dariDesember2006sampaiNovember2010).
Berikutinformasidetilmengenaidatasetyangdigunakan:
1) Data set ini mengandung 2.075.259 baris data dengan 6
atribut/kolom.
2) Atributatribut yang ada itu merepresentasikan penggunaan alat
listriksetiapmenit(dalamwatthour).
3) Modelperhitungankonsumsialatlistrikadalahsebagaiberikut:

( GMP60100 )(SM 1 + S M 2 + S M 3)(1)


Keterangan:
1) GMP:global_active_power.
2) SM1:sub_metering_1.
3) SM2:sub_metering_2.
4) SM3:sub_metering_3.

TimRevolusiKopiLuwakPoliteknikCaltexRiau

Berikut adalah informasi detil mengenai atributatributyangadapada data


setyangakandianalisis:
1) date:Tanggalpencatatandata(dd/mm/yyyy).
2) time:Waktupencatatandata(hh:mm:ss).
3) global_active_power: Merupakan ratarata penggunaan dayaaktif
untuktiapalatlistrikdalamsatuan
kilowatt
(
kw
).
4) sub_metering_1: Meteran yang mengukur alatalat listrik dapur
sepertikomporlistrik,pencucitangan,
oven
dan
microwave
.
5) sub_metering_2: Meteran yang mengukur alatalat listrik untuk
ruang cuci berupa mesin cuci, pengering pakaian, kulkas, dan
lampu.
6) sub_metering_3: Meteran yang mengukur alatalat listrik yang
memakan daya besar berupa penghangat air elektrik dan
Air
Conditioner
.

4.3.

Algoritma
4.3.1.

kMeans
KMeans adalah suatu algoritma
unsupervised learning
untuk analisis cluster dengan tujuan mengelompokkan data
berdasarkan karakteristik tiap data dengan data yang lain tanpa
mengetahui target kelas/labelnya. Berbeda halnya dengan
supervised learning yang mengelompokkan data berdasarkan
model klasifikasi yang telah dibuat dari pengolahan data
sebelumnya,sehinggadapatdiketahuikelasdaridatayangbaru.
Berikut ini adalah algoritma/langkahlangkah yang harus
ditempuhuntukmelaksanakan
clustering
dengankMeans:
1) Tentukanjumlah
cluster
(berapabuahkyangdiinginkan).
2) Kelompokkan data sehingga terbentuk k buah
cluster
dengan titik
centroid untuksetiap
clustermerupakantitik
centroid
yangtelahdipilihsebelumnya.
3) Perbaharuinilaititik
centroid
.
4) Ulangilangkah 2dan3 sampainilai darititik
centroidtidak
lagiberubah.

TimRevolusiKopiLuwakPoliteknikCaltexRiau

Dalam menentukan titik


centroid
menggunakan algoritma
denganrumussebagaiberikut:
k

E = dist(p, ci)2(2)
i=1 pCi

Keterangan:
E=JumlahErrordata

Ci
=Clusterkei
p=TitikObjek
Kelebihan yang dimiliki oleh kMeans diantaranya ialah
sebagaiberikut:
1) Mudahuntukdiimplementasikan.
2) Waktu yang dibutuhkan untuk proses pembelajarannya
relatiflebihcepat.
3) Mudahuntukdiadaptasipadadatayangdinamis.
4) Umumdigunakan.
Sementara itu, kekurangan dari penggunaan kMeans
adalahsebagaiberikut:
1) Inisialisasi k dilakukan secara
random
, sehingga
pengelompokkan

data

yang

dihasilkan

dapat

berbedabeda. Jika nilai


random yang dilakukan kurang
baik,makahasilyangdidapatkantidakmaksimal.
2) Sangat tidakcocokuntuk pengimplementasian pada data
dengandimensiyangbesar

10

TimRevolusiKopiLuwakPoliteknikCaltexRiau

Gambar4.3.1.1HasilClusteringdenganalgoritmakMeans

11

TimRevolusiKopiLuwakPoliteknikCaltexRiau

4.3.2.

NaiveBayes
Naive Bayes merupakan algoritma klasifikasi yang
menerapkan
BayesionTheorem. BayesionTheorem adalahsuatu
rumusan matematika yang sederhana yang digunakan untuk
mencaripeluang bersyarat.Dalamdatamining,
Bayesion Theorem
dipakai sebagai salah satu metode kalsifikasi yang dapat
menghitung probabilitas keanggotaan dari sekumpulan data
terhadaplabelyangadatanpamemandangketergantunganantara
satuatributdenganatributyanglain(independen).
Pada teorema Bayes, berlaku hukum
probabilitas
total
denganrumussebagaiberikut:
n

P (A|B) = P (A)P (B|A) P (Ai|B)(3)


i=1

Keterangan:
P=PeluangKejadian
A=KejadianA
B=KejadianB

4.3.3.

NeuralNetwork
Neural Network merupakan algoritma klasifikasi dengan
meniru cara kerja sistem saraf pada neuron otak manusia. Cara
kerjanya ialah dengan mengubah struktur dalam memecahkan
masalah berdasarkan informasi yang diperoleh. Teknik jaringan
syaraf inidapatdigunakanuntukmenentukanklasifikasi
clustering,
prediksi dan pola pengenalan terhadap data.
Neural Network
memodelkan hubungan yang kompleks antar datadata untuk
menemukanpolapolapadadata.

f (x) = K(iigi(x))

12

TimRevolusiKopiLuwakPoliteknikCaltexRiau

Keterangan:

f (x) =FungsiNeuranNetwork

gi =FungsiKomposisiVektor
K

=NilaiKetentuan

4.3.4.

kNN
kNearest Neighbor (kNN) merupakan teknik klasifikasi
data berdasarkan kedekatan jarak (lokasi) suatu data terhadap
data lainnya. Jarak yang digunakan adalah
Euclidean Distance
.
Jarak Euclidean (
Euclidean Distance
) merupakan perhitungan
yang paling umum digunakan pada data numerik, selain
Manhattan
.Rumus
EucledianDistance:

dist ( X 1, X 2) =

(X 1i X 2i)2 (4)

i=1

Keterangan:

X 1 =DataSampel
X 2 =DataUji/
Testing
i
=VariabelData
dist
=Jarak

13

TimRevolusiKopiLuwakPoliteknikCaltexRiau

4.3.5.

DecisionTree
Decision tree adalah salah satualgoritma kalsifikasi yang
sangat populer dan banyak digunakan secara praktis.Metode ini
merupakan metode yang berusaha menemukan fungsifungsi
pendekatan yang bernilai diskrit dan tahan terhadap datadata
yang memiliki kesalahan (
noise)
.Metode ini merupakan algoritma
yang banyak digunakan untuk kasus klasifikasi data. Sebuah
decision tree terdiri dari sebuah node paling tinggi disebut root,
internal node dan
leaf
. Konsep entropy digunakan untuk
penentuan pada atribut mana sebuah tree akan terbagi (split).
DecisionTree
menyeleksi datamenjadipohon keputusan (decision
tree) dan aturanaturan keputusan (rule). Adapun rumus Decision
Tree

adalahsebagaiberikut:
c

Entropy(S) = pilog2pi(5)
i=1

Keterangan:
S=HimpunanKasus.
c=JumlahPartisi

pi =ProporsidariS

i
keS

14

TimRevolusiKopiLuwakPoliteknikCaltexRiau

5.

DesaindanImplementasi
Work Flow
di bawah ini menggambarkan nodenode yang digunakan dalam
pengimplementasian
Knowledge Discovery in Database
(KDD). Rincian mengenai
tahaptahapKDDakandijelaskanpada
WorkFlow
dangambargambarberikutnya.

Gambar5.1WorkFlowsecarakeseluruhan

15

TimRevolusiKopiLuwakPoliteknikCaltexRiau

5.1.

DataSet
Berikut ini adalah gambar mengenaiprosespembacaanfile.txt yangberisi
dataset:
1) PilihFile.txtyangakandiimpor.
2) Pilih(
semicolon
)sebagai
columndelimiter
nya.

Gambar5.1.1ReadData

Di bawah ini adalah hasil dari pembacaan data yang telah diimpor
sebelumnya.

Gambar5.1.2Atributatributdataset

16

TimRevolusiKopiLuwakPoliteknikCaltexRiau

Berikut ini adalah gambar mengenai penambahan atribut/kolom ID sebagai


pembeda antara satu
row data dengan data yang lain. Itu dikarenakan, data set
yangadahanyadiambildari1rumahtangga(
household
)saja.

Gambar5.1.3Penambahanatribut/kolomID

17

TimRevolusiKopiLuwakPoliteknikCaltexRiau

5.2.

DataSelection
Sebelum melakukan
preprocessing,
dilakukanseleksidataterlebih
dahulu. Penyeleksian dilakukan dengan menyeleksi atribut apa sajayang
diperlukan. Dalam datasetterdapat tigaatribut yangtidakdiperlukanyaitu,
Global_reactive_power, Voltage, dan Global_intensity. Ketiga atribut ini
memiliki nilai yang hampir sama dan tidak mempengaruhi proses
selanjutnya. Sementara, untuk atribut yanglain, dijadikansebagaivariabel
penentuprosesdataminingataudikenalsebagai
predictorvariable
.
Gambar di bawah ini menjelaskan mengenai penyeleksian data,
dimana, kolomsebelahkiriadalahatributatributyangtidakdigunakan,dan
disebelahkananadalah
predictorvariable
.

Gambar5.2.1SeleksiData

18

TimRevolusiKopiLuwakPoliteknikCaltexRiau

5.3.

Preprocessing
Tahap awal yang dilakukan sebelum proses
data mining ialah
tahap
preprocessing
. Tujuannya adalah mentransformasi data ke suatu
format tertentu yang prosesnya lebih mudah dan efektifuntuk kebutuhan
pemakai,denganindikatorsebagaiberikut:
1) Mendapatkanhasilyanglebihakurat.
2) Penguranganwaktukomputasiuntuk
largescaleproblem
.
3) Membuat nilai datamenjadi lebih keciltanpa mengubah informasi
yangdikandungnya.
Terdapat beberapa alat dan metode dalam tahap
preprocessing
.
Berikutadalahcontohpenerapanmetodenya:
1) Sampling
,menyeleksisubset representatifdaripopulasi datayang
besar.
2) Transformation
, memanipulasi data mentah untuk menghasilkan
inputtunggal.
3) Denoising
,menghilangkan
noise
padadata.
4) Normalization
, mengorganisasi data untuk pengaksesan yang
lebihspesifik.
5) FeatureExtraction
,membukaspesifikasidatayangsignifikan.

19

TimRevolusiKopiLuwakPoliteknikCaltexRiau

Gambar di bawah ini menggambarkan nodenode yang digunakan untuk


menghitungjumlah
watthour
penggunaanalatlistrik.

Gambar5.3.1WorkFlowMenghitungW/hpenggunaanalatlistrik

Work Flow di bawah ini menggambarkan nodenode yang digunakan untuk


mengubahdatabertipe
string
menjadi
date.

Gambar5.3.2WorkFlowKonversidatadaristringkedate

20

TimRevolusiKopiLuwakPoliteknikCaltexRiau

Work Flow di bawah ini menggambarkan nodenode yang digunakan untuk


mengekstraksidatabertipestringyangtelahdikonversipadatahapsebelumnya.

Gambar5.3.3WorkFlowEkstraksitanggal

21

TimRevolusiKopiLuwakPoliteknikCaltexRiau

Work Flow di bawah ini menggambarkan nodenode yang digunakan untuk


menggabungkankolomkW/hdengantanggaldanwaktu.

Gambar5.3.4Penggabungankolom

22

TimRevolusiKopiLuwakPoliteknikCaltexRiau

Work Flow di bawah ini menggambarkan nodenode yang digunakan untuk


menjumlahkankW/hperrangewaktutertentuuntuktiaphari.

Gambar5.3.5WorkFlowPenjumlahankW/hperhari

23

TimRevolusiKopiLuwakPoliteknikCaltexRiau

Work Flow di bawah menggambarkan nodenode yang digunakan untuk


mengekstraksitanggalkedalambulandantahun.

Gambar5.3.6WorkFlowEkstraksitanggalkedalambulandantahun

24

TimRevolusiKopiLuwakPoliteknikCaltexRiau

Work Flow di bawah ini menggambarkan nodenode yang digunakan untuk


menghitungrataratakW/hperhari.

Gambar5.3.7WorkFlowHitungRatarata

Work Flow

di bawah ini menggambarkan nodenode yang digunakan untuk

menggabungkankW/h
intradays
denganratarataperhari.

Gambar5.3.8WorkFlowPenggabungankW/hdenganratarataperhari

25

TimRevolusiKopiLuwakPoliteknikCaltexRiau

Work Flow
di bawah ini menggambarkan nodenode yang digunakan untuk
menghitungpersentaserangewaktuyangterdiridari:
1) Daripukul13.00sampaipukul17.00.
2) Daripukul17.00sampaipukul21.00.
3) Daripukul21.00sampaipukul07.00.
4) Daripukul07.00sampaipukul09.00.
5) Daripukul09.00sampaipukul13.00.

Gambar5.3.9WorkFlowPerhitunganPersentasedalamrangewaktutertentu

Work Flow di bawah ini menggambarkan nodenode yang digunakan untuk


normalisasi data. Ada 2 langkah yang dilakukan: Mengisi missing valuesdengan
nilai ratarata tiap atribut dan kemudian memilih atributatributyangakandianalisis
untuktiapcluster.

Gambar5.3.10NormalisasiData

26

TimRevolusiKopiLuwakPoliteknikCaltexRiau

5.4.

DataMining
Tabel di bawah ini menjelaskan tentang proses penyeleksian
atributatribut yang akan digunakan pada analisis cluster. Jumlah cluster
yang ditentukan sebanyak 3 buah cluster. Iterasi maksimum yang
dilakukansebanyak400kaliiterasi(perulangan).

Gambar5.4.1SeleksiDatauntukClusterAnalysis

Work Flowdibawahinimenggambarkannodenodeyangdigunakanuntuk
analisis cluster. Node
Color Managerdigunakanuntuk memberikanwarna
sebagaipembedaantarcluster.

Gambar5.4.2WorkFlowClusterAnalysisdenganalgoritmakmeans

27

TimRevolusiKopiLuwakPoliteknikCaltexRiau

Tabel di bawah ini adalah hasil analisis cluster dari


work flow di atas.
Terlihat bahwa, terdapat perbedaan warna antara satu cluster dengan
clusterlainberdasarkanwarnadaripengaturan
ColorManager
diatas.

Gambar5.4.3TabelHasilClusterAnalysis

5.5.

Interpretation&Evaluation
Tabel di bawah ini tabel
Confusion Matrix dari hasil klasifikasi dengan
menggunakan algoritma
Naive Bayes
. Informasi yang dapat diambil dari
tabeldibawahadalah:
1) Akurasihasilklasifikasi:93.267%atau942barisdata.
2) ErrorRate:6.733%atau68barisdata.

Gambar5.5.1ConfusionMatrixhasilklasifikasidenganNaiveBayes

28

TimRevolusiKopiLuwakPoliteknikCaltexRiau

Tabel di bawah ini adalah tabel


Confusion Matrix dari hasil klasifikasi
dengan menggunakan algoritma
Neural Network
. Informasi yang dapat
diambildaritabeldibawahadalah:
1) Akurasihasilklasifikasi:88.614%atau895barisdata.
2) Errorrate:11.386%atau115barisdata.

Gambar5.5.2ConfusionMatrixhasilklasifikasidenganNeuralNetwork

Tabel di bawah ini adalah tabel


Confusion Matrix
dari hasil klasifikasi
dengan menggunakan algoritma
Neural Network
. Informasi yang dapat
diambildaritabeldibawahadalah:

Gambar5.5.3ConfusionMatrixhasilklasifikasidengankNN

29

TimRevolusiKopiLuwakPoliteknikCaltexRiau

Tabel di bawah ini adalah


Confusion Matrix dari hasil klasifikasi dengan
menggunakan algoritma
Decision Tree
. Informasi yangdapat diambil dari
tabeldibawahadalah:
1) Akurasihasilklasifikasi:85.842%atau867barisdata.
2) ErrorRate:14.158%atau143barisdata.

Gambar5.5.4ConfusionMatrixhasilklasifikasidenganDecisionTree

30

TimRevolusiKopiLuwakPoliteknikCaltexRiau

6.

Analisis
6.1.

Analisis Cluster Pola Penggunaan Alat Listrik


denganNormalisasi
Terdapat2metodenormalisasiyangbisadigunakanuntukanalisiscluster
polapenggunaanalatlistrik,yaitu:
A. NormalisasidenganmetodeZScore.

Gambar6.1.1NormalisasidenganmetodeZScore

31

TimRevolusiKopiLuwakPoliteknikCaltexRiau

Dari analisis yang telah dilakukan dengan metode normalisasi


ZScore,didapat informasi mengenai poladari tiap cluster.Berikut
hasilanalisisnya:
1) Cluster 0 menjelaskan karakteristik pengguna yang lebih
dominan dalam menggunakan alatalat listrik pada saat
sore hingga menuju malam. Puncak pemakaian alatalat
listrik ini berada di antara pukul 17.00 hingga 21.00.
Kemudian, dari pukul 07.00 hingga pukul 09.00
mengalami kenaikan penggunaan alatalat listrik. Lalu
akhirnya, mengalami penurunan mulai dari pukul 09.00
hinggapukul13.00.
2) Cluster 1 menjelaskan karakteristik pengguna dimana,
daripukul13.00 hingga pukul 21.00penggunaanalatalat
listrik sangatrendah.Terlepas darifaktor apapun, asumsi
yang bisa digunakan ialah bahwa, pada saatitupenghuni
rumahtidak sedangberada di rumah. Namunsebaliknya,
mulai dari pukul 21.00 hingga pukul 07.00 terjadi
peningkatan yang signifikan pada penggunaan alatalat
listrik. Asumsi yang bisa digunakan berikutnya ialah
bahwa penghuni rumah pada saat itusedang begadang
(
TheNightOwl
).
3) Cluster 2 menjelaskan karakteristik pengguna dimana,di
antara pukul 13.00 hingga pukul 17.00 terjadi puncak
pemakaian alatalatlistrik. Sementaraitu,daripukul17.00
hingga pukul 09.00, penghuni rumah hampir tidak aktif
samasekali,karena penggunaanalatalatlistrik yangjauh
lebih rendah daripada ratarata di cluster lain. Kemudian
kembaliaktifmulaidaripukul09.00hinggapukul13.00.

32

TimRevolusiKopiLuwakPoliteknikCaltexRiau

B. NormalisasidenganmetodeMinMax.

Gambar6.1.2NormalisasidenganmetodeMinMax

33

TimRevolusiKopiLuwakPoliteknikCaltexRiau

Dari analisis yang telah dilakukan dengan metode normalisasi


MinMax, didapatinformasimengenaipola daritiapcluster.Berikut
hasilanalisisnya:
1) Cluster 0, sebagaimana dengan metode ZScore,
menggambarkan karakteristik pengguna paling banyak
menggunakan alatalat listrik pada pukul 17.00 hingga
pukul 21.00. Hal itu menunjukkan bahwa, aktivitas
pemakaian alat listrik mencapai puncaknya.Setelahpukul
21.00, pemakaianalatlistrikmengalamipenurunansangat
signifikan sampai pukul 07.00. Dilanjutkan sampai pukul
09.00, konsumsi listrik masih sangat rendah. Lalu,
penggunaan alat listrik mulaimengalami sedikit kenaikan
pada pukul 13.00 dan menurun kembali hingga pukul
17.00.
2) Cluster 1 menunjukkanpemakaian puncaknyapadapukul
21.00 sampai 07.00pagi.Halitujugamenandakanbahwa
penghuni rumah tangga sedangsangataktifpada malam
hari, sebagaimana hal ini juga bisa dilihat pada
Analysis
Chart
denganmetodeZScore.
3) Cluster 2 menggambarkan pola kebiasaan penghuni
rumah tangga yang relatif berbeda dari metode dengan
ZScore. Bahkan, bisa dikatakan berbanding terbalik.
Pada cluster ini, bisa diasumsikan bahwa, penghuni
rumah tangga aktif dari pukul 17.00 hingga pukul 09.00,
yang menunjukkan kalau penghuni rumahtanggasedang
beradadirumahpadasaatitu.

34

TimRevolusiKopiLuwakPoliteknikCaltexRiau

6.2.

Analisis Cluster Pola Penggunaan Alat Listrik


berdasarkantotalkW/h
Pada bagian ini, dijelaskantentang analisis pola penggunaan alat
listrik berdasarkan total kW/h yang dihasilkan dari pemakaian alat listrik.
Ada 4 periodewaktuyangmenjadi dasardalam penjumlahankW/h,yakni
sebagaiberikut:
A. PerMusim
Chart di bawah ini adalah hasil
cluster analysis pola
penggunaan alat listrik untuk tiap tahun. Berikut informasi yang
dapat diambil dari hasil analisis yang dilakukan berdasarkan
musimtiaptahun:
1) Analisis pola didasarkan pada total kW/h untuk tiap
musim.
2) Pada tahun 2006, data yang didapat hanya untuk bulan
Desember, sehingga hanya musim dingin saja yang ada
padatahunitu.
3) Dapat

disimpulkan

bahwa,

pada

musim dingin,

penggunaanalatlistrikcukupbesaruntuktiaptahunnya.
4) Di samping itu, pada musim panas, justru penggunaan
alat listrik tergolong paling kecil di antara musim lainnya
selama3tahun.
5) Sehingga, jika diurutkan dari yang paling besar
penggunaan alat listriknya, maka didapat informasi
sebagaiberikut:
a) MusimDingin(22Desember21Maret)
b) MusimGugur(24September21Desember)
c)

MusimSemi(22Maret21Juni)

d) MusimPanas(22Juni23September)

35

TimRevolusiKopiLuwakPoliteknikCaltexRiau

Gambar6.2.1AnalysisChartPolaPenggunaanAlatListriktiapmusimpadatiaptahun

36

TimRevolusiKopiLuwakPoliteknikCaltexRiau

B. PerBulan
Chart di bawah ini menjelaskan tentang penggunaanalat
listrik untuk tiap tahun. Berikut informasi yang dapat diambil dari
analysischart
dibawahini:
1) Tahun 2006 hanya diisi pada bulan Desember,sehingga
informasiyangdihasilkanpun tergolongrendahdibanding
tahuntahunlainnya.
2) Secara keseluruhan, tiap bulan pada tiap tahun selalu
memiliki pola yang sama, yakni penggunaan alat listrik
yangbisadikatakan
monoton.
3) Namun, pada bulan Agustus 2008, bisa dilihat bahwa
terjadi perubahan/penurunan dalampemakaian alat listrik
berdasarkan totalkW/h pada bulan itudibandingkanpada
bulanAgustusditahuntahunlainnya.

Gambar6.2.2AnalysisChartPolaPenggunaanAlatListriktiapbulanpadatiaptahun

37

TimRevolusiKopiLuwakPoliteknikCaltexRiau

C. PerHari
Chart di bawah ini menggunakan periodewaktutiaphari
(SeninMinggu) untuk tiap tahun. Berikut informasi yang dapat
diambildari
chart
ini,yaknisebagaiberikut:
1) Terlihat bahwapenggunaanalatlistrik palingtinggiberada
pada hari Minggu, yang kemudian disusul pada hari
Sabtu. Kemungkinan besar pada saat itu (
weekend
),
penghuni rumah sedang berada di rumah, terlepas
apakah

penghuninya

masih

lajang

atau

sudah

berkeluarga.
2) Sebaliknya, pada harihari selain
weekend
, terlihat jelas
bahwa penggunaan alat listriknya di bawah dari ratarata
weekend
.Sehingga bisadisimpulkanbahwapadasaatitu,
penghuni rumah sedang tidak berada di rumah, terlepas
darifaktorfaktoreksternallainnya.

Gambar6.2.3AnalysisChartpolapenggunaanalatlistrikuntuktiapharipadatiaptahun

38

TimRevolusiKopiLuwakPoliteknikCaltexRiau

D. Perrangewaktutertentu
Chart di bawah ini menggambarkan penggunaan alat
listrik berdasarkantotal kW/h dalam perioderange waktutertentu.
Berikutinformasiyangdapatdiambildarihasilanalisisini:
1) Pola yang ditunjukkan setiap tahun selalu sama, jika
dilihatdaritotal pemakaianalatlistrik dari totalkW/hyang
dihasilkan.
2) Penghuni rumah sangat aktif (dalam penggunaan alat
listrik) pada pukul 21.00 hingga 07.00. Sehingga bisa
dikatakan bahwa penghuni rumah pada rumah tangga
yang data dianalisis ini tergolong aktif pada malam hari
(
TheNightOwl
).
3) Jika melihat aktifitas penghuni rumah dalampenggunaan
alat listrik dari range waktu pukul 07.00 sampai 17.00,
maka bisa disimpulkan bahwa besar kemungkinan
penghuni rumah sedang berada di luar rumah pada saat
itu, terlepas dari apakah berada di luar rumah untuk
alasankerjaataupunsekolah.

Gambar6.2.4AnalysisChartPolaPenggunaanAlatListrikpadaRangewaktutertentu

39

TimRevolusiKopiLuwakPoliteknikCaltexRiau

6.3.

Analisis Cluster Pola Penggunaan Alat Listrik


berdasarkan Biaya Penggunaan Listrik di
Indonesia
Tabel di bawah ini adalahreferensi biayauntuk pemakaian listrik
per kW/h di Indonesia untuk tahun 20022010. Dengan asumsi, apabila
pemakaian alat listrik di rumah tanggainidiindonesiakan,makakitabisa
melihatbiayayang dikeluarkanoleh penghunirumah tangga dalamwaktu
tertentudalamsatuanrupiah.

Gambar6.3.1PatokanHargauntukrumahtanggadiIndonesia
http://www.pln.co.id/dataweb/STAT/STAT2010IND.pdf

40

TimRevolusiKopiLuwakPoliteknikCaltexRiau

Gambar6.3.2AnalysisChartBerdasarkanBiayaPemakaianListrikdiIndonesia

Berdasarkan
chart pola biaya pemakaian listrik di atas, dapat dinyatakan bahwa
penggunaan alatalat listriknya tidak jauh berbeda dari pola penggunaan alat listrik
berdasarkan bulan untuk tiap tahun. Dimana, tingginya tingkat pemakaian alat listrik
berbanding lurus denganbiayayangharus dibayar.Grafikpada
chart
diatas
menunjukkan
bulanbulan sepanjang musim dingin (DesemberMaret) yang membutuhkan biaya lebih
tinggi. Hal itu disebabkan oleh pemakaian pemanas ruangan, pemanas air, dan nyala
lampu yang lebih lama. Dibandingkan bulanbulan pada musim semi(MaretJuni),musim
panas (JuniSeptember)dan musimgugur (SeptemberDesember), biayayangdikeluarkan
tidakbegitubesar.

41

TimRevolusiKopiLuwakPoliteknikCaltexRiau

6.4.

Analisis Cluster Pola Penggunaan Alat Listrik


berdasarkanJenisAlatListrik
Pada bagian ini, dijelaskan tentang analisis cluster pola
penggunaan alat listrik berdasarkan lamanya pemakaian jenis alat listrik
yang

ada.

Informasi

didapat

secara

langsung

di

situs

https://archive.ics.uci.edu/ mengenai jenis alat listrik apa yang


dipergunakan dalam 1 rumah tangga ini.Berdasarkan informasi tersebut,
didapatlahpengetahuanbahwa atribut sub_metering_1 mewakili jenis alat
listrik untuk dapur, sub_metering_2 mewakili jenis alat listrik untuk ruang
laundry dan sub_metering_3 mewakili jenis alat listrikyangmemilikidaya
yang cukup besar seperti, penghangat air elektrik dan
AirConditioner
.
Berikut ini adalah
Analysis Chart yang memberikan hasil analisis atas
proses
datamining
yangtelahdilakukan.
1) Pola Penggunaan Alat Listrik Berdasarkan Jenis Alat Listrik dan
LamanyaPemakaian
Di bawah ini tampak sebuah
analysischartyangmenggambarkan
bahwa penghuni rumah lebih sering menggunakan jenis alat
semacam penghangat air elektrik atau
AirConditioner
(AC).
Asumsi yang bisa digunakan ialah bahwa, AC lebih sering aktif
dibanding jenis alat listriklainnyasepertialatdapurdanalatalatdi
ruang
laundry
, sehingga tampak jelas perbedaan di antara
ketiganyadarilama penggunaanalatlistrikberdasarkantotalpukul
pemakaiannya untuk tiap hari dalam 1 minggu. Sementara itu,
untuk jenis alat listrik dapur, lebih rendah di antara yang lain,
karena penggunaannya yang memangterbilangjarangdan relatif
terhadap waktu penggunannya.Di samping itu,alatlistriktertinggi
ke2 ditempati oleh jenis alat listrikdi ruang
laundry
, dimana bisa
diasumsikan bahwa penggunaan alatalat itu cukup rutin
digunakan, karena selain mesincuci,mesinpengeringdankulkas,
juga terdapat lampu yang notabenenya sering digunakan
dibandingjenisalatdapur.

42

TimRevolusiKopiLuwakPoliteknikCaltexRiau

Gambar6.4.1AnalysisChartPolaPenggunaanAlatListrikberdasarkanJenisAlatListrik

43

TimRevolusiKopiLuwakPoliteknikCaltexRiau

2) Pola Penggunaan Alat Listrik berdasarkan Jenis Alat Listrik dan


TotalPemakaiannyaselama47bulan
Analysis chart di bawah ini menggambarkan total pemakaian
secara keseluruhan jenis alat listrik selama 47 bulan (informasi
didapat di situs resmi) atau dengan kata lain, total keseluruhan
data dari data set yang ada. Hasil analisis ini bisa dikatakan
serupadengan
chart sebelumnya yang menginformasikan bahwa,
jenis alat listrik terlama yang digunakan adalah jenis alat listrik
dengan daya yang besar seperti penghangatair elektrik dan AC,
kemudian disusul dengan jenis alat
laundry dan lalu alatalat
dapur.

Gambar6.4.2AnalysisChartPolaPenggunaanAlatListrikberdasarkanJenisAlatListrik
danTotalJamPemakaian

44

TimRevolusiKopiLuwakPoliteknikCaltexRiau

3) Pola Penggunaan Alat Listrik Berdasarkan Jenis Alat Listrik dan


TotalWaktuPemakaian

Gambar6.4.3AnalysisChartPolaPenggunaanAlatListrikberdasarkanJenisAlatListrik
danrangewaktutertentu

1) Sub Metering 3 selalu berada pada titik teratas dengan waktu pemakaian paling
lama (6.912 jam),sekaligus jenisalatlistrikyangpalingseringaktif sepanjang hari.
Puncak pemakaiannya pada pukul21.00 hingga 07.00,artinyaalat listrik tersebut
aktif sepanjang malam. Sedangkan pada pukul 07.00 hingga 09.00 pemakaian
menurun secara signifikan. Kemudian, pemakaian kembali meningkatpada pukul
09.00sampai13.00.
2) Sub Metering 2 menempati pemakaian tertinggi kedua setelah Sub Metering 3.
Jenis alat listrik pada Sub Metering 2 mencapai puncak penggunaannya pada
pukul 21.00 hingga 07.00. Pola pemakaian jenis alat listrik Sub Metering 2 tidak
jauhberbedadenganpolapemakaianjenisalatlistrikSubMetering3.
3) Sub Metering 1 merupakan alatalat listrik dengan penggunaan paling rendah di
antara jenis alat listrik lainnya. Puncak pemakaian jenis alat listrik ini 6 kalilebih
rendah dibandingkan puncak pemakaian jenis alat listrik pada Sub Metering 3.
Dengan total waktu pemakaian hanya 1.045 jam dan waktu pemakaian paling
rendah292jamselama47bulan.

45

TimRevolusiKopiLuwakPoliteknikCaltexRiau

7.

Kesimpulan
Penelitian terhadap data set
Individual Household Power Consumption
merupakan kegiatan yang melibatkan proses KDD
.
Jumlah data dari data set
tersebut sebanyak 2.075.259 baris data. Proses KDD
yang dilakukan memakan
waktu yang cukup lama, mengingat jumlahdatayang cukupbesar (big data
)
dan
sifat data yang masih mentah. Aplikasi/toolsyang digunakan adalah KNIME versi
2.10. Hasil KDD
tersebut dianalisis untuk memperoleh potensi informasi
tersembunyi yangmungkin ada. Informasididapat dari analisis terhadappolapola
data. Informasi tersebut menunjukkan bagaimana pola kebiasaan penggunaan
alatalat listrik dari penghuni suatu rumah tangga selama 47 bulan terakhir (dari
tahun 2006 hingga 2010). Polapola tersebut dikategorikan ke dalam beberapa
rentangwaktu.
1) Berdasarkan musim, penggunaan alat listrik paling banyak berada pada
musim dingindibandingmusimlainnya.Padamusimdingin,penghunilebih
banyak menggunakan alatalat listrik. Kondisi udara yang dingin
menyebabkan penghuni lebih banyak/sering menggunakan penghangat
ruangan, penghangat air, hingga pengering pakaian. Selain itu, karena
siang hari lebih pendek, maka pemakaian lampu untuk penerangan juga
lebihlamadigunakan.
2) Berdasarkanbulan,polapemakaianalatlistrikpadabulanbulansepanjang
musim dingin menunjukkan kecenderungan pemakaian lebih tinggi.
Sedangkan pada pertengahan tahun, yakni, sepanjang musim gugur dan
musim semi, penggunaan alatalat listrik cenderung menurun. Hingga
musim panas, polapemakaian alatalatlistriktetapmengalamipenurunan.
Pada bulan September, dimana musim panas mulaiberakhir, pemakaian
alatlistrikmengalamikenaikanhinggamusimdinginberlangsung.
3) Berdasarkanhari,pola penggunaanalatalat listriktidakterlalu tinggipada
harikerja(SeninJumat). Umumnya,penghuni yangbekerjahanyaberada
di rumah setelah jam kerja. Sehingga, alatalat listrik yang digunakan
cukup terbatas. Sedangkan pada
weekend
(SabtuMinggu), pemakaian
listrik cenderung meningkat.Dimana pada hari itu, penghunilebih banyak
menghabiskan waktu di rumah. Sehingga, alatalatlistrik yangdigunakan
jugalebihbanyak.

46

TimRevolusiKopiLuwakPoliteknikCaltexRiau

4) Berdasarkan
range
waktu, penggunaan alat listrik setiap tahun
menunjukkan pola yang hampir sama. Penghuni menunjukkan kebiasaan
menggunakan alat listrik palingbanyak antara pukul 21.00 hingga pukul
07.00. Dengan kata lain, alatalat listrik yang digunakan memiliki
fungsionalitasyanglebihpanjangdimalamhari.
5) Pola pemakaian alat listrik berdasarkan jenis alat listrik dan lamanya
pemakaian, menunjukkan alat listrik dalam kategori Sub Metering 3
merupakan alatalat listrik yang selalu digunakan dalam waktu lama. Sub
Metering 3 mewakili alat listrik berupa penghangat air elektrik dan
Air
Conditioner.
Alat listrik tersebut menempati posisi paling lama
penggunaannya setiap hari. Diikutioleh Sub Metering2 berupaalat listrik
dengan penggunaan paling lama ke2. Sub Metering 3 merupakan alat
listrikdenganpenggunaanpalingsingkatsepanjanghari.
6) Berdasarkan pola penggunaan alat listrik berdasarkan jenis alat listrik,
dapat ditarik kesimpulan bahwa alat listrik berupa
Air Conditioner dan
penghangat air elektrik merupakan alat listrik yang paling panjang waktu
penggunaannyadibandingkanalatlistriklainnya.

Gambar7.1InfografishasilAnalisis

47

TimRevolusiKopiLuwakPoliteknikCaltexRiau

8.

DaftarPustaka
Han, Jiawei.,Kamber,Micheline., danPei,Jian.(2006).
DataMining:Conceptsand
Techniques.
(ed.3).USA:MKPublishers
Natalius, Samuel. 2010.MetodaNaveBayes ClassifierdanPenggunaannyapada
KlasifikasiDokumen.MakalahII2092ProbabilitasdanStatistik,Bandung.
Rajaraman, Anand., Leskovec, Jure., dan Ullman, Jeffrey D.
Mining of Massive
Datasets.(
ed.4).PaloAlto,California.
Silipo, Rosario dan Phil Winters. (2013) big data, Smart Energy, and Predictive
Analytics.
TimeSeriesPredictionofSmartEnergyData
.137.
Esling, Philippe danAgon Carlos. (2012).
TimeSeriesDataMining
.(Vol.45).ACM
ComputingSystem,Paris.
Silipo,

Rosario.

(2013).

KNIME

and

big

data.

(Online).

Tersedia:

http://www.dataminingreporting.com/blog/knimeandbigdata
[28September2014]
https://archive.ics.uci.edu/ml/datasets/Individual+household+electric+power+consu
mption
[1Oktober2014]
http://www.thefreedictionary.com/telemetry
[10Oktober2014]
http://en.wikipedia.org/wiki/Artificial_neural_network
[13Oktober2014]

48

Anda mungkin juga menyukai