Anda di halaman 1dari 19

MAKALAH

KLASTERING DATA

oleh:

ROMI SAEFFUDDIN (14.01.53.0057)


RIO BAGUS PRRAKOSO (14.01.53.0067)
BENNY TRI WIJAYA (14.01.53.0070)

FAKULTAS TENOLOGI INFORMASI


UNIVERSITAS STIKUBANK (UNISBANK)
SEMARANG
2018
BAB I
PENDAHULUAN

1.1 Latar Belakang


Clustering adalah metode penganalisaan data, yang sering dimasukkan
sebagai salah satu metode Data Mining, yang tujuannya adalah untuk
mengelompokkan data dengan karakteristik yang sama ke suatu ‘wilayah’ yang
sama dan data dengan karakteristik yang berbeda ke ‘wilayah’ yang lain.
Ada beberapa pendekatan yang digunakan dalam mengembangkan
metode clustering. Dua pendekatan utama adalah clustering dengan pendekatan
partisi dan clustering dengan pendekatan hirarki. Clustering dengan pendekatan
partisi atau sering disebut dengan partition-based clustering mengelompokkan
data dengan memilah-milah data yang dianalisa ke dalam cluster yang ada.
Clustering dengan pendekatan hirarki atau sering disebut dengan hierarchical
clustering mengelompokkan data dengan membuuat suatu hirarki berupa
dendogram dimana data yang mirip akan ditempatkan pada hirarki yang
berdekatan dan yang tidak pada hirarki yang berjauhan.
Solusi analisis cluster bersifat tidak unik, anggota cluster untuk tiap
penyelesaian/solusi tergantung pada beberapa elemen prosedur dan beberapa
solusi yang berbeda dapat diperoleh dengan mengubah satu elemen atau lebih.
Solusi cluster secara keseluruhan bergantung pada variabel-variaabel yang
digunakan sebagai dasar untuk menilai kesamaan. Penambahan atau
pengurangan variabel-variabel yang relevan dapat mempengaruhi substansi hasi
analisisi cluster.
1.2 Rumusan Masalah
Berdasarkan latar belakang di atas, rumusan permasalahan dalam
penulisan ini sebagai berikut :
1. Bagaimana kajian teoritis metode Klastering Data dalam pembentukan
klaster
2. Bagaimana penerapan metode klastering data dalam pembentukan klaster
pada PT. INDOMARCO
BAB II
TINJAUAN PUSTAKA

2.1 Definisi Analisi Cluster


Analisis cluster merupakan teknik multivariat yang mempunyai tujuan utama untuk
mengelompokkan objek-objek berdasarkan karakteristik yang dimilikinya. Analisis
cluster mengklasifikasi objek sehingga setiap objek yang paling dekat kesamaannya
dengan objek lain berada dalam cluster yang sama. Cluster-cluster yang terbentuk
memiliki homogenitas internal yang tinggi dan heterogenitas eksternal yang tinggi.
Secara garis besar metode clustering dibagi dalam 2 tipe yaitu : hierarchical dan non
hierarchical. Hierarchical menggunakan N x Nsimilarity matrix, sedangkan non
hierarchical membagi dataset menjadi sebuah level single partisi, dengan atau tanpa
pencocokan antara clusters. Selain itu hal mendasar yang membedakan kedua metode
ini adalah : metode pengelompokan hirarki digunakan apabila belum ada informasi
jumlah kelompok, sedangkan metode pengelompokan non hirarki bertujuan
mengelompokan n objek ke dalam k kelompok (k<n).
Beberapa teknik clustering hirarki bekerja dengan sederetan dari penggabungan yang
berurutan atau sederetan dari pembagian yang berurutan. Metode hirarki agglomerative
berawal dari objek-objek individual. Pada awalnya banyaknya cluster sama dengan
banyaknya objek. Pertama-tama objek yang paling mirip dikelompokkan, dan
kelompok-kelompok awal ini digabungkan sesuai dengan kemiripannya. Akhirnya,
sewaktu kemiripan berkurang, semua subkelompok digabungkan menjadi satu cluster
tunggal.
BAB III
METODE PENELITIAN
2.1 Waktu dan Tempat Penelitian
Penelitian ini dilakukan mulai bulan maret 2013 sampai dengan Juli 2013
yang bertempat di PT. Indomarco.
2.2 Metode Pengumpulan Data
Metode pengumpulan data yang digunakan untuk mendapatkan data dari
suatu informasi, maka metode yang digunakan dalam proses pengumpulan
data sebagai berikut :
a. Metode Observasi Metode pengumumplan data yang akan dilakukan
adalah melihat serta mempelajari permasalahan yang ada dilapangan yang
erat kaitannya dengan objek yang diteliti.
b. Metode Studi Pustaka Metode yang dilakukan sebagai bahan
pembelajaran dengan cara mencari bahan yang mendukung dalam
pendefenisian masalah melalui bukubuku, internet. Merupakan proses
pengujian terhadap perangkat lunak yang dibangun.
f. Maintenance Tahap akhir proses dimana suatu perangkat lunak yang sudah
selesai dapat mengalami perubahan–perubahanatau penambahan sesuai
dengan permintaan user.
BAB IV
HASIL DAN PEMBAHASAN

4.1 Analisis Cluster


Analisis cluster merupakan suatu teknik yang lebih sederhana
bukandalam asumsinya yang memusatkan jumlah kelompok-kelompok
ataustruktur kelompok. Pengelompokkan setuju pada kesamaan dasar atau jarak
(ketaksamaan). Masukan-masukan yang dibutuhkan merupakankesamaan
ukuran atau data-data dari kesamaan-kesamaan yang dapat dihitung.
Untuk menggambarkan sifat yang sulit dalam pendefinisian suatu
pengelompokkan dasar, misalnya pengurutan 16 kartu dalam permainankartu
biasa ke dalam cluster dari kesamaan objek-objek. Beberapa pengelompokkan
digambarkan dalam gambar 12.1, ini dengan jelas bahwa maksud pembagian-
pembagian tergantung pada pendefinisiankesamaan.
Untuk permainan kartu contohnya, terdapat satu cara membentuk suatu
kelompok tunggal pada 16 kartu; terdapat 32.767 cara untuk membagi kartu ke
dalam dua kelompok (bermacam-macam ukuran );terdapat 7.141.686 cara untuk
mengurutkan kartu-kartu ke dalam tigakelompok (bermacam-macam ukuran)
dan seterusnya.
Dengan jelas, batasan waktu membuat ini tidak mungkin untuk
menetukan pengelompokkan terbaik pada kesamaan objek-objek darisuatu daftar
dari semua struktur yang mungkin. Meskipun komputer-komputer besar dengan
mudah meliputi jumlah kasus yang besar. Jadisatu kasus menyelesaikan
pencarian algoritma yang baik, tetapi tidak memenuhi yang terbaik dalam
pengelompokkan. Kembali lagi, pertamaharus dikembangkan suatu ukuran
kuantitatif untuk assosiasi (kesamaan) ukuran antara objek-objek.
Bagian 12.2 memberikan suatu pendiskusian pada kesamaanukuran.
Setelah bagian 12.2 dideskripsikan sedikitnya dari beberapaalgoritma umum
untuk pengurutan objek-objek ke dalam kelompok-kelompok. Meskipun tanpa
notasi yang tepat pada suatu pengelompokkan biasa, sering digunakan objek
cluster dalam dua atau tigadimensi scatter plot, memiliki keuntungan pada
kemampuan pemikiran untuk mengelompokkan objek-objek yang sama dan
untuk memilih pengamatan-pengamatan terpencil, langkah grafik secara umum
baru-baruini dikembangkan untuk penggambaran dimensi tingkat tinggi
pengamatan- pengamatan dalam dua dimensi. Beberapa dari teknik langkahnya
diberikan dalam bagian 12.5 dan 12.6.

4.2 Cara Kerja Analisis Cluster


Secara garis besar ada tiga hal yang harus terjawab dalam proses
kerjaanalisis cluster, yaitu :
1. Bagaimana mengukur kesamaan ?
Ada tiga ukuran untuk mengukur kesamaaan antar objek, yaitu
ukurankorelasi, ukuran jarak, dan ukuran asosiasi.
2. Bagaimana membentuk cluster ?
Prosedur yang diterapkan harus dapat mengelompokkan objek-objek
yangmemiliki kesamaan yang tinggi ke dalam sutau cluster yang sama.
3. Berapa banyak cluster/kelompok yang akan dibentuk ?
Pada prinsipnya jika jumlah cluster berkurang maka homogenitas
alamcluster secara otomatis akan menurun.

4.3 Proses Analisis Cluster


Sebagaimana teknik multivariat lain proses analisis cluster
dapatdijelaskan dalam enam tahap sebagai berikut :
4.3.1 Tahap Pertama : Tujuan Analisi Cluster
Tujuan utama analisis cluster adalah mempartisi suatu set objek
menjadi dua kelompok atau lebih berdasarkan kesamaan karakteristik khusus
yang dimilikinya.Dalam pembentukan kelompok/cluster dapat dicapai tiga
tujuan, yaitu :
1. Deskripsi klasifikasi (taxonomy description)
Penerapan anallisis cluster secara tradisisonal bertujuan mengeksplorasi
dan membentuk suatu klasisfikasi/taksonomi secara empiris. Karena
kemampuan partisinya analisis cluster dapatditerapkan secara luas.
Meskipun secara empiris merupakan teknik eksplorasi analisis cluster
dapat pula digunakan untuk tujuan konfirmasi.
4.3.2 Tahap Kedua : Desain Penelitian dalam Analisis Cluster
Tiga hal penting dalam tahap ini adalah pendeteksian
outlier,mengukur kesamaan, dan standarisasi data.
1. Pendeteksian Outlier
Outlier adlah suatu objek yang sangat berbeda dengan objek
lainnya.Outlier dapat digambarkan sebagai observasi yang secara
nyata kebiasaan, tidak mewakili populasi umum, dan adanya under
sampling dapat pula memunculkan outlier. Outlier menyebabkan
struktur yang tidak benar dan cluster yang terbentuk menjadi tidak
representatif.
2. Mengukur Kesamaan antar Objek
Konsep kesamaan adalah hal yang fundamental dalam analisis
cluster.Kesamaan antar objek merupakan ukuran korespondensi antar
objek.Ada tiga metode yang dapat diterapkan, yaitu ukuran korelasi,
ukuran jarak, dan ukuran asosiasi.
3. Standarisasi Data
a. Standarisasi Variabel
Bentuk paling umum dalam standarisasi variabel adalah
konversisetiap variabel terhadap skor atandar (dikenal dengan
Z score) dengan melakukan substraksi nilai tengan dan
membaginya dengans tandar deviasi tiap variabel.
b. Standarisasi Data
Berbeda dengan standarisasi variabel, standarisasi ndata
dilakukanterhadap observasi/objek yang akan
dikelompokkan.

4.3.3 Tahap Ketiga : Asumsi-asumsi dalam Analisis Cluster


Seperti hal teknik analisis lain,analisis cluster juga
menetapkanadanya suatu asumsi. Ada dua asumsi dalam analisis cluster,
yaitu :
1. Kecukupan Sampel untuk merepresentasikan/mewakili Populasi
Biasanya suatu penelitian dilakukan terhadap populasi diwakili oleh
ekelompok sampel. Sampel yang digunakan dalam analisis cluster
harus dapat mewakili populasi yang ingin dijelaskan, karena
analisisini baik jika sampel representatif. Jumlah sampel yang
diambiltergantung penelitinya, seorang peneliti harus yakin bahwa
sampilyang diambil representatif terhadap populasi.
2. Pengaruh Multukolinieritas
Ada atau tidaknya multikolinieritas antar variabel sangatdiperhatikan
dalam analisis cluster karena hal itu berpengaruh,sehingga variabel-
variabel yang bersifat multikolinieritas secaraeksplisit
dipertimbangkan dengan lebih seksama.

4.3.4 Tahap Keempat : Proses Mendapatkan Cluster dan Menilai kelayakan


secara keseluruhan
Ada dua proses penting yaitu algoritma cluster dalam
pembentukancluster dan menentukan jumlah cluster yang akan dibentuk.
Keduanyamempunyai implikasi substansial tidak hanya pada hasil yang
diperolehtetapi juga pada interpretasi yang akan dilakukan terhadap hasil
tersebut.
Algoritma Cluster
Algoritma cluster harus dapat memaksimalkan perbedaan relatif
cluster terhadap variasi dalam cluster. Dua metode paling umum
dalamalgoritma cluster adalahmetode hirarkhi dan metode non
hirarkhi.Penentuan metode mana yag akan dipakai tergantung kepada
peneliti dankonteks penelitian dengan tidak mengabaikan substansi, teori
dan konsepyang berlaku.
Keduanya memiliki kelebihan sendiri-sendiri. Keuntungan
metode hirarkhi adalah cepat dalam proses pengolahan sehingga
menghemat waktu, namun kelemahannya metode ini dapat menimbulkan
kesalahan. Selain itu tidak baik diterapkan untuk menganalisis
sampeldengan ukuran besar. Metode Non Hirarkhi memiliki keuntungan
lebihdaripada metode hirarkhi. Hasilnya memiliki sedikit kelemahan
pada data outlier, ukuran jarak yang digunakan, dan termasuk variabel
tak relevanatau variabel yang tidak tepat. Keuntungannya hanya dengan
menggunakan titik bakal nonrandom, penggunaan metode non hirarkhi
untuk titik bakal random secara nyata lebih buruk dari pada
metodehirarkhi.
Alternatif lain adalah dengan mengkombinasikan kedua metode
ini. Pertama gunakan metode hirarkhi kemudian dilanjutkan dengan
metode non hirarkhi
1. Metode Hirarkhi
Tipe dasar dalam metode ini adalah aglomerasi dan
pemecahan. Dalam metode aglomerasi tiap observasi pada mulanya
dianggap sebagai cluster tersendiri sehingga terdapat cluster
sebanyak jumlah observasi. Kemudian dua cluster yang terdekat
kesamaannyadigabung menjadi suatu cluster baru, sehingga jumlah
cluster berkurang satu pada tiap tahap. Sebaliknya pada metode
pemecahan dimulai dari satu cluster besar yang mengandung seluruh
observasi,selanjutnya observasi-observasi yang paling tidak sama
dipisah dan dibentuk cluster-cluster yang lebih kecil. Proses ini
dilakukan hinggatiap observasi menjadi cluster sendiri-sendiri.Hal
penting dalam metode hirarkhi adalah bahwa hasil padatahap
sebelumnya selalu bersarang di dalam hasil pada tahap berikutnya,
membentuk sebuah pohon.

2. Metode Non Hirarkhi


Masalah utama dalam metoda non hirarkhi adalah
bagaimanamemilih bakal cluster. Harus disadari pengaruh pemilihan
bakal cluster terhadap hasil akhir analisis cluster. Bakal cluster
pertama adalahobservasi pertama dalam set data tanpa missing value.
Bakal kedua adalahobservasi lengkap berikutnya (tanpa missing data)
yang dipisahkan dari bakal pertama oleh jarak minimum khusus.
4.3.5 Tahap Kelima : Interpretasi terhadap Cluster
Tahap interpretasi meliputi pengujian tiap cluster dalam term
untuk menamai dan menandai dengan suatu label yang secara akurat
dapat menjelaskan kealamian cluster. Proes ini dimulai dengan suatu
ukuran yang sering digunakan yaitu centroid cluster. Membuat profil dan
interpretasi cluster tidak hanya tidak hanya untuk memperoleh suatu
gambaran saja melainkan pertama, menyediakan suatu rata-rata untuk
menilai korespondensi pada cluster yang terbentuk,kedua, profil cluster
memberikan araha bagi penilainan terhadap signifikansi praktis.
4.4 metode klastering PT.INDOMARCO
Pada penjelasan bagian ini akan di implementasikan antar muka program yang
dibuat untuk simulasi penerapan data mining penjualan makanan dan minuman yaitu :
Tampilan Login User Tampilan awal program ketika dijalankan user diminta melakukan
pengisian username dan pasword terlebih dahulu. Hanya user yang telah didaftarkan
admin yang dapat masuk ke aplikasi penerapan data mining penjualan makanan
dan minuman ini.

Pada form ini akan dimasukkan data indomaret yang tersebar di beberapa wilayah di sumatera
selatan.
Untuk menambah data indomaret, user dapat melakukannya dengan memilih menu tambah
data.

Pada menu ini user dapat menambahkan data kategori, user dapat melakukan dengan memilih
menu tambah data.

User dapat memasukkan total penjualan makanan dan minuman perbulan ke wilayah yang
tersebar di sumatera selatan. Pembagian wilayah indomaret telah ditentukan dan diinput pada
saat pertama kali dilakukan penginputan wilayah sumatera selatan. Untuk menambah data
wilayah, user dapat melakukannya dengan memilih menu tambah data.

User dapat menginput data produk tambahan selain makanan dan minuman.
Pada menu ini akan dihasilkan total penjualan dari masing-masing wilayah, total penjualan
akan ditampilkan dalam bentuk diagram batang, dari diagram batang akan diperlihatkan total
penjualan terbanyak dari masing-masing wilayah. Informasi penjualan ini akan membantu
perusahaan untuk pengambilan keputusan Untuk menentukan penjualan pada bulan
berikutnya.

4.5 Source Code Klastering

library(inline)
library(pracma)

x <- mtcars["Honda Civic",]


y <- mtcars["Camaro Z28?,]
xy <-rbind(x,y)
dist(xy,method="euclidian")
dist(xy,method="maximum")
dist(xy,method="manhattan")
dist(xy,method="canberra")
dist(xy,method="binary")
dist(xy,method="minkowski")

d <-dist(as.matrix(mtcars))
hc <-hclust(d)
plot(hc)

hc <-hclust(d,method="single")
plot(hc)

hc <-hclust(d,method="average")
plot(hc)

hc <-hclust(d,method="ward.D")
plot(hc)

hc <-hclust(d,method="ward2.D")
plot(hc)
hc <-hclust(d,method="centroid")
plot(hc)
hc <-hclust(d,method="median")
plot(hc)

library(ggplot2)
ggplot(mtcars, aes(mpg, cyl, color = cyl)) + geom_point()
hasilk<-kmeans(mtcars,3)
hasilk$cluster
setwd("C://")
write.csv(hasilk$cluster, file = "hasilklaster.csv")

write.csv(hasilk$centers, file = "hasilpusat.csv")


Gambar 4.1 Cluster Dendogram (“complete”)

Gambar 4.2 Cluster Dendogram (“single”)


Gambar 4.3 Cluster Dendogram (“average”)

Gambar 4.4 Cluster Dendogram(“ward.D”)


Gambar 4.5 Cluster Dendogram(“centroid”)

Gambar 4.6 Cluster Dendogram(“median”)


Gambar 4.7 Cluster Dendogram (“mpg”)
BAB V
KESIMPULAN

Setelah melakukan analisis, perancangan, dan pengujian maka dapat diperoleh


kesimpulan sebagai berikut :
a. Penerapan Data Mining dengan menggunakan aplikasi yang dibangun dapat
membantu PT. Indomarco sebagai gambaran bagi pengambilan keputusan perusahaan
dalam rangka mendapatkan pola penjualan produk.
b. Pengolahan data yang dilakukan dapat menghasilkan informasi yang cukup
untuk dapat dianalisa lebih lanjut.
c. Aplikasi yang dibangun dapat mengurangi penumpukan data yang kurang
dimanfaatkan sebelumnya. Analisis cluster dilakukan untuk mengelompokan objek-
objek yang memiliki kemiripan (homogen). Berdasarkan karakteristik yang dimiliki
dengan analisis cluster sekelompok objek dapat dikelompokkan.
DAFTAR PUSTAKA

Suttrisno, Afriyudi dan Widiyanto. 2013. Penerapan Data Mining Pada Penjualan
Menggunakan Metode Clustering. Palembag : Universittas Bina Darma.
Hartini,Entin. Metode Clustering Hirarki.(Online).
https://sindarku.wordpress.com/tag/document-clustering/ diakses pada tanggal 16
Januari 2018

Anda mungkin juga menyukai