Anda di halaman 1dari 16

MAKALAH

CLUSTER ANALYSIS

NAMA : PUTRI FEBRIYANTI


NIM : 105841108619
KELAS : 6C INFORMATIKA

UNIVERSITAS MUHAMMADIYAH MAKASSAR


FAKULTAS TEKNIK
TEKNIK INFORMATIKA
TAHUN 2021
BAB I
PENDAHULUAN

1.1 Latar Belakang


Analisis cluster merupakan teknik multivariat yang mempunyai tujuan
utama untukmengelompokkan objek-objek berdasarkan karakteristik yang
dimilikinya. Analisis clustermengklasifikasi objek sehingga setiap objek yang
paling dekat kesamaannya dengan objek lain berada dalam cluster yang sama.
Cluster-cluster yang terbentuk memiliki homogenitas internal yang tinggi dan
heterogenitas eksternal yang tinggi. Berbeda dengan teknik multivariat
lainnya,analisis ini tidak mengestimasi set vaiabel secara empiris sebaliknya
menggunakan set variabel yang ditentukan oleh peneliti itu sendiri. Fokus dari
analisis cluster adalah membandingkan objek berdasarkan set variabel, hal inilah
yang menyebabkan para ahli mendefinisikan set variabel sebagai tahap kritis
dalam analisis cluster. Set variabel cluster adalah suatu set variabelyang
mempresentasikan karakteristik yang dipakai objek-objek. Bedanya dengan
analisis faktor adalah bahwa analisis cluster terfokus pada pengelompokan objek
sedangkan analisis faktor terfokus pada kelompok variabel.
Solusi analisis cluster bersifat tidak unik, anggota cluster untuk tiap
penyelesaian/solusi tergantung pada beberapa elemen prosedur dan beberapa
solusi yang berbeda dapat diperoleh dengan mengubah satu elemen atau lebih.
Solusi cluster secara keseluruhan bergantung pada variabel-variaabel yang
digunakan sebagai dasar untuk menilai kesamaan. Penambahan atau
pengurangan variabel-variabel yang relevan dapat mempengaruhi substansi hasi
analisisi cluster.
1.2 Rumusan Masalah
Berdasarkan latar belakang di atas, rumusan permasalahan dalam
penulisan ini sebagai berikut :
1. Bagaimana kajian teoritis metode Klastering Data dalam pembentukan
klaster
2. Bagaimana penerapan metode klastering data dalam pembentukan klaster
pada show room mobil.
BAB II
TINJAUAN PUSTAKA

2.1 Definisi Analisi Cluster


Analisis cluster merupakan teknik multivariat yang mempunyai tujuan utama untuk
mengelompokkan objek-objek berdasarkan karakteristik yang dimilikinya. Analisis
cluster mengklasifikasi objek sehingga setiap objek yang paling dekat kesamaannya
dengan objek lain berada dalam cluster yang sama. Cluster-cluster yang terbentuk
memiliki homogenitas internal yang tinggi dan heterogenitas eksternal yang tinggi. Ada
lima metode aglomerasi dalam pembentukan cluster, yatiu :
a. Pautan Tunggal (Single Linkage)
Metode ini didasarkan pada jarak minimum. Dimulai dengan dua objek yang
dipisahkan dengan jarak paling pendek maka keduanya akan ditempatkan pada
cluster pertama, dan seterusnya. Metode ini dikenal pula dengan nama
pendekatan tetangga terdekat.
b. Pautan Lengkap (Complete Linkage)
Disebut juga pendekatan tetangga terjauh. Dasarnya adalah jarak
maksimum.Dalam metode ini seluruh objek dalam suatu cluster dikaitkan satu
sama lain pada suatu jarak maksimum atau dengan kesamaan minimum.
c. Metode Ward (Ward’s Method)
Dalam metode ini jarak antara dua cluster adalah jumlah kuadrat antara
duacluster untuk seluruh variabel. Metode ini cenderung digunakan untuk
mengkombinasi cluster-cluster dengan jumlah kecil.
d. Pautan Rata-rata (Average Linkage)
Dasarnya adalah jarak rata-rata antar observasi. pengelompokan dimulai
daritengan atau pasangan observasi dengan jarak paling mendekati jarak rata-
rata.
e. Metode Centroid
Jarak antara dua cluster adalah jarak antar centroid cluster tersebut.
Centroidcluster adalah nilai tengah observasi pada variabel dalam suatu set
variabel cluster. Keuntungannya adalah outlier hanya sedikit berpengaruh jika
dibandingkan dengan metode lain.
BAB III
METODE PENELITIAN

3.1. Metode penelitian ini adalah library research (penelitian kepustakaan), yaitu
penelitian yang dilaksanakn dengan menggunakan literatur (kepustakaan), baik
berupa buku, catatan, maupun laporan, hasil penelitian dari penelitian terdahulu.
3.2. Dalam kegiatan pengumpulan data untuk penelitian ini digunakan metode
pengumpulan studi pustaka yang mana pada metode ini kegiatan dilakukan
adalah mempelajari, mencari dan mengumpulkan data yang berhubungan
dengan penelitian ini. Data yang digunakan dalam pengelompokkan jenis mobil
ini diperoleh dari data show room di area Semarang dimana penelitian ini
dilakukan. Data yang diperoleh kemudian akan di olah menggunakan program
klaster bahasa R dengan mengambil nilai – nilai dari setiap atribut pada data
untuk mengelompokkan data jenis mobil.
3.3. Dalam penelitian studi literatur adalah kegiatan ilmiah yang dilakukan untuk
menemukan jawaban satu permasalahan, dan yang tujuan akhirnya adalah
memberikan kontribusi teoritis atau praktis pada pengembangan bidang ilmu
yang bersangkutan. Studi literatur yang digunakan disini meliputi pengolahan
data jenis mobil pada show room mobil di Semarang.
A.
BAB IV
HASIL DAN PEMBAHASAN

4.1 Analisis Cluster


Analisis cluster merupakan suatu teknik yang lebih sederhana
bukandalam asumsinya yang memusatkan jumlah kelompok-kelompok
ataustruktur kelompok. Pengelompokkan setuju pada kesamaan dasar atau jarak
(ketaksamaan). Masukan-masukan yang dibutuhkan merupakankesamaan
ukuran atau data-data dari kesamaan-kesamaan yang dapat dihitung.
Untuk menggambarkan sifat yang sulit dalam pendefinisian suatu
pengelompokkan dasar, misalnya pengurutan 16 kartu dalam permainankartu
biasa ke dalam cluster dari kesamaan objek-objek. Beberapa pengelompokkan
digambarkan dalam gambar 12.1, ini dengan jelas bahwa maksud pembagian-
pembagian tergantung pada pendefinisiankesamaan.
Untuk permainan kartu contohnya, terdapat satu cara membentuk suatu
kelompok tunggal pada 16 kartu; terdapat 32.767 cara untuk membagi kartu ke
dalam dua kelompok (bermacam-macam ukuran );terdapat 7.141.686 cara untuk
mengurutkan kartu-kartu ke dalam tigakelompok (bermacam-macam ukuran)
dan seterusnya.
Dengan jelas, batasan waktu membuat ini tidak mungkin untuk
menetukan pengelompokkan terbaik pada kesamaan objek-objek darisuatu daftar
dari semua struktur yang mungkin. Meskipun komputer-komputer besar dengan
mudah meliputi jumlah kasus yang besar. Jadisatu kasus menyelesaikan
pencarian algoritma yang baik, tetapi tidak memenuhi yang terbaik dalam
pengelompokkan. Kembali lagi, pertamaharus dikembangkan suatu ukuran
kuantitatif untuk assosiasi (kesamaan) ukuran antara objek-objek.
Bagian 12.2 memberikan suatu pendiskusian pada kesamaanukuran.
Setelah bagian 12.2 dideskripsikan sedikitnya dari beberapaalgoritma umum
untuk pengurutan objek-objek ke dalam kelompok-kelompok. Meskipun tanpa
notasi yang tepat pada suatu pengelompokkan biasa, sering digunakan objek
cluster dalam dua atau tigadimensi scatter plot, memiliki keuntungan pada
kemampuan pemikiran untuk mengelompokkan objek-objek yang sama dan
untuk memilih pengamatan-pengamatan terpencil, langkah grafik secara umum
baru-baruini dikembangkan untuk penggambaran dimensi tingkat tinggi
pengamatan- pengamatan dalam dua dimensi. Beberapa dari teknik langkahnya
diberikan dalam bagian 12.5 dan 12.6.

4.2 Cara Kerja Analisis Cluster


Secara garis besar ada tiga hal yang harus terjawab dalam proses
kerjaanalisis cluster, yaitu :
1. Bagaimana mengukur kesamaan ?
Ada tiga ukuran untuk mengukur kesamaaan antar objek, yaitu
ukurankorelasi, ukuran jarak, dan ukuran asosiasi.
2. Bagaimana membentuk cluster ?
Prosedur yang diterapkan harus dapat mengelompokkan objek-objek
yangmemiliki kesamaan yang tinggi ke dalam sutau cluster yang sama.
3. Berapa banyak cluster/kelompok yang akan dibentuk ?
Pada prinsipnya jika jumlah cluster berkurang maka homogenitas
alamcluster secara otomatis akan menurun.

4.3 Proses Analisis Cluster


Sebagaimana teknik multivariat lain proses analisis cluster
dapatdijelaskan dalam enam tahap sebagai berikut :
4.3.1 Tahap Pertama : Tujuan Analisi Cluster
Tujuan utama analisis cluster adalah mempartisi suatu set objek
menjadi dua kelompok atau lebih berdasarkan kesamaan karakteristik khusus
yang dimilikinya.Dalam pembentukan kelompok/cluster dapat dicapai tiga
tujuan, yaitu :
1. Deskripsi klasifikasi (taxonomy description)
Penerapan anallisis cluster secara tradisisonal bertujuan mengeksplorasi
dan membentuk suatu klasisfikasi/taksonomi secara empiris. Karena
kemampuan partisinya analisis cluster dapatditerapkan secara luas.
Meskipun secara empiris merupakan teknik eksplorasi analisis cluster
dapat pula digunakan untuk tujuan konfirmasi.
4.3.2 Tahap Kedua : Desain Penelitian dalam Analisis Cluster
Tiga hal penting dalam tahap ini adalah pendeteksian
outlier,mengukur kesamaan, dan standarisasi data.
1. Pendeteksian Outlier
Outlier adlah suatu objek yang sangat berbeda dengan objek
lainnya.Outlier dapat digambarkan sebagai observasi yang secara
nyata kebiasaan, tidak mewakili populasi umum, dan adanya under
sampling dapat pula memunculkan outlier. Outlier menyebabkan
struktur yang tidak benar dan cluster yang terbentuk menjadi tidak
representatif.
2. Mengukur Kesamaan antar Objek
Konsep kesamaan adalah hal yang fundamental dalam analisis
cluster.Kesamaan antar objek merupakan ukuran korespondensi antar
objek.Ada tiga metode yang dapat diterapkan, yaitu ukuran korelasi,
ukuran jarak, dan ukuran asosiasi.
3. Standarisasi Data
a. Standarisasi Variabel
Bentuk paling umum dalam standarisasi variabel adalah
konversisetiap variabel terhadap skor atandar (dikenal dengan
Z score) dengan melakukan substraksi nilai tengan dan
membaginya dengans tandar deviasi tiap variabel.
b. Standarisasi Data
Berbeda dengan standarisasi variabel, standarisasi ndata
dilakukanterhadap observasi/objek yang akan
dikelompokkan.

4.3.3 Tahap Ketiga : Asumsi-asumsi dalam Analisis Cluster


Seperti hal teknik analisis lain,analisis cluster juga
menetapkanadanya suatu asumsi. Ada dua asumsi dalam analisis cluster,
yaitu :
1. Kecukupan Sampel untuk merepresentasikan/mewakili Populasi
Biasanya suatu penelitian dilakukan terhadap populasi diwakili oleh
ekelompok sampel. Sampel yang digunakan dalam analisis cluster
harus dapat mewakili populasi yang ingin dijelaskan, karena
analisisini baik jika sampel representatif. Jumlah sampel yang
diambiltergantung penelitinya, seorang peneliti harus yakin bahwa
sampilyang diambil representatif terhadap populasi.
2. Pengaruh Multukolinieritas
Ada atau tidaknya multikolinieritas antar variabel sangatdiperhatikan
dalam analisis cluster karena hal itu berpengaruh,sehingga variabel-
variabel yang bersifat multikolinieritas secaraeksplisit
dipertimbangkan dengan lebih seksama.

4.3.4 Tahap Keempat : Proses Mendapatkan Cluster dan Menilai kelayakan


secara keseluruhan
Ada dua proses penting yaitu algoritma cluster dalam
pembentukancluster dan menentukan jumlah cluster yang akan dibentuk.
Keduanyamempunyai implikasi substansial tidak hanya pada hasil yang
diperolehtetapi juga pada interpretasi yang akan dilakukan terhadap hasil
tersebut.
Algoritma Cluster
Algoritma cluster harus dapat memaksimalkan perbedaan relatif
cluster terhadap variasi dalam cluster. Dua metode paling umum
dalamalgoritma cluster adalahmetode hirarkhi dan metode non
hirarkhi.Penentuan metode mana yag akan dipakai tergantung kepada
peneliti dankonteks penelitian dengan tidak mengabaikan substansi, teori
dan konsepyang berlaku.
Keduanya memiliki kelebihan sendiri-sendiri. Keuntungan
metode hirarkhi adalah cepat dalam proses pengolahan sehingga
menghemat waktu, namun kelemahannya metode ini dapat menimbulkan
kesalahan. Selain itu tidak baik diterapkan untuk menganalisis
sampeldengan ukuran besar. Metode Non Hirarkhi memiliki keuntungan
lebihdaripada metode hirarkhi. Hasilnya memiliki sedikit kelemahan
pada data outlier, ukuran jarak yang digunakan, dan termasuk variabel
tak relevanatau variabel yang tidak tepat. Keuntungannya hanya dengan
menggunakan titik bakal nonrandom, penggunaan metode non hirarkhi
untuk titik bakal random secara nyata lebih buruk dari pada
metodehirarkhi.
Alternatif lain adalah dengan mengkombinasikan kedua metode
ini. Pertama gunakan metode hirarkhi kemudian dilanjutkan dengan
metode non hirarkhi
1. Metode Hirarkhi
Tipe dasar dalam metode ini adalah aglomerasi dan
pemecahan. Dalam metode aglomerasi tiap observasi pada mulanya
dianggap sebagai cluster tersendiri sehingga terdapat cluster
sebanyak jumlah observasi. Kemudian dua cluster yang terdekat
kesamaannyadigabung menjadi suatu cluster baru, sehingga jumlah
cluster berkurang satu pada tiap tahap. Sebaliknya pada metode
pemecahan dimulai dari satu cluster besar yang mengandung seluruh
observasi,selanjutnya observasi-observasi yang paling tidak sama
dipisah dan dibentuk cluster-cluster yang lebih kecil. Proses ini
dilakukan hinggatiap observasi menjadi cluster sendiri-sendiri.Hal
penting dalam metode hirarkhi adalah bahwa hasil padatahap
sebelumnya selalu bersarang di dalam hasil pada tahap berikutnya,
membentuk sebuah pohon.

2. Metode Non Hirarkhi


Masalah utama dalam metoda non hirarkhi adalah
bagaimanamemilih bakal cluster. Harus disadari pengaruh pemilihan
bakal cluster terhadap hasil akhir analisis cluster. Bakal cluster
pertama adalahobservasi pertama dalam set data tanpa missing value.
Bakal kedua adalahobservasi lengkap berikutnya (tanpa missing data)
yang dipisahkan dari bakal pertama oleh jarak minimum khusus.

4.3.5 Tahap Kelima : Interpretasi terhadap Cluster


Tahap interpretasi meliputi pengujian tiap cluster dalam term
untuk menamai dan menandai dengan suatu label yang secara akurat
dapat menjelaskan kealamian cluster. Proes ini dimulai dengan suatu
ukuran yang sering digunakan yaitu centroid cluster. Membuat profil dan
interpretasi cluster tidak hanya tidak hanya untuk memperoleh suatu
gambaran saja melainkan pertama, menyediakan suatu rata-rata untuk
menilai korespondensi pada cluster yang terbentuk,kedua, profil cluster
memberikan araha bagi penilainan terhadap signifikansi praktis.

4.4 Source Code Klastering

library(inline)
library(pracma)

x <- mtcars["Honda Civic",]


y <- mtcars["Camaro Z28?,]
xy <-rbind(x,y)
dist(xy,method="euclidian")
dist(xy,method="maximum")
dist(xy,method="manhattan")
dist(xy,method="canberra")
dist(xy,method="binary")
dist(xy,method="minkowski")

d <-dist(as.matrix(mtcars))
hc <-hclust(d)
plot(hc)

hc <-hclust(d,method="single")
plot(hc)

hc <-hclust(d,method="average")
plot(hc)

hc <-hclust(d,method="ward.D")
plot(hc)
hc <-hclust(d,method="ward2.D")
plot(hc)
hc <-hclust(d,method="centroid")
plot(hc)
hc <-hclust(d,method="median")
plot(hc)

library(ggplot2)
ggplot(mtcars, aes(mpg, cyl, color = cyl)) + geom_point()
hasilk<-kmeans(mtcars,3)
hasilk$cluster
setwd("C://")
write.csv(hasilk$cluster, file = "hasilklaster.csv")

write.csv(hasilk$centers, file = "hasilpusat.csv")

Gambar 4.1 Cluster Dendogram (“complete”)


Gambar 4.2 Cluster Dendogram (“single”)

Gambar 4.3 Cluster Dendogram (“average”)


Gambar 4.4 Cluster Dendogram(“ward.D”)

Gambar 4.5 Cluster Dendogram(“centroid”)


Gambar 4.6 Cluster Dendogram(“median”)

Gambar 4.7 Cluster Dendogram (“mpg”)


BAB V
KESIMPULAN

1. Analisis cluster dilakukan untuk mengelompokan objek-objek yang memiliki


kemiripan (homogen). Berdasarkan karakteristik yangdimiliki,dengan analisis
cluster sekelompok objek dapat dikelompokkan.

2. Metode pengelompokan pada dasarnya ada dua, yaitu pengelompokan hirarki


(Hierarchical Clustering Method) dan pengelompokan non hirarki (Non
Hierarchical Clustering Method).
DAFTAR PUSTAKA

Aji, Chandra.et al. Clustering.(Online).


Hartini,Entin. Metode Clustering Hirarki.(Online).
https://sindarku.wordpress.com/tag/document-clustering/ diakses pada tanggal 5
Januari 2018
http://www.batan.go.id/ppin/lokakarya/LKSTN_15/Entin.pdf (Unknown.Clustering.
(Online) diakses pada tanggal 5 Januari 2018

Anda mungkin juga menyukai