Anda di halaman 1dari 16

TUGAS PRAKTIKUM

ANALISIS CLUSTER
(Diajukan Sebagai Salah Satu Syarat Untuk Memenuhi Tugas Mata Kuliah Analisis Data
Multivariat II)

Di susun oleh :

Ahmad Ramdani 140610170041

\
PROGRAM STUDI STATISTIKA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
UNIVERSITAS PADJADJARAN
SUMEDANG

2020
I. Teori Analisis Cluster

Analisis cluster merupakan teknik multivariat yang mempunyai tujuan utama untuk
mengelompokkan objek-objek berdasarkan karakteristik yang dimilikinya. Analisis cluster
mengklasifikasi objek sehingga setiap objek yang paling dekat kesamaannya dengan objek
lain berada dalam cluster yang sama. Cluster-cluster yang terbentuk memiliki homogenitas
internal yang tinggi dan heterogenitas eksternal yang tinggi. Berbeda dengan teknik multivariat
lainnya, analisis ini tidak mengestimasi set vaiabel secara empiris sebaliknya menggunakan
setvariabel yang ditentukan oleh peneliti itu sendiri. Fokus dari analisis cluster adlah
membandingkan objek berdasarkan set variabel, hal inilah yang menyebabkan para ahli
mendefinisikan set variabel sebagai tahap kritis dalam analisis cluster. Set variabel cluster
adalah suatu set variabel yang merpresentasikan karakteristik yang dipakai objek-objek.
Bedanya dengan analisis faktor adalah bahwa analisis cluster terfokus pada pengelompokan
objek sedangkan analisis faktor terfokus pada kelompok variabel.

Solusi analisis cluster bersifat tidak unik, anggota cluster untuk tiap penyelesaian/solusi
tergantung pada beberapa elemen prosedur dan beberapa solusi yang berbeda dapat diperoleh dengan
mengubah satu elemen atau lebih. Solusi cluster secara keseluruhan bergantung pada variabel-variaabel
yang digunakan sebagai dasar untuk menilai kesamaan. Penambahan atau pengurangan variabel-
variabel yang relevan dapat mempengaruhi substansi hasi analisisi cluster.

II. Contoh Kasus

Cereal Protein Carbohydrates Fat Calories Vitamin A


Life 6 19 1 110 0
Grape nuts 3 23 0 100 25
Super Sugar Crips 2 26 0 110 25
Special K 6 21 0 110 25
Rice Krispies 2 25 0 110 25
Raisin Bran 3 28 1 120 25
Product 19 2 24 0 110 100
Wheties 3 23 1 110 25
Total 3 23 1 110 100
Puffed Rice 1 13 0 50 0
Sugar Corn Pops 1 26 0 110 25
Sugar Snack 2 25 0 110 25
Tabel di atas merupakan data 5 nutrisi yang terkandung dalam 12 jenis sereal untuk
sarapan. Akan dilakukan analisis cluster untuk mengklasifikasikan ke 12 jenis sereal tersebut
menjadi beberapa golongan.
Metode yang akan digunakan yaitu metode Hierarki yang terdiri dari metode Average,
Complete, Single, Ward’s dan Centroid. Dari ke -5 meteode Hierarki tersebut, akan di lihat
metode mana yang paling cocok untuk digunakan sebagai alat untuk analisis cluster pada data
di atas. Indikator untuk metode yang paling cocok adalah dengan membandingkan nilai korelasi
yang dihasilkan dari ke -5 metode tersebut, nilai korelasi yang paling tinggi menunjukan bahwa
metode tersebut merupakan metode yang paling cocok untuk digunakan.
Selanjutnya akan dilakukan analisis cluster dengan menggunakan software R. Langkah
awal yang dilakukan adalah dengan memanggil data untuk di masukan ke dalam software R.

Setelah data dipanggil, langkah selanjutnya melakukan uji asumsi dan kemudian melakukan
analisis cluster.

III. Uji Asumsi

Sebelum analisis cluster dilakukan, harus dipenuhi terlebih dahulu asumsi yang
dibutuhkan yaitu asumsi Multikolinearitas atau tidak adanya korelasi antar variabel bebas.
Untuk mengetahui suatu variabel bebas memiliki multikolinearitas adalah dengan melihat nilai
VIF. Variabel bebas yang memiliki nilai VIF lebih dari 10 menunjukan bahwa terdapat
multikolinearitas. Selanjutnya akan dilakukan uji asumsi multikolinearitas yang dilakukan
dengan menggunakan software R sebagi berikut.
Dari hasil analisis di atas diketahui terdapat dua variabel yang memiliki nilai VIF lebih dari 10,
yaitu Carbohydrates dan Calories. Pada analisis ini, di asumsikan bahwa semua variabel tidak
memliki multikolinearitas, maka analisis cluster dapat dilanjutkan.

IV. Analisis

Analisis Cluster akan dilakukan dengan menggunakan metode Hierarki yang terdiri dari :
a. Metode Average
b. Metode Complete
c. Metode Single
d. Metode Ward’s
e. Metode Centroid

Sedangkan variabel bebas pada penelitian ini terdiri dari 5 variabel yaitu :

X1 : Protein

X2 : Carbohydrates

X3 : Fat

X4 : Calories

X5 : Vitamin A

Dimana kerima variabel tersebut merupakan kandungan nutrisi dari 12 jenis sereal
yang menjadi object penelitian yang pada akhir penelitian akan diklasifikasikan menjadi
beberapa golongan.

Pada analisis ini juga akan dicari metode mana yang paling cocok dengan melihat nilai
korelasinya. Berikut analisis cluster yang dilakukan dengan metode Hierarki menggunakan
software R.

Analisis dilakukan dengan menggunakan function yang disusun oleh peneliti yang akan
mempermudah analisis ini, berikut function pada software R yang telah disusun peneliti.
Dengan memanfaatkan function yang sudah dibuat, selanjutnya analisis cluster akan dilakukan
sebagai berikut.

A. Metode Average
Dari hasil analisis di atas, didaptkan jarak euclidean untuk data dimana jarak paling
dekat adalah dari data ke -5 ( Rice Krispies ) ke data ke – 12 ( Sugar Snack ) sebesar 0 .
Sedangkan jarak paling jauh berada di data ke -1 ( Life ) ke data ke – 10 ( Puffed Rice )
sejauh 117.14091 . Nilai korelasi yang didapatkan dari metode ini yaitu sebesar 0.9733117
yang menunjukan korelasi yang sangat kuat dan bernilai positif atau berbanding lurus.
Selanjutnya akan dilihat pengklasteran dari data dengan melihat plot dendogram dibawah
ini.
Dari plot diatas bisa dilihat bahwa jenis seral di kelompokan menjadi 3 golongan,
golongan ke -1 terdiri dari jenis sereal Life dan Special K. Selanjutnya untuk golongan ke
-2 terdiri dari Product 19, Total, Grape nuts, Sugar Corn Pops, Rice Krispies, Sugar Snack,
Raisin Bran dan Wheeties. Sedangkan untuk golongan ke – 3 terdiri dari jenis sereal Puffed
Rice saja. Berikut pengelompokan jenis sereal dalam bentuk tabel.

B. Metode Complete
Analisis dengan metode Complete menghasilkan nilai korelasi sebesar 0.9644746 dan
menunjukan korelasi yang kuat dan berbanding lurus. Untuk jarak data dengan metode ini
didapatkan hasil yang sama dengan metode sebelumnya. Selanjutnya akan dilihat
pengelompokan jenis sereal yang dilihat dari dendogram dibawah ini.

Pengelompokan dengan metode Complete memberikan hasil yang sama dengan


metode Average. Dengan hasil terdapat 3 golongan, golongan ke -1 terdiri dari jenis sereal
Life dan Special K. Selanjutnya untuk golongan ke -2 terdiri dari Product 19, Total, Grape
nuts, Sugar Corn Pops, Rice Krispies, Sugar Snack, Raisin Bran dan Wheeties. Sedangkan
untuk golongan ke – 3 terdiri dari jenis sereal Puffed Rice saja. Berikut pengelompokan
jenis sereal dalam bentuk tabel.

C. Metode Single
Dari hasil analisis dengan menggunakan metode Single, didapatkan nilai korelasi sebesar
0.9725565 yang menunjukan hubungan yang kuat dan berbandung lurus. Selanjutnya akan
dilihat pengelompokan jenis sereal yang akan dilihat dari plot dendogram berikut.

Dengan metode Single, golongan ke -1 terdiri dari jenis sereal Life ,Special K, Grape
nuts, Sugar Corn Pops, Rice Krispies, Sugar Snack, Raisin Bran dan Wheeties. Selanjutnya
untuk golongan ke -2 terdiri dari Product 19 dan Total. Sedangkan untuk golongan ke – 3
terdiri dari jenis sereal Puffed Rice saja atau jika dilihat dalam bentuk tabel adalah sebagai
berikut.

D. Metode Ward’s
Korelasi yang didapat dari metode Ward’s adalah sebesar 0.9361051 yang menunjukan
korelasi yang kuat dan berbanding lurus. Kemudian untuk pengelompokan jenis seralnya
adalah sebagai berikut.

Dilihat dari dendogram di atas, untuk golonngan ke-1 terdiri dari Product 19, Total,
Raisin Brain, Wheeties, Life dan Special K. Sementara itu untuk Golongan ke – 2 terdiri
dari Grape nuts, Sugar Corn Pops, Suoer Sugar Crips, Rice Krispies, dan Sugar Snack.
Sedangkan untuk gologan ke – 3 yaitu Puffed Rice dengan hasil dalam tabel adalah
sebagai berikut.
E. Metode Centroid
Nilai korelasi yang didapat dari metode Centroid adalah sebesar 0.9726462 dan
menunjukan hubungan yang kuat dan berbanding lurus. Selanjutnya pengelompokan jenis
sereal akan dilihat dari dendogram dibawah ini.

Untuk golongan ke -1 terdiri dari jenis sereal Life. Selanjutnya untuk golongan ke – 2
terdiri dari Total, Special K, Product 19, Grape nuts, Sugar Corn Pops, Super Sugar Snack,
Raisin Barn dan Wheeties. Sedangkan untuk golongan ke – 3 yaitu Puffed Rice.
Pengelompokan dalam bentuk tabel bisa dilihat dari tabel dibawah ini.
Setelah dilakukan analisis cluster dengan menggunakan metode Hierarki yang terdiri
dari 5 metode, akan ditentukan metode mana yang paling cocok yang akan dilihat dari nilai
korelasi dari tiap metode. Analisis dilakukan dengan menggunakan software R dengan hasil
sebagai berikut.

Dari hasil diatas bisa dilihat bahwa metode Average menjadi mentode yang paling
cocok untuk digunakan sebagai analisis cluster pada data jenis sereal dengan nilai korelasi
sebesar 0.973317
V. Kesimpulan

Setelah dilakukan analisis cluster dengan menggunakan metode Hierarki yang terdiri
dari metode Average, Complete, Single, Ward’s dan Centroid didapatkkan hasil yaitu jarak,
nilai korelasi dan pengelompokan data serta metode yang paling cocok.
Dari hasil diatas didapat bahwa metode Average merupakan metode yang paling cocok
untuk analisis cluster pada data jenis sereal. Dengan keterangan jarak euclidean untuk data
dimana jarak paling dekat adalah dari data ke -5 ( Rice Krispies ) ke data ke – 12 ( Sugar Snack
) sebesar 0 . Sedangkan jarak paling jauh berada di data ke -1 ( Life ) ke data ke – 10 ( Puffed
Rice ) sejauh 117.14091 . selain itu didapatkan nilai korelasi sebesar 0.9733117 yang
menunjukan korelasi yang sangat kuat dan bernilai positif atau berbanding lurus.
Kemudian untuk pengelompokan data terdapat 3 klaster yang bisa dilihat dari tabel dibawah
ini.

Cereal Cluster
Life 1
Special K 1
Grape nuts 2
Super Sugar Crips 2
Rice Krispies 2
Raisin Bran 2
Product 19 2
Wheties 2
Total 2
Sugar Corn Pops 2
Sugar Snack 2
Puffed Rice 3

Anda mungkin juga menyukai