Anda di halaman 1dari 8

K-MEANS

ADE KARMILA
G50117077

PROGRAM STUDI STATISTIKA JURUSAN MATEMATIKA


FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
UNIVERSITAS TADULAKO

APRIL 2021
A. Data
Data yang digunakan pada analisis ini adalah data white_wine3 tugas.xlsx. Variabel yang
digunakan adalah fixed acidity, volatile acidity, citric acid, residual sugar, chlorides, free
sulfur dioxide, total sulfur dioxide, density, pH, dan sulphates (Data terlampir).

B. Hasil dan Pembahasan


1. Determining Optimal Cluster
1.1 Metode Elbow
Metode elbow merupakan salah satu metode untuk menunjukkan jumlah tepat melalui
persentase hasil perbandingan antara jumlah cluster yang akan membentuk siku pada
suatu titik. Jika nilai cluster pertama dengan nilai cluster kedua memberikan sudut
dalam grafik atau nilainya mengalami penurunan paling besar maka jumlah nilai
cluster tersebut yang tepat. Berikut hasil gafik yang diperoleh berdasarkan data yang
telah diberikan:

Berdasarkan grafik diatas dapat dilihat bahwa jumlah cluster yang berbentuk siku
terlihat jelas saat jumlah cluster k =3, sedangkan pada jumlah cluster k = 4 hingga k
= 10 terlihat mulai stabil, maka jumlah cluster optimal berada pada k=3.
1.2 Metode Silhoeutte
Metode silhoeutte adalah pendekatan yang menggunakan rata-rata nilai cluster untuk
menduga nilai k optimum. Semakin tinggi nilai rata-ratanya maka akan semakin baik
hasil cluster-nya. Berikut hasil grafik yang diperoleh berdasarkan data:

Berdasarkan grafik diatas dapat dilihat bahwa nilai rata-rata tertinggi berada di jumlah
cluster k =2, sedangkan pada jumlah cluster k = 3 hingga k = 10 terlihat mulai stabil,
maka jumlah cluster optimal berada pada k=2.

2. Cluster dengan K Terbaik


Dengan menggunkana nilai k = 3, maka diperoleh:

Tabel 1. Jumlah Data Masing-masing Cluster


Cluster Jumlah
1 1470
2 1581
3 1847

Berdasarkan Tabel.1 diatas dapat dilihat terbentuk 3 cluster dengan cluster 1 berisi 1470
data, cluster 2 berisi 1581 data dan cluster 3 berisi 1847 data.
Tabel 2. Jumlah Data Masing-masing Cluster
Fixed acidity Volatile acidity Citric acid Residual sugar Chlorides
1 6.707891 37.73197 0.3262381 2.564150 0.04190952
2 7.051803 38.37824 0.3591841 11.130614 0.04797343
3 6.803059 39.25176 0.3191283 5.380807 0.04696264
Free sulfur dioxide Total sulfur dioxide Density pH Sulphates
1 28.95170 116.3810 212.7463 42.21701 0.4764830
2 41.22644 157.8707 751.5617 41.85642 0.5034662
3 35.30103 139.1538 493.2989 44.13319 0.4888251

Berdasarkan Tabel.2 diatas dapat dilihat bahwa titik pusat (centroid) dari tiap cluster
pada masing-masing variabel. Dan ketiga cluster, yang memiliki rata-rata cluster tertinggi
terdapat pada cluster 2, sehingga cluster 2 adalah cluster terbaik.

Berdasarkan gambar visual yang diperoleh diatas hasil cluster plot dari 3 cluster dengan
standarisasi, pada gambar cluster saling menimpa, maka dapat dikatakan bahwa cluster
belum ideal.
LAMPIRAN
• Syntax
library(factoextra)
set.seed(26)

#Input Data
data<-read.delim("clipboard")
data
str(data)

#Merubah Tipe Data


data$volatile.acidity<-as.numeric(data$volatile.acidity)
data$density<-as.numeric(data$density)
str(data)

#Determining Optimal Cluster


#Metode Elbow
fviz_nbclust(data, kmeans, method='wss')

#Metode Silhoutte
fviz_nbclust(data, kmeans, method='silhouette')

#Cluster dengan k terbaik


cl<-kmeans (data,3)
cl
cl$cluster

#Visualisasi
fviz_cluster(cl, data = data, ellipse.type = "convex", palette = "jco", repel = TRUE, ggtheme
= theme_minimal())

• Data
fixed volatile citric residual free sulfur total sulfur
chlorides density pH sulphates
acidity acidity acid sugar dioxide dioxide
7,4 0,27 0,48 1,1 0,047 17 132 0,9914 3,19 0,49
7,2 0,32 0,36 2 0,033 37 114 0,9956 3,1 0,71
8,5 0,24 0,39 10,4 0,044 20 142 0,9974 3,2 0,53
8,3 0,14 0,34 1,1 0,042 7 47 0,9934 3,47 0,4
7,4 0,25 0,36 2,05 0,05 31 100 0,992 3,19 0,44
6,2 0,12 0,34 1,5 0,045 43 117 0,9939 3,42 0,51
5,8 0,27 0,2 14,95 0,044 22 179 0,9962 3,37 0,37
7,3 0,28 0,43 1,7 0,08 21 123 0,9905 3,19 0,42
6,5 0,39 0,23 5,4 0,051 25 149 0,9934 3,24 0,35
7 0,33 0,32 1,2 0,053 38 138 0,9906 3,13 0,28
7,3 0,24 0,39 17,95 0,057 45 149 0,9999 3,21 0,36
7,3 0,24 0,39 17,95 0,057 45 149 0,9999 3,21 0,36
6,7 0,23 0,39 2,5 0,172 63 158 0,9937 3,11 0,36
6,7 0,24 0,39 2,9 0,173 63 157 0,9937 3,1 0,34
7 0,31 0,26 7,4 0,069 28 160 0,9954 3,13 0,46

8,1 0,28 0,4 6,9 0,05 30 97 0,9951 3,26 0,44


6,3 0,48 0,04 1,1 0,046 30 99 0,9928 3,24 0,36
7,2 0,23 0,32 8,5 0,058 47 186 0,9956 3,19 0,4
6,6 0,17 0,38 1,5 0,032 28 112 0,9964 3,25 0,55
7,2 0,23 0,32 8,5 0,058 47 186 0,9956 3,19 0,4
8,3 0,42 0,62 19,25 0,04 41 172 10.002 2,98 0,67
8,1 0,28 0,4 6,9 0,05 30 97 0,9951 3,26 0,44
6,6 0,16 0,4 1,5 0,044 48 143 0,9962 3,54 0,52
6,2 0,32 0,16 7 0,045 30 136 0,9949 3,18 0,47
7,9 0,18 0,37 1,2 0,04 16 75 0,992 3,18 0,63
7 0,27 0,36 20,7 0,045 45 170 1.001 3 0,45
8,6 0,23 0,4 4,2 0,035 17 109 0,9947 3,14 0,53
6,3 0,3 0,34 1,6 0,049 14 132 0,994 3,3 0,49
8,1 0,27 0,41 1,45 0,033 11 63 0,9908 2,99 0,56
8,1 0,22 0,43 1,5 0,044 28 129 0,9938 3,22 0,45
• Output
with 3 clusters oI sises 1470, l5:l, l:47

citiic.acia cnloiides

total.sulfur.aioxiae density r% axis.ates

Anda mungkin juga menyukai