Anda di halaman 1dari 19

UJIAN AKHIR SEMESTER

ANALISIS DATA MULTIVARIAT 2


Diajukan Untuk Memenuhi Nilai Mata Kuliah Analisis Data Multivariat 2 Kelas B

Disusun Oleh:
Muhammad Ario Winaya 140610210050

Dosen:
Titi Purwandari, Dra.,MS.

PROGRAM STUDI S-1 STATISTIKA


FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
UNIVERSITAS PADJADJARAN
JATINANGOR
2023
1. Perusahaan perkebunan adalah suatu perusahaan berbentuk badan usaha/badan
hukum yang bergerak dalam kegiatan budidaya tanaman perkebunan diatas lahan
yang dikuasai, dengan tujuan ekonomi/komersial dan mendapat izin usaha adri
instansi yang berwenang dalam pemberian izin usaha perkebunan (Badan Pusat
Statistika, 2023). Penelitian dilakukan untuk menentukan profil kabupaten dan kota
di Jawa Barat berdasarkan hasil produksi tanaman perkebunan tahun 2021. Anda
dipersilakan mengunjungi
https://jabar.bps.go.id/indicator/163/312/1/produksitanaman-perkebunan.html.
Lakukan analisis sampai interpretasi dengan terlebih dahulu menetapkan
identifikasi masalah, tujuan, pembatasan masalah, unit observasi, variabel
penelitian, populasi/ sampling, skala pengukuran, asumsi.

Produksi Tanaman Perkebunan (Ton)


Kabupaten/Kota
Kelapa Sawit Kelapa Karet Kopi Kakao Lada Teh Cengkeh Tebu Tembakau

Bogor 43183.08 2159.91 212.23 4632.87 0.48 0.55 1216.98 668.05 0.00 0.00

Sukabumi 62072.63 2101.14 5598.46 326.02 49.47 33.80 5026.65 2325.02 0.00 0.00

Cianjur 10414.34 4534.78 1786.13 540.55 67.45 16.29 24908.57 669.20 0.00 41.93

Bandung 0.00 110.65 0.00 7825.37 0.00 0.00 35634.07 190.68 0.00 1486.08

Garut 2505.99 2965.45 6629.58 3036.29 0.90 17.23 7156.92 981.55 0.00 1042.26

Tasikmalaya 67.30 27574.74 2165.60 1486.96 175.45 314.82 14235.58 822.25 0.00 4.00

Ciamis 0.00 17224.83 2199.41 963.95 208.58 56.40 76.82 60.82 0.00 8.46

Kuningan 0.00 4333.08 61.00 490.09 2.01 6.17 0.00 306.67 1006.62 90.85

Cirebon 0.00 326.64 0.00 0.00 0.00 0.00 0.00 0.00 15726.79 0.00

Majalengka 0.00 1005.46 0.00 241.43 0.00 93.50 131.74 619.56 1632.48 2060.29

Sumedang 0.00 1776.41 0.00 824.71 12.84 100.14 304.35 915.79 194.89 2507.70

Indramayu 0.00 2428.26 0.00 0.00 0.00 0.00 0.00 0.00 6640.16 0.00

Subang 14684.63 2530.00 2683.37 547.05 0.00 38.05 2618.00 292.02 4248.11 22.00

Purwakarta 0.00 886.99 2180.87 188.83 0.00 23.02 5350.19 502.48 0.00 0.00

Karawang 0.00 984.00 0.00 354.00 18.65 1.90 0.00 6.50 0.00 0.00

Bekasi 0.00 507.99 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00

Bandung Barat 1040.98 765.27 2719.80 1349.39 375.61 18.60 4639.70 310.00 0.00 141.75

Pangandaran 0.00 13147.67 278.28 272.60 259.86 34.60 0.00 116.04 0.00 26.00

Kota Bogor 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00

Kota Sukabumi 0.00 1.38 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00

Kota Bandung 0.00 0.00 0.00 1.10 0.00 0.00 0.00 0.00 0.00 4.00

Kota Cirebon 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00

Kota Bekasi 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00

Kota Depok 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00

Kota Cimahi 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00

Kota Tasikmalaya 0.00 919.03 1.65 6.65 14.34 4.62 0.00 0.67 0.00 0.00

Kota Banjar 0.00 2095.49 738.50 6.30 9.25 8.85 0.00 2.02 0.00 0.00

Identifikasi Masalah
Perusahaan perkebunan adalah suatu perusahaan berbentuk badan usaha/badan hukum yang
bergerak dalam kegiatan budidaya tanaman perkebunan diatas lahan yang dikuasai, dengan tujuan
ekonomi/komersial dan mendapat izin usaha dari instansi yang berwenang dalam pemberian izin
usaha perkebunan
Tujuan
Penelitian dilakukan untuk menentukan profil kabupaten dan kota di Jawa Barat berdasarkan hasil
produksi tanaman perkebunan tahun 2021
Pembatasan Masalah
Adapun batasan masalah sebagai berikut:
o Karena data memiliki satuan yang sama, maka data tidak perlu distandardisasi
o Variabel “Lainnya” pada dataset tersebut tidak digunakan dalam analisis karena tidak
memiliki nilai apapun
o Baris yang memuat “Provinsi Jawa Barat” pada dataset tidak digunakan dalam analisis ini
baris tersebut hanya menunjukkan jumlah keseluruhan dari tiap variabel
Unit observasi
Unit yang diobservasi dalam penelitian ini adalah hasil produksi tanaman perkebunan di 27
kabupaten/kota di Jawa Barat (18 Kabupaten dan 9 Kota)
Variabel penelitian
Variabel penelitian yang digunakan dalam anaisis ini adalah hasil Produksi Tanaman Perkebunan
tahun 2021 adalah sebagai berikut:
o X1 = Produksi Tanaman Kelapa Sawit (dalam ton)
o X2 = Produksi Tanaman Kelapa (dalam ton)
o X3 = Produksi Tanaman Karet (dalam ton)
o X4 = Produksi Tanaman Kopi (dalam ton)
o X5 = Produksi Tanaman Kakao (dalam ton)
o X6 = Produksi Tanaman Lada (dalam ton)
o X7 = Produksi Tanaman Teh (dalam ton)
o X8 = Produksi Tanaman Cengkeh (dalam ton)
o X9 = Produksi Tanaman Tebu (dalam ton)
o X10 = Produksi Tanaman Tembakau (dalam ton)
Populasi/Sampling
Skala pengukuran
Karena data hasil produksi tanaman perkebunan memiliki satuan pengukuran yaitu Ton, maka skala
pengukuran yang digunakan dalam data ini adalah skala Metrik
Asumsi
Analisis Multidimensional Scalling (MDS) merupakan salah satu teknik peubah ganda yang
dapat digunakan untuk menentukan posisi suatu obyek lainnya berdasarkan penilaian
kemiripannya. Dalam melakukan analisis MDS asumsi yang diperlukan adalah data memiliki skala
interval-rasio karena data dengan skala pengukuran interval-rasio, maka
data termasuk metrik. Data tersebut akan dimasukkan kedalam matriks berukuran nxm.
Analisis Multidimmensional Scaling
 Input Data
> data <- read_excel("C:/Users/Arrum/Downloads/Produksi Tanaman Perkebunan.xlsx")
> head(data)
# A tibble: 6 x 11
`Kabupaten/Kota` `Kelapa Sawit` Kelapa Karet Kopi Kakao Lada Teh Cengkeh Tebu Tembakau
<chr> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
1 Bogor 43183. 2160. 212. 4633. 0.48 0.55 1217. 668. 0 0
2 Sukabumi 62073. 2101. 5598. 326. 49.5 33.8 5027. 2325. 0 0
3 Cianjur 10414. 4535. 1786. 541. 67.4 16.3 24909. 669. 0 41.9
4 Bandung 0 111. 0 7825. 0 0 35634. 191. 0 1486.
5 Garut 2506. 2965. 6630. 3036. 0.9 17.2 7157. 982. 0 1042.
6 Tasikmalaya 67.3 27575. 2166. 1487. 175. 315. 14236. 822. 0 4
> str(data)
tibble [27 x 11] (S3: tbl_df/tbl/data.frame)
$ Kabupaten/Kota: chr [1:27] "Bogor" "Sukabumi" "Cianjur" "Bandung" ...
$ Kelapa Sawit : num [1:27] 43183 62073 10414 0 2506 ...
$ Kelapa : num [1:27] 2160 2101 4535 111 2965 ...
$ Karet : num [1:27] 212 5598 1786 0 6630 ...
$ Kopi : num [1:27] 4633 326 541 7825 3036 ...
$ Kakao : num [1:27] 0.48 49.47 67.45 0 0.9 ...
$ Lada : num [1:27] 0.55 33.8 16.29 0 17.23 ...
$ Teh : num [1:27] 1217 5027 24909 35634 7157 ...
$ Cengkeh : num [1:27] 668 2325 669 191 982 ...
$ Tebu : num [1:27] 0 0 0 0 0 ...
$ Tembakau : num [1:27] 0 0 41.9 1486.1 1042.3 ...

 Jarak Euclidean
Nilai Euclidean dari data dalam bentuk matriks dapat dicari dengan rumus sebagai berikut:
2 1
d ij =∑ [ ( X ia −X ja ) ]
2 2

a=1

X ia : koordinat objek ke-i pada dimensi ke-a


X ja : koordinat objek ke-j pada dimensi ke-a

Pada software R nilai Euclidean dapat dicari dengan fungsi dist().

> d <- round(dist(dataku),3) # jarak euclidean antar baris


> d
1 2 3 4 5 6 7 8 9 10 11 12
2 20533.914
3 40742.515 55561.824
4 55373.165 69915.220 17367.958
5 41659.018 59705.714 20271.069 29884.566
6 51848.178 67777.984 27440.464 35493.193 26176.740
7 45944.045 64213.326 29780.102 40141.955 16900.292 17564.681
8 43466.306 62602.307 27075.194 36666.052 10553.451 27380.031 13119.686
9 46248.320 64541.597 31589.121 39757.348 19157.692 34643.239 23209.992 15266.998
10 43514.819 62604.683 27291.709 36358.213 10727.325 30300.244 16603.087 3941.052 14276.674
11 43436.200 62572.571 27035.062 36077.566 10280.602 29515.313 15830.907 3691.196 15850.929 1821.860
12 43958.822 62923.252 27952.841 37185.094 12534.042 29779.193 16396.743 5975.899 9326.503 5640.413 7062.338
13 29244.686 47773.812 23197.483 37308.559 14506.648 31550.916 21367.871 15592.841 19149.259 15573.839 15869.380 15356.155
14 43670.758 62206.215 22463.498 31354.349 6563.471 28161.929 17192.276 6793.000 16772.457 6239.686 6157.563 8951.907
15 43433.097 62579.930 27297.838 36450.154 10705.663 30273.505 16401.889 3514.330 15744.515 2706.447 2846.954 6804.654
16 43484.976 62591.334 27368.727 36516.106 10897.754 30707.851 16890.107 3998.856 15727.836 2761.431 3091.451 6912.247
17 42508.530 61158.136 22686.033 31834.913 5732.169 28504.594 17127.439 6656.046 16721.560 6056.090 5891.930 8885.016
18 44792.638 63510.126 28386.022 38717.938 14526.023 20406.326 4561.173 8883.278 20296.437 12436.112 11691.115 12618.720
19 43507.235 62606.324 27448.068 36514.112 11023.421 31156.531 17393.037 4487.217 15730.182 2896.373 3332.239 7070.231
20 43507.166 62606.277 27447.840 36514.108 11023.050 31155.310 17391.670 4485.885 15730.153 2895.894 3331.503 7069.758
21 43507.118 62606.318 27448.040 36513.714 11022.741 31156.478 17392.974 4487.018 15730.182 2893.437 3328.957 7070.233
22 43507.235 62606.324 27448.068 36514.112 11023.421 31156.531 17393.037 4487.217 15730.182 2896.373 3332.239 7070.231
23 43507.235 62606.324 27448.068 36514.112 11023.421 31156.531 17393.037 4487.217 15730.182 2896.373 3332.239 7070.231
24 43507.235 62606.324 27448.068 36514.112 11023.421 31156.531 17393.037 4487.217 15730.182 2896.373 3332.239 7070.231
25 43507.235 62606.324 27448.068 36514.112 11023.421 31156.531 17393.037 4487.217 15730.182 2896.373 3332.239 7070.231
26 43470.577 62582.002 27310.988 36521.467 10809.545 30345.582 16482.587 3606.702 15737.952 2716.775 2944.498 6809.536
27 43455.603 62509.188 27141.827 36573.952 10207.346 29272.367 15231.537 2610.417 15843.180 3017.380 2929.075 6689.398
13 14 15 16 17 18 19 20 21 22 23 24
2
3
4
5
6
7
8
9
10
11
12
13
14 15629.299
15 15819.300 5802.087
16 15881.253 5814.898 593.545
17 14567.030 1854.411 5593.417 5670.312
18 18953.415 13520.109 12170.081 12648.958 13532.164
19 15953.889 5869.936 1045.928 507.990 5715.932 13156.589
20 15953.670 5869.728 1044.630 506.610 5715.748 13155.210 1.380
21 15953.846 5869.902 1045.564 508.007 5715.575 13156.559 4.148 4.372
22 15953.889 5869.936 1045.928 507.990 5715.932 13156.589 0.000 1.380 4.148
23 15953.889 5869.936 1045.928 507.990 5715.932 13156.589 0.000 1.380 4.148 0.000
24 15953.889 5869.936 1045.928 507.990 5715.932 13156.589 0.000 1.380 4.148 0.000 0.000
25 15953.889 5869.936 1045.928 507.990 5715.932 13156.589 0.000 1.380 4.148 0.000 0.000 0.000
26 15833.644 5801.733 353.463 411.374 5663.204 12237.731 919.179 917.799 919.181 919.179 919.179 919.179
27 15648.897 5696.446 1379.074 1750.927 5509.868 11068.448 2221.861 2220.560 2221.862 2221.861 2221.861 2221.861
25 26
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26 919.179
27 2221.861 1388.183

Jarak-jarak Euclidean yang terbentuk akan digunakan untuk menentukan posisi dari tiap unit
observasi pada peta dua dimensi. Berdasarkan hasil tersebut, dapat dilihat bahwa jarak antara objek
1 (Bogor) dengan objek 2 (Sukabumi) adalah sebesar 20533.914, objek 2 (Sukabumi) dengan
objek 3 (Cianjur) adalah sebesar 55561.824, dan begitu juga seterusnya. Nilai 0 pada matriks jarak
Euclidean merupakan nilai jarak suatu objek dengan objek itu sendiri.
Plot Classical Multidimensional Scaling
Analisis multidimensional scaling terhadap data metrik atau biasa disebut classical
multidimensional scaling. Untuk membentuk peta dua dimensi, koordinatnya dapat dibentuk
dengan perintah berikut pada software R.
> #MEMBUAT PLOT
> fit <- cmdscale(d,eig=TRUE, k=2) # dalam 2 dimensi
> fit
$points
[,1] [,2]
[1,] -38037.075 4168.6163
[2,] -57286.182 1877.2345
[3,] -6597.298 -20261.8010
[4,] 3024.058 -30844.0808
[5,] 1848.396 -3925.5171
[6,] 4760.985 -16593.3631
[7,] 5377.966 -408.5037
[8,] 5227.667 3135.5557
[9,] 5414.106 5179.8594
[10,] 5167.117 3888.1187
[11,] 5129.845 3345.2437
[12,] 5305.375 4057.3584
[13,] -9670.787 1961.7557
[14,] 4726.612 -1211.9829
[15,] 5147.158 3941.2981
[16,] 5145.747 4109.2622
[17,] 3669.816 -629.5327
[18,] 5413.079 868.2859
[19,] 5133.963 4237.4610
[20,] 5133.994 4237.1130
[21,] 5133.956 4237.2425
[22,] 5133.963 4237.4610
[23,] 5133.963 4237.4610
[24,] 5133.963 4237.4610
[25,] 5133.963 4237.4610
[26,] 5154.998 4004.5142
[27,] 5140.656 3676.0183

$eig
[1] 5.423113e+09 1.947273e+09 9.650721e+08 2.711896e+08
5.873771e+07 3.824969e+07 1.017434e+07 3.844961e+05 1.480027e+05
[10] 1.859555e+04 3.128430e+01 1.571717e+01 1.077470e+01
5.393067e+00 3.604000e+00 1.016319e+00 4.568645e-07 2.028472e-10
[19] 4.152040e-11 -4.726235e-10 -1.009874e-09 -9.923267e-01 -
3.773970e+00 -8.524386e+00 -1.023472e+01 -1.878617e+01 -2.843356e+01

$x
NULL

$ac
[1] 0

$GOF
[1] 0.8457747 0.8457747

> x <- fit$points[,1]


> y <- fit$points[,2]
> plot(x, y, xlab="x", ylab="y",
+ main="Classical MDS", type="n")
> abline(v=0)
> abline(h=0)
> #Tidak Mencantumkan Nama Provinsi
> text(x, y, cex=.7)
> #Mencantumkan Nama Provinsi
> text(x, y, labels = row.names(data), cex=.7)
Interpretasi dari gambar di atas adalah untuk setiap titik-titik yang berdekatan
merepresentasikan kemiripan atau kedekatan antar objeknya. Kemiripan yang
dimaksud diukur berdasarkan jarak pada kesepuluh observasi hasil produksi padi
pada ke 27 kabupaten/kota tersebut.
Dari peta dua dimensi yang dihasilkan dapat diinterpretasikan seperti sebagai
berikut:
 Kuadran I (kanan atas) : Kuningan, Cirebon, Majalengka, Sumedang,
Indramayu, Karawang, Bekasi, Pangandaran, Kota Bogor, Kota Sukabumi,
Kota Bandung, Kota Cirebon, Kota Bekasi, Kota Depok, Kota Cimahi, Kota
Tasikmalaya, Kota Banjar
 Kuadran II (kiri atas) : Bogor, Sukabumi, Subang
 Kuadran III (kiri bawah) : Cianjur
 Kuadran IV (kanan bawah) : Bandung, Garut, Tasikmalaya, Ciamis,
Purwakarta, Bandung Barat
Jawab

1
a. E ( a' X|π 1 ) −m=a μ1−m=a μ 1− a ( μ 1+ μ 2)
' ' '
2

1 1
¿ a' ( μ1−μ2 ) = a' ( μ 1−μ2 )' Σ −1 ( μ1−μ2 ) > 0
2 2
Σ−1adalah positif definit

Kemiskinan dipandang sebagai ketidakmampuan dari segi ekonomi untuk memenuhi kebutuhan
dasar makanan dan non makanan yang diukur dari sisi pengeluaran (Badan Pusat Statistik).
Penelitian ini bertujuan untuk memetakan desa/kelurahan di Kota Banjar berdasarkan karakterisitik
kemiskinan 25 desa/kelurahan di Kota Banjar pada tahun 2020. Lakukan analisis dan interpretasi
menggunakan data sebagai berikut:
X1 : kepadatan penduduk
X2 : jumlah keluarga pengguna PLN
X3 : rasio sekolah terhadap murid SD/MI
X4 : rasio sekolah terhadap murid SMP/MTs
X5 : rasio sekolah terhadap murid SMA/SMK/MA
X6: jumlah tenaga kesehatan
X7 : jumlah sarana Kesehatan No. Desa/ kelurahan X
Analisis Klaster Hirarki
o Input Data
> #### ANALISIS KLASTER HIRARKI #####
> library(gridExtra)
> library(factoextra)
> #===== Input Data
> excel <- read_excel("TUGAS ARIO/Semester 4/ADM 2/data UAS no 3.xlsx")
> str(excel)
tibble [25 x 9] (S3: tbl_df/tbl/data.frame)
$ No. : num [1:25] 1 2 3 4 5 6 7 8 9 10 ...
$ Desa/ kelurahan: chr [1:25] "Situbatu" "Neglasari" "Cibeureum"
"Balokang" ...
$ X1 : num [1:25] 902 1070 695 2137 4424 ...
$ X2 : num [1:25] 1525 1934 831 3604 5686 ...
$ X3 : num [1:25] 140 117 111 215 363 ...
$ X4 : num [1:25] 193 0 57 112 679 ...
$ X5 : num [1:25] 163 0 0 87 714 187 293 76 0 0 ...
$ X6 : num [1:25] 4 8 10 24 33 36 9 4 6 5 ...
$ X7 : num [1:25] 8 6 5 11 34 38 5 8 7 6 ...
> X1=excel$X1
> X2=excel$X2
> X3=excel$X3
> X4=excel$X4
> X5=excel$X5
> X6=excel$X6
> X7=excel$X7
> data <- scale(cbind(X1,X2,X3,X4,X5,X6,X7))
> summary(is.na(data))
X1 X2 X3 X4 X5
X6 X7
Mode :logical Mode :logical Mode :logical Mode :logical
Mode :logical Mode :logical Mode :logical
FALSE:25 FALSE:25 FALSE:25 FALSE:25 FALSE:25
FALSE:25 FALSE:25
> summary(data)
X1 X2 X3 X4
X5 X6 X7
Min. :-0.9412 Min. :-1.2747 Min. :-1.1135 Min. :-0.9863
Min. :-0.579404 Min. :-0.9440 Min. :-0.7104
1st Qu.:-0.6857 1st Qu.:-0.8014 1st Qu.:-0.6711 1st Qu.:-0.8348
1st Qu.:-0.579404 1st Qu.:-0.7351 1st Qu.:-0.4736
Median :-0.2401 Median :-0.2714 Median :-0.2080 Median :-0.2550
Median :-0.382019 Median :-0.3174 Median :-0.2368
Mean : 0.0000 Mean : 0.0000 Mean : 0.0000 Mean : 0.0000
Mean : 0.000000 Mean : 0.0000 Mean : 0.0000
3rd Qu.: 0.1701 3rd Qu.: 0.5592 3rd Qu.: 0.2330 3rd Qu.: 0.6454
3rd Qu.: 0.008213 3rd Qu.: 0.5179 3rd Qu.:-0.1184
Max. : 3.1268 Max. : 2.1724 Max. : 3.2093 Max. : 2.9690
Max. : 3.418208 Max. : 2.3976 Max. : 3.4336
Berdasarkan hasil perhitungan menggunakan software R tersebut, diketahui bahwa data
terdiri atas 9 Kolom, dengan kolom yang digunakan dalam analisis ini hanya 7 kolom yaitu
X1-X7 setiap kolom yang digunakan dalam analisis memiliki 25 variabel dan tersedia juga
hasil statistik deskriptif pada setiap variabel. Data yang digunakan dalam analisisi tidak
memiliki missing value
Pengujian Asumsi Multikolinearitas
Multikolinieritas merupakan suatu kondisi atau fenomena terjadinya korelasi atau terdapat hubungan
linier yang kuat di antara variabel-variabel independen. Ada beberapa metode yang digunakan untuk
mendeteksi adanya masalah multikolinieritas, salah satu metodenya adalah dengan Variance Inflation
Factor (VIF).

Hipotesis
H0: Ketiga variabel dalam data tidak berkorelasi antar variabel lainnya (non-multikolinieritas).
H1: Ketiga variabel dalam data berkorelasi antar variabel lainnya (multikolinieritas).
Kriteria Uji
Tolak H0 jika nilai VIF > 10, terima dalam hal lainnya.

Dengan menggunakan software R, dilakukan analisis sebagai berikut.


> #===== Mendeteksi Multikolinieritas
> q=cbind(X1,X2,X3,X4,X5,X6,X7)
> f=cor(q)
> vif=diag(solve(f))
> vif
X1 X2 X3 X4 X5 X6 X7
6.733962 4.938945 2.051757 1.655267 1.363293 4.800350 4.244427

Dari hasil perhitungan R mengenai pendeteksian multikolinieritas, diperoleh hasil bahwa tidak ada
variabel yang nilai VIF nya lebih dari 10 maka H0 diterima yang artinya ketujuh variabel dalam data
tidak berkorelasi antar variabel lainnya (non-multikolinieritas). Dengan demikian, data karakterisitik
kemiskinan 25 desa/kelurahan di Kota Banjar pada tahun 2020 memenuhi asumsi non-
multikolinieritas. Dari pengujian asumsi di atas, asumsi analisis klaster terpenuhi, yaitu tidak adanya
fenomena multikolinieritas pada data. Dengan demikian, analisis klaster untuk data karakterisitik
kemiskinan 25 desa/kelurahan di Kota Banjar pada tahun 2020 dapat dilanjutkan.
Mengitung Jarak Euclidean
Data “Karakterisitik Kemiskinan 25 Desa/Kelurahan Di Kota Banjar Pada Tahun 2020” terdiri atas
tujuh variabel yang memiliki nilai data numerik dengan satuan yang berbeda. Dengan demikian, data
perlu distandardisasi terlebih dahulu menggunakan function scale() dalam R. Setelah itu, dicari
nilai jarak Euclidean dengan menggunakan function dist(). Nilai-nilai pada jarak Euclidean
digunakan untuk melakukan analisis klaster dengan metode hierarki.
Hasilnya pada software R sebagai berikut:
> #===== Perhitungan Jarak Euclidean
> library(factoextra)
> A = scale(data) # data distandardisasi
> d<-round(dist(A, method="euclidean"),3)
> d
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24

2 1.365

3 1.322 0.895

4 3.019 2.852 3.222

5 7.541 8.093 8.327 5.678

6 7.133 7.041 7.492 4.795 4.087

7 0.881 1.705 1.405 2.862 7.386 7.149

8 0.688 0.799 1.020 3.062 7.914 7.185 1.345

9 1.019 1.838 1.558 3.458 7.813 7.508 1.446 1.291

10 0.716 0.930 1.124 2.970 7.835 7.204 1.332 0.458 1.078

11 1.391 1.493 1.942 2.550 7.355 6.772 1.486 1.405 2.273 1.438

12 3.333 2.958 3.604 1.483 6.110 4.839 3.516 3.195 3.694 3.074 2.807

13 4.290 4.445 4.751 2.542 4.826 4.423 4.216 4.496 4.317 4.276 4.140 2.709

14 2.037 1.941 1.938 3.047 7.738 7.050 1.769 1.986 2.675 2.206 1.907 3.537 4.769

15 2.845 2.993 3.144 3.216 7.538 7.267 2.696 2.923 3.644 2.967 2.198 3.840 5.258 3.258

16 2.541 2.906 3.339 2.395 6.171 5.940 2.585 2.790 2.951 2.592 1.981 2.470 2.657 3.316 3.440

17 1.921 2.078 2.343 2.345 6.740 6.049 1.996 2.063 2.028 1.893 2.050 2.536 2.712 2.640 3.884 1.661

18 2.364 1.579 2.101 2.029 7.492 6.380 2.443 2.067 2.605 1.899 2.032 1.908 3.534 2.460 3.437 2.586 1.931

19 3.428 4.227 4.355 3.728 5.908 6.689 3.193 3.879 3.795 3.819 3.229 4.101 3.920 3.332 4.514 2.671 3.107 4.101

20 1.363 1.937 2.057 2.136 6.590 6.263 1.394 1.708 1.599 1.472 1.680 2.618 3.036 2.643 2.997 1.685 1.198 2.053 3.186

21 1.785 1.073 1.708 2.052 7.429 6.433 1.946 1.476 2.238 1.381 1.397 2.042 3.720 2.015 2.959 2.348 1.775 0.707 3.789 1.725

22 4.633 4.751 4.875 3.969 6.562 6.362 4.259 4.784 5.043 4.851 4.282 4.420 4.687 3.210 5.522 4.343 4.070 4.311 2.930 4.500 4.224

23 1.290 0.369 0.740 2.987 8.204 7.250 1.554 0.783 1.833 0.947 1.436 3.206 4.643 1.912 2.775 3.003 2.264 1.816 4.263 1.987 1.291 4.852

24 1.136 2.279 2.203 3.091 6.965 6.940 1.254 1.744 1.334 1.596 1.890 3.535 3.764 2.760 3.216 2.087 1.715 2.881 3.011 1.065 2.425 4.740 2.236

25 1.504 0.969 1.394 2.233 7.456 6.462 1.593 1.264 2.234 1.386 1.199 2.659 4.124 1.957 2.302 2.614 2.110 1.713 4.031 1.694 1.155 4.588 0.940 2.200

Analisis Klaster dengan Agglomerative Method


Pada kasus ini akan dilakukan analisis dengan analisis klaster hierarki yang melibatkan beberapa
metode, yaitu metode agglomerative atau penggabungan yang terdiri atas single linkage, complete
linkage, average linkage, dan Ward’s linkage dengan klaster yang akan dibentuk adalah sebanyak 5
klaster.

a) Single Linkage
Pada metode ini, proses pengklasteran didasarkan pada jarak terdekat antar objeknya. Jika dua
objek terpisah oleh jarak yang pendek, maka kedua objek tersebut akan digabung menjadi satu
klaster dan seterusnya.
> #===== Analisis Klaster Hierarki Agglomerative Method
> ## SINGLE LINKAGE
> fit1<-hclust(d, method="single")
> library(dendextend)
> dend<-as.dendrogram(fit1)
> dend_colored<-color_branches(dend)
> plot(dend_colored)
> cop1<-cophenetic(fit1)
> cor1<-cor(d,cop1);cor1
[1] 0.9487245
Berdasarkan hasil output di atas, diperoleh nilai korelasi antara jarak asli (Euclidean) dengan
jarak kofenetik (ketidaksamaan antar klaster di mana kedua pengamatan terlebih dahulu
digabungkan menjadi satu klaster) pada pengklasteran dengan single linkage sebesar
0.9487245. Selain itu, diperoleh gambar dendogram pengklasteran wilayah desa/kelurahan di
kota Banjar dengan single linkage. Pengelompokkan yang terbentuk berada pada jarak di
bawah 4.

b) Complete Linkage
Pada metode ini, proses pengklasteran didasarkan pada jarak terjauh antar objeknya. Jika dua
objek terpisah oleh jarak yang jauh, maka kedua objek tersebut akan digabung menjadi satu
klaster dan seterusnya.
Dengan software R diperoleh hasil sebagai berikut:
> ## COMPLETE LINKAGE
> fit2<-hclust(d, method="complete")
> library(dendextend)
> dend<-as.dendrogram(fit2)
> dend_colored<-color_branches(dend)
> plot(dend_colored)
> cop2<-cophenetic(fit2)
> cor2<-cor(d,cop2);cor2
[1] 0.8277398
Berdasarkan hasil output di atas, diperoleh nilai korelasi antara jarak asli (Euclidean) dengan
jarak kofenetik (ketidaksamaan antar klaster di mana kedua pengamatan terlebih dahulu
digabungkan menjadi satu klaster) pada pengklasteran dengan complete linkage sebesar
0.8277398. Selain itu, diperoleh gambar dendogram pengklasteran wilayah desa/kelurahan di
kota Banjar dengan complete linkage. Pengelompokkan yang terbentuk berada pada jarak di
bawah 8.

c) Average Linkage
Pada metode ini, proses pengklasteran hampir sama dengan single linkage dan
complete linkage. Proses ini didasarkan pada jarak rata-rata/Euclidean antar
objeknya (seluruh individu dalam suatu klaster dengan seluruh individu dalam
klaster yang lain).

Dengan software R diperoleh hasil sebagai berikut:


> fit3<-hclust(d, method="average")
> library(dendextend)
> dend<-as.dendrogram(fit3)
> dend_colored<-color_branches(dend)
> plot(dend_colored)
> cop3<-cophenetic(fit3)
> cor3<-cor(d,cop3);cor3
[1] 0.9461382
Berdasarkan hasil output di atas, diperoleh nilai korelasi antara jarak asli
(Euclidean) dengan jarak kofenetik (ketidaksamaan antar klaster di mana kedua
pengamatan terlebih dahulu digabungkan menjadi satu klaster) pada pengklasteran
dengan average linkage sebesar 0.9461382. Selain itu, diperoleh gambar dendogram
pengklasteran wilayah desa/kelurahan di kota Banjar dengan average linkage.
Pengelompokkan yang terbentuk berada pada jarak di bawah 7.

d) Ward’s Method
Pada metode ini, objek-objek dikelompokkan ke dalam klaster sehingga
variansi di dalam klaster menjadi minimum. Jarak antar klaster dalam metode ini
besarnya berdasarkan total Sum of Square dua klaster pada masing-masing
variabel.
Dengan software R diperoleh hasil sebagai berikut:
> ## WARD'S METHOD
> fit4<-hclust(d, method="ward.D")
> library(dendextend)
> dend<-as.dendrogram(fit4)
> dend_colored<-color_branches(dend)
> plot(dend_colored)
> cop4<-cophenetic(fit4)
> cor4<-cor(d,cop4);cor4
[1] 0.5955081
Berdasarkan hasil output di atas, diperoleh nilai korelasi antara jarak asli
(Euclidean) dengan jarak kofenetik (ketidaksamaan antar klaster di mana kedua
pengamatan terlebih dahulu digabungkan menjadi satu klaster) pada pengklasteran
dengan Ward’s linkage sebesar 0.5955081.
Selain itu, diperoleh gambar dendogram pengklasteran wilayah desa/kelurahan di kota Banjar
dengan Ward’s linkage. Pengelompokkan yang terbentuk
berada pada jarak di bawah 15.

Pemilihan Metode Terbaik


Dari keempat metode yang dilakukan, yaitu dengan single linkage, complete linkage,
average linkage, dan Ward’s linkage, berikut dilakukan perbandingan nilai korelasi antara
jarak asli (Euclidean) dengan jarak kofenetik (ketidaksamaan antar klaster di mana kedua
pengamatan terlebih dahulu digabungkan menjadi satu klaster) pada keempat pengklasteran
tersebut.
Single Linkage Complete Linkage Average Linkage Ward’s Linkage
0.9487245 0.8277398 0.9461382 0.5955081

Dari tabel di atas, dapat dilihat bahwa nilai korelasi terbesar dan paling mendekati nilai
satu, yaitu sebesar 0.9487245 ada pada pengklasteran dengan Single Linkage. Maka, dapat
dikatakan bahwa metode ini baik dan tepat dalam pengklasteran Karakterisitik Kemiskinan 25
Desa/Kelurahan Di Kota Banjar Pada Tahun 2020

Pengklasteran dengan prosedur terbaik


Dari perhitungan dan penentuan sebelumya, diperoleh hasil bahwa metode
pengklasteran penggabungan (agglomerative method) dengan prosedur pengelompokkan
Single Linkage merupakan yang paling baik untuk mengelompokkan wilayah Karakterisitik
Kemiskinan 25 Desa/Kelurahan Di Kota Banjar Pada Tahun 2020. Oleh karena itu, berikut
dilakukan pengklasteran dengan metode tersebut dan dengan
klaster yang dibentuk sebanyak 5 menggunakan software R.
> #===== Pengklasteran dengan Prosedur Pengelompokan Terbaik
> fit3<-hclust(d, method="average")
>
> cop3<-cophenetic(fit3)
> cor3<-cor(d,cop3);cor3
[1] 0.9461382
>
> plot(fit3,main="Dendogram Average Linkage")
> rect.hclust(fit3,k=5,border=2:6)

Dengan menggunakan Single Linkage, maka kabupaten/kota di Provinsi Jawa Barat


yang masuk ke dalam tiap-tiap klasternya yaitu sebagai berikut:
Jawab :
Single Linkage
> ## SINGLE LINKAGE
> fit1<-hclust(as.dist(d), method="single")
> library(dendextend)
> dend<-as.dendrogram(fit1)
> dend_colored<-color_branches(dend)
> plot(dend_colored,main="Single Linkage")
> cop1<-cophenetic(fit1)
> cor1<-cor(as.dist(d),cop1);cor1
[1] 0.7727475
Complete Linkage
> ## COMPLETE LINKAGE
> fit2<-hclust(as.dist(d), method="complete")
> dend<-as.dendrogram(fit2)
> dend_colored<-color_branches(dend)
> plot(dend_colored,main="Complete Linkage")
> cop2<-cophenetic(fit2)
> cor2<-cor(as.dist(d),cop2);cor2
[1] 0.7893052

Average Linkage
> ## AVERAGE LINKAGE
> fit3<-hclust(as.dist(d), method="average")
> dend<-as.dendrogram(fit3)
> dend_colored<-color_branches(dend)
> plot(dend_colored,main="Average Linkage")
> cop3<-cophenetic(fit3)
> cor3<-cor(as.dist(d),cop3);cor3
[1] 0.7913722
Perbandingan ketiga dendogram metode hierarkis
Pada ketiga dendogram, didapat pengelompokkan yang sama. Didapat pula jarak kofenetik
(ketidaksamaan antar klaster di mana kedua pengamatan terlebih dahulu digabungkan
menjadi satu klaster) yang mirip dari ketiga metode hierarkis, sebagai berikut:
 Single linkage = 0,773
 Complete linkage = 0,789
 Average linkage = 0,791

Anda mungkin juga menyukai