Anda di halaman 1dari 17

Kelas D

LAPORAN PRAKTIKUM
Statistika Multivariat Terapan
Modul 7 : K-Means

Nama Nomor Tanggal Tanda Tangan


Praktikan Mahasiswa Kumpul Praktikan

Sri Arista 17611078 26 April 2020


Panggola

Tanggal Tanda tangan


Nama Penilai Nilai
Koreksi Asisten Dosen
Alfazrin
Banapon
Emma Aulia
Dewi
Nama Dosen
Pengampu

JURUSAN STATISTIKA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
UNIVERSITAS ISLAM INDONESIA
YOGYAKARTA
2020

i
Daftar Isi

Halaman sampul ....................................................................................................... i


Daftar Isi.................................................................................................................. ii
Daftar Gambar ........................................................................................................ iii
1 Pendahuluan ..................................................................................................... 1
2 Deskripsi Kerja ................................................................................................ 2
2.1 Studi Kasus ............................................................................................... 2
2.2 Langkah Kerja .......................................................................................... 2
3 Pembahasan ..................................................................................................... 5
3.1 Uji Normalitas Multivariat Menggunakan Henze Zirkler Test ................ 6
3.2 Uji Multikoleniaritas ................................................................................ 7
3.3 Ukuran Jarak ............................................................................................. 8
3.4 Hasil Clustering dengan K-Means ........................................................... 9
3.5 Segmentasi cluster .................................................................................. 11
4 Penutup .......................................................................................................... 13
4.1 Kesimpulan ............................................................................................. 13
5 Daftar Pustaka ................................................................................................ 14

ii
Daftar Gambar

Gambar ‎2.1. Membaca Data .................................................................................. 2


Gambar ‎2.2. Merubah Indeks dan Menghapus Kolom.......................................... 2
Gambar ‎2.3. Plot Blood.prasure dan Hemoglobin ................................................ 2
Gambar ‎2.4. Uji Normal Multivariat dan Uji Multikoleniaritas............................ 3
Gambar ‎2.5. Menghapus Kolom dan Transformasi data ....................................... 3
Gambar ‎2.6. Menghitung Ukuran Jarak ................................................................ 3
Gambar ‎2.7. Melakukan Clustering ...................................................................... 3
Gambar ‎2.8. Nilai, Within, Between, Size, dan Anggota Cluster, ......................... 3
Gambar ‎2.9. Visualisasi Cluster ............................................................................ 4
Gambar ‎2.10. Segmentasi dan Barplot .................................................................. 4
Gambar ‎3.1. Data Tanaman Padi ........................................................................... 5
Gambar ‎3.2. Hasil Pengecekan data Hilang ......................................................... 5
Gambar ‎3.3. Hasil Uji Normal Multivariat............................................................ 6
Gambar ‎3.4. Plot Korelasi ..................................................................................... 7
Gambar ‎3.5. Plot Korelasi ..................................................................................... 8
Gambar ‎3.6. Visualisai Jarak Antar Kabupaten/Kota........................................... 9
Gambar ‎3.7. Ukuran Cluster dan Anggotanya ..................................................... 9
Gambar ‎3.8. Nilai Within dan Between ............................................................... 10
Gambar ‎3.9. Hasil Visualisasi Cluster................................................................ 10
Gambar ‎3.10. Segmentasi Cluster ....................................................................... 11
Gambar ‎3.11. Barplot .......................................................................................... 12

iii
1 Pendahuluan

Algoritma K-means adalah algoritma yang mempartisi data ke dalam cluster-


cluster sehingga data yang memiliki kemiripan berada pada satu cluster yang
sama dan data yang memiliki ketidaksamaan berada pada cluster yang lain.
Sarwono mengemukakan secara lebih detail, algoritma K-Means adalah sebagai
berikut.
1. Menentukan k sebagai jumlah cluster yang ingin di bentuk.
2. Membangkitkan nilai random untuk pusat cluster awal (centroid)
sebanyak k.
3. Menghitung jarak setiap data input terhadap masing – masing centroid
menggunakan rumus jarak Euclidean (Euclidean Distance) hingga
ditemukan jarak yang paling dekat dari setiap data dengan centroid.
Berikut adalah persamaan Euclidian Distance:
√∑ ) Persamaan (1)
Dimana: adalah data kriteria dan adalah centroidpada cluster ke-j
4. Mengklasifikasikan setiap data berdasarkan kedekatannya dengan
centroid (jarak terkecil).
5. Memperbaharui nilai centroid. Nilai centroid baru di peroleh dari rata-rata
cluster yang bersangkutan.
6. Melakukan perulangan dari langkah 3 hingga 5, sampai anggota tiap
cluster tidak ada yang berubah. (Rohmawati, Defiyanti and Jajuli 2016)

1
2 Deskripsi Kerja

2.1 Studi Kasus


Melakukan analisis clustering dengan K-Means untuk mengelompokkan
data Luas Panen, Produksi, dan Rata-rata Produksi tanaman Padi Provinsi
Sulawesi Utara tahun 2015 yang diperoleh dari website BPS Provinsi Sulawesi
Utara.

2.2 Langkah Kerja


Berikut diberikan langkah kerja pada pembahasan kali ini.
1. Membaca data dengan menggunakan perintah
read.delim(“clipboard”) dan tampilkan data menggunakan fungsi
View(nama_data) seperti pada Gambar 2.1 Berikut.

Gambar ‎2.1. Membaca Data


2. Merubah indeks data atau nama baris menjadi nama dari masing-masing
Kabupaten/Kota. Kemudian menghapus kolom pertama dari data yang
berisi kolom Kabupaten/Kota.

Gambar ‎2.2. Merubah Indeks dan Menghapus Kolom


3. Selanjutnya, cek data outlier pada data menggunakan sintaks seperti pada
Gambar 2.3 berikut.

Gambar ‎2.3. Plot Blood.prasure dan Hemoglobin


4. Melakukan uji normal multivariat dengan menggunakan fungsi mvn()
dan uji multikoleniaritas dengan menggunakan fungsi
chart.correlation() seperti pada Gambar 2.4 berikut.

2
Gambar ‎2.4. Uji Normal Multivariat dan Uji Multikoleniaritas
5. Mengahapus kolom luas panen dan melakukan tranformasi data dengan
menggunakan sintaks pada Gambar 2.5 berikut.

Gambar ‎2.5. Menghapus Kolom dan Transformasi data


6. Melakukan perhitungan jarak dan memvisualisasikannya dalam plot jarak
menggunakan sintaks pada Gambar 2.6 berikut.

Gambar ‎2.6. Menghitung Ukuran Jarak


7. Melakukan clustering dengan membagi data menjadi 3 kelompok
menggunakan sintaks berikut

Gambar ‎2.7. Melakukan Clustering


8. Menampilkan nilai Within, Between, ukuran cluster, dan melihat anggota
dari masing-masing cluster menggunakan sintaks pada Gambar 2.8
berikut.

Gambar ‎2.8. Nilai, Within, Between, Size, dan Anggota Cluster,

3
9. Membuat visualisasi cluster dalam bentuk plot cluster menggunakan
perintah pada Gambar 2.9 berikut

Gambar ‎2.9. Visualisasi Cluster


10. Membuat segmentasi dan Barplot dari nilai rata-rata masing-masing
variabel berdasarkan cluster seperti pada Gambar 2.10 berikut.

Gambar ‎2.10. Segmentasi dan Barplot

4
3 Pembahasan

Pada bagian ini akan dijelaskan hasil analisis dan visualisasi clustering
dengan K-Meand yang telah dilakukan pada bagian sebelumnya.

Data yang digunakan dalam analisis cluster menggunakan K-Medoids ini adalah
data Luas Lahan, jumlah Produksi, dan Rata-rata Produksi tanaman Padi menurut
Kabupaten/Kota di Provinsi Sulawesi Utara tahun 2015.

Gambar ‎3.1. Data Tanaman Padi

Gambar 3.1 diatas merupakan data yang telah dihilangkan kolom


Kabpuaten/Kota dan telah diubah menjadi indeks atau nama baris data. Banyak
data tersebut adalah 15 data (15 Kabupaten/Kota) dan terdiri 3 variabel
diantaranya Luas Panen, Produksi, dan Rata-rata Produksi tanaman padi.
Kemudian, dilakukan pengecekkan data hilang (missing value) yang hasilnya
ditampilkan dalam Gambar 3.2.

Gambar ‎3.2. Hasil Pengecekan data Hilang

5
Berdasarkan Gambar 3.2, diketahui bahwa tidak terdapat data hilang. Hal ini
dapat dilihat dari seluruh data (15 data) berargumen FALSE. Jika terdapat data
yang hilang, maka akan ditampilakn pada argumen TRUE. Langkah selanjutnya
yang perlu dilakukan sebelum melakukan analisis clustering dengan K-Means
adalah perlu dilakukan uji Normalitas Multivariat dan Uji Multikoleniaritas.

3.1 Uji Normalitas Multivariat Menggunakan Henze Zirkler Test

Gambar ‎3.3. Hasil Uji Normal Multivariat

i. Hipotesis
: Data berdistribusi normal multivariat
: Data tidak berdistribusi normal multivariat
ii. Tingkat Signifikansi
= 0.05
iii. Daerah Kritis
Tolak jika p-value <
iv. Statistik Uji
Berdasarkan Gambar 3.3, diperoleh p-value = 2.023.
v. Keputusan
Karena nilai p-value =2.023 <  = 0.05, maka tolak
vi. Kesimpulan
Dengan menggunakan tingakat kepercayaan 95%, diperoleh kesimpulan
tolak yang artinya data yang ada mendukung hipotesis yang
menyatakan bahwa data tidak berdistribusi normal multivariat.
Kemudian berdasarkan uji normalitas masing-masing variabel
menggunakan uji Shapiro wilk yang ditunjukkan pada Gambar 3.3, diperoleh
bahwa data semua variabel tidak signifikan atau tidak berdistribusi normal. Hal

6
ini dapat dilihat dari nilai p-value masing-masing variabel yang kurang dari
.

3.2 Uji Multikoleniaritas

Analisis cluster adalah salah satu analisis yang masuk dalam teknik
Machine Learning Unsupervised, yang mana variabel dalam penelitian ini hanya
terdiri dari variabel-variabel independen. Sehingga, antar variabel tidak boleh
saling berhubungan (independen). Untuk mendeteksi ada tidaknya hubungan antar
variabel, maka dapat menggunakan uji multikoleniaritas dengan melihat plot
korelasi antar variabel.

Gambar ‎3.4. Plot Korelasi

Berdasarkan Plot korelasi pada Gambar 3.4 diatas, dapat diketahui bahwa
variabel yang saling berkorelasi adalah antara Luas Panen dan Produksi dengan
nilai korelasi sebesar 1. Nilai korelasi yang dihasilkan ini sangatlah kuat dan
berkorelasi positif. Sedangkan antara Luas Panen Dengan Rata-rata Produksi,
kemudian antara Produksi dan Rata-rata Produksi semuanya tidak saling
berkorelasi. Beberapa literatur menyatakan bahwa antar variabel diakatan
berkorelasi, jika memiliki nilai korelasi lebih dari 0.5 baik bernilai negatif
maupun postif.

7
Oleh karena antar Luas Panen Dan Produksi saling berhubungan, maka salah
satu variabelnya harus dikelurkan. Dalam analisis ini, praktikan mengeluarkan
variabel Produksi karena nilai korelasinya dengan Rata-rata Produksi lebih besar
dibandingkan dengan antara Luas Panen dengan Rata-rata Produksi.

Setelah data melalui tahapan uji asumsi, selanjutnya perlu dilakukan


standarisasi data atau transformasi data, tujuannya untuk menyamakan skala data
agar mempermudah dalam proses pengklusteran. Untuk transformasi data,
digunakan nilai Z-Score. Data yang telah distandarisasi dapat dilihat pada
Gambar 3.5 berikut.

Gambar ‎3.5. Plot Korelasi

3.3 Ukuran Jarak


Ukuran jarak ini diperlukan untuk menentukan anggota cluster.
Kabpuaten/kota yang memiliki jarak berdekatan, akan masuk dalam cluster yang
sama. Untuk ukuran jarak, secara default dalam R menggunakan ukuran jarak
Eucledian Distance pada Persamaan (1). Hasil perhitungan jarak divisualisasikan
dalam Gambar 3.6 berikut.

8
Gambar ‎3.6. Visualisai Jarak Antar Kabupaten/Kota

Berdasarkan Gambar 3.6, dapat dilihat hasil visuaisasi ukuran jarak,


dimana jika jarak semakin berwarna biru. Maka, jarak antar kabupaten akan
semakin jauh. Sebaliknya, jika jarak semakin orange muda, maka antar variabel
memiliki jarak yang semakin dekat.

3.4 Hasil Clustering dengan K-Means


Dalam analisis kali ini, jumlah kluster yang praktikan pilih adalah
sebanyak k =3. Dan hasil dari pengklusteran yang diporelah dapat dilihat pada
Gambar 3.7 berikut.

Gambar ‎3.7. Ukuran Cluster dan Anggotanya

Berdasarkan Gambar 3.7 diatas, diperoleh pada cluster 1 terdapat


sebanyak 2 anggota cluster yaitu Kota Manado dan Kepulauan Sitaro, cluster 2

9
sebanyak 12 anggota yaitu, Minahasa, Kepulauan Sangihe, Kepulauan Talaud,
Minahasa Selatan, Minahasa Utara, Bolaang Mongondow Utara, Minahasa
tenggara, Bolaang Mongondow Selatan, Bolaang Mongondow Timur, Kota
Bitung, Kota Tomohon, dan Kota Mombagu. Sedangkan pada cluster 3 hanya
teridir dari 1 anggota yaitu kabupaten Bolaang Mongondow. Kemudian, dapat
pula dilihat nilai Within dan Between Cluster pada Gambar 3.8 berikut.

Gambar ‎3.8. Nilai Within dan Between


Nilai Within menggambarkan hubungan antar anggota dalam cluster,
sedangkan nilai Between, menggambarkan hubungan antar cluster. Jika nilai
Within lebih besar dari pada nilai Between, maka kluster yang terbentuk dapat
dikatan baik karena memiliki hubungan yang lebih kuat antar anggota
didalamnya. Berdasarkan Gambar 3.8, diketahui bahwa nilai within setiap cluster
lebih kecil dibandingkan dengan nilai between. sehingga dapat disimpulkan
bahwa cluster yang terbentuk cukup baik. Kemudian dapat pula dilihat hasil
vissualisasi cluster dalam Gambar 3.9 berikut.

Gambar ‎3.9. Hasil Visualisasi Cluster


Dapat dilihat hasil visualisasi cluster dalam Gambar 3.9, dimana warna
merah menunjukkan cluster pertama, warna hijau menunjukkan cluster kedua,

10
dan warna biru menunjukkan cluster ketiga. Kemudian antara cluster memiliki
jarak yang cukup berjauhan.

3.5 Segmentasi cluster


Segmentasi kluster berguna untuk melihat karakteristik dari masing-masing
cluster. Nilai yang dipakai untuk melihat karakteristik ini adalah menggunakan
nilai rata-rata dari masing-masing variabel berdasarkan cluster.

Gambar ‎3.10. Segmentasi Cluster


Berdasarkan Gambar 3.10, dapat diketahui bahwa Kabupaten/Kota yang
masuk dalam cluster 1 adalah Kabupaten/Kota yang memiliki Luas Panen dan
Rata-rata Produksi Padi paling kecil, kemudiaan Kabupaten/Kota yang masuk
dalam cluster 2 adalah Kabupaten Kota dengan nilai luas Panendan Rata-rata
produksi padi yang sedang, dan cluster 3 adalah kabupaten/Kota dengan nilai
Luas Panen dan Rata-rata Produksi padi yang paling besar. Selain itu, nilai ini
juga dapat divisualisasikan dalam bentuk Barplot seperti pada Gambar 3.11
berikut.

11
Gambar ‎3.11. Barplot

12
4 Penutup

4.1 Kesimpulan

Berdasarkan hasil analisis clustering menggunakan K-Means yang telah


dilakukan pada bagian sebelumnya, maka dapat disimpulkan bahwa:
1. Berdasarkan uji normalitas multivariat, diketahui bahwa data tidak
terdistribusi secara normal multivariat
2. Berdasarkan Uji multikoleniaritas, diketahui bahwa antara variabel luas
panen dan produksi saling berkorelasi dengan nilai korelasi sebesar 1.
Yang artinya berkorelasi posif=tif dan sangat kuat.
3. Hasil cluster yang diperoleh adalah pada cluster 1 terdapat sebanyak 2
anggota cluster yaitu Kota Manado dan Kepulauan Sitaro, cluster 2
sebanyak 12 anggota yaitu, Minahasa, Kepulauan Sangihe, Kepulauan
Talaud, Minahasa Selatan, Minahasa Utara, Bolaang Mongondow Utara,
Minahasa tenggara, Bolaang Mongondow Selatan, Bolaang Mongondow
Timur, Kota Bitung, Kota Tomohon, dan Kota Mombagu. Sedangkan
pada cluster 3 hanya teridir dari 1 anggota yaitu kabupaten Bolaang
Mongondow.
4. Cluster yang terbentuk dikatakan cukup baik karena memiliki nilai within
setiap cluster yang lebih kecil dari nilai between-nya.

13
5 Daftar Pustaka

Rohmawati, W. N., S. Defiyanti, and M. Jajuli. "Implementasi Algoritma K-


Means Dalam Pengklasteran Mahasiswa Pelamar Beasiswa." Jurnal Imiah
Teknologi Informasi Terapan, 2016: 62-68.

14

Anda mungkin juga menyukai