Proposal Skripsi
Disusun untuk melengkapi syarat-syarat
guna memperoleh gelar Sarjana Sains
ASTRID ALFIRA
3125121985
LEMBAR PENGESAHAN
: Astrid Alfira
No. Registrasi
: 3125121985
Program Studi
: Matematika
Judul
Menyatakan bahwa proposal skripsi ini telah siap diajukan untuk seminar pra
skripsi.
Menyetujui,
Dosen Pembimbing I
Dosen Pembimbing II
DAFTAR ISI
DAFTAR ISI
DAFTAR GAMBAR
I
iii
PENDAHULUAN
1.1
1.2
Perumusan Masalah
. . . . . . . . . . . . . . . . . . . . . . . .
1.3
Pembatasan Masalah . . . . . . . . . . . . . . . . . . . . . . . .
1.4
Tujuan Penulisan . . . . . . . . . . . . . . . . . . . . . . . . . .
1.5
Manfaat Penulisan . . . . . . . . . . . . . . . . . . . . . . . . .
1.6
Metode Penelitian . . . . . . . . . . . . . . . . . . . . . . . . . .
II LANDASAN TEORI
2.1
Analisis Kelompok . . . . . . . . . . . . . . . . . . . . . . . . .
2.2
Analisis Korelasi . . . . . . . . . . . . . . . . . . . . . . . . . .
2.3
2.4
2.5
2.6
2.7
III PEMBAHASAN
3.1
18
Pengelompokan Menggunakan Metode Hybrid Hierarchical Clustering dengan Jarak Square Euclidean
. . . . . . . . . . . . . . 18
3.2
3.3
Contoh Kasus . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
DAFTAR PUSTAKA
19
ii
DAFTAR GAMBAR
2.1
2.2
2.3
Diagram alir pengelompokan menggunakan metode Hybrid Hierarchical Clustering dengan jarak Square Euclidean. . . . . . . 17
iii
BAB I
PENDAHULUAN
1.1
Cluster atau klaster dapat diartikan kelompok; dengan demikian, pada dasarnya analisis klaster akan menghasilkan sejumlah klaster (kelompok).
Analisis ini diawali dengan pemahaman bahwa sejumlah data tertentu sebenarnya mempunyai kemiripan diantara anggotanya. Karena itu, dimungkinkan
untuk mengelompokkan anggota-anggota yang mirip atau mempunyai karakteristik yang serupa tersebut dalam satu atau lebih dari satu klaster.
Salah satu cara kerja dan tujuan analisis klaster adalah mengelompokkan
objek-objek berdasarkan persamaan karakteristik di antara objek-objek tersebut. Objek yang akan diklaster bisa berupa produk (barang dan jasa), makhluk hidup (tumbuhan dan binatang), atau manusia (disebut responden, konsumen, partisipan dalam kegiatan eksperimen, atau yang lain). Objek tersebut
akan diklasifikasikan ke dalam satu atau lebih klaster (kelompok) sehingga
objek-objek yang berada dalam satu klaster akan mempunyai kemiripan satu
sama lain.
Dalam praktek, analisis klaster bisa diterapkan pada banyak bidang ilmu;
seperti psikologi, biologi, kedokteran, dan manajemen. Berikut contoh kegunaan analisis klaster pada bidang ilmu manajemen pemasaran. Sebuah perusahaan real estate ingin mengetahui perilaku konsumen yang membeli rumah di
lingkungan tertentu. Untuk itu, sekian responden diminta memberi pendapat
mereka tentang berbagai variabel pembelian sebuah rumah, seperti lingkung-
2
an yang aman, lingkungan yang nyaman dan bebas banjir, fasilitas umum dan
sosial yang memadai, letak perumahan yang strategis, harga yang terjangkau,
sistem pembayaran yang fleksibel dan sebagainya. Dengan analisis klaster diketahui bahwa ada tiga kelompok konsumen pembeli rumah tersebut, yakni
klaster yang memperhatikan lingkungan, klaster yang mengutamakan sistem
kredit dan klaster yang mengutamakan mutu rumah tersebut.
Analisis kelompok berguna untuk mengelompokkan objek berdasarkan ukuran kemiripan, dimana konsep dasar dari analisis kelompok adalah pengukuran
jarak dan kesamaan. Pengelompokan objek di dalam analisis kelompok dapat dilakukan dengan metode bottom-up, top-down, dan Hybrid Hierarchical
Clustering. Pengelompokan objek dengan bottom-up menggunakan metode pengelompokan yang dimulai dari kelompok kecil menjadi kelompok yang lebih
besar, pengelompokan objek dengan top-down menggunakan metode sebaliknya yaitu pengelompokan dengan memecah kelompok besar menjadi kelompok
yang lebih kecil. Metode Hybrid Hierarchical Clustering baru diperkenalkan
pada tahun 2006 oleh Hugh Chipman dan Robert Tibshirani, dimana metode
ini mengkombinasikan kelebihan metode bottom-up dan top-down. Algoritma
bottom-up baik dalam mengelompokkan ukuran sampel kecil dan sebaliknya,
algoritma top-down baik dalam mengelompokkan ukuran sampel besar. Metode Hybrid Hierarchical Clustering yang digunakan adalah metode pengelompokan hybrid melalui mutual cluster. Mutual cluster adalah pengelompokan
yang menggunakan jarak terbesar antara pasangan dalam kelompok yang lebih
kecil dari jarak terpendek ke setiap titik di luar kelompok.
Penelitian yang telah dilakukan untuk menangani masalah Hybrid Hierarchical Clustering diantaranya adalah Pemilihan Metode Pengelompokan Terbaik Kabupaten/Kota Berdasarkan Indikator Pendidikan Menggunakan Hybrid
Melalui Mutual Cluster, Bottom-Up dan Top-Down (Agustina, 2013) dan Ana-
3
lisis Hybrid Hierarchical Clustering Melalui Mutual Cluster, Bottom-Up dan
Top-Down Menggunakan Jarak Euclidean dan Mahalanobis (Madani, 2014).
Kedua penelitian tersebut masih membahas metode hybrid dengan menggunakan jarak Euclidean, dimana jarak Euclidean mempunyai asumsi bahwa antar peubah tidak saling berkorelasi.
Dalam skripsi ini, metode yang dipakai menggunakan jarak Square Euclidean yang merupakan pengembangan dari jarak Euclidean. Sebagaimana namanya, Square Euclidean adalah ukuran jarak dengan mengkuadratkan bobot
terbesar suatu jarak antara dua fasilitas yang berdekatan. Relatif untuk beberapa persoalan terutama menyangkut persoalan lokasi fasilitas diselesaikan
dengan penerapan Square Euclidean. Pemilihan metode pengelompokan terbaik dalam skripsi ini menggunakan nilai Cluster Tightness Measure (CTM),
dimana nilai CTM didasarkan pada simpangan baku dari beberapa kelompok
dengan beberapa peubah. Berdasarkan nilai CTM, akan ditunjukkan pengelompokan metode Hybrid Hierarchical Clustering menggunakan Square Euclidean.
1.2
Perumusan Masalah
1.3
Pembatasan Masalah
1.4
Tujuan Penulisan
1.5
Manfaat Penulisan
5
3. Pengetahuan dalam mendeskripsikan sifat-sifat atau karakteristik dalam
masing-masing kelompok klaster.
1.6
Metode Penelitian
Skripsi ini merupakan kajian teori dalam bidang analisis peubah ganda dan
analisis runtun waktu yang didasarkan pada buku-buku dan jurnal-jurnal tentang teori permasalahan di bidang statistik. Referensi utama yang digunakan
yaitu Santoso (2010), Johnson & Wichern (2002).
BAB II
LANDASAN TEORI
Pada bab ini akan dibahas teori-teori mengenai analisis klaster (kelompok),
analisis korelasi, analisis komponen utama, lalu akan dijelaskan juga mengenai
jarak Square Euclidean, pengelompokan menggunakan metode bottom-up dan
top-down, serta metode Hybrid Hierarchical Clustering menggunakan jarak
Square Euclidean. Sebagai awalan, akan dijelaskan mengenai analisis kelompok.
2.1
Analisis Kelompok
7
lebih kecil. Metode pengelompokan non-hierarki telah ditentukan sebanyak
kelompok yang akan dibentuk (Johnson dan Wichern, 2002). Asumsi yang harus dipenuhi dalam analisis kelompok adalah antar peubah harus saling bebas
atau tidak terdapat korelasi antar peubah. Sehingga untuk mengetahui apakah
terdapat korelasi antar peubah dilakukan pengujian yaitu analisis korelasi.
2.2
Analisis Korelasi
n
P
n
P
n
P
n X1i X2i
X1i
X2i
i=1
i=1
i=1
v
.
r= "
u
n
n
2 # " n
2 #
n
u P
P
P
P
t n X2
X1i
n X2
X2i
1i
i=1
2i
i=1
i=1
i=1
Keterangan:
r
koefisien korelasi
X1i
X2i
jumlah amatan.
Analisis kelompok tidak dapat dilakukan jika terdapat korelasi antar peubah, sehingga dilakukan analisis komponen utama dengan tujuan membentuk
peubah-peubah baru yang tidak saling berkorelasi, yang akan dibahas pada
subbab berikut.
2.3
9
V ar(Yi ) = ei0 ei maksimum dan ei0 ei = 1. Pembentukan komponen utama
dijelaskan seperti berikut:
1. Komponen utama pertama adalah kombinasi linear e01 X yang memaksimumkan V ar(e01 X) dengan syarat e01 e1 = 1.
2. Komponen utama kedua adalah kombinasi linear e02 X yang memaksimumkan V ar(e02 X) dengan syarat e02 e2 = 1.
3. Komponen utama ke-i adalah kombinasi linear e0i X yang memaksimumkan V ar(e0i X) dengan syarat e0i ek = 1 dan Cov(e0i ek ) = 0 untuk k < 1.
Antar komponen utama tersebut tidak berkorelasi dan mempunyai variasi
yang sama dengan akar ciri dari merupakan varian dari komponen utama
Y, sehingga matriks ragam peragam
X
0
= .
..
dari Y adalah:
0 0
2 0
.
.. . .
..
. .
.
0 p
Total keragaman variabel asal akan sama dengan total keragaman yang diterangkan oleh komponen utama yaitu:
p
X
var(Xi ) = tr() = 1 + 2 + + p =
j=1
p
X
var(Yi ).
j=1
Penyusutan dimensi dari variabel asal dilakukan dengan mengambil sejumlah kecil komponen yang mampu menerangkan bagian terbesar keragaman
data. Apabila komponen utama yang diambil sebanyak q komponen, dimana q < p, maka proporsi dari keragaman total yang bisa diterangkan oleh
komponen utama ke-i adalah:
i
; i = 1, 2, . . . , p.
1 + 2 + + p
10
Penurunan komponen utama dari matriks korelasi dilakukan apabila data sudah terlebih dahulu ditransformasikan ke dalam bentuk baku Z. Transformasi
ini dilakukan terhadap data yang satuan pengamatannya tidak sama. Bila
variabel yang diamati ukurannya pada skala dengan perbedaan yang sangat
lebar atau satuan ukurannya tidak sama, maka variabel tersebut perlu dibakukan (standardized). Variabel baku (Z) didapat dari transformasi terhadap
variabel asal dalam matriks berikut:
1/ 1
2
(X ).
Z= V
V1/2 adalah matriks simpangan baku dengan unsur diagonal utama adalah
aii 1/2 sedangkan unsur lainnya adalah nol. Nilai harapan E(Z) = 0 dan keragamannya adalah:
1/ 1
1/ 1
= .
V 2
Cov(Z) = V 2
Dengan demikian komponen utama dari Z dapat ditentukan dari vektor ciri
yang didapat melalui matriks korelasi variabel asal . Untuk mencari akar ciri
dan menentukan vektor pembobotnya sama seperti pada matriks . Sementara trace matriks korelasi akan sama dengan jumlah p variabel yang dipakai.
Pemilihan komponen utama yang digunakan didasarkan pada nilai akar cirinya, yaitu komponen utama akan digunakan jika akar cirinya lebih besar dari
satu.
Setelah penjelasan teori tentang analisis klaster, analisis korelasi, dan analisis komponen utama, berikutnya kita akan mulai memasuki metode yang
akan digunakan pada skripsi ini yaitu metode Hybrid Hierarchical Clustering.
Seperti yang telah dijelaskan, metode Hybrid Hierarchical Clustering merupakan penggabungan dua metode bottom-up dan top-down. Sebelumnya, akan
dibahas terlebih dahulu mengenai jarak yang digunakan yaitu jarak Square
Euclidean.
11
2.4
Keterangan:
dij
1, 2, ..., n
1, 2, ..., p
Xiq
Xjq
banyaknya peubah,
sedangkan pada jarak Square Euclidean dapat diartikan sebagai suatu ukuran kesamaan jumlah kuadrat perbedaan tanpa akar kuadrat. Jarak Square Euclidean antara dua unit/observasi yang berdimensi p dengan koordinat
Xi = (X1 , X2 , ..., Xp ) dan Yi = (Y1 , Y2 , ..., Yp ). Formulanya sebagai berikut
(Hair dkk., 2010):
d2ij
p
X
q=1
(Xiq Xjq )2 .
12
Keterangan:
dij
1, 2, ..., n
1, 2, ..., p
Xiq
Xjq
banyaknya peubah.
Jarak Square Euclidean digunakan dalam pengelompokan metode bottomup dan top-down. Berikut akan dijelaskan tentang metode bottom-up dan
top-down.
2.5
Pengelompokan dengan menggunakan metode bottom-up adalah suatu metode hierarki dimana n buah kelompok digabungkan menjadi satu kelompok
tunggal. Metode bottom-up ini meletakkan setiap objek data sebagai sebuah kelompok tersendiri (atomic cluster ) yang selanjutnya kelompok-kelompok
tersebut bergabung menjadi kelompok besar sampai akhirnya semua objek
menyatu dalam sebuah kelompok tunggal. Jarak antar objek diperlukan pada
tahap awal dalam penggabungan 2 kelompok dengan metode agglomerative
(Hair dkk., 2010).
Proses pengelompokan dengan metode bottom-up dimulai dengan terdapat
data amatan Xi dan Xj yang setiap objek dipandang sebagai kelompok tersendiri (atomic cluster). Langkah selanjutnya, hitung
n2 n
2
13
pasangan kelompok yang memiliki jarak terdekat adalah statistik peringkat
pertama d(uv) . Lalu, hitung kembali
(n1)2 (n1)
2
14
de bottom-up, dilakukan juga pengelompokan dengan metode top-down. Hasil
dari penggabungan metode bottom-up dan top-down merupakan pengelompokan metode Hybrid Hierarchical Clustering, sehingga pada subbab selanjutnya
akan dijelaskan secara rinci mengenai pengelompokan metode top-down.
2.6
Pengelompokan dengan metode top-down adalah membagi n objek ke dalam k kelompok yang bertujuan untuk mengelompokkan objek sehingga jarak
antar objek ke pusat kelompok di dalam satu kelompok minimum.
Proses pertama dalam mengelompokkan dengan menggunakan metode topdown yang bersifat non-hierarki (k-means) adalah terdapat data amatan Xi
dan Xj . Kemudian, partisikan obyek ke dalam k kelompok. Langkah selanjutnya, hitung pusat kelompok dimana pusat kelompok itu sendiri merupakan
rata-rata dari keseluruhan obyek yang berasa dalam kelompok tersebut. Setelah itu, hitung jarak setiap obyek ke pusat kelompok dengan menggunakan
jarak Square Euclidean. Jika terdapat obyek yang berpindah dari posisi awal,
maka pusat kelompok dihitung kembali dan periksa kembali posisi obyek. Ulangi langkah-langkah tersebut sampai tidak ada obyek yang berpindah posisi.
Metode bottom-up dan metode top-down yang telah dijelaskan di atas merupakan bagian dari metode Hybrid Hierarchical Clustering. Subbab berikut
akan menjelaskan Hybrid Hierarchical Clustering secara lebih terperinci. Sebelum membahas metode Hybrid Hierarchical Clustering, di bawah ini adalah
bentuk diagram alir pengelompokan dengan menggunakan metode top-down
(k-means):
15
2.7
Metode Hybrid terdiri dari dua metode yaitu bottom-up yaitu metode pengelompokan dimulai dari kelompok kecil menjadi kelompok yang lebih besar
(agglomerative) dan top-down yaitu metode pengelompokan dengan memecah
kelompok besar menjadi kelompok lebih kecil seperti metode k-means membagi sebanyak k kelompok, lalu terdapat analisis hierarchical clustering. Metode
analisis hierarchical clustering ini dibagi menjadi dua bagian yaitu agglomerative (penggabungan) dan divisive (pemecahan). Dalam metode agglomerative
16
tiap data amatan pada mulanya dianggap sebagai klaster tersendiri sehingga
pada tahap awal ini banyaknya klaster sama dengan banyaknya data amatan.
Kemudian dua data amatan yang terdekat kemiripannya digabung menjadi
satu klaster baru, sehingga jumlah klaster semula berkurang satu pada tiap
tahap. Dalam agglomerative juga terdapat beberapa jenis metode, diantaranya metode pautan (linkage method) yang terbagi lagi menjadi pautan tunggal
(single linkage), pautan lengkap (complete linkage), pautan rata-rata (average
linkage); metode varians (variance method); dan metode centroid.
Metode Hybrid Hierarchical Clustering merupakan metode pengelompokan
(agglomerative) objek-objek tertentu yang berasal dari hasil penggabungan
antara metode bottom-up dan top-down. Pengelompokan Hybrid Hierarchical
Clustering ini menggunakan jarak Square Euclidean. Menurut Manly (1998),
penggunaan jarak Euclidean memenuhi 3 asumsi yaitu mempunyai ukuran
satuan yang sama, pengukuran pembakuan mempunyai nilai tengah nol dan
simpangan baku satu dan peubah tidak saling berkorelasi.
Proses pengelompokan Hybrid Hierarchical Clustering dengan menggunakan jarak Square Euclidean dimulai dengan terdapat data amatan tentang Penduduk Buta Aksara Kabupaten/kota di Indonesia Tahun 2010-2015 (dalam
bentuk persen). Kemudian, objek-objek tersebut dipartisi ke dalam k kelompok. Lalu, hitung pusat kelompok dimana pusat kelompok merupakan ratarata dari keseluruhan obyek yang berada dalam kelompok tersebut. Setelah
itu, hitung jarak setiap objek ke pusat kelompok dengan menggunakan jarak
Square Euclidean. Jika ada obyek yang berpindah dari posisi awal, maka pusat
kelompok dihitung kembali, lalu cek kembali posisi obyeknya. Ulangi langkah
tersebut apabila posisi obyek masih berpindah-pindah. Jika sudah tidak ada
obyek yang berpindah posisi, hitung jarak kelompok pertama dengan objek lain menggunakan metode pengelompokan average linkage yang kemudian akan
17
menghasilkan jarak pertama. Dikarenakan 2 obyek pada tahap awal membentuk satu kelompok tunggal, sehingga banyak obyek berkurang 1. Penggabungan berakhir sampai terbentuk sebuah kelompok tunggal. Di bawah ini
adalah diagram alir mengenai pengelompokan menggunakan metode Hybrid
Hierarchical Clustering dengan jarak Square Euclidean:
Gambar 2.3: Diagram alir pengelompokan menggunakan metode Hybrid Hierarchical Clustering dengan jarak Square Euclidean.
BAB III
PEMBAHASAN
3.1
Akan dimasukan diagram alir proses dan pengertian dari setiap variabel
serta interpretasi langkah langkah
3.2
3.3
Contoh Kasus
18
DAFTAR PUSTAKA
19