Analisis Klaster

ANALISIS KLASTER
Sains Data Akuntansi • Data Science for Accounting

2223GE
KONTEKS ANALISIS KLASTER
• misalkan tim marketing bisa saja memerlukan informasi untuk melakukan
segmentasi pasar dan menentukan profil kustomernya;
• misalnya menurut aspek geografi, aspek demografi, atau aspek keperilakuan lainnya,
• dalam situasi seperti ini, mereka boleh jadi tidak tertarik dengan hubungan kausalitas di antara
beberapa variabel.
• misalkan seorang peneliti boleh saja mempunyai banyak variabel yang akan dikaji;
• namun setelah ia mengeksplorasi data, diketahui bahwa beberapa variabel cenderung
mempunyai nilai yang berdekatan (tidak begitu bervariasi) sehingga membentuk kelompok-
kelompok,
• situasi seperti ini mirip dengan keadaan yang ditemui pada analisis faktor,
• hanya saja peneliti tidak mempunyai dugaan bahwa ada suatu konstruk yang tak terobservasi
yang direpresentasikan oleh kedekatan nilai tersebut,
• begitu pula, kedekatan nilai ini juga mempunyai keacakan dan tidak mencerminkan inter-
korelasi.
TUJUAN ANALISIS KLASTER
• analisis klaster berguna untuk mengelompokkan data observasi
ataupun variabel-variabel ke dalam suatu pengelompokan yang
sedemikian rupa sehingga setiap kelompok mempunyai homogeneitas;
• oleh karena analis ingin memperoleh pengelompokan yang homogen, maka

dasar pengelompokan yang digunakan adalah kesamaan skor nilai yang
dianalisis.
• data mengenai ukuran kesamaan tersebut kemudian digunakan dengan

berbagai metode sehingga analis dapat menentukan unit (item atau subjek) apa
yang akan masuk kelompok mana.
ASUMSI ANALISIS KLASTER
• PAHAMI analisis klaster merupakan teknik algoritma, tidak digunakan untuk
inferensi statistik,
• sehingga pada dasarnya tidak memerlukan pemenuhan asumsi normalitas distribusi data,
• begitupula tidak memerlukan pemenuhan asumsi linieritas antarvariabel.
• namun karena data yang digunakan dalam analisis klaster biasanya merupakan
sampel dari suatu populasi,
• agar dapat digunakan untuk generalisasi, maka outlier tetap harus dikeluarkan dari sampel yang
dianalisis agar kesimpulan tidak bias.
• dalam analisis juga perlu diperhatikan agar variabel yang saling berkorelasi
sebaiknya dikeluarkan dari model agar keberimbangan pada pembobotan dalam
perhitungan distance di antara kelompok bisa dipertahankan.
PENGUKURAN KESAMAAN
• konsep penting dalam analisis klaster adalah kesamaan —atau disebut
similarity (similaritas) atau proximity (proksimitas atau kedekatan).
• analis dapat memvisualkan kesamaan tersebut secara geometris dalam
bentuk kedekatan antar unit data, misal sbb:
secara intuitif dari refleksi
terhadap visualisasi tersebut
bisa disimpulkan bahwa ada 3
kelompok (klaster);
namun,tentunya analis perlu
dukungan argumen matematis
untuk menjelaskan mengapa
setiap unit tersebut
terkelompok menjadi 3 klaster.
JARAK SEBAGAI INDIKASI KESAMAAN
• kesamaan dalam analisis klaster ditentukan berdasarkan kedekatan
jarak di antara unit dalam data set.
• terdapat beberapa cara untuk mengukur jarak tergantung dimensi yang

digunakan sebagai acuan pengukuran, seperti euclidean distance,
mahalanobis distance, manhattan distance, minkowski distance, dlsb.
• metode yang sederhana dan cukup populer adalah euclidean distance,

dengan rumus, sbb:
PERSIAPAN ANALISIS SECARA MANUAL
• diketahui data sebagaimana di atas.
• jarak antara unit 1 dan 2 dhitung dengan metode euclidean, 2

𝐷𝑖𝑗 = (17 – 17)2 +
(5 – 4)2 = 1
• selanjutnya dihitung pula jarak antara unit 1 dan 3 adalah 117; unit 2 dan 3 adalah 130,
dst.
PERSIAPAN ANALISIS SECARA MANUAL
• hasil perhitungan jarang untuk masing-masing unit data kemudian disajikan dalam bentuk tabel atau
matriks proksimitas —atau disebut juga matriks similaritas, atau matriks disimilaritas, sbd.
• setelah itu baru kemudian menerapkan metode analisis klaster yang diperlukan.
METODE KLASTERISASI
• pada dasarnya metode klasterisasi dikelompokkan menjadi dua pendekatan:
• pendekatan hierarkikal —disebut agglomerative hierarchical methods; dan
• pendekatan nonhierarkikal
• pendekatan hierarkikal terdiri dari metode:

• single linkage method atau nearet-neighbor method
• complete linkage method atau farthest-neighbor method
• average linkage method
• centroid method
• median method
• ward’s method
CONTOH NEAREST NEIGHBOR METHOD
• metode single linkage atau nearest neighbor mengerjakan klasterisasi
berdasarkan jarak terdekat unit klaster ke unit berikutnya.
• pada awalnya karena dalam data set tersebut ada 6 unit data, maka akan
dipandang adanya 6 klaster.
• mengacu pada tabel proksimitas (1), terlihat U1 paling dekat dengan U2

(bernilai 1), maka kedua unit tersebut membentuk klaster pertama atau C1.
• pada iterasi pertama ini, terbentuk 5 klaster, yaitu C1 (U1dan U2), U3, U4, U5
dan U6.
• analis bisa mengulang kembali perhitungan untuk menentukan
pasangan unit yang akan membentuk berikutnya apabila klaster yang
ada belum bermakna.
• pada iterasi kedua ini dihitung kembali jarak klaster C1 ke U3;

• karena ada dua unit dalam klaster C1, maka jarak ditentukan berdasarkan mana
yang paling dekat antara U1 ke U3 atau U2 ke U3.
2 2
• oleh karena itu 𝐷13 = 117 dipilih menjadi acuan daripada 𝐷23 = 130
• kemudian penentuan tersebut disajikan kembali ke dalam tabel proksimitas sbb.
• dari perhitungan yang tersaji di tabel, jarak terdekat berikutnya terjadi di antara U3
dan U4, sehingga keduanya bisa digabungkan menjadi klaster kedua atau C2
• pada iterasi kedua ini, terbentuk 4 klaster, yakni C1 (U1 dan U2), C2 (U3 dan U4), C5
dan C6
• pada iterasi berikutnya, disajikan kembali tabel proksimitas untuk

menentukan pembentukan klaster berikutnya jika ada kedekatan yang
memadai.
• dari tabel proksimitas (3) tampak bahwa U5 dan U6 mempunyai jarak

terdekat, sehingga bisa dikelompokkan menjadi klaster ketiga atau C3
• pada iterasi berikutnya, bisa ditunjukkan bahwa klaster pertama yang

telah terbentuk, begitupula klaster kedua, mempunyai jarak terdekat
(bernilai 117) yang mana pada dasarnya keduanya juga bisa
dikelompokkan menjadi klaster baru atau, misal disebut klaster A.
• iterasi akan terus dilanjutkan (apabila tidak diberikan cut-off) dengan
mempertimbangkan jarak terdekat berikutnya.
• pada akhirnya iterasi akan berakhir setelah semua unit terkelompok

menjadi satu data set kembali.
• proses iterasi tersebut menjadi lebih jelas apabila disajikan dengan

visualisasi dendrogram (disebut juga dengan diagram pohon atau
diagram akar) dan tabel amalgamasi —yang menunjukkan skedul
penggabungan masing-masing unit
VISUALISASI DENDROGRAM
• untuk keperluan praktis, analis perlu memberikan cut-off terhadap jumlah

klaster yang dapat dibentuk dari data, misalnya dalam contoh ini, ditentukan
maksimal linkage distance sebesar 50; sehingga diperoleh ada 3 klaster.
TABEL AMALGAMASI
• tabel amalgamasi menunjukkan skedul penggabungan unit apa saja ke dalam

klaster tertentu berdasarkan jarak yang menjadi acuan pada tahap iterasi
tertentu; misal untuk jarak maksimal 5, terbentuk dua klaster, yaitu C1 (U1
dan U2) dan C2 (U3 dan U4)
RAGAM PENDEKATAN HIERARKIKAL
• kebalikan dari metode single linkage adalah metode complete linkage
yang menggunakan acuan jarak terjauh dalam penyusunan tabel
proksimitas.
• metode average, centroid dan median, mengacu pada pemaknaan jarak

di antara titik sentral klaster ke unit berikutnya.
• sementara itu, agak berbeda, metode Ward menggunakan error sum of

square (ESS) sebagai acuan, dihitung dengan cara:
CONTOH WARD METHOD
• misalkan menggunakan data sebelumnya, untuk menyelesaikan perhitungan jarak antara U1 dengan
U2, maka hitung dulu nilai rata-rata U1 dan U2, sbb:
• setelah itu baru kemudian melakukan perhitungan ESS untuk menentukan unit mana yang dapat
dikombinasikan menjadi suatu klaster.
CONTOH WARD METHOD
• pada iterasi
pertama,
berdasarkan nilai
ESS terendah, maka
bisa ditentukan
bahwa klaster
pertama atau C1
yang terbentuk
berisi U5 dan U6
CONTOH WARD METHOD
• pada iterasi kedua, ESS
terendah ditunjukkan
kombinasi klaster C1 (U5 dan
U6) dan klaster C2 (U3 dan
U4) dengan ESS masing-
masing 4 dan 14,75 (lih. tabel
sblm) atau total 18,75
• pada iterasi kedua ini

terdapat 4 klaster seperti di
tabel, dan analis pada
dasarnya masih dapat
melanjutkan iterasi hingga
memperoleh jumlah klaster
yang bermakna.
PEMILIHAN METODE PDKT HIERARKIKAL
• dari beragam metode dalam pendekatan hierarkikal, kebanyakan
parktisi setuju bahwa metode Ward lebih handal untuk beragam kondisi,
dibandingkan metode lainnya;
• namun untuk keperluan klasterisasi pada data set yang sederhana, metode
single linkage seringkali juga sudah memadai.
• simak juga video pembelajaran pada tautan yang dibagikan di grup

kelas untuk melihat contoh klasterisasi dengan metode nearest
neighbor menggunakan aplikom SPSS.
PENDEKATAN NONHIERARKIKAL
• metode analisis non-hierarkikal juga mempunyai beberapa metode, dan yang populer adalah
metode K-means.
• K-means melakukan klasterisasi dengan meminimalkan SS (sum of square) jarak unit dengan titik
sentral klaster (centroid).
• dalam metode K-means, analis perlu menentukan jumlah klaster dan titik sentral terlebih
dahulu secara manasuka, baru kemudian menentukan unit apa yang akan ditempatkan pada
klaster yang mana; sbb:
• hitung jarak antara masing-masing unit dengan centroid masing-masing klaster; dan jarak minimum
suatu unit dengan centroid klaster menunjukkan unit tersebut berada atau menjadi anggota pada
klaster tersebut,
• Masukkan unit tersebut ke dalam klaster dengan centroid terdekat, dan ulangi langkah
pembandingan,
• Apabila tidak tersedia lagi unit yang dapat dipindah menjadi anggota klaster tertentu, maka alokasi
dipandang sudah stabil dan proses iterasi selesai.
• simak juga video pembelajaran pada tautan yang dibagikan di grup kelas untuk melihat
contoh klasterisasi dengan K-means menggunakan aplikom SPSS.
TGS 04
1. simak juga tautan video
pembelajaran berikut, dan
tuliskan apa saja prosedur
yang dilakukan untuk
mengerjakan analisis klaster
menggunakan aplikom SPSS.
• https://youtu.be/hsZL-jbmWK4
• https://youtu.be/t_i2LxDAI6I
2. kerjakan analisis klaster

berdasarkan informasi
distance pada gambar
menggunakan metode
nearest neighbor; tunjukkan
proses iterasi yang dilakukan.
E.O.S

Analisis Klaster

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Analisis Klaster

Diunggah oleh

Hak Cipta:

Format Tersedia

ANALISIS KLASTER

Sains Data Akuntansi • Data Science for Accounting

• oleh karena analis ingin memperoleh pengelompokan yang homogen, maka

• data mengenai ukuran kesamaan tersebut kemudian digunakan dengan

• terdapat beberapa cara untuk mengukur jarak tergantung dimensi yang

• metode yang sederhana dan cukup populer adalah euclidean distance,

• diketahui data sebagaimana di atas.

• jarak antara unit 1 dan 2 dhitung dengan metode euclidean, 2

• pendekatan hierarkikal terdiri dari metode:

• mengacu pada tabel proksimitas (1), terlihat U1 paling dekat dengan U2

• pada iterasi kedua ini dihitung kembali jarak klaster C1 ke U3;

• pada iterasi berikutnya, disajikan kembali tabel proksimitas untuk

• dari tabel proksimitas (3) tampak bahwa U5 dan U6 mempunyai jarak

• pada iterasi berikutnya, bisa ditunjukkan bahwa klaster pertama yang

• pada akhirnya iterasi akan berakhir setelah semua unit terkelompok

• proses iterasi tersebut menjadi lebih jelas apabila disajikan dengan

• untuk keperluan praktis, analis perlu memberikan cut-off terhadap jumlah

• tabel amalgamasi menunjukkan skedul penggabungan unit apa saja ke dalam

• metode average, centroid dan median, mengacu pada pemaknaan jarak

• sementara itu, agak berbeda, metode Ward menggunakan error sum of

• pada iterasi kedua ini

• simak juga video pembelajaran pada tautan yang dibagikan di grup

2. kerjakan analisis klaster

Anda mungkin juga menyukai