Anda di halaman 1dari 29

Analisis Cluster

Analisis Cluster

Analisis cluster adalah pengorganisasian kumpulan


pola ke dalam cluster (kelompok-kelompok) berdasar
atas kesamaannya.

Pola-pola dalam suatu cluster akan memiliki


kesamaan ciri/sifat daripada pola-pola dalam cluster
yang lainnya.

Analisis Cluster

Clustering bermanfaat untuk melakukan


analisis pola-pola yang ada, mengelompokkan,
membuat keputusan dan machine learning,
termasuk data mining, document retrieval,
segmentasi citra, dan klasifikasi pola.

etodologi clustering lebih cocok digunakan


untuk eksplorasi hubungan antar data untuk
membuat suatu penilaian terhadap strukturnya.

!ipe Clustering

Partitional Clustering

Pembagian ob"ek data ke dalam non-overlapping


subset (cluster) sehingga setiap ob"ek data adalah
tepat satu subset

#irerarchical Clustering

$ehimpunan cluster bersarang yang


diorganisasikan sebagai struktur hirarki pohon.

!ipe Cluster

%ell-separated clusters

Center-based clusters

&ensity-based clusters

%ell-separated

$ebuah cluster adalah sehimpunan titik yang


memiliki kemiripan dengan titik lain dalam
cluster daripada di cluster lain.

Center-based

$ebuah cluster yang memiliki anggota-anggota


yang mirip dengan pusat cluster daripada pusat
cluster lain.

Pusat cluster

Centroid' (ata-rata dari semua titik dalam cluster

edoid' memilih titik sebagi titik tengah.



&ensity-based

$ebuah cluster adalah area padat titik, yang


dipisahkan dengan area kepadatan rendah, dari
area kepadatan tinggi lainnya.

&igunakan ketika cluster tidak teratur atau


saling terkait, dan ketika noise dan outliers
hadir.

)omponen

representasi pola (termasuk ekstraksi sifat/ciri dan


atau pemilihan),

definisi ukuran kedekatan pola sesuai dengan


domain data,

clustering atau pengelompokan,

"ika diperlukan, abstraksi data (proses ekstraksi


untuk deksripsi cluster),

"ika diperlukan, penilaian terhadap hasil


(menggunakan metode pengukuran dan pengu"ian
terhadap hasil clustering apakah valid atau tidak).

!ahapan Clustering

)edekatan pola biasanya diukur dengan


fungsi "arak antar dua pasang pola.

cosine similarity, manhattan distance, dan


euclidean distance.

!ahapan Clustering

(epresentasi pola (pattern representation)


merupakan "umlah kelas, "umlah pola yang ada,
"umlah, tipe dan skala ciri/sifat yang tersedia
untuk algoritma clustering.

Pemilihan ciri/sifat (feature selection) adalah


proses identifikasi ciri/sifat yang lebih efektif untuk
digunakan dalam algoritma clustering, sedangkan
ekstraksi ciri/sifat adalah pemakaian satu atau
lebih transformasi dari ciri/sifat yang ada
sebelumnya untuk mendapatkan ciri/sifat yang
lebih menon"ol.

!ahapan Clustering

)edekatan pola biasanya diukur dengan fungsi


"arak antar dua pasang pola.

Pengukuran "arak yang sederhana, seperti


Euclidean distance, Minkowski, Hamming distance,
sering digunakan untuk menyatakan
ketidaksamaan antara dua pola

$edangkan pengukuran kesamaan lain, seperti


Simple Matching Coefficient, Jaccard Coefficient,
Cosine Similarity, dapat digunakan untuk
menun"ukkan kesamaan karakter antar pola-pola.

k-eans

Partitional clustering

$etiap cluster terasosiasi dengan sebuah


centroid

$etiap titip dinyatakan ke suatu cluster yang


paling dekat dengan centroidnya.

*umlah cluster, ), dinyatakan di a+al



)-eans

Contoh )-eans

)elompokkan dataset berikut ke dalam , kelompok


dengan k-means (- epoch sa"a)'

A./(-,.0)

A-/(-,1)

A,/(2,3)

A3/(1,2)

A1/(4,1)

A5/(5,3)

A4/(.,-)

A2/(3,6)

)eterbatasan )-eans

)-ean bermasalah ketika cluster-cluster


berbeda

7kuran

)epadatan

!idak berbentuk bola

)-ean bermasalah ketika data berisi outlier



)-edoid

$eperti metode partisi clustering yang lainnya, metode k-


medoid "uga digunakan untuk pengelompokkan dokumen.

&alam metode k-medoid ini setiap cluster dipresentasikan dari


sebuah ob"ek di dalam cluster yang disebut dengan medoid.

!u"uannya adalah menemukan kelompok k-cluster ("umlah


cluster) diantara semua ob"ek data di dalam sebuah kelompok
data.

Clusternya dibangun dari hasil mencocokkan setiap ob"ek data


yang paling dekat dengan cluster yang dianggap sebagai
medoid sementara.

)-edoids
..pilih point k sebagai inisial centroid / nilai tengah
(medoids) sebanyak k cluster.
-.cari semua point yang paling dekat dengan medoid,
dengan cara menghitung "arak vector antar
dokumen. (menggunakan 8uclidian distance)
,.secara random, pilih point yang bukan medoid.
3.hitung total distance
1.if !& baru 9 !& a+al, tukar posisi medoid dengan
medoids baru, "adilah medoid yang baru.
5.ulangi langkah - - 1 sampai medoid tidak berubah.

Contoh )-edoids

)/-, c.(,,3): c-(4,3)
c1 Data objects (Xi) Cost (distance)
3 4 2 6
3 4 3 8
3 4 4 7
3 4 6 2
3 4 6 4
3 4 7 3
3 4 8 5
3 4 7 6
c2 Data objects (Xi) Cost (distance)
7 4 2 6
7 4 3 8
7 4 4 7
7 4 6 2
7 4 6 4
7 4 7 3
7 4 8 5
7 4 7 6

;earest ;eighbor clustering

$ebuah titik membentuk cluster baru atau


bergabung dengan salah satu cluster yang
sudah ada bergantung pada seberapa dekat
titik tersebut dengan cluster.

$ebuah treshold, t, untuk menentukan bergabung


atau membuat cluster baru.

;earest ;eighbor clustering

<atihan ;;

)elompokkan dataset berikut ke dalam , kelompok


dengan ;; clustering (- epoch sa"a)'

A./(-,.0)

A-/(-,1)

A,/(2,3)

A3/(1,2)

A1/(4,1)

A5/(5,3)

A4/(.,-)

A2/(3,6)

#ierarchical Clustering

embentuk beberapa himpunan cluster

*umlah cluster tidak dimasukkan di a+al

$truktur hirarki cluster dapat dipresentasikan sebagai


dendrogram.

&aun berisi . item.

$etiap item masuk dalam satu cluster

(oot me+akili semua item

=nternal node menyatakan cluster yang dibentuk oleh penggabungan


cluster anak.

$etiap level diasosiasikan dengan suatu treshold "arak yang


digunakan untuk menggabungkan cluster
*ika "arak antar - cluster lebih kecil dari treshold, maka digabungkan.
*arak akan bertambah sesuai dengan level.

#ierarchical Clustering

enggunakan matrik "arak sebagai kriteria


clustering. etode ini tidak memerlukan "umlah
cluster, ), sebagai inputan, namun butuh
kondisi terminasi.

$ingle <ink dan Complete <ink

$ingle <ink

- cluster digabungkan "ika hanya - titiknya


berdekatan.

Complete <ink

*arak antar - cluster adalah "arak terbesar antar


sebuah elemen dalam satu cluster dan sebuah
elemen di cluster lain.

Contoh' A>;8$

$ingle <ink' A>;8$

Complete <ink'
A>;8$

Anda mungkin juga menyukai