Anda di halaman 1dari 4

Nama : Iputu Bayu Krisna Priastawan

Nim : 20210801345
Tugas DataMining, sesi-6.

Soal :

1. Jelaskan mengapa Clustering merupakan unsupervised learning?


2. Jelaskan 4 metode dalam Clustering dan berikan contoh aplikasi yang tepat
menggunakan masing2 metode tsb !
3. Sebutkan min 3 hal yang menentukan kualitas Cluster Analisis!

Jawaban :
1).
Karena Clustering merupakan salah satu algoritma yang bersifat atau bertipe
Machine Learning, yang dimana Unsupervised learning juga Bertipe algoritma
Machine Learning. Dan juga Clustering merupakan suatu metode penganalisaan
data atau metode yang melakukan proses pemodelan Unsupervised Learning dan
menggunakan metode yang mengelompokan data berbagai partisi, Yang memiliki
metode analisis cluster yang digunakan untuk pencarian pola-pola tersembunyi,
juga pengelompokan pada data ke dalam data cluster. Algoritma Clustering dapat
menerima data tanpa ada label kategori, pada Clustering algoritma juga bermetode
non-hierarchy. Yang bertujuan untuk mengumpulkan objek berdasarkan kesamaan
karakteristik diantara objek-objek dalam grup, dan tidak terhubung dengan objek
dalam grup lainnya.

2).
o Partitioning methods, membangun berbagai partisi dan kemudian
mengevaluasi partisi tersebut dengan beberapa kriteria, misalnya diberikan
pada database dari N objek dan K jumlah dari cluster-cluster yang dibentuk,
pada algoritma Partitioning mengorganisir objek-objek kedalam k partisi
(K ≤ N), yang dimana tiap partisi menunjukan cluster. Cluster-cluster yang
dibentuk dengan mengoptimasi ukuran sasaran pemartisian, disebut juga
dengan similarity function seperti jarak, hingga objek-objek dalam sebuah
cluster adalah serupa, sedangkan objek-objek dari cluster-cluster yang
berbeda adalah dissimiliar, menyangkut atribut-atribut dari database.
Contoh aplikasi yang tepat untuk Partitioning method adalah K-Means dan
K-medoids.

Untuk algortima K-means memiliki Teknik dasar yang memerlukan


parameter input K dan partisi-partisi suatu set dari N objek ke dalam K
cluster, jadi hasil kemiripan intracluster adalah tinggi, tapi untuk kemiripan
intercluster adalah rendah. Untuk kemiripan cluster diukur dengan
memperhatikan pada nilai rata-rata dari sebuah objek didalam cluster, yang
dapat dilihat sebagai center of gravity cluster. Untuk sistem kerja dari
algoritma K-means adalah dengan secara acak algortima menyeleksi K
objek, masing-masing diinisialisasi mewakili center Value atau center
Cluster. Untuk sisa pada masing-masing objek, ditempatkan di cluster yang
sangat serupa, yang didasarkan pada jarak antara objek dan center Value
cluster (cluster mean). Lalu selanjutnya menghitung center Value baru untuk
masing-masing cluster, seterusnya dilakukan iterasi hingga kriteria fungsi
berkumpul. `

algoritma clustering K-Medoids digunakan untuk mengurangi kesensitifan,


yang dimana paling centar mengalokasikan objek dalam cluster. Partisi
dilakukan berdasarkan prinsip dari minimasi jumlah dari ketidakmiripan
antar tiap objek dan disesuaikan dengan referensi.
Untuk strategi pada Clustering K-medoids adalah untuk menemukan K
cluster dalam N objek dengan pertama kali secara arbitrarily menemukan
wakil dari objek (medoid) untuk tiap-tiap cluster. Masing-masing sisa objek
pada cluster dengan medoid ke yang paling menyerupai. Strategi tersebut
selanjutnya secara iterative menggantikan satu medoid dari yang non medoid
sepanjang kualitas dari hasil clustering ditingkatkan.

o Hierarchical Methods, membuat suatu penguraian hierarkikal dari sebuah


himpunan data dengan menggunakan beberapa kriteria. Metode hierarchical
method berkerja dengan mengelompokan objek data ke dalam struktur
pohon cluster. Metode hierarchical method terdapat 2 macam, yaitu
agglomerative yang menggunakan strategi bottom-up dan disisive yang
menggunakan strategi top-down.

Untuk agglomerative yang memiliki strategi bottom-up, yang dimulai


dengan menempatkan tiap-tiap objek pada masing-masing cluster dan
kemudian cluster atomic bergabung ke dalam cluster yang lebih besar dan
seterusnya hingga semua objek pada single cluster atau sampai terminasi
kondisi tertentu dipenuhi.

Untuk Divisive yang memiliki strategi top-down merupakan kebalikan dari


agglomerative, yang dimana Divisive memulai semua objek dalam satu
cluster. Metode divisise membagi cluster ke dalam bagian cluster yang lebih
kecil dan seterusnya, hingga tiap-tiap objek membentuk suatu cluster dalam
masing-masing cluster sampai memenuhi kondisi terminasi tertentu.

Contoh aplikasi yang tepat untuk hierarchical methods adalah BIRCH


(balanced iterative reducing and clustering), CURE (clustering using
representatives), dan Chameleon ( a hierarchical clustering algorithm using
dynamic modeling).

Birch adalah metode hierarchical clustering yang teritegrasi. memiliki 2


konsep seperti : clustering feature dan clustering feature tree, yang
digunakan untuk menggambarkan ringkasan cluster. Birch memiliki 2 fase
sistem kerja seperti : untuk fase pertama yaitu BIRCH Scan (membaca)
database untuk membangun suatu inisial memory CF tree, yang dimana
dilihat sebagai kompresi multilevel dari data yang mencoba untuk
mempertahankan sifat struktur clustering dari data. Dan untuk fase kedua
BIRCH menggunakan suatu penyeleksian algoritma clustering untuk cluster
leaf node dari CF tree.

Cure (clustering using representatives), cure mengatasi permasalahan


dengan melakukan clustering dengan bentuk spherical (bola) dan ukuran
yang mirip dan lebih handal dengan respek ke outlier. Untuk penanganan
database yang besar, CURE menggunakan kombinasi dari sampel yang acak
(partisi yang pertama dan setiap partisi di-cluster secara parsial) dan
pemartisian. CURE dapat menghasilkan cluster dengan kualitas yang tinggi
untuk data yang masih memuat outlier, Cure mengizinkan cluster dengan
bentuk-bentuk yang kompleks dan ukuran-ukuran yang berbeda.

Chameleon (a hierarchical clustering algorithm using dynamic modeling).


Adalah algoritma clustering yang mengeksplore model dinamik dalam
hierarchical clustering. Dalam proses clustering, dua cluster digabungkan
jika saling berhubungan dan kedekatan antar dua cluster adalah tinggi
berhubungan dengan keterhubungan internal dan kedekatan dari objek-objek
didalam cluster. Untuk algoritma Chameleon memiliki 2 tahap seperti :
Menggunakan algoritma graph partitioning untuk mengelompokkan objek
data ke dalam jumlah yang relative besar menjadi subscluster-subscluster
yang kecil, kemudian menggunakan algoritma agglomerative hierarchical
clustering untuk menemukan cluster yang sebenarnya dengan
mengkombinasikan subscluster-subscluster secara terus-menerus berulang.

o Density-Based Methods, merupakan metode yang berdasarkan konektivitas


dan fungsi densitas, metode yang dikembangkan berdasarkan density
tertentu. Density-based method menganggap cluster sebagai suatu area yang
berisi objek-objek yang padat, yang dipisahkan oleh area yang memiliki
kepadatan rendah.

Untuk contoh aplikasi yang tepat untuk Density-Based Methods metodenya


meliputi algoritma Dbscan, optic dan denclu.

DBSCAN (density-based spatial clustering of applications with noise)


algoritma yang menumbuhkan area-area dengan kepadatan yang cukup
tinggi ke dalam cluster-cluster dan menemukan cluster-cluster dalam bentuk
yang sembarang dalam suatu database spatial yang memuat noise. DBSCAN
mendefinisikan cluster sebagai himpunan maksimum dari titik-titik
kepadatan yang terkoneksi, semua objek yang tidak masuk kedalam cluster
manapun dianggap sebagai noise.

Optic, digunakan untuk mengatasi kesulitan user dalam menentukan


parameter yang digunakan untuk menemukan cluster yang bisa diterima.
Terdapat 2 parameter yang digunakan dalam metode Optic, seperti : Core-
distance, Reachability-distance.
Denclue (clustering based on density distribution functions) adalah metode
clustering yang berdasarkan suatu set fungsi distribusi density. Denclue
memiliki beberapa fitur utama seperti : secara total berdasarkan matematika,
baik untuk sekumpulan data yang memuat banyak noise, mengikuti deskripsi
matematik untuk sembarang bentuk cluster dalam data berdimensi tinggi,
lebih cepat dibandingkan metode yang lain.

o Grid-based Method, metode Grid-based method berdasarkan suatu struktur


granularitas multi-level, berbasis grid untuk meng-kuantisasikan ruang
object menjadi jumlah sel yang terbatas yang membentuk suatu struktur grid.
Pada semua pengerjaan clustering dilakukan pada struktur grid.

Beberapa contoh aplikasi yang tepat untuk Grid-based Method adalah Sting,
dan WaveCluster.

Sting (statistical information grid) dilakukan dengan membagi daerah spatial


menjadi sel-sel rectangular. Beberapa Karakteristik Sting seperti : terdapat
beberapa level sel yang terkait dengan tingkatan resolusinya, setiap sel pada
level yang tinggi dipartisi menjadi beberapa sel dengan level yang lebih
rendah, informasi statistic terkait dengan atribut pada setiap sel (mean, maks,
min), menggunakan pendekatan top-down untuk menjawab query data
spatial, untuk setiap sel dalam suatu level dihitung tingkat kepercayaannya.

WaveCluster merupakan metode clustering yang melakukan sumarisasi data


yang dilakukan dengan menentukan struktur grid multidimensional terhadap
space data. Digunakan untuk mentransformasi space data asal yaitu daerah
yang padat dalam ruang transformasinya. Transformasi wavelet merupakan
suatu Teknik pemrosesan sinyal yang membagi suatu sinyal menjadi
beberapa frekuensi yang berbeda. Data ditransformasikan untuk menjaga
jarak relative antar obyek pada level resolusi yang berbeda.

3). Berikut beberapa yang menentukan kualitas clustering :


o Pada ukuran serupa yang digunakan oleh metode tersebut.
o Implementasi pada clustering
o Dan kemampuan dalam Clustering untuk menemukan semua pola yang
tersembunyi.

Anda mungkin juga menyukai