K-Means vs HC vs DBSCAN

Subject : Big Data Management and Analytics - ASSIGNMENT 5
Lecturer : Prof. Dr. Anton Satria Prabuwono.

Name & ID : Yusuf Virmansyah - 2111600314
class : M.Kom – Regular 0922
Deadline : 3 Januari 2023
A. Kekuatan dan Kelemehan dari Algortima Klaster K-Means, Hierarchical clustering, dan Density Based Clustering
Saat ini, konsep data mining semakin dikenal sebagai tools penting dalam manajemen informasi karena jumlah informasi yang
semakin besar jumlahnya. Salah satu teknik yang dikenal dalam data mining adalah clustering, berupa proses pengelompokan
sejumlah data atau objek ke dalam cluster (group) sehingga setiap dalam cluster tersebut akan berisi data yang semirip mungkin dan
berbeda dengan objek dalam cluster yang lainnya. Berikut ini penulis coba merangkum bagaimana Kekuatan dan Kelemehan dari
Algortima Klaster K-Means, Hierarchical clustering, dan Density Based Clustering yang penulis peroleh dari beberapa jurnal terkait
yang menggunakan ketiga metode tersebut.
Perbandingan K-Means Klaster Hierarchical clustering Density Based Clustering

Kekuatan 1. Dalam Jurnal Herman, et al 1. Firdaus, dkk (2019) dalam 1. Dikutip dari laman
(2022), yang juga dikutip dari jurnalnya menuliskan HcC https://algotech.netlify.app yang
beberap ajurnal terkait didalam penentuan centroid ditulis David, bahwa Kelebihan
penelitiannya dituliskan bahwa awal dilakukan secara dari metode Density Based
Metode K-Means sederhana dan konsisten[2]. Clustering adalah dapat
mudah digunakan[1]. 2. Dikutip dari laman menangkap cluster yang
2. Firdaus, dkk (2019) dalam https://algotech.netlify.app yang memiliki bentuk serta bisa
jurnalnya menuliskan kelebihan ditulis oleh Inayatus S & mendeteksi noise yang ada pada
K-Means didalam tulisan Nabiilah A F, bahwa terdapat 3 data[6].
analisisnya bahwa Algoritma K- kelebihan atau kekuatan pada 2. Dikutip dari situs
Means merupakan algoritma yang Algoritma Hierarchical https://patrastatistika.com/
sedehana dan mudah[2]. clustering yaitu [5]: bahwa DBSCAN memiliki
3. Andayani dan Sri (2007) dalam a. Mampu menggambarkan keunggulan berupa performa
jurnalnya menuliskan terkait kedekatan antar data dengan untuk menangkap cluster yang
kekuatan K-Means bahwa dendrogram. memiliki beragam bentuk[7].
Algoritma K‐means dinilai cukup b. Cukup mudah untuk
efisien, yang ditunjukkan dengan pembuatannya.
kompleksitasnya O(tkn), dengan c. Dapat menentukan banyak
catatan n adalah banyaknya obyek cluster yang terbentuk
data, k adalah jumlah cluster yang setelah dendrogram
dibentuk, dan t banyaknya iterasi. terbentuk.
Biasanya, nilai k dan t jauh lebih
kecil daripada nilai n. Selain itu,
dalam iterasinya, algoritma ini
akan berhenti dalam kondisi
optimum local[3].
4. Dikutip dari situs https://dqlab.id
dalam tulisannya berjudul K-
Means Clustering, Salah Satu
Contoh Teknik Analisis Data
Populer bahwa ada 3 kelebihan
yang dimiliki oleh K-Means
Clustering [4]:
a. Terbilang cukup mudah
untuk dipahami dan
diimplementasikan
b. Proses pembelajaran
membutuhkan waktu yang
relatif cepat
c. Sangat umum digunakan
sebagai teknik clustering
Kelemahan 1. Dalam jurnal Arora, et al (2016), 1. Firdaus, dkk (2019) dalam 1. Dikutip dari laman
yang juga dibahas oleh Saurabh jurnalnya menuliskan https://algotech.netlify.app yang
Shah & Manmohan Singh (2012) kelemahan HcC didalam ditulis David, bahwa
dalam jurnal terkait sebelumnya tulisan analisisnya bahwa Kekuranhan dari metode
menyebutkan ada 4 kelemahan Algoritma HCC merupakan Density Based Clustering
dari Algoritma K-Means Klaster algoritma yang kompleks, adalah idak cocok untuk data
[8]: maka dari itu pengerjaannya yang memiliki tingkat
a. Untuk menemukan K-Value membutuhkan waktu sedikit kerapatan beragam, DBSCAN
adalah tugas yang sulit. lebih lama dibandingkan juga tidak cocok untuk data
b. Tidak efektif bila digunakan dengan K-Means yang dengan dimensi yang besar,
dengan cluster global. sedehana dan mudah selain itu DBSCAN sangat
c. Jika partisi awal yang 2. Dikutip dari laman sensitif terhadap perubahan
berbeda telah dipilih, maka https://algotech.netlify.app nilai pada parameter[6].
hasilnya mungkin berbeda yang ditulis oleh Inayatus S & 2. Dikutip dari laman
untuk klaster. Nabiilah A F, bahwa terdapat 5 https://algoritmaonline.com/
d. Ukuran yang berbeda dan kekurangan atau kelemahan yang ditulis oleh Masrofin,
kepadatan cluster yang pada Algoritma Hierarchical bahwa kelemahan DBSCAN
berbeda tidak ditangani oleh clustering yaitu [5]: yaitu kesulitan untuk
algoritma. a. Tidak dapat menganalisis menjangkau titik dengan
2. Herman, et all (2022) juga data kategorik secara kepadatan yang berbeda-beda
menuliskan dalam jurnalnya langsung (terhambat pada (varying density). Padahal
kelamahan K-Means ialah Waktu penghitungan jarak yang sangat memungkinkan titik
eksekusi per cluster lebih banyak, hanya bisa dilakukan untuk yang tidak dapat terjangkau
Hal ini sensitif terhadap nilai-nilai data numerik, sehingga data tersebut termasuk dalam
yang berbeda yang berbeda kategorik perlu dipre- kategori meaningful cluster[9].
Jumlah cluster tidak diketahui[1]. process terlebih dahulu). 3. Dikutip dari situs
3. Andayani dan Sri (2012) juga b. Tidak diperuntukkan untuk https://patrastatistika.com/
menuliskan dalam jurnalnya menghasilkan jumlah bahwa DBSCAN kurang cocok
terkait kelemahan K-Means cluster optimal yang mutlak digunakan pada data dengan
bahwa Hal yang dianggap sebagai (jumlah cluster dapat tingkat kerapatan yang
kelemahan algoritma ini adalah berubah-ubah tergantung beragam. Metode DBSCAN
adanya keharusan menetukan level pemotongan juga kurang cocok digunakan
banyaknya cluster yang akan dendrogram). pada data dengan dimensi yang
dibentuk, hanya dapat digunakan c. Sensitif terhadap data yang terlalu besar[7].
dalam data yang mean‐nya dapat memiliki skala berbeda
ditentukan, dan tidak mampu (sehingga data perlu
menangani data yang mempunyai dinormalisasi/standarisasi
penyimpangan‐penyimpangan terlebih dahulu).
(noisy data dan outlier). d. Sensitif terhadap outlier.
Berkhin([1]) menyebutkan e. Cukup berat komputasinya
beberapa kelemahan algoritma K‐ untuk data berukuran besar.
means adalah: (1) sangat 3.
bergantung pada pemilihan nilai
awal centroid, (2) tidak jelas
berapa banyak cluster k yang
terbaik, (3) hanya bekerja pada
atribut numerik[3].
4. Dikutip dari situs https://dqlab.id
dalam tulisannya berjudul K-
Means Clustering, Salah Satu
Contoh Teknik Analisis Data
Populer bahwa ada 3 kelemahan
yang dimiliki oleh K-Means
Clustering [4]:
a. Perlu inisialisasi nilai k
menggunakan metode lain
untuk mendapatkan nilai k
yang optimal
b. Apabila hasil nilai random
untuk centroid kurang baik,
maka hasil clustering yang
didapatkan menjadi tidak
optimal
c. Cukup sulit jika digunakan
untuk mencari jarak dari data
yang berdimensi banyak.
B. Kekuatan dan Kelemehan dari Algortima Klasifikasi Decision tree-based methods, Rule based methods, Memory based
reasoning, Neural networks, Naïve Bayes, Support vector machines.
Teknik lain yang dikenal dalam data mining adalah classfification, Klasifikasi merupakan cara pengelompokkan benda berdasarkan
ciri – ciri yang dimiliki oleh objek klasifikasi. Dalam prosesnya, klasifikasi dapat dilakukan dengan banyak cara baik secara manual
ataupun dengan bantuan teknologi. Klasifikasi yang dilakukan secara manual adalah klasifikasi yang dilakukan oleh manusia tanpa
adanya bantuan dari algortima cerdas komputer. Sedangkan klasifikasi yang dilakukan dengan bantuan teknologi, memiliki beberapa
algoritma, diantaranya Naïve Bayes, Support Vector Machine, Decission Tree, Fuzzy, Jaringan Saraf Tiruan, Rule based methods, dan
Memory based reasoning. Berikut ini penulis coba merangkum bagaimana Kekuatan dan Kelemehan dari Algortima Klasifikasi Naïve
Bayes, Support Vector Machine, Decission Tree, Fuzzy, Jaringan Saraf Tiruan, Rule based methods, dan Memory based reasoning
yang penulis peroleh dari beberapa jurnal terkait yang menggunakan ketujuh metode tersebut.
Algoritma Kekuatan Kelemahan

Decision tree- 1. Data lebih akurat 1. Percabangan Bisa Saja Kosong
based 2. Meningkatkan efisiensi komputasi 2. Percabangan tidaksignifikan.[10]
methods 3. Menghindari hilangnya atribut kontinu.[10]
Rule based 1. Homogenitas - Karena memiliki sintaks yang seragam, 1. Jika terlalu banyak aturan, sistem menjadi sulit
methods makna dan interpretasi dari masing-masing aturan dalam memelihara performance.
dapat dengan mudah dianalisis. 2. Keterbatasan dalam memutuskan teknik yang
2. Kesederhanaan - Karena sintaks sederhana, mudah digunakan untuk suatu masalah.[11]
untuk memahami makna dari aturan. Ahli domain
seringkali dapat memahami aturan tanpa
penerjemahan yang eksplisit. Aturan sehingga dapat
mendokumentasikan diri sampai batas yang baik.
3. Independensi - Ketika menambahkan pengetahuan
yang baru tidak perlu khawatir tentang dimana aturan
itu akan ditambahkan, atau apakah ada interaksi
dengan aturan lainnya. Secara teori, setiap aturan
adalah bagian independen dari pengetahuan tentang
domain tersebut. Namun, dalam prakteknya, hal ini
tidak sepenuhnya benar.
4. Modularitas - Independensi aturan mengarah ke
modularitas dalam rule base. Prototipe sistem dapat
diciptakan cukup cepat dengan membuat beberapa
aturan. Hal ini dapat ditingkatkan dengan
memodifikasi aturan berdasarkan kinerja dan
menambahkan aturan baru.[11]
Memory 1. Memecahkan masalah dengan mudah 1. Tidak menjamin solusi terbaik atau optimum
based 2. Semakin banyak pengalaman, sistem akan menjadi karena penalaran ini berdasarkan kasus lampau,
reasoning semakin pintar sehingga dapat memecahkan masalah jika solusi lampau salah maka tahapan revise
dengan mudah.[12] sangat diperlukan untuk mengurangi tingkat
kesalahannya.
2. Semakin banyak pengalaman, proses pencarian
semakin lama karena harus membandingkan
dengan kasus yang paling mirip.[12]
Neural 1. Bisa memetakan berdasarkan inputan dan outputan 1. Sangat sensitif pada fitur yang terlalu banyak,
networks 2. Toleransi terhadap noise: Neural network sangat sehingga membuat akurasi menjadi rendah
3. fleksibel dengan data yang noisy.[10] 2. Ukuran dari vektor fitur yang dihasilkan cukup
besar dan butuh teknik untuk memperkecil ukuran
vektor tersebut.[10]
Naïve Bayes 1. Kinerja naïve bayes masih tetap unggul ketika 1. Sulit dipakai dalam problem berskala besar. Skala
pengujian dilakukan pada tipe data kategori besar dalam hal ini dimaksudkan dengan jumlah
2. Semua atribut independen atau tidak saling sample yang diolah.
ketergantungan yang diberikan oleh nilai pada variable 2. Jenis kernel SVM berpengaruh pada akurasi
kelas sistem.[10]
3. Performa Baik.[10]
Support 1. Mengklasifikasikan suatu pattern, yang tidak termasuk 1. Tahapan untuk proses dalam model ini menjadi
vector data yang dipakai dalam fase pembelajaran metode itu. sangat panjang
machines 2. Dapat diimplementasikan dengan mudah.[10] 2. Dalam model ini menggunakan analisis yang
sangat komplek sehingga sangat susah untuk
diinterpretasikan .[10]
Fuzy 1. Konsep logika fuzzy mudah dimengerti. 1. Hingga kini belum ada pengetahuan sistematik
2. Logika fuzzy sangat fleksibel. yang baku dan seragam tentang metodologi
3. Logika fuzzy memiliki toleransi terhadap data-data pemecahan problema kendali.
yang tidak tepat. 2. Belum adanya metode umum untuk
4. Logika fuzzy mampu memodelkan fungsi2 nonlinear mengembangkan dan implementasi pengendali
yang kompleks fuzzy.[10]
5. Logika fuzzy dapat bekerja sama dengan teknik-teknik
kendali secara konvensional.
6. Logika fuzzy didasarkan pada bahas alami.[10]
7. Pengendali fuzzy terkenal karena keandalannya.[24]
8. Mudah diperbaiki.[24]
9. Pengendali fuzzy memberikan pengendalian yang
sangat baik dibandingkan teknik lain.[24]
Referensi :
[1] E. Herman, K. E. Zsido, and V. Fenyves, “Cluster Analysis with K-Mean versus K-Medoid in Financial Performance
Evaluation,” Appl. Sci., vol. 12, no. 16, 2022, doi: 10.3390/app12167985.
[2] R. D. Firdaus, T. G. Laksana, and R. D. Ramadhani, “Pengelompokan Data Persediaan Obat Menggunakan Perbandingan
Metode K-Means Dengan Hierarchical Clustering Single Linkage,” J. Informatics, Inf. Syst. Softw. Eng. Appl., vol. 2, no. 1, pp.
33–48, 2019, doi: 10.20895/inista.v2i1.87.
[3] S. Andayani, “Formation of clusters in Knowledge Discovery in Databases by Algorithm K-Means,” SEMNAS Mat. dan
Pendidik. Mat. 2007, 2007.
[4] G. D. Nursyafitri, “K-Means Clustering, Salah Satu Contoh Teknik Analisis Data Populer,” 2022. https://www.dqlab.id/k-
means-clustering-salah-satu-contoh-teknik-analisis-data-populer.
[5] I. S. dan N. A. F., “INTRODUCTION TO HIERARCHICAL CLUSTERING,” 2021.
https://algotech.netlify.app/blog/introduction-to-hierarchical-clustering/.
[6] DAVID, “DBSCAN CLUSTERING,” 2020. https://algotech.netlify.app/blog/dbscan-clustering/.
[7] P. STATISTIKA, “Mengenal Algoritma DBSCAN Dan Manfaatnya,” 2021. https://patrastatistika.com/mengenal-algoritma-
dbscan-dan-manfaatnya/.
[8] P. Arora, Deepali, and S. Varshney, “Analysis of K-Means and K-Medoids Algorithm for Big Data,” Phys. Procedia, vol. 78,
no. December 2015, pp. 507–512, 2016, doi: 10.1016/j.procs.2016.02.095.
[9] F. Masrofin, “Algoritma OPTICS (Ordering Points To Identify The Clustering Structure),” 2023.
https://algoritmaonline.com/algoritma-optics/.
[10] F. A. D. Aji Prasetya Wibawa, Muhammad Guntur Aji Purnama, Muhammad Fathony Akbar, “Metode-metode Klasifikasi,”
Pros. Semin. Ilmu Komput. dan Teknol. Inf., vol. 3, no. 1, p. 134, 2018.
[11] Wildan, “Rule-Based System (Sistem Berbasis Aturan),” 2013. http://danguna.blogspot.com/2013/07/rule-based-system-sistem-
berbasis-aturan.html.
[12] S. K. M. C. Chasandra Puspitasari, “Metode Case Base Reasoning (CBR),” 2022. https://binus.ac.id/malang/2022/03/metode-
case-base-reasoning-cbr/.

K-Means vs HC vs DBSCAN

Diunggah oleh

Informasi Dokumen

Deskripsi Asli:

Judul Asli

Hak Cipta

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

K-Means vs HC vs DBSCAN

Diunggah oleh

Hak Cipta:

Subject : Big Data Management and Analytics - ASSIGNMENT 5

Lecturer : Prof. Dr. Anton Satria Prabuwono.

Perbandingan K-Means Klaster Hierarchical clustering Density Based Clustering

Algoritma Kekuatan Kelemahan

Anda mungkin juga menyukai