Anda di halaman 1dari 3

TUGAS

ARTIFICIAL INTELLIGENCE
EVAN NANDA PRATAMA
20210801339
Pengertian DBSCAN
DBSCAN, singkatan dari "Density-Based Spatial Clustering of Applications with Noise," adalah
algoritma klasterisasi yang populer dalam data mining dan pembelajaran mesin. Algoritma ini
dikembangkan oleh Martin Ester, Hans-Peter Kriegel, Jörg Sander, dan Xiaowei Xu pada tahun 1996.
DBSCAN efektif dalam menemukan klaster dengan kepadatan yang beragam dan dapat
mengidentifikasi outlier atau noise.

DBSCAN memiliki rumusan atau prinsip khusus yang menentukan bagaimana algoritma ini beroperasi.
Keberhasilan penerapan DBSCAN sangat bergantung pada pemilihan parameter yang tepat dan
pemahaman terhadap sifat data yang dihadapi. Berikut adalah beberapa aspek penting dalam
penerapan DBSCAN:

Berikut adalah langkah-langkah algoritma DBSCAN:

Parameterisasi Tentukan ε (epsilon): Ini adalah radius lingkungan di sekitar setiap poin data. Epsilon
menentukan seberapa dekat poin harus satu sama lain untuk dianggap dalam satu klaster.

Tentukan MinPts (Minimum Points): Ini adalah jumlah minimum poin yang harus berada dalam
lingkungan ε sebuah poin untuk poin tersebut dapat dianggap sebagai poin inti.

Pencarian Poin Inti

Identifikasi Poin Inti: Untuk setiap poin dalam dataset, hitung jumlah poin lain dalam jarak ε. Jika
jumlah poin tersebut sama dengan atau lebih besar dari MinPts, tandai poin tersebut sebagai poin inti.

Pembentukan Klaster
Buat Klaster dari Poin Inti: Untuk setiap poin inti yang belum dikunjungi, buat sebuah klaster baru dan
tambahkan poin inti tersebut ke dalam klaster.

Tambahkan Poin yang Terhubung ke Klaster: Untuk setiap poin inti, tambahkan semua poin yang dapat
dijangkau langsung (berada dalam ε) ke dalam klaster tersebut. Untuk setiap poin baru yang
ditambahkan, periksa juga poin-poin yang dapat dijangkau langsung dari poin tersebut. Ulangi proses
ini hingga tidak ada poin baru yang dapat ditambahkan ke klaster.

Penanganan Poin Perbatasan dan Noise

Identifikasi Poin Perbatasan: Poin yang bukan poin inti tetapi berada dalam jarak ε dari poin inti
dianggap sebagai poin perbatasan dan juga dimasukkan ke dalam klaster.

Tandai Noise: Poin yang tidak merupakan poin inti atau poin perbatasan (tidak cukup dekat dengan
poin inti atau tidak memiliki cukup tetangga) dianggap sebagai noise dan tidak termasuk dalam klaster
manapun.

Hasil Akhir

Output Klaster: Setelah semua poin telah diproses, algoritma memberikan output klaster yang telah
terbentuk dan poin-poin yang dianggap sebagai noise.

Langkah 6: Evaluasi dan Tuning

Evaluasi Hasil Klaster: Gunakan metrik evaluasi, seperti koefisien siluet, untuk menilai kualitas klaster.
Jika diperlukan, kembali ke Langkah 1 dan sesuaikan ε dan MinPts untuk hasil yang lebih baik

Pemilihan Parameter

ε (epsilon): Ini adalah jarak maksimum di mana dua titik dianggap sebagai tetangga. Nilai ε yang tepat
tergantung pada distribusi dan skala data. Terlalu kecil akan menyebabkan banyak klaster kecil atau
noise, sementara terlalu besar dapat menyebabkan klaster yang berbeda bergabung menjadi satu.

MinPts (Minimum Points): Ini adalah jumlah minimum titik yang diperlukan untuk membentuk sebuah
klaster. Nilai ini juga bergantung pada kepadatan data. Untuk dataset dengan kepadatan rendah, nilai
MinPts yang lebih kecil mungkin lebih cocok.

Cara Kerja DBSCAN

Tentukan dua parameter: ε (radius lingkungan) dan MinPts (jumlah minimum poin yang dibutuhkan
untuk membentuk sebuah klaster). Klasifikasikan setiap poin sebagai poin inti, poin perbatasan, atau
noise.

Bentuk klaster: Mulai dari poin inti, bentuk klaster dengan menambahkan semua poin yang dapat
dijangkau langsung dari poin inti tersebut.

Gabungkan klaster: Jika poin yang dapat dijangkau adalah poin inti lainnya, gabungkan klaster mereka.

Iterasi: Lanjutkan proses ini sampai semua poin telah diklasifikasikan ke dalam klaster atau
diidentifikasi sebagai noise.

Kelebihan DBSCAN
Tidak memerlukan penentuan jumlah klaster sebelumnya.
Dapat menangani noise dan outlier dengan baik.
Dapat menemukan klaster dengan bentuk yang beragam dan tidak hanya terbatas pada bentuk
globular.
Kekurangan DBSCAN
Sensitif terhadap pemilihan parameter ε dan MinPts.
Tidak berperforma baik jika ada perbedaan kepadatan yang signifikan antarklaster dalam data.

Algoritma klasterisasi yang berbasis kepadatan, seperti DBSCAN (Density-Based Spatial Clustering of
Applications with Noise) dan OPTICS (Ordering Points To Identify the Clustering Structure), tidak
memerlukan penentuan jumlah klaster sebelumnya, yang merupakan keuntungan besar dibandingkan
algoritma klasterisasi seperti K-Means. Sebaliknya, mereka dapat menentukan jumlah klaster
berdasarkan data itu sendiri.

Berikut adalah beberapa ciri utama dari model berbasis kepadatan:

Poin Inti: Sebuah poin dianggap sebagai poin inti jika ada jumlah minimum (MinPts) poin lain yang
terletak dalam radius (ε) tertentu dari poin itu. Ini mengindikasikan daerah yang padat.

Poin Perbatasan: Poin yang tidak memenuhi kriteria untuk menjadi poin inti tetapi berada dalam
jangkauan ε dari poin inti. Poin-poin ini berada di tepi klaster.

Noise: Poin yang tidak tergabung dalam klaster karena tidak cukup dekat dengan poin inti atau poin
perbatasan. Mereka berada di wilayah dengan kepadatan rendah dan dianggap sebagai outlier atau
noise.

Klasterisasi Berdasarkan Kepadatan: Klaster terbentuk di wilayah ruang di mana poin-poin cukup padat
berkelompok. Hal ini memungkinkan klaster untuk memiliki bentuk yang tidak teratur, yang sering
terjadi dalam data dunia nyata.

Penanganan Noise dan Outlier: Model ini efektif dalam menangani noise dan outlier, yang sering
diabaikan atau dianggap terpisah dari klaster utama karena kepadatan yang signifikan lebih rendah.

https://www.naftaliharris.com/blog/visualizing-dbscan-clustering/ berikut link untuk uji coba DBSCAN


agar dapat lebih memahami nya

Anda mungkin juga menyukai