Nim : 11670510123
Data Mining adalah proses menemukan pola menarik dari sejumlah data besar.
integrasi data, pemilihan data, transformasi data, penemuan pola, evaluasi pola, dan
presentasi pengetahuan (Jiawei et al., 2012). Salah satu metode data mining adalah
yang similar(mirip) (Sarle, Jain and Dubes, 1990). Cluster adalah kumpulan dari objek
atau data yang mempunyai kemiripan satu dengan yang lain dalam cluster yang sama
dan tidak mirip dengan objek dalam cluster yang berbeda (Jain, 2010). Secara prinsip
cluster merupakan kumpulan dari objek data yang mempunyai kemiripan berdasarkan
cluster dari objek data dapat diperlakukan secara kolektif sebagai satu group dalam
berbagai aplikasi. Di bawah ini merupakan metode yang sering digunakan di dalam
clustering.
berhubungan dengan ruang. Spatial Database Systems (SDBS) (Güting, 1994) adalah
sistem database untuk manajemen data spasial. Semakin besar jumlah data diperoleh
dari citra satelit, kristalografi sinar-X atau peralatan otomatis lain. Oleh karena itu
otomatis pengetahuan penemuan menjadi lebih dan lebih penting dalam tata ruang
database.
kelas identifikasi. Namun, aplikasi untuk database spasial yang besar memerluka
database spasial mungkin bisa dalam bentuk bulat, drawn out, linear atau memanjang
3) Efisiensi yang baik pada database besar, yaitu pada database secara signifikan
Algoritma clustering yang selama ini dikenal tidak menawarkan solusi untuk
kombinasi dari persyaratan ini. Masalah mendeteksi cluster poin dalam data memang
suatu hal yang menantang ketika cluster dari ukuran, kepadatan dan bentuk yang
berbeda. Banyak masalah ini menjadi lebih signifikan ketika data dari dimensi yang
sangat tinggi dan ketika itu termasuk ada noise dalam data dan outlier. Dalam hal ini
mendukung pengguna dalam menentukan nilai yang sesuai untuk itu dan menemukan
cluster sembarang bentuk. DBSCAN efisien bahkan untuk ruang yang besar database.
DBSCAN.
A. Density-Based Methods
Merupakan metode yang dikembangkan berdasarkan density (kepadatan)
tertentu. Metode ini menganggap cluster sebagai suatu area yang berisi objek-objek
yang padat atau sesak, yang dipisahkan oleh area yang memiliki kepadatan rendah
(merepresentasikan noise)
sehingga kita tidak perlu lagi untuk menentukan jumlah cluster yang
dari objek data. Jika -neighborhood dari suatu objek berisi paling sedikit
suatu angka yang minimum, MinPts dari suatu objek, objek tersebut disebut
core object.
Neighborhood dari border points berisi jauh lebih sedikit items
daripada neighborhood dari core points. Suatu border point bisa jadi
termasuk ke dalam lebih dari 1 core object. Berikut ini gambar yang
menunjukkan mana yang merupakan border point dan mana yang merupakan
Menurut definisi, ada 2 jenis titik (points) dalam suatu cluster: di dalam
neighborhood dari border points berisi jauh lebih sedikit items daripada
neighborhood dari core points (Ester et al., 1996). Suatu border point bisa
jika jarak di antara mereka tidak lebih dari nilai Eps. Directly density-
Jarak dari titik ke titik lainnya tidak lebih dari nilai Eps.
1.1.2 Density-reachable
Sebuah titik item dikatakan density-reachable dari titik item yang lain
jika ada suatu rantai yang menghubungkan keduanya yang berisi hanya titik-
dan MinPts dalam suatu set objek D jika terdapat suatu rantai objek p1,
D.
1.1.3 Density-connected
memperhatikan Eps dan MinPts dalam set obyek D, jika ada sebuah obyek
1.1.4 Cluster
Misalkan D adalah sebuah database dari poin. Sebuah Cluster C wrt. Eps
dan MinPts adalah himpunan tidak kosong dari D memenuhi kondisi berikut:
1) ∀ p, q: jika p ∈ C dan q adalah density-reachable dari p wrt. Eps dan
(Connectivity)
1.1.5 Noise
Epsi dan MinPtsi, i = 1,. . , K.. Kemudian kita mendefinisikan noise sebagai
noise = {p ∈ D | ∀ i: p ∉ Ci}.
Kunci dari algoritma DBSCAN adalah bahwa untuk setiap titik dari sebuah
threshold ditetapkan (Ye, Gao and Zeng, 2003). Algoritma ini membutuhkan dua
(Epsneighborhood);
Adapun urutan algoritma dari DBSCAN secara umum memiliki 6 langkah yaitu:
2. Retrieve all points density-reachable from p wrt Eps and MinPts (Ambil semua
terbentuk)
the next point of the database (Jika p adalah border point, tidak ada yang merupakan
dari database)
5.Continue the process until all of the points have been processed(Lanjutkan proses
Result is independent of the order of processing the points (Hasil yang didapatkan
kepribadian maka tentukan kelompok data diterima atau ditolak. Diasumsikan 13 data
Pelanggan J 52 Laki-Laki 5
* Tentukan eps, yaitu radius sebuah titik untuk membentuk sebuah cluster
1 eps = Math.Pow(eps, 3)
2 . . .
Penjelasan lebih detail tentang fungsi ini dapat dilihat pada penjelasan skrip
dibawah ini
Titik, t, eps)
* Gunakan fungsi ini untuk mencari semua titik yang berada pada radius titik
terpilih
Apabila jarak tersebut masih dalam batas nilai eps, maka masukkan titik tersebut
7 hasil.Add(daftarTitik(i))
8 End If
9 Next
10 Return hasil
End Function
Rumus yang digunakan adalah jumlah dari kuadrat selisih pada masing-masing kriteria
6 End Function
4. Lakukan pencarian perluasan cluster pada masing-masing daftar titik (poin 4a – 4c)
4a. Jika jumlah titik yang ditemukan kurang dari jumlah kepadatan minimal,
2 t.idxCluster = Titik.NOISE
3 Continue For
4 . . .
4b. Jika jumlah titik yang ditemukan memenuhi batas jumlah kepadatan minimal,
2 tmpDaftarTitik(j).idxCluster = idxCluster
3 Next
4 tmpDaftarTitik.Remove(t)
4c. Lakukan proses perhitungan pada semua titik yang telah ditemukan (poin 4c1 –
4c3)
3 . . .
4c1. Lakukan perhitungan cluster apabila titik terpilih dipakai sebagai titik tujuan
2 . . .
4c3. Lakukan perulangan pada semua titik tujuan yang telah didapatkan
maka masukkan titik tujuan tersebut kedalam daftar titik, dan catat clusternya
4 tmpDaftarTitik.Add(titikTujuanTerpilih)
5 End If
6 titikTujuanTerpilih.idxCluster = idxCluster
End If
xCluster).Last().idxCluster
4 Next
8 daftarCluster(t.idxCluster - 1).Add(t)
9 End If
10 Next
11 End If
Nilai pada setiap cluster dihitung dari penjumlahan data pada masing-masing kolom
Pada Kriteria umur, semakin rendah nilainya, maka semakin tinggi nilai kolomnya, dan
sebaliknya.
Pada Kriteria jenis kelamin dan skor kepribadian, semakin tinggi nilainya, maka
Nilai total data yang lebih tinggi akan masuk ke dalam kelompok Diterima, sedangkan
nilai total data yang lebih rendah akan masuk ke dalam kelompok Ditolak
3 h dari Kelompok kedua (" & nilaiCluster(1) & "), maka: ")
6 Else
8 ang dari Kelompok kedua (" & nilaiCluster(1) & "), maka: ")
End If
9. Lakukan pencatatan data pada setiap data yang termasuk sebagai NOISE
NOISE adalah semua data yang tidak berhubungan dengan cluster apapun dan tidak
8 Console.WriteLine()
9 End If
Next
* Agar dapat menjalankan skrip diatas, maka diperlukan sebuah Class Titik untuk
menampung data nama, nilai pada masing-masing kriteria, dan indeks cluster dimana
1 Class Titik
10 ble)
11 Me.Nama = Nama
12 Me.X = x
13 Me.Y = y
14 Me.Z = z
15 End Sub
End Class
cluster yang diikuti. Sedangkan separasi didasarkan pada jarak antar centroid
dari clusternya.
untuk mengetahui matrik kohesi dalam sebuah cluster ke-i yang dirumuskan
sebagai berikut :
adalah centroid cluster ke-i, dan d() merupakan jarak setiap data kecentroid
persamaan :
pengukuran rasio (𝑅𝑖𝑗 ) untuk mengetahui nilai perbandingan antara cluster ke-
i dan cluster ke-j. Cluster yang baik adalah cluster yang memiliki nilai kohesi
sekecil mungkin dan separasi yang sebesar mungkin. Nilai rasio dihitung
Semakin kecil nilai DBI yang diperoleh (non-negatif >= 0), maka semakin baik
C. Silhouette
objek dalam sebuah cluster dan seberapa jauh sebuah cluster terpisah dengan
cluster lain. Metode pengujian yang akan digunakan adalah Silhouette Coefficient.
Metode silhouette coefficient merupakan gabungan dari dua metode yaitu metode
cohesion yang berfungsi untuk mengukur seberapa dekat relasi antara objek
dalam sebuah cluster, dan metode separation yang berfungsi untuk mengukur
cluster, seberapa baik suatu objek ditempatkan dalam suatu cluster. Metode
ini merupakan gabungan dari metode cohesion dan separation. Tahapan
dengan j adalah dokumen lain dalam satu cluster A dan d(i,j) adalah jarak
dengan d(i,C) adalah jarak rata-rata dokumen i dengan semua objek pada
Menghitung rata-rata jarak objek dengan semua objek lain yang berada
pada cluster lain. Menghitung rata-rata dengan objek yang berada di cluster 2
nilai -1 maka pengelompokan data didalam clater 1 kurang baik / buruk. Untuk
Cluster yang diuji hanya pada cluster 1 dan cluster 2 saja, karena hasil dari
cluster 1 dan cluster 2, sedangkan cluster 3 menghasilkan data atau hasil yang
XLMiner lebih baik, karena Semakin nilai silhouette coefficient mendekati nilai
1, maka semakin baik pengelompokan data dalam satu cluster. Hasil akhir dari
Pengujian.