Anda di halaman 1dari 24

Grid-Based Clustering

STING (Statistical Information Grid)


Knowledge Discovery in Database
KDD adalah keseluruhan proses di dalam menemukan pengetahuan
yang berguna dari suatu kumpulan data. Data mining merupakan salah
satu tahapan penting di dalam proses Knowledge Discover in Database
(KDD).
Data Mining
Data Mining adalah proses pencarian pengetahuan dari suatu data
berukuran besar melalui metode statistik, machine learning, dan
artificial algorithm. Hal yang paling utama dari suatu proses dengan
data mining adalah feature selection dan proses pengenalan pola dari
suatu sistem database.
Metode pada Data Mining
1. Estimasi
2. Klasifikasi
3. Asosiasi
4. Prediksi
5. Clustering
Metode Clustering
Clustering adalah proses memisahkan sekumpulan data atau objek ke
dalam kelompok atau cluster yang lebih kecil berdasarkan kesamaan
ciri yang dimiliki. Berikut Tahapan Clustering :
Terdapat berbagai algoritma clustering yang dapat digunakan,
tetapi secara umum dapat dikelompokkan menjadi beberapa
kategori sebagai berikut :
1. Partitioning Methods.
2. Hierarchical Methods.
3. Density-Based Methods.
4. Grid-Based Methods.
Grid-Based Methods
Grid-Based Methods ini adalah pendekatan di mana kita mengukur
ruang menjadi jumlah sel yang terbatas yang membentuk struktur grid
di mana semua operasi untuk clustering dilakukan.
Contohnya, kita mempunyai banyak data (records) dan kita ingin
mengelompokkan menjadi 2 atribut, setelah itu kita membagi ruang
terkait kedalam Grid Structure dan terlihatlah masing masing cluster.
Contoh :
Grid-Based Clustering Techniques
Berikut ini adalah beberapa teknik yang digunakan untuk melakukan
pengelompokkan berbasis grid :
1. CLIQUE (Clustering In Quest)
2. STING (Statistical Information Grid)
3. Wave Cluster
STING : a Statistical Information Grid Approach
to Spatial Data Mining
Apa itu Data Spasial?
Data spasial dapat dianggap sebagai fitur yang terletak di /
direferensikan ke permukaan bumi, seperti jalan, aliran, batas-batas
politik, sekolah, klasifikasi penggunaan lahan, bidang kepemilikan
properti, intake air minum, tempat pembuangan polusi, apa saja yang
bisa dipetakan.
Spasial Area :
Area yang mencakup lokasi semua data spasial disebut area spasial.
STING Overview
- STING digunakan untuk melakukan pengelompokan data spasial.
- STING menggunakan struktur data grid multi resolusi hierarkis untuk
mempartisi area spasial.
- Keuntungan Besar menggunakan STING adalah bahwa ia memproses
banyak pertanyaan "berorientasi wilayah" yang umum pada
serangkaian poin, secara efisien.
- Digunakkan untuk mengelompokkan dataset yang berada pada tabel
spasial dalam hal lokasi.
- Penempatan record dalam sel/kotak grid sepenuhnya ditentukan oleh
lokasi fisiknya.
Grid Cell Hierarchy
• Area spasial dibagi menjadi sel-sel persegi panjang. (Menggunakan
lintang dan bujur.).
• Setiap sel membentuk struktur hierarki.
• Ini berarti bahwa setiap sel pada tingkat yang lebih tinggi dipartisi
lebih lanjut menjadi 4 sel yang lebih kecil di tingkat yang lebih rendah.
• Dengan kata lain setiap sel di tingkat ke-i (kecuali daun) memiliki 4
anak di tingkat i + 1.
• Gabungan dari 4 sel anak akan mengembalikan sel induk pada level di
atasnya.
Grid Cell Hierarchy (Cont.)
• Ukuran sel tingkat daun dan jumlah lapisan tergantung pada seberapa
banyak rincian yang diinginkan pengguna.
• Jadi, mengapa kita harus memiliki struktur hierarki untuk sel?
untuk memberikan rincian yang lebih baik atau resolusi yang
lebih tinggi.
A Hierarchical Structure for STING Clustering
Parameter Statistik Yang Disimpan di Setiap Sel :

Untuk setiap sel di setiap lapisan memiliki:


• Atribut Independent Parameter :
Menghitung : Jumlah record dalam sel.
• Atribut Dependent Parameter :
Nilai atribut adalah bilangan real.
Statistical Parameters
Untuk setiap atribut dari setiap sel, menyimpan parameter sebagai
berikut:
- M : Semua nilai dari setiap atribut dalam sel.
- S : Standar Deviasi dari semua nilai dari setiap atribut dalam sel.
- Min : Nilai minimum untuk setiap atribut di sel.
- Max : Nilai maksimum untuk setiap atribut di sel.
- Distribusi : Jenis distribusi yang mengikuti nilai atribut dalam sel.
(misal: normal, eksponensial, dll.). Tidak ada yang ditugaskan untuk
"Distribusi" jika distribusinya tidak diketahui.
Storing of Statistical Parameters
• Informasi statistik mengenai atribut dalam setiap grid sel , untuk
setiap lapisan sudah dihitung sebelumnya dan disimpan sebelumnya.
• Parameter statistik untuk sel-sel di lapisan terendah dihitung langsung
dari nilai-nilai yang ada dalam tabel.
• Parameter statistik untuk sel-sel di semua tingkat lain dihitung dari sel
anak-anak masing-masing yang berada di tingkat yang lebih rendah.
Query Types
SQL seperti Bahasa yang digunakan untuk menggambarkan kueri.
Dua jenis kueri yang umum ditemukan:
• menemukan wilayah yang menetapkan batasan tertentu.
• Ambil suatu wilayah dan taruh beberapa atribut di wilayah tersebut.
Pendekatan top-down digunakan untuk menjawab pertanyaan data
spasial.
Query Processing
1. Mulai dari lapisan yang dipilih sebelumnya - biasanya dengan sejumlah kecil
sel. // Lapisan yang dipilih sebelumnya tidak harus menjadi lapisan paling atas.
2. Untuk setiap sel di lapisan saat ini menghitung confidence interval (atau kisaran
perkiraan probabilitas) yang mencerminkan relevansi sel dengan permintaan
yang diberikan.
3. Confidence Interval dihitung dengan menggunakan parameter statistik setiap
sel.
4. Buang sel-sel yang tidak relevan dari pertimbangan lebih lanjut.
5. Setelah selesai dengan layer saat ini, lanjutkan ke level bawah. berikutnya
6. Proses level bawah berikutnya hanya memeriksa sel-sel yang relevan yang
tersisa.
7. Ulangi proses ini sampai lapisan bawah tercapai.
8. Kembalikan wilayah sel yang relevan yang memenuhi kueri
Perbedaan Level Grid Selama Proses Kueri

Level 1 Level 2 Level 3


Contoh Sample Kueri
- Pilih daerah maksimal yang memiliki setidaknya 100 rumah per unit
dan setidaknya 70% dari harga rumah diatas $400 dan dengan total
luas setidaknya 100 unit dengan nilai confidencenya 90%.
- Pilih rentang usia rumah di daerah-daerah maksimal di mana ada
setidaknya 100 rumah per unit dan setidaknya 70% dari rumah
memiliki harga antara $150 dan $30O dengan luas setidaknya 100
unit di California.
Contoh Sample Kueri
- Asumsikan bahwa area spasial adalah peta wilayah Long Island,
Brooklyn dan Queens.
- Isi Record tersebut mewakili apartemen yang ada di seluruh wilayah
di atas.
- Kueri: "Temukan semua apartemen yang disewakan di dekat Stony
Brook University yang memiliki kisaran sewa: $800 hingga $1000".
- Permintaan di atas tergantung pada parameter "dekat." Untuk
contoh dekat kami berarti dalam jarak 15 mil dari Stony Brook
University.
Kesimpulan
Ada beberapa kelebihan dan kekurangan dalam penggunaan algoritma
STING – Clustering yaitu :
Kelebihan :
- Sangat efisien.
- Kompleksitas komputasi adalah O (k) di mana k adalah jumlah grid sel di
tingkat terendah. Biasanya k << N, di mana N adalah jumlah record.
- pembaruan tambahan.
Kekurangan :
- semua batas Cluster bersifat horizontal atau vertikal
- tidak ada batas diagonal yang dipilih.
Thank you for your attention

Anda mungkin juga menyukai