0 penilaian0% menganggap dokumen ini bermanfaat (0 suara)
43 tayangan24 halaman
Proses pengelompokan data spasial dengan STING memanfaatkan struktur grid hierarkis untuk membagi wilayah spasial menjadi sel-sel persegi panjang. Setiap sel menyimpan parameter statistik atribut datanya dan dapat dieksploitasi untuk menjawab pertanyaan spasial secara efisien melalui pendekatan top-down.
Deskripsi Asli:
Judul Asli
Statistical Information Grid - Clutering - Kelompok.pdf
Proses pengelompokan data spasial dengan STING memanfaatkan struktur grid hierarkis untuk membagi wilayah spasial menjadi sel-sel persegi panjang. Setiap sel menyimpan parameter statistik atribut datanya dan dapat dieksploitasi untuk menjawab pertanyaan spasial secara efisien melalui pendekatan top-down.
Proses pengelompokan data spasial dengan STING memanfaatkan struktur grid hierarkis untuk membagi wilayah spasial menjadi sel-sel persegi panjang. Setiap sel menyimpan parameter statistik atribut datanya dan dapat dieksploitasi untuk menjawab pertanyaan spasial secara efisien melalui pendekatan top-down.
Knowledge Discovery in Database KDD adalah keseluruhan proses di dalam menemukan pengetahuan yang berguna dari suatu kumpulan data. Data mining merupakan salah satu tahapan penting di dalam proses Knowledge Discover in Database (KDD). Data Mining Data Mining adalah proses pencarian pengetahuan dari suatu data berukuran besar melalui metode statistik, machine learning, dan artificial algorithm. Hal yang paling utama dari suatu proses dengan data mining adalah feature selection dan proses pengenalan pola dari suatu sistem database. Metode pada Data Mining 1. Estimasi 2. Klasifikasi 3. Asosiasi 4. Prediksi 5. Clustering Metode Clustering Clustering adalah proses memisahkan sekumpulan data atau objek ke dalam kelompok atau cluster yang lebih kecil berdasarkan kesamaan ciri yang dimiliki. Berikut Tahapan Clustering : Terdapat berbagai algoritma clustering yang dapat digunakan, tetapi secara umum dapat dikelompokkan menjadi beberapa kategori sebagai berikut : 1. Partitioning Methods. 2. Hierarchical Methods. 3. Density-Based Methods. 4. Grid-Based Methods. Grid-Based Methods Grid-Based Methods ini adalah pendekatan di mana kita mengukur ruang menjadi jumlah sel yang terbatas yang membentuk struktur grid di mana semua operasi untuk clustering dilakukan. Contohnya, kita mempunyai banyak data (records) dan kita ingin mengelompokkan menjadi 2 atribut, setelah itu kita membagi ruang terkait kedalam Grid Structure dan terlihatlah masing masing cluster. Contoh : Grid-Based Clustering Techniques Berikut ini adalah beberapa teknik yang digunakan untuk melakukan pengelompokkan berbasis grid : 1. CLIQUE (Clustering In Quest) 2. STING (Statistical Information Grid) 3. Wave Cluster STING : a Statistical Information Grid Approach to Spatial Data Mining Apa itu Data Spasial? Data spasial dapat dianggap sebagai fitur yang terletak di / direferensikan ke permukaan bumi, seperti jalan, aliran, batas-batas politik, sekolah, klasifikasi penggunaan lahan, bidang kepemilikan properti, intake air minum, tempat pembuangan polusi, apa saja yang bisa dipetakan. Spasial Area : Area yang mencakup lokasi semua data spasial disebut area spasial. STING Overview - STING digunakan untuk melakukan pengelompokan data spasial. - STING menggunakan struktur data grid multi resolusi hierarkis untuk mempartisi area spasial. - Keuntungan Besar menggunakan STING adalah bahwa ia memproses banyak pertanyaan "berorientasi wilayah" yang umum pada serangkaian poin, secara efisien. - Digunakkan untuk mengelompokkan dataset yang berada pada tabel spasial dalam hal lokasi. - Penempatan record dalam sel/kotak grid sepenuhnya ditentukan oleh lokasi fisiknya. Grid Cell Hierarchy • Area spasial dibagi menjadi sel-sel persegi panjang. (Menggunakan lintang dan bujur.). • Setiap sel membentuk struktur hierarki. • Ini berarti bahwa setiap sel pada tingkat yang lebih tinggi dipartisi lebih lanjut menjadi 4 sel yang lebih kecil di tingkat yang lebih rendah. • Dengan kata lain setiap sel di tingkat ke-i (kecuali daun) memiliki 4 anak di tingkat i + 1. • Gabungan dari 4 sel anak akan mengembalikan sel induk pada level di atasnya. Grid Cell Hierarchy (Cont.) • Ukuran sel tingkat daun dan jumlah lapisan tergantung pada seberapa banyak rincian yang diinginkan pengguna. • Jadi, mengapa kita harus memiliki struktur hierarki untuk sel? untuk memberikan rincian yang lebih baik atau resolusi yang lebih tinggi. A Hierarchical Structure for STING Clustering Parameter Statistik Yang Disimpan di Setiap Sel :
Untuk setiap sel di setiap lapisan memiliki:
• Atribut Independent Parameter : Menghitung : Jumlah record dalam sel. • Atribut Dependent Parameter : Nilai atribut adalah bilangan real. Statistical Parameters Untuk setiap atribut dari setiap sel, menyimpan parameter sebagai berikut: - M : Semua nilai dari setiap atribut dalam sel. - S : Standar Deviasi dari semua nilai dari setiap atribut dalam sel. - Min : Nilai minimum untuk setiap atribut di sel. - Max : Nilai maksimum untuk setiap atribut di sel. - Distribusi : Jenis distribusi yang mengikuti nilai atribut dalam sel. (misal: normal, eksponensial, dll.). Tidak ada yang ditugaskan untuk "Distribusi" jika distribusinya tidak diketahui. Storing of Statistical Parameters • Informasi statistik mengenai atribut dalam setiap grid sel , untuk setiap lapisan sudah dihitung sebelumnya dan disimpan sebelumnya. • Parameter statistik untuk sel-sel di lapisan terendah dihitung langsung dari nilai-nilai yang ada dalam tabel. • Parameter statistik untuk sel-sel di semua tingkat lain dihitung dari sel anak-anak masing-masing yang berada di tingkat yang lebih rendah. Query Types SQL seperti Bahasa yang digunakan untuk menggambarkan kueri. Dua jenis kueri yang umum ditemukan: • menemukan wilayah yang menetapkan batasan tertentu. • Ambil suatu wilayah dan taruh beberapa atribut di wilayah tersebut. Pendekatan top-down digunakan untuk menjawab pertanyaan data spasial. Query Processing 1. Mulai dari lapisan yang dipilih sebelumnya - biasanya dengan sejumlah kecil sel. // Lapisan yang dipilih sebelumnya tidak harus menjadi lapisan paling atas. 2. Untuk setiap sel di lapisan saat ini menghitung confidence interval (atau kisaran perkiraan probabilitas) yang mencerminkan relevansi sel dengan permintaan yang diberikan. 3. Confidence Interval dihitung dengan menggunakan parameter statistik setiap sel. 4. Buang sel-sel yang tidak relevan dari pertimbangan lebih lanjut. 5. Setelah selesai dengan layer saat ini, lanjutkan ke level bawah. berikutnya 6. Proses level bawah berikutnya hanya memeriksa sel-sel yang relevan yang tersisa. 7. Ulangi proses ini sampai lapisan bawah tercapai. 8. Kembalikan wilayah sel yang relevan yang memenuhi kueri Perbedaan Level Grid Selama Proses Kueri
Level 1 Level 2 Level 3
Contoh Sample Kueri - Pilih daerah maksimal yang memiliki setidaknya 100 rumah per unit dan setidaknya 70% dari harga rumah diatas $400 dan dengan total luas setidaknya 100 unit dengan nilai confidencenya 90%. - Pilih rentang usia rumah di daerah-daerah maksimal di mana ada setidaknya 100 rumah per unit dan setidaknya 70% dari rumah memiliki harga antara $150 dan $30O dengan luas setidaknya 100 unit di California. Contoh Sample Kueri - Asumsikan bahwa area spasial adalah peta wilayah Long Island, Brooklyn dan Queens. - Isi Record tersebut mewakili apartemen yang ada di seluruh wilayah di atas. - Kueri: "Temukan semua apartemen yang disewakan di dekat Stony Brook University yang memiliki kisaran sewa: $800 hingga $1000". - Permintaan di atas tergantung pada parameter "dekat." Untuk contoh dekat kami berarti dalam jarak 15 mil dari Stony Brook University. Kesimpulan Ada beberapa kelebihan dan kekurangan dalam penggunaan algoritma STING – Clustering yaitu : Kelebihan : - Sangat efisien. - Kompleksitas komputasi adalah O (k) di mana k adalah jumlah grid sel di tingkat terendah. Biasanya k << N, di mana N adalah jumlah record. - pembaruan tambahan. Kekurangan : - semua batas Cluster bersifat horizontal atau vertikal - tidak ada batas diagonal yang dipilih. Thank you for your attention