DATA
CAPAIAN BELAJAR
• Penambangan data spasial (spatial data mining) mengacu pada ekstraksi pengetahuan,
hubungan spasial, atau pola menarik lainnya tidak secara eksplisit yang disimpan dalam
database spasial. Database spasial menyimpan sejumlah besar data terkait ruang, seperti
peta, penginderaan jauh yang telah diproses sebelumnya atau data gambar medis, dan data
tata letak chip VLSI.
• Spasial database memiliki banyak fitur yang membedakannya dari database relasional.
Dimana spasial database membawa informasi topologi dan/atau jarak, biasanya diatur
secara canggih, struktur pengindeksan spasial multidimensi yang diakses dengan metode
akses data spasial dan seringkali membutuhkan penalaran spasial, komputasi geometris,
dan teknik representasi pengetahuan spasial.
• Diharapkan memiliki aplikasi yang luas pada sistem informasi geografis, pemasaran
geografis, penginderaan jauh, eksplorasi database gambar, gambar medis, navigasi, kontrol
lalu lintas, studi lingkungan, dan banyak bidang lainnya dimana data spasial bisa
digunakan. Tantangan penting untuk penambangan data spasial adalah eksplorasi teknik
penambangan data spasial yang efisien karena besarnya jumlah data spasial dan
kompleksitas tipe data spasial serta metode akses spasial.
DATA SPASIAL
• Analisis statistic data spasial telah menjadi pendekatan populer untuk menganalisis data spasial
dan menjelajahi informasi geografis. Istilah geostatistik sering dikaitkan dengan ruang geografis
kontinu, sedangkan istilah statistik spasial sering dikaitkan dengan ruang diskrit. Dimana statistic
spasial merupakan sebuah generalisasi statistik tradisional untuk data spasial yang
memungkinkan untuk memodelkan ketergantungan spasial dan heterogenitas.
• Pada model statistik yang menangani data non-spatial, biasanya mengasumsikan independensi
statistik antara bagian data yang berbeda. Namun, berbeda dari kumpulan data tradisional, tidak
ada kemandirian antar data yang terdistribusi secara spasial karena pada kenyataannya sering
terdapat objek spasial saling terkait, atau lebih tepatnya ditempatkan secara spasial, dalam arti
semakin dekat kedua objek tersebut berada, semakin besar kemungkinan mereka berbagi properti
yang serupa.
• Misalnya sumber daya alam, iklim, suhu, dan situasi ekonomi cenderung serupa secara geografis
daerah yang terletak dekat. Orang bahkan menganggap hal ini sebagai hukum pertama geografi:
“Segalanya saling terkait dengan yang lainnya, tetapi hal-hal yang berdekatan lebih terkait
daripada hal-hal yang jauh. "Seperti itu properti saling ketergantungan yang erat di ruang
terdekat mengarah pada gagasan spasial autokorelasi.
METODE PENGELOMPOKAN SPASIAL
(TEKNIK CLUSTERING DATA MINING)
• Klasifikasi spasial menganalisis objek spasial untuk mendapatkan skema klasifikasi yang
relevan ke properti spasial tertentu, seperti lingkungan kabupaten, jalan raya, atau sungai.
• Contoh:
Seorang analis ingin mengklasifikasikan daerah dalam suatu provinsi menjadi kaya versus
miskin menurut pendapatan keluarga rata-rata. Dengan melakukan itu, analis tersebut akan
mengidentifikasi faktor-faktor penting terkait spasial yang menentukan klasifikasi suatu
wilayah. Banyak properti yang dikaitkan dengan objek spasial, seperti menjadi tuan rumah
universitas, berisi jalan raya antar negara bagian, berada di dekat danau atau laut, dan
sebagainya. Properti ini dapat digunakan untuk analisis relevansi dan untuk menemukan
skema klasifikasi yang menarik.
• Prediksi spasial, juga dikenal sebagai klasifikasi spasial dan regresi, digunakan untuk mengidentifikasi hubungan antar
variabel dalam kumpulan data yang berbeda. Variabel ini terdiri dari dua jenis: variabel penjelas (yaitu, atribut atau fitur
penjelas), dan variabel target (juga dikenal sebagai, variabel dependen). Jika variabel target adalah diskrit, masalahnya
dikenal sebagai klasifikasi spasial. Namun, ketika variabel target kontinu, masalah ini disebut sebagai regresi spasial.
Prediksi spasial tujuan adalah untuk memprediksi nilai variabel target dari variabel penjelas menggunakan sampel data
pelatihan dan hubungan lingkungan antar lokasi.
• Misalnya, pada Gambar 7b, decision tree digunakan untuk mengklasifikasikan lahan basah dan lahan kering
menggunakan fitur spektral dari citra satelit yang ditunjukkan pada Gambar 7a.
• Dibandingkan dengan kebenaran dasar pada Gambar 7c, keluaran dari pohon keputusan mengandung sejumlah besar
kesalahan “salt dan pepper”.
• Analisis tren spasial menangani masalah lain yaitu mendeteksi perubahan dan tren sepanjang
dimensi spasial. Biasanya, analisis tren mendeteksi perubahan seiring waktu, seperti
perubahan pola temporal dalam data deret waktu.
• Analisis tren spasial menggantikan waktu dengan ruang dan mempelajari kecenderungan
perubahan data nonspatial atau spasial dalam ruang. Sebagai contoh, kita dapat mengamati
tren perubahan situasi ekonomi saat menjauh dari pusat kota, atau kecenderungan perubahan
iklim. Untuk analisis tersebut, metode analisis regresi dan korelasi sering diterapkan dengan
pemanfaatan struktur data spasial dan metode akses spasial.
• Terdapat pula banyak aplikasi di mana pola berubah dengan ruang dan waktu. Sebagai
contoh, arus lalu lintas di jalan raya dan di kota-kota terkait dengan ruang dan waktu. Pola
cuaca juga terkait erat dengan ruang dan waktu. Meski ada dari beberapa studi menarik
tentang klasifikasi spasial dan analisis tren spasial, investigasi data mining spasial masih
dalam tahap awal. Lebih banyak metode dan aplikasi klasifikasi spasial dan analisis tren,
terutama yang terkait dengan waktu, perlu dieksplorasi.
• Sistem database multimedia menyimpan dan
mengelola banyak koleksi data multimedia,
seperti audio, video, gambar, grafik, ucapan,
teks, dokumen, dan data hypertext, yang
berisi teks, markup teks, dan tautan. Sistem
MULTIMEDIA database multimedia semakin umum karena
DATA MINING penggunaan peralatan audiovideo, kamera
digital, CD-ROM, dan Internet yang populer.
Sistem database multimedia yang umum
mencakup EOS (Earth Observation System)
NASA, berbagai jenis database gambar dan
audio-video, dan database Internet
• Untuk mengetahui apakah multimedia data yang dimiliki berupa data deskripsi atau
data konten, maka akan dilihat dari dua system pengambilannya , yaitu:
1. Sistem pengambilan berbasis deskripsi : yang membangun indeks dan
melakukan pengambilan objek berdasarkan deskripsi gambar, seperti kata kunci,
keterangan, ukuran, dan waktu pembuatan
2. Sistem pengambilan berbasis konten : yang mendukung pengambilan
berdasarkan gambar konten, seperti histogram warna, tekstur, pola, topologi
gambar, dan bentuk objek dan tata letak serta lokasinya dalam gambar.
• Pengambilan berbasis deskripsi membutuhkan banyak tenaga jika dilakukan
secara manual. Jika otomatis, hasilnya biasanya berkualitas buruk. Misalnya,
SISTEM penetapan kata kunci ke gambar bisa menjadi tugas yang rumit dan acak.
PENGAMB ILAN DATA Perkembangan terbaru dari pengelompokan gambar berbasis web dan metode
klasifikasi telah meningkatkan kualitas pengambilan gambar web berbasis
M ULTIMEDIA deskripsi, karena informasi teks yang dikelilingi gambar serta informasi keterkaitan
web dapat digunakan.
• Pengambilan berbasis konten menggunakan fitur visual untuk mengindeks
gambar dan mempromosikan objek dimana pengambilan berdasarkan kesamaan
fitur yang sangat diinginkan di banyak aplikasi. Dalam sistem pengambilan gambar
berbasis konten, sering kali terdapat dua jenis kueri: kueri berbasis sampel
gambar dan kueri spesifikasi fitur gambar. Kueri berbasis sampel gambar
menemukan semua gambar yang mirip dengan sampel gambar yang diberikan.
Pencarian ini membandingkan vektor fitur (atau tanda tangan) yang diekstrak dari
sampel dengan vektor fitur gambar yang telah diekstraksi dan diindeks di database
gambar. Berdasarkan perbandingan ini, gambar yang dekat dengan gambar sampel
dikembalikan.
• Untuk memfasilitasi analisis multidimensi pada database
multimedia yang besar, kubus data multimedia dapat
dirancang dan dibangun dengan cara yang mirip dengan
kubus data tradisional dari data relasional. Kubus data
multimedia dapat berisi dimensi dan ukuran tambahan untuk
informasi multimedia, seperti warna, tekstur, dan bentuk.
• Prototipe sistem data mining multimedia yang disebut
MultiMediaMiner, yang memperluas sistem DBMiner
dengan menangani data multimedia. Contohnya, database
A N A LI SI S MU LTI D I M EN SI O N A L diuji dalam sistem MultiMediaMiner yang dibangun sebagai
D A RI D ATA MU LT I M ED I A berikut:
Setiap gambar berisi dua deskriptor: deskriptor fitur dan
deskriptor tata letak. Gambar aslinya tidak disimpan
langsung di database, hanya deskriptornya yang disimpan.
Informasi deskripsi mencakup bidang seperti nama file
gambar, URL gambar, jenis gambar (mis., Gif, tiff, jpeg,mpeg,
bmp, avi), daftar semua halaman Web yang diketahui mengacu
pada gambar (yaitu, URL induk), sebuah daftar kata kunci, dan
thumbnail yang digunakan oleh antarmuka pengguna untuk
penelusuran gambar dan video.
• Kubus data multimedia dapat memiliki banyak dimensi.
Berikut ini adalah beberapa contohnya:
1. Ukuran gambar atau video dalam byte
2. Lebar dan tinggi bingkai (atau gambar), yang merupakan
dua dimensi;
3. Tanggal gambar atau video dibuat (atau terakhir diubah)
AUDIO DAN VIDEO • Contoh: pencarian dan pengeditan multimedia klip video
tertentu di studio TV, mendeteksi orang atau adegan yang
DATA MINING mencurigakan dalam video pengawasan, mencari peristiwa
tertentu di penyimpanan multimedia pribadi seperti MyLifeBits,
menemukan pola dan pencilan dalam rekaman radar cuaca, dan
menemukan melodi atau nada tertentu dalam album audio MP3
yang dimiliki.
ARSITEKTUR MULTIMEDIA DATA
MINING
1. Tahap input : terdiri dari database multimedia mana yang digunakan untuk mencari pola dan untuk melakukan proses data mining.
2. Konten Multimedia : tahap pemilihan data yang mengharuskan pengguna untuk memilih database, subset bidang atau data yang akan digunakan untuk penambangan data.
3. Segmentasi spatio-temporal tidak lain adalah objek bergerak dalam urutan gambar di video dan berguna untuk segmentasi objek.
4. Ekstraksi fitur : langkah pra-pemrosesan yang melibatkan integrasi data dari berbagai sumber dan membuat pilihan terkait karakterisasi atau pengkodean bidang data tertentu
untuk ditayangkan saat masukan ke tahap pencarian pola. Representasi pilihan seperti itu diperlukan karena pasti bidang dapat mencakup data di berbagai tingkat dan tidak
dipertimbangkan untuk menemukan tahap pola yang serupa. Dalam MDM tahap preprocessing penting karena sifat multimedia yang tidak terstruktur catatan.
5. Menemukan tahapan pola yang serupa : inti dari keseluruhan proses data mining. Itu pola dan tren tersembunyi dalam data pada dasarnya terungkap dalam tahap ini. Beberapa
pendekatan menemukan tahapan pola yang sama berisi asosiasi, klasifikasi, pengelompokan, regresi, deret waktu analisis dan visualisasi.
6. Evaluasi Hasil : proses data mining yang digunakan untuk mengevaluasi hasil dan ini penting untuk menentukan apakah tahap sebelumnya harus ditinjau kembali atau tidak.
Tahap ini terdiri dari melaporkan dan memanfaatkan pengetahuan yang diekstraksi untuk menghasilkan tindakan atau produk baru dan layanan atau strategi pemasaran.
REFRENSI JURNAL