Anda di halaman 1dari 43

Penambangan Data

Multimedia

Pertemuan 11

10/3/2020 1
Data Mining

Definisi Penambangan Data:


Kelas aplikasi database yang mencari pola
tersembunyi dalam sekelompok data.
Menemukan aturan permainan dengan
mengetahui gerakan permainan
Kerangka kerja pemersatu untuk representasi
data dan pemecahan masalah untuk belajar
dan menemukan dari sejumlah besar jenis
data yang berbeda.

10/3/2020 2
Multimedia Data Mining

Tipe Data Multimedia :


Semua jenis media informasi yang dapat
direpresentasikan, diproses, disimpan dan
ditransmisikan melalui jaringan dalam bentuk
digital
Teks multibahasa, numerik, gambar, video,
audio, grafik, temporal, relasional, dan data
kategorikal.
Kaitannya dengan istilah data mining
konvensional.

10/3/2020 3
Definisi Penambangan Multimedia

Penambangan Multimedia adalah subbidang data


mining yang berhubungan dengan ekstraksi
pengetahuan, hubungan data multimedia, atau
pola lain yang tidak disimpan secara eksplisit
dalam database multimedia :
Pengaruh pada bidang interdisipliner terkait.
Database - ekstensi KDD (pola aturan).
Sistem informasi - analisis dan pengambilan
informasi multimedia - pencarian gambar dan
video berbasis konten dan organisasi
penyimpanan yang efisien.
10/3/2020 4
Model Informasi

Segmentasi Data :
Data multimedia dibagi menjadi segmen yang
saling berhubungan logis (objek).
Ekstraksi pola.
Prosedur penambangan dan analisis harus
mengungkapkan beberapa hubungan antara
objek pada tingkat yang berbeda.
Representasi pengetahuan.
Pola terkait yang digabungkan.

10/3/2020 5
Generalisasi Data Spasial and Multimedia

Data Spasial (Spatial Data):


Menggeneralisasi titik-titik geografis yang mendetail ke dalam
wilayah-wilayah berkerumun, seperti area bisnis, pemukiman,
industri, atau pertanian, sesuai dengan penggunaan lahan
Mewajibkan penggabungan sekumpulan wilayah geografis
dengan operasi spasial
Data gambar (Image Data):
Diekstraksi dengan agregasi dan / atau perkiraan
Ukuran, warna, bentuk, tekstur, orientasi, serta posisi dan
struktur relatif dari objek atau wilayah yang ada dalam gambar
Data musik (Music Data) :
Meringkas melodinya: berdasarkan pola perkiraan yang berulang
kali terjadi di segmen tersebut
Meringkas gayanya: berdasarkan nada, tempo, atau alat musik
utama yang dimainkan

10/3/2020 6
Apa Itu Sistem Database Spasial?
1. Data geometris, geografis atau spasial: data terkait ruang
Contoh: Ruang geografis (abstraksi 2-D permukaan bumi), desain
VLSI, model otak manusia, ruang 3-D yang merepresentasikan
susunan rantai molekul protein.
2. Sistem database spasial vs. sistem database gambar.
Sistem basis data citra: menangani citra raster digital (mis.,
Penginderaan satelit, tomografi komputer), juga dapat berisi
teknik untuk analisis dan ekstraksi objek dari citra dan beberapa
fungsionalitas basis data spasial.
Sistem basis data spasial (geometris, geografis): menangani
objek dalam ruang yang memiliki identitas dan luasan, lokasi,
dan hubungan yang jelas.
10/3/2020 7
Pemodelan Objek Spasial
Apa yang perlu diwakili?
Dua pandangan alternatif penting
Objek tunggal: entitas berbeda yang diatur
dalam ruang yang masing-masing memiliki
deskripsi geometrisnya sendiri.
Pemodelan kota, hutan, sungai.
Kumpulan objek yang terkait secara spasial:
gambarkan ruang itu sendiri (tentang setiap
titik dalam ruang).
Pemodelan penggunaan lahan, pembagian
negara menjadi distrik.

10/3/2020 8
Model Objek Tunggal : Titik, Garis dan Wilayah

Titik: lokasi saja, tetapi tidak luasnya.


Garis (atau kurva yang biasanya diwakili oleh polyline,
urutan segmen garis):
bergerak melalui ruang angkasa, atau koneksi dalam
ruang (jalan, sungai, kabel, dll.)
Wilayah:
Sesuatu yang luas dalam 2D-ruang (desa, danau,
taman). Ini mungkin memiliki lubang atau terdiri dari
beberapa potongan yang terputus-putus.

10/3/2020 9
Analisis Asosiasi Spasial
Rule Asosiasi Spasial : A ⇒ B [s%, c%]
A dan B adalah kumpulan predikat spasial atau non-
spasial :
Relasi Topologikal : intersects, overlaps, disjoint, etc.
Orientasi Spasial : left_of, west_of, under, etc.
Informasi jarak: close_to, within_distance, etc.
s% adalah nilai Support and c% adalah nilai Confidence.
Contoh :
1) Adalah a(x, large_town) ^ intersect(x, highway) → berdekatan ke(x,
water) [s=7%, c=85%]
2) Jenis objek apa yang biasanya berada di dekat lapangan golf?

10/3/2020 10
Penambangan Progresif dari Rule
Asosiasi Spasial
Hirarki hubungan spasial:
g_berdekatan dengan: dekat dengan, sentuh, berpotongan,
berisi, dll.
Pertama-tama cari hubungan kasar dan kemudian perbaiki.
Penambangan dua langkah asosiasi spasial:
Langkah 1: Perhitungan spasial kasar (sebagai filter)
Menggunakan MBR atau R-tree untuk estimasi kasar.
Langkah2: Algoritme spasial terperinci (sebagai
penyempurnaan).
Berlaku hanya untuk objek yang telah lulus uji asosiasi
spasial kasar (tidak kurang dari min_support).

10/3/2020 11
Aturan Penambangan Spasial Co-
location
Aturan co-location mirip dengan aturan asosiasi tetapi
mengeksplorasi lebih mengandalkan korelasi otomatis
spasial.
Ini mengarah pada pemrosesan yang efisien.
Itu dapat diintegrasikan dengan penyempurnaan
progresif untuk lebih meningkatkan kinerjanya.
Ide penambangan co-location spasial dapat diterapkan
pada pengelompokan, klasifikasi, analisis outlier, dan
tugas penambangan potensial lainnya.
10/3/2020 12
Spatial Autocorrelation

Data spasial cenderung sangat berkorelasi


Contoh: Lingkungan, Suhu
Item dalam data tradisional tidak bergantung
satu sama lain, sedangkan properti lokasi di
peta sering kali "berkorelasi otomatis".
Hukum pertama geografi:
“Semuanya terkait dengan segalanya, tetapi
hal-hal yang berdekatan lebih terkait daripada
hal-hal yang jauh.”

10/3/2020 13
Spatial Autocorrelation (cont’d)

10/3/2020 14
Spatial Classification
Metode dalam klasifikasi :
Decision-tree classification, Naïve-Bayesian classifier +
boosting, neural network, logistic regression, etc.
Klasifikasi multi-dimensi berbasis asosiasi - Contoh:
mengklasifikasikan nilai rumah berdasarkan kedekatan
dengan danau, jalan raya, pegunungan, dll.
Dengan asumsi sampel pembelajaran tidak tergantung
satu sama lain.
Korelasi otomatis spasial melanggar asumsi ini!
Metode klasifikasi spasial populer :
Spatial auto-regression (SAR)
Markov random field (MRF)
10/3/2020 15
Spatial Trend Analysis

Fungsi
Mendeteksi perubahan dan tren di sepanjang
dimensi spasial.
Mempelajari tren perubahan data non-spasial
atau spasial dengan ruang.
Contoh Penerapan
Amati tren perubahan iklim atau vegetasi
dengan jarak yang semakin jauh dari lautan.
Tingkat kejahatan atau perubahan tingkat
pengangguran terkait dengan distribusi
geografis kota.
10/3/2020 16
Spatial Cluster Analysis

Mining clusters—k-means, k-medoids,


hierarchical, density-based, etc.
Analysis of distinct features of the
clusters

10/3/2020 17
Constraints-Based Clustering

Batasan pada objek individu :


Pemilihan sederhana dari objek yang relevan
sebelum pengelompokan.
Parameter pengelompokan sebagai batasan.
K-Means, berbasis kepadatan: radius, min- #
poin :
Batasan ditentukan pada cluster
menggunakan agregat SQL.
Jumlah keuntungan di setiap cluster> $ 1 juta.
Kendala yang ditimbulkan oleh hambatan fisik.
Pengelompokan dengan jarak terhalang.
10/3/2020 18
Constrained Clustering: Planning ATM
Locations

C3
C2

C1
River

Mountain C4

Data spasial dengan Clustering tanpa mengambil


hambatan hambatan menjadi pertimbangan
10/3/2020 19
Penambangan Data Spatiotemporal

Data spasiotemporal :
Data memiliki perluasan spasial dan berubah
seiring waktu
Mis: Kebakaran hutan, benda bergerak, badai
& gempa bumi
Deteksi anomali otomatis pada benda bergerak
besar :
Objek bergerak ada di mana-mana: GPS, radar,
dll.
Mis: Pengawasan kapal maritim
Masalah: Deteksi anomali otomatis

10/3/2020 20
Analisis: Anomali Penambangan pada Objek
Bergerak

Analisis mentah dari data yang dikumpulkan tidak


sepenuhnya menyampaikan informasi "anomali“.
Analisis yang lebih efektif bergantung pada fitur
semantik yang lebih tinggi.
Contoh:
Sebuah speed boat bergerak cepat di perairan
terbuka.
Sebuah perahu nelayan bergerak perlahan ke
dermaga.
Sebuah kapal pesiar berputar perlahan di
sekitar landmark selama jam malam.
10/3/2020 21
Kerangka Kerja: Analisis Ciri Berbasis Motif

Representasi berbasis motif :


Motif adalah pola gerakan prototipe
Lihat jalur gerakan sebagai urutan ekspresi
motif
Ruang fitur berorientasi motif
Ekstraksi fitur motif otomatis :
Fitur tingkat semantik
Klasifikasi :
Deteksi anomali melalui klasifikasi
Pengklasifikasi dimensi tinggi
10/3/2020 22
Motif Gerakan
Pergerakan prototipe objek
Belok kanan, putar balik.
Dapat ditentukan oleh
seorang ahli atau ditemukan
secara otomatis dari data.
Didefinisikan dalam
kerangka kami.
Diekstrak di jalur pergerakan.
Jalan menjadi sekumpulan
ekspresi motif.

10/3/2020 23
Atribut Ekspresi Motif
Setiap ekspresi motif memiliki
atribut (misalnya kecepatan,
lokasi, ukuran).
Atribut mengungkapkan
bagaimana suatu motif
diekspresikan.
Menyampaikan informasi
semantik yang berguna untuk
klasifikasi :
lingkaran sempit dengan
kecepatan 30mph di dekat
landmark Y.
Lingkaran ketat dengan
kecepatan 10mph di lokasi X.
10/3/2020 24
Ruang Fitur Berorientasi Motif

Atribut menggambarkan bagaimana motif


diekspresikan.
Misalkan ada atribut A, setiap jalur adalah
himpunan (A + 1) –tupel.
{(mi, v1, v2,…, vA), (mj, v1, v2,…, vA)}
Konstruksi ruang Naïve Feature
Biarkan setiap perbedaan (mj, v1, v2,…, vA)
menjadi sebuah fitur.
Jika path menunjukkan ekspresi motif
tertentu, nilainya adalah 1. Jika tidak,
nilainya adalah 0.
10/3/2020 25
Pencarian Kesamaan dalam Data
Multimedia
Sistem pengambilan berbasis deskripsi :
Buat indeks dan lakukan pengambilan objek
berdasarkan deskripsi gambar, seperti kata kunci,
keterangan, ukuran, dan waktu pembuatan.
Padat karya jika dilakukan secara manual.
Hasil biasanya berkualitas buruk jika otomatis.
Sistem pengambilan berbasis konten :
Mendukung pengambilan berdasarkan konten
gambar, seperti histogram warna, tekstur, bentuk,
objek, dan transformasi wavelet.

10/3/2020 26
Kueri dalam Sistem Pengambilan Berbasis Konten

Kueri berbasis sampel gambar :


Temukan semua gambar yang mirip dengan contoh
gambar yang diberikan.
Bandingkan vektor fitur (tanda tangan) yang diekstrak
dari sampel dengan vektor fitur gambar yang telah
diekstraksi dan diindeks di database gambar.
Kueri spesifikasi fitur gambar :
Menentukan atau membuat sketsa fitur gambar
seperti warna, tekstur, atau bentuk, yang
diterjemahkan ke dalam vektor fitur.
Cocokkan vektor fitur dengan vektor fitur dari gambar
di database.
10/3/2020 27
Pendekatan Berdasarkan Pada Image
Signature
Warna tanda tangan berbasis histogram :
Tanda tangan mencakup histogram warna berdasarkan
komposisi warna gambar terlepas dari skala atau
orientasinya.
Tidak ada informasi tentang bentuk, lokasi, atau
tekstur.
Dua gambar dengan komposisi warna yang serupa
mungkin berisi bentuk atau tekstur yang sangat
berbeda, dan karenanya bisa jadi sama sekali tidak
terkait dalam semantik.
Tanda tangan Multifitur tersusun :
Tentukan fungsi jarak yang berbeda untuk warna,
bentuk, lokasi, dan tekstur, lalu gabungkan keduanya
untuk mendapatkan hasil keseluruhan.
10/3/2020 28
Analisis Wavelet
Tanda tangan berbasis Analisis Wavelet :
Gunakan koefisien wavelet dominan dari suatu gambar
sebagai tanda tangannya.
Wavelet menangkap informasi bentuk, tekstur, dan
lokasi dalam satu kerangka kerja terpadu.
Meningkatkan efisiensi dan mengurangi kebutuhan
untuk menyediakan banyak pencarian primitif.
Mungkin gagal mengidentifikasi gambar yang berisi
objek serupa yang berada di lokasi berbeda.

10/3/2020 29
Satu Tanda Tangan untuk Seluruh
Gambar?

Walnus: [NRS99] oleh Natsev, Rastogi, dan Shim


Gambar serupa mungkin berisi wilayah yang mirip, tetapi
wilayah dalam satu gambar bisa menjadi terjemahan atau
penskalaan wilayah yang cocok di gambar lainnya.

Tanda tangan berbasis wavelet dengan perincian berbasis


wilayah.
Tentukan wilayah dengan mengelompokkan tanda tangan
jendela dengan berbagai ukuran dalam gambar.
Tanda tangan suatu wilayah adalah pusat dari cluster.
Kemiripan didefinisikan sebagai bagian dari area dari dua
gambar yang dicakup oleh pasangan wilayah yang cocok
dari dua gambar.
10/3/2020 30
Analisis Multidimensional Pada
Multimedia Data
Kubus data multimedia :
Desain dan konstruksi mirip dengan kubus data
tradisional dari data relasional
Berisi ukuran dan ukuran tambahan untuk informasi
multimedia, seperti warna, tekstur, dan bentuk
Basis data tidak menyimpan gambar tetapi
deskriptornya
Deskriptor fitur: sekumpulan vektor untuk setiap
karakteristik visual.
Vektor warna: berisi histogram warna.
Vektor MFC (Most Frequent Color): lima sentroid warna.
Vektor MFO (Most Frequent Orientation): sentroid orientasi lima
tepi.
Deskriptor tata letak: berisi vektor tata letak warna dan
vektor tata letak tepi.
10/3/2020 31
Pencarian Multi-Dimensional
Pada Database Multimedia

10/3/2020 32
Pencarian Multi-Dimensional
Pada Database Multimedia

Histogram Warna Tata Letak Tekstur

10/3/2020 33
Penambangan Database Multimedia

Mempersempit atau
menggabungkan pencarian
Menelusuri "pesawat di langit biru"
(kisi tata letak atas berwarna biru dan
kata kunci = "pesawat")

Telusuri “langit biru dan


padang rumput hijau "
Menelusuri "langit biru"
(kisi tata letak atas berwarna biru
(kisi tata letak atas berwarna biru)
dan bagian bawah berwarna hijau)

10/3/2020 34
Penambangan Database Multimedia
The Data Cube and
the Sub-Space Measurements

By Size
By Format
By Format & Size
RED
WHITE
BLUE
Cross Tab By Colour & Size
JPEG GIF By Colour By Format & Colour
RED
WHITE Sum By Colour
BLUE • Format gambar
By Format • Durasi
Group By
Sum • Warna
Colour
RED • Tekstur
WHITE • Kata kunci
BLUE
• Ukuran
Measurement • Lebar
Sum
• Tinggi
• Domain internet gambar
• Domain internet halaman induk
• Popularitas gambar
10/3/2020 35
Penambangan Database Multimedia Pada

10/3/2020 36
Klasifikasi Dalam MultiMediaMiner

10/3/2020 37
Penambangan Asosiasi Pada Data
Multimedia
Asosiasi antara konten gambar dan fitur konten non-gambar
“Jika setidaknya 50% dari bagian atas gambar berwarna
biru, kemungkinan besar itu mewakili langit.”
Asosiasi di antara konten gambar yang tidak terkait dengan
hubungan spasial
"Jika sebuah gambar berisi dua kotak biru, kemungkinan
besar gambar tersebut juga berisi satu lingkaran merah."
Asosiasi antar konten gambar terkait dengan hubungan
spasial
"Jika segitiga merah berada di antara dua kotak kuning,
kemungkinan besar ada benda berbentuk oval di
bawahnya."

10/3/2020 38
Penambangan Asosiasi Pada Data
Multimedia

Fitur spesial:
Membutuhkan # kejadian selain keberadaan Boolean,
misalnya, "Dua kotak merah dan satu lingkaran biru"
menyiratkan tema "pertunjukan udara“.
Membutuhkan relasi spasial :
Biru di atas objek persegi berwarna putih dikaitkan
dengan dasar cokelat.
Perlu penambangan multi-resolusi dan penyempurnaan
progresif.
Mengeksplorasi asosiasi terperinci di antara objek pada
resolusi tinggi itu mahal :
Sangat penting untuk memastikan kelengkapan
pencarian di ruang multi-resolusi.
10/3/2020 39
Penambangan Asosiasi Pada Data
Multimedia

Hubungan Spasial dari Tata Letak


property P1 on-top-of property P2 property P1 next-to property P2

Hierarki Resolusi yang Berbeda

10/3/2020 40
Penambangan Database Multimedia

Dari Penambangan Resolusi Kasar hingga Halus

10/3/2020 41
Tantangan : Dimensionalitas

Sulit untuk mengimplementasikan kubus data secara


efisien mengingat sejumlah besar dimensi, terutama
dalam kasus kubus data multimedia.
Banyak dari atribut ini berorientasi pada set, bukan nilai
tunggal.
Membatasi jumlah dimensi dapat menyebabkan
pemodelan gambar pada skala yang agak kasar, terbatas,
dan tidak tepat.
Lebih banyak penelitian dibutuhkan untuk mencapai
keseimbangan antara efisiensi dan kekuatan representasi.
10/3/2020 42
Ringkasan

Data objek penambangan membutuhkan metode


generalisasi berbasis fitur / atribut.
Penambangan data spasial, spasial, dan multimedia
merupakan salah satu batas penelitian penting dalam data
mining dengan aplikasi yang luas.
Gudang data spasial, OLAP, dan pertambangan
memfasilitasi analisis spasial multidimensi dan
menemukan asosiasi, klasifikasi, dan tren spasial.
Penambangan data multimedia membutuhkan
pengambilan berbasis konten dan pencarian kesamaan
yang terintegrasi dengan metode penambangan.
10/3/2020 43

Anda mungkin juga menyukai