Presentation Slide Data Cube

Data Cube
Data warehouse dan OLAP didasarkan pada

multidimensional data model.
Model ini merepresentasikan data dalam bentuk
data cube, yaitu data dimodelkan dan ditampilkan
sebagai multiple dimension.
Data cube ini didasarkan pada dimensions table
dan facts table.
3D data cube, according to the dimension time,

location, item
Cube Materialization
Full Cube
Iceberg Cube
Closed Cube
Shell Cube
General Strategies for

Cube Computation
1 Sorting, hashing, and grouping
2: Simultaneous aggregation and caching
intermediate results
3: Aggregation from the smallest child, when
there exist
multiple child cuboids.
4: The Apriori pruning method can be explored to
compute
iceberg cubes efficiently
1. Multiway Array
Aggregation
2. BUC
BUC: Computing Iceberg Cubes from the Apex
Cuboid Downward
4.2 Pengembangan lebih lanjut dari data Cube dan OLAP teknologi
1 Discovery-driven exploration Cubes data

Discovery-driven exploration adalah pendekatan
eksplorasi kubus tersebut. Dalam discovery driven
eksplorasi, tindakan precomputed menunjukkan
pengecualian
data
yang
digunakan
untuk
memandu pengguna dalam proses analisis data, di
semua tingkat agregasi.
Tindakan ini sebagai indikator terkecuali. Secara
intuitif, pengecualian adalah nilai sel kubus data
yang berbeda secara signifikan dari dana nilai
yang
diantisipasi,
berdasarkan
model
statistik.Model mempetimbangkan variasi dan pola
nilai ukuran di semua dimensi yang dimiliki sel.
Tiga langkah yang digunakan sebagai indikator

terkecuali untuk membantu mengidentifikasi
anomali data.
Tindakan ini menunjukkan tingkat mengejutkan
bahwa kuantitas dalam sel berkaitan dengan nilai
yang
diharapkan. pra-hitung langkah-langkah
yang
menunjukkan
pengecualian,
panduan
pengguna dalam analisis data, pada semua
tingkat agregasi.Adalah sebagai berikut:
SelfExp: ini menunjukkan tingkat mengejutkan
dari nilai sel, relatif terhadap sel lainnya pada
tingkat yang sama dari agregasi.
Inexp: ini menunjukkan tingkat mengejutkan di
suatu tempat di bawah sel, jika kita menelusuri
dari itu.
PathExp: ini menunjukkan tingkat kejutan untuk
setiap jalur drill-down dari sel.
2 Agregasi Kompleks di Beberapa

granular
Kubus Data memfasilitasi penjawab pertanyaan
data mining karena mereka memungkinkan
perhitungan data agregat pada berbagai tingkat
granularity.
Pada bagian ini, akan membahas tentang
multifeature kubus, yang menghitung pertanyaan
kompleks yang melibatkan beberapa agregat
tergantung pada berbagai granularities. Kubus ini
sangat berguna dalam praktek. banyak kompleks
query data mining dapat dijawab oleh multifeature
kubus
tanpa
signifikan
peningkatan
biaya
komputasi, dibandingkan dengan perhitungan
kubus untuk pertanyaan sederhana dengan batu
data standar.
Penggunaan
langkah-langkah
ini
untuk
eksplorasi penemuan-didorong dari kubus data
yang digambarkan di contoh berikut.
3. Pembatasan Analisis Gradient
Banyak aplikasi data kubus perlu menganalisis

perubahan tindakan kompleks in multidimensional
ruang
Misalnya, dalam real estate, kita mungkin ingin
bertanya apa saja perubahan harga rumah ratarata di daerah Vancouver pada tahun 2004
dibandingkan dengan tahun 2003,dan jawabannya
bisa "harga rata-rata untuk yang dijual untuk para
profesional di thewest End turun sebesar 20%,
sedangkan yang dijual kepada orang-orang bisnis
di Metrotown naik sebesar 10%, dll "Ekspresi
seperti" profesional di thewest End "sesuai dengan
sel berbentuk kubus dan menggambarkan sektor
bisnis dimodelkan dengan kubus data.
Perubahan pertambangan problemof tindakan

kompleks dalam ruang amultidimensional
adalah
pertama
kali
diusulkan
oleh
Imielinski,
Khachiyan, andAbdulghani [IKA02] sebagai
masalah cubegrade,yang dapat dilihat sebagai
generalisasi dari asosiasi rules6 dan kubus
data. Ini mempelajari bagaimana perubahan
dalam serangkaian langkah-langkah (agregat)
dari bunga yang terkait dengan perubahan
dalam karakteristik yang mendasari sektor, di
mana perubahan karakteristik sektor yang
dinyatakan dalam dimensi kubus dan terbatas
pada spesialisasi (Penelusuran),generalisasi
(roll-up), andmutation (perubahan di salah satu
dimensi kubus).
Di sini kita memeriksa versi terbatas tapi menarik dari masalah

cubegrade, disebut dibatasi analisis gradien multidimensi, yang
mengurangi ruang pencarian dan berasal hasil yang menarik.
Menggabungkan jenis berikut kendala:
1. Signifikansi kendala: Hal ini memastikan bahwa kita meneliti
hanya sel-sel yang memiliki tertentu
"Signifikansi statistik" dalam data, seperti yang mengandung
setidaknya sejumlah tertentu
sel dasar atau total penjualan setidaknya tertentu. Dalam
konteks data kubus, kendala ini
bertindak sebagai kondisi gunung es, yang plum sejumlah besar
sel sepele dari
menjawab ditetapkan.
2. Probe kendala: ini memilih subset sel (disebut probe sel) dari
semua kemungkinan
sel sebagai titik awal untuk pemeriksaan. Karena masalah
cubegrade perlu
untuk membandingkan setiap sel dalam kubus dengan sel lain
yang baik spesialisasi, generalisasi,
ormutations dari sel diberikan, itu ekstrak pasang karakteristik
sel yang sama
terkait dengan perubahan besar dalam ukuran dalam kubus data.
3. kendala Gradient: ini menentukan kisaran

pengguna dari bunga gradien
(perubahan ukuran). Seorang pengguna
biasanya tertarik hanya jenis tertentu
perubahan
antara sel (sektor) di bawah perbandingan.
Sebagai contoh, kita mungkin tertarik
hanya sel-sel yang rata-rata laba meningkat
lebih dari 40% dibandingkan dengan
bahwa sel penyelidikan.
Attribute-Oriented InductionAn Alternative

Method for Data Generalization and Concept Description
Data Generalization yaitu merangkum data dengan

mengganti relatif nilai tingkat rendah (seperti nilai numerik
untuk atribut usia) dengan konsep-tingkat yang lebih tinggi
(seperti muda, middleaged, dan senior).
Concept Description menghasilkan deskripsi untuk

karakterisasi dan perbandingan data. Hal ini kadang-kadang
disebut kelas deskripsi, ketika konsep yang akan dijelaskan
mengacu
pada
kelas
objek.
Karakterisasi
menyediakan
rangkuman yang ringkas dan singkat dari koleksi data yang

diberikan, sementara konsep atau perbandingan kelas (juga
dikenal
sebagai
diskriminasi)
memberikan
membandingkan dua atau koleksi lebih dari data.
deskripsi
Induksi Berorientasi Atribut

Diusulkan tahun 1989 (KDD 89 workshop)
Tidak dibatasi untuk kategori data tidak juga hanya untuk
ukuran-ukuran khusus.
Bagaimana ini dilakukan?
Mengumpulkan data relevan tugas (relasi awal)
menggunakan suatu query database relasional
Mengerjakan generalisasi dengan membuang atribut atau
generalisasi atribut.
Menerapkan agregasi dengan menggabungkan atribut
yang identik, tuple yang di generalisasikan dan
mengumpulkan jumlahnya
Penyajian ke user yang interaktif seperti grafik,
Contoh: Karakterisasi Analitis

Tugas
Menambang karakteristik umum yang
menerangkan graduate students
menggunakan karakterisasi analitis
Diberikan
Atribut-atribut name, gender, major,
birth_place, birth_date, phone#, dan
gpa
Gen(ai) = konsep hierarki atas ai
Ui = atribut ambang analitis untuk ai
Ti = atribut ambang general untuk ai
R = atribut ambang yang relevan
18/90

1. Koleksi data
Kelas target: graduate student
Kelas lawannya: undergraduate student
2. Generalisasi analitis menggunakan Ui
Penghapusan atribut
Menghapus name dan phone#
Generalisasi atribut
Menggeneralisasi major, birth_place, birth_date

dan gpa
Mengumpulkan jumlah record
Kandidat relasi: gender, major,

birth_country, age_range dan gpa
19/90

gender major
birth_country age_range gpa
count
M
F
M
F
M
F
Canada
Foreign
Foreign
Foreign
Canada
Canada
16
22
18
25
21
18
Science
Science
Engineering
Science
Science
Engineering
20-25
25-30
25-30
25-30
20-25
20-25
Very_good
Excellent
Excellent
Excellent
Excellent
Excellent
Kandidat relasi untuk kelas Target: Graduate

students ( =120)
gender major
birth_country age_range gpa
count
M
F
M
F
M
F
Foreign
Canada
Canada
Canada
Foreign
Canada
18
20
22
24
22
24
Science
Business
Business
Science
Engineering
Engineering
<20
<20
<20
20-25
20-25
<20
Very_good
Fair
Fair
Fair
Very_good
Excellent
Kandidat relasi untuk kelas lawan : Undergraduate

students ( =130)
20/90
Contoh:
Karakterisasi Analitis
3. Analisis Relevansi
Mengitung informasi yang diharapkan untuk
mengklasifikasikan suatu tuple sebarang
I(s 1, s 2) I(120,130)
120
120 130
130
log 2 log 2
0.9988
250
250 250
250
Mengitung entropy untuk setiap atribut:

misal, major
Science
major
Engineering
Business
84 Graduate
42
Undergraduate
36 Graduate
46
Undergraduate
0 Graduate
42
Undergraduate
21/90

3.
Analisis Relevansi
Jumlah grad students

dalam Science
Jumlah undergrad
students dalam
Science
Menghitung info yang diharapkan yang diperlukan

untuk mengklasifikasikan suatu sample yang diberikan
jika S dipartisi berdasarkan atribut major
E (major)
126 84
84 42
42
log
log
2
2
250 126
126 126
126
82 36
36 46
46
log
log
2
2
250 82
82 82
82
42 0
0 42
42
log
log
0.7873
2
2
250 42
42 42
42
22/90
Menghitung perolehan informasi untuk

masing-masing atribut
Gain(major) I ( S1 , S 2 ) E (major) 0.9988 0.7873 0.2115
Information gain untuk seluruh atribut
23/90

4. Initial working relation (W0) derivation
R = 0.1
Buang atribut yang tak relevan / relevan tapi lemah
dari kandidat relasi => buang gender, birth_country
remove contrasting class candidate relation
5. Melakukan induksi berorientasi atribut atas W0
menggunakan Ti
24/90
Komparasi Kelas Mining
Komparasi: membandingkan dua atau lebih kelas

Metoda:
Partisi himpunan data relevan kedalam kelas target dan

kelas kontrasnya
Generalisasi kedua kelas ke level tinggi konsep yang
sama
Membandingkan tuple dengan deskripsi level tinggi yang
sama
Memberikan setiap tuple deskripsinya dan 2 ukuran:
support distribusi didalam kelas tunggal
komparasi distribusi antara kelas
Menonjolkan tuple dengan fitur deskriminan yang kuat
Analisis Relevansi:
Tentukan atribut (fitur) yang terbaik membedakan kelaskelas berbeda
25/90
Contoh: Komparasi Analitis

Diberikan
Atribut-atribut name, gender, major,
birth_place, birth_date, residence, phone#
dan gpa
Gen(ai) = konsep hierarki atas atributatribut ai
Ui = ambang analitis atribut untuk atribut ai
Ti = ambang generalisasi atribut untuk
atribut ai
R = ambang relevan atribut
26/90

1. Koleksi data
Kelas target dan kontrasnya
2. Analisis relevan atribut

Membuang atribut name, gender,
major, phone#
3. Sinkronisasi generalisasi
Dikontrol oleh ambang dimensi
yang diberikan user
Relasi/cuboid kelas target utama dan
kelas kontrasnya
27/90
Relasi utama yang digeneralisasi untuk kelas target:

Graduate students
28/90
Relasi utama yang digeneralisasi untuk kelas target:
Undergraduate students

4. Operasi OLAP drill down, roll up dan
operasi lainnya atas kelas target dan
kontras untuk menyesuaikan level
abstraksi dari hasil deskripsi
5. Presentasi
Sebagai generalisasi relasi, crosstabs, bar
charts, pie charts, atau kaidah-kaidah
Ukuran kontras untuk merefleksikan
komparasi antara kelas target dan kelas
kontrasnya
Contoh count%
29/90

Presentation Slide Data Cube

Diunggah oleh

Informasi Dokumen

Deskripsi Asli:

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Presentation Slide Data Cube

Diunggah oleh

Hak Cipta:

Format Tersedia

Data Cube

Data warehouse dan OLAP didasarkan pada

3D data cube, according to the dimension time,

General Strategies for

1 Discovery-driven exploration Cubes data

Tiga langkah yang digunakan sebagai indikator

2 Agregasi Kompleks di Beberapa

3. Pembatasan Analisis Gradient

Banyak aplikasi data kubus perlu menganalisis

Perubahan pertambangan problemof tindakan

Di sini kita memeriksa versi terbatas tapi menarik dari masalah

3. kendala Gradient: ini menentukan kisaran

Attribute-Oriented InductionAn Alternative

Data Generalization yaitu merangkum data dengan

Concept Description menghasilkan deskripsi untuk

rangkuman yang ringkas dan singkat dari koleksi data yang

membandingkan dua atau koleksi lebih dari data.

Induksi Berorientasi Atribut

Contoh: Karakterisasi Analitis

Contoh: Karakterisasi Analitis

Menghapus name dan phone#

Menggeneralisasi major, birth_place, birth_date

Kandidat relasi: gender, major,

Contoh: Karakterisasi Analitis

birth_country age_range gpa

Kandidat relasi untuk kelas Target: Graduate

birth_country age_range gpa

Kandidat relasi untuk kelas lawan : Undergraduate

Mengitung entropy untuk setiap atribut:

Contoh: Karakterisasi Analitis

Jumlah grad students

Menghitung info yang diharapkan yang diperlukan

Contoh: Karakterisasi Analitis

Menghitung perolehan informasi untuk

Gain(major) I ( S1 , S 2 ) E (major) 0.9988 0.7873 0.2115

Information gain untuk seluruh atribut

Contoh: Karakterisasi Analitis

5. Melakukan induksi berorientasi atribut atas W0

Komparasi Kelas Mining

Komparasi: membandingkan dua atau lebih kelas

Partisi himpunan data relevan kedalam kelas target dan

Tentukan atribut (fitur) yang terbaik membedakan kelaskelas berbeda

Contoh: Komparasi Analitis

Contoh: Komparasi Analitis

2. Analisis relevan atribut

Contoh: Komparasi Analitis

Relasi utama yang digeneralisasi untuk kelas target:

Contoh: Komparasi Analitis

Anda mungkin juga menyukai