Anda di halaman 1dari 29

Data Cube

Data warehouse dan OLAP didasarkan pada


multidimensional data model.
Model ini merepresentasikan data dalam bentuk
data cube, yaitu data dimodelkan dan ditampilkan
sebagai multiple dimension.
Data cube ini didasarkan pada dimensions table
dan facts table.

3D data cube, according to the dimension time,


location, item

Cube Materialization

Full Cube
Iceberg Cube
Closed Cube
Shell Cube

General Strategies for


Cube Computation
1 Sorting, hashing, and grouping
2: Simultaneous aggregation and caching
intermediate results
3: Aggregation from the smallest child, when
there exist
multiple child cuboids.
4: The Apriori pruning method can be explored to
compute
iceberg cubes efficiently

1. Multiway Array
Aggregation

2. BUC
BUC: Computing Iceberg Cubes from the Apex
Cuboid Downward

4.2 Pengembangan lebih lanjut dari data Cube dan OLAP teknologi

1 Discovery-driven exploration Cubes data


Discovery-driven exploration adalah pendekatan
eksplorasi kubus tersebut. Dalam discovery driven
eksplorasi, tindakan precomputed menunjukkan
pengecualian
data
yang
digunakan
untuk
memandu pengguna dalam proses analisis data, di
semua tingkat agregasi.
Tindakan ini sebagai indikator terkecuali. Secara
intuitif, pengecualian adalah nilai sel kubus data
yang berbeda secara signifikan dari dana nilai
yang
diantisipasi,
berdasarkan
model
statistik.Model mempetimbangkan variasi dan pola
nilai ukuran di semua dimensi yang dimiliki sel.

Tiga langkah yang digunakan sebagai indikator


terkecuali untuk membantu mengidentifikasi
anomali data.
Tindakan ini menunjukkan tingkat mengejutkan
bahwa kuantitas dalam sel berkaitan dengan nilai
yang
diharapkan. pra-hitung langkah-langkah
yang
menunjukkan
pengecualian,
panduan
pengguna dalam analisis data, pada semua
tingkat agregasi.Adalah sebagai berikut:
SelfExp: ini menunjukkan tingkat mengejutkan
dari nilai sel, relatif terhadap sel lainnya pada
tingkat yang sama dari agregasi.
Inexp: ini menunjukkan tingkat mengejutkan di
suatu tempat di bawah sel, jika kita menelusuri
dari itu.
PathExp: ini menunjukkan tingkat kejutan untuk
setiap jalur drill-down dari sel.

2 Agregasi Kompleks di Beberapa


granular
Kubus Data memfasilitasi penjawab pertanyaan
data mining karena mereka memungkinkan
perhitungan data agregat pada berbagai tingkat
granularity.
Pada bagian ini, akan membahas tentang
multifeature kubus, yang menghitung pertanyaan
kompleks yang melibatkan beberapa agregat
tergantung pada berbagai granularities. Kubus ini
sangat berguna dalam praktek. banyak kompleks
query data mining dapat dijawab oleh multifeature
kubus
tanpa
signifikan
peningkatan
biaya
komputasi, dibandingkan dengan perhitungan
kubus untuk pertanyaan sederhana dengan batu
data standar.

Penggunaan
langkah-langkah
ini
untuk
eksplorasi penemuan-didorong dari kubus data
yang digambarkan di contoh berikut.

3. Pembatasan Analisis Gradient

Banyak aplikasi data kubus perlu menganalisis


perubahan tindakan kompleks in multidimensional
ruang
Misalnya, dalam real estate, kita mungkin ingin
bertanya apa saja perubahan harga rumah ratarata di daerah Vancouver pada tahun 2004
dibandingkan dengan tahun 2003,dan jawabannya
bisa "harga rata-rata untuk yang dijual untuk para
profesional di thewest End turun sebesar 20%,
sedangkan yang dijual kepada orang-orang bisnis
di Metrotown naik sebesar 10%, dll "Ekspresi
seperti" profesional di thewest End "sesuai dengan
sel berbentuk kubus dan menggambarkan sektor
bisnis dimodelkan dengan kubus data.

Perubahan pertambangan problemof tindakan


kompleks dalam ruang amultidimensional
adalah
pertama
kali
diusulkan
oleh
Imielinski,
Khachiyan, andAbdulghani [IKA02] sebagai
masalah cubegrade,yang dapat dilihat sebagai
generalisasi dari asosiasi rules6 dan kubus
data. Ini mempelajari bagaimana perubahan
dalam serangkaian langkah-langkah (agregat)
dari bunga yang terkait dengan perubahan
dalam karakteristik yang mendasari sektor, di
mana perubahan karakteristik sektor yang
dinyatakan dalam dimensi kubus dan terbatas
pada spesialisasi (Penelusuran),generalisasi
(roll-up), andmutation (perubahan di salah satu
dimensi kubus).

Di sini kita memeriksa versi terbatas tapi menarik dari masalah


cubegrade, disebut dibatasi analisis gradien multidimensi, yang
mengurangi ruang pencarian dan berasal hasil yang menarik.
Menggabungkan jenis berikut kendala:
1. Signifikansi kendala: Hal ini memastikan bahwa kita meneliti
hanya sel-sel yang memiliki tertentu
"Signifikansi statistik" dalam data, seperti yang mengandung
setidaknya sejumlah tertentu
sel dasar atau total penjualan setidaknya tertentu. Dalam
konteks data kubus, kendala ini
bertindak sebagai kondisi gunung es, yang plum sejumlah besar
sel sepele dari
menjawab ditetapkan.
2. Probe kendala: ini memilih subset sel (disebut probe sel) dari
semua kemungkinan
sel sebagai titik awal untuk pemeriksaan. Karena masalah
cubegrade perlu
untuk membandingkan setiap sel dalam kubus dengan sel lain
yang baik spesialisasi, generalisasi,
ormutations dari sel diberikan, itu ekstrak pasang karakteristik
sel yang sama
terkait dengan perubahan besar dalam ukuran dalam kubus data.

3. kendala Gradient: ini menentukan kisaran


pengguna dari bunga gradien
(perubahan ukuran). Seorang pengguna
biasanya tertarik hanya jenis tertentu
perubahan
antara sel (sektor) di bawah perbandingan.
Sebagai contoh, kita mungkin tertarik
hanya sel-sel yang rata-rata laba meningkat
lebih dari 40% dibandingkan dengan
bahwa sel penyelidikan.

Attribute-Oriented InductionAn Alternative


Method for Data Generalization and Concept Description

Data Generalization yaitu merangkum data dengan


mengganti relatif nilai tingkat rendah (seperti nilai numerik
untuk atribut usia) dengan konsep-tingkat yang lebih tinggi
(seperti muda, middleaged, dan senior).

Concept Description menghasilkan deskripsi untuk


karakterisasi dan perbandingan data. Hal ini kadang-kadang
disebut kelas deskripsi, ketika konsep yang akan dijelaskan
mengacu

pada

kelas

objek.

Karakterisasi

menyediakan

rangkuman yang ringkas dan singkat dari koleksi data yang


diberikan, sementara konsep atau perbandingan kelas (juga
dikenal

sebagai

diskriminasi)

memberikan

membandingkan dua atau koleksi lebih dari data.

deskripsi

Induksi Berorientasi Atribut


Diusulkan tahun 1989 (KDD 89 workshop)
Tidak dibatasi untuk kategori data tidak juga hanya untuk
ukuran-ukuran khusus.
Bagaimana ini dilakukan?
Mengumpulkan data relevan tugas (relasi awal)
menggunakan suatu query database relasional
Mengerjakan generalisasi dengan membuang atribut atau
generalisasi atribut.
Menerapkan agregasi dengan menggabungkan atribut
yang identik, tuple yang di generalisasikan dan
mengumpulkan jumlahnya
Penyajian ke user yang interaktif seperti grafik,

Contoh: Karakterisasi Analitis


Tugas
Menambang karakteristik umum yang
menerangkan graduate students
menggunakan karakterisasi analitis
Diberikan
Atribut-atribut name, gender, major,
birth_place, birth_date, phone#, dan
gpa
Gen(ai) = konsep hierarki atas ai
Ui = atribut ambang analitis untuk ai
Ti = atribut ambang general untuk ai
R = atribut ambang yang relevan

18/90

Contoh: Karakterisasi Analitis


1. Koleksi data
Kelas target: graduate student
Kelas lawannya: undergraduate student
2. Generalisasi analitis menggunakan Ui
Penghapusan atribut

Menghapus name dan phone#

Generalisasi atribut

Menggeneralisasi major, birth_place, birth_date


dan gpa
Mengumpulkan jumlah record

Kandidat relasi: gender, major,


birth_country, age_range dan gpa

19/90

Contoh: Karakterisasi Analitis


gender major

birth_country age_range gpa

count

M
F
M
F
M
F

Canada
Foreign
Foreign
Foreign
Canada
Canada

16
22
18
25
21
18

Science
Science
Engineering
Science
Science
Engineering

20-25
25-30
25-30
25-30
20-25
20-25

Very_good
Excellent
Excellent
Excellent
Excellent
Excellent

Kandidat relasi untuk kelas Target: Graduate


students ( =120)
gender major

birth_country age_range gpa

count

M
F
M
F
M
F

Foreign
Canada
Canada
Canada
Foreign
Canada

18
20
22
24
22
24

Science
Business
Business
Science
Engineering
Engineering

<20
<20
<20
20-25
20-25
<20

Very_good
Fair
Fair
Fair
Very_good
Excellent

Kandidat relasi untuk kelas lawan : Undergraduate


students ( =130)

20/90

Contoh:
Karakterisasi Analitis
3. Analisis Relevansi
Mengitung informasi yang diharapkan untuk
mengklasifikasikan suatu tuple sebarang
I(s 1, s 2) I(120,130)

120
120 130
130
log 2 log 2
0.9988
250
250 250
250

Mengitung entropy untuk setiap atribut:


misal, major
Science

major

Engineering
Business

84 Graduate
42
Undergraduate
36 Graduate
46
Undergraduate
0 Graduate
42
Undergraduate

21/90

Contoh: Karakterisasi Analitis


3.

Analisis Relevansi

Jumlah grad students


dalam Science

Jumlah undergrad
students dalam
Science

Menghitung info yang diharapkan yang diperlukan


untuk mengklasifikasikan suatu sample yang diberikan
jika S dipartisi berdasarkan atribut major
E (major)

126 84
84 42
42
log

log

2
2
250 126
126 126
126

82 36
36 46
46
log

log

2
2
250 82
82 82
82
42 0
0 42
42
log

log
0.7873
2
2
250 42
42 42
42

22/90

Contoh: Karakterisasi Analitis

Menghitung perolehan informasi untuk


masing-masing atribut

Gain(major) I ( S1 , S 2 ) E (major) 0.9988 0.7873 0.2115

Information gain untuk seluruh atribut

23/90

Contoh: Karakterisasi Analitis


4. Initial working relation (W0) derivation

R = 0.1
Buang atribut yang tak relevan / relevan tapi lemah
dari kandidat relasi => buang gender, birth_country
remove contrasting class candidate relation

5. Melakukan induksi berorientasi atribut atas W0

menggunakan Ti

24/90

Komparasi Kelas Mining

Komparasi: membandingkan dua atau lebih kelas


Metoda:

Partisi himpunan data relevan kedalam kelas target dan


kelas kontrasnya
Generalisasi kedua kelas ke level tinggi konsep yang
sama
Membandingkan tuple dengan deskripsi level tinggi yang
sama
Memberikan setiap tuple deskripsinya dan 2 ukuran:
support distribusi didalam kelas tunggal
komparasi distribusi antara kelas
Menonjolkan tuple dengan fitur deskriminan yang kuat

Analisis Relevansi:

Tentukan atribut (fitur) yang terbaik membedakan kelaskelas berbeda

25/90

Contoh: Komparasi Analitis


Diberikan
Atribut-atribut name, gender, major,
birth_place, birth_date, residence, phone#
dan gpa
Gen(ai) = konsep hierarki atas atributatribut ai
Ui = ambang analitis atribut untuk atribut ai
Ti = ambang generalisasi atribut untuk
atribut ai
R = ambang relevan atribut

26/90

Contoh: Komparasi Analitis


1. Koleksi data
Kelas target dan kontrasnya

2. Analisis relevan atribut


Membuang atribut name, gender,
major, phone#

3. Sinkronisasi generalisasi
Dikontrol oleh ambang dimensi
yang diberikan user
Relasi/cuboid kelas target utama dan
kelas kontrasnya

27/90

Contoh: Komparasi Analitis

Relasi utama yang digeneralisasi untuk kelas target:


Graduate students

28/90
Relasi utama yang digeneralisasi untuk kelas target:
Undergraduate students

Contoh: Komparasi Analitis


4. Operasi OLAP drill down, roll up dan
operasi lainnya atas kelas target dan
kontras untuk menyesuaikan level
abstraksi dari hasil deskripsi
5. Presentasi
Sebagai generalisasi relasi, crosstabs, bar
charts, pie charts, atau kaidah-kaidah
Ukuran kontras untuk merefleksikan
komparasi antara kelas target dan kelas
kontrasnya

Contoh count%

29/90

Anda mungkin juga menyukai