(Minggu 3 / Sesi 5)
1. Apakah yang dimaksud dengan data mining?
Jawab :
Data Mining adalah proses pengumpulan, penggalian, analisis data dalam jumlah
besar yang dapat digunakan untuk menemukan pola, hubungan, dan informasi
penting lainnya.
2. Misalkan data untuk analisis termasuk usia atribut. Nilai usia untuk data tupel adalah
(dalam urutan meningkat) 13, 15, 16, 16, 19, 20, 21, 22, 22, 22, 25, 25, 25, 25, 30,
33, 33, 35, 35, 35, 35, 36, 40, 45, 46, 52, 70. Berdasarkan data tersebut:
Jawab :
(a) Apa yang dimaksud dengan data? Apa mediannya?
Data adalah informasi yang telah diterjemahkan kedalam bentuk yang efisien
untuk keperluan pemindahan dan pemprosesan. Untuk mengkomunikasikan
transmisi media ke komputer , informasi data dikonversi ke bentuk digital
binary.
Arti aritmatik dari data adalah
27+1
Me=x ( 2 )=x14 = 25
(b) Apa mode data? Mengomentari modalitas data (mis., Bimodal, trimodal, dll.).
Mode data/modus data adalah nilai yang paling sering muncul.
Bimodal adalah mode data yang jumlahnya dua.
Trimodal adalah mode data yang jumlahnya tiga.
Mode data untuk soal diatas adalah bimodal yakni 25 dan 35.
(c) Apa itu midrange data?
Midrange data adalah nilai rata-rata antara nilai terbesar dan nilai terkecil.
Midrange data untuk soal diatas adalah midrange = (70+13)/2 = 41.5
(d) Dapatkah Anda menemukan (kira-kira) kuartil pertama (Q1) dan kuartil ketiga
(Q3) dari data?
Kuartil pertama atau kuartil bawah (Q1) merupakan nilai tengah antara nilai
terkecil dan median dari kelompok data.
Kuartil ketiga atau kuartil atas (Q3) adalah nilai tengah antara median dan
nilai tertinggi dari kelompok data.
3. Dalam data dunia nyata, tupel dengan nilai yang hilang untuk beberapa atribut adalah
hal biasa terjadi. Jelaskan berbagai metode untuk menangani masalah ini.
Jawab :
Model Queri Starnet terdapat garis radial dari titik pusat, yang mewakili
konsep hirark dari sebuah dimensi. Tiap tingkat abstraksi disebut footprint.
Contoh :
5. Asumsikan bahwa kuboid base 10-D hanya mengandung tiga sel base: (1) .a1, d2,
d3, d4,:::, d9, d10 /, (2) .d1, b2, d3, d4,:::, d9, d10 /, dan (3) .d1, d2, c3, d4,:::, d9,
d10 /, di mana a1 6D d1, b2 6D d2, dan c3 6D d3. Ukuran cube adalah count().
Jawab :
(a) Berapa banyak nonempty cube yang akan diisi data penuh?
210=102 4
(b) Berapa banyak sel agregate nonempty (mis., nonbase) yang akan diisi
penuh?
10
Tiap cell menghasilkan 2 −1 non-empty aggregated cells,
10
sehingga secara total dimiliki 3 x ( 2 −1) cells dengan
overlap dibuang.
7
Total cell yang overlap satu kali = 3 x 2 => dihitung 2
Total cell yang overlap dua kali = 1 x 27 => dihitung 3
dimana ( *,*,*,d4,…, d10) jadi perlu dihapus 5 x 27
overlap cell.
Jadi cell yang overlap yang harus dihapus
= 3x ( 8 x 27 )−5 x 27 −3
= 19 x 27 −3
= 2429
(c) Berapa banyak sel agregat nonempty akan mengandung iceberg jika kondisi
Iceberg cube "count ≥2"?
Analisa:
(*,*,d3,d4,…,d9,d10) berjumlah 2 (dari cell 1 dan 2)
(*,d2,*,d4,…,d9,d10) berjumlah 2
(*,*,d3,d4,…,d9,d10) berjumlah 2
(*,*,*,d4,…,d9,d10) berjumlah 2
7 9
Sehingga total 4x 2 = 2
6. Misalkan Anda memiliki set C dari semua itemset tertutup yang sering pada set data
D, juga sebagai jumlah dukungan untuk setiap set item yang sering ditutup. Jelaskan
Input : C, set dari semua itemset tertutup beserta jumlah dukungannya, test itemset, x
Method:
(1) s = ∅;
(4) s = l;
(5) }
(6) if s ̸= ∅ then {
(8) }