Tugas Personal Ke-1 (Minggu 3 / Sesi 5) : Me X X

Tugas Personal ke-1
(Minggu 3 / Sesi 5)
1. Apakah yang dimaksud dengan data mining?
Jawab :
Data Mining adalah proses pengumpulan, penggalian, analisis data dalam jumlah
besar yang dapat digunakan untuk menemukan pola, hubungan, dan informasi
penting lainnya.
2. Misalkan data untuk analisis termasuk usia atribut. Nilai usia untuk data tupel adalah
(dalam urutan meningkat) 13, 15, 16, 16, 19, 20, 21, 22, 22, 22, 25, 25, 25, 25, 30,
33, 33, 35, 35, 35, 35, 36, 40, 45, 46, 52, 70. Berdasarkan data tersebut:
Jawab :
(a) Apa yang dimaksud dengan data? Apa mediannya?
Data adalah informasi yang telah diterjemahkan kedalam bentuk yang efisien
untuk keperluan pemindahan dan pemprosesan. Untuk mengkomunikasikan
transmisi media ke komputer , informasi data dikonversi ke bentuk digital
binary.
Arti aritmatik dari data adalah
27+1
Me=x ( 2 )=x14 = 25
(b) Apa mode data? Mengomentari modalitas data (mis., Bimodal, trimodal, dll.).
Mode data/modus data adalah nilai yang paling sering muncul.
Bimodal adalah mode data yang jumlahnya dua.
Trimodal adalah mode data yang jumlahnya tiga.
Mode data untuk soal diatas adalah bimodal yakni 25 dan 35.
(c) Apa itu midrange data?
Midrange data adalah nilai rata-rata antara nilai terbesar dan nilai terkecil.
Midrange data untuk soal diatas adalah midrange = (70+13)/2 = 41.5
(d) Dapatkah Anda menemukan (kira-kira) kuartil pertama (Q1) dan kuartil ketiga
(Q3) dari data?
Kuartil pertama atau kuartil bawah (Q1) merupakan nilai tengah antara nilai
terkecil dan median dari kelompok data.
Kuartil ketiga atau kuartil atas (Q3) adalah nilai tengah antara median dan
nilai tertinggi dari kelompok data.
ISYS6281 – Data Mining

Karena data diatas jumlahnya ganjil maka digunakan rumus :
i(n+1)
Qi=
4
1(27+1)
Q 1= =7
4
3(27+ 1)
Q 3= =2 1
4
Maka nilai Q1 = 20 dan nilai Q3 = 35
(e) Berikan ringkasan lima angka dari data.

Nilai minimum = 13
Q1 = 20
Q3 = 35
Median = 25
Nilai maksimum = 70
(f) Tunjukkan plot kotak data.
(g) Bagaimana plot kuantil-kuantil berbeda dari plot kuantil?

Plot quantil adalah suatu cara mudah untuk mendeskripsikan persebaran data
yang bervariasi.
Quantile terdiri dari Quantile 0,25, Quantile 0,50 laulu Quantile 0,75. Quantil
0,25 menggambarkan kuartil Q1, Quantile 0,50 menggambarkan kuartil Q2,
Quantile 0,75 menggambarkan kuartil Q3. Selain itu ada juga Quantile 0,00
yang menggambarkan data min(terkecil) dan juga Quantile 1,00 yang
menggambarkan data max(terbesar).
Sedangkan plot quantil-quantil adalah untuk membandingkan satu Quantile
plot dengan Quantile plot lainnya.Menggambarkan kuantil dari satu distribusi
univariat terhadap kuantil yang sesuai dari distribusi univariat lainnya. Kedua
sumbu menampilkan rentang nilai yang diukur untuk distribusinya yang sesuai
dan titik diplot yang sesuai dengan nilai kuantil dari dua distribusi. Sebuah
garis ( y = x ) dapat ditambahkan ke grafik bersama dengan titik- titik yang
mempresentasikan dimana letak kuantil pertama, kedua, dan ketiga untuk
Error! No text of specified style in document. ©Arif 2|6

meningkatkan nilai informasi dari grafik. Titik-titik yang berada diatas garis
tersebut menunjukkan nilai yang lebih tinggi untuk distribusi yang diplat pada
sumbu y daripada untuk distribusi yang diplat pada sumbu x pada besaran
yang sama. Efek sebaliknya berlaku juga untuk titik-titik yang terletak
dibawah garis ini.
3. Dalam data dunia nyata, tupel dengan nilai yang hilang untuk beberapa atribut adalah
hal biasa terjadi. Jelaskan berbagai metode untuk menangani masalah ini.
Jawab :
a. Abaikan tuple: dilakukan ketika label kelas hilang. Metode ini

sangat tidak efektif kecuali tuple berisi beberapa atribut dengan
nilai-nilai yang hilang. Dengan mengabaikan tuple,
memungkinkan untuk tidak menggunakan nilai-nilai atribut yang
tersisa dalam tuple.
b. Isikan nilai yang hilang secara manual: secara umum

pendekatan ini memakan waktu dan mungkin tidak layak diberi
dataset yang besar dengan nilai-nilai yang hilang.
c. Gunakan konstan global untuk mengisi nilai yang hilang. Ganti

semua nilai atribut yang hilang dengan konstanta yang sama
seperti label “unknown”.
d. Gunakan ukuran tendensi sentral untuk atribut (misalnya, rata-

rata atau median) untuk mengisi nilai yang hilang.
e. Gunakan atribut berarti atau rata-rata untuk semua sampel milik

kelas yang sama seperti tuple yang diberikan.
f. Gunakan nilai yang paling mungkin untuk mengisi nilai yang

hilang: dapat ditentukan dengan regresi, alat berbasis inferensi
menggunakan formalism Bayesian atau decision tree.
4. Bandingkan secara singkat konsep-konsep berikut. Anda dapat menggunakan contoh

untuk menjelaskan poin.
Jawab :
(a) Skema snowflake, konstelasi fakta, model kueri starnet.
Skema snowflake adalah sebuah perbaika dari skema bintang dimana
beberapa hirarki dimensional dinormalisasi kedalam satu set dimensi tabel
yang lebih kecil, merupai bentuk kepingan salju.
Contoh :

Konstelasi fakta atau skema galaksi adalah skema yang terdapat beberapa
tabel fakta yang menggunakan satu atau beberapa tabel dimensi secara
bersama-sama sehingga jika digambarkan akanterlihat seperti sekumpulan
bintang.
Contoh :
Model Queri Starnet terdapat garis radial dari titik pusat, yang mewakili
konsep hirark dari sebuah dimensi. Tiap tingkat abstraksi disebut footprint.
Contoh :
(b) Data cleaning, transformasi data, refresh

Data cleaning mendeteksi errror didalam data dan memperbaikinya apabila
memungkinkan.
Transformasi data yakni mengonversi data dari format lama atau host ke
format warehouse.
Refresh menyebarikan update dari sumber daa ke warehouse.
(c) Discovery-driven cube, multifeatured cube, virtual data warehouse.

Discovery-driven cube menurut Sarawagi dkk ‘98
- Navigasi efektif dari kubus data OLAP yang besar.
- Langkah-langkah pra-komputasi yang menunjukkan pengecualian, memandu
pengguna didalam analisis data untuk semua tingkat agregasi.
- Pengecualian: berbeda secara signifikan dari nilai yang diantisipasi,
berdasarkan model statistik.
- Isyarat visual seperti warna latar digunakan untuk mencerminkan tingkat
pengecualian bagi setiap sel.
Kueri multifeature cube adalah kueri data mining yang kompleks berdasarka data
kubus yang menghitung ketergantungan agregat kompleks dibeberapa perincian.
Perhitungan yang ada dirancang untuk kueri kubus data sederhana yang dapat
digunakan untuk menghitung kueri MF-Cubes dan aljabar.
5. Asumsikan bahwa kuboid base 10-D hanya mengandung tiga sel base: (1) .a1, d2,
d3, d4,:::, d9, d10 /, (2) .d1, b2, d3, d4,:::, d9, d10 /, dan (3) .d1, d2, c3, d4,:::, d9,
d10 /, di mana a1 6D d1, b2 6D d2, dan c3 6D d3. Ukuran cube adalah count().
Jawab :
(a) Berapa banyak nonempty cube yang akan diisi data penuh?
210=102 4
(b) Berapa banyak sel agregate nonempty (mis., nonbase) yang akan diisi
penuh?
10
Tiap cell menghasilkan 2 −1 non-empty aggregated cells,
10
sehingga secara total dimiliki 3 x ( 2 −1) cells dengan
overlap dibuang.
7
Total cell yang overlap satu kali = 3 x 2 => dihitung 2
Total cell yang overlap dua kali = 1 x 27 => dihitung 3
dimana ( *,*,*,d4,…, d10) jadi perlu dihapus 5 x 27
overlap cell.
Jadi cell yang overlap yang harus dihapus
= 3x ( 8 x 27 )−5 x 27 −3
= 19 x 27 −3
= 2429
(c) Berapa banyak sel agregat nonempty akan mengandung iceberg jika kondisi
Iceberg cube "count ≥2"?
Analisa:
(*,*,d3,d4,…,d9,d10) berjumlah 2 (dari cell 1 dan 2)
(*,d2,*,d4,…,d9,d10) berjumlah 2
(*,*,d3,d4,…,d9,d10) berjumlah 2
(*,*,*,d4,…,d9,d10) berjumlah 2
7 9
Sehingga total 4x 2 = 2
6. Misalkan Anda memiliki set C dari semua itemset tertutup yang sering pada set data
D, juga sebagai jumlah dukungan untuk setiap set item yang sering ditutup. Jelaskan

algoritma untuk menentukan apakah itemset X yang diberikan sering atau tidak, dan
dukungan X, jika itu sering terjadi.
Algoritma : Itemset_Freq_Tester. Tentukan jika itemset adalah sering
Input : C, set dari semua itemset tertutup beserta jumlah dukungannya, test itemset, x
Output : Dukungan dari X adalah sering, jika tidak -1
Method:
(1) s = ∅;
(2) for each itemset, l ∈ C
(3) if X ⊂ l and (length(l) < length(s) or s = ∅) then {
(4) s = l;
(5) }
(6) if s ̸= ∅ then {
(7) return support(s);
(8) }
(9) return -1;

Tugas Personal Ke-1 (Minggu 3 / Sesi 5) : Me X X

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Tugas Personal Ke-1 (Minggu 3 / Sesi 5) : Me X X

Diunggah oleh

Hak Cipta:

Format Tersedia

Tugas Personal ke-1

ISYS6281 – Data Mining

(e) Berikan ringkasan lima angka dari data.

(g) Bagaimana plot kuantil-kuantil berbeda dari plot kuantil?

Error! No text of specified style in document. ©Arif 2|6

a. Abaikan tuple: dilakukan ketika label kelas hilang. Metode ini

b. Isikan nilai yang hilang secara manual: secara umum

c. Gunakan konstan global untuk mengisi nilai yang hilang. Ganti

d. Gunakan ukuran tendensi sentral untuk atribut (misalnya, rata-

e. Gunakan atribut berarti atau rata-rata untuk semua sampel milik

f. Gunakan nilai yang paling mungkin untuk mengisi nilai yang

4. Bandingkan secara singkat konsep-konsep berikut. Anda dapat menggunakan contoh

Error! No text of specified style in document. ©Arif 3|6

(b) Data cleaning, transformasi data, refresh

Error! No text of specified style in document. ©Arif 4|6

Error! No text of specified style in document. ©Arif 5|6

Algoritma : Itemset_Freq_Tester. Tentukan jika itemset adalah sering

Output : Dukungan dari X adalah sering, jika tidak -1

(2) for each itemset, l ∈ C

(3) if X ⊂ l and (length(l) < length(s) or s = ∅) then {

(7) return support(s);

(9) return -1;

Error! No text of specified style in document. ©Arif 6|6

Anda mungkin juga menyukai