Tp1 w3 Data Mining

Tugas Personal ke-1
(Minggu 3 / Sesi 5)
1. Apakah yang dimaksud dengan data mining?
Jawab:
Data mining adalah disiplin ilmu dari data science yang melibatkan
analisa dan eksplorasi dari data yang besar untuk mengetahui pola dan
aturan yang berguna untuk memprediksi sesuatu di masa yang akan
dating. Teknik data mining digunakan untuk membuat model Machine
Learning yang digunakan untuk aplikasi AI modern seperti algoritma
search engine dan recommendation systems.
2. Misalkan data untuk analisis termasuk usia atribut. Nilai usia untuk
m
data tupel adalah (dalam urutan meningkat) 13, 15, 16, 16, 19, 20, 21,
er as
22, 22, 22, 25, 25, 25, 25, 30, 33, 33, 35, 35, 35, 35, 36, 40, 45, 46, 52,
70. Berdasarkan data tersebut:
co
eH w
(a) Apa yang dimaksud dengan data? Apa mediannya?
Jawab:
o.
rs e
Data adalah sekumpulan informasi atau juga keterangan-
ou urc
keterangan dari suatu hal yang diperoleh dengan melalui
pengamatan atau juga pencarian ke sumber-sumber tertentu.
Median:
o
aC s
v i y re
ed d
ar stu
27+1
Maka Median untuk data tersebut adalah x ( ) = x 14
2
= 25.
sh is
Th
(b) Apa mode data? Mengomentari modalitas data (mis., Bimodal,

trimodal, dll.).
Mode data adalah nilai yang paling sering muncul dalam suatu
set observasi.
This study source was downloaded by 100000823284023 from CourseHero.com on 06-29-2021 22:55:45 GMT -05:00
ISYS6281 – Data Mining
https://www.coursehero.com/file/69575032/TP1-W3-DATA-MININGdocx/
Jika dilihat dari histogram tersebut maka mode data tersebut
adalah 25 dan 35(bimodal).
m
er as
(c) Apa itu midrange data?
co
Midrange data adalah mean dari perhitungan nilai terkecil dan
eH w
terbesar dari suatu set data.
o.
rs e
ou urc
Maka midrange dari data set di atas adalah (70+13)/2 = 41,5
o
(d) Dapatkah Anda menemukan (kira-kira) kuartil pertama (Q1) dan

aC s
kuartil ketiga (Q3) dari data?

v i y re
Q1 is the middle value in the first half of the data set.

Q3 is the middle value in the second half of the data set.
Karena data berjumlah ganjil maka menggunakan rumus:
ed d
ar stu
i(n+1)
Qi=
4
Q1 = 1(27+1)/4 = 7
sh is
Q3= 3(27+1)/4 = 21
Th
Maka nilai Q1 adalah 21 dan nilai Q3 adalah 35.

(e) Berikan ringkasan lima angka dari data.
Minimum: 13
Q1: 21
Median: 25
Q3; 35
Maximum: 70
(f) Tunjukkan plot kotak data.
Kesalahan! Tidak ada teks dari gaya yang ditentukan dalam

dokumen. ©Arif 2|5
(g) Bagaimana plot kuantil-kuantil berbeda dari plot kuantil?
Plot quantil adalah suatu cara mudah untuk mendeskripsikan
m
er as
persebaran data yang brevariasi. Quantile terdiri dari Quantile
co
0,25, Quantile 0,50 laulu Quantile 0,75. Quantil 0,25
eH w
menggambarkan kuartil Q1, Quantile 0,50 menggambarkan
o.
kuartil Q2, Quantile 0,75 menggambarkan kuartil Q3. Selain itu
rs e
ou urc
ada juga Quantile 0,00 yang menggambarkan data min(terkecil)
dan juga Quantile 1,00 yang menggambarkan data
max(terbesar).
o
Sedangkan plot quantil-quantil adalah untuk membandingkan

aC s
satu Quantile plot dengan Quantile plot lainnya.

v i y re
3. Dalam data dunia nyata, tupel dengan nilai yang hilang untuk
beberapa atribut adalah hal biasa terjadi. Jelaskan berbagai metode
ed d
untuk menangani masalah ini.

ar stu
1. Abaikan tuple: dilakukan ketika label kelas hilang. Metode ini sangat
tidak efektif kecuali tuple berisi beberapa atribut dengan nilai-nilai
yang hilang. Dengan mengabaikan tuple, memungkinkan untuk
sh is
tidak menggunakan nilai-nilai atribut yang tersisa dalam tuple.

Th
2. Isikan nilai yang hilang secara manual: secara umum pendekatan

ini memakan waktu dan mungkin tidak layak diberi dataset yang
besar dengan nilai-nilai yang hilang.
3. Gunakan konstan global untuk mengisi nilai yang hilang. Ganti

semua nilai atribut yang hilang dengan konstanta yang sama
seperti label “unknown”.
4. Gunakan ukuran tendensi sentral untuk atribut (misalnya, rata-rata

atau median) untuk mengisi nilai yang hilang.
5. Gunakan atribut berarti atau rata-rata untuk semua sampel milik

kelas yang sama seperti tuple yang diberikan.

dokumen. ©Arif 3|5
6. Gunakan nilai yang paling mungkin untuk mengisi nilai yang hilang:
dapat ditentukan dengan regresi, alat berbasis inferensi
menggunakan formalism Bayesian atau decision tree.
4. Bandingkan secara singkat konsep-konsep berikut. Anda dapat

menggunakan contoh untuk menjelaskan poin.
(a) Skema snowflake, konstelasi fakta, model kueri starnet.

(b) Data cleaning, transformasi data, refresh
(c) Discovery-driven cube, multifeatured cube, virtual data
warehouse.
5. Asumsikan bahwa kuboid base 10-D hanya mengandung tiga sel base:
(1) .a1, d2, d3, d4,:::, d9, d10 /, (2) .d1, b2, d3, d4,:::, d9, d10 /, dan (3)
m
.d1, d2, c3, d4,:::, d9, d10 /, di mana a1 6D d1, b2 6D d2, dan c3 6D
er as
d3. Ukuran cube adalah count().
co
(a) Berapa banyak nonempty cube yang akan diisi data penuh?
eH w
Jawab:
o.
Nonempty cuboids = 210 = 1024
rs e
(b) Berapa banyak sel agregate nonempty (mis., nonbase) yang
ou urc
akan diisi penuh?
Jawab:
Tiap cell menghasilkan 210−1 non-empty aggregated cells,
o
sehingga secara total dimiliki 3¿ ( 210−1) cells dengan overlap

aC s
dibuang.
v i y re
Total cell yang overlap satu kali =3¿ 27 => dihitung 2

Total cell yang overlap dua kali = 1¿ 27 => dihitung 3
Jadi cell yang overlap yang harus dihapus
ed d
= 3¿ ( 8 ¿ 27 )−5¿ 27 −3
ar stu
¿
= 3 −1024−640−3
= 2429
(c) Berapa banyak sel agregat nonempty akan mengandung
sh is
iceberg jika kondisi Iceberg cube "count ≥2"?

Jawab:
Th
Analisa:
(*,*,d3,d4,…,d9,d10) berjumlah 2 (dari cell 1 dan 2)
(*,d2,*,d4,…,d9,d10) berjumlah 2
(*,*,d3,d4,…,d9,d10) berjumlah 2
(*,*,*,d4,…,d9,d10) berjumlah 2
Sehingga total 4 ¿ 27 = 512
6. Misalkan Anda memiliki set C dari semua itemset tertutup yang sering
pada set data D, juga sebagai jumlah dukungan untuk setiap set item
yang sering ditutup. Jelaskan algoritma untuk menentukan apakah

dokumen. ©Arif 4|5
itemset X yang diberikan sering atau tidak, dan dukungan X, jika itu
sering terjadi.
m
er as
co
eH w
o.
rs e
ou urc
o
aC s
v i y re
ed d
ar stu
sh is
Th

dokumen. ©Arif 5|5
Powered by TCPDF (www.tcpdf.org)

Tp1 w3 Data Mining

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Tp1 w3 Data Mining

Diunggah oleh

Hak Cipta:

Format Tersedia

Tugas Personal ke-1

(b) Apa mode data? Mengomentari modalitas data (mis., Bimodal,

(d) Dapatkah Anda menemukan (kira-kira) kuartil pertama (Q1) dan

kuartil ketiga (Q3) dari data?

Q1 is the middle value in the first half of the data set.

Maka nilai Q1 adalah 21 dan nilai Q3 adalah 35.

Kesalahan! Tidak ada teks dari gaya yang ditentukan dalam

Sedangkan plot quantil-quantil adalah untuk membandingkan

satu Quantile plot dengan Quantile plot lainnya.

untuk menangani masalah ini.

tidak menggunakan nilai-nilai atribut yang tersisa dalam tuple.

2. Isikan nilai yang hilang secara manual: secara umum pendekatan

3. Gunakan konstan global untuk mengisi nilai yang hilang. Ganti

4. Gunakan ukuran tendensi sentral untuk atribut (misalnya, rata-rata

5. Gunakan atribut berarti atau rata-rata untuk semua sampel milik

Kesalahan! Tidak ada teks dari gaya yang ditentukan dalam

4. Bandingkan secara singkat konsep-konsep berikut. Anda dapat

(a) Skema snowflake, konstelasi fakta, model kueri starnet.

sehingga secara total dimiliki 3¿ ( 210−1) cells dengan overlap

Total cell yang overlap satu kali =3¿ 27 => dihitung 2

iceberg jika kondisi Iceberg cube "count ≥2"?

Kesalahan! Tidak ada teks dari gaya yang ditentukan dalam

Kesalahan! Tidak ada teks dari gaya yang ditentukan dalam

Anda mungkin juga menyukai