(Minggu 3 / Sesi 5)
1. Apakah yang dimaksud dengan data mining?
Jawab:
Data mining adalah disiplin ilmu dari data science yang melibatkan
analisa dan eksplorasi dari data yang besar untuk mengetahui pola dan
aturan yang berguna untuk memprediksi sesuatu di masa yang akan
dating. Teknik data mining digunakan untuk membuat model Machine
Learning yang digunakan untuk aplikasi AI modern seperti algoritma
search engine dan recommendation systems.
2. Misalkan data untuk analisis termasuk usia atribut. Nilai usia untuk
m
data tupel adalah (dalam urutan meningkat) 13, 15, 16, 16, 19, 20, 21,
er as
22, 22, 22, 25, 25, 25, 25, 30, 33, 33, 35, 35, 35, 35, 36, 40, 45, 46, 52,
70. Berdasarkan data tersebut:
co
eH w
(a) Apa yang dimaksud dengan data? Apa mediannya?
Jawab:
o.
rs e
Data adalah sekumpulan informasi atau juga keterangan-
ou urc
keterangan dari suatu hal yang diperoleh dengan melalui
pengamatan atau juga pencarian ke sumber-sumber tertentu.
Median:
o
aC s
v i y re
ed d
ar stu
27+1
Maka Median untuk data tersebut adalah x ( ) = x 14
2
= 25.
sh is
Th
This study source was downloaded by 100000823284023 from CourseHero.com on 06-29-2021 22:55:45 GMT -05:00
ISYS6281 – Data Mining
https://www.coursehero.com/file/69575032/TP1-W3-DATA-MININGdocx/
Jika dilihat dari histogram tersebut maka mode data tersebut
adalah 25 dan 35(bimodal).
m
er as
(c) Apa itu midrange data?
co
Midrange data adalah mean dari perhitungan nilai terkecil dan
eH w
terbesar dari suatu set data.
o.
rs e
ou urc
Maka midrange dari data set di atas adalah (70+13)/2 = 41,5
o
i(n+1)
Qi=
4
Q1 = 1(27+1)/4 = 7
sh is
Q3= 3(27+1)/4 = 21
Th
m
er as
persebaran data yang brevariasi. Quantile terdiri dari Quantile
co
0,25, Quantile 0,50 laulu Quantile 0,75. Quantil 0,25
eH w
menggambarkan kuartil Q1, Quantile 0,50 menggambarkan
o.
kuartil Q2, Quantile 0,75 menggambarkan kuartil Q3. Selain itu
rs e
ou urc
ada juga Quantile 0,00 yang menggambarkan data min(terkecil)
dan juga Quantile 1,00 yang menggambarkan data
max(terbesar).
o
3. Dalam data dunia nyata, tupel dengan nilai yang hilang untuk
beberapa atribut adalah hal biasa terjadi. Jelaskan berbagai metode
ed d
1. Abaikan tuple: dilakukan ketika label kelas hilang. Metode ini sangat
tidak efektif kecuali tuple berisi beberapa atribut dengan nilai-nilai
yang hilang. Dengan mengabaikan tuple, memungkinkan untuk
sh is
5. Asumsikan bahwa kuboid base 10-D hanya mengandung tiga sel base:
(1) .a1, d2, d3, d4,:::, d9, d10 /, (2) .d1, b2, d3, d4,:::, d9, d10 /, dan (3)
m
.d1, d2, c3, d4,:::, d9, d10 /, di mana a1 6D d1, b2 6D d2, dan c3 6D
er as
d3. Ukuran cube adalah count().
co
(a) Berapa banyak nonempty cube yang akan diisi data penuh?
eH w
Jawab:
o.
Nonempty cuboids = 210 = 1024
rs e
(b) Berapa banyak sel agregate nonempty (mis., nonbase) yang
ou urc
akan diisi penuh?
Jawab:
Tiap cell menghasilkan 210−1 non-empty aggregated cells,
o
dibuang.
v i y re
= 3¿ ( 8 ¿ 27 )−5¿ 27 −3
ar stu
¿
= 3 −1024−640−3
= 2429
(c) Berapa banyak sel agregat nonempty akan mengandung
sh is
Analisa:
(*,*,d3,d4,…,d9,d10) berjumlah 2 (dari cell 1 dan 2)
(*,d2,*,d4,…,d9,d10) berjumlah 2
(*,*,d3,d4,…,d9,d10) berjumlah 2
(*,*,*,d4,…,d9,d10) berjumlah 2
Sehingga total 4 ¿ 27 = 512
6. Misalkan Anda memiliki set C dari semua itemset tertutup yang sering
pada set data D, juga sebagai jumlah dukungan untuk setiap set item
yang sering ditutup. Jelaskan algoritma untuk menentukan apakah
m
er as
co
eH w
o.
rs e
ou urc
o
aC s
v i y re
ed d
ar stu
sh is
Th