Anda di halaman 1dari 5

Tugas Personal ke-1

(Minggu 3 / Sesi 5)
1. Apakah yang dimaksud dengan data mining?

Jawab:

Data mining adalah disiplin ilmu dari data science yang melibatkan
analisa dan eksplorasi dari data yang besar untuk mengetahui pola dan
aturan yang berguna untuk memprediksi sesuatu di masa yang akan
dating. Teknik data mining digunakan untuk membuat model Machine
Learning yang digunakan untuk aplikasi AI modern seperti algoritma
search engine dan recommendation systems.

2. Misalkan data untuk analisis termasuk usia atribut. Nilai usia untuk

m
data tupel adalah (dalam urutan meningkat) 13, 15, 16, 16, 19, 20, 21,

er as
22, 22, 22, 25, 25, 25, 25, 30, 33, 33, 35, 35, 35, 35, 36, 40, 45, 46, 52,
70. Berdasarkan data tersebut:

co
eH w
(a) Apa yang dimaksud dengan data? Apa mediannya?
Jawab:

o.
rs e
Data adalah sekumpulan informasi atau juga keterangan-
ou urc
keterangan dari suatu hal yang diperoleh dengan melalui
pengamatan atau juga pencarian ke sumber-sumber tertentu.
Median:
o
aC s
v i y re
ed d
ar stu

27+1
Maka Median untuk data tersebut adalah x ( ) = x 14
2
= 25.
sh is
Th

(b) Apa mode data? Mengomentari modalitas data (mis., Bimodal,


trimodal, dll.).
Mode data adalah nilai yang paling sering muncul dalam suatu
set observasi.

This study source was downloaded by 100000823284023 from CourseHero.com on 06-29-2021 22:55:45 GMT -05:00
ISYS6281 – Data Mining
https://www.coursehero.com/file/69575032/TP1-W3-DATA-MININGdocx/
Jika dilihat dari histogram tersebut maka mode data tersebut
adalah 25 dan 35(bimodal).

m
er as
(c) Apa itu midrange data?

co
Midrange data adalah mean dari perhitungan nilai terkecil dan

eH w
terbesar dari suatu set data.

o.
rs e
ou urc
Maka midrange dari data set di atas adalah (70+13)/2 = 41,5
o

(d) Dapatkah Anda menemukan (kira-kira) kuartil pertama (Q1) dan


aC s

kuartil ketiga (Q3) dari data?


v i y re

Q1 is the middle value in the first half of the data set.


Q3 is the middle value in the second half of the data set.
Karena data berjumlah ganjil maka menggunakan rumus:
ed d
ar stu

i(n+1)
Qi=
4
Q1 = 1(27+1)/4 = 7
sh is

Q3= 3(27+1)/4 = 21
Th

Maka nilai Q1 adalah 21 dan nilai Q3 adalah 35.


(e) Berikan ringkasan lima angka dari data.
Minimum: 13
Q1: 21
Median: 25
Q3; 35
Maximum: 70
(f) Tunjukkan plot kotak data.

Kesalahan! Tidak ada teks dari gaya yang ditentukan dalam


This study source was downloaded by 100000823284023 from CourseHero.com on 06-29-2021 22:55:45 GMT -05:00
dokumen. ©Arif 2|5
https://www.coursehero.com/file/69575032/TP1-W3-DATA-MININGdocx/
(g) Bagaimana plot kuantil-kuantil berbeda dari plot kuantil?
Plot quantil adalah suatu cara mudah untuk mendeskripsikan

m
er as
persebaran data yang brevariasi. Quantile terdiri dari Quantile

co
0,25, Quantile 0,50 laulu Quantile 0,75. Quantil 0,25

eH w
menggambarkan kuartil Q1, Quantile 0,50 menggambarkan

o.
kuartil Q2, Quantile 0,75 menggambarkan kuartil Q3. Selain itu
rs e
ou urc
ada juga Quantile 0,00 yang menggambarkan data min(terkecil)
dan juga Quantile 1,00 yang menggambarkan data
max(terbesar).
o

Sedangkan plot quantil-quantil adalah untuk membandingkan


aC s

satu Quantile plot dengan Quantile plot lainnya.


v i y re

3. Dalam data dunia nyata, tupel dengan nilai yang hilang untuk
beberapa atribut adalah hal biasa terjadi. Jelaskan berbagai metode
ed d

untuk menangani masalah ini.


ar stu

1. Abaikan tuple: dilakukan ketika label kelas hilang. Metode ini sangat
tidak efektif kecuali tuple berisi beberapa atribut dengan nilai-nilai
yang hilang. Dengan mengabaikan tuple, memungkinkan untuk
sh is

tidak menggunakan nilai-nilai atribut yang tersisa dalam tuple.


Th

2. Isikan nilai yang hilang secara manual: secara umum pendekatan


ini memakan waktu dan mungkin tidak layak diberi dataset yang
besar dengan nilai-nilai yang hilang.

3. Gunakan konstan global untuk mengisi nilai yang hilang. Ganti


semua nilai atribut yang hilang dengan konstanta yang sama
seperti label “unknown”.

4. Gunakan ukuran tendensi sentral untuk atribut (misalnya, rata-rata


atau median) untuk mengisi nilai yang hilang.

5. Gunakan atribut berarti atau rata-rata untuk semua sampel milik


kelas yang sama seperti tuple yang diberikan.

Kesalahan! Tidak ada teks dari gaya yang ditentukan dalam


This study source was downloaded by 100000823284023 from CourseHero.com on 06-29-2021 22:55:45 GMT -05:00
dokumen. ©Arif 3|5
https://www.coursehero.com/file/69575032/TP1-W3-DATA-MININGdocx/
6. Gunakan nilai yang paling mungkin untuk mengisi nilai yang hilang:
dapat ditentukan dengan regresi, alat berbasis inferensi
menggunakan formalism Bayesian atau decision tree.

4. Bandingkan secara singkat konsep-konsep berikut. Anda dapat


menggunakan contoh untuk menjelaskan poin.

(a) Skema snowflake, konstelasi fakta, model kueri starnet.


(b) Data cleaning, transformasi data, refresh
(c) Discovery-driven cube, multifeatured cube, virtual data
warehouse.

5. Asumsikan bahwa kuboid base 10-D hanya mengandung tiga sel base:
(1) .a1, d2, d3, d4,:::, d9, d10 /, (2) .d1, b2, d3, d4,:::, d9, d10 /, dan (3)

m
.d1, d2, c3, d4,:::, d9, d10 /, di mana a1 6D d1, b2 6D d2, dan c3 6D

er as
d3. Ukuran cube adalah count().

co
(a) Berapa banyak nonempty cube yang akan diisi data penuh?

eH w
Jawab:

o.
Nonempty cuboids = 210 = 1024
rs e
(b) Berapa banyak sel agregate nonempty (mis., nonbase) yang
ou urc
akan diisi penuh?
Jawab:
Tiap cell menghasilkan 210−1 non-empty aggregated cells,
o

sehingga secara total dimiliki 3¿ ( 210−1) cells dengan overlap


aC s

dibuang.
v i y re

Total cell yang overlap satu kali =3¿ 27 => dihitung 2


Total cell yang overlap dua kali = 1¿ 27 => dihitung 3
Jadi cell yang overlap yang harus dihapus
ed d

= 3¿ ( 8 ¿ 27 )−5¿ 27 −3
ar stu

¿
= 3 −1024−640−3
= 2429
(c) Berapa banyak sel agregat nonempty akan mengandung
sh is

iceberg jika kondisi Iceberg cube "count ≥2"?


Jawab:
Th

Analisa:
(*,*,d3,d4,…,d9,d10) berjumlah 2 (dari cell 1 dan 2)
(*,d2,*,d4,…,d9,d10) berjumlah 2
(*,*,d3,d4,…,d9,d10) berjumlah 2
(*,*,*,d4,…,d9,d10) berjumlah 2
Sehingga total 4 ¿ 27 = 512

6. Misalkan Anda memiliki set C dari semua itemset tertutup yang sering
pada set data D, juga sebagai jumlah dukungan untuk setiap set item
yang sering ditutup. Jelaskan algoritma untuk menentukan apakah

Kesalahan! Tidak ada teks dari gaya yang ditentukan dalam


This study source was downloaded by 100000823284023 from CourseHero.com on 06-29-2021 22:55:45 GMT -05:00
dokumen. ©Arif 4|5
https://www.coursehero.com/file/69575032/TP1-W3-DATA-MININGdocx/
itemset X yang diberikan sering atau tidak, dan dukungan X, jika itu
sering terjadi.

m
er as
co
eH w
o.
rs e
ou urc
o
aC s
v i y re
ed d
ar stu
sh is
Th

Kesalahan! Tidak ada teks dari gaya yang ditentukan dalam


This study source was downloaded by 100000823284023 from CourseHero.com on 06-29-2021 22:55:45 GMT -05:00
dokumen. ©Arif 5|5
https://www.coursehero.com/file/69575032/TP1-W3-DATA-MININGdocx/
Powered by TCPDF (www.tcpdf.org)

Anda mungkin juga menyukai