Jawab:
1. Dalam proses data preparation terdapat beberapa tahapan, seperti data
cleaning, data integration, data reduction, data transformation. Pada bagian
data set yang telah diberikan terdapat beberapa data yang hilang (missing
data). Pada bagian record 3 sampai dengan 5 terdapat beberapa atribut yang
kosong yang artinya nilai dari atribut itu tidak diketahui. Untuk
menyelesaikan data yang kosong (missing data) terdapat tiga cara, yaitu:
Ignore the tuple, diamana record yang mempunyai data kosong dalam atribut,
record tersebut dihilangkan/ di-ignore. Hal ini bias dilakukan ketika data
yang dihapus tidak mempengaruhi data yang lainnya(data dapat dipercaya
dan akurat).
Fill in the missing value, diamana admin dapat mengisi data yang kosong
pada atribut dengan nilai tertentu.
Fill in it automatically, diama admin dapat mengisi data dengan niliai yang
sering muncul pada atribut, niliai rata-rata dari atribut, atau mengisi nilai
dengan suatu konstanta.
Pada gambar tersebut terdapat 13 value yang kosong dengan 7 record. Ada
beberapa cara untuk menangani data yang hilang atau missing pada tuple
yaitu
1. Mengghilangkan penggunaan tuple yang tidak dilengkap, seperti pada tuple
Other_Social_Network dapat di abaikan untuk tidak digunakan dalam proses data
mining. Untuk data yang besar mungkin cara ini tidak berpengaruh terhadap model
data mining yang dihasilkannya. Akan tetepi lain hasilnya jika data-data yang
dihapus ini memiliki potensi yang sangat besar terhadapa output yang diharapkan.
2. Mengganti data yang hilang atau missing value pada tuple dengan mengganti
value dengan value sering muncu. Caranya yaitu Pada bagian desain perspective,
gunakan replace missing value untuk mengisi data yang kosong. Pada bagian ini,
untuk mengisi data yang kosong menggunkan nilai yang sering muncul. Misalnya
pada bagian attribute other_social_network digunakan value linkedln untuk
mengisi 7 data yang kosong.
b. Data Reduction
Selanjutnya dilakukan filter pada atribut data set, dengan menggunkan
filter examples pada proses tersebut. Hal ini hamper sama dengan
replace missing values. Pada filter examples dimana condition class diisi
dengan attribute_value_filter dan attributnya adalah Online Shoping.
Pada hal ini, dikarenakan nilainya sudah diisi semua dengan replace
missing value, maka data reduction ini tidak diperlukan.
c. Handling Inconsistent Data
Pada bagian data set, terdapat data yang tidak konsisten diamana valuenya (value choice) yang tidak diharapkan muncul pada basisdata (tidak
konsisten). Untuk menanggulangi permasalahan tersebut diperlukan
yang namanya fungsi replace. Pada attribute tersebut hanya terdapat dua
pilihan, yaitu N dan Y, sehingga nilai 99 akan direplace dengan
salah satu nilai tersebut. Sehingga value yang tadinya tidak konsisten
menjadi konsisten sperti pada gambar dibawah
2. Pada bagian chapter 8, yang diperlukan adalah data set dari chapter 4 dan 8.
Tentunya pada data set tersebut akan menggunakan linier regression. Pada
data set chapter 8 diubah namanya menjadi score, sedangkan pada data set
chapter 4 diubah namanya menjadi training. Pada range data set score
terutama pada atribut Ave_Age berbeda dengan data set training. Berikut
dilihat pada gambar dibawah: