Anda di halaman 1dari 8

DATA MINING

Analiysis Data Set

Gede Thadeo Angga Kusuma


1315051003
7C

JURUSAN PENDIDIKAN TEKNIK


INFORMATIKA
FAKULTAS TEKNIK DAN KEJURUAN

UNIVERSITAS PENDIDIKAN GANESHA


SINGARAJA
2016
Soal:
1. Lakukan eksperimen mengikuti buku Matthew North, Data Mining for the
Masses 2012, Chapter 3 Data Preparation, pp. 46 -50 (Data Reduction).
2. Lakukan eksperimen mengikuti buku Matthew North, Data Mining for the
Massess, 2012, Chapter 8 Estimation, pp. 127-140 (Estimation). Analisis
metode preprosessing apa saja yang digunakan dan mengapa perlu dilakukan
pada dataset tersebut!

Jawab:
1. Dalam proses data preparation terdapat beberapa tahapan, seperti data
cleaning, data integration, data reduction, data transformation. Pada bagian
data set yang telah diberikan terdapat beberapa data yang hilang (missing
data). Pada bagian record 3 sampai dengan 5 terdapat beberapa atribut yang
kosong yang artinya nilai dari atribut itu tidak diketahui. Untuk
menyelesaikan data yang kosong (missing data) terdapat tiga cara, yaitu:

Ignore the tuple, diamana record yang mempunyai data kosong dalam atribut,
record tersebut dihilangkan/ di-ignore. Hal ini bias dilakukan ketika data
yang dihapus tidak mempengaruhi data yang lainnya(data dapat dipercaya
dan akurat).

Fill in the missing value, diamana admin dapat mengisi data yang kosong
pada atribut dengan nilai tertentu.

Fill in it automatically, diama admin dapat mengisi data dengan niliai yang
sering muncul pada atribut, niliai rata-rata dari atribut, atau mengisi nilai
dengan suatu konstanta.

a. Handling Missing Data


Pada aplikasi RapidMiner, terdapat fungsi untuk menangani missing
data. Terlebih dahulu buat repository sebagai penyimpanan basis
datanya. Kmudian import data berekstensi CSV pada rapidminer, seperti
pada gambar dibawah.

Pada gambar tersebut terdapat 13 value yang kosong dengan 7 record. Ada
beberapa cara untuk menangani data yang hilang atau missing pada tuple
yaitu
1. Mengghilangkan penggunaan tuple yang tidak dilengkap, seperti pada tuple
Other_Social_Network dapat di abaikan untuk tidak digunakan dalam proses data
mining. Untuk data yang besar mungkin cara ini tidak berpengaruh terhadap model

data mining yang dihasilkannya. Akan tetepi lain hasilnya jika data-data yang
dihapus ini memiliki potensi yang sangat besar terhadapa output yang diharapkan.
2. Mengganti data yang hilang atau missing value pada tuple dengan mengganti
value dengan value sering muncu. Caranya yaitu Pada bagian desain perspective,
gunakan replace missing value untuk mengisi data yang kosong. Pada bagian ini,
untuk mengisi data yang kosong menggunkan nilai yang sering muncul. Misalnya
pada bagian attribute other_social_network digunakan value linkedln untuk
mengisi 7 data yang kosong.

Setelah mingisi data pada other_social_network , dilanjutkan dengan atribut


lainnya yang valuenya masih kosong sehingga tampilannya seperti pada
gambar bawah.

b. Data Reduction
Selanjutnya dilakukan filter pada atribut data set, dengan menggunkan
filter examples pada proses tersebut. Hal ini hamper sama dengan
replace missing values. Pada filter examples dimana condition class diisi
dengan attribute_value_filter dan attributnya adalah Online Shoping.
Pada hal ini, dikarenakan nilainya sudah diisi semua dengan replace
missing value, maka data reduction ini tidak diperlukan.
c. Handling Inconsistent Data
Pada bagian data set, terdapat data yang tidak konsisten diamana valuenya (value choice) yang tidak diharapkan muncul pada basisdata (tidak
konsisten). Untuk menanggulangi permasalahan tersebut diperlukan
yang namanya fungsi replace. Pada attribute tersebut hanya terdapat dua
pilihan, yaitu N dan Y, sehingga nilai 99 akan direplace dengan
salah satu nilai tersebut. Sehingga value yang tadinya tidak konsisten
menjadi konsisten sperti pada gambar dibawah

2. Pada bagian chapter 8, yang diperlukan adalah data set dari chapter 4 dan 8.
Tentunya pada data set tersebut akan menggunakan linier regression. Pada
data set chapter 8 diubah namanya menjadi score, sedangkan pada data set
chapter 4 diubah namanya menjadi training. Pada range data set score
terutama pada atribut Ave_Age berbeda dengan data set training. Berikut
dilihat pada gambar dibawah:

Gambar 2.1 data set score/chapter 8

Gambar 2.2 data set training/chapter 4


Disamping itu terdapat atribut Heating_Oil pada data set score dimana
target role akan dibuh menjadi label dengan fungsi set role.Hal ini pada
linear regression memerlukan yang namanya label. Berikut adalah
gamabarnya.

Setelah itu, maka tambahkan fungsi linera modeling guna untuk


menghasilkan nilai linear regression pertama. Berikut adalah gambar dari
penambahan modeling pada desain perspective. Berikut adalah hasil dari
modeling.

Setelah itu tambahkan fungsi aggregate pada possesnya untuk mengetahui


nilai sum dan average dari atribut prediction(Heating_Oil). Seperti pada
gambar dibawah.

Anda mungkin juga menyukai