Gede Thadeo Angga Kusuma

DATA MINING
Analiysis Data Set
Gede Thadeo Angga Kusuma

1315051003
7C
JURUSAN PENDIDIKAN TEKNIK

INFORMATIKA
FAKULTAS TEKNIK DAN KEJURUAN
UNIVERSITAS PENDIDIKAN GANESHA

SINGARAJA
2016
Soal:
1. Lakukan eksperimen mengikuti buku Matthew North, Data Mining for the
Masses 2012, Chapter 3 Data Preparation, pp. 46 -50 (Data Reduction).
2. Lakukan eksperimen mengikuti buku Matthew North, Data Mining for the
Massess, 2012, Chapter 8 Estimation, pp. 127-140 (Estimation). Analisis
metode preprosessing apa saja yang digunakan dan mengapa perlu dilakukan
pada dataset tersebut!
Jawab:
1. Dalam proses data preparation terdapat beberapa tahapan, seperti data
cleaning, data integration, data reduction, data transformation. Pada bagian
data set yang telah diberikan terdapat beberapa data yang hilang (missing
data). Pada bagian record 3 sampai dengan 5 terdapat beberapa atribut yang
kosong yang artinya nilai dari atribut itu tidak diketahui. Untuk
menyelesaikan data yang kosong (missing data) terdapat tiga cara, yaitu:
Ignore the tuple, diamana record yang mempunyai data kosong dalam atribut,
record tersebut dihilangkan/ di-ignore. Hal ini bias dilakukan ketika data
yang dihapus tidak mempengaruhi data yang lainnya(data dapat dipercaya
dan akurat).
Fill in the missing value, diamana admin dapat mengisi data yang kosong
pada atribut dengan nilai tertentu.
Fill in it automatically, diama admin dapat mengisi data dengan niliai yang
sering muncul pada atribut, niliai rata-rata dari atribut, atau mengisi nilai
dengan suatu konstanta.
a. Handling Missing Data

Pada aplikasi RapidMiner, terdapat fungsi untuk menangani missing
data. Terlebih dahulu buat repository sebagai penyimpanan basis
datanya. Kmudian import data berekstensi CSV pada rapidminer, seperti
pada gambar dibawah.
Pada gambar tersebut terdapat 13 value yang kosong dengan 7 record. Ada
beberapa cara untuk menangani data yang hilang atau missing pada tuple
yaitu
1. Mengghilangkan penggunaan tuple yang tidak dilengkap, seperti pada tuple
Other_Social_Network dapat di abaikan untuk tidak digunakan dalam proses data
mining. Untuk data yang besar mungkin cara ini tidak berpengaruh terhadap model
data mining yang dihasilkannya. Akan tetepi lain hasilnya jika data-data yang
dihapus ini memiliki potensi yang sangat besar terhadapa output yang diharapkan.
2. Mengganti data yang hilang atau missing value pada tuple dengan mengganti
value dengan value sering muncu. Caranya yaitu Pada bagian desain perspective,
gunakan replace missing value untuk mengisi data yang kosong. Pada bagian ini,
untuk mengisi data yang kosong menggunkan nilai yang sering muncul. Misalnya
pada bagian attribute other_social_network digunakan value linkedln untuk
mengisi 7 data yang kosong.
Setelah mingisi data pada other_social_network , dilanjutkan dengan atribut

lainnya yang valuenya masih kosong sehingga tampilannya seperti pada
gambar bawah.
b. Data Reduction
Selanjutnya dilakukan filter pada atribut data set, dengan menggunkan
filter examples pada proses tersebut. Hal ini hamper sama dengan
replace missing values. Pada filter examples dimana condition class diisi
dengan attribute_value_filter dan attributnya adalah Online Shoping.
Pada hal ini, dikarenakan nilainya sudah diisi semua dengan replace
missing value, maka data reduction ini tidak diperlukan.
c. Handling Inconsistent Data
Pada bagian data set, terdapat data yang tidak konsisten diamana valuenya (value choice) yang tidak diharapkan muncul pada basisdata (tidak
konsisten). Untuk menanggulangi permasalahan tersebut diperlukan
yang namanya fungsi replace. Pada attribute tersebut hanya terdapat dua
pilihan, yaitu N dan Y, sehingga nilai 99 akan direplace dengan
salah satu nilai tersebut. Sehingga value yang tadinya tidak konsisten
menjadi konsisten sperti pada gambar dibawah
2. Pada bagian chapter 8, yang diperlukan adalah data set dari chapter 4 dan 8.
Tentunya pada data set tersebut akan menggunakan linier regression. Pada
data set chapter 8 diubah namanya menjadi score, sedangkan pada data set
chapter 4 diubah namanya menjadi training. Pada range data set score
terutama pada atribut Ave_Age berbeda dengan data set training. Berikut
dilihat pada gambar dibawah:
Gambar 2.1 data set score/chapter 8
Gambar 2.2 data set training/chapter 4

Disamping itu terdapat atribut Heating_Oil pada data set score dimana
target role akan dibuh menjadi label dengan fungsi set role.Hal ini pada
linear regression memerlukan yang namanya label. Berikut adalah
gamabarnya.
Setelah itu, maka tambahkan fungsi linera modeling guna untuk

menghasilkan nilai linear regression pertama. Berikut adalah gambar dari
penambahan modeling pada desain perspective. Berikut adalah hasil dari
modeling.
Setelah itu tambahkan fungsi aggregate pada possesnya untuk mengetahui

nilai sum dan average dari atribut prediction(Heating_Oil). Seperti pada
gambar dibawah.

Gede Thadeo Angga Kusuma - Tugas 3

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Gede Thadeo Angga Kusuma - Tugas 3

Diunggah oleh

Hak Cipta:

Format Tersedia

DATA MINING

Analiysis Data Set

JURUSAN PENDIDIKAN TEKNIK

UNIVERSITAS PENDIDIKAN GANESHA

a. Handling Missing Data

Setelah mingisi data pada other_social_network , dilanjutkan dengan atribut

Gambar 2.1 data set score/chapter 8

Gambar 2.2 data set training/chapter 4

Setelah itu, maka tambahkan fungsi linera modeling guna untuk

Setelah itu tambahkan fungsi aggregate pada possesnya untuk mengetahui

Anda mungkin juga menyukai