MANAJEMEN DATA
Laporan Akhir Data Mining
OLEH:
Dewan Rahadyan 75115026
Dien Amalia 75115027
Dwikeu Novi Asrika 75115028
Terminology
Beberapa terminologi yang digunakan dalam laporan ini antara lain:
a. Data : fiktip
b. Personil : orang yang terlibat dalam uji coba
Keuntungan
Keuntungan yang diperoleh dari uji coba data mining kualitas mobil yang akan
diproduksi ini sebagai berikut:
a. Produsen dapat memperkirakan mobil yang akan diproduksi berdasarkan
kualitas mobil yang telah diklasifikasikan sebelumnya.
b. Produsen dapat membuat standar quality tersendiri dari data histori yang
terdapat pada perusahaan.
1.3. Determine Data Mining Goals
Tujuan Data Mining
Tujuan dari ujicoba data mining ini adalah untuk mengklasifikasikan mobil
berdasarkan kualitasnya kedalam empat kriteria sehingga dapat memprediksi
spesifikasi kualitas mobil selanjutnya.
1.4. Produce Project Plan
Project Plans
Perkiraan jadwal project ini
a.
b.
c.
d.
e.
f.
Business Understanding
:
13 20 Januari 2016 (1 minggu)
Data Understanding : 13 20 Januari 2016 (1 minggu)
Data Preparation
: 20 23 Januari 2016 (3 hari)
Modeling
: 23 31 Januari 2016 (1 minggu)
Evaluation
: 23 31 Januari 2016 (1 minggu)
Deployment
: 23 31 Januari 2016 (1 minggu)
Data awal yang digunakan adalah data spesifikasi mobil sebagai data training
dan data testing. Data spesifikasi adalah dokumen yang berisi komponen yang
pada mobil seperti banyaknya pintu, muatan mobil, ukuran bagasi, keamanan,
biaya pemeliharaan dan biaya pembelian mobil. Jenis data yang digunakan pada
kedua dokumen spesifikasi mobil adalah jenis file excel (ekstensi yang
digunakan adalah .xls) sehingga tidak perlu dilakukan integrasi data dari berbagai
sumber data.
2.2. Describe Data
Berikut ini adalah contoh data training dan data testing yang akan
digunakan dalam melakukan data mining klasifikasi dengan menggunakan
algoritma ID3:
pintu.
: menyatakan jumlah pintu yang dimiliki unit mobil tersebut adalah 3
pintu.
: menyatakan jumlah pintu yang dimiliki unit mobil tersebut adalah 4
pintu.
5 more : menyatakan jumlah pintu yang dimiliki unit mobil tersebut adalah 5
pintu atau lebih.
5) Persons
Merupakan jumlah penumpang dari setiap unit mobil termasuk supir. Atribut
persons memiliki tiga kelompok yaitu:
2
: menyatakan jumlah penumpang dalam satu unit mobil tersebut
4
adalah 2 orang.
: menyatakan jumlah penumpang dalam satu unit mobil tersebut
adalah 4 orang.
more : menyatakan jumlah penumpang dalam satu unit mobil tersebut
adalah lebih dari 4 orang.
6) Luggage
Merupakan besarnya ukuran bagasi dari setiap unit mobil. Atribut luggage
memiliki tiga kelompok yaitu:
Big
: menyatakan ukuran bagasi yang besar.
Med : menyatakan ukuran bagasi yang sedang.
Small : menyatakan ukuran bagasi yang kecil.
7) Safety
Merupakan standar keamanan dari setiap unit mobil. Atribut safety memiliki
tiga kelompok yaitu:
High : menyatakan tingkat keamanan yang tinggi.
Med : menyatakan tingkat keamanan yang sedang.
Low : menyatakan tingkat keamanan yang rendah.
8) Quality
Merupakan kualitas dari setiap unit mobil. Atribut quality memiliki empat
kelompok yaitu:
Vgood : menyatakan kualitas yang sangat baik.
Good : menyatakan kualitas yang baik.
Fair : menyatakan kualitas yang sedang.
Bad : menyatakan kualitas yang kurang baik.
2.3. Verify Data Quality
Informasi yang didapat dari hasil verifikasi yang telah dilakukan yaitu tidak
ditemukannya data yang tidak valid dalam kasus ini.
3. Data Preparation
3.1. Select Data
Data yang akan digunakan pada data mining klasifikasi ini adalah semua
atribut yang ada pada data training yaitu:
1.
2.
3.
4.
5.
6.
7.
Buying
Maint
Doors
Persons
Luggage
Safety
Quality
klasifikasi
menyatakan apakah kualitas mobil tersebut adalah sangat baik, baik, sedang, atau
kurang baik.
3.4. Integrate Data
Tidak terdapat integrasi data dalam kasus ini karena data yang didapatkan sudah
siap digunakan dalam format Microsoft Excel (.xls).
Buying
high
Maint
vhigh
Doors
2
Persons
more
Luggage
med
Safety
med
Quality
Fair
Vgood
Good
Bad
4. Modeling
4.1. Select Modeling Technique
Teknik pemodelan yang dipilih untuk kasus ini adalah Decision Tree (ID3).
ID3 adalah model prediksi yang menggunakan struktur pohon atau struktur
hirarki. Metode ini mengubah data menjadi pohon keputusan dan aturan-aturan
keputusan. Manfaat dari decision tree adalah kemampuan untuk menjabarkan
proses pengambilan keputusan yang kompleks menjadi lebih sederhana sehingga
pengambilan keputusan akan lebih menginterpretasikan solusi dari permasalahan.
Rumus digunakan pada teknik pemodelan ini adalah:
c
Entropy ( S )= pi log 2 p i
i=1
Keterangan:
Entropy : jumlah bit yang dibutuhkan untuk mengekstrak suatu kelas dari
sejumlah data acak pada ruang sampel S.
pi
|s v|
v values( A)
|S|
Entropy ( s v )
Gain
: Atribut
|sv|
BUYI
NG
vhigh
vhigh
vhigh
high
med
low
med
med
med
vhigh
MAIN
T
vhigh
vhigh
low
high
low
med
med
med
low
vhigh
DOOR
S
2
2
5more
2
5more
2
5more
5more
2
2
PERSO
NS
2
2
more
4
more
4
4
more
4
2
LUGGA
GE
med
med
big
small
big
small
med
big
big
small
SAFET
Y
med
high
high
high
med
high
high
high
high
low
QUALI
TY
Bad
Bad
Fair
Fair
good
good
vgood
vgood
vgood
bad
)(
)(
)(
Entropy ( vhigh )=
3
3 1
1
log 2 log 2 =0.81
4
4 4
4
Entropy ( high )=
1
1
log 2 =0
1
1
Entropy ( med )=
1
1 3
3
log 2 log 2 =0.81
4
4 4
4
Entropy ( low )=
1
1
log 2 =0
1
1
b. Gain Maint
Gain ( S , Maint ) =1.97
Entropy ( vhigh)=
3
3
log 2 =0
3
3
Entropy ( high )=
1
1
log 2 =0
1
1
Entropy ( med )=
1
1 2
2
log 2 log 2 =0.92
3
3 3
3
Entropy ( low )=
1
1 1
1 1
1
log 2 log 2 log 2 =1.58
3
3 3
3 3
3
c. Gain Doors
Gain ( S , Doors ) =1.97
Entropy ( 2 )=
3
3 1
1 1
1 1
1
log2 log2 log 2 log 2 =1.79
6
6 6
6 6
6 6
6
Entropy ( 2 )=
1
1 1
1 2
2
log 2 log2 log 2 =1.50
4
4 4
4 4
4
d. Gain Persons
Entropy ( 2 )=
3
3
log2 =0
3
3
Entropy ( 4 )=
1
1 1
1 2
2
log 2 log2 log 2 =1.50
4
4 4
4 4
4
Entropy ( more )=
1
1 1
1 1
1
log 2 log 2 log 2 =1.58
3
3 3
3 3
3
e. Gain Luggage
Gain ( S , Luggage ) =1.97
Entropy ( big )=
1
1 1
1 2
2
log 2 log 2 log 2 =1.50
4
4 4
4 4
4
Entropy ( med )=
2
2 1
1
log 2 log2 =0.92
3
3 3
3
Entropy ( small )=
1
1 1
1 1
1
log 2 log 2 log 2 =1.58
3
3 3
3 3
3
f. Gain Safety
Gain ( S , Luggage ) =1.97
Entropy ( high )=
1
1 2
2 1
1 3
3
log 2 log 2 log 2 log 2 =1.84
7
7 7
7 7
7 7
7
Entropy ( med )=
1
1 1
1
log 2 log 2 =1
2
2 2
2
1
1
log 2 =0
1
1
3. Membandingkan hasil Gain dari setiap atribut dan memilih Gain yang
Entropy ( low )=
paling besar untuk dijadikan root. Gain yang paling besar adalah Gain
Buying dengan nilai 1.32.
Pohon yang terbentuk adalah sebagai berikut:
Keterangan:
Atribut high dan low sudah mendapatkan hasil klasifikasinya karena nilai
entorpy dari high dan low sudah pasti. Sedangkan atribut vhigh dan med
harus dihitung kembali untuk menentukan leaf selanjutnya.
4. Lakukan kembali perhitungan untuk menentukan leaf dari pohon
keputusan tersebut.
Menghitung Entropy (S) berdasarkan atribut Buying (vhigh, med).
Buying, Vhigh
3
3 1
1
Entropy ( vhigh)=
log 2 log 2 =0.81
4
4 4
4
a. Gain Maint
3
1
Gain ( S , Maint ) =0.81 0 + 0 =0.81
4
4
( )(
Entropy ( vhigh)=
3
3
log 2 =0
3
3
Entropy ( low )=
1
1
log 2 =0
1
1
b. Gain Doors
( 34 0)+( 14 0)=0.81
Entropy ( 2 )=
3
3
log2 =0
3
3
Entropy ( 5 more )=
1
1
log 2 =0
1
1
c. Gain Persons
Gain ( S , Persons )=0.81
( 34 0)+( 14 0)=0.81
Entropy ( 2 )=
3
3
log2 =0
3
3
Entropy ( more )=
1
1
log 2 =0
1
1
d. Gain Luggage
Gain ( S , Luggage ) =0.81
Entropy ( small )=
2
2
log 2 =0
2
2
Entropy ( med )=
2
2
log 2 =0
2
2
Entropy ( big )=
1
1
log 2 =0
1
1
e. Gain Safety
Gain ( S , Luggage ) =0.81
Entropy ( high )=
1
1 1
1
log 2 log 2 =1
2
2 2
2
Entropy ( med )=
1
1
log 2 =0
1
1
1
1
log 2 =0
1
1
5. Membandingkan hasil Gain dari setiap atribut dan memilih Gain yang
Entropy ( low )=
paling besar untuk dijadikan leaf selanjutnya. Karena nilai Gain antara
maint, doors, persons dan luggage sama maka diambil nilai gain maint
yaitu 0.81.
Pohon yang terbentuk adalah sebagai berikut:
Keterangan:
Atribut vhigh dan low dari leaf maint sudah mendapatkan hasil klasifikasinya
karena nilai entorpy dari vhigh dan low sudah pasti maka tidak akan dicari
leaf untuk atribut maint.
6. Lakukan kembali perhitungan untuk menentukan leaf dari pohon
keputusan tersebut.
Menghitung Entropy (S) berdasarkan atribut Buying (vhigh, med).
Buying, Med
1
1 3
3
Entropy ( med )=
log 2 log 2 =0.81
4
4 4
4
a. Gain Maint
2
2
Gain ( S , Maint ) =0.81 0 + 0 =0.31
4
4
( )(
Entropy ( med )=
2
2
log 2 =0
2
2
Entropy ( low )=
1
1 1
1
log 2 log 2 =1
2
2 2
2
b. Gain Doors
( 14 0)+( 34 0.92)=0.12
Entropy ( 2 )=
1
1
log 2 =0
1
1
Entropy ( 5 more )=
1
1 2
2
log 2 log 2 =0.92
3
3 3
3
c. Gain Persons
Gain ( S , Persons )=0.81
( 24 1)+( 24 0)=0.31
Entropy ( more )=
1
1 1
1
log 2 log 2 =1
2
2 2
2
Entropy ( 4 )=
2
2
log 2 =0
2
2
d. Gain Luggage
( 34 0.92)+( 14 0)=0.12
Entropy ( big )=
1
1 2
2
log 2 log 2 =0.92
3
3 3
3
Entropy ( med )=
1
1
log 2 =0
1
1
e. Gain Safety
Gain ( S , safety )=0.81
( 34 0)+( 14 0)=0.81
Entropy( high)=
3
3
log 2 =0
3
3
1
1
log 2 =0
1
1
7. Membandingkan hasil Gain dari setiap atribut dan memilih Gain yang
Entropy ( med )=
paling besar untuk dijadikan leaf selanjutnya. Nilai Gain yang terbesar
adalah safety maka safety menjadi leaf selanjutnya dengan nilai 0.81.
Pohon yang terbentuk adalah sebagai berikut:
8. Karena nilai sudah ditemukan semua maka pohon keputusan telah selesai.
4.2. Generate Test Design
2. Membuka File yang berektensi .csv atau .arff untuk dilakukan training
data.
5. Evaluation
5.1 Evaluate Result
Proses modelling dilakukan dengan metode klasifikasi dengan algoritma
Decision Tree (ID3). Dengan menggunakan 1211 training data, proses modelling
menghasilkan hasil sebagai berikut :
Table 3 Tingkat Akurasi Model ID3
Dari hasil pengujian akurasi dari metode uji training set mencapai 100%, namun
untuk pengujian akurasi dari metode uji cross validation mencapai 89,59%. Dapat
disimpulkan bahwa pengujian menggunakan training set lebih akurat.
5.2 Review Process
Proses data mining klasifikasi kualitas mobil berdasarkan spesifikasinya
dilakukan dalam langkah-langkah berikut :