Contoh Implementasi Data Mining

TUGAS MATA KULIAH
MANAJEMEN DATA
Laporan Akhir Data Mining
Diajukan sebagai salah satu tugas mata kuliah

Manajemen Data
OLEH:
Dewan Rahadyan 75115026
Dien Amalia 75115027
Dwikeu Novi Asrika 75115028
UNIVERSITAS KOMPUTER INDONESIA BANDUNG

2016
Laporan Akhir Data Mining

1. Business Understanding
1.1. Determine Business Objectives
Latar Belakang
Dalam industri kendaraan bermotor terutama mobil, ada berbagai hal yang
dilakukan untuk menjaga kualitas produk. Salahsatunya adalah dengan kebijakan
klasifikasi produk. Dengan klasifikasi, maka perusahaan akan mampu
menentukan, jika perusahaan membuat sebuah produk dengan spesifikasi tertentu,
apakah perusahaan akan mendapatkan produk dengan kualitas A atau B, atau
bahkan C atau D. Sebagai perusahan yang bergerak di bidang produksi kendaraan
bermotor yaitu mobil, perusahaan X sudah sepatut melakukan kebijakan ini.
Dengan berbagai hal yang kami sebutkan sebelumnya, maka dari itu latar
belakang penelitian kami adalah untuk membatu perusahaan X untuk
mengklasifikasikan produk mobil yang diilikinya sesuai dengan standar
spesisfikasi mobil.
Kami akan membantu perusahaan X untuk menentukan klasifikasi kualitas
produk beradasarkan 4 kategori, yaitu vgood (sangat baik), good (baik), fair
(kurang baik), dan bad (tidak baik). Dengan memanfaatkan enam kriteria standar
mobil yaitu buying, maint, doors, persons, luggage, dan safety kita akan mencoba
membuat sebuah standar kriteria untuk menghasilkan 4 tipe produk yaitu very
good, good, fair, dan bad.
Harapan kami, dengan penelitian ini, perusahaan X dapat menemukan cara
mengklasifikasikan produknya dengan baik, sehingga kedepan, jika perusahaan
ingin meningkatkan dan memproduksi produk berdasarkan tingkatan dan kualitas
tertentu, perusahaan dapat menemukan ktiteria yang baik sesuai keinginan.
Karena pada kenyataannya, tidak semua spesifikasi produk akan menghasilkan
kualitas yang sama. Setiap kombinasi spesifikasi produk pasti akan menghasilkan
kualitas yang berbeda. Semoga penelitian ini, dapat membuka pengetahuan baru
bagi perusahaan dalam mengembangkan produk.
1.2. Assess Situation

Inventory resources
Sumber daya yang terlibat dalam project data mining ini antara lain :
a. Personel data mining personil sebanyak 3 orang
b. Computing resources komputer/laptop
c. Software WEKA, Microsoft Excel 2013
Requirement, asumsi dan batasan
Ada beberapa asumsi yang diterapkan pada project data mining ini yaitu :
a. Data yang digunakan adalah data dummy dari suatu perusahaan
mobil
b. Jumlah data training yang digunakan sekitar 1211 data dan jumlah
data testing sekitar 518 data dari data yang sama.
c. Jumlah data testing yang dilakukan secara manual sebanyak 10
data.
d. Metode data mining yang digunakan adalah metode klasifikasi
dengan algoritma Iterative Dichotomizer Three (ID3).
e. Jika nilai Gain dari suatu atribut bernilai sama, maka atribut yang
diambil adalah atribut yang paling awal muncul.
f. Hasil dari data mining adalah untuk mengklasifikasikan kualitas
mobil yang akan diproduksi sesuai dengan standar spesifikasi
mobil.
g. Ada empat jenis kualitas mobil, diantaranya vgood (sangat baik),
good (baik), fair (sedang), bad (kurang baik).
h. Dalam uji coba ini hanya menampilkan pohon keputusan dan tidak
dijelaskan proses pengambilan keputusan.
Resiko dan Kemungkinan
Resiko yang mungkin terjadi dalam uji coba ini adalah ketidaktepatan hasil
klasifikasi. Hal ini disebabkan oleh data yang mungkin tidak cocok dengan
metode yang di implementasikan. Untuk menangani hal tersebut maka langkah
yang dibutuhkan adalah:
a. Menambah jumlah data training.
b. Mencari metode alternatif untuk kasus klasifikasi.
Terminology
Beberapa terminologi yang digunakan dalam laporan ini antara lain:
a. Data : fiktip
b. Personil : orang yang terlibat dalam uji coba
Keuntungan
Keuntungan yang diperoleh dari uji coba data mining kualitas mobil yang akan
diproduksi ini sebagai berikut:
a. Produsen dapat memperkirakan mobil yang akan diproduksi berdasarkan
kualitas mobil yang telah diklasifikasikan sebelumnya.
b. Produsen dapat membuat standar quality tersendiri dari data histori yang
terdapat pada perusahaan.
1.3. Determine Data Mining Goals
Tujuan Data Mining
Tujuan dari ujicoba data mining ini adalah untuk mengklasifikasikan mobil
berdasarkan kualitasnya kedalam empat kriteria sehingga dapat memprediksi
spesifikasi kualitas mobil selanjutnya.
1.4. Produce Project Plan
Project Plans
Perkiraan jadwal project ini
a.
b.
c.
d.
e.
f.
Business Understanding
:
13 20 Januari 2016 (1 minggu)
Data Understanding : 13 20 Januari 2016 (1 minggu)
Data Preparation
: 20 23 Januari 2016 (3 hari)
Modeling
: 23 31 Januari 2016 (1 minggu)
Evaluation
Deployment
Perkiraan tool dan teknik

Tool yang akan dipergunakan pada uji coba ini adalah WEKA versi 3.6.13.
Algoritma yang digunakan pada metode klasifikasi ini adalah ID3 karena dari
data training yang ada jumlah data dari jenis atribut klasifikasinya tidak seimbang
sehingga metode ID3 cocok digunakan untuk kasus penentuan kualitas mobil.
2. Data Understanding
2.1. Collect Initial Data
Data awal yang digunakan adalah data spesifikasi mobil sebagai data training
dan data testing. Data spesifikasi adalah dokumen yang berisi komponen yang
pada mobil seperti banyaknya pintu, muatan mobil, ukuran bagasi, keamanan,
biaya pemeliharaan dan biaya pembelian mobil. Jenis data yang digunakan pada
kedua dokumen spesifikasi mobil adalah jenis file excel (ekstensi yang
digunakan adalah .xls) sehingga tidak perlu dilakukan integrasi data dari berbagai
sumber data.
2.2. Describe Data
Berikut ini adalah contoh data training dan data testing yang akan
digunakan dalam melakukan data mining klasifikasi dengan menggunakan
algoritma ID3:
Gambar 1 Data Spesifikasi Mobil
Penjelasan isi dokumen:

Atribut yang terdapat pada dokumen ini sebagai berikut:
1) No
Menyatakan nomor urutan dari data.
2) Buying
Merupakan biaya pembelian unit mobil. Atribut buying memiliki empat
kelompok yaitu:
Vhigh : menyatakan biaya pembelian yang sangat tinggi.
High : menyatakan biaya pembelian yang tinggi.
Med(Medium) : menyatakan biaya pembelian yang standar.
Low : menyatakan biaya pembelian yang rendah.
3) Maint
Merupakan biaya pemeliharaan unit mobil. Atribut maint memiliki empat

kelompok yaitu:
Vhigh : menyatakan biaya pemeliharaan yang sangat tinggi.
High : menyatakan biaya pemeliharaan yang tinggi.
Med(Medium) : menyatakan biaya pemeliharaan yang standar.
Low : menyatakan biaya pemeliharaan yang rendah.
4) Doors
Merupakan jumlah pintu dari setiap unit mobil. Atribut doors memiliki empat
kelompok yaitu:
2
: menyatakan jumlah pintu yang dimiliki unit mobil tersebut adalah 2
3
pintu.
pintu.
pintu.
5 more : menyatakan jumlah pintu yang dimiliki unit mobil tersebut adalah 5
pintu atau lebih.
5) Persons
Merupakan jumlah penumpang dari setiap unit mobil termasuk supir. Atribut
persons memiliki tiga kelompok yaitu:
2
: menyatakan jumlah penumpang dalam satu unit mobil tersebut
4
adalah 2 orang.
: menyatakan jumlah penumpang dalam satu unit mobil tersebut
adalah 4 orang.
more : menyatakan jumlah penumpang dalam satu unit mobil tersebut
adalah lebih dari 4 orang.
6) Luggage
Merupakan besarnya ukuran bagasi dari setiap unit mobil. Atribut luggage
memiliki tiga kelompok yaitu:
Big
: menyatakan ukuran bagasi yang besar.
Med : menyatakan ukuran bagasi yang sedang.
Small : menyatakan ukuran bagasi yang kecil.
7) Safety
Merupakan standar keamanan dari setiap unit mobil. Atribut safety memiliki
tiga kelompok yaitu:
High : menyatakan tingkat keamanan yang tinggi.
Med : menyatakan tingkat keamanan yang sedang.
Low : menyatakan tingkat keamanan yang rendah.
8) Quality
Merupakan kualitas dari setiap unit mobil. Atribut quality memiliki empat
kelompok yaitu:
Vgood : menyatakan kualitas yang sangat baik.
Good : menyatakan kualitas yang baik.
Fair : menyatakan kualitas yang sedang.
Bad : menyatakan kualitas yang kurang baik.
2.3. Verify Data Quality
Informasi yang didapat dari hasil verifikasi yang telah dilakukan yaitu tidak
ditemukannya data yang tidak valid dalam kasus ini.
3. Data Preparation
3.1. Select Data
Data yang akan digunakan pada data mining klasifikasi ini adalah semua
atribut yang ada pada data training yaitu:
1.
2.
3.
4.
5.
6.
7.
Buying
Maint
Doors
Persons
Luggage
Safety
Quality
3.2. Clean Data

Proses cleaning data pada data yang akan digunakan pada kasus ini
adalah tidak menggunakan atribut No karena bersifat unik. Metode klasifikasi
tidak akan optimal jika terdapat data yang unik.
3.3. Construct Data
Atribut yang digunakan untuk
klasifikasi
adalah atribut Quality yang
menyatakan apakah kualitas mobil tersebut adalah sangat baik, baik, sedang, atau
kurang baik.
3.4. Integrate Data
Tidak terdapat integrasi data dalam kasus ini karena data yang didapatkan sudah
siap digunakan dalam format Microsoft Excel (.xls).
3.5. Format Data

Data disusun dengan aturan sebagai berikut:
Table 1 Format Data
Buying
high
Maint
vhigh
Doors
2
Persons
more
Luggage
med
Safety
med
Quality
Fair
Vgood
Good
Bad
4. Modeling
4.1. Select Modeling Technique
Teknik pemodelan yang dipilih untuk kasus ini adalah Decision Tree (ID3).
ID3 adalah model prediksi yang menggunakan struktur pohon atau struktur
hirarki. Metode ini mengubah data menjadi pohon keputusan dan aturan-aturan
keputusan. Manfaat dari decision tree adalah kemampuan untuk menjabarkan
proses pengambilan keputusan yang kompleks menjadi lebih sederhana sehingga
pengambilan keputusan akan lebih menginterpretasikan solusi dari permasalahan.
Rumus digunakan pada teknik pemodelan ini adalah:
c
Entropy ( S )= pi log 2 p i
i=1
Keterangan:
Entropy : jumlah bit yang dibutuhkan untuk mengekstrak suatu kelas dari
sejumlah data acak pada ruang sampel S.
pi
: probabilitas suatu atribut.

Gain ( S , A ) =Entropy ( S )
|s v|
v values( A)
|S|
Entropy ( s v )
Gain
: mengukur efektivitas suatu atribut.
: Atribut
: menyatakan suatu nilai yang mungkin untuk atribut A.
values(A) : himpunan nilai-nilai yang mungkin untuk atribut A.

Entropy(sv) : entropy untuk sampel-sampel yang memiliki nilai v.
|S|
: jumlah seluruh sampel data.
|sv|
: jumlah sampel untuk nilai v.
Contoh Perhitungan Manual Menggunakan Algoritma ID3

Dimisalkan terdapat 10 data sebagai berikut:
Table 2 Uji Coba Data
BUYI
NG
vhigh
vhigh
vhigh
high
med
low
med
med
med
vhigh
MAIN
T
vhigh
vhigh
low
high
low
med
med
med
low
vhigh
DOOR
S
2
2
5more
2
5more
2
5more
5more
2
2
PERSO
NS
2
2
more
4
more
4
4
more
4
2
LUGGA
GE
med
med
big
small
big
small
med
big
big
small
SAFET
Y
med
high
high
high
med
high
high
high
high
low
QUALI
TY
Bad
Bad
Fair
Fair
good
good
vgood
vgood
vgood
bad
Berikut adalah langkah-langkah perhitungan algoritma ID3:

1. Menghitung Entropy(S)
3
3
2
2
2
2
3
3
Entropy ( S )=
log 2 log 2 log 2 log 2 =0.97
10
10 10
10 10
10 10
10
2. Menghitung Gain dari masing-masig atribut
a. Gain Buying
4
1
4
1
Gain ( S , Buying ) =1.97
0.81 +
0 +
0.81 +
0 =1.32
10
10
10
10
)(
)(
)(
entropy(vhigh) [bad 3 , fair 1, good 0, vgood 0]
Entropy ( vhigh )=
3
3 1
1
log 2 log 2 =0.81
4
4 4
4
entropy(high) [bad 0 , fair 1, good 0, vgood 0]
Entropy ( high )=
1
1
log 2 =0
1
1
entropy(med) [bad 0 , fair 0, good 1, vgood 3]
Entropy ( med )=
1
1 3
3
log 2 log 2 =0.81
4
4 4
4
entropy(low) [bad 0 , fair 0, good 1, vgood 0]
Entropy ( low )=
1
1
log 2 =0
1
1
b. Gain Maint
Gain ( S , Maint ) =1.97
( 103 0)+( 101 0)+( 103 0.92 )+( 103 1.58)=1.22
entropy(vhigh) [bad 3 , fair 0, good 0, vgood 0]
Entropy ( vhigh)=
3
3
log 2 =0
3
3
entropy(high) [bad 0 , fair 1, good 0, vgood 0]
Entropy ( high )=
1
1
log 2 =0
1
1
entropy(med) [bad 0 , fair 0, good 1, vgood 2]
Entropy ( med )=
1
1 2
2
log 2 log 2 =0.92
3
3 3
3
entropy(low) [bad 0 , fair 1, good 1, vgood 1]
Entropy ( low )=
1
1 1
1 1
1
log 2 log 2 log 2 =1.58
3
3 3
3 3
3
c. Gain Doors
Gain ( S , Doors ) =1.97
( 106 1.79 )+( 104 1.50)=0.29
entropy(2) [bad 3 , fair 1, good 1, vgood 1]
Entropy ( 2 )=
3
3 1
1 1
1 1
1
log2 log2 log 2 log 2 =1.79
6
6 6
6 6
6 6
6
entropy(5more) [bad 0 , fair 1 , good 1, vgood 2]
Entropy ( 2 )=
1
1 1
1 2
2
log 2 log2 log 2 =1.50
4
4 4
4 4
4
d. Gain Persons
( 103 0)+( 104 1.50)+( 103 1.58 )=0.89
Gain ( S , Persons )=1.97
entropy(2) [bad 3 , fair 0, good 0, vgood 0]
Entropy ( 2 )=
3
3
log2 =0
3
3
entropy(4) [bad 0 , fair 1 , good 1, vgood 2]
Entropy ( 4 )=
1
1 1
1 2
2
log 2 log2 log 2 =1.50
4
4 4
4 4
4
entropy(more) [bad 0 , fair 1 , good 1, vgood 1]
Entropy ( more )=
1
1 1
1 1
1
log 2 log 2 log 2 =1.58
3
3 3
3 3
3
e. Gain Luggage
Gain ( S , Luggage ) =1.97
( 104 1.50 )+( 103 0.92)+( 103 1.58)=0.62
entropy(Big) [bad 0 , fair 1, good 1, vgood 2]
Entropy ( big )=
1
1 1
1 2
2
log 2 log 2 log 2 =1.50
4
4 4
4 4
4
entropy(Med) [bad 2 , fair 0 , good 0, vgood 1]
Entropy ( med )=
2
2 1
1
log 2 log2 =0.92
3
3 3
3
entropy(small) [bad 1 , fair 1 , good 1, vgood 0]
Entropy ( small )=
1
1 1
1 1
1
log 2 log 2 log 2 =1.58
3
3 3
3 3
3
f. Gain Safety
( 107 1.84 )+( 102 1)+( 101 0)=0.48
entropy(High) [bad 1 , fair 2, good 1, vgood 3]
Entropy ( high )=
1
1 2
2 1
1 3
3
log 2 log 2 log 2 log 2 =1.84
7
7 7
7 7
7 7
7
entropy(Med) [bad 1 , fair 0 , good 1, vgood 0]
Entropy ( med )=
1
1 1
1
log 2 log 2 =1
2
2 2
2
entropy(Low) [bad 1 , fair 0 , good 0, vgood 0]
1
1
log 2 =0
1
1
3. Membandingkan hasil Gain dari setiap atribut dan memilih Gain yang
Entropy ( low )=
paling besar untuk dijadikan root. Gain yang paling besar adalah Gain
Buying dengan nilai 1.32.
Pohon yang terbentuk adalah sebagai berikut:
Gambar 2 Pohon Keputusan Dengan Root = Buying
Keterangan:
Atribut high dan low sudah mendapatkan hasil klasifikasinya karena nilai
entorpy dari high dan low sudah pasti. Sedangkan atribut vhigh dan med
harus dihitung kembali untuk menentukan leaf selanjutnya.
4. Lakukan kembali perhitungan untuk menentukan leaf dari pohon
keputusan tersebut.
Menghitung Entropy (S) berdasarkan atribut Buying (vhigh, med).
Buying, Vhigh
3
3 1
1
Entropy ( vhigh)=
log 2 log 2 =0.81
4
4 4
4
a. Gain Maint
3
1
Gain ( S , Maint ) =0.81 0 + 0 =0.81
4
4
( )(
entropy(vhigh) [bad 3, fair 0 ]
Entropy ( vhigh)=
3
3
log 2 =0
3
3
entropy(low) [bad 0, fair 1]
Entropy ( low )=
1
1
log 2 =0
1
1
b. Gain Doors
( 34 0)+( 14 0)=0.81
entropy(2) [bad 3, fair 0 ]
Entropy ( 2 )=
3
3
log2 =0
3
3
entropy(5 more) [bad 0, fair 1]
Entropy ( 5 more )=
1
1
log 2 =0
1
1
c. Gain Persons
( 34 0)+( 14 0)=0.81
entropy(2) [bad 3, fair 0 ]
Entropy ( 2 )=
3
3
log2 =0
3
3
entropy(more) [bad 0, fair 1]
Entropy ( more )=
1
1
log 2 =0
1
1
d. Gain Luggage
( 52 0)+( 25 0)+( 15 0)=0.81
entropy(small) [bad 2 , fair 0 ]
Entropy ( small )=
2
2
log 2 =0
2
2
entropy(med) [bad 2 , fair 0]
Entropy ( med )=
2
2
log 2 =0
2
2
entropy(big) [bad 0 , fair 1]
Entropy ( big )=
1
1
log 2 =0
1
1
e. Gain Safety
( 24 1)+( 14 0)+( 14 0)=0.31
entropy(high) [bad 1 , fair 1 ]
Entropy ( high )=
1
1 1
1
log 2 log 2 =1
2
2 2
2
entropy(med) [bad 1 , fair 0]
Entropy ( med )=
1
1
log 2 =0
1
1
entropy(low) [bad 1 , fair 0]
1
1
log 2 =0
1
1
Entropy ( low )=
paling besar untuk dijadikan leaf selanjutnya. Karena nilai Gain antara
maint, doors, persons dan luggage sama maka diambil nilai gain maint
yaitu 0.81.
Gambar 3 Pohon Keputusan Dengan leaf = Maint
Keterangan:
Atribut vhigh dan low dari leaf maint sudah mendapatkan hasil klasifikasinya
karena nilai entorpy dari vhigh dan low sudah pasti maka tidak akan dicari
leaf untuk atribut maint.
6. Lakukan kembali perhitungan untuk menentukan leaf dari pohon
keputusan tersebut.
Menghitung Entropy (S) berdasarkan atribut Buying (vhigh, med).
Buying, Med
1
1 3
3
Entropy ( med )=
log 2 log 2 =0.81
4
4 4
4
a. Gain Maint
2
2
Gain ( S , Maint ) =0.81 0 + 0 =0.31
4
4
( )(
entropy(med) [good 0, vgood 2 ]
Entropy ( med )=
2
2
log 2 =0
2
2
entropy(low) [good 1, vgood 1]
Entropy ( low )=
1
1 1
1
log 2 log 2 =1
2
2 2
2
b. Gain Doors
( 14 0)+( 34 0.92)=0.12
entropy(2) [good 0, vgood 1 ]
Entropy ( 2 )=
1
1
log 2 =0
1
1
entropy(5 more) [good 1, vgood 2]
Entropy ( 5 more )=
1
1 2
2
log 2 log 2 =0.92
3
3 3
3
c. Gain Persons
( 24 1)+( 24 0)=0.31
entropy(more) [good 1, vgood 1 ]
Entropy ( more )=
1
1 1
1
log 2 log 2 =1
2
2 2
2
entropy(4) [good 0, vgood 2]
Entropy ( 4 )=
2
2
log 2 =0
2
2
d. Gain Luggage
( 34 0.92)+( 14 0)=0.12
Gain ( S , luggage )=0.81
entropy(big) [good 1, vgood 2 ]
Entropy ( big )=
1
1 2
2
log 2 log 2 =0.92
3
3 3
3
entropy(med) [good 0, vgood 1]
Entropy ( med )=
1
1
log 2 =0
1
1
e. Gain Safety
Gain ( S , safety )=0.81
( 34 0)+( 14 0)=0.81
entropy(high) [good 0, vgood 3 ]
Entropy( high)=
3
3
log 2 =0
3
3
entropy(med) [good 1, vgood 0]
1
1
log 2 =0
1
1
Entropy ( med )=
paling besar untuk dijadikan leaf selanjutnya. Nilai Gain yang terbesar
adalah safety maka safety menjadi leaf selanjutnya dengan nilai 0.81.
Gambar 4 Hasil Akhir Pohon Keputusan
8. Karena nilai sudah ditemukan semua maka pohon keputusan telah selesai.
4.2. Generate Test Design
Untuk melakukan pengujian terhadap desain pemodelan digunakan data Training

Set dan Cross Validation. Metode klasifikasi akan menghasilkan prediksi
klasifikasinya dengan baik jika menggunakan data Training Set. Biasanya data
training dan data testing dibagi menjadi 80:20 dari data keseluruhan. Data
training digunakan untuk mencari pemodelan yang tepat sedangkan data testing
digunakan untuk menguji pemodelan yang dihasilkan. Metode Cross Validation
membagi data menjadi dua bagian, yaitu data pelatihan dan data pengujian.
Selanjutnya, setelah data diuji dilakukan proses silang dimana data pengujian
lantas dijadikan data pelatihan ataupun sebaliknya, data pelatihan sebelumnya
dijadikan kini menjadi data pengujian.
4.3. Build Model
Berikut adalah langkah-langkah pembangunan model menggunakan aplikasi
WEKA.
1. Membuka aplikasi WEKA sehingga muncul tampilan seperti berikut.
Gambar 5 Tampilan Awal WEKA
2. Membuka File yang berektensi .csv atau .arff untuk dilakukan training
data.
Gambar 6 Membuka file Car.csv
3. Tampilan data yang siap di mining menggunakan WEKA.
Gambar 7 Tampilan Data Yang Siap Di Mining
4. Memilih metode yang digunakan (ID3)
Gambar 8 Pemilihan Metode
5. Tampilan Pengujian Metode ID3 Menggunakan Training Set
Gambar 9 Tampilan Pengujian Training Set
6. Tampilan Pengujian Menggunakan Cross Validation
Gambar 10 Tampilan Pengujian Cross Validation
4.4. Assess Model

Hasil ketepatan dari masing-masing teknik dapat dilihat pada gambar 11 dan 12.
Gambar 11 Tampilan Akurasi Dengan Training Set
Gambar 12 Tampilan Akurasi Dengan Cross Validation
5. Evaluation
5.1 Evaluate Result
Proses modelling dilakukan dengan metode klasifikasi dengan algoritma
Decision Tree (ID3). Dengan menggunakan 1211 training data, proses modelling
menghasilkan hasil sebagai berikut :
Table 3 Tingkat Akurasi Model ID3
Decision Tree (ID3)
Metode Uji Training Set

100 %
Metode Uji Cross Validation

89,59 %
Dari hasil pengujian akurasi dari metode uji training set mencapai 100%, namun
untuk pengujian akurasi dari metode uji cross validation mencapai 89,59%. Dapat
disimpulkan bahwa pengujian menggunakan training set lebih akurat.
5.2 Review Process
Proses data mining klasifikasi kualitas mobil berdasarkan spesifikasinya
dilakukan dalam langkah-langkah berikut :
a. Business Understanding merupakan proses pemahaman terhadap domain

permasalahana dan menentukan data yang akan digunakan dalam proses data
mining.
b. Data understanding meliputi proses pengumpulan data,
c. Data preparation Meliputi proses cleaning data.
d. Modelling dilakukan dengan menggunakan metode klasifikasi yaitu decision
tree (ID3) dan 2 metode pengujian (Training Set dan Cross Validation).
e. Evaluation Hasil dari modelling yang telah dilakukan bahwa metode
klasifikasi menggunakan ID3 cocok untuk kasus mengklasifikasikan kualitas
mobil dengan tingkat akurasi data sebesar 89,59% (cross validation) dan tingkat
akurasi data 100%(training set).

Contoh Implementasi Data Mining

Diunggah oleh

Informasi Dokumen

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Contoh Implementasi Data Mining

Diunggah oleh

Hak Cipta:

Format Tersedia

TUGAS MATA KULIAH

Diajukan sebagai salah satu tugas mata kuliah

UNIVERSITAS KOMPUTER INDONESIA BANDUNG

Laporan Akhir Data Mining

1.2. Assess Situation

Perkiraan tool dan teknik

Gambar 1 Data Spesifikasi Mobil

Penjelasan isi dokumen:

Merupakan biaya pemeliharaan unit mobil. Atribut maint memiliki empat

3.2. Clean Data

adalah atribut Quality yang

3.5. Format Data

: probabilitas suatu atribut.

: mengukur efektivitas suatu atribut.

: menyatakan suatu nilai yang mungkin untuk atribut A.

values(A) : himpunan nilai-nilai yang mungkin untuk atribut A.

: jumlah seluruh sampel data.

: jumlah sampel untuk nilai v.

Contoh Perhitungan Manual Menggunakan Algoritma ID3

Berikut adalah langkah-langkah perhitungan algoritma ID3:

entropy(vhigh) [bad 3 , fair 1, good 0, vgood 0]

entropy(high) [bad 0 , fair 1, good 0, vgood 0]

entropy(med) [bad 0 , fair 0, good 1, vgood 3]

entropy(low) [bad 0 , fair 0, good 1, vgood 0]

( 103 0)+( 101 0)+( 103 0.92 )+( 103 1.58)=1.22

entropy(vhigh) [bad 3 , fair 0, good 0, vgood 0]

entropy(high) [bad 0 , fair 1, good 0, vgood 0]

entropy(med) [bad 0 , fair 0, good 1, vgood 2]

entropy(low) [bad 0 , fair 1, good 1, vgood 1]

( 106 1.79 )+( 104 1.50)=0.29

entropy(2) [bad 3 , fair 1, good 1, vgood 1]

entropy(5more) [bad 0 , fair 1 , good 1, vgood 2]

( 103 0)+( 104 1.50)+( 103 1.58 )=0.89

Gain ( S , Persons )=1.97

entropy(2) [bad 3 , fair 0, good 0, vgood 0]

entropy(4) [bad 0 , fair 1 , good 1, vgood 2]

entropy(more) [bad 0 , fair 1 , good 1, vgood 1]

( 104 1.50 )+( 103 0.92)+( 103 1.58)=0.62

entropy(Big) [bad 0 , fair 1, good 1, vgood 2]

entropy(Med) [bad 2 , fair 0 , good 0, vgood 1]

entropy(small) [bad 1 , fair 1 , good 1, vgood 0]

( 107 1.84 )+( 102 1)+( 101 0)=0.48

entropy(High) [bad 1 , fair 2, good 1, vgood 3]

entropy(Med) [bad 1 , fair 0 , good 1, vgood 0]

entropy(Low) [bad 1 , fair 0 , good 0, vgood 0]

Gambar 2 Pohon Keputusan Dengan Root = Buying

entropy(vhigh) [bad 3, fair 0 ]

entropy(low) [bad 0, fair 1]

Gain ( S , Doors ) =0.81

entropy(2) [bad 3, fair 0 ]

entropy(5 more) [bad 0, fair 1]

entropy(2) [bad 3, fair 0 ]

entropy(more) [bad 0, fair 1]

( 52 0)+( 25 0)+( 15 0)=0.81

entropy(small) [bad 2 , fair 0 ]

entropy(med) [bad 2 , fair 0]

entropy(big) [bad 0 , fair 1]

( 24 1)+( 14 0)+( 14 0)=0.31

entropy(high) [bad 1 , fair 1 ]

entropy(med) [bad 1 , fair 0]

entropy(low) [bad 1 , fair 0]

Gambar 3 Pohon Keputusan Dengan leaf = Maint

entropy(med) [good 0, vgood 2 ]

entropy(low) [good 1, vgood 1]