Komparasi Metode Pre-Processing Data Dengan Menggunakan Hasil Klasifikasi Artificial Neural Network (Ann)

KOMPARASI METODE PRE-PROCESSING DATA
DENGAN MENGGUNAKAN HASIL KLASIFIKASI

ARTIFICIAL NEURAL NETWORK (ANN)
I.
LATAR BELAKANG
Pada tahun 1996 Amerika Serikat mengadakan survey penduduk untuk mengetahui
karakteristik penduduk yang mampu menghasilkan uang lebih dari $50.000. Pada saat itu
rata-rata pendapatan dari penduduk United States mencapai sekitar $49.000, sehingga biro
sensus Amerika Serikat menjadikan angka $50.000 menjadi acuan untuk mengetahui kondisi
pendapatan penduduknya.
Pemerintah Amerika Serikat mengklasifikasikan penduduknya dengan menggunakan
beberapa variabel yang dapat mengelompokkannya. Variabel-variabel yang digunakan
tersebut mempunyai kuantitas yang besar serta data yang dikumpulkan juga berukuran besar.
Oleh karena itu, diperlukan suatu metode yang dapat mengklasifikasikan suatu observasi
berdasarkan variabel-variabel yang banyak dengan ukuran data yang besar.
Salah satu metode yang dapat digunakan adalah Artificial Neural Network (ANN).
Metode tersebut dapat digunakan sebagai pengklasifikasian dimana pola pengklasifikasian
tersebut tidak linear. Selain itu, dengan menggunakan metode tersebut unit individu akan
dihubungkan bersama untuk membentuk perhitungan yang kompleks. Atribut-atribut yang
digunakan dalam analisis ini mempunyai pola klasifikasi yang tidak linear, sehingga dalam
ANN digunakan Multilayer Perceptron. Dalam metode ini, akan terdapat hidden layer dalam
struktur ANN yang digunakan.
Data yang digunakan dalam analisis ini merupakan data yang berukuran besar,
sehingga perlu diperhatikan pre-processing data sebelum dilakukan analisis lebih lanjut. Preprocessing ini akan membantu untuk mendapatkan hasil ketepatan klasifikasi yang lebih baik.
Untuk mendapatkan hasil pre-processing yang baik, maka dalam analisis ini akan dilakukan
perbandingan dengan menggunakan hasil ketepatan klasifikasi sebagai nilai yang
diperhatikan.
II.
PERMASALAHAN
Permasalahan yang akan dibahas dalam penelitian ini adalah sebagai berikut.
1. Bagaimana deskripsi pada atribut-atribut klasifikasi pada data sensus pendapatan
United States?
1
2. Bagaimana perbandingan hasil ketepatan klasifikasi pada setiap kombinasi

preprocessing yang dilakukan pada data sensus pendapatan United States?
3. Bagaimana interpretasi output neural network pada hasil ketepatan klasifikasi terbesar
yang dilakukan pada data sensus pendapatan United States?
III.
TUJUAN
Berdasarkan permasalahan yang akan dibahas dalam penelitian ini, tujuan penelitian
ini adalah sebagai berikut.

1. Mendeskripsikan atribut-atribut klasifikasi pada data sensus pendapatan United
States.
2. Membandingkan hasil ketepatan klasifikasi pada setiap kombinasi preprocessing yang
dilakukan pada data sensus pendapatan United States.
3. Menginterpretasikan output neural network pada hasil ketepatan klasifikasi terbesar
yang dilakukan pada data sensus pendapatan United States.
IV.
4.1
METODOLOGI PENELITIAN
SUMBER DATA
Data yang digunakan dalam penelitian ini merupakan data sekunder yang diambil dari
website University of California, Irvine, School of Information and Computer Sciences

Machine Learning Repository. Data tersebut merupakan data sensus pendapatan Amerika
Serikat yang dilakukan oleh Biro Sensus Amerika Serikat.
4.2
VARIABEL PENELITIAN
Data penelitian tersebut merupakan data sensus pendapatan yang terdiri dari 15
variabel. Berikut ini adalah variabel yang digunakan dalam penelitian ini adalah sebagai
berikut.
No
1
Atribut
Age
Workclass
Final Weight
Education
Education-Num
Marital-Status
Occupation
Tabel 4.1 Atribut Penelitian

Keterangan
Skala
Umur Responden
Kontinyu
Nominal (Private, Self-emp-not-inc, Self-emp-inc, FederalJabatan Pekerjaan
gov, Local-gov, State-gov, Without-pay, Never-worked)
Kontinyu
Nominal (Bachelors, Some-college, 11th, HS-grad, ProfPendidikan Terakhir
school, Assoc-acdm, Assoc-voc, 9th, 7th-8th, 12th, Masters,
Responden
1st-4th, 10th, Doctorate, 5th-6th, Preschool)
Lama Menempuh
Kontinyu
Pendidikan
Nominal (Married-civ-spouse, Divorced, Never-married,
Status Nikah
Separated, Widowed, Married-spouse-absent, Married-AFResponden
spouse)
Pekerjaan
Nominal (Tech-support, Craft-repair, Other-service, Sales,
Responden
Exec-managerial, Prof-specialty, Handlers-cleaners, Machine2
Relationship
Hubungan
Responden
Race
Ras Responden
10
Sex
11
12
Capital-Gain
Capital-Loss
13
Hours-Per-Week
14
4.3
Native-Country
Jenis Kelamin
Responden
Modal Untung
Modal Rugi
Banyak Jam Kerja
Per Minggu
Responden
Negara Asal
op-inspct, Adm-clerical, Farming-fishing, Transport-moving,

Priv-house-serv, Protective-serv, Armed-Forces)
Nominal (Wife, Own-child, Husband, Not-in-family, Otherrelative, Unmarried)
Nominal (White, Asian-Pac-Islander, Amer-Indian-Eskimo,
Other, Black)
Nominal (Female, Male)
Kontinyu
Kontinyu
Kontinyu
Nominal (United-States, Cambodia, England, Puerto-Rico,
Canada, Germany, Outlying-US(Guam-USVI-etc), India,
Japan, Greece, South, China, Cuba, Iran, Honduras,
Philippines, Italy, Poland, Jamaica, Vietnam, Mexico,
Portugal, Ireland, France, Dominican-Republic, Laos,
Ecuador, Taiwan, Haiti, Columbia, Hungary, Guatemala,
Nicaragua, Scotland, Thailand, Yugoslavia, El-Salvador,
Trinadad&Tobago, Peru, Hong, Holand-Netherlands)
LANGKAH PENELITIAN
Pada penelitian ini dilakukan beberapa Langkah-langkah yang dilakukan dalam
penelitian ini adalah sebagai berikut.

1. Mendeskripsikan atribut yang digunakan dalam data.
Pada tahap ini akan dilakukan deskripsi pada atribut untuk mengetahui karakteristik
dari datanya.
2. Melakukan pre-processing data.
Setelah mengetahui karakteristik atribut yang digunakan, langkah selanjutnya
yang dilakukan adalah melakukan pre-processing data. Hal ini dilakukan untuk
mendapatkan data yang bersih sehingga akan menghasilkan ketepatan klasifikasi yang
lebih baik. Pre-processing data yang dilakukan dalam data penelitian ini dilakukan
dengan menggunakan software Weka. Adapun pre-processing yang dilakukan adalah
antara lain.
a. Missing value
Pada data penelitian tersebut terdapat missing value sebanyak 2399 instances
dari 32561 instances. Cara penanganan missing value pada data tersebut dicobakan
dengan melakukan imputasi dan menghilangkannya. Jika dilakukan imputasi pada
tipe data numerik, maka caranya adalah dengan memasukkan rata-rata dari atribut
yang mengandung missing value tersebut. Namun jika imputasi dilakukan pada tipe
data kategori, maka caranya adalah dengan memasukkan nilai yang sering muncul
pada atribut yang mengandung missing value tersebut. kemudian jika cara
3
penanganan missing value tersebut dengan cara dilangkan, maka instances yang
diolah menjadi sebanyak 30162.
b. Outlier
Outlier merupakan data unik yang nilainya berbeda dari nilai-nilai data yag
lainnya. Outlier dapat menambah informasi dalam penggalian data atau dapat pula
mengurangi informasi yang ada. Oleh karena itu, dalam data penelitian ini dilakukan
dua penanganan terhadap data outlier, yaitu tetap mempertahankannya dan
menghilangkan data outliernya. Jika missing value diatasi dengan imputasi dan outlier
dihilangkan, maka akan terdapat 28876 instances. Namun jika missing value
dihilangkan dan outlier juga dihilangkan, maka akan terdapat 26933 instances.
c. Feature selection
Data sensus pendapatan yang digunakan dalam penelitian ini mempunyai 15
atribut. Oleh karena itu, diperlukan feature selection pada tahap pre-processing data
agar mendapatkan hasil klasifikasi yang lebih optimal. Metode yang digunakan dalam
feature selection ini adalah dengan menggunakan filter dan wrapper.
Pada metode wrapper akan diketahui atribut mana saja yang dapat digunakan.
Namun pada metode filter akan muncul ranking yang mengurutkan atribut-atribut
tersebut sehingga peneliti dapat menggunakan atribut tersebut sesuai dengan
rankingnya.
3. Melakukan klasifikasi
Penelitian ini menggunakan Artificial Neural Network (ANN) pada
klasifikasinya. Algoritma yang digunakan dalam ANN ini adalah backpropagation.
4. Membandingkan hasil klasifikasi yang terbentuk antar integrasi pre-processing.
Pada penelitian ini akan diketahui perbandingan dari beberapa integrasi preprocessing yang terbentuk untuk mengatahui pre-processing mana yang akan
mendapatkan hasil ketepatan klasifikasi yang lebih baik. Berikut ini adalah beberapa
integrasi pre-processing tersebut.
No
1
2
3
4
5
6
7
8
5.
Integrasi Pre-Processing
Missing value diimputasi, outlier dipertahankan, dan feature selection dengan filter
Missing value diimputasi, outlier dihilangkan, dan feature selection dengan filter
Missing value diimputasi, outlier dipertahankan, dan feature selection dengan wrapper
Missing value diimputasi, outlier dihilangkan, dan feature selection dengan wrapper
Missing value dihilangkan, outlier dipertahankan, dan feature selection dengan filter
Missing value dihilangkan, outlier dihilangkan, dan feature selection dengan filter
Missing value dihilangkan, outlier dipertahankan, dan feature selection dengan wrapper
Missing value dihilangkan, outlier dihilangkan, dan feature selection dengan wrapper
Menginterpretasikan output neural network pada hasil ketepatan klasifikasi yang
terbesar.
Setelah mengetahui hasil ketepatan yang lebih baik berdasarkan integrasi preprocessing tersebut, dapat dilakukan interpretasi output dari hasil yang didapatkan.
6. Penarikan kesimpulan
Kesimpulan didapatkan berdasarkan hasil analisis yang telah dilakukan
V.
METODE
5.1 Artificial neural Network (ANN)
Artificial Neural Network (ANN) atau Jaringan Syaraf Tiruan adalah system
pemrosesan informasi yang memiliki karakteristik menyerupai jaringan syaraf biologis yang
dibentuk sebagai generalisasi model matematis dari jaringan syaraf biologis. Sistem ini
memiliki kemampuan untuk mengenali sesuatu yang pernah dialami atau dikenal, dengan
kata lain sistem ini dapat melakukan proses pembelajaran terhadap sesuatu. Proses
pembelajaran pada ANN adalah proses penambahan pengetahuan pada sistem yang bersifat
kontinyu, yang nantinya akan digunakan sebagai referensi untuk mengenali suatu objek.
Mekanisme pemrosesan informasi yang dimiliki sistem ini dilakukan di neuron, lalu hasil
pemrosesan tersebut diteruskan dari satu neuron ke neuron yang lain melalui penghubung
sampai mencapai output yang diinginkan. Berikut ini merupakan bentuk dasar dari neuron.
Gambar 5.1 Bentuk Dasar Neuron
Neuron diatas terdiri dari bagian-bagian :

- Input, bagian sistem yang digunakan untuk memberikan masukan pada sistem, baik untuk
proses pembelajaran maupun proses pengenalan objek.
- Weight, merupakan bobot yang diberikan pada penghubung yang berfungsi untuk
meningkatkan dan menurunkan nilai dari informasi agar sesuai dengan target
pembelajaran. Nilai dari bobot akan berubah setiap kali diberikan input untuk
pembelajaran dan akan tetap ketika output pembelajaran telah sesuai objek yang
ingin dikenali.
- Processing unit, bagian terjadinya proses komputasi pengenalan suatu objek berdasarkan
pengetahuan yang diperoleh dariinput dan bobot yang sudah ditentukan sebelumnya.
Suatu jaringan ANN dapat terdiri dari beberapa processing unit yang dapat bekerja
secara simultan dan dapat bekerja parallel
- Output, bagian yang memberikan hasil pembelajaran suatu objek atau target pembelajaran.
Setiap output dari neuron memiliki fungsi aktivasi yang menentukan apakah
informasi akan diteruskan ke neuron lain untuk diproses lagi atau tidak.
Neural network secara esensial terdiri dari tiga bagian: arsitektur atau model,
algoritma learning, dan fungsi aktivasi. neural network dapat dilatih di dataset yang sangat
besar secara iteratif. Data mining menjadi lebih berguna dengan menggabungkan
kekuatan neural network dengan perangkat statistik. Diercaya dengan gabungan ini, dapat
Menghasilkan sinergi yang penting. Neural network menyediakan benchmark model yang
baik disisi lain NN juga memiliki keunggulan lain , yaitu :
1. Akurasi yang tinggi: Neural network digunakan untuk mapping aproksimasi kompleks non
linear.
2. Toleransi terhadap noise: Neural network sangat fleksibel dengan data yang noisy.
3. Independensi dari asumsi prior:Neural network tidak membuat asumsi priori tentang
distribusi data atau bentuk interaksi dari faktorfaktor.
4. Mudah untuk dikelola: Neural network dapat diupdate dengan data yangbaru, membuat
berguna untuk lingkungan yang dinamis.
5. Neural network dapat diimplementasikan di hardware yang paralel.
6. Ketika element neural network gagal, ia dapat melanjutkan tanpa masalah karena polanya
yang paralel.
7. Neural network dapat dilatih di dataset yang sangat besar secara iteratif.
5.2
Multilayer Perceptron Neural Network

Metode klasifikasi Multilayer Perceptron (MLP) merupakan salah satu jenis dari
algoritma jaringan saraf tiruan yang mengadopsi cara kerja jaringan saraf pada mahluk hidup.
Algoritma ini terkenal handal karena proses pembelajaran yang mampu dilakukan secara
terarah.
Model MLPNN memiliki layer neuron tambahan selain layer input dan output,
yaitu hidden layer yang terletak di antara kedua layer tersebut. Jumlah hidden layer bervariasi
tergantung dari tingkat kesulitan permasalahan yang ditangani oleh sistem, sehingga dalam
pengaplikasiannya MLPNN lebih powerful dibandungkan dengan model ANN yang lain.
Berikut ini adalah bentuk arsitektur jaringan MLPNN.
6
Gambar 5.2 Bentuk Arsitektur Jaringan MLPNN
5.3 Data Mining dengan NN

Data mining berdasarkan neural network disusun dengan menyiapkan data, rules
extracting, rules assessment. Disi lain kekuatan neural network adalah dengan satu layer
tersembunyi fungsi transfer logistic, neural network dapat mengaproksimasi tipe-tipe fungsi
non linear dan interaction terms.
Gambar 5.3 Proses Data Mining dengan NN
V.3.1 Data Preparing

Data preparing merupakan tahap persiapan yang dilakukan pertama kali yang
dilakukan sebelum dilakukan analisis. Hal ini diperlukan untuk menghasilkan analisis yang
baik. Berikut terdapat beberapa langkah yang dilakukan untuk mempersiapkan data untuk
dilakukan analisis lebih lanjut.
1. Data Cleaning and selection
Pada data yang heterogen dalam database tentunya terdapat data yangi tidak lengkap,
tidak konsisten atau tidak akurat,Data ini disebut sebagai data kotor. Ketika load data ke
data warehouse, harus dilakukan cleansing data, karena NN dalam data mining adalah
GIGO (garbage in, garbage out).
2. Data Prepocessing
7
Data sebelum diberi perlakuan merupakan proses peningkatan kualitas dari data yang
sudah dilakukan cleaning data diatas..
3. Data expression
Sistem manajemen database dapat menentukan berbagai jenis data, dapat menyimpulkan
jenis data yang kontinyu , numerik dikrit dan menandai data yang mempunyai tiga tipe
data. Sehingga pada tahap ini dapat menentukan jenis data yang akan dianalisis lebih
lanjut.
4. Rule Extracting
Ada banyak metode untuk ekstraksi, metode yang paling umum meliputi : metode LRE
(Link Rule Extraction), metode black box, dua nilai algoritma ekstraksi meliputi input
output (BIO-RE), dari metode jaringan rekursi ekstrak dan sebagainya.
5. Rule Assesment
Secara umum, aturan dapat dinilai sesuai dengan tujuan sebagai berikut:
1. Mencari urutan ekstraksi optimal, dan mendapatkan hasil terbaik dalam satu set data
yang diberikan;
2. Menguji kebenaran aturan yang akan diambil;
3. Tes berapa banyak pengetahuan tentang nn yang belum diambil
4. Menguji ketidakkonsistensian antara aturan yang telah di extraksi dengan data NN
yang diujikan.
VI.
HASIL PENELITIAN
6.1 Statistika Deskriptif Atribut
Statistika deskriptif merupakan langkah awal yang dilakukan dalam analisis ini guna
mengetahui karakteristik dari atribut yang digunakan. Hal ini akan memberikan informasi
mengenai kepada peneliti terkait gambaran dari responden yang digunakan untuk analisis
lebih lanjut. Berikut ini adalah statistika deskriptif dari masing-masing atribut yang berskala
kontinyu.
Nama Variabel
Age
Final Weight
Education-num
Capital-gain
Capital-loss
Hoursperweek
Tabel 6.1 Statistika Deskriptif Variabel Skala Kontinyu

Minimum
Maksimum
Rata-rata
17
90
38,582
12285
1484705
189778,367
1
16
10,081
0
99999
1077,649
0
4356
87,304
1
99
40,437
Standar deviasi
13,64
105549,978
2,573
7385,292
402,96
12,347
Berdasarkan Tabel 6.1 dapat diketahui bahwa pada variabel final weight mempunyai
nilai minmum sebesar 12285 dan maksimum sebesar 1484705. Jarak antara nilai minimum
dengan maksimum tersebut cukup jauh. Hal ini juga terlihat dari standar deviasinya yang
bernilai tinggi sebesar 105549,978 sementara rata-ratanya sebesar 189778,367. Oleh karena
8
itu, dapat diketahui bahwa variansi dari variabel final weight cukup besar sehingga terdapat
indikasi adanya outlier pada variabel tersebut.
Selain itu, variabel capital gain dan capital loss juga mempunyai nilai deviasi standar
yang cukup besar. Hal tersebut terlihat dari nilai minimum variabel capital gain sebesar 0
sementara nilai maksimumnya sebesar 99999. Nilai deviasi standar dari capital gain juga
sebesar 7385,292. Tidak hanya itu, variabel yang lain seperti age, educational num, dan
hoursperweek juga mempunyai ariabsi yang besar jika dilihat dari deviasi standar dannilai
minimum dan maksimumnya. Oleh karena itu, dapat diketahui bahwa terdapat indikasi
adanya outlier pada variabel-variabel tersebut.
6.2 Perbandingan Hasil Ketepatan Klasifikasi
Setelah mendapatkan karakteristik dari atribut tersebut, dilakukan pre-processing
terhadap data yang akan diolah. Pre-processing data ini akan membantu untuk mendapatkan
hasil ketepatan klasifikasi yang lebih baik. Langkah awal dalam melakukan pre-processing
tersebut adalah mengidentifikasi adanya missing value pada setiap atribut. Berikut ini adalah
tabel mengenai banyaknya missing value yang ada pada setiap atribut.
Tabel 6.2. Jumlah Missing Value Pada Setiap Atribut
Variabel
Jenis
Missing
Age
Kontinyu
1836
Workclass
Nominal
0
Final Weight
Kontinyu
0
Education
Nominal
0
Education-Num
Kontinyu
0
Marital-Status
Nominal
0
Occupation
Nominal
1843
Relationship
Nominal
0
Race
Nominal
0
Sex
Nominal
0
Capital-Gain
Kontinyu
0
Capital-Loss
Kontinyu
0
Hours-Per-Week
Kontinyu
Native-Country
Nominal
583
Berdasarkan Tabel 6.2 dapat diketahui bahwa pada variabel usia, terdapat nilai yang
missing sebanyak 1836 observasi. Kemudian pada atribut occupation dan native country
mempunyai nilai missing berturut-turut sebanyak 1843 dan 583 observasi. Hal ini
menunjukkan bahwa pada data tersebut terdapat data yang mempunyai nilai missing. Oleh
karena itu, perlu diatasi sebelum melakukan analisis lebih lanjut.
Selain mengatasi missing value, pada tahap pre-processing dalam analisis ini juga
mengatasi adanya outlier. Selain itu, atribut yang digunakan dalam analisis ini mempunyai
9
jumlah yang banyak sehingga dilakukan pula Feature Selection dalam pre-processing
datanya. Pada penelitian ini akan membandingkan beberapa integrasi pre-processing antara
cara mengatasi missing value, outlier, dan metode yang digunakan dalam feature selection.
Dalam tahap pre-processing tersebut, jumlah data yang digunakan menjadi berbeda-beda.
Berikut ini adalah jumlah data atau instances yang digunakan dalam pre-processing tersebut.
Tabel 6.3 Jumlah Data yang digunakan dalam Pre-Processing
missing
Imputasi
outlier
Tetap
hilang
Hilang
Tetap
Hilan
g
Featur
e
Selecti
wrapper
evaluati
on
32561
28876
30162
2693
3
on
Berdasarkan Tabel 6.3 dapat diketahui bahwa banyak data yang digunakan saat
preprocessing dengan melakukan imputasi pada missing value sementara outlier tetap
dimasukkan adalah sebanyak 32561, sedangkan jika outlier dihilangkan maka akan terdapat
28876 data. Kemudian jika missing value tersebut dihilangkan dan outlier tetap dimasukkan
dalam analisis maka data yang digunakan sebanyak 30162 sementara jika outlier dihilangkan
maka terdapat sebanyak 26933 data.
Pada analisis ini juga dilakukan pre-processing dengan tahap feature selection dengan
menggunakan metode wrapper dan filter. Hasil dari metode tersebut akan menunjukkan
atribut yang baik digunakan dalam analisis guna mendapatkan ketepatan klasifikasi yang
lebih baik. Berikut ini adalah variabel-variabel yang digunakan dalam analisis berdasarkan
hasil feature selection.
Tabel 6.4 Variabel yang digunakan Berdasarkan Hasil Feature Selection
Missing
Outlier
Feature Wrappe
Selection r
Filter
Imputasi
Tetap
Hilang
5,6,8,11,12
5,6,8,11,12,13
Tetap
5,6,8,11,12
Hilang
5,6,8,11,12,13
8,6,11,1,4,5,
7
8,6,11,1,4,7,5,13,
12
8,6,11,4,5,7,1,1
2
8,6,11,4,5,1,7,12,
13
Hilang
Berdasarkan Tabel 6.4 dapat diketahui bahwa atribut yang digunakan pada saat preprocessing feature selection dengan menggunakan wrapper menghasilkan atribut yang sama
meskipun missing value diatasi dengan imputasi atau dihilangkan. Perbedaannya hanya pada
cara mengatasi outliernya dengan dihilangkan atau tetap dimasukkan. Sementara itu, hasil
10
atribut yang dikeluarkan berdasarkan metode Filter menghasilkan atribut yang berbeda-beda
pada setiap penanganan missing value dan outliernya. Setelah dilakukan pre-processing, akan
dilakukan klasifikasi untuk mengetahui pre-processing mana yang cenderung memberikan
hasil ketepatan klasifikasi yang lebih baik. Berikut ini adalah hasil ketepatan klasifikasinya.
Tabel 6.5 Hasil Ketepatan Klasifikasi Berdasarkan Tahap Pre-processing
Missing
Outlier
Feature wrapper
Imputasi
Tetap
Hilang
84,3187
83,7581
Hilang
tetap
83,6516
Hilang
83,1099
83,8671
83,5332
Selectio
n
Filter
85,4918
83.6508
Berdasarkan Tabel 6.5 dapat diketahui bahwa hasil ketepatan klasifikasi tertinggi
didapatkan dari pre-processing dengan mengimputasi missing value, tetap memasukkan
outlier, dan feature selection dengan menggunakan Filter. Nilai yang didapatkan dari preprocessing tersebut adalah sebesar 85,4917%. Kemudian diketahui pula bahwa hasil
ketepatan klasifikasi terendah didapatkan dari pre-processing dengan menghilangkan missing
value dan menghilangkan data outlier serta menggunakan metode wrapper dalam feature
selection. Nilai yang didapatkan adalah sebesar 83,1099%.
Pada Tabel 6.5 juga memperlihatkan bahwa hasil klasifikasi dari proses penghilangan
baik data yang missing maupun outlier akan menghasilkan ketepatan klasifikasi yang lebih
rendah dibandingkan dengan yang diimputasi atau tetap dimasukkan dalam analisis. Hal ini
menunjukkan bahwa semakin banyak data yang tidak digunakan dalam analisis, maka
informasi yang didapatkan juga akan berkurang. Selain itu, dapat dikatakan bahwa data
tersebut merupakan data yang mempunyai informasi yang penting terhadap analisis data
tersebut. Oleh karena itu, hasil ketepatan klasifikasi dengan tidak menghilangkan data
mempunyai nilai yang lebih tinggi dibandingkan dengan yang menghilangkan.
Selain itu, pada Tabel 6.5 juga diketahui bahwa tiga dari empat hasil klasifikasi yang
menggunakan metode filter mempunyai hasil ketepatan klasifikasi yang lebih tinggi
dibandingkan dengan metode wrapper. Hal ini menunjukkan bahwa metode wrapper
cenderung memberikan hasil yang lebih rendah karena dengan metode tersebut akan
langsung diperoleh variabel mana yang dapat digunakan dalam analisis tanpa mengetahui
tingkat dari masing-masing variabel tersebut.
6.3 Interpretasi Output Neural Network
Berdasarkan perbandingan tersebut, didapatkan hasil klasifikasi yang terbesar adalah
pada pre-processing mengimputasi missing value, tetap memasukkan outlier, dan feature
11
selection dengan menggunakan Filter dengan nilai sebesar 85,4917%. Klasifikasi dengan
menggunakan metode Artificial Neural Network (ANN) mempunyai kelemahan dalam
interpretasi modelnya. Pada klasifikasi tersebut node yang terbentuk pada hidden layer dalam
neural network ini berjumlah 25. Berikut ini adalah output yang dihasilkan dari klasifikasi
tersebut.
Correctly Classified Instances 27837 85.4918 %

Incorrectly Classified Instances 4724 14.5082 %
Kappa statistic 0.5715
Mean absolute error 0.1873
Root mean squared error 0.316
Relative absolute error 51.2159 %
output
tersebut
dapat
RootBerdasarkan
relative squared
error
73.9069
% diketahui bahwa hasil ketepatan klasifikasi sebesar
Total %
Number
Instances
32561 27837, sedangkan sebanyak 4724 data terjadi kesalahan
85,4918
denganofbanyak
instances
klasifikasi. Nilai statistic Kappa yang didapatkan adalah sebesar 0,5715. Kemudian mean
absolute error dari model tersebut sebesar 0,1873. Semakin kecil error yang didapatkan, maka
semakin kecil pula kesalahan klasifikasi yang terjadi.
VII.
KESIMPULAN
Kesimpulan yang dapat diambil dari analisis tersebut adalah sebagai berikut.
1. Pada atribut yang berskala kontinyu terdapat range atau jangkauan yang besar antara
nilai minimum dan maksimum. Selain itu nilai deviasi standar juga tinggi, sehingga
penyebarannya masih tidak merata atau variansi yang terjadi dalam atribut tersebut
masih tinggi. Selain itu, terdapat indikasi outlier juga pada atribut tersebut.
2. Hasil ketepatan klasifikasi tertinggi didapatkan dari pre-processing dengan
mengimputasi missing value, tetap memasukkan outlier, dan feature selection dengan
menggunakan Filter dengan nilai sebesar 85,4917%. Semakin banyak data yang
dihilangkan dalam analisis, maka informasi yang didapatkan akan semakin berkurang.
Kemudian dalam analisis ini dengan menggunakan metode filter dapat menghasilkan
ketepatan klasifikasi yang lebih baik dibandingkan dengan metode wrapper.
3. Pada klasifikasi dengna hasil ketepatan klasifikasi terbesar tersebut node yang
terbentuk pada hidden layer dalam neural network ini berjumlah 25.
VIII. DAFTAR PUSTAKA
12
David
Kriesel.A brief Introdution to Neural Network.

Diunduh dari
http://www.dkriesel.com/en/science/neural_networks pada 15 Desember 2014
Guoquan Jianga, C. Z. (2011). The Research of Data Mining Based on Neural Networks.
International Conference on Computer Science and Information Technology 2011.
Singapura: LACSIT Press.
Rudi hermanto. Neural Network dan Implementasinya Dalam Data Mining.Bandung.ITB
Yashpal Singh. Neural Networks In Data Mining. United Institute of Engineering
&Technology India.
IX.
TUGAS TIAP MAHASISWA

Berikut ini adalah tugas dari masing-masing anggota kelompok.
No
1
Nama
Dwi Prasetya
Saidah Zahrotul Jannah
Dio Ariadi
Tugas
Mencari dan memahami referensi materi,
Mengerjakan laporan Bab 5 dan 8
Mencari dan memahami referensi materi,
Mengerjakan laporan Bab 1,2, 3, 4, 6, dan 7
Mencari dan memahami referensi materi, Melakukan
running program dengan menggunakan Weka,
Mengerjakan power point, Mengerjakan poster
13

Komparasi Metode Pre-Processing Data Dengan Menggunakan Hasil Klasifikasi Artificial Neural Network (Ann)

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Komparasi Metode Pre-Processing Data Dengan Menggunakan Hasil Klasifikasi Artificial Neural Network (Ann)

Diunggah oleh

Hak Cipta:

Format Tersedia

KOMPARASI METODE PRE-PROCESSING DATA

DENGAN MENGGUNAKAN HASIL KLASIFIKASI

2. Bagaimana perbandingan hasil ketepatan klasifikasi pada setiap kombinasi

ini adalah sebagai berikut.

website University of California, Irvine, School of Information and Computer Sciences

Tabel 4.1 Atribut Penelitian

op-inspct, Adm-clerical, Farming-fishing, Transport-moving,

penelitian ini adalah sebagai berikut.

Neuron diatas terdiri dari bagian-bagian :

Multilayer Perceptron Neural Network

Gambar 5.2 Bentuk Arsitektur Jaringan MLPNN

5.3 Data Mining dengan NN

V.3.1 Data Preparing

Tabel 6.1 Statistika Deskriptif Variabel Skala Kontinyu

Correctly Classified Instances 27837 85.4918 %

Kriesel.A brief Introdution to Neural Network.

TUGAS TIAP MAHASISWA

Saidah Zahrotul Jannah

Anda mungkin juga menyukai