LATAR BELAKANG
Pada tahun 1996 Amerika Serikat mengadakan survey penduduk untuk mengetahui
karakteristik penduduk yang mampu menghasilkan uang lebih dari $50.000. Pada saat itu
rata-rata pendapatan dari penduduk United States mencapai sekitar $49.000, sehingga biro
sensus Amerika Serikat menjadikan angka $50.000 menjadi acuan untuk mengetahui kondisi
pendapatan penduduknya.
Pemerintah Amerika Serikat mengklasifikasikan penduduknya dengan menggunakan
beberapa variabel yang dapat mengelompokkannya. Variabel-variabel yang digunakan
tersebut mempunyai kuantitas yang besar serta data yang dikumpulkan juga berukuran besar.
Oleh karena itu, diperlukan suatu metode yang dapat mengklasifikasikan suatu observasi
berdasarkan variabel-variabel yang banyak dengan ukuran data yang besar.
Salah satu metode yang dapat digunakan adalah Artificial Neural Network (ANN).
Metode tersebut dapat digunakan sebagai pengklasifikasian dimana pola pengklasifikasian
tersebut tidak linear. Selain itu, dengan menggunakan metode tersebut unit individu akan
dihubungkan bersama untuk membentuk perhitungan yang kompleks. Atribut-atribut yang
digunakan dalam analisis ini mempunyai pola klasifikasi yang tidak linear, sehingga dalam
ANN digunakan Multilayer Perceptron. Dalam metode ini, akan terdapat hidden layer dalam
struktur ANN yang digunakan.
Data yang digunakan dalam analisis ini merupakan data yang berukuran besar,
sehingga perlu diperhatikan pre-processing data sebelum dilakukan analisis lebih lanjut. Preprocessing ini akan membantu untuk mendapatkan hasil ketepatan klasifikasi yang lebih baik.
Untuk mendapatkan hasil pre-processing yang baik, maka dalam analisis ini akan dilakukan
perbandingan dengan menggunakan hasil ketepatan klasifikasi sebagai nilai yang
diperhatikan.
II.
PERMASALAHAN
Permasalahan yang akan dibahas dalam penelitian ini adalah sebagai berikut.
1. Bagaimana deskripsi pada atribut-atribut klasifikasi pada data sensus pendapatan
United States?
1
TUJUAN
Berdasarkan permasalahan yang akan dibahas dalam penelitian ini, tujuan penelitian
METODOLOGI PENELITIAN
SUMBER DATA
Data yang digunakan dalam penelitian ini merupakan data sekunder yang diambil dari
VARIABEL PENELITIAN
Data penelitian tersebut merupakan data sensus pendapatan yang terdiri dari 15
variabel. Berikut ini adalah variabel yang digunakan dalam penelitian ini adalah sebagai
berikut.
No
1
Atribut
Age
Workclass
Final Weight
Education
Education-Num
Marital-Status
Occupation
Relationship
Hubungan
Responden
Race
Ras Responden
10
Sex
11
12
Capital-Gain
Capital-Loss
13
Hours-Per-Week
14
4.3
Native-Country
Jenis Kelamin
Responden
Modal Untung
Modal Rugi
Banyak Jam Kerja
Per Minggu
Responden
Negara Asal
LANGKAH PENELITIAN
Pada penelitian ini dilakukan beberapa Langkah-langkah yang dilakukan dalam
penanganan missing value tersebut dengan cara dilangkan, maka instances yang
diolah menjadi sebanyak 30162.
b. Outlier
Outlier merupakan data unik yang nilainya berbeda dari nilai-nilai data yag
lainnya. Outlier dapat menambah informasi dalam penggalian data atau dapat pula
mengurangi informasi yang ada. Oleh karena itu, dalam data penelitian ini dilakukan
dua penanganan terhadap data outlier, yaitu tetap mempertahankannya dan
menghilangkan data outliernya. Jika missing value diatasi dengan imputasi dan outlier
dihilangkan, maka akan terdapat 28876 instances. Namun jika missing value
dihilangkan dan outlier juga dihilangkan, maka akan terdapat 26933 instances.
c. Feature selection
Data sensus pendapatan yang digunakan dalam penelitian ini mempunyai 15
atribut. Oleh karena itu, diperlukan feature selection pada tahap pre-processing data
agar mendapatkan hasil klasifikasi yang lebih optimal. Metode yang digunakan dalam
feature selection ini adalah dengan menggunakan filter dan wrapper.
Pada metode wrapper akan diketahui atribut mana saja yang dapat digunakan.
Namun pada metode filter akan muncul ranking yang mengurutkan atribut-atribut
tersebut sehingga peneliti dapat menggunakan atribut tersebut sesuai dengan
rankingnya.
3. Melakukan klasifikasi
Penelitian ini menggunakan Artificial Neural Network (ANN) pada
klasifikasinya. Algoritma yang digunakan dalam ANN ini adalah backpropagation.
4. Membandingkan hasil klasifikasi yang terbentuk antar integrasi pre-processing.
Pada penelitian ini akan diketahui perbandingan dari beberapa integrasi preprocessing yang terbentuk untuk mengatahui pre-processing mana yang akan
mendapatkan hasil ketepatan klasifikasi yang lebih baik. Berikut ini adalah beberapa
integrasi pre-processing tersebut.
No
1
2
3
4
5
6
7
8
5.
Integrasi Pre-Processing
Missing value diimputasi, outlier dipertahankan, dan feature selection dengan filter
Missing value diimputasi, outlier dihilangkan, dan feature selection dengan filter
Missing value diimputasi, outlier dipertahankan, dan feature selection dengan wrapper
Missing value diimputasi, outlier dihilangkan, dan feature selection dengan wrapper
Missing value dihilangkan, outlier dipertahankan, dan feature selection dengan filter
Missing value dihilangkan, outlier dihilangkan, dan feature selection dengan filter
Missing value dihilangkan, outlier dipertahankan, dan feature selection dengan wrapper
Missing value dihilangkan, outlier dihilangkan, dan feature selection dengan wrapper
Menginterpretasikan output neural network pada hasil ketepatan klasifikasi yang
terbesar.
Setelah mengetahui hasil ketepatan yang lebih baik berdasarkan integrasi preprocessing tersebut, dapat dilakukan interpretasi output dari hasil yang didapatkan.
6. Penarikan kesimpulan
Kesimpulan didapatkan berdasarkan hasil analisis yang telah dilakukan
V.
METODE
5.1 Artificial neural Network (ANN)
Artificial Neural Network (ANN) atau Jaringan Syaraf Tiruan adalah system
pemrosesan informasi yang memiliki karakteristik menyerupai jaringan syaraf biologis yang
dibentuk sebagai generalisasi model matematis dari jaringan syaraf biologis. Sistem ini
memiliki kemampuan untuk mengenali sesuatu yang pernah dialami atau dikenal, dengan
kata lain sistem ini dapat melakukan proses pembelajaran terhadap sesuatu. Proses
pembelajaran pada ANN adalah proses penambahan pengetahuan pada sistem yang bersifat
kontinyu, yang nantinya akan digunakan sebagai referensi untuk mengenali suatu objek.
Mekanisme pemrosesan informasi yang dimiliki sistem ini dilakukan di neuron, lalu hasil
pemrosesan tersebut diteruskan dari satu neuron ke neuron yang lain melalui penghubung
sampai mencapai output yang diinginkan. Berikut ini merupakan bentuk dasar dari neuron.
Gambar 5.1 Bentuk Dasar Neuron
Suatu jaringan ANN dapat terdiri dari beberapa processing unit yang dapat bekerja
secara simultan dan dapat bekerja parallel
- Output, bagian yang memberikan hasil pembelajaran suatu objek atau target pembelajaran.
Setiap output dari neuron memiliki fungsi aktivasi yang menentukan apakah
informasi akan diteruskan ke neuron lain untuk diproses lagi atau tidak.
Neural network secara esensial terdiri dari tiga bagian: arsitektur atau model,
algoritma learning, dan fungsi aktivasi. neural network dapat dilatih di dataset yang sangat
besar secara iteratif. Data mining menjadi lebih berguna dengan menggabungkan
kekuatan neural network dengan perangkat statistik. Diercaya dengan gabungan ini, dapat
Menghasilkan sinergi yang penting. Neural network menyediakan benchmark model yang
baik disisi lain NN juga memiliki keunggulan lain , yaitu :
1. Akurasi yang tinggi: Neural network digunakan untuk mapping aproksimasi kompleks non
linear.
2. Toleransi terhadap noise: Neural network sangat fleksibel dengan data yang noisy.
3. Independensi dari asumsi prior:Neural network tidak membuat asumsi priori tentang
distribusi data atau bentuk interaksi dari faktorfaktor.
4. Mudah untuk dikelola: Neural network dapat diupdate dengan data yangbaru, membuat
berguna untuk lingkungan yang dinamis.
5. Neural network dapat diimplementasikan di hardware yang paralel.
6. Ketika element neural network gagal, ia dapat melanjutkan tanpa masalah karena polanya
yang paralel.
7. Neural network dapat dilatih di dataset yang sangat besar secara iteratif.
5.2
algoritma jaringan saraf tiruan yang mengadopsi cara kerja jaringan saraf pada mahluk hidup.
Algoritma ini terkenal handal karena proses pembelajaran yang mampu dilakukan secara
terarah.
Model MLPNN memiliki layer neuron tambahan selain layer input dan output,
yaitu hidden layer yang terletak di antara kedua layer tersebut. Jumlah hidden layer bervariasi
tergantung dari tingkat kesulitan permasalahan yang ditangani oleh sistem, sehingga dalam
pengaplikasiannya MLPNN lebih powerful dibandungkan dengan model ANN yang lain.
Berikut ini adalah bentuk arsitektur jaringan MLPNN.
6
Data sebelum diberi perlakuan merupakan proses peningkatan kualitas dari data yang
sudah dilakukan cleaning data diatas..
3. Data expression
Sistem manajemen database dapat menentukan berbagai jenis data, dapat menyimpulkan
jenis data yang kontinyu , numerik dikrit dan menandai data yang mempunyai tiga tipe
data. Sehingga pada tahap ini dapat menentukan jenis data yang akan dianalisis lebih
lanjut.
4. Rule Extracting
Ada banyak metode untuk ekstraksi, metode yang paling umum meliputi : metode LRE
(Link Rule Extraction), metode black box, dua nilai algoritma ekstraksi meliputi input
output (BIO-RE), dari metode jaringan rekursi ekstrak dan sebagainya.
5. Rule Assesment
Secara umum, aturan dapat dinilai sesuai dengan tujuan sebagai berikut:
1. Mencari urutan ekstraksi optimal, dan mendapatkan hasil terbaik dalam satu set data
yang diberikan;
2. Menguji kebenaran aturan yang akan diambil;
3. Tes berapa banyak pengetahuan tentang nn yang belum diambil
4. Menguji ketidakkonsistensian antara aturan yang telah di extraksi dengan data NN
yang diujikan.
VI.
HASIL PENELITIAN
6.1 Statistika Deskriptif Atribut
Statistika deskriptif merupakan langkah awal yang dilakukan dalam analisis ini guna
mengetahui karakteristik dari atribut yang digunakan. Hal ini akan memberikan informasi
mengenai kepada peneliti terkait gambaran dari responden yang digunakan untuk analisis
lebih lanjut. Berikut ini adalah statistika deskriptif dari masing-masing atribut yang berskala
kontinyu.
Nama Variabel
Age
Final Weight
Education-num
Capital-gain
Capital-loss
Hoursperweek
Standar deviasi
13,64
105549,978
2,573
7385,292
402,96
12,347
Berdasarkan Tabel 6.1 dapat diketahui bahwa pada variabel final weight mempunyai
nilai minmum sebesar 12285 dan maksimum sebesar 1484705. Jarak antara nilai minimum
dengan maksimum tersebut cukup jauh. Hal ini juga terlihat dari standar deviasinya yang
bernilai tinggi sebesar 105549,978 sementara rata-ratanya sebesar 189778,367. Oleh karena
8
itu, dapat diketahui bahwa variansi dari variabel final weight cukup besar sehingga terdapat
indikasi adanya outlier pada variabel tersebut.
Selain itu, variabel capital gain dan capital loss juga mempunyai nilai deviasi standar
yang cukup besar. Hal tersebut terlihat dari nilai minimum variabel capital gain sebesar 0
sementara nilai maksimumnya sebesar 99999. Nilai deviasi standar dari capital gain juga
sebesar 7385,292. Tidak hanya itu, variabel yang lain seperti age, educational num, dan
hoursperweek juga mempunyai ariabsi yang besar jika dilihat dari deviasi standar dannilai
minimum dan maksimumnya. Oleh karena itu, dapat diketahui bahwa terdapat indikasi
adanya outlier pada variabel-variabel tersebut.
6.2 Perbandingan Hasil Ketepatan Klasifikasi
Setelah mendapatkan karakteristik dari atribut tersebut, dilakukan pre-processing
terhadap data yang akan diolah. Pre-processing data ini akan membantu untuk mendapatkan
hasil ketepatan klasifikasi yang lebih baik. Langkah awal dalam melakukan pre-processing
tersebut adalah mengidentifikasi adanya missing value pada setiap atribut. Berikut ini adalah
tabel mengenai banyaknya missing value yang ada pada setiap atribut.
Tabel 6.2. Jumlah Missing Value Pada Setiap Atribut
Variabel
Jenis
Missing
Age
Kontinyu
1836
Workclass
Nominal
0
Final Weight
Kontinyu
0
Education
Nominal
0
Education-Num
Kontinyu
0
Marital-Status
Nominal
0
Occupation
Nominal
1843
Relationship
Nominal
0
Race
Nominal
0
Sex
Nominal
0
Capital-Gain
Kontinyu
0
Capital-Loss
Kontinyu
0
Hours-Per-Week
Kontinyu
Native-Country
Nominal
583
Berdasarkan Tabel 6.2 dapat diketahui bahwa pada variabel usia, terdapat nilai yang
missing sebanyak 1836 observasi. Kemudian pada atribut occupation dan native country
mempunyai nilai missing berturut-turut sebanyak 1843 dan 583 observasi. Hal ini
menunjukkan bahwa pada data tersebut terdapat data yang mempunyai nilai missing. Oleh
karena itu, perlu diatasi sebelum melakukan analisis lebih lanjut.
Selain mengatasi missing value, pada tahap pre-processing dalam analisis ini juga
mengatasi adanya outlier. Selain itu, atribut yang digunakan dalam analisis ini mempunyai
9
jumlah yang banyak sehingga dilakukan pula Feature Selection dalam pre-processing
datanya. Pada penelitian ini akan membandingkan beberapa integrasi pre-processing antara
cara mengatasi missing value, outlier, dan metode yang digunakan dalam feature selection.
Dalam tahap pre-processing tersebut, jumlah data yang digunakan menjadi berbeda-beda.
Berikut ini adalah jumlah data atau instances yang digunakan dalam pre-processing tersebut.
Tabel 6.3 Jumlah Data yang digunakan dalam Pre-Processing
missing
Imputasi
outlier
Tetap
hilang
Hilang
Tetap
Hilan
g
Featur
e
Selecti
wrapper
evaluati
on
32561
28876
30162
2693
3
on
Berdasarkan Tabel 6.3 dapat diketahui bahwa banyak data yang digunakan saat
preprocessing dengan melakukan imputasi pada missing value sementara outlier tetap
dimasukkan adalah sebanyak 32561, sedangkan jika outlier dihilangkan maka akan terdapat
28876 data. Kemudian jika missing value tersebut dihilangkan dan outlier tetap dimasukkan
dalam analisis maka data yang digunakan sebanyak 30162 sementara jika outlier dihilangkan
maka terdapat sebanyak 26933 data.
Pada analisis ini juga dilakukan pre-processing dengan tahap feature selection dengan
menggunakan metode wrapper dan filter. Hasil dari metode tersebut akan menunjukkan
atribut yang baik digunakan dalam analisis guna mendapatkan ketepatan klasifikasi yang
lebih baik. Berikut ini adalah variabel-variabel yang digunakan dalam analisis berdasarkan
hasil feature selection.
Tabel 6.4 Variabel yang digunakan Berdasarkan Hasil Feature Selection
Missing
Outlier
Feature Wrappe
Selection r
Filter
Imputasi
Tetap
Hilang
5,6,8,11,12
5,6,8,11,12,13
Tetap
5,6,8,11,12
Hilang
5,6,8,11,12,13
8,6,11,1,4,5,
7
8,6,11,1,4,7,5,13,
12
8,6,11,4,5,7,1,1
2
8,6,11,4,5,1,7,12,
13
Hilang
Berdasarkan Tabel 6.4 dapat diketahui bahwa atribut yang digunakan pada saat preprocessing feature selection dengan menggunakan wrapper menghasilkan atribut yang sama
meskipun missing value diatasi dengan imputasi atau dihilangkan. Perbedaannya hanya pada
cara mengatasi outliernya dengan dihilangkan atau tetap dimasukkan. Sementara itu, hasil
10
atribut yang dikeluarkan berdasarkan metode Filter menghasilkan atribut yang berbeda-beda
pada setiap penanganan missing value dan outliernya. Setelah dilakukan pre-processing, akan
dilakukan klasifikasi untuk mengetahui pre-processing mana yang cenderung memberikan
hasil ketepatan klasifikasi yang lebih baik. Berikut ini adalah hasil ketepatan klasifikasinya.
Tabel 6.5 Hasil Ketepatan Klasifikasi Berdasarkan Tahap Pre-processing
Missing
Outlier
Feature wrapper
Imputasi
Tetap
Hilang
84,3187
83,7581
Hilang
tetap
83,6516
Hilang
83,1099
83,8671
83,5332
Selectio
n
Filter
85,4918
83.6508
Berdasarkan Tabel 6.5 dapat diketahui bahwa hasil ketepatan klasifikasi tertinggi
didapatkan dari pre-processing dengan mengimputasi missing value, tetap memasukkan
outlier, dan feature selection dengan menggunakan Filter. Nilai yang didapatkan dari preprocessing tersebut adalah sebesar 85,4917%. Kemudian diketahui pula bahwa hasil
ketepatan klasifikasi terendah didapatkan dari pre-processing dengan menghilangkan missing
value dan menghilangkan data outlier serta menggunakan metode wrapper dalam feature
selection. Nilai yang didapatkan adalah sebesar 83,1099%.
Pada Tabel 6.5 juga memperlihatkan bahwa hasil klasifikasi dari proses penghilangan
baik data yang missing maupun outlier akan menghasilkan ketepatan klasifikasi yang lebih
rendah dibandingkan dengan yang diimputasi atau tetap dimasukkan dalam analisis. Hal ini
menunjukkan bahwa semakin banyak data yang tidak digunakan dalam analisis, maka
informasi yang didapatkan juga akan berkurang. Selain itu, dapat dikatakan bahwa data
tersebut merupakan data yang mempunyai informasi yang penting terhadap analisis data
tersebut. Oleh karena itu, hasil ketepatan klasifikasi dengan tidak menghilangkan data
mempunyai nilai yang lebih tinggi dibandingkan dengan yang menghilangkan.
Selain itu, pada Tabel 6.5 juga diketahui bahwa tiga dari empat hasil klasifikasi yang
menggunakan metode filter mempunyai hasil ketepatan klasifikasi yang lebih tinggi
dibandingkan dengan metode wrapper. Hal ini menunjukkan bahwa metode wrapper
cenderung memberikan hasil yang lebih rendah karena dengan metode tersebut akan
langsung diperoleh variabel mana yang dapat digunakan dalam analisis tanpa mengetahui
tingkat dari masing-masing variabel tersebut.
6.3 Interpretasi Output Neural Network
Berdasarkan perbandingan tersebut, didapatkan hasil klasifikasi yang terbesar adalah
pada pre-processing mengimputasi missing value, tetap memasukkan outlier, dan feature
11
selection dengan menggunakan Filter dengan nilai sebesar 85,4917%. Klasifikasi dengan
menggunakan metode Artificial Neural Network (ANN) mempunyai kelemahan dalam
interpretasi modelnya. Pada klasifikasi tersebut node yang terbentuk pada hidden layer dalam
neural network ini berjumlah 25. Berikut ini adalah output yang dihasilkan dari klasifikasi
tersebut.
VII.
KESIMPULAN
Kesimpulan yang dapat diambil dari analisis tersebut adalah sebagai berikut.
1. Pada atribut yang berskala kontinyu terdapat range atau jangkauan yang besar antara
nilai minimum dan maksimum. Selain itu nilai deviasi standar juga tinggi, sehingga
penyebarannya masih tidak merata atau variansi yang terjadi dalam atribut tersebut
masih tinggi. Selain itu, terdapat indikasi outlier juga pada atribut tersebut.
2. Hasil ketepatan klasifikasi tertinggi didapatkan dari pre-processing dengan
mengimputasi missing value, tetap memasukkan outlier, dan feature selection dengan
menggunakan Filter dengan nilai sebesar 85,4917%. Semakin banyak data yang
dihilangkan dalam analisis, maka informasi yang didapatkan akan semakin berkurang.
Kemudian dalam analisis ini dengan menggunakan metode filter dapat menghasilkan
ketepatan klasifikasi yang lebih baik dibandingkan dengan metode wrapper.
3. Pada klasifikasi dengna hasil ketepatan klasifikasi terbesar tersebut node yang
terbentuk pada hidden layer dalam neural network ini berjumlah 25.
VIII. DAFTAR PUSTAKA
12
David
Guoquan Jianga, C. Z. (2011). The Research of Data Mining Based on Neural Networks.
International Conference on Computer Science and Information Technology 2011.
Singapura: LACSIT Press.
Rudi hermanto. Neural Network dan Implementasinya Dalam Data Mining.Bandung.ITB
Yashpal Singh. Neural Networks In Data Mining. United Institute of Engineering
&Technology India.
IX.
No
1
Nama
Dwi Prasetya
Dio Ariadi
Tugas
Mencari dan memahami referensi materi,
Mengerjakan laporan Bab 5 dan 8
Mencari dan memahami referensi materi,
Mengerjakan laporan Bab 1,2, 3, 4, 6, dan 7
Mencari dan memahami referensi materi, Melakukan
running program dengan menggunakan Weka,
Mengerjakan power point, Mengerjakan poster
13