Anda di halaman 1dari 67

BAB 3

ANALISIS DAN PERANCANGAN SISTEM

Pada bab ini akan dijelaskan proses analisis dan perancangan sistem yang digunakan
dalam penelitian ini, dimulai dari pengumpulan data serta proses cluster-isasi pada
masing-masing dataset, sehingga alur sistem yang dirancang akan dapat dipahami
proses pembutannya.

3.1. Pengumpulan Data Pelatihan

Langkah-langkah pengumpulan data untuk penelitian ini adalah sebagai berikut:

1. Membuat rancangan data input dan output yang akan dimasukkan sebagai data
pelatihan dan pengujian. Semua sample diimplementasikan dalam tipe data
numeric dan logic. Dalam penelitian ini sample dapat memiliki noise atau
ketidak-lengkapan yang diharapkan Support Vector Backpropagation dapat
meng-analisa sample walau terdapat noise. Pada penelitian ini akan digunakan
dataset yang digunakan adalah Cleveland Heart Disease Dataset, Wisconsin
Diagnosis Breast Cancer, Iris Plants Dataset, John Hopkins University
Ionosphere Dataset.
2. Memisahkan data penelitian menjadi dua bagian, yaitu data pelatihan dan data
pengujian. Data pelatihan digunakan untuk mengamati kemampuan jaringan
dalam hal mengenali pola-pola yang telah dipelajari ( memorisasi ) sedang
data pelatihan digunakan untuk mengamati kemampuan jaringan dalam hal
mengenali pola-pola yang belum pernah dipelajari ( generalisasi ).

Universitas Sumatera Utara


Tabel 3.1 Data Penelitian

Dataset Name Dataset # #Instances Attribut Associated Area Year


Characteristics Attributes Chcracterist Tasks Donated
ics
Cleveland Heart Disease Multivariate 14 297 Categorical, Classification Life 1988
Dataset Integer, real

Iris Plants Dataset Numeric 5 150 Integer, real Classification Life 1988

John Hopkins University Multivariate 35 351 Categorical, Classification Object 1989


Ionosphere Dataset Integer, real

Wisconsi Diagnostic Breast Multivariate 10 699 Categorical, Classification Life 1995


Cancer Dataset Integer, real

Universitas Sumatera Utara


3.2. Cluster-isasi Pada Iris Plants Dataset

Dataset ini adalah salah satu dataset yang paling tua dan juga paling banyak
digunakan dalam banyak buku dan jurnal penelitian dalam data mining. Dataset ini
merupakan hasil pekerjaan dari Sir. R. A. Fisher pada tahun 1988 yang terdiri dari 4
buah feature dari sebuah bunga iris, dataset ini terdiri dari 150 sample yang terbagi
atas instance iris setosa sebanyak 50 sample, instance iris virginica sebanyak 50
sample dan instance iris versicolor sebanyak 50 sample ( Fisher, 1988 ) yang
dijelaskan secara singkat dalam tabel berikut:

Tabel 3.2 Training Sample Iris Plants Dataset

sample# Sepal Sepal Petal Petal Width Target


Length Width Length
1 5,1 3,5 1,4 0,2 Iris Setosa
… … … … … …
51 5,2 2,7 3,9 1,4 Iris Virginica
… … … … … …
120 6 3 4,8 1,8 Iris Versicolor

Berikut disertakan ringkasan dari masing-masing attribut dalam Iris Plants Dataset,
seperti yang disajikan dalam tabel 3.3 berikut:

Tabel 3.3 Deskripsi Iris Plants Dataset

Attribute Attribute Standard


Max Min Mean
Name Type Deviasi
sepal length real 7,9 4,3 5,8433 0,8281

sepal width real 4,4 2 3,0540 0,4336

petal length real 6,9 1 3,7587 1,7644


petal width real 2,5 0,1 1,1987 0,7632

class categorical 1 0 N/A N/A

Universitas Sumatera Utara


Proses cluster pada Iris Plants Dataset diawali dengan penentuan kernel yang
digunakan yaitu radial basis function, pertimbangan penggunaan kernel ini adalah
kenyataan bahwa dataset di cluster secara non-linear, berikut akan dijelaskan pada
proses cluster pada Iris Plants Dataset:

Berikut adalah contoh proses cluster pada sebuah sample bunga iris:
sepal length = 5,1
sepal width = 4,9
petal length = 4,7
petal width = 4,6
sehingga x = [5,1 4,9 4,7 4,6] akan di-cluster terhadap beberapa landmark yang ada,
yaitu:

Dengan menggunakan standard deviasi = 0,8441, menggunakan persamaan (2.10)


maka:

Untuk kemudian diolah dalam komputer menggunakan MATLAB R2010a


dalam perhitungan me-minimisasi nilai pada fungsi pada persamaan (2.12)
untuk mendapatkan kesimpulan bahwa sample x termasuk dalam class yang dimiliki
oleh , dan . Berikut akan disajikan dalam tabel hasil dari seluruh perhitungan
proses cluster pada training sample dan landmark pada Iris Plants Dataset:

Universitas Sumatera Utara


Tabel 3.4 Cluster Pada Iris Plants Dataset

sample 1 2 3 … 51 52 53 … 101 102 103


1 1 0,5 0.7 … 0,02 0 0,022 … 0 0 0
2 0,5 1 0.8 … 0,08 0,02 0,03 … 0,002 0 0
3 0,7 0,87 1 … 0,04 0,006 0,02 … 0 0 0
… … … … … … … … … … … …
51 0,02 0,08 0,04 … 1 0,23 0,5 … 0,27 0,02 0,5
52 0,0009 0,02 0,006 … 0,23 1 0,03 … 0,25 0 0,04
53 0,02 0,03 0,02 … 0,54 0,03 1 … 0,17 0,18 0,63
… … … … … … … … … … … …
101 0,0002 0,002 0,006 … 0,27 0,25 0,17 … 1 0,02 0,28
102 0,0001 0,0001 0 … 0,02 0 0,18 … 0,02 1 0,1
103 0,0021 0,005 0,003 … 0,54 0,04 0,63 … 0,28 0,16 1

keterangan:

= instance iris setosa

= instance iris versicolor

= instance iris virginica

= sample dengan nilai similarity function = 1

Hasil cluster-isasi didapat bahwa dalam Iris Plants Dataset terdapat 50 sample
termasuk dalam class iris setosa, 50 sample termasuk dalam class iris versicolor dan
50 sample termasuk dalam class iris virginica.

Universitas Sumatera Utara


3.3. Cluster-isasi Pada Wisconsin Diagnostic Breast Cancer Dataset

Wisconsin Diagnostic Breast Cancer Dataset pertama sekali diteliti dalam hasil
penelitian yang dituangkan dalam jurnal ilmiah oleh O.L. Mangasarian, W.N. Street
dan W.H. Wolberg pada tahun 1995, dataset ini awalnya terdiri dari 30 input features
yang kemudian telah direduksi oleh para peneliti selama ini menjadi hanya 10 input
features antara lain: radius, perimeter, area, smoothness, compactness, concavity,
concave points, symmetry, fractal dimension yang keseluruhan nilainya didapat dari
hasil komputerisasi dari sebuah gambar fine needle aspirate ( FNA ) dari sebuah
breast mass yang telah dikomputerisasi untuk dapat diketahui apakah sample tersebut
termasuk dalam class benign ataupun malignant ( Wollberg et al, 1995 ). Berikut
adalah deskripsi dari Wisconsin Diagnostic Breast Cancer Dataset:

Universitas Sumatera Utara


Tabel 3.5 Training Sample Wisconsin Diagnostic Breast Cancer Dataset

sample# radius texture perimeter area smotth compactne concav concave symmet Target
ness point ry

1 5 1 1 1 2 1 3 1 1 Malignant

2 5 4 4 5 7 10 3 2 1 Malignant

… … … … … … … … … … …

484 8 7 8 5 5 10 9 10 1 Benign

… … … … … … … … … … …

606 10 5 10 3 5 8 7 8 3 Benign

Universitas Sumatera Utara


Berikut disertakan ringkasan dari masing-masing attribut dalam Wisconsin Diagnostic
Breast Cancer Dataset, seperti yang disajikan dalam tabel 3.6 berikut:

Tabel 3.6 Deskripsi Wisconsin Diagnostic Breast Cancer Dataset

Attribute Attribute Standard


Max Min Mean
Name Type Deviasi
radius real 10 1 4,4500 2,8243
texture real 10 1 3,1206 3,0228
perimeter real 10 1 3,1985 2,9443
area real 10 1 2,8088 2,8557
smoothness real 10 1 3,2265 2,2328
compactness real 10 1 3,5441 3,6429
concavity real 10 1 3,4397 2,4069
concave real 10 1 2,8647 3,0570
points
symmetry real 10 1 1,5809 1,7057
class categorical 1 0 N/A N/A

Proses cluster pada Wisconsin Diagnostic Breast Cancer Dataset


menggunakan Support Vector Machine dengan menggunakan radial basis function
sebagai kernel sama seperti proses cluster pada Iris Plants Dataset yang telah
dilakukan pada BAB 3, proses cluster pada Wisconsin Diagnostic Breast Cancer
Dataset menggunakan 9 features yang akan dihitung nilai similarity nya untuk dapat
menentukan apakah sebuah sample breast cancer termasuk dalam class benign
ataupun malignant, pada banyak percobaan semakin banyak feature yang akan
dihitung nilai similarity-nya maka akan semakin sulit ditemukan cluster-nya seperti
yang terlihat pada proses berikut:

Universitas Sumatera Utara


Berikut adalah contoh proses cluster pada sebuah training sample pada Wisconsin
Diagnostic Breast Cancer Dataset:
radius = 5
texture = 1
perimeter = 1
area = 1
smootness = 2
compactness = 1
concavity = 3
concave points = 1
symmetry = 1
sehingga didapat x = [5 1 1 1 2 1 3 1 1] yang akan di-cluster terhadap beberapa
landmark yang ada, yaitu:

Dengan menggunakan nilai standard deviasi = 2,8 maka proses perhitungan similarity
function pada persamaan (2.10) adalah sebagai berikut:

Untuk kemudian diolah dalam komputer menggunakan MATLAB R2010a


dalam perhitungan me-minimisasi nilai pada fungsi pada persamman (2.12)
untuk mendapatkan kesimpulan bahwa sample x termasuk dalam class yang dimiliki
oleh . Berikut akan disajikan dalam tabel hasil dari seluruh perhitungan proses
cluster pada training sample dan landmark pada Wisconsin Diagnostic Breast Cancer
Dataset:

Universitas Sumatera Utara


Tabel 3.7 Cluster Pada Wisconsin Diagnostic Breast Cancer Dataset

Sample 1 250 455 653 … 13 280 474 531


1 1 0,77 0,29 0,86 … 0,2 0 0,66 0
250 0,77 1 0,48 0,67 … 0,18 0 0,66 0
455 0,29 0,48 1 0,35 … 0,07 0 0,56 0
653 0,86 0,67 0,35 1 … 0,24 0 0,81 0
… … … … … … … … … …
13 0,2 0,18 0,07 0,24 … 1 0 0,1 0,01
280 0 0 0 0 … 0 1 0 0
474 0,6 0,66 0,56 0,81 … 0 0 1 0
531 0 0 0 0 … 0 0 0 1

keterangan:
= instance benign
= sample dengan nilai similarity function = 1

Hasil cluster-isasi didapat bahwa dalam Wisconsin Diagnostic Breast Cancer Dataset
terdapat 357 sample termasuk dalam class benign, dan 212 sample termasuk dalam
class malignant.

3.4. Cluster-isasi Pada Cleveland Heart Disease Dataset

Cleveland Heart Disease adalah dataset yang berkaitan dengan diagnosis penyakit
jantung, dataset ini merupakan hasil pengumpulan data oleh Robert Detrano pada
tahun 1989 terdiri dari 76 input features yang telah direduksi menjadi 14 input
features ( Detrano, 1988 ) dimana seluruh nilai attributnya adalah numeric antara lain:
age, sex, chest pain type, resting blood pressure, serum cholesterol in mg/dl, fasting
blood sugar>120 mg/dl, resting electrocardiographic result, maximum heart rate
achieved, exercise induced angina, ST depression induced by exercise relative to rest,
the slope of the peak exercise ST segment, number of major vessels ( 0-3 ) colored by
florousopy, heart rate, diagnosis of heart disease. Berikut disajikan tabel deskripsi
Cleveland Heart Disease Dataset:

Universitas Sumatera Utara


Tabel 3.8 Training Sample Cleveland Heart Disease Dataset

Sample age sex cp trest chol fbs rest thala exang oldpeak slope ca thal Target
# c c
2 67 1 4 160 286 0 2 108 1 1,5 2 3 3 Positif
Sakit
Jantung
… … … … … … … … … … … … … … …
91 62 0 4 160 164 0 2 145 0 6,2 3 3 7 Positif
Sakit
Jantung

… … … … … … … … … … … … … … …
147 41 1 3 112 250 0 0 179 0 0 1 0 3 Negatif
Sakit
Jantung

… … … … … … … … … … … … … … …
250 64 1 4 128 263 0 0 105 1 0,2 2 1 7 Negatif
Sakit
Jantung

Universitas Sumatera Utara


Berikut disertakan ringkasan dari masing-masing attribut dalam Cleveland Heart
Disease Dataset, seperti yang disajikan dalam tabel 3.9 berikut:

Tabel 3.9 Deskripsi Cleveland Heart Disease Dataset

Attribute Attribute Standard


Max Min Mean
Name Type Deviasi
age integer 77 29 54,5421 9,0497
sex logical 1 0 N/A N/A
cp integer 4 1 3,1582 0,9649
trestbps integer 200 94 131,6936 17.7628
chol integer 564 126 247,3502 51,9976
fbs logical 1 0 N/A N/A
restecg logical 2 0 N/A N/A
thalach integer 202 71 149,5993 22,9416
exang logical 1 0 N/A N/A
oldpeak real 6,2 0 1,0556 1,1661
slope categorical 3 1 N/A N/A
ca categorical 3 0 N/A N/A
thal categorical 7 0 N/A N/A
class categorical 1 0 N/A N/A

Proses cluster pada Cleveland Heart Disease Dataset menggunakan Support


Vector Machine dengan menggunakan radial basis function sebagai kernel sama
seperti proses cluster pada Iris Plants Dataset yang telah dilakukan pada BAB 3
dengan menggunakan, proses cluster pada Cleveland Heart Disease Dataset
menggunakan 14 features yang akan dihitung nilai similarity nya untuk dapat
menentukan apakah sebuah sample terindikasi penyakit jantung atau tidak. Berikut
disajikan proses cluster pada Cleveland Heart Disease Dataset:

Universitas Sumatera Utara


Berikut adalah contoh proses cluster pada sebuah training sample pada Cleveland
Heart Disease Dataset:
age = 63
sex = 1
cp = 1
trestbps = 145
chol = 233
fbs =1
restecg = 2
thalach= 150
exang = 0
oldpeak = 2,3
slope = 3
ca = 0
thal = 6
sehingga didapat x = [63 1 1 145 233 1 2 150 0 2,3 3 0 6] yang akan di-cluster
terhadap beberapa landmark yang ada, yaitu:

Dengan menggunakan nilai standard deviasi = 1,1 maka proses perhitungan similarity
function pada persamaan (2.10) adalah sebagai berikut:

Universitas Sumatera Utara


Untuk kemudian diolah dalam komputer menggunakan MATLAB R2010a
dalam perhitungan me-minimisasi nilai pada fungsi pada persamman (2.12)
untuk mendapatkan kesimpulan bahwa sample x termasuk dalam class yang dimiliki
oleh , . Berikut akan disajikan dalam tabel hasil dari seluruh perhitungan proses
cluster pada training sample dan landmark pada Cleveland Heart Disease Dataset:

Tabel 3.10 Cluster Pada Cleveland Heart Disease Dataset

sample 3 25 63 77 … 2 91 180 244


3 1 0,55 0,28 0,3 … 0 0 0 0
25 0,55 1 0,54 0,29 … 0 0 0 0
63 0,28 0,54 1 0,06 … 0 0 0 0
77 0,3 0,29 0,06 1 … 0 0 0 0
… … … … … … … … … …
2 0 0 0 0 … 1 0,5 0,41 0,44
91 0 0 0 0 … 0,5 1 0,38 0,26
180 0 0 0 0 … 0,41 0,38 1 0,61
244 0 0 0 0 … 0,44 0,26 0,61 1

keterangan:
= instance positif sakit jantung
= instance negatif sakit jantung
= sample dengan similarity function = 1

Hasil cluster-isasi didapat bahwa dalam Cleveland Heart Disease Dataset terdapat 164
sample termasuk dalam class positif terkena penyakit jantung, dan 139 sample
termasuk dalam class negative terkena penyakit jantung.

Universitas Sumatera Utara


3.5. Cluster-isasi Pada John Hopkins University Ionosphere Dataset

John Hopkins University Ionosphere Dataset adalah sebuah dataset yang dikumpulkan
oleh Vince Sigillito pada tahun 1989 yang bersumber dari Space Physics Group
Applied Physics Laboratory John Hopkins University terdiri dari 35 input features
dari rangakaian 16 antenna frekuensi tinggi dengan total energi yang dialirkan pada
tingkat 6,4 kilowatts ( Sigillito, 1989 ). Target pada dataset ini adalah elektron bebas
pada ionosphere yang menunjukkan kondisi baik jika masih terdapat elektron bebas
pada ionosphere dan menunjukkan kondisi buruk jika sebaliknya. Berikut disajikan
deskripsi John Hopkins University Ionosphere Dataset:

Universitas Sumatera Utara


Tabel 3.11 Training Sample John Hopkins University Ionosphere Dataset

15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35

-0,3 0,8 -0,3 0,5 -0,3 0,5 -0,2 0,3 -0,4 0,5 -0,5 0,4 -0,4 0,2 -0,3 0,4 -0,5 -0,5 0,1 -0,4 Good

… … … … … … … … … … … … … … … … … … … … …

0 0,8 0 1 0 0,6 0 0,7 0,1 0,8 -0,1 0,8 0 1 0,2 0,7 0 0 0,7 0 Good

… … … … … … … … … … … … … … … … … … … … …

0,2 0 0,3 0 0,2 0,2 0 0 0,2 0 0,2 0 0,2 -0,1 0,1 0 0,3 0,3 -0,1 0,2 Bad

… … … … … … … … … … … … … … … … … … … … …

-0,1 0 0 -1 -1 0 0 1 -1 0 0 1 0,2 0 0 0 0 0 0 0 Bad

Universitas Sumatera Utara


radar# 1 2 3 4 5 6 7 8 9 10 11 12 13 14
sample#
1 1 0 0,9 -0,05 0,8 0,8 -0,3 1 0 0,8 -0,1 0,5 -0,4 0,6

… … … … … … … … … … … … … … …

178 1 0 0,9 0,2 -0,1 0,7 0,2 0,8 0 0,9 0 0,8 0,1 0,7

… … … … … … … … … … … … … … …

237 1 0 0,3 0,1 0,07 0,2 0,2 0,2 0,1 0,1 0,2 0,2 0,3 0

… … … … … … … … … … … … … … …

253 1 0 0 0 0 0 0 -1 1 0 0 1 0,3 -0,1

Universitas Sumatera Utara


Berikut disertakan ringkasan dari masing-masing attribut dalam John Hopkins
University Ionosphere Dataset, seperti yang disajikan dalam tabel 3.12 berikut:

Tabel 3.12 Deskripsi John Hopkins University Ionosphere Dataset

Attribute Attribute Standard


Max Min Mean
Name Type Deviasi
radar 1 real 1 0 0,8733 0,3112
radar 2 real 0 0 0 0
radar 3 real 1 -1 0,6110 0,4977
radar 4 real 1 -1 0,0258 0,4414
radar 5 real 1 -1 0,5705 0,5199
radar 6 real 1 -1 0,0989 0,4608
radar 7 real 1 -1 0,5332 0,4927
radar 8 real 1 -1 0,0858 0,5207
radar 9 real 1 -1 0,5103 0,5071
radar 10 real 1 -1 0,1592 0,4839
radar 11 real 1 -1 0,4891 0,5635
radar 12 real 1 -1 0,1311 0,4948
radar 13 real 1 -1 0,4165 0,6222
radar 14 real 1 -1 0,0707 0,4949
radar 15 real 1 -1 0,3609 0,6528
radar 16 real 1 -1 0,0617 0,4584
radar 17 real 1 -1 0,4033 0,6180
radar 18 real 1 -1 -0,0045 0,4968
radar 19 real 1 -1 0,3726 0,6263
radar 20 real 1 -1 -0,0154 0,5191
radar 21 real 1 -1 0,3321 0,6098
radar 22 real 1 -1 0,0390 0,5182
radar 23 real 1 -1 0,3511 0,6038
radar 24 real 1 -1 -0,0357 0,5275
radar 25 real 1 -1 0,3779 0,5785

Universitas Sumatera Utara


radar 26 real 1 -1 -0,0486 0,5085
radar 27 real 1 -1 0,53524 0,5162
radar 28 real 1 -1 -0,0533 0,5500
radar 29 real 1 -1 0,3360 0,5759
radar 30 real 1 -1 -0,0170 0,5080
radar 31 real 1 -1 0,3049 0,5715
radar 32 real 1 -1 0,0065 0,5136
radar 33 real 1 -1 0,3037 0,5227
radar 34 real 1 -1 0,0175 0,4683
class categorical 1 0 N/A N/A

Proses cluster pada John Hopkins University Ionosphere Dataset


menggunakan Support Vector Machine dengan menggunakan radial basis function
sebagai kernel sama seperti proses cluster pada Iris Plants Dataset yang telah
dilakukan pada BAB 3, proses cluster pada John Hopkins University Ionosphere
Dataset menggunakan 34 features yang akan dihitung nilai similarity nya untuk dapat
menentukan apakah sebuah sample dalam kondisi baik atau buruk. Berikut disajikan
proses cluster pada John Hopkins University Ionosphere Dataset:
Berikut adalah contoh proses cluster pada sebuah training sample pada John Hopkins
Ionosphere Dataset:
radar1 = 1 radar8 = -0,3 radar15 = 0,6 radar22 = -0,2 radar29 =0,2
radar2 = 0 radar9 = 1 radar16 = -0,3 radar23 =0,3 radar30 =-0,3
radar3 = 0,9 radar10 = 0,03 radar17 = 0,8 radar24 =-0,4 radar31 =0,4
radar4 = -0,05 radar11 = 0,8 radar18 = -0,3 radar25 =0,5 radar32 =-0,5
radar5 = 0,8 radar12 = -0,1 radar19 = 0,5 radar26 =-0,5 radar33 =0,1
radar6 = 0,02 radar13 = 0,5 radar20 = -0,3 radar27 =0,4 radar34 =-0,4
radar7 = 0,8 radar14 = -0,4 radar21 = 0,5 radar28 =-0,4
yang akan di-cluster pada beberapa landmark yang ada:

Universitas Sumatera Utara


Training sample akan di-cluster terhadap landmark menggunakan standard deviasi =
0,5 pada persamaan (2.10), sehingga akan diperoleh nilai similarity function sebagai
berikut:

Untuk kemudian diolah dalam komputer menggunakan MATLAB R2010a


dalam perhitungan me-minimisasi nilai pada fungsi pada persamaan (2.12)
untuk mendapatkan kesimpulan bahwa sample x termasuk dalam class yang dimiliki
oleh , , . Berikut akan disajikan dalam tabel hasil dari seluruh perhitungan
proses cluster pada training sample dan landmark pada John Hopkins University
Ionosphere Dataset:

Universitas Sumatera Utara


Tabel 3.13 Cluster Pada John Hopkins University Ionosphere Dataset

sample 1 4 9 11 … 2 7 22 28
1 1 0,68 1 0,42 … 0 0 0 0
4 0,68 1 1 0,42 … 0 0 0 0
9 1 1 1 0,42 … 0 0 0 0
11 0,42 0,42 0,42 1 … 0 0 0 0
… … … … … … … … … …
2 0 0 0 0 … 1 0,32 0,98 0,68
7 0 0 0 0 … 0,32 1 0,22 0,06
22 0 0 0 0 … 0,98 0,22 1 0,78
28 0 0 0 0 … 0,68 0,06 0,78 1

keterangan:
= instance tidak ada electron bebas pada ionosphere
= instance ada electron bebas pada ionosphere
= sample dengan nilai similarity function = 1

Hasil cluster-isasi didapat bahwa dalam John Hopkins University Ionosphere Dataset
terdapat 174 sample termasuk dalam class kondisi baik, dan 126 sample termasuk
dalam class kondisi baik.

3.6. Konfigurasi Support Vector Backpropagation

Setelah seluruh dataset di-cluster pada masing-masing class, maka langkah


selanjutnya adalah merancang konfigurasi Support Vector Backpropagation yang di-
setting secara unik pada masing-masing dataset, berikut disajikan konfigurasi Support
Vector Backpropagation yang digunakan dalam penelitian ini:

1. Konfigurasi Support Vector Backpropagation pada Iris Plants Dataset


Konfigurasi Support Vector Backpropagation pada Iris Plants Dataset
menggunakan jaringan syaraf tiruan dengan 4 buah neuron input dengan 1
buah hidden layer dengan 4 buah neuron dengan 2 buah neuron pada output

Universitas Sumatera Utara


layer beserta property khusus yang digunakan Support Vector
Backpropagation seperti yang dijelaskan dalam tabel berikut:

Tabel 3.14 Konfigurasi Support Vector Backpropagation Pada Iris Plants


Dataset

Backpropagation Segment
Input layer 4 neurons
Hidden layer 4 neurons
Output layer 2 neurons
Bobot layer pertama Matriks 4 baris x 5 kolom
Bobot layer kedua Matriks 2 baris x 5 kolom
Fungsi aktivasi Sigmoid biner
Learning rate 0.02
Tolerance function 1.0e-8
Fungsi minimisasi fmincg
Support Vector Machine Segment
Fungsi kernel Radial Basis Function
Showplot True

x11 x12 x13 x14

x21 x22 x23 x24

x31 x32

SVM

Ouput

Gambar 3.1 Arsitektur Support Vector Backpropagation Pada Iris Plants


Dataset

Universitas Sumatera Utara


2. Konfigurasi Support Vector Backpropagation pada Wisconsin Diagnostic
Breast Cancer Dataset
Konfigurasi Support Vector Backpropagation pada Wisconsin Diagnostic
Breast Cancer Dataset menggunakan jaringan syaraf tiruan dengan 9 buah
neuron pada input layer dan 5 buah neuron pada hidden layer dan 2 buah
neuron pada output layer beserta property khusus yang digunakan dalam
Support Vector Backpropagation seperti yang dijelaskan pada tabel berikut:

Tabel 3.15 Konfigurasi Support Vector Backpropagation Pada Wisconsin


Diagnostic Breast Cancer Dataset

Backpropagation Segment
Input layer 9 neurons
Hidden layer 5 neurons
Output layer 2 neurons
Bobot layer pertama Matriks 5 baris x 9 kolom
Bobot layer kedua Matriks 2 baris x 6 kolom
Fungsi aktivasi Sigmoid biner
Learning rate 0.02
Tolerance function 1.0e-8
Fungsi minimisasi fmincg
Support Vector Machine Segment
Fungsi kernel Radial Basis Function
Showplot True

Universitas Sumatera Utara


x11 x12 x13 x14 x15 ... x17 x18 x19

x21 x22 x23 x24 x25

x31 x32

SVM

Ouput

Gambar 3.2 Arsitektur Support Vector Backpropagation Pada Wisconsin


Diagnostic Breast Cancer Dataset

3. Konfigurasi Support Vector Backpropagation pada Cleveland Heart Disease


Dataset
Konfigurasi Support Vector Backpropagation pada Cleveland Heart Disease
Dataset menggunakan jaringan syaraf tiruan dengan 13 buah neuron pada
input layer dan 7 buah neuron pada hidden layer dan 2 buah neuron pada
output layer serta beberapa property khusus yang digunakan pada Support
Vector Backpropagation seperti yang dijalskan pada tabel berikut:

Universitas Sumatera Utara


Tabel 3.16 Konfigurasi Support Vector Backpropagation Pada Cleveland
Heart Disease Dataset

Backpropagation Segment
Input layer 13 neurons
Hidden layer 7 neurons
Output layer 2 neurons
Bobot layer pertama Matriks 7 baris x 14 kolom
Bobot layer kedua Matriks 2 baris x 8 kolom
Fungsi aktivasi Sigmoid biner
Learning rate 0.02
Tolerance function 1.0e-8
Fungsi minimisasi fmincg
Support Vector Machine Segment
Fungsi kernel Radial Basis Function
Showplot True

x11 x12 x13 x14 x15 ... x111 x112 x113

x21 x22 x23 x24 x25 x26 x27

x31 x32

SVM

Ouput

Gambar 3.3 Arsitektur Support Vector Backpropagation Pada Cleveland


Heart Disease Dataset

Universitas Sumatera Utara


4. Konfigurasi Support Vector Backpropagation pada John Hopkins University
Ionosphere Dataset
Konfigurasi Support Vector Backpropagation pada John Hopkins University
Ionosphere Dataset menggunakan jaringan syaraf tiruan dengan 34 buah
neuron pada input layer, 17 neuron pada hidden layer, dan 2 buah neuron
pada output layer beserta property khusus pada Support Vector
Backpropagation seperti yang disajikan dalam tabel berikut:

Tabel 3.17 Konfigurasi Support Vector Backpropagation Pada John


Hopkins University Ionosphere Dataset

Backpropagation Segment
Input layer 34 neurons
Hidden layer 17 neurons
Output layer 2 neurons
Bobot layer pertama Matriks 17 baris x 35 kolom
Bobot layer kedua Matriks 2 baris x 18 kolom
Fungsi aktivasi Sigmoid biner
Learning rate 0.02
Tolerance function 1.0e-8
Fungsi minimisasi fmincg
Support Vector Machine Segment
Fungsi kernel Radial Basis Function
Showplot True

Universitas Sumatera Utara


x11 x12 x13 x14 x15 ... x132 x133 x134

x21 x22 x23 x24 x25 ...


x217

x31 x32

SVM

Ouput

Gambar 3.4 Arsitektur Support Vector Backpropagation Pada John


Hopkins University Ionosphere Dataset

Universitas Sumatera Utara


BAB 4

IMPLEMENTASI DAN PENGUJIAN

Pada bab ini akan dibahas hasil proses komputasi Support Vector Backpropagation
yang dilakukan menggunakan program MATLAB R2010a. MATLAB R2010a
merupakan software yang cocok dipakai sebagai alat komputasi yang melibatkan
penggunaan matriks dan vector. Fungsi-fungsi dalam paket perangkat lunak (toolbox)
Matlab R2010a dibuat untuk memudahkan perhitungan tersebut. Banyak model
jaringan syaraf tiruan dan machine learning menggunakan manipulasi matriks atau
vector dalam iterasinya. Oleh karena itu MATLAB R2010a merupakan perangkat
lunak yang cocok dipakai dalam penelitian ini.

4.1. Proses Transformasi Iris Plants Dataset Oleh Support Vector


Backpropagation

Proses transformasi Iris Plants Dataset yang memiliki 4 attributes menjadi sebuah
dataset berdimensi rendah ( 2 dimensi ) mengharuskan proses transformasi
memperhatikan persebaran data dalam dimensi ruang untuk menghindari overfitting
penyebeb kegagalan proses cluster walaupun proses ini juga bergantung dari
banyaknya sample pelatihan yang ditransformasi-kan namun diharapkan proses
transformasi tetap dapat mempertahankan tingkat akurasi yang optimal, seperti proses
transformasi sebuah sample pelatihan Iris Plants Dataset yang dilakukan oleh Support
Vector Backpropagation berikut ini:

Universitas Sumatera Utara


Tabel 4.1 Training Sample Iris Plants Dataset Sebelum Transformasi

sepal length sepal width petal length petal width Target


5,9 3 5,1 1,8 Iris Virginica

Proses transformasi yang akan dilakukan pada seluruh sample pelatihan dalam
Iris Plants Dataset seperti yang diwakili oleh proses transformasi pada sample tabel
4.1 diawali dengan penentuan bobot awal dengan nilai epsilon_init = 0,002 sesuai
dengan persamaan (2.1), sehingga didapat bobot awal jaringan syaraf tiruan sebagai
berikut:

Setelah didapat bobot awal jaringan syaraf tiruan maka dilakukan proses pembelajaran
menggunakan feedforwardpropagation pada hidden layer seperti pada persamaan
(2.2), didapat hasil sebagai berikut:

Selanjutnya nilai akan dicari nilai fungsi aktivasi-nya menggunkan sigmoid biner
seperti pada persamaan (2.3), didapat hasil sebagai berikut:

Universitas Sumatera Utara


Selanjutnya nilai akan melewati proses fordwardpropagation pada output layer
seperti pada persamaan (2.2), sehingga didapat hasil sebagai berikut:

Untuk kemudian didapatkan nilai fungsi aktivasi menggunakan fungsi sigmoid pada
output layer seperti pada persamaan (2.3), sehingga didapat hasil sebagai berikut:

Karena a3 Target, maka langkah selanjutnya adalah menghitung nilai error pada
output layer seperti pada secara backpropagation persamaan (2.6), sehingga didapat
hasil sebagai berikut:

Kemudian backpropagation dilanjutkan menuju hidden layer seperti pada persamaan


(2.7), sehingga didapat hasil:

Kemudian hitung nilai Thetagrad sesuai dengan persamaan (2.8) pada Theta1 dan
Theta2 sehingga didapat nilai Thetagrad sebagai berikut:

Universitas Sumatera Utara


Setelah didapat nilai Thetagrad maka akan dilakukan penambahan bobot jaringan syaraf
tiruan dengan learning rate ( lambda ) = 0,02 seperti pada persamaan (2.8), sehingga
didapat penambahan bobot-bobot awal sebagai berikut:

Kemudian dilakukan proses update bobot-bobot jaringan syaraf tiruan untuk


mengetahui nilai Mean Square Error seperti pada persamaan (2.5), setelah dilakukan
proses pelatihan sebanyak epochs = 30 didapat nilai Mean Square Error
terkecil=1,3814 pada bobot optimal jaringan syaraf tiruan sebagai berikut:

Dengan bobot optimal yang telah didapatakan maka kita dapat mentransformasikan
sample pada tabel 4.1 dengan cara forwardpropagation seperti pada persamaan (2.3),
sehingga didapat hasil transformasi sample pada tabel 4.1 sebagai berikut:

Universitas Sumatera Utara


Tabel 4.2 Sample Iris Plants Dataset Pada Tabel 4.1 Setelah Transformasi

Feature 1 Feature 2 Target


0,4946 0,5030 Iris Virginica

Proses transformasi yang telah dilakukan pada seluruh sample pelatihan dalam Iris
Plants Dataset, menghasilkan sebuah dataset baru hasil transformasi seperti pada tabel
berikut:

Universitas Sumatera Utara


Tabel 4.3 Training Sample Iris Plants Dataset (a) Sebelum Transformasi
(b) Sesudah Transformasi

sample# Sepal Sepal Petal Petal Width Target


Length Width Length
1 5,1 3,5 1,4 0,2 Iris Setosa
… … … … … …
6 5,4 3,9 1,7 0,4 Iris Setosa
… … … … … …
51 5,2 2,7 3,9 1,4 Iris Virginica
… … … … … …
60 6,2 2,2 4,5 1,5 Iri Virginica
… … … … … …
120 6,3 3,0 4,8 1,8 Iris Versicolor
(a)

sample# Feature 1 Feature 2 Target


1 0,4987 0,498 Iris Setosa
… … … …
6 0,4986 0,498 Iris Setosa
… … … …
51 0,4987 0,498 Iris Virginica
… … … …
60 0,4988 0,498 Iris Virginica
… … … …
120 0,4988 0,498 Iris Versicolor
(b)

Setelah proses transformasi selesai dilakukan pada seluruh sample dalam Iris Plants
Dataset, selanjutnya akan melalui proses cluster seperti pada pada persamaan (2.10),
sebagai berikut:

Universitas Sumatera Utara


Untuk kemudian diolah dalam komputer menggunakan MATLAB R2010a
dalam perhitungan me-minimisasi nilai pada fungsi pada persamaan (2.12)
untuk mendapatkan kesimpulan bahwa sample x termasuk dalam class yang dimiliki
oleh ,. Berikut akan disajikan dalam tabel hasil dari seluruh perhitungan proses
cluster :

Tabel 4.4 Cluster-isasi Pada Iris Plants Dataset Setelah Transformasi

sample# 1 6 … 51 60 … 120
1 1 0,98 … 0,03 0 … 0,01
6 0,98 1 … 0,02 0 … 0,01
… … … … … … … …
51 0,03 0,02 … 1 0,73 … 0,96
60 0 0 … 0,73 1 … 0,87
… … … … … … … …
120 0,01 0,01 … 0,96 0,87 … 1

keterangan:
= instance iris setosa
= instance iris versicolor atau iris virginica
= sample dengan nilai similarity function = 1
Setelah seluruh training sample di-transformasi kedalam low dimensional data, maka
akan diuji tingkat akurasi classifier maupun sebelum maupun sesudah dataset di-
transformasi, hasilnya dijabarkan dalam tabel 4.5 berikut:

Universitas Sumatera Utara


Tabel 4.5 Perbandingan Tingkat Ketelitian Classifier Pada Iris Plants Dataset
Sebelum Dan Sesudah Transformasi

# training akurasi (%)


# test sample
sample sebelum transformasi sesudah transformasi
30 10 100% 100%
60 10 40% 50%
90 10 100% 90%
120 10 100% 90%

Berikut disajikan grafik perbandingan tingkat ketelitian classifier sebelum dan


sesudah transformasi pada Iris Plants Dataset:

Gambar 4.1 Grafik Perbandingan Tingkat Ketelitian Classifier Iris Plants


Dataset Sebelum Dan Sesudah Transformasi

Pada gambar 4.2 berikut, disajikan visualisasi proses cluster mulai dari jumlah
training sample paling sedikit yaitu 30 training sample sampai 120 training sample:

Universitas Sumatera Utara


(a) (b)

(c) (d)

Gambar 4.2 Grafis Hasil Cluster Pada Iris Plants Dataset Sesudah Transformasi
(a) 30 Sample (b) 60 Sample (c) 90 Sample (d) 120 Sample

Terlihat pada hasil percobaan penggunaan Support Vector Backpropagation pada


klasifikasi Iris Plants Dataset pada gambar 4.2 menggunakan (a) diperoleh tingkat
ketelitian dalam melakukan cluster-isasi pada dataset yang telah ditransformasi
(hanya memiliki 2 features ) adalah sebesar 100% sementara pada dataset yang tidak
ditransformasi ( memiliki 4 features ) diperoleh tingkat ketelitian sebesar 100%,
dalam hal ini tingkat ketelitian klasifikasi pada dataset yang telah ditransformasi
(hanya memilki 2 features ) sama dengan tingkat ketelitian pada dataset yang tidak
ditransformasi ( memilki 9 features ). Pada hasil percobaan menggunakan (b)
diperoleh tingkat ketelitian dalam melakukan cluster-isasi pada dataset yang telah
ditransformasi ( hanya memiliki 2 features ) adalah sebesar 50% sementara pada
dataset yang tidak ditrasformasi ( memiliki 4 features ) diperoleh tingkat ketelitian
sebesar 40%, dalam hal ini tingkat ketelitian pada dataset yang telah ditransformasi
(hanya memiliki 2 features ) 10 % lebih tinggi daripada tingkat ketelitian pada dataset
yang tidak ditransformasi ( memiliki 4 features ). Pada hasil percobaan (c) diperoleh
tingkat ketelitian dalam melakukan cluster-isasi pada dataset yang telah
ditransformasi ( hanya memiliki 2 features ) adalah sebesar 90% sementara pada
dataset yang tidak ditransformasi ( memiliki 4 features ) diperoleh tingkat ketelitian
sebesar 100%, dalam hal ini tingkat ketelitian pada dataset yang telah ditransformasi
(hanya memiliki 2 features ) 10% lebih rendah daripada tingkat ketelitian pada dataset

Universitas Sumatera Utara


yang tidak ditransformasi ( memiliki 4 features ). Pada hasil percobaan (d) diperoleh
tingkat ketelitian dalam melakukan cluster-isasi pada dataset yang telah
ditransformasi ( hanya memiliki 2 features ) sebesar 90% sementara pada dataset yang
tidak ditransformasi ( memiliki 4 features ) diperoleh tingkat ketelitian sebesar 100%,
dalam hal ini tingkat ketelitian pada dataset yang telah ditransformasi ( hanya
memiliki 2 features ) 10% lebih rendah daripada tingkat ketelitian pada dataset yang
tidak ditransformasi ( memiliki 4 features ). Secara keseluruhan percobaan ini
menghasilkan tingkat ketelitian yang cenderung sama antara cluster-isasi pada dataset
yang telah ditransformasi ( hanya memiliki 2 features ) maupun pada dataset yang
tidak ditransformasi ( memiliki 4 features ).

4.2. Proses Transformasi Wisconsin Diagnostic Breast Cancer Dataset Oleh


Support Vector Backpropagation

Proses transformasi Wisconsin Diagnostic Breast Cancer Dataset yang memiliki 9


attributes menjadi sebuah dataset berdimensi rendah ( 2 dimensi ) mengharuskan
proses transformasi memperhatikan persebaran data dalam dimensi ruang untuk
menghindari overfitting penyebeb kegagalan proses cluster walaupun proses ini juga
bergantung dari banyaknya sample pelatihan yang ditransformasi-kan namun
diharapkan proses transformasi tetap dapat mempertahankan tingkat akurasi yang
optimal, seperti proses transformasi sebuah sample pelatihan Wisconsin Diagnostic
Breast Cancer yang dilakukan oleh Support Vector Backpropagation berikut ini:

Tabel 4.6 Training Sample Wisconsin Diagnostic Breast Cancer Dataset Sebelum
Transformasi

rad text perim area smo comp concav conca sym Target
5 10 10 10 4 10 5 6 3 Benign

Proses transformasi yang akan dilakukan pada seluruh sample pelatihan dalam
Wisconsin Diagnostic Breast Cancer Dataset seperti yang diwakili oleh proses
transformasi pada sample tabel 4.6 diawali dengan penentuan bobot awal dengan nilai

Universitas Sumatera Utara


epsilon_init = 0,002 sesuai dengan persamaan (2.1), sehingga didapat bobot awal
jaringan syaraf tiruan sebagai berikut:

Setelah didapat bobot awal jaringan syaraf tiruan maka dilakukan proses pembelajaran
menggunakan feedforwardpropagation pada hidden layer seperti pada
persamaan(2.2), didapat hasil sebagai berikut:

Selanjutnya nilai akan dicari nilai fungsi aktivasi-nya menggunkan sigmoid biner
seperti pada persamaan (2.3), didapat hasil sebagai berikut:

Selanjutnya nilai akan melewati proses fordwardpropagation pada output layer


seperti pada persamaan (2.2), sehingga didapat hasil sebagai berikut:

Untuk kemudian didapatkan nilai fungsi aktivasi menggunakan fungsi sigmoid pada
output layer seperti pada persamaan (2.3), sehingga didapat hasil sebagai berikut:

Universitas Sumatera Utara


Karena a3 Target, maka langkah selanjutnya adalah menghitung nilai error pada
output layer seperti pada secara backpropagation persamaan (2.6), sehingga didapat
hasil sebagai berikut:

Kemudian backpropagation dilanjutkan menuju hidden layer seperti pada


persamaan(2.7), sehingga didapat hasil:

Kemudian hitung nilai Thetagrad sesuai dengan persamaan (2.8) pada Theta1 dan
Theta2 sehingga didapat nilai Thetagrad sebagai berikut:

Setelah didapat nilai Thetagrad maka akan dilakukan penambahan bobot jaringan syaraf
tiruan dengan learning rate ( lambda ) = 0,02 seperti pada persamaan (2.8), sehingga
didapat penambahan bobot-bobot awal sebagai berikut:

Universitas Sumatera Utara


Kemudian dilakukan proses update bobot-bobot jaringan syaraf tiruan untuk
mengetahui nilai Mean Square Error seperti pada persamaan (2.5), setelah dilakukan
proses pelatihan sebanyak epochs = 30 didapat nilai Mean Square Error
terkecil=1,3864 pada bobot optimal jaringan syaraf tiruan sebagai berikut:

Dengan bobot optimal yang telah didapatakan maka kita dapat mentransformasikan
sample pada tabel 4.6 dengan cara forwardpropagation seperti pada persamaan (2.2),
sehingga didapat hasil transformasi sample pada tabel 4.1 sebagai berikut:

Tabel 4.7 Training Sample Wisconsin Diagnostic Breast Cancer Dataset


Pada Tabel 4.6 Setelah Transformasi

Feature 1 Feature 2 Target


0,5002 0,5028 Benign

Proses transformasi yang telah dilakukan pada seluruh training sample dalam
Wisconsin Diagnostic Breast Cancer Dataset, menghasilkan sebuah dataset baru hasil
transformasi seperti pada tabel berikut:

Universitas Sumatera Utara


Tabel 4.8 Training Sample Wisconsin Diagnostic Breast Cancer Dataset
(a) Sebelum Transformasi (b) Sesudah Transformasi

spl# rad text pe are smo com con conc sym Target
1 5 1 1 1 2 1 3 1 1 Malignant
… … … … … … … … … … …
381 1 1 1 1 2 1 1 1 1 Malignant
… … … … … … … … … … …
547 6 10 10 10 4 10 7 10 1 Benign
… … … … … … … … … … …
671 3 10 7 8 5 8 7 4 1 Benign
(a)

sample# Feature 1 Feature 2 Target


1 0,5001 0,5023 Malignant
… … … …
381 0,5 0,5023 Malignant
… … … …
547 0,5003 0,5028 Benign
… … … …
671 0,5002 0,5027 Benign
(b)

Setelah proses transformasi selesai dilakukan pada seluruh sample dalam Wisconsin
Diagnostic Breast Cancer Dataset, selanjutnya akan melalui proses cluster seperti
pada pada persamaan (2.10), sebagai berikut:

Universitas Sumatera Utara


Untuk kemudian diolah dalam komputer menggunakan MATLAB R2010a
dalam perhitungan me-minimisasi nilai pada fungsi pada persamaan (2.12)
untuk mendapatkan kesimpulan bahwa sample x termasuk dalam class yang dimiliki
oleh dan . Berikut akan disajikan dalam tabel hasil dari seluruh perhitungan
proses cluster pada training sample dan landmark pada Wisconsin Diagnostic Breast
Cancer Dataset yang telah ditransformasi:

Tabel 4.9 Cluster-isasi Pada Wisconsin Diagnostic Breast Cancer Dataset Setelah
Transformasi

sample# 1 … 381 … 547 … 671


1 1 … 0,85 … 0 … 0
… … … … … … … …
381 0,85 … 1 … 0 … 0
… … … … … … … …
547 0 … 0 … 1 … 0,7
… … … … … … … …
671 0 … 0 … 0,7 … 1

keterangan:
= instance Malignant
= instance Benign
= sample dengan similarity function = 1

Setelah seluruh training sample di-transformasi kedalam low dimensional data, maka
akan diuji tingkat akurasi classifier maupun sebelum maupun sesudah dataset di-
transformasi, hasilnya dijabarkan dalam tabel 4.10 berikut:

Universitas Sumatera Utara


Tabel 4.10 Perbandingan Tingkat Ketelitian Classifier Pada Wisconsin
Diagnostic Breast Cancer Dataset Sebelum Dan Sesudah Transformasi

# training akurasi (%)


# test sample
sample sebelum transformasi sesudah transformasi
100 10 100% 100%
200 10 100% 0%
300 10 100% 0%
400 10 100% 0%
500 10 0% 0%
600 10 0% 0%
680 10 0% 0%

Berikut disajikan grafik perbandingan akurasi classifier sebelum dan sesudah


transformasi pada Wisconsin Diagnostic Breast Cancer Dataset:

Gambar 4.3 Grafik Perbandingan Tingkat Ketelitian Classifier Wisconsin


Diagnostic Breast Cancer Dataset Sebelum Dan Sesudah Transformasi

Universitas Sumatera Utara


Pada gambar 4.4 berikut, disajikan visualisasi proses cluster mulai dari jumlah
training sample paling sedikit yaitu 100 training sample sampai 680 training sample:

(a) (b)

(c) (d)

(e) (f)

(g)

Gambar 4.4 Grafis Hasil Cluster Pada Wisconsin Diagnostic Breast Cancer
Dataset Sesudah Transformasi (a) 100 Sample (b) 200 Sample (c) 300 Sample
(d) 400 Sample (e) 500 Sample (f) 600 Sample (g) 680 Sample

Terlihat pada hasil percobaan penggunaan Support Vector Backpropagation pada


klasifikasi Wisconsin Diagnostic Breast Cancer Dataset pada gambar 4.4
menggunakan (a) diperoleh tingkat ketelitian dalam melakukan cluster-isasi pada

Universitas Sumatera Utara


dataset yang telah ditransformasi ( hanya memiliki 2 features ) adalah sebesar 100%
sementara pada dataset yang tidak ditransformasi ( memiliki 9 features ) diperoleh
tingkat ketelitian sebesar 100%, dalam hal ini tingkat ketelitian klasifikasi pada
dataset yang telah ditransformasi ( hanya memilki 2 features ) sama dengan tingkat
ketelitian pada dataset yang tidak ditransformasi ( memilki 9 features ). Pada hasil
percobaan (b) diperoleh tingkat ketelitian dalam melakukan cluster-isasi pada dataset
yang telah ditransformasi ( hanya memiliki 2 features ) adalah sebesar 0% sementara
pada dataset yang tidak ditransformasi ( memiliki 9 features ) diperoleh tingkat
ketelitian sebesar 100%, dalam hal ini klasifikasi pada dataset yang telah
ditransformasi ( hanya memiliki 2 features ) dianggap gagal dan lebih rendah 100%
daripada klasifikasi pada dataset yang tidak ditransformasi ( memiliki 9 features ).
Pada hasil percobaan (c) diperoleh tingkat ketelitian dalam melakukan cluster-isasi
pada dataset yang telah ditransformasi ( hanya memiliki 2 features ) adalah sebesar
0% sementara pada dataset yang tidak ditransformasi ( memiliki 9 features ) diperoleh
tingkat ketelitian sebesar 100%, dalam hal ini klasifikasi pada dataset yang telah
ditransformasi ( hanya memiliki 2 features ) dianggap gagal dan lebih rendah 100%
dari pada klasifikasi pada dataset yang tidak ditransformasi ( memiliki 9 features ).
Pada hasil percobaan (e) diperoleh tingkat ketelitian dalam melakukan cluster-isasi
pada dataset yang telah ditransformasi (hanya memiliki 2 features ) adalah sebesar 0%
sementara pada dataset yang tidak ditransformasi ( memiliki 9 features ) diperoleh
tingkat ketelitian sebesar 0%, dalam hal ini baik klasifikasi pada dataset yang telah
ditransformasi ( hanya memiliki 2 features ) maupun pada dataset yang tidak
ditransformasi ( memiliki 9 features ) sama-sama gagal dalam melakukan cluster-isasi
pada Wisconsin Diagnostic Breast Cancer Dataset. Pada hasil percobaan (f) diperoleh
tingkat ketelitian dalam melakukan cluster-isasi pada dataset yang telah
ditransformasi ( hanya memiliki 2 features ) adalah sebesar 0% sementara pada
dataset yang tidak ditransformasi ( memiliki 9 features ) diperoleh tingkat ketelitian
sebesar 0%, dalam hal ini baik klasifikasi pada dataset yang telah ditransformasi
(hanya memiliki 2 features ) maupun pada dataset yang tidak yang tidak
ditransformasi ( memiliki 9 features ) sama-sama gagal dalam melakukan cluster-isasi
pada Wisconsin Diagnostic Breast Cancer Dataset. Pada hasil percobaan (g) diperoleh
tingkat ketelitian dalam melakukan cluster-isasi pada dataset yang telah
ditransformasi ( hanya memilliki 2 features ) adalah sebesar 0% sementara pada

Universitas Sumatera Utara


dataset yang tidak ditransformasi ( memiliki 9 features ) diperoleh tingkat ketelitian
sebesar 0%, dalam hal ini baik klasifikasi pada dataset yang telah ditransformasi
(hanya memiliki 2 features ) maupun pada dataset yang tidak ditransformasi
(memiliki 9 features ) sama-sama gagal dalam melakukan cluster-isasi pada
Wisconsin Diagnostic Breast Cancer Dataset. Terlihat pada hasil yang disajikan dalam
tabel 4.10 bahwa transformasi yang dilakukan pada Wisconsin Diagnostic Breast
Cancer Dataset menghasilkan classifier dengan performa optimal 100% hanya pada
classifier dengan 100 training sample namun classifier yang menggunakan dataset
hasil transformasi sama sekali gagal dikarenakan kondisi overfitting dalam melakukan
classification pada jumlah training sample 200 sampai 680 sample, sementara
classifier yang menggunakan dataset yang tidak ditransformasi masih tetap mencapai
akurasi 100% pada jumlah training sample dari 100 sampai 400 sample namun tetap
mengalami kondisi overfitting pada jumlah training sample 500 sampai 680 sample.
Kegagalan Support Vector Backpropagation dalam melakukan classification
dikarenakan persebaran ( sparness ) training sample dalam feature space menjadi
sangat padat mengakibatkan semua training sample yang ada dalam feature space
mulai bercampur dan menyatu antar cluster mengakibatkan tidak mungkin ditemukan
garis pemisah (decision boundary ) pada masing-masing class.

4.3. Proses Transformasi Cleveland Heart Disease Dataset Oleh Support Vector
Backpropagation

Proses transformasi Cleveland Heart Disease Dataset yang memiliki 13 attributes


menjadi sebuah dataset berdimensi rendah ( 2 dimensi ) mengharuskan proses
transformasi memperhatikan persebaran data dalam dimensi ruang untuk menghindari
overfitting penyebeb kegagalan proses cluster walaupun proses ini juga bergantung
dari banyaknya sample pelatihan yang ditransformasi-kan namun diharapkan proses
transformasi tetap dapat mempertahankan tingkat akurasi yang optimal, seperti proses
transformasi sebuah training sample Cleveland Heart Disease Dataset yang dilakukan
oleh Support Vector Backpropagation berikut ini:

Universitas Sumatera Utara


Tabel 4.11 Training Sample Cleveland Heart Disease Dataset Sebelum
Transformasi

age sex cp trest chol fbs restecg


45 1 1 110 264 0 0

thala exang oldpeak slope ca thal Target


132 0 1,2 2 0 7 Positif Sakit Jantung

Proses transformasi yang akan dilakukan pada seluruh sample pelatihan dalam
Cleveland Heart Disease Dataset seperti yang diwakili oleh proses transformasi pada
sample tabel 4.11 diawali dengan penentuan bobot awal dengan nilai epsiloninit=0,002
sesuai dengan persamaan (2.1), sehingga didapat bobot awal jaringan syaraf tiruan
sebagai berikut:

Setelah didapat bobot awal jaringan syaraf tiruan maka dilakukan proses pembelajaran
menggunakan feedforwardpropagation pada hidden layer seperti pada persamaan
(2.2), didapat hasil sebagai berikut:

Universitas Sumatera Utara


Selanjutnya nilai akan dicari nilai fungsi aktivasi-nya menggunkan sigmoid biner
seperti pada persamaan (2.3), didapat hasil sebagai berikut:

Selanjutnya nilai akan melewati proses fordwardpropagation pada output layer


seperti pada persamaan (2.2), sehingga didapat hasil sebagai berikut:

Untuk kemudian didapatkan nilai fungsi aktivasi menggunakan fungsi sigmoid pada
output layer seperti pada persamaan (2.3), sehingga didapat hasil sebagai berikut:

Karena a3 Target, maka langkah selanjutnya adalah menghitung nilai error pada
output layer seperti pada secara backpropagation persamaan (2.6), sehingga didapat
hasil sebagai berikut:

Kemudian backpropagation dilanjutkan menuju hidden layer seperti pada


persamaan(2.7), sehingga didapat hasil:

Universitas Sumatera Utara


Kemudian hitung nilai Thetagrad sesuai dengan persamaan (2.8) pada Theta1 dan
Theta2 sehingga didapat nilai Thetagrad sebagai berikut:

Setelah didapat nilai Thetagrad maka akan dilakukan penambahan bobot jaringan syaraf
tiruan dengan learning rate ( lambda ) = 0,02 seperti pada persamaan (2.8), sehingga
didapat penambahan bobot-bobot awal sebagai berikut:

Kemudian dilakukan proses update bobot-bobot jaringan syaraf tiruan untuk


mengetahui nilai Mean Square Error seperti pada persamaan (2.5), setelah dilakukan
proses pelatihan sebanyak epochs = 50 didapat nilai Mean Square Error
terkecil=1,3851 pada bobot optimal jaringan syaraf tiruan sebagai berikut:

Universitas Sumatera Utara


Dengan bobot optimal yang telah didapatakan maka kita dapat mentransformasikan
sample pada tabel 4.1 dengan cara forwardpropagation seperti pada persamaan (2.2),
sehingga didapat hasil transformasi sample pada tabel 4.12 sebagai berikut:

Tabel 4.12 Training Sample Cleveland Heart Disease Dataset Pada Tabel 4.11
Setelah Transformasi

Feature 1 Feature 2 Target


0,5014 0,4983 Positif Sakit Jantung

Proses transformasi yang telah dilakukan pada seluruh training sample dalam
Cleveland Heart Disease Dataset, menghasilkan sebuah dataset baru hasil
transformasi seperti pada tabel berikut:

Universitas Sumatera Utara


Tabel 4.13 Training Sample Cleveland Heart Disease Dataset
(a) Sebelum Transformasi (b) Sesudah Transformasi

sample# age sex cp trest chol … thal Target


1 63 1 1 145 233 … 6 Negatif Sakit Jantung
… … … … … … … … …
90 66 1 4 120 302 … 3 Negatif Sakit Jantung
… … … … … … … …
197 59 1 1 160 273 … 3 Positif Sakit Jantung
… … … … … … … … …
249 58 1 4 146 218 … 7 Positif Sakit Jantung
(a)

sample# Feature 1 Feature 2 Target


1 0,4981 0,4954 Negatif Sakit Jantung
… … … …
90 0,4975 0,4962 Negatif Sakit Jantung
… … … …
197 0,4978 0,496 Positif Sakit Jantung
… … … …
249 0,4979 0,4957 Positif Sakit Jantung
(b)

Setelah proses transformasi selesai dilakukan pada seluruh training sample dalam
Cleveland Heart Disease Dataset, selanjutnya akan melalui proses cluster seperti pada
pada persamaan (2.10), sebagai berikut:

Universitas Sumatera Utara


Untuk kemudian diolah dalam komputer menggunakan MATLAB R2010a
dalam perhitungan me-minimisasi nilai pada fungsi pada persamman (2.12)
untuk mendapatkan kesimpulan bahwa sample x termasuk dalam class yang dimiliki
oleh , , . Berikut akan disajikan dalam tabel hasil dari seluruh perhitungan
proses cluster pada training sample dan landmark pada Cleveland Heart Disease
Dataset yang telah ditransformasi:

Tabel 4.14 Cluster-isasi Pada Cleveland Heart Disease Dataset


Setelah Transformasi

sample# 1 … 91 … 197 … 249


1 1 … 0,77 … 0,32 … 0,66
… … … … … … … …
91 0,77 … 1 … 0,1 … 0,2
… … … … … … … …
197 0,32 … 0,1 … 1 … 0,7
… … … … … … … …
249 0,66 … 0,2 … 0,7 … 1

keterangan:
= instance negatif sakit jantung
= instance positif sakit jantung
= sample dengan similarity function = 1

Setelah seluruh training sample di-transformasi kedalam low dimensional data, maka
akan diuji tingkat akurasi classifier maupun sebelum maupun sesudah dataset di-
transformasi, hasilnya dijabarkan dalam tabel 4.15 berikut:

Universitas Sumatera Utara


Tabel 4.15 Perbandingan Tingkat Ketelitian Classifier Pada Cleveland Heart
Disease Dataset Sebelum Dan Sesudah Transformasi

# training akurasi (%)


# test sample
sample sebelum transformasi sesudah transformasi
50 10 50% 70%
100 10 60% 60%
140 10 60% 60%
200 10 60% 60%
250 10 60% 70%

Berikut disajikan grafik perbandingan tingkat ketelitian classifier sebelum dan


sesudah transformasi pada Cleveland Heart Disease Dataset:

Gambar 4.5 Grafik Perbandingan Tingkat Ketelitian Classifier Cleveland Heart


Disease Dataset Sebelum Dan Sesudah Transformasi

Universitas Sumatera Utara


Pada gambar 4.6 berikut, disajikan grafis hasil proses cluster mulai dari jumlah
training sample paling sedikit yaitu 50 training sample sampai 250 training sample:

(a) (b)

(c) (d)

(e)

Gambar 4.6 Grafis Hasil Cluster Pada Cleveland Heart Disease Dataset
Sesudah Transformasi (a) 50 Sample (b) 100 Sample (c) 140 Sample
(d) 200 Sample (e) 250 Sample

Terlihat pada hasil percobaan penggunaan Support Vector Backpropagation


pada klasifikasi Cleveland Heart Disease Dataset pada gambar 4.6 menggunakan (a)
diperoleh tingkat ketelitian dalam melakukan cluster-isasi pada dataset yang telah
ditransformasi ( hanya memiliki 2 features ) adalah sebesar 70% sementara pada
dataset yang tidak ditransformasi ( memiliki 13 features ) diperoleh tingkat ketelitian
sebesar 50%, dalam hal ini tingkat ketelitian klasifikasi pada dataset yang telah
ditransformasi ( hanya memilki 2 features ) lebih tinggi 20% daripada tingkat
ketelitian pada dataset yang tidak ditrasformasi ( memilki 13 features ). Pada hasil
percobaan (b) diperoleh tingkat ketelitian dalam melakukan cluster-isasi pada dataset

Universitas Sumatera Utara


yang telah ditransformasi ( hanya memiliki 2 features ) adalah sebesar 60% sementara
pada dataset yang tidak ditransformasi ( memiliki 13 features ) diperoleh tingkat
ketelitian sebesar 60%, dalam hal ini tingkat ketelitian klasifikasi pada dataset yang
telah ditransformasi ( hanya memiliki 2 features ) sama dengan tingkat ketelitian pada
dataset yang tidak ditransformasi ( memiliki 13 features ). Pada hasil percobaan (c)
diperoleh tingkat ketelitian dalam melakukan cluster-isasi pada dataset yang telah
ditransformasi ( hanya memiliki 2 features ) adalah sebesar 60% sementara pada
dataset yang tidak ditransformasi ( memiliki 13 features ) diperoleh tingkat ketelitian
sebesar 60%, dalam hal ini tingkat ketelitian klasifikasi pada dataset yang telah
ditransformasi ( hanya memliki 2 features ) sama dengan tingkat ketelitian pada
dataset yang tidak ditransformasi ( memiliki 13 features ). Pada hasil percobaan (d)
diperoleh tingkat ketelitian dalam melakukan cluster-isasi pada dataset yang telah
ditrasformasi ( hanya memiliki 2 features ) adalah sebesar 60% sementara pada
dataset yang tidak ditransformasi ( memiliki 13 features ) diperoleh tingkat ketelitian
sebesar 60%, dalam hal ini tingkat ketelitian klasifikasi pada dataset yang telah
ditransformasi ( hanya memiliki 2 features ) sama dengan tingakt ketelitian pada
dataset yang tidak ditransformasi ( memiliki 13 features ). Pada hasil percobaan (e)
diperoleh tingkat ketelitian dalam melakukan cluster-isasi pada dataset yang telah
ditransformasi ( hanya memiliki 2 features ) diperoleh tingkat ketelitian sebesar 70%
sementara pada dataset yang tidak ditransformasi ( memiliki 13 features ) diperoleh
tingkat ketelitian sebesar 60%, dalam hal ini tingkat ketelitian klasifikasi pada dataset
yang telah ditransformasi ( hanya memilki 2 features ) lebih tinggi 10% daripada
tingkat ketelitian klasifikasi pada dataset yang tidak ditrasformasi ( memiliki 13
features ). Secara keseluruhan hasil percobaan penggunaan Support Vector
Backpropagation pada Cleveland Heart Disease Dataset memberikan hasil tingkat
ketelitian yang cenderung sama pada dataset yang telah ditransformasi (hanya
memiliki 2 features) dengan dataset yang tidak ditransformasi ( memliki 13 features ).

Universitas Sumatera Utara


4.4. Proses Transformasi Pada John Hopkins University Ionosphere Dataset
Oleh Support Vector Backpropagation

Proses transformasi John Hopkins University Ionosphere Dataset yang memiliki 35


attributes menjadi sebuah dataset berdimensi rendah ( 2 dimensi ) mengharuskan
proses transformasi memperhatikan persebaran data dalam dimensi ruang untuk
menghindari overfitting penyebeb kegagalan proses cluster walaupun proses ini juga
bergantung dari banyaknya sample pelatihan yang ditransformasi-kan namun
diharapkan proses transformasi tetap dapat mempertahankan tingkat akurasi yang
optimal, seperti proses transformasi sebuah training sample John Hopkins University
Ionosphere Dataset yang dilakukan oleh Support Vector Backpropagation berikut ini:

Tabel 4.16 Training Sample John Hopkins University Ionosphere Dataset


Sebelum Transformasi

rdr#1 rdr#2 rdr#3 rdr#4 rdr#5 rdr#6 … rdr#34 Target


1 0 0,9 -0,01 0,9 -0,01 … -0,16 Good

Proses transformasi yang akan dilakukan pada seluruh training sample dalam
John Hopkins University Ionospehere Dataset seperti yang diwakili oleh proses
transformasi pada sample tabel 4.16 diawali dengan penentuan bobot awal dengan
nilai epsilon_init = 0,002 sesuai dengan persamaan (2.1), sehingga didapat bobot awal
jaringan syaraf tiruan sebagai berikut:

Setelah didapat bobot awal jaringan syaraf tiruan maka dilakukan proses pembelajaran
menggunakan feedforwardpropagation pada hidden layer seperti pada persamaan
(2.2), didapat hasil sebagai berikut:

Universitas Sumatera Utara


Selanjutnya nilai akan dicari nilai fungsi aktivasi-nya menggunkan sigmoid biner
seperti pada persamaan (2.3), didapat hasil sebagai berikut:

Selanjutnya nilai akan melewati proses fordwardpropagation pada output layer


seperti pada persamaan (2.2), sehingga didapat hasil sebagai berikut:

Untuk kemudian didapatkan nilai fungsi aktivasi menggunakan fungsi sigmoid pada
output layer seperti pada persamaan (2.3), sehingga didapat hasil sebagai berikut:

Karena a3 Target, maka langkah selanjutnya adalah menghitung nilai error pada
output layer seperti pada secara backpropagation persamaan (2.6), sehingga didapat
hasil sebagai berikut:

Kemudian backpropagation dilanjutkan menuju hidden layer seperti pada persamaan


(2.7), sehingga didapat hasil:

Universitas Sumatera Utara


Kemudian hitung nilai Thetagrad sesuai dengan persamaan (2.8) pada Theta1 dan
Theta2 sehingga didapat nilai Thetagrad sebagai berikut:

Setelah didapat nilai Thetagrad maka akan dilakukan penambahan bobot jaringan syaraf
tiruan dengan learning rate ( lambda ) = 0,02 seperti pada persamaan (2.8), sehingga
didapat penambahan bobot-bobot awal sebagai berikut:

Kemudian dilakukan proses update bobot-bobot jaringan syaraf tiruan untuk


mengetahui nilai Mean Square Error seperti pada persamaan (2.5), setelah dilakukan
proses pelatihan sebanyak epochs = 50 didapat nilai Mean Square Error
terkecil=1,39 pada bobot optimal jaringan syaraf tiruan sebagai berikut:

Universitas Sumatera Utara


Dengan bobot optimal yang telah didapatakan maka kita dapat mentransformasikan
sample pada tabel 4.16 dengan cara forwardpropagation seperti pada persamaan (2.2),
sehingga didapat hasil transformasi sample pada tabel 4.1 sebagai berikut:

Tabel 4.17 Training Sample John Hopkins University Ionosphere Dataset


Pada Tabel 4.16 Setelah Transformasi

Feature 1 Feature 2 Target


0,5014 0,50258 Good

Universitas Sumatera Utara


Tabel 4.18 Training Sample John Hopkins University Ionosphere Dataset
(a) Sebelum Transformasi (b) Sesudah Transformasi

spl# rdr#1 rdr#2 rdr#3 rdr#4 rdr#5 … rdr#34 Target


1 1 0 0,9 -0,5 0,85 … -0,45 Good
… … … … … … … … …
101 1 0 1 -1 0 … 0 Good
… … … … … … … …
143 1 0 1 -0,05 1 … -0,6 Bad
… … … … … … … … …
253 1 0 0 0 0 … 0 Bad
(a)

sample# Feature 1 Feature 2 Target


1 0,5027 0,4998 Good
… … … …
101 0,5026 0,4998 Good
… … … …
143 0,5022 0,4995 Bad
… … … …
253 0,5027 0,4999 Bad
(b)

Setelah proses transformasi selesai dilakukan pada seluruh training sample dalam
John Hopkins University Ionosphere Dataset , selanjutnya akan melalui proses cluster
seperti pada pada persamaan (2.10), sebagai berikut:

Universitas Sumatera Utara


Untuk kemudian diolah dalam komputer menggunakan MATLAB R2010a
dalam perhitungan me-minimisasi nilai pada fungsi pada persamaan (2.12)
untuk mendapatkan kesimpulan bahwa sample x termasuk dalam class yang dimiliki
oleh , , . Berikut akan disajikan dalam tabel hasil dari seluruh perhitungan
proses cluster pada training sample dan landmark pada John Hopkins University
Ionosphere Dataset yang telah ditransformasi:

Tabel 4.19 Cluster-isasi Pada John Hopkins University Ionosphere Dataset


Setelah Transformasi

sample# 1 … 101 … 143 … 253


1 1 … 0,25 … 0,99 … 0,73
… … … … … … … …
101 0,25 … 1 … 0,1 … 0,2
… … … … … … … …
143 0,99 … 0,27 … 1 … 0,69
… … … … … … … …
253 0,73 … 0,09 … 0,69 … 1

keterangan:
= instance “Good”
= sample dengan similarity function = 1

Setelah seluruh training sample di-transformasi kedalam low dimensional data, maka
akan diuji tingkat akurasi classifier maupun sebelum maupun sesudah dataset di-
transformasi, hasilnya dijabarkan dalam tabel 4.20 berikut:

Universitas Sumatera Utara


Tabel 4.20 Perbandingan Tingkat Ketelitian Classifier Pada John Hopkins
University Ionosphere Dataset Sebelum Dan Sesudah Transformasi

# training akurasi (%)


# test sample
sample sebelum transformasi sesudah transformasi
50 10 90% 90%
100 10 90% 80%
150 10 90% 80%
200 10 90% 90%
250 10 90% 80%

Berikut disajikan grafik perbandingan tingkat ketelitian classifier sebelum dan


sesudah transformasi pada John Hopkins University Ionosphere Dataset:

Gambar 4.7 Grafik Perbandingan Tingkat Ketelitian Classifier John Hopkins


University Ionosphere Dataset Sebelum Dan Sesudah Transformasi

Universitas Sumatera Utara


Pada gambar 4.8 berikut, disajikan grafis hasil proses cluster mulai dari jumlah
training sample paling sedikit yaitu 50 training sample sampai 250 training sample:

(a) (b)

(c) (d)

(e)

Gambar 4.8 Grafis Hasil Cluster Pada John Hopkins University Ionosphere
Dataset Sesudah Transformasi (a) 50 Sample (b) 100 Sample (c) 140 Sample
(d) 200 Sample (e) 250 Sample

Terlihat pada hasil percobaan penggunaan Support Vector Backpropagation pada


klasifikasi John Hopkins University Ionosphere Dataset pada gambar 4.9
menggunakan (a) diperoleh tingkat ketelitian dalam melakukan cluster-isasi pada
dataset yang telah ditransformasi ( hanya memiliki 2 features ) adalah sebesar 90%
sementara pada dataset yang tidak ditransformasi ( memiliki 34 features ) diperoleh
tingkat ketelitian sebesar 90%, dalam hal ini tingkat ketelitian klasifikasi pada dataset
yang telah ditransformasi ( hanya memilki 2 features ) sama dengan tingkat ketelitian

Universitas Sumatera Utara


pada dataset yang tidak ditrasformasi ( memilki 34 features ). Pada hasil percobaan
(b) diperoleh tingkat ketelitian dalam melakukan proses cluster-isasi pada dataset
yang telah ditransformasi ( hanya memiliki 2 features ) adalah sebesar 80% sementara
pada dataset yang tidak ditransformasi diperoleh tingkat ketelitian sebesar 90%,
dalam hal ini tingkat ketelitian klasifikasi pada dataset yang telah ditransformasi
(hanya memiliki 2 features ) 10 % lebih rendah daripada tingkat ketelitian klasifikasi
pada dataset yang tidak ditransformasi ( memiliki 34 features ). Pada hasil percobaan
(c) diperoleh tingkat ketelitian dalam melakukan proses cluster-isasi pada dataset
yang telah ditransformasi ( hanya memiliki 2 features ) adalah sebesar 80% sementara
pada dataset yang tidak ditransformasi diperoleh tingkat ketelitian sebesar 90%,
dalam hal ini tingkat ketelitian klasifikasi pada dataset yang telah ditransformasi
(hanya memiliki 2 features ) 10% lebih rendah daripada tingkat ketelitian klasifikasi
pada dataset yang tidak ditransformasi ( memiliki 34 features ). Pada hasil percobaan
(d) diperoleh tingkat ketelitian dalam melakukan proses cluster-isasi pada dataset
yang telah ditrasformasi ( hanya memiliki 2 features ) adalah sebesar 90% sementara
pada dataset yang tidak ditransformasi ( memiliki 34 features ) diperoleh tingkat
ketelitian sebesar 90%, dalam hal ini tingkat ketelitian klasifikasi pada dataset yang
telah ditrasnformasi ( hanya memiliki 2 features ) sama dengan tingkat klasifikasi
pada dataset yang tidak ditransformasi ( memiliki 34 features ). Pada percobaan (e)
diperoleh tingkat ketelitian dalam melakukan proses cluster-isasi pada dataset yang
telah ditransformasi ( hanya memiliki 2 features ) adalah sebesar 80% sementara pada
dataset yang tidak ditransformasi ( memililki 34 features ) diperoleh tingkat ketelitian
sebesar 90%, dalam hal ini tingkat ketelitian klasifikasi pada dataset yang telah
ditransformasi ( hanya memiliki 2 features ) sama dengan tingkat ketelitian pada
dataset yang tidak ditransformasi ( memiliki 34 features ). Secara keseluruhan hasil
percobaan penggunaan Support Vector Backpropagation pada John Hopkins
University Ionosphere Dataset memberikan hasil tingkat ketelitian yang cenderung
sama pada dataset yang telah ditransformasi (hanya memiliki 2 features) dengan
dataset yang tidak ditransformasi ( memiliki 34 features ).

Serangkaian percobaan telah dilakukan terhadap Iris Plants Dataset yang


memiliki 4 attributes, Wisconsin Diagnostic Breast Cancer Dataset yang memiliki 9
attributes, Cleveland Heart Disease Dataset yang memilki 13 attributes dan John

Universitas Sumatera Utara


Hopkins University Ionosphere Dataset yang memilki 34 attributes, penelitian juga
dilakukan menggunakan jumlah training sample yang beragam mulai dari 30, 50, 100,
150, 300 bahkan sampai 600 sample. Dari hasil penelitian terlihat bahwa proses
cluster pada Iris Plants Dataset menggunakan dataset yang telah ditransformasi oleh
Support Vector Backpropagation mencapai tingkat akurasi menggunakan hanya 30
dari 150 training sample. Hasil penelitian proses cluster pada Wisconsin Diagnostic
Breast Cancer Dataset menggunakan dataset yang telah ditransformasi oleh Support
Vector Backpropagation mencapai tingkat akurasi 100% menggunakan 100 dari 680
training sample, namun tingkat akurasi akan turun drastis menjadi 0% jika
menggunakan training sample lebih dari 100 sample ( 200-680 sample ) ini
dikarenakan persebaran ( sparness ) data dalam feature space menjadi sangat padat
mengakibatkan masing-masing class akan saling membaur dalam feature space yang
sangat terbatas, kondisi ini sering disebut overfitting sehingga tidak mungkin
ditemukan garis pemisah ( decision boundary ) yang akan memisahkan masing-
masing class. Hasil penelitian proses cluster pada Cleveland Heart Disease Dataset
menggunakan dataset yang telah ditransformasi oleh Support Vector Backpropagation
mencapai tingkat akurasi optimal sebesar 70% menggunakan hanya 50 dari 250
training sample. Hasil penelitian proses cluster pada John Hopkins University
Ionosphere Dataset menggunakan dataset yang telah ditransformasi oleh Support
Vector Backpropagation mencapai tingkat akurasi optimal sebesar 90% menggunakan
hanya 50 dari 300 training sample.

Universitas Sumatera Utara


BAB 5

KESIMPULAN DAN SARAN

5.1. Kesimpulan

Berdasarkan analisis dari sistem dan pengujian sistem secara menyeluruh yang telah
dilakukan pada bab sebelumnya, maka kesimpulan pada penelitian ini antara lain:
1. Penggunaan Support Vector Backpropagation dalam proses cluster-isasi pada
high dimensional dataset dapat mencapai tingkat ketelitan optimal walaupun
training sample yang tersedia jumlahnya sedikit.
2. Cluster-isasi menggunakan Support Vector Backpropagation pada Iris Plants
Dataset mancapai tingkat ketelitian optimal sebesar 100% hanya pada 30 dari
150 training sample, sementara pada Wisconsin Diagnostic Breast Cancer
Dataset dicapai tingkat ketelitian optimal sebesar 100% hanya pada 100 dari
680 training sample, sementara pada Cleveland Heart Disease Dataset dicapai
tingakat ketelitian optimal sebesar 70% hanya pada 50 dari 250 training
sample, sementara pada John Hopkins University Ionosphere Dataset dicapai
tingkat ketelitian sebesar 90% hanya pada 50 dari 250 training sample.
3. Khusus pada proses cluster-isasi pada Wisconsin Diagnostic Breast Cancer
Dataset dicapai akurasi sebesar 100% pada 100 training sample namun tingkat
akurasi menurun menjadi 0% jika menggnakan training sample lebih dari 100
sample, ini diakibatkan proses clusterisasi pada jumlah training sample yang
sangat banyak meningkatkan persebaran data mengalami overfitting.

Universitas Sumatera Utara


5.2. Saran

Pada penelitian ini terdapat beberapa saran dalam pengembangan penelitian ini
lebih lanjut, yakni:
1. Perlunya pembuatan Graphical User Interface yang layak.
2. Perlunya penelitian lebih lanjut dalam proses cluster-isasi.
3. Percobaan dapat menggunakan algoritma jaringan syaraf tiruan yang
berbeda contohnya Perceptron atau LVQ.
4. Perlunya pengembangan cara penyajian visualisasi data yang lebih baik.

Universitas Sumatera Utara