Ann Anak Unpad

BAB II
TINJAUAN PUSTAKA
2.1 Pendahuluan
Berdasarkan latar belakang penelitian pada bab I, terdapat berbagai
alternatif metode statistik yang bisa digunakan untuk membangun model
pengklasifikasian yaitu analisis diskriminan, regresi logistik, dan Artificial Neural
Network (ANN). Berikut ini beberapa teori pendukung yang digunakan sebagai
bahan referensi dalam penelitian ini.
2.2 Analisis Diskriminan
Analisis diskriminan adalah salah satu teknik statistik yang bisa digunakan
pada hubungan dependensi. Analisis diskriminan bertujuan untuk
mengklasifikasikan pengamatan ke dalam beberapa kelompok yang saling bebas
berdasarkan sejumlah variabel independen (Hair et al, 2009). Pada dasarnya
analisis diskriminan dapat digunakan untuk mengetahui variabel-variabel mana
yang membedakan kelompok populasi dan juga dapat digunakan sebagai kriteria
pengelompokan. Pada analisis diskriminan akan diperoleh suatu fungsi yang
dikenal dengan fungsi diskriminan yang digunakan untuk membedakan kelompok
objek.
5
6
Asumsi yang harus dipenuhi untuk model linier yang mendasari analisis
diskriminan (Hair et al, 2009), yaitu:
1. Variabel-variabel independen harus berdistribusi normal multivariat
2. Matriks varians-kovarians variabel independen pada kedua kelompok
harus sama
Secara umum fungsi diskriminan dinyatakan sebagai berikut :
Z jk    Wk X1k  W2 X 2k  ...  Wn X nk …(2.1)
dengan
Z jk = Nilai diskriminan Z dari fungsi diskriminan ke-j untuk obyek ke-k
 = Intersep
Wn = Bobot diskriminan untuk variabel independen ke-n
X nk = Variabel independen ke-n untuk obyek ke-k
Fungsi diskriminan lain yang dapat digunakan antara lain fungsi
diskriminan linier Fisher (Johnson and Winchern, 1992). Seperti yang telah
diuraikan tentang analisis diskriminan, metode ini sangat bermanfaat bagi peneliti
dalam memahami perbedaan kelompok atau pengklasifikasian unit statistik ke
dalam suatu kelas atau kelompok.

7
2.3 Regresi Logistik
Regresi logistik adalah suatu metode analisis statistika yang
menggambarkan hubungan antara variabel responnya memiliki dua kategori atau
lebih dengan beberapa variabel independen berskala kontinu dan kategori.
Berdasarkan jumlah kategori respon, regresi logistik dapat dibedakan menjadi
dua, yaitu regresi logistik dikotomus dan polikotomus (Agresti, 1996). Menurut
fungsinya regresi logistik biner digunakan pada saat variabel respon merupakan
dikotomus, sedangkan regresi logistik multinomial digunakan pada saat variabel
respon merupakan variabel polikotomus.
Model regresi logistik biner merupakan model yang digunakan untuk
mengetahui hubungan antara variabel bebas dengan variabel respon yang bersifat
biner. Variabel respon yang menjadi pengamatan tersebut mengikuti sebaran
Bernoulli dengan variabel acak biner yang mempunyai
P(Y  y)   y (1  )1 y … (2.2)
dengan y = 0, 1 dan π adalah peluang terjadinya y = 1.
Menurut pertimbangan teoritis dan pengalaman bahwa ketika variabel respon
merupakan variabel biner maka bentuk fungsi respon seringkali berupa kurva
linear (Agresti, 1996). Model regresi logistik dengan P(Y=1|X) = π adalah :
exp(   x)
 ( x) 
1  exp(   x) …(2.3)
8
Dalam regresi logistik π(x) merupakan penaksir logit sebagai fungsi penghubung
(link function) berupa kombinasi linear dari variabel independen. Berdasarkan
Persamaan (2.2), persamaan tersebut ditransformasi logit dari fungsi π(x) sehingga
dapat dituliskan sebagai berikut :
  ( x) 
logit  (x)=log     x … (2.4)
 1   ( x) 
Salah satu cara untuk mengestimasi parameter pada regresi logistik adalah
dengan menggunakan Maximum Likelihood Estimation (MLE). Analisis regresi
logistik digunakan karena variabel yang akan diteliti tidak harus memenuhi
asumsi distribusi normal (Agresti, 1996). Model yang dihasilkan regresi logistik
berbentuk probabilitas, sehingga metode ini memerlukan data yang lengkap dan
sensitif terhadap outlier.
2.4 Artificial Neural Network (ANN)
Artificial Neural Network (ANN) pertama kali diperkenalkan oleh
McCulloch dan Walter Pitts melalui pemodelan matematis neuron pada tahun
1943. Menurut (Haykin, 1999), sebuah Neural Network (NN) adalah sebuah
processor yang terdistribusi paralel dan mempuyai kecenderungan untuk
menyimpan pengetahuan yang didapatkannya dari pengalaman dan membuatnya
tetap tersedia untuk digunakan. Hal ini menyerupai kerja otak dalam dua hal, yaitu
pengetahuan diperoleh oleh jaringan melalui suatu proses belajar dan kekuatan
9
hubungan antar sel saraf yang dikenal dengan bobot sinapsis digunakan untuk
menyimpan pengetahuan.
ANN merupakan salah satu manfaat dari data mining untuk
mengklasifikasikan data. Data mining semakin menjadi hal yang penting dalam
mengubah data menjadi informasi, semakin besar data yang diperoleh maka
prosesnya akan semakin efektif menemukan pola tertentu. Metode ANN juga
salah satu bagian dalam bidang artificial intelligence yang dikenal sebagai
machine learning. Secara sederhana ANN adalah sebuat alat pemodelan data
statistik non-linier. ANN dapat digunakan untuk memodelkan hubungan yang
kompleks antara input dan output dalam menemukan pola-pola pada data.
Kemampuan yang dimiliki ANN dapat digunakan untuk belajar dan menghasilkan
aturan atau operasi dari beberapa contoh atau input yang dimasukkan dan
membuat prediksi tentang kemungkinan output yang akan muncul atau
menyimpan karakteristik input yang diberikan kepada jaringan syaraf tersebut.
ANN terkait erat dengan model matematika dan statistika untuk fungsi
aproksimasi non-linear, algoritma, pengklasifikasian pola non-parametrik,
clustering dan regresi atau sebuah simulasi dari koleksi model jaringan syaraf
biologi (Jha, 2005).
2.4.1 Konsep Dasar Artificial Neural Network
Neuron merupakan bagian dasar dari pemprosesan suatu neural network.
Bentuk dasar dari suatu neuron dapat dilihat pada gambar 2.1
10
Gambar 2.1 Bentuk Dasar Neuron (Nisbet et al, 2009)
Keterangan dari gambar diatas adalah sebagai berikut :
1. Input merupakan masukan yang digunakan baik saat pembelajaran
maupun dalam mengenali suatu objek.
2. Sinyal-sinyal dikirim antar neuron melalui jaringan koneksi (sinapsis).
3. Setiap sinapsis mempunyai bobot (weight) tertentu tergantung tipe
jaringan saraf.
4. Setiap neuron mempunyai fungsi aktivasi (biasanya non-linier) yang
merupakan penjumlahan dari sinyal jaringan input untuk menentukan
sinyal-sinyal output.
5. Output merupakan keluaran dari hasil pengenalan suatu objek.
Karakteristik dalam ANN dapat dibedakan menurut hal berikut ini pola
koneksi antar neuron (arsitektur), metode penentuan bobot dalam koneksi
(training/learning dan algoritma), dan fungsi aktivasi. Pada ANN terdapat neuron
yang terhubung dengan neuron–neuron yang lain melalui layer dengan bobot
tertentu. Bobot disini melambangkan informasi yang digunakan oleh jaringan
untuk menyelesaikan permasalahan. Fungsi aktivasi merupakan fungsi dari input
yang diterima. Suatu neuron akan mengirimkan sinyal ke neuron–neuron yang
lain, tetapi pada suatu saat hanya ada satu sinyal yang dikeluarkan walaupun
11
sinyal tersebut ditransmisikan ke beberapa neuron yang lain. Pada umumnya
neuron yang terletak pada lapisan yang sama akan memiliki fungsi aktivasi yang
sama. Faktor terpenting dalam menentukan proses suatu neuron adalah fungsi
aktivasi dan pola bobotnya.
Setiap pola-pola informasi input dan output yang diberikan kedalam ANN
diproses dalam neuron. Neuron-neuron tersebut terkumpul di dalam lapisan-
lapisan yang disebut neuron layers. Struktur ANN terdiri dari 3 lapisan (Hartini,
2008), yaitu :
1. Lapisan input merupakan penghubung antara jaringan syaraf dengan
jaringan luar. Output dari lapisan input terhubung dengan semua neuron
lainnya pada lapisan berikutnya.
2. Lapisan tersembunyi (hidden) merupakan lapisan yang terletak antara
lapisan input dan lapisan output. Input setiap lapisan tersembunyi adalah
output dari lapisan sebelumnya dan output dari lapisan sebelumnya
merupakan input bagi lapisan di depannya.
3. Lapisan output merupakan lapisan terluar sebagai hasil proses
Dalam pembentukan model ANN, jaringan akan belajar berdasarkan
informasi atau input yang dimasukan ke dalam jaringan tersebut, kemudian
melalui suatu proses pembelajaran akan dihasilkan output. Oleh karena itu,
dengan menentukan target sebelumnya, diharapkan output yang dihasilkan dapat
mendekati target.
12
2.4.2 Arsitektur Artificial Neural Network (ANN)
Secara umum tiap neuron pada lapisan (layer) yang sama mempunyai
tingkah laku yang sama untuk pemprosesan sinyal data. Pemilihan jumlah layer
bukan berarti pemilihan layer untuk neuron, tetapi pemilihan layer untuk
penghubung jalur pembobot antar neuron. Jadi variabel terpenting untuk
pengenalan pola adalah pembobotnya. Menurut (Kusumadewi, 2003) terdapat 3
macam struktur jaringan saraf, antara lain:
1. Single Layer Net (Jaringan dengan Lapisan Tunggal)
Jaringan ini terdiri atas lapisan input dengan beberapa unit input,
satu lapis pembobot, dan lapisan output. Pada jaringan ini setiap unit input
menerima sinyal informasi dari luar dan melalui koneksi yang ada,
dilakukan proses pembobotan untuk masing-masing sinyal yang akhirnya
akan direspon oleh setiap output unit. Pembobot untuk satu unit output
tidak akan berpengaruh pada unit output yang lain.
Gambar 2.2 Struktur Single Layer Net
2. Multilayer Net (Jaringan dengan Banyak Lapisan)
Cara kerja dari model ini sama seperti pada single layer net. Hanya
saja pada arsitekturnya terdapat tambahan beberapa layer untuk pembobot.

13
Jadi pada pemodelan ini terdapat tambahan beberapa atau satu layer lagi
diantara input layer dan output layer yang sering disebut dengan lapisan
tersembunyi (hidden layer). Sehingga dengan demikian terdapat lapisan
pembobot antara input layer, hidden layer dan output layer. Kelebihan dari
arsitektur jenis ini jika dibandingkan dengan single layer adalah dapat
menyelesaikan masalah kompleks yang mungkin tidak dapat diselesaikan
oleh jaringan single layer.
Gambar 2.3 Struktur Multilayer Net
3. Competitive Layer Net (Jaringan dengan Lapisan Kompetitif)
Jaringan dengan lapisan kompetitif pada dasarnya tidak memiliki
bentuk arsitektur jaringan yang baku. Pada dasarnya neuron-neuron pada
lapisan kompetitif akan mendistribusikan dirinya ke vektor input yang
dapat dikenali.
Gambar 2.4 Stuktur Competitive Layer Net

14
2.4.3 Fungsi Aktivasi
Karakteristik yang harus dimiliki fungsi aktivasi adalah kontinu,
diferensiabel, dan tidak menurun secara monoton (Puspitaningrum, 2006).
Beberapa macam fungsi aktivasi, antara lain:
1. Fungsi Linear
Fungsi ini digunakan untuk jaringan yang memiliki keluaran sembarang
nilai rill , bukan hanya pada range (0,1) atau (0,-1). Fungsi ini memiliki
nilai output yang sama dengan nilai inputnya, dirumuskan sebagai berikut:
f ( x)  x … (2.5)
2. Fungsi Sigmoid Biner
Fungsi ini digunakan untuk jaringan saraf yang dilatih dengan
menggunakan metode backpropagation, yang memiliki range (0,1).
Biasanya digunakan untuk jaringan saraf yang membutuhkan nilai output
yang terletak pada interval 0 sampai dengan 1. Fungsi sigmoid biner
dirumuskan sebagai berikut :
1
f ( x)  …(2.6)
1  e x
3. Fungsi Sigmoid Bipolar
Fungsi aktivasi sigmoid bipolar hampir sama dengan fungsi sigmoid biner,
namun output dari fungsi ini memiliki range (1,-1). Fungsi sigmoid
bipolar dirumuskan sebagai berikut :
1  e x
f ( x)  …(2.7)
1  e x
15
Fungsi ini sangat dekat dengan fungsi hyperbolic tangent. Keduanya
memiliki range antara (-1,1). Untuk fungsi hyperbolic tangent, dirumuskan
sebagai berikut:
ex  e x 1  e2 x
f ( x)   …(2.8)
ex  e x 1  e2 x
Masih banyak fungsi aktivasi lainnya, tetapi fungsi sigmoid lebih sering
digunakan, karena dianggap lebih mendekati kinerja sinyal pada otak. Sigmoid
biner dan sigmoid bipolar merupakan jenis fungsi aktivasi yang tepat untuk ANN
dengan algoritma backpropagation.
2.4.4 Proses Pembelajaran
Seperti halnya otak manusia yang membutuhkan proses belajar dalam
mengenali sesuatu, pada ANN juga demikian. Setiap neuron dibangun untuk
dilatih dalam mempelajari pola yang akan dijalankan. Pada saat proses
pembelajaran dilakukan, nilai dari masing-masing hubungan antar neuron
ditetapkan untuk menentukan output. Semakin banyak pembelajaran yang
dilakukan maka akan semakin kecil tingkat dari suatu error di lapisan
keluarannya, sehingga pengenalan suatu pola akan segera tercapai. Beberapa
metode untuk proses pembelajaran pada ANN, yaitu:
1. Supervised Learning
Metode pembelajaran jaringan saraf disebut terawasi jika output
yang diharapkan telah diketahui sebelumnya. Apabila terjadi perbedaan
antara hasil output pembelajaran dengan pola target, maka perlu dilakukan
16
lebih banyak pembelajaran lagi untuk mendapatkan hasil semirip mungkin
dengan target output yang diketahui oleh ANN. Metode supervised
learning yang telah banyak diaplikasikan adalah Multilayer Perceptron
dan Backpropagation.
2. Unsupervised Learning
Pada pembelajaran ini ANN memberikan sepenuhnya pada hasil
komputasi dari setiap pemprosesan, sehingga pada sistem ini tidak
membutuhkan adanya acuan awal agar perolehan nilai dapat dicapai.
Proses ini tetap menghitung setiap langkah pada setiap kesalahannya
dengan mengkalkulasikan setiap nilai weight yang didapat. Pembelajaran
ini biasanya sangat cocok untuk pengelompokan pola. Metode yang
termasuk dalam unsupervised learning adalah Kohonen/Self-Organizing
Map (SOM) dan Hopfiled.
2.5 Pemilihan Metode
Pada saat ini pengembangan beberapa teknik pemodelan berdasarkan
machine learning dikembangkan untuk membantu klasifikasi agar hasil yang
diperoleh lebih cepat dan akurat. Penelitian yang dilakukan oleh Rina Hartini
(Institut Pertanian Bogor, 2008) dengan judul “Komparasi Artificial Neural
Network (ANN) dan Model Regresi Logistik dalam Klasifikasi Kredit
Konsumtif”. Penelitian ini bertujuan untuk membandingkan model regresi logistik
dan Artificial Neural Networks (ANN) dalam kemampuan mengklasifikasikan

17
nasabah kredit konsumtif. Dalam penelitian ini dapat disimpulkan bahwa model
regresi logistik memberikan tingkat kesalahan prediksi lebih besar dibandingkan
model ANN untuk data validasi.
Adapun penelitian yang dilakukan oleh Suhermin Ari Pujiati (Institut
Teknologi Sepuluh November, 2008) dalam “Perbandingan Metode Klasifikasi
Diskriminan Analisis, Regresi Logistik dan Jaringan Syaraf Tiruan Pada Kasus
Pengelompokkan Bunga”, menyatakan bahwa dari membandingkan ketiga metode
klasifikasi dengan jumlah data kurang dari seratus adalah klasifikasi jaringan
syaraf tiruan merupakan metode klasifikasi terbaik. Karena memberikan
persentase kesalahan terkecil dibandingkan metode regresi logistik maupun
analisis diskriminan.
Seperti yang telah diuraikan sebelumnya, bahwa dalam penggunaan
analisis diskriminan dan regresi logistik ketat akan asumsi yang harus terpenuhi.
Pada analisis diskriminan mengasumsikan data berdistribusi multivariat normal
dan mempunyai matriks varians-kovarians yang sama, sedangkan regresi logistik
tidak mengasumsikan data harus berdistribusi tertentu. Namun model yang
dihasilkan regresi logistik berbentuk probabilitas, sehingga metode ini
memerlukan data yang lengkap dan sensitif terhadap outlier. Oleh sebab itu,
penelitian ini tidak menggunakan kedua metode tersebut karena data yang
diperoleh memiliki banyak data yang hilang. Solusi untuk mengatasinya yaitu
dengan menggunakan metode Artificial Neural Network (ANN).

18
ANN digunakan dalam penelitian ini karena metode ini dapat digunakan
untuk mengklasifikasikan data tanpa melihat asumsi ditribusinya. Metode ini juga
memiliki beberapa keunggulan, antara lain mampu mengenali suatu objek secara
non-linier, akurasi yang tinggi dan toleransi terhadap noise. Hal ini didukung juga
dalam penelitian yang telah diuraikan sebelumnya bahwa ANN adalah metode
klasifikasi terbaik karena memberikan nilai kesalahan klasifikasi terkecil
dibandingkan dengan analisis diskriminan dan regresi logistik.

Ann Anak Unpad

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Ann Anak Unpad

Diunggah oleh

Hak Cipta:

Format Tersedia

BAB II

Berdasarkan latar belakang penelitian pada bab I, terdapat berbagai

alternatif metode statistik yang bisa digunakan untuk membangun model

pengklasifikasian yaitu analisis diskriminan, regresi logistik, dan Artificial Neural

bahan referensi dalam penelitian ini.

2.2 Analisis Diskriminan

pada hubungan dependensi. Analisis diskriminan bertujuan untuk

mengklasifikasikan pengamatan ke dalam beberapa kelompok yang saling bebas

berdasarkan sejumlah variabel independen (Hair et al, 2009). Pada dasarnya

analisis diskriminan dapat digunakan untuk mengetahui variabel-variabel mana

pengelompokan. Pada analisis diskriminan akan diperoleh suatu fungsi yang

dikenal dengan fungsi diskriminan yang digunakan untuk membedakan kelompok

diskriminan (Hair et al, 2009), yaitu:

1. Variabel-variabel independen harus berdistribusi normal multivariat

2. Matriks varians-kovarians variabel independen pada kedua kelompok

Secara umum fungsi diskriminan dinyatakan sebagai berikut :

Z jk    Wk X1k  W2 X 2k  ...  Wn X nk …(2.1)

Z jk = Nilai diskriminan Z dari fungsi diskriminan ke-j untuk obyek ke-k

Wn = Bobot diskriminan untuk variabel independen ke-n

X nk = Variabel independen ke-n untuk obyek ke-k

Fungsi diskriminan lain yang dapat digunakan antara lain fungsi

dalam memahami perbedaan kelompok atau pengklasifikasian unit statistik ke

dalam suatu kelas atau kelompok.

2.3 Regresi Logistik

Regresi logistik adalah suatu metode analisis statistika yang

menggambarkan hubungan antara variabel responnya memiliki dua kategori atau

lebih dengan beberapa variabel independen berskala kontinu dan kategori.

Berdasarkan jumlah kategori respon, regresi logistik dapat dibedakan menjadi

dikotomus, sedangkan regresi logistik multinomial digunakan pada saat variabel

respon merupakan variabel polikotomus.

Model regresi logistik biner merupakan model yang digunakan untuk

biner. Variabel respon yang menjadi pengamatan tersebut mengikuti sebaran

Bernoulli dengan variabel acak biner yang mempunyai

P(Y  y)   y (1  )1 y … (2.2)

dengan y = 0, 1 dan π adalah peluang terjadinya y = 1.

Menurut pertimbangan teoritis dan pengalaman bahwa ketika variabel respon

linear (Agresti, 1996). Model regresi logistik dengan P(Y=1|X) = π adalah :

(link function) berupa kombinasi linear dari variabel independen. Berdasarkan

dapat dituliskan sebagai berikut :

dengan menggunakan Maximum Likelihood Estimation (MLE). Analisis regresi

sensitif terhadap outlier.

2.4 Artificial Neural Network (ANN)

Artificial Neural Network (ANN) pertama kali diperkenalkan oleh

processor yang terdistribusi paralel dan mempuyai kecenderungan untuk

menyimpan pengetahuan yang didapatkannya dari pengalaman dan membuatnya

ANN merupakan salah satu manfaat dari data mining untuk

statistik non-linier. ANN dapat digunakan untuk memodelkan hubungan yang

membuat prediksi tentang kemungkinan output yang akan muncul atau

menyimpan karakteristik input yang diberikan kepada jaringan syaraf tersebut.

aproksimasi non-linear, algoritma, pengklasifikasian pola non-parametrik,

biologi (Jha, 2005).

2.4.1 Konsep Dasar Artificial Neural Network

Neuron merupakan bagian dasar dari pemprosesan suatu neural network.

Gambar 2.1 Bentuk Dasar Neuron (Nisbet et al, 2009)

Keterangan dari gambar diatas adalah sebagai berikut :

1. Input merupakan masukan yang digunakan baik saat pembelajaran

maupun dalam mengenali suatu objek.

2. Sinyal-sinyal dikirim antar neuron melalui jaringan koneksi (sinapsis).

3. Setiap sinapsis mempunyai bobot (weight) tertentu tergantung tipe

4. Setiap neuron mempunyai fungsi aktivasi (biasanya non-linier) yang

merupakan penjumlahan dari sinyal jaringan input untuk menentukan

5. Output merupakan keluaran dari hasil pengenalan suatu objek.

koneksi antar neuron (arsitektur), metode penentuan bobot dalam koneksi