Anda di halaman 1dari 65

6

ERROR FUNCTION
(Fungsi Error)
Gambaran Umum
Sebagai pengingat pada bab sebelumnya - Tujuan utama dalam
training network adalah tidak menghafal data training, tetapi untuk
melakukan generasi data dasar. Sehingga memungkinkan kita untuk
memprediksi data terbaik untuk untuk output vektor t - dan nilai tersebut
akan dilatuh selanjutnya untuk nilai baru sebagai input vektor x.
Deskripsi paling umum untuk generator data adalah kepadatan data
dengan probabilitas p (x,t)
Untuk masalah prediksi asosiatif dari jenis yang kita pertimbangkan Dapat menguraikan kepadatan probabilitas gabungan hasil dari :
- Kerapatan bersyarat dari data target
- Input data
- Kepadatan tanpa syarat input data , sehingga :

Dimana

p(x ,t) adalah menunjukkan kepadatan probabilitas t - x

mengambil nilai tertentu. Sedangkan


syarat x dan nilai

p( x)

mewakili kepadatan tanpa

p(x) adalah nilai dari

Pada fungsi error , nilai

p(tx) digunakan untuk membuat prediksi

t untuk nilai nilai baru x :

Dimana kita asumsikan nilai () diambil secara independen dari


distribusi atau sumber yang sama, karena hal tersebut kita dapat
mengalikan dengan probabilitas. Hal tersebut juga dapat memaksimalkan
kemungkinan.

Dimana E adalah fungsi error.

Dengan E sebagai error kita dapat

meneruskan hal tersebut sebagai kerangka kerja untuk pemodelan


kepadatan probabilitas bersyarat

p (t |x ) . Pada persamaan 6.4 sebenarnya

tidak bergantung pada parameter jaringan, parameter jaringan adalah


persamaan konstanta aditif yang dapat dihilangkan dari fungsi error.
Sehingga kita memiliki persamaan :

Sebagai catatan , fungsi error mengambil total di atas kesalahan


hasil untuk masing masing pola secara terpisah.
6.1 Sum-of-squares error
Contoh variable tk dimana k = 1,..,c dan c adalah sebagai bahan
pertimbangan batas. Dengan c tersebut dimisalkan sebagai distribusi
variable target yang berbeda secara independen sehingga kita bisa
mendapatkan persamaan

Kita akan mengasumsikan bahwa distribusi target adalah dilakukan


dengan cara perhitungan Gaussian. Lebih secara detail kita asumsikan
variable

tk

diberikan nilai dari beberapa deterministic fungsi dari x

dengan menambahkan nilai Gaussian Noise e sehingga nilai

t k adalah

Sekarang kita asumsikan error e adalah normal distribusi dengan


maksud kosong dan standard deviasi rho dimana standar penyimpangan
tidak bergantung pada x atau apapun itu. Dengan demikian kita
mendapatkan nilai untuk

ek

adalah

Sekarang kita berusaha untuk menghubungkan fungsi

hk (x ) dengan

jaringan syaraf dengan output yk(x;w) dimana w adalah bobot untuk


parameter

yang

mengatur

pemetaan

jaringan

syaraf.

Dengan

menggunakan persamaan 6.7 dan 6.8 kita dapat melihat distirbusi


probabilitas diberikan oleh nilai berikut :

Di mana kita telah mengganti nilai fungsi tidak diketahui oleh


dari model

hk (x )

y k ( x ; w ) Secara bersamaan pada persamaan 6.6 dan 6.5

menjadi awal untuk expressi yang diikuti fungsi error sebagai berikut :

Untuk mengurangi penggunaan untuk meminimalkan error , aturan


kedua dan ketiga dari persamaan 6.10 perlu diingat adalah persamaan
sendiri dari nilai w dan bisa dihilangkan. Untuk aturan pertama pada
bagian pecahan juga dapat dihilangkan. Dan nilai akhir dai sum-of-squares
fungsi error adalah sebagai berikut :

Akan

tetapi

untuk

jaringan

pengujian

akan

lebih

mudah

menggunakan root-mean-square (RMS) dengan persamaan sebagai berikut


:

Dimana nilai t dapat dicari dengan cara :

6.1.1 Linear Output Units (Linear Output Unit)


Fungsi pemetaan pada multi-layer perceptron atau jaringan fungsi
basis radial dapat ditulis dengan persamaan :

Dimana g adalah fungsi untuk aktivasi untuk unit output , wkj adalah
sebagai nilai yang terhubung langsung dengan output unit , dan w adalah
nilai dari sum-of-squares (6.11) dengan focus terhadap nilai

ak

yang

dapat ditulis sebagai :


4

Jika kita memilih untuk melakukan fungsi aktivasi pada unit output ,
maka

harus dibuat linear dimana

g ( a )=a , dan dapat ditulis dalam

bentuk :

Dan untuk pada pembahasan jaringan pemetaan dapat dituliskan


dengan persamaan :

Dengan meminimalisasikan sum-of-squares error pada persamaan


6.11 dengan mengutamakan effect bias , kita dapat menggunakana
persamaan :

Dan untuk mendapatkan nilai

wk 0

dapat menggunakan cara :

Sehingga diperoleh cara untuk mencari nilai rata rata kuantitas :

Pada hasil 6.23 kita medapatkan bahwa peran bias adalah untuk
menggantika perbedaan antara nilai rata- rata dari nilai target dan jumlah

dari rata rata output. Jika kita ganti kembali expresi 6.23 ke dalam sumof-squares error kita mendapatkan persamaan :

Dimana beberapa nilai dapat dicari dengan cara :

Sekarang kita dapat meminimalisir error dengan menggunakan nilai


bobot dari wkj untuk dimasukkan ke persamaan :

Dari persamaan 6.27 kita dapat mendapatkan persamaan notasi


matriks

Dimana

ZT

adalah notasi untuk transpose dari matriks

Z Kita

dapat menulis nilai solusi matriks tersebut secara eksplisit dengan


persamaan

Dimana nilai Z transpose adalah :

6.1.2 Linear sum-rules


Dengan

menggunakan

fungsi

error

sum-of-squares

untuk

menentukan nilai pada jaringan dengan unit unit output linear dapat
6

menggunakan aturan penjumlahan untuk output jaringan tersebut (Lowe


dan Web , 1991 ). Misalkan pola yang digunakan untuk melatih jaringan
memenuhi suatu untuk melatih tingkat nilai dari suatu nilai relasi jaringan ,
maka untuk setiap pola n dapat menggunakan persamaan :

Dimana u dan u0 adalah nilai konstanta. Dan sekarang , jika nilai


layer telah diberikan nilai determinan maka nilai output dari suatu pola
harus sesuai dengan nilai input suatu pola.
Sehingga mendapatkan nilai persamaan sebagai berikut :

Nilai output tersebut diberikan nilai dari persamaan 6.21 yang dapat
ditulis dengan notasi vector melalui persamaan sebagai berikut :

Sehingga nilai optimal untuk nilai bias yang diberikan pada


persamaan 6.23 dapat ditulis dengan persamaan

Sekarang nilai konsisten pada nilai scalar pada nilai

dan vector ,

untuk sebuah pola input. Untuk mengoptimalkan nilai dapat menggunakan


nilai dari persamaan 6.29 , 6.33 dan 6.34 sehingga kita mendapatkan
sebuah persamaan yaitu :

Dan menggunakan aturan matriks transpose kita dapat mendapatkan


persamaan sebagai berikut :

Dan pada sebelumnya kita menggunakan persmaan linear pada 6.32.


Menggabungkan nilai 6.35 dan 6.36 kita mendapatkan suatu persamaan
yaitu :

6.1.3 Interpretation

of

Network

Outputs (Interpretasi Dari

Output Networks)
Sekarang menafsirkan atau menterjemahkan output dari jaringan
yang dilatih dengan meminimalkan nilai fungsi error. Secara khusus ,
output perkiraan rata- rata bersyarat dari data yang diinginkan. Secara
tidak langsung ini menghasilkan nilai untuk aplikasi jaringan syaraf.
Dengan melihat nilai ukuran dari N dan kumpulan data training.
Ukuran tersebut adalah nilai batas untuk pola dalam nilai sum-squareserror dengan integral dalam bentuk persamaan sebagai berikut :

Sekarang mendapatkan hasil dari factor

1
N yang merupakan bagian dari

sum-of-squares error sebagai batas limit. Dapat menggunakan persamaan


sebagai berikut :

Kemudian mensubstitusikan nilai 6.44 kedalam 6.40 dan membuat


nilai dari 6.41 dan 6.42. Nilai sum-of-squares error dapat ditulis sebagai
berikut :

Karena integral pertama pada persamaan 6.45 adalah non negative ,


minimum absolut fungsi bisa dihilangkan sesuai dengan jaringan network
pada persamaan sebagai berikut :

Gambar 6.1

Dimana

w adalah nilai vector minimal dari fungsi error. Persamaan

6.46 adalah contoh bahwa network mapping diberikan oleh nilai syarat
rata rata dari nilai yang akan dicari , dengan kata lain dengan regresi
nilai TFC dikondisikan. Hasil tersebut dapat digambarkan oleh gambar 6.1
dan contoh sederhana 6.2

Gambar 6.2
Pada gambar 6.2 terlihat pemetaan jaringan dimana nilai rata rata
dari target adalah diambil dari nilai

( 2 phi x )+ e
t =x+ 0.3 sin dimana e adalah random

dari distribusi nilai (-0.1 , 0.1). Bentuk solid pada gambar diambil dari nilai
multi-layer perceptron network dengan nilai sum-of-squares-error yang
memberikan nilai representasi yang bagus.
Kita dapat mudah melihat nilai minimum sum-of-squares error telah
diberikan dari nilai rata rata dari nilai target seperti pada persamaan
berikut :

Dimana a dan b adalah nilai constant. Differensiasi dari E(y) dapat dilihat
dari nilai minimum y pada persamaan berikut :
10

6.1.4

Outer Product Approximasi dari Hessian (Pendekatan

Produk Luar Untuk Hessian)


Dengan menggunakan fungsi error pada persamaan 6.45. Kita dapat
mengambil hubungan antara wr dan ws maka kita memperoleh persamaan
:

Dengan menggunakan hasil dari nilai 6.46 bahwa output

yk x dari

jaringan dilatih mewakili data dengan menggunakan syarat rata rata


data, pada persamaan 6.56 hal tersebut dapat dihilangkan. Untuk satu set
data yang terbatas , kita dapat menulis hal dalam bentuk persamaan :

6.1.4 Pendekatan Produk Luar Untuk Hessian


Pada pembahasan sebelumnya telah dibahas pendekatan matrik hessian
yang merupakan matrix turunan kedua dari fungsi error pada bobot
jaringan. Yaitu jumlah kuadrat pada fungsi error. Pendekatan ini didasarkan
pada jumlah hasil pada turunan pertama. Di sini ditunjukkan pendekatan
11

yang tepat untuk


data
yang tidak terbatas, asalkan fungsi yang
digunakan adalah fungsi error minimal. Dengan Mempertimbangkan fungsi
kesalahan pada (6.45). Ambil turunan kedua dengan dua bobot, sehingga
diperoleh wr dan ws.

Gunakan hasil dari (6.46). bahwa hasil dari jaringan terlatih


merepresentasikan rata-rata bersyarat dari target data. Dapat dilihat
bahwa istilah ke dua pada 6.56 hilang. Karena itu istilah hessian diberikan
oleh hasil integral yang meliputi hasil turunan pertama. Untuk satu set
data yang terbatas, dapat ditulis hasil ini dalam bentuk.

6.1.5. Inverse Problems (Masalah Invers)


Fakta bahwa solusi kuadrat yang mendekati rata-rata bersyarat dari
target data memiliki konsekuensi yang penting ketika jaringan saraf yang
digunakan untuk memecahkan masalah terbalik. Banyak aplikasi potensial
jaringan saraf gagal dalam kategori ini. Contohnya termasuk analisis data
spektral, rekonstruksi tomograf, kontrol tanaman industri, dan kinematika
robot. Untuk masalah tersebut ke depannya terdefnisi dengan baik yang
ditandai dengan fungsional (yaitu bernilai tunggal) pemetaan. Dalam kasus
rekonstruksi spektral, misalnya masalah ke depan sesuai dengan evaluasi
spektrum ketika parameter (lokasi, lebar dan amplitudo) yang diresepkan
dari garis spektrum. Dalam aplikasi praktis pada umumnya harus
memecahkan masalah inversi yang sesuai, di mana peran variabel input
dan output dipertukarkan. Dalam kasus analisa spektral, sesuai dengan

12

penentuan garis spektral dari spektrum yang diamati. Dari persoalan


invers, parameter

pemetaan menghasilkan banyak nilai, ada beberapa

nilai-nilai input yang sesuai dengan hasil output. Sebagai contoh,


kemungkinan terdapat beberapa pilihan untuk parameter garis spektral
yang menimbulkan spektrum yang sama saat diamati. Jika pendekatan
persegi diterapkan untuk masalah yang berbeda, itu akan mendekati ratarata bersyarat target data, dan ini sering kali akan mengakibatkan kinerja
sangat lemah
sendiri).

(karena rata-rata beberapa solusi belum tentu

Sebuah

ilustrasi

sederhana

dari

masalah

ini,

solusi
dengan

mempertimbangkan kumpulan data yang ditunjukkan sebelumnya pada


gambar 6.2 di mana dilihat bagaimana jaringan yang mendekati rata-rata
bersyarat dari target data memberikan representasi yang baik dari
generator yang mendasari data. misalkan sekarang dibalikkan peran
masukan dan sasaran. Variabel.
Gambar 6.3 menunjukkan hasil pelatihan jaringan dari jenis yang
sama seperti sebelumnya pada suatu data yang sama, tetapi variabel
input dan output dipertukarkan. Jaringan mencoba lagi untuk mendekati
rata-rata bersyarat dari target data, tapi kali ini rata-rata bersyarat
memberikan

deskripsi

yang

tidak

baik

sebagi

pembangkit

data.

Masalahnya dapat ditelusuri dengan nilai-nilai menengah x angka (6.3) di


mana data target memiliki banyak nilai. Prediksi yang dibuat oleh jaringan
latih di daerah ini bisa sangat tidak baik. Masalahnya tidak dapat
diselesaikan dengan memodifkasi arsitektur jaringan atau pelatihan
algoritma, karena merupakan konsekuensi mendasar dari pengunannn
jumlah fungsi error persegi. Untuk masalah yang melibatkan banyak input
dan output variabel dimana visualisasi data tidak langsung, itu bisa sangat
sulit untuk memastikan apakah ada ruang daerah

masukan target data

dengan banyak nilai. Salah satu pendekatan untuk masalah tersebut

13

adalah pergi ke luar deskripsi Gaussian distribusi target akan dibahas


dalam bagian 6.4

Gambar 6.3 Ilustrasi masalah yang bisa timbul ketika pendekatan


kuadrat terkecil diterapkan untuk masalah terbalik. Hal ini menunjukkan
data yang sama ditetapkan seperti pada gambar 6.2 tetapi dengan peran
variabel input dan output yang tertukar . Kurva padat menunjukkan hasil
pelatihan jaringan saraf yang sama seperti pada gambar 6.2 digunakan
lagi sebagai jumlah kesalahan persegi. Kali ini jaringan memberikan data
kecocokan tidak baik, karena di coba lagi dengan rata-rata bersyarat dari
nilai target.
6.2. Minkowski Error
Pada jumlah fungsi kuadrat error kemungkinan maksimum pada
distribusi Gaussian untuk data sasaran. Dapat diperoleh lebih banyak
fungsi kesalahan umum dengan mempertimbangkan generalisasi dari
Distribusi Gaussian dalam bentuk:

Dimana

adalah

parameter

fungsi

gamma

(didefnisikan

pada

halaman

28),

mengontrol varians dari distribusi, dan pra-faktor dalam


14

(6.58) memastikan bahwa

Untuk kasus R = 2 distribusi ini

untuk mengurangi Gaussian. Jika dianggap bahwa log kemungkinan negatif


dari kumpulan data, yang diberikan oleh (6,5) dan (6,6), di bawah distribusi
(6.58) Dengan mengabaikan konstanta yang relevan, dapat diperoleh
fungsi kesalahan dalam bentuk

Gambar 6.4 adalah plot dari fungsi |y-r|R terhadap |y-t| untuk
berbagai nilai R. Fungsi ini membentuk dasar untuk mengukur defnisi
Minkowski-R

error.

Disebut

minkowski-R

error.

Untuk

mengurangi

kesalahan jumlah kuadrat biasa ketika R = 2 untuk kasus R = 1, distribusi


fungsi (6.58) , dan minkowski-R sesuai ukuran (6.59) disebut kota blok
metrik (karena jarak antara titik pada pesawat diukur dengan matrik yang
sama dengan jarak euclidean ditutupi dengan bergerak antara dua titik di
sepanjang segmen garis sejajar dengan sumbu, seolah-olah bergerak
sepanjang blok di kota). Pada umum, jarak matrik |y-r|R dikenal sebagai
norma Lr.
Turunan dari fungsi error Minkowski-R berkaitan dengan bobot dalam
jaringan yang diberikan oleh

15

Turunan tersebut dapat dievaluasi menggunakan standar prosedur, yang


dibahas dalam Bagian 4.8. Contoh penerapan kesalahan Minkowski-R ke
jaringan yang terlatih menggunakan penyebaran kembali yang diberikan
dalam Hanson dan Burr (1988) dan Burrascano (1991).
Salah satu potensi sulit dari jumlah standar kesalahan adalah bahwa
hal

itu

menerima kontribusi terbesar dari titik-titik yang memiliki kesalahan


terbesar. Jika tidak berbuntut panjang pada distribusi maka solusinya
dapat didominasi oleh sejumlah kecil titik yang disebut outlier yang
memiliki kesalahan sangat besar. Hal ini digambarkan dengan contoh
sederhana pada Gambar 6.5.
Masalah yang sama berat juga dapat muncul dari data salah label.
Misalnya untuk satu titik data tunggal yang nilai target yang salah label
dengan jumlah yang besar benar-benar dapat membatalkan solusi kuadrat
terkecil.

Gambar 6.5. Contoh pemasangan polinomial lurus melalui satu set


data

rancu

ditunjukkan dengan meminimalkan kesalahan jumlah kuadrat. Dalam (a)


garis memberikan representasi yang baik dari aspek data sistematis.
Dalam (b) data satu titik tambahan telah ditambahkan dan letaknya jauh

16

dari titik data lain, menunjukkan bagaimana mendominasi pemasangan


baris.
Teknik yang dicoba untuk memecahkan masalah ini dirujuk sebagai
kuat Statistik dan review dalam konteks metode statistik konvensional
yang dapat ditemukan di Huber (1981). Pemanfaatan kesalahan Minkowski
dengan nilai R kurang dari 2 mengurangi kepekaan outlier. Misalnya,
dengan R - 1, solusi error minimum menghitung median bersyarat dari
data, bukan berarti bersyarat (Latihan 6.5). Alasan untuk ini dapat dilihat
dengan memperhatikan kesalahan sederhana :

Minimalisasi E (y) terhadap y memberikan :

yang dipenuhi ketika y merupakan median dari titik {tn} (yaitu nilai yang
jumlah titiknya sama dengan

tn memiliki nilai lebih besar dari y dalam

bentuk nilai kurang dari y) jika salah satu dari tn diambil untuk beberapa
nilai yang sangat besar, hal ini tidak berpengaruh pada solusi yang ke y.
6.3. Input-Dependent Variance (Ketergantungan Masukan Varian)
Sejauh ini telah diasumsikan bahwa varians dari data target dapat
digambarkan oleh satu parameter global. Dalam banyak aplikasi praktis,
ini akan menjadi asumsi yang tidak baik, dan sekarang dibahas model
yang lebih umum untuk data target distribusi. Secara umum, mungkin
untuk menentukan bagaimana varians data tergantung pada vektor input x
(Nix dan Weigend, 1994). al ini dapat dilakukan dengan mengadopsi

17

gambaran yang lebih umum untukdistribusi bersyarat dari data target, dan
kemudian menuliskan kemungkinan log negatifuntuk mendapatkan fungsi
kesalahan yang sesuai. Dengan demikian, dapat ditulis Distribusi bersyarat
dari variabel target dalam bentuk

Untuk membentuk fungsi logaritma negatif dan menghilangkan konstanta


aditif, diperoleh

Jika sekarang dikalikan dengan 1 / N seperti sebelumnya, dan mengambil


batas dari data

tidak terbatas, maka dapat peroleh fungsi kesalahan

dalam bentuk :

Fungsi er, t (x) dapat dimodelkan dengan menambahkan output lebih


lanjut untuk jaringan saraf. Pendekatan alternatif untuk menentukan
sebuah ketergantungan varian input (Satch-well, 1994) didasarkan pada
hasil (6.46) bahwa pemetaan jaringan yang meminimalkan jumlah kuadrat
error diberikan oleh ekspektasi bersyarat dari data target. Pertama
jaringan yang dilatih dengan cara yang biasa dengan meminimalkan
jumlah kotak kesalahan di mana t% membentuk target. Output dari
jaringan ini, ketika disajikan dengan vektor input data terlatih xn, sesuai
18

dengan rata-rata bersyarat dari data target. Rata-rata ini dikurangkan dari
nilai target dan hasilnya kemudian kuadrat dan digunakan sebagai target
untuk jaringan kedua yang juga dilatih menggunakan sejumlah fungsi
kuadrat kesalahan. Output dari jaringan ini kemudian mewakili rata-rata
bersyarat {tk - (tk \ x)} 2dan sehingga mendekati varians er | (x) yang
diberikan oleh (6.55).
Prosedur ini dapat dibenarkan secara langsung sebagai berikut. jika
dianggap bahwa fungsi 2 / jt (x) dan o> (x) fleksibilitas tak terbatas maka
pertama-tama meminimalkan E sehubungan dengan Yk oleh fungsi
diferensiasi diberikan

setelah beberapa penataan ulang, memberikan hasil yang standar

Seperti sebelumnya juga meminimalkan E independen terhadap fungsi ok


(X) untuk memberikan :

Yang ini mudah dipecahkan untuk a2k (x) untuk memberikan

di mana telah digunakan (6.67). kemudian dapat ditafsirkan (6.69) dalam


hal dua tahappendekatan dua jaringan yang dijelaskan di atas. Teknik ini
sederhana dan dapat menggunakan perangkat lunak jaringan saraf
standar. Keterbatasan utama adalah bahwa hal itu masih mengasumsikan
bentuk fungsi Gaussian.
6.3 Input dependent Variance (Tergantung perbedaan masukan)
19

Sejauh ini kita telah mengasumsikan bahwa perbedaan dari target


data dapat digambarkan oleh parameter .Didalam

banyak aplikasi yang

berguna, ini akan menjadi miskin asumsi, dan kita sekarang membahas
model yang lebih umum untuk distribusi target data .The sum-of-squares
kesalahan dengan mudah diperluas untuk memungkinkan setiap output
dijelaskan oleh perbedaan parameter

-nya k. Umumnya lagi, kita

mungkin ingin menentukan bagaimana perbedaan data tergantung pada


vektor input x (Nix dan Weigend, 1994) .Ini dapat dilakukan dengan
mengadopsi gambaran yang lebih umum untuk syarat distribusi dari target
data,

dan

kemudian

menuliskan

log

negatif-kemungkinan

untuk

mendapatkan fungsi, demikian juga kesalahan yang sesuai, kita menulis

Distribusi bersyarat dari target variabel dalam bentuk.


Membentuk logaritma negatif dari fungsi probabilitas seperti sebelumnya,
dan menghilangkan konstanta aditif, kita dapat memperoleh :
Jika kita sekarang kalikan dengan 1 / N seperti sebelumnya, dan
mengambil data yang tidak tebatas, kita memperoleh fungsi kesalahan

dalam bentuk :
Fungsi k (X) dapat dimodelkan dengan menambahkan output lebih
lanjut untuk jaringan saraf.kita tidak akan mempertimbangkan pendekatan
ini lebih lanjut, karena merupakan kasus khusus dari teknik ini jauh lebih

20

umum untuk memodelkan distribusi bersyarat secara penuh,yang akan


dibahas segera.
Pendekatan alternatif untuk menentukan sebuah varian tergantung
pada masukannya (Satchwell, 1994) didasarkan pada hasil (6.46) bahwa
pemetaan jaringan yang meminimalkan sum-of-square(kuadrat total) error
yang diberikan oleh ekspektasi bersyarat dari target Data .Pertama
jaringan dilatih dengan cara yang biasa dengan meminimalkan sum-ofsquare(kuadrat total)

Kesalahan yang membentuk

t nk

target .suatu

output dari jaringan ini, ketika disajikan dengan input data latih vektor x
pangkat n, sesuai dengan syarat rata-rata dari target data .rata-rata ini
dikurangi dari nilai target dan hasilnya kemudian dikuadratkan dan
digunakan

sebagai

target

untuk

jaringan

kedua

yang

juga

dilatih

menggunakan sum-of-square(kuadrat total) output error function.jaringan


ini merupakan rata-rata bersyarat {TK-(tk \ x)} 2 dan dengan demikian
perkiraan varians 2 k (x) yang diberikan oleh (6.55).
Prosedur

ini

dapat

dibenarkan

secara

langsung

sebagai

follows.Mempertimbangkan data yang tak terbatas lagi, kami dapat


menulis fungsi kesalahan dalam bentuk (6.65) .Jika kita menganggap
bahwa fungsi Yk (x) dan k (x) memiliki fleksibilitas tak terbatas maka
pertama-tama kita bisa meminimalkan E sehubungan dengan k oleh

diferensiasi fungsional untuk memberikan :


setelah beberapa perbaikan, memberikan hasil yang standar :

21

sebelumnya dapat diminimalkan E independen terhadap fungsi k (x)


untuk memberikan:

yang mudah dipecahkan untuk pangkat 2 k (x) untuk memberikan:


di

mana

kita

telah

menggunakan

rumus

(6.67)

.Kami

kemudian

menafsirkan (6.69) dalam hal pendekatan dua-tahap jaringan yang


dijelaskan

di

menggunakan

atas.Layanan
jaringan

saraf

teknik

sederhana

software

standar.

dan

dapat

dibuat

keterbatasan

utama

jaringan syaraf adalah bahwa hal tersebut masih mengasumsikan bentuk


Gaussian untuk fungsi distribusi (karena memanfaatkan hanya statistik
orde kedua dari target data).
6.4

Modelling

Conditional

Distributions

(Pemodelan

distribusi bersyarat)
Berhubungan dengan pemodelan distribusi bersyarat dari target data
dalam hal distribusi Gaussian dengan varians parameter global dan mean.
Akan tetapi tergantung x, jika data memiliki struktur yang kompleks,
seperti misalnya pada Gambar 6.3, maka pilihan distribusi tertentu dapat
menyebabkan representasi yang sangat miskin dari data. Oleh karena itu
kami mencari kerangka umum untuk pemodelan distribusi probabilitas
bersyarat.
Gambar 6.6. dapat mewakili massa jenis probabilitas bersyarat umum p (t |
x)
dengan mempertimbangkan model parametrik untuk distribusi t yang
parameternya

22

ditentukan oleh output dari jaringan saraf yang mengambil x sebagai input
vektor
Untuk pilihan yang berbeda dari model parametrik, kita memperoleh
representasi yang berbeda untuk contoh kepadatan.Untuk yang bersyarat,
model Gaussian tunggal untuk p (t \ 0) sesuai dengan prosedur yang
dijelaskan di atas dalam Bagian 6.3.kemungkinan lain adalah dengan
menggunakan kombinasi linear satu set tetap fungsi kernel.Didalam kasus
ini output dari jaringan mewakili koefsien dalam kombinasi linear (Bishop
dan Legleye, 1995), dan kita harus memastikan bahwa koefsien yang
positif

sama

dengan

satu

dalam

rangka

melestarikan

positif

dan

normalisasi massa jenis.Kami tidak membahas pendekatan ini lebih lanjut


karena merupakan kasus khusus dari teknik yang lebih umum yang kita
pelajari berikutnya.
Sebuah kekuatan, kerangka umum untuk pemodelan distribusi
bersyarat, berdasarkan penggunaan model campuran, diperkenalkan pada
Bagian 2.6. Model campuran merupakan pembagian dari segi kombinasi
linear dari fungsi kernel adaptif.Jika kita menerapkan teknik ini untuk

masalah pemodelan distribusi bersyarat yang kita miliki :

23

di

mana

adalah

jumlah

komponen,

atau

kernel,

di

campur.parameter j (x) disebut pencampuran koefsien, dan dapat


dianggap sebagai probabilitas sebelumnya (dikondisikan pada x) dari t
sasaran vektor yang telah dihasilkan dari j yang komponennya dicampur
.Dengan catatan bahwa koefsien pencampuran diambil sebagai fungsi dari
input vektor x dan fungsi j (t \ x) mewakili kepadatan bersyarat dari t
sasaran vektor untuk pilihan kernel j .Various untuk fungsi kernel adalah
possible.Seperti dalam Bab 2, bagaimana pun, kita akan membatasi
perhatian fungsi kernel Gaussian dalam bentuk :
dimana

vektor j (x) merupakan pusat dari kernel j, dengan

komponen
j k, dan c adalah dimensi dari t. Dalam (6.71) kita telah mengasumsikan
bahwa komponen statistik output vektor independen yang ada di setiap
fungsi kernel, dan dapat dijelaskan oleh varians umum pangkat 2 j (X)
.asumsi secara langsung memperkenalkan matriks kovarians penuh untuk
setiap kernel Gaussian, dengan mengorbankan prinsip formal.Didalam
lebih kompleks, namun , komplikasi seperti itu tidak diperlukan, karena
campuran Model Gaussian, dengan kernel yang diberikan oleh (6.71),
dapat mendekati fungsi kepadatan diberikan sewenang-wenang kepada
akurasi, asalkan koefsien campuran dan parameter Gaussian (rata-rata
varians pasir) yang benar dipilih (McLachlan dan Basford, 1988). Dengan
demikian, representasi yang diberikan oleh (6.70) dan (6.71) benar-benar
general.Didalam hal-hal tertentu, tidak menganggap bahwa komponen t
secara

statistik

independen,

berbeda

dengan

representasi

tunggal

Gaussian yang digunakan dalam (6.6) dan (6.9) untuk menurunkan sumof-square error

24

Untuk setiap nilai yang diberikan x, model campuran (6.70)


memberikan formalisme umum untuk pemodelan fungsi densitas bersyarat
p (t | x). Sekarang akan diambil berbagai parameter dari model campuran,
yaitu koefisien campuran j (x ), j berarti (x) dan varians pangkat 2 j
(X), diatur oleh output dari jaringan saraf konvensional yang mengambil x
sebagai input .Ini teknik diperkenalkan dalam bentuk campuran (. Jacob
setal, 1991) model pakar yang digambarkan dalam Bagian 9.7, dan sejak
itu telah dibahas oleh penulis lain (Bishop, 1994a; Liu, 1994; Neuneieretal,
1994) .
Jaringan saraf pada Gambar 6.6 dapat berupa struktur jaringan
standar umpan-maju dengan kemampuan pendekatan universal. Di sini
kita

mempertimbangkan

lapisan

multiperceptron

dengan

lapisan

tersembunyi tunggal unit sigmoidal dan lapisan output unit linier. Untuk
komponen M dalam model campuran (6.70), jaringan akan memiliki output
M dilambangkan dengan z pangkat j yang menentukan koefsien
pencampuran, output M dilambangkan dengan z pangkat j yang
menentukan Lebar kernel j, dan keluaran/output (M x c) dilambangkan
oleh z pangkat j k yang menentukan komponen j k dari pusat kernel
j. Jumlah output jaringan diberikan oleh (c + 2) x M, dibandingkan dengan
output c biasa untuk jaringan digunakan dengan sum-of-square(kuadrat
total)kesalahan fungsi.
Untuk memastikan bahwa

koefsien j pencampuran (x) dapat

diartikan sebagai probabilitas, mereka harus memenuhi kendala :

Kendala pertama juga memastikan bahwa distribusi dinormalkan dengan


benar,sehingga p terpisahkan (t \ x) dt = 1. Kendala ini dapat dipenuhi
25

dengan memilih j (x) berkaitan dengan jaringan output sesuai dengan


fungsi Softmax (Bridle,1990;. Jacobs et al, 1991).
Akan ditemukan fungsi Softmax lagi di bagian berikutnya ketika kita
mendiskusikan fungsi kesalahan untuk masalah klasifkasi.
Varians j merupakan parameter skala dan sehingga sangat

nyaman untuk mewakili mereka dalam hal eksponensial dari output


jaringan yang sesuai
Dalam kerangka Bayesian (Latihan 10,13) ini sesuai dengan pilihan
non-informatif sebelumnya, dengan asumsi output jaringan yang sesuai
dengan z pangkat j memiliki distribusi probabilitas seragam (Jacobs et al,
1991; Nowlan dan Hinton, 1992). Pusat-pusat j merupakan parameter
lokasi,

dan

lagi

gagasan

non

informatif

sebelum

(Latihan

10.12)

menunjukkan bahwa ini diwakili langsung oleh output jaringan.


Seperti sebelumnya, kita dapat membangun sebuah kesalahan
fungsi dari kemungkinan dengan menggunakan (6.5) untuk memberikan

dengan j (t \ x) yang diberikan oleh (6.71) .suatu minimalisasi fungsi


kesalahan dapat ditolerir untuk parameter jaringan saraf mengarah ke
model untuk kepadatan bersyarat dari target data. Dari fungsi kepadatan
ini, setiap statistik yang diinginkan secara prinsip melibatkan variabel
keluaran yang dapat dihitung.

26

Dalam rangka meminimalkan fungsi error, kita perlu menghitung


turunan dari kesalahan E sehubungan dengan bobot dalam jaringan saraf.
Ini dapat dievaluasi dengan menggunakan prosedur backpropagation
standar, asalkan kita mendapatkan ekspresi derivatif yang cocok dari
kesalahan sehubungan dengan output jaringan. Karena fungsi kesalahan
(6.77) terdiri dari sejumlah istilah
E=n E n

adalah

satu

untuk

mempertimbangkan derivatif

masing-masing

nk = En / k

pola,

kita

dapat

adalah untuk pola n tertentu

dan kemudian menemukan turunan dari E dengan menjumlahkan semua


pola. Perhatikan bahwa, karena unit keluaran jaringan memiliki aktivasi
nk bisa juga ditulis sebagai
En / k
linear fungsi g (a) = a,jumlah
dan setara dengan kesalahan yang diperkenalkan dalam diskusi kesalahan
back-propagasi dalam Bagian 4.8. Kesalahan pemindaian akan kembalidisebarkan melalui jaringan untuk menemukan hubungan derivatif dengan
bobot jaringan.
Telah dikatakan bahwa j dapat dianggap sebagai kepadatan
bersyarat fungsi, dengan probabilitas sebelum j. Seperti dengan model
campuran dibahas dalam Bagian 2.6, akan lebih mudah untuk
memperkenalkan probabilitas posterior yang sesuai, yang kami peroleh

menggunakan teorema Bayes


karena hal ini menyebabkan beberapa penyederhanaan analysis.Note
berikutnya yang, dari (6.78), posterior probabilitas jumlah kesatuan
Pertimbangan turunan pertama dari E pangkat n sehubungan dengan
output jaringan yang sesuai dengan koefsien campuran j. Menggunakan
(6.77) dan (6.78) kita memperoleh

27

Kita sekarang mengetahui bahwa, sebagai akibat dari transformasi


Softmax (6.74), nilai k tergantung pada semua output jaringan yang
berkontribusi untuk campuran koefsien, dan membedakan (6.74) :
Dari aturan rantai yang dimiliki :

Menggabungkan (6.80), (6.81) dan (6.82) kemudian didapatkan :

di mana kita telah menggunakan (6.79).sesuai dengan nilai derivatif.


parameter j kita menggunakan (6.77) dan (6.78), bersama-sama dengan
(6.71), untuk memberikan:

Menggunakan (6.75) dapat dilakukan :


Menggabungkan ini, bersama-sama kita kemudian mendapatkan :
Jaringan memiliki tiga fungsi kernel Gaussian, dan menggunakan dua

lapisan multilayer perceptron dengan lima 'tanh' unit sigmoid pada lapisan
tersembunyi, dan sembilan output. Salah satu contoh penerapan teknik ini
untuk estimasi kepadatan bersyarat diberikan pada Gambar 6.7, yang
menunjukkan kerapatan kontur bersyarat yang sesuai dengan kumpulan
data yang ditunjukkan pada Gambar 6.3.

28

Output

dari

jaringan

saraf,

dan

karenanya

parameter

dalam

campuran

Model, yang selalu terus menerus bernilai

fungsi

tunggal dari variabel

input. Namun, model ini mampu menghasilkan kerapatan bersyarat yang


unimodal

untuk

beberapa nilai x dan trimodal untuk nilai-nilai lainnya, seperti pada


Gambar 6.7, dengan modulasi komponen amplitudo campuran, atau prior,
j (x). Hal ini dapat dilihat pada Gambar 6.8 yang menunjukkan plot dari
tiga prior j (x) sebagai fungsi dari x. Hal ini dapat dilihat bahwa untuk x =
0,2 dan x = 0,8 hanya satu dari tiga kernel memiliki non-nol probabilitas
sebelumnya. Pada x = 0,5, namun, ketiga kernel memiliki prior signifkan.
Setelah jaringan telah dilatih

dan dapat memprediksi fungsi kepadatan

target data bersyarat untuk setiap nilai yang diberikan dari vektor input.
Kondisi ini density merupakan deskripsi lengkap tentang generator data,
sejauh masalah memprediksi nilai vektor output yang bersangkutan.
Gambar 6.8. Plot dari prior j (x) sebagai fungsi dari x untuk fungsi
tiga kernel dari jaringan yang digunakan untuk merencanakan Gambar 6.7.
Pada kedua nilai kecil dan besar x, di mana kepadatan probabilitas
bersyarat dari data target unimodal, hanya satu dari kernel memiliki
29

probabilitas yang berbeda sebelumnya secara signifkan dari nol. Pada


nilai-nilai menengah x, di mana kepadatan bersyarat adalah trimodal, tiga
kernel memiliki prior sebanding
di mana kita telah menggunakan (6.70) dan (6.71). Ini sama dengan
latihan fungsi hitung dengan jaringan standar oleh kuadrat terkecil,
sehingga jaringan ini dapat mereproduksi kuadrat-hasil konvensional

sebagai kasus khusus. Kami juga dapat mengevaluasi varians dari fungsi

kepadatan tentang rata-rata bersyarat, untuk memberikan :


di mana kita telah menggunakan (6.70), (6.71) dan (6.90). Ini lebih umum
daripada

yang

sesuai

dengan

kuadrat-hasil

karena

varians

ini

diperbolehkan untuk menjadi fungsi umum x. Hasil yang sama dapat


diperoleh pada saat-saat lain dari distribusi bersyarat.

30

Gambar 6.9. Ini menunjukkan plot (t \ x) terhadap x (kurva padat)


dihitung dari kepadatan bersyarat pada Gambar 6.7 menggunakan (6.90),
bersama-sama dengan yang sesuai dengan plot (t \ x) s (kurva putusputus) (x) diperoleh dengan menggunakan (6.92).Plot dari mean dan
varians, yang diperoleh dari Distribusi bersyarat pada Gambar 6.7, yang
ditunjukkan pada Gambar 6.9.
Karena

j ( t|x ) dt =1

setiap

komponen

model

campuran

dinormalkan,

cabang yang paling mungkin dari solusi, dengan asumsi

komponen dipisahkan dengan baik dan memiliki tumpang tindih yang


diabaikan, diberikan :
Dalam campuran Model pakar (Jacobs et ai, 1991)hal ini sesuai
dengan memilih output dari salah satu modul jaringan komponen. Nilai
yang diperlukan t kemudian diberikan oleh pusat yang sesuai dengan j.
Gambar 6.10 menunjukkan cabang yang paling mungkin dari solusi,
sebagai fungsi dari x, untuk jaringan yang sama seperti yang digunakan
untuk merencanakan Gambar 6.7.
Sekali lagi, salah satu keterbatasan menggunakan teknik maximum
likelihood untuk menentukan jumlah varians seperti j, adalah bahwa hal

31

itu bias (Bagian 2.2). Secara khusus, ia cenderung meremehkan varians di


daerah-daerah di mana ada data yang terbatas
Gambar 6.10. Plot dari nilai tengah kernel

yang paling mungkin

sebagai

fungsi

x dari jaringan yang digunakan untuk merencanakan Gambar 6.7. Ini


memberikan pemetaan fungsional terputus dari saya untuk f yang pada
setiap nilai x terletak baik di dalam wilayah kepadatan probabilitas
signifkan. Diagram harus dibandingkan dengan pemetaan terus menerus
sesuai pada Gambar 6.3 yang diperoleh dari standar kuadrat terkecil.
6.4.1 Periodic Variables (variabel periodic)
Pendekatan ini

berdasarkan campuran fungsi kernel, tetapi dalam

kasus ini fungsi kernel sendiri periodik, sehingga memastikan bahwa fungsi
kepadatan keseluruhan akan periodik. Untuk memotivasi pendekatan ini,
mempertimbangkan masalah pemodelan distribusi vektor kecepatan v
dalam dua dimensi. Karena v tinggal di pesawat Euclidean, kita dapat
model fungsi kepadatan p (v) menggunakan campuran kernel Gaussian
bola konvensional, di mana masing-masing kernel memiliki bentuk :

mana (vx, vy) adalah komponen Cartesian v, dan ( x, y) adalah


komponen dari pusat kernel. Dari sini kita dapat mengekstrak syarat
32

distribusi sudut polar 9 dari vektor v, diberi nilai t; = || V ||. Hal ini mudah
dilakukan dengan transformasi v = v cos , vy = v sin , dan
mendefnisikan 0 menjadi sudut kutub ,, sehingga x = cos 0 dan
y = sin 0, di mana = | | ||. Hal ini menyebabkan distribusi dapat
ditulis dalam bentuk :
di

mana

koefsien

normalisasi

telah

dinyatakan

dalam

zerothorder

modifkasi fungsi Bessel jenis pertama, Io (m). Distribusi (6,95) dikenal


sebagai normal atau von melingkar distribusi Mises (Mardia, 1972).
Parameter m (yang tergantung pada v di derivasi kami) analog dengan
parameter varians (di-ayat) dalam distribusi normal konvensional. Karena
(6,95) adalah periodik, kita dapat membangun sebuah representasi umum
untuk

kepadatan

bersyarat

dari

variabel

periodik

dengan

mempertimbangkan campuran melingkar kernel yang normal, dengan


parameter diatur oleh output dari jaringan saraf. Bobot dalam jaringan
dapat

lagi

ditemukan

dengan

memaksimalkan

kemungkinan

fungsi

didefnisikan lebih dari satu set data pelatihan


Salah

satu

contoh

penerapan

teknik

ini

untuk

penentuan

arah angin dari data satelit radar scatterometer diberikan di Bishop dan
Legleye (1995). Ini adalah masalah terbalik di mana data multitarget
dihargai. Untuk masalah yang melibatkan variabel periodik dimana data
target
efektif bernilai tunggal sehubungan dengan vektor input, maka kernel
melingkar yang normal tunggal dapat digunakan.
6.5.

Estimating

posterior

probabilities

(Memperkirakan

probabilitas posterior)

33

Saat ini kita akan membahas pertimbangan fungsi error untuk masalah
klasifkasi dimana variabel sasaran mewakili kelas diskrit label.
Ketika kita menggunakan neural network untuk memecahkan masalah
klasifkasi, ada dua cara yang berbeda. Pertama, kita dapat mengatur
jaringan untuk mewakili diskriminan non-linear fungsi. Kedua yang lebih
umum adalah dengan menggunakan jaringan untuk model probabilitas
posterior keanggotaan kelas. Biasanya ada satu unit output untuk setiap
kemungkinan kelas, dan aktivasi setiap unit output yang mewakili posterior
sesuai probabilitas P(Ck|x), di mana Ck adalah kelas kth, dan x adalah
vektor input. Probabilitas ini kemudian dapat digunakan dalam tahap
pengambilan keputusan selanjutnya yaitu klasifkasi.
Dengan

mengatur

output

jaringan

untuk

perkiraan

probabilitas

posterior , kita dapat memanfaatkan sejumlah hasil yang tidak tersedia jika
jaringan yang digunakan hanya sebagai diskriminan non - linear ( Richard
dan Lippmann , 1991) . ini meliputi :

Minimum kesalahan - tingkat keputusan


Untuk meminimalkan kesalahan klasifkasi, masukan baru vektor
seharusnya

diserahkan

kepada

kelas

yang

memiliki

probabilitas

posterior terbesar . Perhatikan bahwa output jaringan tidak perlu


mendekati 0 atau 1 jika fungsi kepadatan tumpang tindih . Prosedur
heuristik , seperti menerapkan tambahan pelatihan menggunakan polapola yang gagal untuk menghasilkan output dekat dengan nilai target ,
akan menjadi kontraproduktif , karena ini mengubah distribusi dan
membuat kemungkinan kecil bahwa jaringan akan menghasilkan
probabilitas bayesian yang benar.

Output berjumlah 1
Karena perkiraan jaringan output probabilitas posterior mereka
harus berjumlah kesatuan. Rata-rata dari setiap output jaringan melalui
semua pola dalam training set harus mendekati probabilitas yang
sesuai dengan kelas sebelumnya.
34

Perkiraan prior ini dapat dibandingkan dengan perkiraan sampel prior


yang diperoleh dari fraksi pola di setiap kelas dalam set data training.
Perbedaan antara dua perkiraan ini merupakan indikasi bahwa jaringan
bukan

pemodelan

probabilitas

posterior

akurat

Richard

dan

Lippmann , 1991) .

Kompensasi untuk probabilitas prior berbeda


Probabilitas posterior yang diungkapkan melalui Teorema Bayes dalam
bentuk

dan probabilitas prior P(Ck) dan kepadatan kelas bersyarat P(x | C k)


diperkirakan secara terpisah. Pendekatan jaringan saraf sebaliknya
menyediakan Perkiraan langsung probabilitas posterior. Kadang-kadang
probabilitas prior yang diharapkan dengan yang sedang digunakan
berbeda dari yang diwakili oleh training set. Dengan begitu maka hal
yang mudah untuk menggunakan Teorema Bayes untuk membuat
koreksi yang diperlukan untuk output jaringan.
Hal ini dicapai hanya dengan membagi output jaringan dengan
probabilitas prior sesuai dengan training set, mengalikan mereka
dengan probabilitas prior baru, dan kemudian normalisasi hasilnya.
Probabilitas prior untuk training set dapat diperkirakan hanya
dengan mengevaluasi fraksi training set titik data di masing-masing
kelas. Sebagai contoh, pertimbangan masalah klasifkasi citra medis
menjadi 'normal' dan 'tumor'. Ketika digunakan untuk skrining tujuan,
kita akan mengharapkan probabilitas sebelumnya sangat kecil 'Tumor'.
Untuk mendapatkan berbagai gambar tumor yang baik pada training
set maka membutuhkan contoh pelatihan yang banyak. Alternatif untuk

35

meningkatkan artifsial proporsi gambar tumor dalam training set, dan


kemudian untuk mengimbangi prior yang berbeda pada data uji dapat
diperoleh dari statistik medis, tanpa harus mengumpulkan gambar
yang sesuai.

Menggabungkan output dari beberapa jaringan


Daripada menggunakan jaringan tunggal untuk memecahkan
masalah yang lengkap ,sering ada manfaat dalam memecahkan
masalah ke dalam bagian-bagian yang lebih kecil dan memperlakukan
setiap bagian dengan jaringan yang terpisah. Dengan membagi output
jaringan dengan probabilitas prior yang digunakan selama pelatihan,
output jaringan menjadi kemungkinan skala oleh kepadatan tanpa
syarat dari vektor input. Likelihood skala ini dapat dikalikan bersama
pada

asumsi

independen.

bahwa
Karena

vektor
scaling

masukan
Faktor

untuk

berbagai

independen

kelas,

jaringan
classifer

berdasarkan produk dari likelihood skala akan memberikan hasil yang


sama seperti yang didasarkan pada likelihood benar. Pendekatan ini
telah berhasil diterapkan untuk masalah pengenalan suara ( Bourlard
dan Morgan , 1990; Singer dan Lippmann , 1992).

minimal risiko
Sebagaimana dibahas dalam Bab 1, tujuan dari sistem klasifkasi
tidak mungkin selalu untuk meminimalkan kemungkinan kesalahan
klasifkasi. kesalahan klasifkasi berbeda dapat membawa hukum yang
berbeda, dan kita mungkin ingin untuk meminimalkan kerugian atau
resiko

secara

keseluruhan.

Sekali

lagi

aplikasi

skrining

medis

memberikan contoh yang baik. Salah mengklasifkasikan gambar tumor


menjadi seperti gambar biasa ini mungkin jauh lebih serius daripada
salah mengklasifkasikan gambar normal yang tumor. Dalam hal ini,
posterior probabilitas dari jaringan dapat dikombinasikan dengan

36

matriks yang sesuai koefsien kerugian untuk memungkinkan minimum


resiko yang akan dibuat.

ambang batas penolakan


Ambang batas penolakan yaitu jika semua probabilitas posterior
jatuh di bawah ambang batas ini maka ada keputusan klasifkasi yang
dibuat. Teknik klasifkasi alternatif bisa kemudian diterapkan pada
kasus ditolak. Hal ini mencerminkan biaya yang terkait dengan
membuat keputusan yang salah diimbangi dengan biaya alternatif
prosedur klasifkasi. Pada gambar medis masalah klasifkasi misalnya :
mungkin lebih baik tidak mencoba untuk mengklasifkasikan gambar
yang diragukan, tetapi memiliki ahli untuk memberikan manusia
keputusan. Penolakan vektor input dapat dicapai dengan cara yang
berprinsip, asalkan jaringan output merupakan probabilitas posterior
keanggotaan kelas.

6.6

Sum-of-squares

for

classification

(Sum-of-squares

untuk

klasifikasi)
Pada bagian sebelumnya kita menunjukkan bahwa, untuk jaringan
dilatih dengan meminimalkan suatu sum-of-squares kesalahan fungsi,
output jaringan mendekati rata-rata bersyarat dari data target

Dalam masalah klasifkasi, setiap vektor input pada training set


diberi label oleh anggota kelasnya, diwakili oleh satu set nilai target

t nk .

Target tersebut dapat dipilih sesuai dengan berbagai skema, tetapi yang
paling nyaman adalah 1-of-c coding dimana, untuk vektor masukan x n dari
kelas Ci, kita memiliki

t nk = kl dimana fkt adalah simbol Kronecker delta.

37

Didalam huruf target nilai-nilai yang diketahui secara tepat dan fungsi
kepadatan target ruang menjadi tunggal dan dapat ditulis sebagai

karena P(Cl|x) adalah probabilitas bahwa x milik kelas Cl. Jika sekarang kita
mengganti (6.99) ke dalam (6.98) kita memperoleh

sehingga output dari jaringan sesuai dengan probabilitas posterior


Bayesian (White, 1989; Richard dan Lippmann, 1991).
Jika output jaringan merupakan probabilitas, maka mereka harus
berada di rentang (0,1) dan harus berjumlah 1. Untuk jaringan dengan
unit-unit output linier, dilatih dengan meminimalkan sum-of-squares fungsi
kesalahan. Diperlihatkan pada Bagian 6.1.2 bahwa jika nilai target
memenuhi kendala linear, maka output jaringan akan memenuhi kendala
yang sama untuk vektor input yang berubah-ubah. Dalam kasus 1-of-c
skema pengkodean, target nilai sum kesatuan untuk setiap pola dan
jaringan output juga akan selalu berjumlah kesatuan. Namun, tidak ada
jaminan bahwa mereka akan terletak di atas kisaran (0,1). Bahkan, sum-ofsquares fungsi kesalahan bukan yang paling tepat untuk masalah
klasifkasi. Namun, ada keuntungan dalam menggunakan sum-of-squares
fungi kesalahan, termasuk fakta bahwa penentuan output bobot dalam
jaringan merupakan masalah optimasi linier. Signifkansi hasil ini untuk
jaringan fungsi basis radial digambarkan dalam Bab 5. Oleh karena itu
penggunaan sum-of-squares fungsi kesalahan dibahas untuk masalah
klasifkasi lebih detail sebelum mempertimbangkan pilihan alternatif fungsi
kesalahan.
Untuk masalah dua kelas, skema 1-of-c coding di atas mengarah
pada jaringan dengan dua unit output, satu untuk masing-masing kelas
dan aktivasi yang mewakili probabilitas yang sesuai dengan keanggotaan
38

kelas. sebuah pendekatan alternatif adalah dengan menggunakan output y


tunggal dan coding sasaran yang menetapkan t n = 1 jika xn adalah dari
kelas Cl dan tn = 0 jika xn dari kelas C2. Dalam hal ini, distribusi nilai target
yang diberikan oleh :

Mengganti ini ke (6.98) memberikan :

dan output jaringan y(x) merupakan probabilitas posterior input vektor x


milik kelas C1. Probabilitas yang sesuai untuk kelas C 2 kemudian diberikan
oleh P (C2 | x) = 1 - y (x).
6.6.1

Interpretation

of

hidden

units

(Interpretasi

unit

tersembunyi)
Dalam Bagian 6.1.1 menggunakan ekspresi (6.29) untuk bobot
akhir-lapisan

yang

meminimalkan

kesalahan

sum-of-squares,

untuk

jaringan dengan unit-unit output linier. Dengan mengganti hasil ini


kembali ke fungsi kesalahan, kita memperoleh ekspresi parameter adaptif
yang terkait dengan unit-unit tersembunyi, yang kita lambangkan dengan
w. Ungkapan ini menyoroti sifat representasi hidden unit jaringan dan
menunjukkan mengapa multi-layer non-linear jaringan saraf bisa efektif
sebagai sistem klasifkasi pola (Webb dan Lowe, 1990).
Dalam notasi matriks kita memperoleh :

dimana Z, W dan T didefnisikan pada halaman 199. Kita sekarang


menggantikan solusi (6.29) untuk bobot optimal dalam (6.103) untuk
memberikan :

Dengan menggunakan beberapa manipulasi matriks (Latihan 6.9) kita


dapat menulis ini dalam bentuk :
39

Berikut ST didapatkan dari :

dan komponen

didefnisikan oleh (6.24). Kami melihat bahwa ini dapat

diartikan sebagai total matriks kovarians untuk aktivasi pada output dari
lapisan akhir unit tersembunyi sehubungan dengan kumpulan data
pelatihan. Demikian SB pada (6.105) di dapatkan :
yang dapat diartikan (seperti yang akan kita lihat) sebagai bentuk antara
kelas kovarians matriks.
Pada (6.105) hanya tergantung pada Target data yang independen
dari bobot tersisa

~
w

dalam jaringan. Dengan demikian, meminimalkan

sum-of-squares error setara dengan memaksimalkan Fungsi diskriminan


yang didefnisikan sehubungan dengan aktivasi dari fnal-layer unit
tersembunyi yang diberikan oleh :

Perhatikan bahwa, jika matriks ST adalah ill-conditioned, maka invers


matriks

S1
T

harus digantikan oleh pseudo-inverse

S T . Kriteria (6.108)

memiliki kesamaan yang jelas dengan fungsi diskriminan Fisher yang


dibahas dalam Bagian 3.6.
Peran yang dimainkan oleh unit tersembunyi sekarang dapat dinyatakan
sebagai berikut. Bobot di lapisan akhir disesuaikan untuk menghasilkan
diskriminasi optimal kelas vektor masukan melalui transformasi linear.
Meminimalkan kesalahan diskriminan linier, mensyaratkan bahwa data
input non-linear sebuah transformasi menjadi ruang yang direntang oleh
aktivasi tersembunyi untuk memaksimalkan fungsi diskriminan yang
diberikan oleh (6.108).
40

Wawasan

lebih

lanjut

ke

sifat

SB

matriks

diperoleh

dengan

mempertimbangkan skema sasaran coding tertentu. Untuk 1-of-c skema


sasaran coding kita bisa menulis (6.107) dalam bentuk :

dimana Nk adalah jumlah pola di kelas Ck dan

adalah vektor rata-rata

aktivasi unit tersembunyi untuk semua pola pelatihan di kelas C k, dan


didefnisikan oleh

Perhatikan SB dalam (6.109) berbeda dari konvensional antara kelas


kovarians

matriks

menggunakan faktor

yang
2

Nk

diperkenalkan

pada

Bagian

3.6

dengan

bukan Nk di penjumlahan kelas atas. Ini

merupakan bobot yang kuat dari kriteria ekstraksi ftur mendukung kelas
dengan jumlah yang lebih besar dari pola. Jika ada perbedaan yang
signifkan antara probabilitas sebelumnya untuk pelatihan dan set data uji,
maka efek ini mungkin tidak diinginkan, dan kita akan melihat bagaimana
memperbaiki itu dengan memodifkasi ukuran kesalahan sum-of-squares.
Secara umum, tidak ada cara untuk memutuskan mana yang akan
menghasilkan hasil terbaik. Untuk masalah dua kelas, antara kelas matriks
kovarians yang diberikan dalam (6,109) berbeda dari konvensional satu
hanya dengan konstan perkalian, sehingga dalam hal ini Kriteria jaringan
setara dengan ekspresi Fisher asli.
6.6.2 Weight sum-of-squares ( Bobot sum-of-squares)
Kita telah melihat bahwa, untuk jaringan dengan unit-unit output
linier, minimalisasi dari

sum-of-squares error pada output jaringan

memaksimalkan non-linear tertentu dengan kriteria ekstraksi ftur

41

di unit tersembunyi. Untuk skema pengkodean 1-of-c, yang sesuai dengan


matriks kovarians antar kelas, yang diberikan oleh (6.109), berisi koefsien
yang tergantung pada Nk, jumlah pola di kelas C k. representasi hidden unit
diperoleh dengan memaksimalkan fungsi diskriminan ini hanya akan
optimal untuk set probabilitas prior tertentu Nk|N. Jika probabilitas
sebelumnya berbeda antara pelatihan dan uji set, maka ekstraksi ftur
tidak perlu optimal.
Kesulitan terkait muncul jika ada biaya yang berbeda antar terkait dengan
berbagai

kesalahan

klasifkasi,

sehingga

kerugian

matriks

perlu

dipertimbangkan. Ini telah diusulkan (Lowe dan Webb, 1990, 1991) bahwa
modifkasi bentuk sum-of-squares error untuk memperhitungkan matriks
kerugian.
Untuk menghadapi kemungkinan sebelum berbeda antara set pelatihan
dan Uji set, Lowe dan Webb (1990) memodifkasi sum-of-squares error
dengan memperkenalkan kn faktor bobot untuk setiap pola n sehingga
fungsi error menjadi

dimana faktor bobot yang diberikan oleh

untuk pola n di kelas Ck di mana

~
P (Ck) adalah probabilitas prior kelas Ck

untuk data uji, dan Pk = Nk|N adalah sesuai (sampel estimasi) probabilitas
prior untuk pelatihan Data. Hal ini mudah untuk menunjukkan (Latihan
6.12) bahwa total kovarians matriks ST kemudian menjadi

42

yang merupakan estimasi sampel berdasarkan dari total matriks kovarians


untuk data dengan probabilitas prior kelas

~
P (Ck). Dalam (6.114)

diberikan oleh

merupakan estimasi-sampel berdasarkan dari nilai


mengambil Data untuk memiliki probabilitas prior

yang akan

~
P (Ck). Demikian pula,

dengan asumsi 1-of-c skema sasaran coding, antara kelas matriks


kovariansi dimodifkasi menjadi

yang merupakan estimasi sampel berdasarkan antara kelas kovarians


matriks untuk Data dengan probabilitas prior

~
P (Ck).

Efek dari kerugian matriks yang berubah-ubah dapat diperhitungkan


dengan memodifkasi target skema pengkodean sehingga, untuk n pola
yang berlabel sebagai milik kelas Cl, vektor target memiliki komponen
= 1 - Llk, dimana Llk

tk

merupakan kerugian dalam menentukan pola dari

kelas Cl untuk kelas Ck. Total matriks kovariansi tidak berubah, sedangkan
kelas antara matriks kovarians menjadi (Latihan 6.13)

Dengan mengurangi ekspresi biasa ketika L lk = 1 lk. Contoh penerapan


teknik ini untuk masalah dalam prognosis medis diberikan dalam Lowe dan
Webb (1990).
6.7. Cross-entropy
kelas)

for

two

classes (Cross-Entropi untuk dua

Sasaran skema pengkodean dengan arget 1-of-c, keluaran dari


jaringan yang dilatih dengan meminimalkan kemungkinan fungsi jumlah
43

kuadrat error dari posterior probabilities keanggotaan kelas, dikondisikan


pada vector input. Namun, jumlah kuadrat error diperoleh dari dasar
kemungkinan maksimum dengan mengasumsikan bahwa target data
degenerate atau berasal dari fungsi deterministic halus dengan
penambahan Gaussian noise (normal noise model). Ini jelas menjadi titik
awal untuk menyadari masalah regresi. Untuk masalah klasifkasi, namun
target merupakan sebuah variable biner, dan Gauss Noisi model tidak
memberikan deskripsi yang baik untuk distribusi mereka. Oleh karena itu
dicari pilihan yang lebih tepat untuk masalah fungsi error.
Untuk memulainya, dilibatkan masalah yang hanya melibatkan 2 kelas,
dan salah satu pendekatan untuk masalah tersebut yaitu menggunakan
jaringan dengan dua unit, satu unit untuk masing-masing kelas. Jenis
representasi ini dibahas dalam Bagian 6.9. Di sini hanya membahas
pendekatan alternatif dengan anggapan sebuah jaringan dengan sebuah
output tunggal. Nilai y merepresentasikan posterior probability P(C 1|x)
untuk kelas C1. Posteriro probability untuk kelas C2 direpresentasikan

dengan P(C2|x) = 1-y. Hal ini dapat dicapai jika memiliki target coding
dimana untuk t=1 jika vector input adalah milik class C1 dan t=0 jika
termasuk ke kelas C2. Hal ini dapat diekspresikan kedalam suatu ekspresi
tunggal, Sehingga kemungkinan nilai target nya adalah sebagai berikut :
kasus khusus dari distribusi binomial disebut sebagai distribusi Bernoulli.
Dengan interpretasinya terhadap unit keluaran aktivasi, kemungkinan
mengamati kumpulan data pelatihan, mengasumsikan titik data diambil
secara independen dari distribusi ini, representasi nilainya digambarkan
sebagai berikut :
Dan akan lebih mudah untuk meminimalkan logaritma negatif dari sebuah
kemungkinan. Hal ini menyebabkan kesalahan fungsi lintas entropi (cross-

entropy error function) dalam bentuk


Maksud dari entropy akan dibahas pada 6.10, untuk saat ini akan
diperhatikan beberapa sifat dasar dari error function-nya. Diferensial
(fungsi turunan) error-function berhubungan dengan yn yang diperoleh :

44

Minimum Absolut dari error function terjadi ketika :

Persamaan diatas berlaku untuk semua nilai n.


Dalam bagian 3.1.3 menunjukkan bahwa jaringan dengan output tunggal
direpresentasikan sebagai y = g(a) dimana nilainya ditafsirkan sebagai
sebuah kemungkinan, hal ini akan sesuai jika mempertimbangkan aktivasi
logistic function sebagai berikut :

Yang memiliki turunan :

Penggabungan
Antara
persamaan
dengan
6.121
dan
6.124
memperlihatkan sebuah turunan yang berkaitan dengan a sehingga
bentuknya menjadi lebih sederhana seperti :

merupakan error kuantitas yang di- back-propogated melalui

jaringan mengatur untuk menghitung turunan dari error function yang


berhubungan dengan bobot jaringan (Bagian 4.8). Jika diperhatikan pada
6.125 memiliki bentuk yang sama sebagaimana diperoleh untuk sum-ofsquare (jumlah kuadrat) error function dan unit output linear. Dapat terlihat
bahwa terdapat sebuah pasangan alami dari error function dan unit output
activation function yang menimbulkan bentuk yang lebih sederhana untuk
45

bentuk derivative( turunan). Penggunaan bentuk logistik dari fungsi


aktivasi juga menyebabkan penyederhanaan yang tepat ketika
mengevaluasi matriks Hessian (matriks turunan kedua dari fungsi error).
Dari persamaan 6.120 dan 6.122, nilai minimum dari cross-entropy error
function dapat dicari dengan :

Skema koding 1-of-C ini menghilang. Namun, error function pada bagian
6.120 tepat digunakan ketika tn adalah variabel kontinyu yang berkisar
antara (0,1) merepresentasikan kemungkinan dari vector input xn yang
termasuk kedalam kelas C1. Dalam hal ini
nilai minimum (pada
persamaan 6.126) tidak perlu menghilang dan ini sangat cocok untuk

melepas nilai dari original error function yang dimodifkasi menjadi :


Karena (6,126) tidak tergantung pada output jaringan ini tidak
mempengaruhi lokasi minimum dan tidak memiliki efek pada pelatihan
jaringan. Kesalahan dimodifkasi (6,127) agar selalu memiliki nilai
minimum pada 0 dan terlepas dari training set tertentu.
Sebagai contoh sederhana dari penafsiran output jaringan sebagai
sebuah kemungkinan, dapat dianggap masalah dua kelas sederhana
dengan satu variabel input di mana kepadatan dari
kelas-bersyarat
diberikan oleh fungsi campuran Gaussian ditunjukkan pada Gambar 6.11.
Sebuah perceptron multilayer dengan lima unit tersembunyi memiliki
'tanh' fungsi aktivasi, dan satu unit output memiliki fungsi aktivasi sigmoid
logistik, dilatih dengan meminimalkan kesalahan lintas entropi
menggunakan 100 siklus algoritma BFGS quasi-Newton (Bagian 7.10).
Sehingga fungsi pemetaan jaringan ditampilkan, bersama dengan
probabilitas posterior yang dihitung dengan menggunakan teorema Bayes.

6.7.1 Fungsi Aktivasi Sigmoid (Sigmoid activation functions)

46

Dalam Bagian 3.1.3, logistik fungsi aktivasi sigmoid didorong untuk


jaringan single layer dengan tujuan untuk memastikan bahwa output
jaringan merupakan probabilitas posterior, dengan asumsi bahwa
kepadatan kelas-bersyarat dapat didekati dengan distribusi normal.
Dengan menerapkan argumen yang sama pada output jaringan dalam
kasus jaringan multi-layer.

Gambar 6.11. Plot dari kepadatan kelas-bersyarat digunakan untuk


menghasilkan data-set untuk menunjukkan interpretasi dari output
jaringan sebagai probabilitas posterior. Sebanyak 2000 titik data dihasilkan
dari kepadatan ini, dengan menggunakan probabilitas yang sama dengan
sebelumnya.
Dalam hal ini perlu dipertimbangkan distribusi dari output unit
tersembunyi, di sini direpresentasikan oleh vector z untuk dua kelas.
Pembahasan ini dapat digeneralisasi dengan asumsi bahwa kepadatan
kelas-bersyarat ini dijelaskan oleh :
yang merupakan anggota dari keluarga eksponensial distribusi (yang
mencakup banyak distribusi umum sebagai kasus khusus seperti Gaussian,
binomial, Bernoulli, Poisson, dan sebagainya). Parameter dan k
mengontrol bentuk distribusi. Dalam 6.128 secara implisit diasumsikan
bahwa distribusi hanya berbeda pada parameter k dan tidak pada .
Dengan contoh distribusi 2 Gaussian dengan cara yang berbeda tetapi
dengan matriks kovariansi umum.
Dengan menggunakan teorema Bayes, kita dapat menulis probabilitas
posterior untuk kelas C1 dalam bentuk :

47

Yang merupakan fungsi sigmoid logistic, dimana :

Gambar 6.12. merupakan hasil pelatihan data dari multi-layer perceptron


yang dihasilkan dari fungsi kepadatan pada Gambar 6.11. Kurva padat
dengan garis tebal menunjukkan output dari jaringan yang dilatih sebagai
fungsi dari input variabel x, sedangkan kurva putus-putus menunjukkan
posterior probability sebenarnya P(C1|x) yang dihitung dari kepadatan
kelas-bersyarat menggunakan teorema bayes.

Dengan menggunakan persamaan 6.128 persamaannya dapat ditulis


dalam bentuk :

Dimana telah didefnisikan :

48

Dengan demikian output jaringan ditentukan oleh fungsi aktivasi sigmoid


logistik yang bekerja pada bobot kombinasi linear output dari unit-unit
tersembunyi yang mengirimkan koneksi ke unit output.
Jelas bahwa kita dapat menerapkan argumen di atas dengan aktivasi dari
unit tersembunyi dalam jaringan. Asalkan unit tersebut menggunakan
logistik fungsi aktivasi sigmoid, kita dapat menafsirkan output mereka
sebagai hadirnya probabilitas sesuai 'ftur' yang dikondisikan pada input ke
unit.
6.7.2 Property dari cross-entropy
Misal dituliskan output jaringan, untuk pola n tertentu, dalam bentuk
.Kemudia cross-entropy error function-nya dapat dituliskan

sebagai berkut :
sehingga fungsi kesalahan tergantung pada kesalahan relatif dari
output jaringan. Hal ini harus dibandingkan dengan fungsi sum-of-square
(jumlah kuadrat) error yang tergantung pada (kuadrat) kesalahan mutlak.
Meminimalisasi cross-entropy error function karena cenderung

akan

mengakibatkan kesalahan yang relatif sama pada kedua nilai dari target
kecil dan besar. Sebaliknya, sum-of-square error functions cenderung
memberikan kesalahan mutlak yang sama untuk setiap pola, oleh karena
itu akan memberikan kesalahan yang relatif besar untuk nilai output yang
kecil. Hal ini menunjukkan bahwa cross-entropy error functions cenderung
lebih baik daripada sum-of-square (jumlah kuadrat) dalam memperkirakan
probabilitas kecil.
49

Untuk target biner, dengan tn=1 untuk sebuah inputan vector xn dari kelas
C1 dan tn=0 untuk inputan vector dari kelas C2 , dan persamaan crossentropy error functionnya dapat ditulis dalam bentuk :

Dimana digunakan z ln z 0 untuk z0 . Jika dimisalkan n nilainya kecil,


jadi error functions nya menjadi :

Dimana logaritmanya diperluas menggunakan ln(1+z) sama dengan


sebanding dengan z dan memperhatikan bahwa y (0,1) kemudian n <0
untuk inputan bagi kelas C1 dan n >0 untuk inputan bagi kelas C2. Hasil
pada persamaan 6.136 merupakan bentuk dari Minkowski-R error function
untuk R=1 yang dibahas sebelumnya. Dibandingkan dengan sum-ofsquare error function, fungsi ini memberikan bobot yang lebih kuat untuk
error yang lebih kecil.
Fungsi cross-entropy error telah diperoleh dengan syarat bahwa output
dari jaringan y merupakan representasi dari probabilitas input vector x
yang termasuk kedalam kelas C1. Jadi konsistensi dari persyaratan ini
dapat dipastikan dengan mempertimbangkan minimal dari error function
untuk kumpulan data besar yang tak berhingga, yang dapat ditulis dalam

bentuk:
Karena fungsi jaringan y(x)

tidak tergantung pada nilai target t, maka

persamaannya dapat ditulis sebagai berikut :

50

Dimana sebelumnya, telah ditentukan bahwa prasayarat dari rata-rata


bersyarat (conditional average) dari target data adalah :

Jika diatur turunan fungsional pada persamaan 6.138 terhadap fungsi y(x)
= 0 maka dapat ditentukan bahwa minimal error function terjadi ketika :
Jadi seperti sum-of-square error, output dari jaringannya mendekati ratarata bersyarat dari data target untuk vektor masukan yang diberikan.
Untuk target skema pengkodeannya telah dituliskan :
Dengan mensubstitusi persamaan 6.141 kedalam 6.139 ditemukan :

6.8

Multiple

independent

attributes

(Beberapa

Atribut

Independen)
Dari semua pengklasifkasian masalah yang telah dibahas sejauh ini,
telah ditetapkan vector baru ke salah satu c (c adalah sebuah kelas yang
saling terpisah dari yang lain (eksklusif)). Namun, dalam beberapa aplikasi
diharapkan dapat menggunakan jaringan untuk menentukan probabilitas
ada atau tidaknya sejumlah atribut yang tidak perlu saling terpisah dengan
yang lain. Dalam hal ini, jaringan ini memiliki multiple output dan nilai dari
output variabel yk merepresentasikan probabilitas adanya kemunculan
atribut kth. Jika atribut diperlakukan secara independen, maka distribusi
dari nilai target akan memuaskan.
51

Dan sekarang dapat digunakan persamaan 6.118 pada masing-masing


distribusi bersyarat untuk memberikan :

Jika sekarang dibangun fungsi likelihood (kemungkinan) dan mengambil


logaaritma negatif dalam cara yang biasa , maka akan diperoleh error
function dalam bentuk :

Dengan pilihan dari error function ini, output dari jaringan masing-masing
harus memiliki fungsi sigmoid logistic dalam bentuk persamaan 6.123.
Sekali lagi, untuk variabel target dalam bentuk biner

t nk

error function-

n
nya menghilang pada nilainya minimum. Jika kisaran probabilitas t k

adalah Antara (0,1), minimum kesalahannya akan tergantung pada set


data tertentu, sehingga akan lebih nudah melepas nilai minimum untuk
memberikan :
n
Yang selalu memiliki nilai absolut minimum yang berkaitan dengan { y k

= 0.

6.9 Cross-entropy
beberapa kelas)

for

multiple

classes ( cross-entropy untuk

52

Kita sekarang kembali ke klasifkasi permasalahan konvensional yang


melibatkan kelas yang saling terpisah satu dengan yang lainnya, dan
mempertimbangkan bentuk error function yang akan diambil jika jumlah
kelasnya lebih dari dua. Mempertimbangkan jaringan dengan satu output
n

tk

untuk setiap kelas, dan yang mana target data mempunyai skema

t nk

pengkodingan 1-of-C, jadi

kl

untuk sebuah pola n dari kelas C1.

Probabilitas pengamatan dari set nilai target


sebuah vector inputan

tk

kl

diberikan

xn, hanya terjadi jika p(C1|x)=yl. Nilai distribusi

bersyarat untuk pola ini dapat ditulis sebagai :


Jika dibentuk fungsi kemungkinan, dan mengambil logaritma negative
maka akan didapatkan error function dalam bentuk :

Minimum absolut dari error functions yang berhubungan dengan { y k


terjadi ketika

y nk

t nk

untuk semua nilai dari n dan k. Minimal dari

error function- nya diambil dari nilai :


Untuk skema koding 1-of-c nilai minimumnya adalah 0. Namun,
fungsi error pada persamaan 6.148 masih tetap valid, sebagaimana yang
t nk adalah sebuah variabel kontinyu yang berkisaran
terlihat, ketika
Antara (0,1) merepresentasikan probabilitas inputan xn termasuk kedalam
kelas Ck. Dalam hal ini minimum dari error-function tidak perlu dihilangkan
( karena merupakan representasi entropy dari distribusi variabel target
53

yang akan dibahas selanjutnya). Hal ini akan memudahkan untuk melepas
nilai minimumnya, sehingga dapat diperoleh error function dalam bentuk :
Yang mana persamaan ini merupakan non-negatif, dan akan sama dengan
n
n
nol jika y k = t k untuk semua nilai k dan n.
Sekarang akan dipertimbangkan fungsi aktivasi yang sesuai yang harus
digunakan untuk unit-unit output dari jaringan. Jika nilai-nilai output yang

diinterpretasikan sebagai probabilitas, maka nilai-nilai tersebut kisarannya


harus terletak Antara (0,1), dan harus berjumlah kesatuan. Hal ini dapat
dicapai dengan menggunakan generalisasi dari sigmoid logistic fungsi
aktivasi yang berbentuk :
Yang mana persamaan tersebut dikenal sebagai normalisasi
eksponensial, atau fungsi aktivasi softmax (Bridle,1990). Istilah softmax
digunakan karena merupakan versi yang lebih halus dari model fungsi
winner-takes-all dimana unit dengan input terbesar memiliki output +1
sementara semua unit yang lain memiliki keluaran 0. Jika eksponensial
pada persamaan 6.151 dimodifkasi menjadi bentuk exp k , kemudian
aktivasi winner-takes-all direcover dalam batasan

. Fungsi aktivasi

Softmax dapat dianggap sebagai generalisasi dari fungsi logistik, karena

dapat ditulis dalam bentuk :

Dimana nilai

Ak

diperoleh dari :

54

Sama seperti logistic sigmoid, dapat diberikan dorongan umum untuk


softmax aktivasi dengan mempertimbangkan probabilitas posterior bahwa
z unit tersembunyi termasuk kedalam kelas C k , di mana kepadatan
kelas-bersyarat diasumsikan milik keluarga dari distribusi eksponensial

dalam bentuk umum :


Dari teorema Bayes , probabilitas posterior kelas

Ck

ditulis dalam bentuk

:
Mensubstitusi persamaan 6.154 kedalam persamaan 6.155 sehingga

diperoleh :
Sehingga dapat didefnisikan bahwa :

Hasil dari persamaan 6,156 merupakan lapisan akhir dari jaringan dengan
fungsi aktivasi Softmax, dan menunjukkan bahwa output dapat diartikan
sebagai probabilitas keanggotaan kelas, dikondisikan pada output dari unit
tersembunyi.
Dalam mengevaluasi turunan dari fungsi kesalahan Softmax, perlu
mempertimbangkan masukan untuk semua unit output, jadi : (untuk pola
n)

55

Dari persamaan 6.151 harus :

Sedangkan dari persamaan 6.150 terdapat persamaan :

Substitusi persamaan 6.161 dan 6.162


sehingga ditemukan persamaan :

kedalam persamaan 6.160,

Ini merupakan hasil yang sama yang ditemukan pada kedua sum-of-square
error (dengan fungsi aktivasi linear) dan two-class entropy-error (dengan
fungsi aktivasi logistik). Sekali lagi, dapat ditemukan bahwa terdapat
pasangan alami dari error function dan fungsi aktivasi.

6.10 Entropi
Konsep entropi sebenarnya di kembangkan oleh para ahli fsika
dalam konteks keseimbangan dari termodinamika dan dikembangkan
kembali melalui mekanik statistik. Teori ini sudah diperkenalkan kedalam
teori informasi oleh Shannon (1948). Disini kita memahami dua fungsi
yang berbeda yaitu p(x) untuk salah satu variable x. hal ini sama dengan
masa jenis sebagai histogram yang dimana x-axis telah terbagi

dalam

konsep yang di tentukan oleh bilangan bulat i. pikirkan sebuah histogram


dengan menempatkan

total N kesamaan distrik objek kedalam bin,

sehingga bin yang mengandung objek Ni,. Karena ada N cara menentukan
56

objek yang pertama, (N-1) cara menentukan objek yang kedua, dan
seterusnya, itulah total dari N begitulah cara menentukan Objek N.
Penyusunan ulang angkanya dalam menghitung jumlah

objek berbeda,

dikenal sebagai multiplisiti, yang ditentukan melalui rumus :

Entropi ditentukan sebagai (konstanta) logaritma negativ dari multiplisiti


sehingga.

Kita sudah menemukan limit N yang memberikan hasil

Pada gambar 6.13 pada sempel dua gaussian fungsi dengan varians
parameter a = 0,4 dan = 0,08, masing-masing berisi

1000 poin dan

distribusi yang memiliki entropi rendah dimana pi = Ni / N (N -> oo) dan


merupakan probabilitas yang sesuai dengan nilai yang terkecil sehingga pi
= 1 / M dimana M adalah jumlah total bin Jika
maka massa probabilitas di bin

adalah lebar setiap bin,


, sehingga entropi bisa

ditulis dalam bentuk

57

Telah digunakan fungsi p(x)dx=1 dimana fungsi tersebut menyimpang


dalam batas M

Dalam tujuan untuk menentukan ukuran entropi yang

bermakna, karena tidak tergantung dari p (x),dan hanya menggunakan


istilah pertama di sisi kanan (6,168), yang disebut entropi diferensial.
Untuk distribusi yang merupakan fungsi dari beberapa variabel, kita
mendefnisikan entropi untuk menjadi

diamana
terbatas

bahwa

x=( x 1 ,... x d )T

Untuk kasus tunggal x variabel pada sumbu tak

(,) kita memaksimalkan :

kendala distribusi menjadi normal dan bahwa mean dan varians

distribusi merupakan nilai yang ditetapkan :

Memperkenalkan

Lagrange

1 , 2 dan

(Lampiran

C)

untuk

masing-masing
kendala, dapat kita menggunakan kalkulus variasi (Lampiran D) untuk
memaksimalkan fungsi

Yang mengarah ke persamaan :

Akhirnya memberikan ekspresi untuk memaksimalkan distribusi tersebut


dalam bentuk

58

Jadi Gaussian melihat bahwa distribusi memiliki entropi maksimum,


untuk diberikan mean dan varian, jumlah informasi, atau ekuivalen 'tingkat
kejutan', yang diperoleh ketika kita belajar bahwa peristiwa tertentu telah
terjadi.

Kami

berharap

bahwa

informasi

akan

tergantung

pada

probabilitas, karena jika p = 1. Oleh karena itu kita mencari ukuran


informasi s (p) yang terus menerus, secara monoton meningkatkan fungsi
p dan yang sedemikian rupa sehingga s (l) = 0

Sebuah ekspresi yang

tepat dapat diperoleh sebagai berikut. Pertimbangkan dua independen


peristiwa A dan B, dengan probabilitas PA dan ps Jika kita tahu bahwa
kedua peristiwa terjadi kemudian informasi S( P A PB )

jika informasi A

telah terjadi, maka informasi residual B harus terjadi S( P A PB ) S( P A )


maka harus sama S (PB) karena pengetahuan bahwa A telah terjadi
seharusnya

tidak

mempengaruhi

informasi

yang

dihasilkan

dari

pembelajaran yang terjadi B. Hal ini menyebabkan kondisi berikut :

Bahwa dapat disimpulkan S( P

)= 2S ( p)

dan dengan induksi S( p

N s (p) untuk integer N. Demikian pula, S(P)=S( [ p

1/N N

dengan
M /N

S( p

p
)= ( 1/ N )
N s

)=

dan

perpanjangan
)=(M/N)S(P) Ini berarti bahwa S( P

)=XS(P) untuk x rasional dan

karenanya, dengan kontinuitas, untuk real x. Jika Z=

- log2p dan P = (1/2)Z

Maka persamaan :

Hal ini konvensional untuk memilih s (l / 2) = 1. Kita melihat


59

bahwa jumlah informasi sebanding dengan logaritma dari probabilitas. Ini


timbul pada dasarnya karena cara independen, probabilitas dan perkalian.
variabel acak yang yang dapat mengambil nilai

k P( k )

Jika pengirim

ingin mengirimkan nilai ke penerima, maka jumlah informasi (dalam bit) ini
adalah

lnp( k )

jika variabel mengambil Nilai demikian

diharapkan (rata-rata) informasi yang diperlukan untuk mengirimkan nilai


yang diberikan oleh persamaan :

yang merupakan entropi dari variabel acak . Dengan demikian S()


sebagai jumlah rata-rata dari informasi yang diterima ketika nilai yang
diamati. Rata-rata pesan biner

diperlukan untuk mengirimkan nilai dari

entropi .Hal ini dikenal sebagai coding teorema (Shannon, 1948, Viterbi
dan Omura, 1979). Kembali ke kasus variabel kontinu, dilambangkan
dengan vektor x, Jika kita menyandikan nilai x untuk transmisi ke
penerima, maka kita harus (secara implisit maupun eksplisit) memilih q
distribusi (x) untuk membangun coding. Informasi diperlukan untuk
mengkodekan

nilai

dalam

distribusi

ini

hanya

ln

g(x).Jika

variabel x diambil dari p distribusi yang benar (x) maka informasi rata-rata
diperlukan untuk mengkodekan x diberikan oleh

Yang merupakan cross-entropyantara distribusi q (x) dan p (x).


Perbandingan dengan (2.68) menunjukkan bahwa sama dengan negatif log
kemungkinan di bawah model q distribusi (x) saat distribusi yang benar
adalah p (x). ). Hal ini juga sama dengan jumlah dari jarak Kullback-Leibler
antara p (x) dan q (x), yang diberikan oleh (2.70), dan sejak Dalam entropi
p (x) maka

60

Dari semua distribusi kemungkinan q (x), pilihan yang memberikan


informasi rata-rata terkecil, yaitu nilai terkecil untuk crossentropy tersebut,
adalah distribusi p benar (x) Karena entropi p (x) independen dari q
distribusi (x), kita lihat dari (6,182) yang meminimalkan silang entropi
setara dengan meminimalkan jarak Kullback-Leibler. Untuk variabel yang
yang mengambil seperangkat nilai diskrit a kita dapat menulis (6,181) di
Bentuk

Pertimbangkan pertama jaringan dengan output


model probabilitas untuk x milik kelas

Ck

y k (X )

yang sesuai

bahwa kami juga memiliki satu set variabel target

mewakili

menganggap
tk

mewakili

probabilitas. Kemudian ditarik secara independen dari distribusi umum,


informasi tersebut aditif dan karenanya total crossentropy menjadi

Untuk satu set titik data N yang dianggap ditarik secara independen
dari distribusi umum, informasi tersebut aditif dan karenanya total
crossentropy diberikan oleh persamaan :

yang dapat digunakan sebagai fungsi kesalahan untuk pelatihan jaringan.


Dilihat dari bentuk fungsi error berlaku tidak hanya ketika target

t nk

n
memiliki satu-of-c coding tetapi juga ketika mereka di kisaran 0 t k 1

untukkendala

untuk kendala

sesuai dengan probabilitas

keanggotaan kelas. Untuk dua kelas, kita dapat mempertimbangkan


61

jaringan dengan output y yang mewakili probabilitas model untuk


C1

keanggotaan kelas

dengan sesuai t probabilitas. Model probabilitas

untuk keanggotaan kelas

C2

dan 1 - y, dan probabilitas yang sesuai

adalah 1 - t. Mengikuti garis yang sama argument seperti di atas kita


kemudian tiba di fungsi error cross-entropy untuk dua kelas dan N titik
data dalam bentuk :

6.11 General conditions for outputs to be probabilities


Sejauh ini, kami telah mempertimbangkan tiga langkah kesalahan
yang berbeda (sum-of-squares, cross-entropy untuk satu output, dan
cross-entropyuntuk jaringan Softmax) yang semuanya memungkinkan
output jaringan yang akan ditafsirkan sebagai probabilitas. Oleh karena itu
ukuran kesalahan harus memenuhi agar jaringan output memiliki properti
ini. Diskusi yang diberikan di sini didasarkan pada bahwa Hampshire dan
Pearlmutter (1990). Semua langkah-langkah error yang kami sedang
mempertimbangkan mengambil bentuk penjumlahan kesalahan untuk
setiap pola

E=n E

error menjadi jumlah atas istilah untuk setiap unit

output yang terpisah. Hal ini terkait asumsi bahwa distribusi variabel target
yang berbeda statistik secara independen. Jadi kita menulis persamaan :

di mana f merupakan beberapa fungsi yang akan ditentukan selanjutnya.


Kita

juga

akan

perbedaan antara

mengasumsikan
yk

dan

tk

hanya

jadi

bergantung

f ( y nk ,t nk )=f (| y nk t nk|)

pada

besarnya

menjadi batas

62

dari kumpulan data tak terbatas, kita dapat menulis Rata-rata per-pola
kesalahan dalam benntuk

Jika kita menggunakan skema target 1-of-c coding, maka dari (6.99) kita
dapat menulis syarat distribusi variabel target dalam bentuk

Sekarang akan diganti (6,189) ke (6,188) dan dievaluasi fungsi integral


atas

tk

yang dimana variabel (hanya melibatkan integral dari 6-fungsi)

untuk memberikan :

di mana kita telah menggunakan


0 yk 1

k P ( Ck|x ) =1 dan diasumsikan bahwa

sehingga tanda-tanda modulus dapat dihilangkan. Kondisi yang

rata-rata per-pola memiliki kesalahan dalam gambar (6,190) minimal


hubungan dengan

y k (X )

diberikan dengan menetapkan turunan

fungsional (E) (Lampiran D) ke nol oleh persamaan :

Yang mana diberikan persamaan :

Jika output dari jaringan digunakan untuk mewakili probabilitas, sehingga


fungsi
y k (x)

=P( C k x ) harus memenuhi kondisi:

63

Sebuah kelas fungsi yang memenuhi kondisi ini diberikan persamaan :

Untuk r = 1 kita memperoleh

yang memberikan sum-of-squares

fungsi kesalahan. Demikian pula, untuk r = 0 kita memperoleh f(y) = ln(1-y)= - ln(1-|y|) yang menimbulkan untuk fungsi kesalahan crossentropi. Untuk melihat ini, pertimbangkan satu output dan catatan bahwa
f(y,t)= - ln(1-|y-t|)= - ln(y)if t = 1 dan f(y,t)= - ln(1-|y-t|)= - ln(1-y)
jika t=0

dimasukkan kedalam sebuah ekspresi tunggal sehingga

membentuk :

Menjumlahkan semua output, seperti dalam persamaan 6.187,


kemudian semua pola memberikan cross-entropy error untuk beberapa
atribut independen dalam bentuk persamaan 6.145.
Sebagai contoh dari error function yang tidak memuaskan pada
persamaan (6.193), mempertimbangkan pengukuran Minkowski-R error,
yang diberikan pada f (y) - y

. Mensubstitusi fungsi tersebut ke (6,193)

sehingga memberikan :

yang hanya bisa dilakukan jika R = 2, sesuai dengan persamaan sum-ofsquares error.
Untuk R 2, output dari jaringan tidak sesuai dengan probabilitas
posterior, ini merupakan fungsi diskriminan non-linear, sehingga diperoleh
kemungkinan minimum klasifkasi yang tidak sesuai dengan menetapkan
pola untuk kelas yang output jaringannya terbesar. Untuk melihat

64

pengganti f (y) -

ke kondisi (6,192) dengan output jaringan minimum

dari fungsi kesalahan, diberikan persamaan :

Dapat dilihat bahwa

yk

yk

hanya mewakili probabilitas posterior

ketika R = 2, sesuai dengan sum-of-squares error. Namun, penetapan


batasan-batasan rate-discriminant yang sesuai untuk minimum kesalahan
klasifkasi untuk semua nilai karena yk adalah fungsi monoton dari
probabilitas posterior P ( C k

| x).

65

Anda mungkin juga menyukai