Pengenalan Pola - Tugas Kelompok - Gabung

6
ERROR FUNCTION
(Fungsi Error)
Gambaran Umum
Sebagai pengingat pada bab sebelumnya - Tujuan utama dalam
training network adalah tidak menghafal data training, tetapi untuk
melakukan generasi data dasar. Sehingga memungkinkan kita untuk
memprediksi data terbaik untuk untuk output vektor t - dan nilai tersebut
akan dilatuh selanjutnya untuk nilai baru sebagai input vektor x.
Deskripsi paling umum untuk generator data adalah kepadatan data
dengan probabilitas p (x,t)
Untuk masalah prediksi asosiatif dari jenis yang kita pertimbangkan Dapat menguraikan kepadatan probabilitas gabungan hasil dari :
- Kerapatan bersyarat dari data target
- Input data
- Kepadatan tanpa syarat input data , sehingga :
Dimana
p(x ,t) adalah menunjukkan kepadatan probabilitas t - x
mengambil nilai tertentu. Sedangkan

syarat x dan nilai
p( x)
mewakili kepadatan tanpa
p(x) adalah nilai dari
Pada fungsi error , nilai
p(tx) digunakan untuk membuat prediksi
t untuk nilai nilai baru x :
Dimana kita asumsikan nilai () diambil secara independen dari

distribusi atau sumber yang sama, karena hal tersebut kita dapat
mengalikan dengan probabilitas. Hal tersebut juga dapat memaksimalkan
kemungkinan.
Dimana E adalah fungsi error.
Dengan E sebagai error kita dapat
meneruskan hal tersebut sebagai kerangka kerja untuk pemodelan

kepadatan probabilitas bersyarat
p (t |x ) . Pada persamaan 6.4 sebenarnya
tidak bergantung pada parameter jaringan, parameter jaringan adalah

persamaan konstanta aditif yang dapat dihilangkan dari fungsi error.
Sehingga kita memiliki persamaan :
Sebagai catatan , fungsi error mengambil total di atas kesalahan

hasil untuk masing masing pola secara terpisah.
6.1 Sum-of-squares error
Contoh variable tk dimana k = 1,..,c dan c adalah sebagai bahan
pertimbangan batas. Dengan c tersebut dimisalkan sebagai distribusi
variable target yang berbeda secara independen sehingga kita bisa
mendapatkan persamaan
Kita akan mengasumsikan bahwa distribusi target adalah dilakukan

dengan cara perhitungan Gaussian. Lebih secara detail kita asumsikan
variable
tk
diberikan nilai dari beberapa deterministic fungsi dari x
dengan menambahkan nilai Gaussian Noise e sehingga nilai
t k adalah
Sekarang kita asumsikan error e adalah normal distribusi dengan

maksud kosong dan standard deviasi rho dimana standar penyimpangan
tidak bergantung pada x atau apapun itu. Dengan demikian kita
mendapatkan nilai untuk
ek
adalah
Sekarang kita berusaha untuk menghubungkan fungsi
hk (x ) dengan
jaringan syaraf dengan output yk(x;w) dimana w adalah bobot untuk

parameter
yang
mengatur
pemetaan
jaringan
syaraf.
Dengan
menggunakan persamaan 6.7 dan 6.8 kita dapat melihat distirbusi

probabilitas diberikan oleh nilai berikut :
Di mana kita telah mengganti nilai fungsi tidak diketahui oleh

dari model
hk (x )
y k ( x ; w ) Secara bersamaan pada persamaan 6.6 dan 6.5
menjadi awal untuk expressi yang diikuti fungsi error sebagai berikut :
Untuk mengurangi penggunaan untuk meminimalkan error , aturan

kedua dan ketiga dari persamaan 6.10 perlu diingat adalah persamaan
sendiri dari nilai w dan bisa dihilangkan. Untuk aturan pertama pada
bagian pecahan juga dapat dihilangkan. Dan nilai akhir dai sum-of-squares
fungsi error adalah sebagai berikut :
Akan
tetapi
untuk
jaringan
pengujian
akan
lebih
mudah
menggunakan root-mean-square (RMS) dengan persamaan sebagai berikut

:
Dimana nilai t dapat dicari dengan cara :
6.1.1 Linear Output Units (Linear Output Unit)

Fungsi pemetaan pada multi-layer perceptron atau jaringan fungsi
basis radial dapat ditulis dengan persamaan :
Dimana g adalah fungsi untuk aktivasi untuk unit output , wkj adalah
sebagai nilai yang terhubung langsung dengan output unit , dan w adalah
nilai dari sum-of-squares (6.11) dengan focus terhadap nilai
ak
yang
dapat ditulis sebagai :

4
Jika kita memilih untuk melakukan fungsi aktivasi pada unit output ,
maka
harus dibuat linear dimana
g ( a )=a , dan dapat ditulis dalam
bentuk :
Dan untuk pada pembahasan jaringan pemetaan dapat dituliskan

dengan persamaan :
Dengan meminimalisasikan sum-of-squares error pada persamaan

6.11 dengan mengutamakan effect bias , kita dapat menggunakana
persamaan :
Dan untuk mendapatkan nilai
wk 0
dapat menggunakan cara :
Sehingga diperoleh cara untuk mencari nilai rata rata kuantitas :
Pada hasil 6.23 kita medapatkan bahwa peran bias adalah untuk
menggantika perbedaan antara nilai rata- rata dari nilai target dan jumlah
dari rata rata output. Jika kita ganti kembali expresi 6.23 ke dalam sumof-squares error kita mendapatkan persamaan :
Dimana beberapa nilai dapat dicari dengan cara :
Sekarang kita dapat meminimalisir error dengan menggunakan nilai

bobot dari wkj untuk dimasukkan ke persamaan :
Dari persamaan 6.27 kita dapat mendapatkan persamaan notasi

matriks
Dimana
ZT
adalah notasi untuk transpose dari matriks
Z Kita
dapat menulis nilai solusi matriks tersebut secara eksplisit dengan

persamaan
Dimana nilai Z transpose adalah :
6.1.2 Linear sum-rules

Dengan
menggunakan
fungsi
error
sum-of-squares
untuk
menentukan nilai pada jaringan dengan unit unit output linear dapat
6
menggunakan aturan penjumlahan untuk output jaringan tersebut (Lowe

dan Web , 1991 ). Misalkan pola yang digunakan untuk melatih jaringan
memenuhi suatu untuk melatih tingkat nilai dari suatu nilai relasi jaringan ,
maka untuk setiap pola n dapat menggunakan persamaan :
Dimana u dan u0 adalah nilai konstanta. Dan sekarang , jika nilai

layer telah diberikan nilai determinan maka nilai output dari suatu pola
harus sesuai dengan nilai input suatu pola.
Sehingga mendapatkan nilai persamaan sebagai berikut :
Nilai output tersebut diberikan nilai dari persamaan 6.21 yang dapat
ditulis dengan notasi vector melalui persamaan sebagai berikut :
Sehingga nilai optimal untuk nilai bias yang diberikan pada

persamaan 6.23 dapat ditulis dengan persamaan
Sekarang nilai konsisten pada nilai scalar pada nilai
dan vector ,
untuk sebuah pola input. Untuk mengoptimalkan nilai dapat menggunakan

nilai dari persamaan 6.29 , 6.33 dan 6.34 sehingga kita mendapatkan
sebuah persamaan yaitu :
Dan menggunakan aturan matriks transpose kita dapat mendapatkan

persamaan sebagai berikut :
Dan pada sebelumnya kita menggunakan persmaan linear pada 6.32.

Menggabungkan nilai 6.35 dan 6.36 kita mendapatkan suatu persamaan
yaitu :
6.1.3 Interpretation
of
Network
Outputs (Interpretasi Dari
Output Networks)
Sekarang menafsirkan atau menterjemahkan output dari jaringan
yang dilatih dengan meminimalkan nilai fungsi error. Secara khusus ,
output perkiraan rata- rata bersyarat dari data yang diinginkan. Secara
tidak langsung ini menghasilkan nilai untuk aplikasi jaringan syaraf.
Dengan melihat nilai ukuran dari N dan kumpulan data training.
Ukuran tersebut adalah nilai batas untuk pola dalam nilai sum-squareserror dengan integral dalam bentuk persamaan sebagai berikut :
Sekarang mendapatkan hasil dari factor
1
N yang merupakan bagian dari
sum-of-squares error sebagai batas limit. Dapat menggunakan persamaan

sebagai berikut :
Kemudian mensubstitusikan nilai 6.44 kedalam 6.40 dan membuat

nilai dari 6.41 dan 6.42. Nilai sum-of-squares error dapat ditulis sebagai
berikut :
Karena integral pertama pada persamaan 6.45 adalah non negative ,

minimum absolut fungsi bisa dihilangkan sesuai dengan jaringan network
pada persamaan sebagai berikut :
Gambar 6.1
Dimana
w adalah nilai vector minimal dari fungsi error. Persamaan
6.46 adalah contoh bahwa network mapping diberikan oleh nilai syarat
rata rata dari nilai yang akan dicari , dengan kata lain dengan regresi
nilai TFC dikondisikan. Hasil tersebut dapat digambarkan oleh gambar 6.1
dan contoh sederhana 6.2
Gambar 6.2
Pada gambar 6.2 terlihat pemetaan jaringan dimana nilai rata rata
dari target adalah diambil dari nilai
( 2 phi x )+ e
t =x+ 0.3 sin dimana e adalah random
dari distribusi nilai (-0.1 , 0.1). Bentuk solid pada gambar diambil dari nilai
multi-layer perceptron network dengan nilai sum-of-squares-error yang
memberikan nilai representasi yang bagus.
Kita dapat mudah melihat nilai minimum sum-of-squares error telah
diberikan dari nilai rata rata dari nilai target seperti pada persamaan
berikut :
Dimana a dan b adalah nilai constant. Differensiasi dari E(y) dapat dilihat
dari nilai minimum y pada persamaan berikut :
10
6.1.4
Outer Product Approximasi dari Hessian (Pendekatan
Produk Luar Untuk Hessian)

Dengan menggunakan fungsi error pada persamaan 6.45. Kita dapat
mengambil hubungan antara wr dan ws maka kita memperoleh persamaan
:
Dengan menggunakan hasil dari nilai 6.46 bahwa output
yk x dari
jaringan dilatih mewakili data dengan menggunakan syarat rata rata

data, pada persamaan 6.56 hal tersebut dapat dihilangkan. Untuk satu set
data yang terbatas , kita dapat menulis hal dalam bentuk persamaan :
6.1.4 Pendekatan Produk Luar Untuk Hessian

Pada pembahasan sebelumnya telah dibahas pendekatan matrik hessian
yang merupakan matrix turunan kedua dari fungsi error pada bobot
jaringan. Yaitu jumlah kuadrat pada fungsi error. Pendekatan ini didasarkan
pada jumlah hasil pada turunan pertama. Di sini ditunjukkan pendekatan
11
yang tepat untuk

data
yang tidak terbatas, asalkan fungsi yang
digunakan adalah fungsi error minimal. Dengan Mempertimbangkan fungsi
kesalahan pada (6.45). Ambil turunan kedua dengan dua bobot, sehingga
diperoleh wr dan ws.
Gunakan hasil dari (6.46). bahwa hasil dari jaringan terlatih

merepresentasikan rata-rata bersyarat dari target data. Dapat dilihat
bahwa istilah ke dua pada 6.56 hilang. Karena itu istilah hessian diberikan
oleh hasil integral yang meliputi hasil turunan pertama. Untuk satu set
data yang terbatas, dapat ditulis hasil ini dalam bentuk.
6.1.5. Inverse Problems (Masalah Invers)

Fakta bahwa solusi kuadrat yang mendekati rata-rata bersyarat dari
target data memiliki konsekuensi yang penting ketika jaringan saraf yang
digunakan untuk memecahkan masalah terbalik. Banyak aplikasi potensial
jaringan saraf gagal dalam kategori ini. Contohnya termasuk analisis data
spektral, rekonstruksi tomograf, kontrol tanaman industri, dan kinematika
robot. Untuk masalah tersebut ke depannya terdefnisi dengan baik yang
ditandai dengan fungsional (yaitu bernilai tunggal) pemetaan. Dalam kasus
rekonstruksi spektral, misalnya masalah ke depan sesuai dengan evaluasi
spektrum ketika parameter (lokasi, lebar dan amplitudo) yang diresepkan
dari garis spektrum. Dalam aplikasi praktis pada umumnya harus
memecahkan masalah inversi yang sesuai, di mana peran variabel input
dan output dipertukarkan. Dalam kasus analisa spektral, sesuai dengan
12
penentuan garis spektral dari spektrum yang diamati. Dari persoalan

invers, parameter
pemetaan menghasilkan banyak nilai, ada beberapa
nilai-nilai input yang sesuai dengan hasil output. Sebagai contoh,

kemungkinan terdapat beberapa pilihan untuk parameter garis spektral
yang menimbulkan spektrum yang sama saat diamati. Jika pendekatan
persegi diterapkan untuk masalah yang berbeda, itu akan mendekati ratarata bersyarat target data, dan ini sering kali akan mengakibatkan kinerja
sangat lemah
sendiri).
(karena rata-rata beberapa solusi belum tentu
Sebuah
ilustrasi
sederhana
dari
masalah
ini,
solusi
dengan
mempertimbangkan kumpulan data yang ditunjukkan sebelumnya pada

gambar 6.2 di mana dilihat bagaimana jaringan yang mendekati rata-rata
bersyarat dari target data memberikan representasi yang baik dari
generator yang mendasari data. misalkan sekarang dibalikkan peran
masukan dan sasaran. Variabel.
Gambar 6.3 menunjukkan hasil pelatihan jaringan dari jenis yang
sama seperti sebelumnya pada suatu data yang sama, tetapi variabel
input dan output dipertukarkan. Jaringan mencoba lagi untuk mendekati
rata-rata bersyarat dari target data, tapi kali ini rata-rata bersyarat
memberikan
deskripsi
yang
tidak
baik
sebagi
pembangkit
data.
Masalahnya dapat ditelusuri dengan nilai-nilai menengah x angka (6.3) di

mana data target memiliki banyak nilai. Prediksi yang dibuat oleh jaringan
latih di daerah ini bisa sangat tidak baik. Masalahnya tidak dapat
diselesaikan dengan memodifkasi arsitektur jaringan atau pelatihan
algoritma, karena merupakan konsekuensi mendasar dari pengunannn
jumlah fungsi error persegi. Untuk masalah yang melibatkan banyak input
dan output variabel dimana visualisasi data tidak langsung, itu bisa sangat
sulit untuk memastikan apakah ada ruang daerah
masukan target data
dengan banyak nilai. Salah satu pendekatan untuk masalah tersebut
13
adalah pergi ke luar deskripsi Gaussian distribusi target akan dibahas

dalam bagian 6.4
Gambar 6.3 Ilustrasi masalah yang bisa timbul ketika pendekatan

kuadrat terkecil diterapkan untuk masalah terbalik. Hal ini menunjukkan
data yang sama ditetapkan seperti pada gambar 6.2 tetapi dengan peran
variabel input dan output yang tertukar . Kurva padat menunjukkan hasil
pelatihan jaringan saraf yang sama seperti pada gambar 6.2 digunakan
lagi sebagai jumlah kesalahan persegi. Kali ini jaringan memberikan data
kecocokan tidak baik, karena di coba lagi dengan rata-rata bersyarat dari
nilai target.
6.2. Minkowski Error
Pada jumlah fungsi kuadrat error kemungkinan maksimum pada
distribusi Gaussian untuk data sasaran. Dapat diperoleh lebih banyak
fungsi kesalahan umum dengan mempertimbangkan generalisasi dari
Distribusi Gaussian dalam bentuk:
Dimana
adalah
parameter
fungsi
gamma
(didefnisikan
pada
halaman
28),
mengontrol varians dari distribusi, dan pra-faktor dalam

14
(6.58) memastikan bahwa
Untuk kasus R = 2 distribusi ini
untuk mengurangi Gaussian. Jika dianggap bahwa log kemungkinan negatif

dari kumpulan data, yang diberikan oleh (6,5) dan (6,6), di bawah distribusi
(6.58) Dengan mengabaikan konstanta yang relevan, dapat diperoleh
fungsi kesalahan dalam bentuk
Gambar 6.4 adalah plot dari fungsi |y-r|R terhadap |y-t| untuk
berbagai nilai R. Fungsi ini membentuk dasar untuk mengukur defnisi
Minkowski-R
error.
Disebut
minkowski-R
error.
Untuk
mengurangi
kesalahan jumlah kuadrat biasa ketika R = 2 untuk kasus R = 1, distribusi

fungsi (6.58) , dan minkowski-R sesuai ukuran (6.59) disebut kota blok
metrik (karena jarak antara titik pada pesawat diukur dengan matrik yang
sama dengan jarak euclidean ditutupi dengan bergerak antara dua titik di
sepanjang segmen garis sejajar dengan sumbu, seolah-olah bergerak
sepanjang blok di kota). Pada umum, jarak matrik |y-r|R dikenal sebagai
norma Lr.
Turunan dari fungsi error Minkowski-R berkaitan dengan bobot dalam
jaringan yang diberikan oleh
15
Turunan tersebut dapat dievaluasi menggunakan standar prosedur, yang

dibahas dalam Bagian 4.8. Contoh penerapan kesalahan Minkowski-R ke
jaringan yang terlatih menggunakan penyebaran kembali yang diberikan
dalam Hanson dan Burr (1988) dan Burrascano (1991).
Salah satu potensi sulit dari jumlah standar kesalahan adalah bahwa
hal
itu
menerima kontribusi terbesar dari titik-titik yang memiliki kesalahan

terbesar. Jika tidak berbuntut panjang pada distribusi maka solusinya
dapat didominasi oleh sejumlah kecil titik yang disebut outlier yang
memiliki kesalahan sangat besar. Hal ini digambarkan dengan contoh
sederhana pada Gambar 6.5.
Masalah yang sama berat juga dapat muncul dari data salah label.
Misalnya untuk satu titik data tunggal yang nilai target yang salah label
dengan jumlah yang besar benar-benar dapat membatalkan solusi kuadrat
terkecil.
Gambar 6.5. Contoh pemasangan polinomial lurus melalui satu set

data
rancu
ditunjukkan dengan meminimalkan kesalahan jumlah kuadrat. Dalam (a)

garis memberikan representasi yang baik dari aspek data sistematis.
Dalam (b) data satu titik tambahan telah ditambahkan dan letaknya jauh
16
dari titik data lain, menunjukkan bagaimana mendominasi pemasangan

baris.
Teknik yang dicoba untuk memecahkan masalah ini dirujuk sebagai
kuat Statistik dan review dalam konteks metode statistik konvensional
yang dapat ditemukan di Huber (1981). Pemanfaatan kesalahan Minkowski
dengan nilai R kurang dari 2 mengurangi kepekaan outlier. Misalnya,
dengan R - 1, solusi error minimum menghitung median bersyarat dari
data, bukan berarti bersyarat (Latihan 6.5). Alasan untuk ini dapat dilihat
dengan memperhatikan kesalahan sederhana :
Minimalisasi E (y) terhadap y memberikan :
yang dipenuhi ketika y merupakan median dari titik {tn} (yaitu nilai yang
jumlah titiknya sama dengan
tn memiliki nilai lebih besar dari y dalam
bentuk nilai kurang dari y) jika salah satu dari tn diambil untuk beberapa
nilai yang sangat besar, hal ini tidak berpengaruh pada solusi yang ke y.
6.3. Input-Dependent Variance (Ketergantungan Masukan Varian)
Sejauh ini telah diasumsikan bahwa varians dari data target dapat
digambarkan oleh satu parameter global. Dalam banyak aplikasi praktis,
ini akan menjadi asumsi yang tidak baik, dan sekarang dibahas model
yang lebih umum untuk data target distribusi. Secara umum, mungkin
untuk menentukan bagaimana varians data tergantung pada vektor input x
(Nix dan Weigend, 1994). al ini dapat dilakukan dengan mengadopsi
17
gambaran yang lebih umum untukdistribusi bersyarat dari data target, dan
kemudian menuliskan kemungkinan log negatifuntuk mendapatkan fungsi
kesalahan yang sesuai. Dengan demikian, dapat ditulis Distribusi bersyarat
dari variabel target dalam bentuk
Untuk membentuk fungsi logaritma negatif dan menghilangkan konstanta

aditif, diperoleh
Jika sekarang dikalikan dengan 1 / N seperti sebelumnya, dan mengambil

batas dari data
tidak terbatas, maka dapat peroleh fungsi kesalahan
dalam bentuk :
Fungsi er, t (x) dapat dimodelkan dengan menambahkan output lebih

lanjut untuk jaringan saraf. Pendekatan alternatif untuk menentukan
sebuah ketergantungan varian input (Satch-well, 1994) didasarkan pada
hasil (6.46) bahwa pemetaan jaringan yang meminimalkan jumlah kuadrat
error diberikan oleh ekspektasi bersyarat dari data target. Pertama
jaringan yang dilatih dengan cara yang biasa dengan meminimalkan
jumlah kotak kesalahan di mana t% membentuk target. Output dari
jaringan ini, ketika disajikan dengan vektor input data terlatih xn, sesuai
18
dengan rata-rata bersyarat dari data target. Rata-rata ini dikurangkan dari
nilai target dan hasilnya kemudian kuadrat dan digunakan sebagai target
untuk jaringan kedua yang juga dilatih menggunakan sejumlah fungsi
kuadrat kesalahan. Output dari jaringan ini kemudian mewakili rata-rata
bersyarat {tk - (tk \ x)} 2dan sehingga mendekati varians er | (x) yang
diberikan oleh (6.55).
Prosedur ini dapat dibenarkan secara langsung sebagai berikut. jika
dianggap bahwa fungsi 2 / jt (x) dan o> (x) fleksibilitas tak terbatas maka
pertama-tama meminimalkan E sehubungan dengan Yk oleh fungsi
diferensiasi diberikan
setelah beberapa penataan ulang, memberikan hasil yang standar
Seperti sebelumnya juga meminimalkan E independen terhadap fungsi ok

(X) untuk memberikan :
Yang ini mudah dipecahkan untuk a2k (x) untuk memberikan
di mana telah digunakan (6.67). kemudian dapat ditafsirkan (6.69) dalam

hal dua tahappendekatan dua jaringan yang dijelaskan di atas. Teknik ini
sederhana dan dapat menggunakan perangkat lunak jaringan saraf
standar. Keterbatasan utama adalah bahwa hal itu masih mengasumsikan
bentuk fungsi Gaussian.
6.3 Input dependent Variance (Tergantung perbedaan masukan)
19
Sejauh ini kita telah mengasumsikan bahwa perbedaan dari target

data dapat digambarkan oleh parameter .Didalam
banyak aplikasi yang
berguna, ini akan menjadi miskin asumsi, dan kita sekarang membahas
model yang lebih umum untuk distribusi target data .The sum-of-squares
kesalahan dengan mudah diperluas untuk memungkinkan setiap output
dijelaskan oleh perbedaan parameter
-nya k. Umumnya lagi, kita
mungkin ingin menentukan bagaimana perbedaan data tergantung pada

vektor input x (Nix dan Weigend, 1994) .Ini dapat dilakukan dengan
mengadopsi gambaran yang lebih umum untuk syarat distribusi dari target
data,
dan
kemudian
menuliskan
log
negatif-kemungkinan
untuk
mendapatkan fungsi, demikian juga kesalahan yang sesuai, kita menulis
Distribusi bersyarat dari target variabel dalam bentuk.

Membentuk logaritma negatif dari fungsi probabilitas seperti sebelumnya,
dan menghilangkan konstanta aditif, kita dapat memperoleh :
Jika kita sekarang kalikan dengan 1 / N seperti sebelumnya, dan
mengambil data yang tidak tebatas, kita memperoleh fungsi kesalahan
dalam bentuk :
Fungsi k (X) dapat dimodelkan dengan menambahkan output lebih
lanjut untuk jaringan saraf.kita tidak akan mempertimbangkan pendekatan
ini lebih lanjut, karena merupakan kasus khusus dari teknik ini jauh lebih
20
umum untuk memodelkan distribusi bersyarat secara penuh,yang akan

dibahas segera.
Pendekatan alternatif untuk menentukan sebuah varian tergantung
pada masukannya (Satchwell, 1994) didasarkan pada hasil (6.46) bahwa
pemetaan jaringan yang meminimalkan sum-of-square(kuadrat total) error
yang diberikan oleh ekspektasi bersyarat dari target Data .Pertama
jaringan dilatih dengan cara yang biasa dengan meminimalkan sum-ofsquare(kuadrat total)
Kesalahan yang membentuk
t nk
target .suatu
output dari jaringan ini, ketika disajikan dengan input data latih vektor x
pangkat n, sesuai dengan syarat rata-rata dari target data .rata-rata ini
dikurangi dari nilai target dan hasilnya kemudian dikuadratkan dan
digunakan
sebagai
target
untuk
jaringan
kedua
yang
juga
dilatih
menggunakan sum-of-square(kuadrat total) output error function.jaringan

ini merupakan rata-rata bersyarat {TK-(tk \ x)} 2 dan dengan demikian
perkiraan varians 2 k (x) yang diberikan oleh (6.55).
Prosedur
ini
dapat
dibenarkan
secara
langsung
sebagai
follows.Mempertimbangkan data yang tak terbatas lagi, kami dapat

menulis fungsi kesalahan dalam bentuk (6.65) .Jika kita menganggap
bahwa fungsi Yk (x) dan k (x) memiliki fleksibilitas tak terbatas maka
pertama-tama kita bisa meminimalkan E sehubungan dengan k oleh
diferensiasi fungsional untuk memberikan :

setelah beberapa perbaikan, memberikan hasil yang standar :
21
sebelumnya dapat diminimalkan E independen terhadap fungsi k (x)

untuk memberikan:
yang mudah dipecahkan untuk pangkat 2 k (x) untuk memberikan:

di
mana
kita
telah
menggunakan
rumus
(6.67)
.Kami
kemudian
menafsirkan (6.69) dalam hal pendekatan dua-tahap jaringan yang

dijelaskan
di
menggunakan
atas.Layanan
jaringan
saraf
teknik
sederhana
software
standar.
dan
dapat
dibuat
keterbatasan
utama
jaringan syaraf adalah bahwa hal tersebut masih mengasumsikan bentuk

Gaussian untuk fungsi distribusi (karena memanfaatkan hanya statistik
orde kedua dari target data).
6.4
Modelling
Conditional
Distributions
(Pemodelan
distribusi bersyarat)
Berhubungan dengan pemodelan distribusi bersyarat dari target data
dalam hal distribusi Gaussian dengan varians parameter global dan mean.
Akan tetapi tergantung x, jika data memiliki struktur yang kompleks,
seperti misalnya pada Gambar 6.3, maka pilihan distribusi tertentu dapat
menyebabkan representasi yang sangat miskin dari data. Oleh karena itu
kami mencari kerangka umum untuk pemodelan distribusi probabilitas
bersyarat.
Gambar 6.6. dapat mewakili massa jenis probabilitas bersyarat umum p (t |
x)
dengan mempertimbangkan model parametrik untuk distribusi t yang
parameternya
22
ditentukan oleh output dari jaringan saraf yang mengambil x sebagai input
vektor
Untuk pilihan yang berbeda dari model parametrik, kita memperoleh
representasi yang berbeda untuk contoh kepadatan.Untuk yang bersyarat,
model Gaussian tunggal untuk p (t \ 0) sesuai dengan prosedur yang
dijelaskan di atas dalam Bagian 6.3.kemungkinan lain adalah dengan
menggunakan kombinasi linear satu set tetap fungsi kernel.Didalam kasus
ini output dari jaringan mewakili koefsien dalam kombinasi linear (Bishop
dan Legleye, 1995), dan kita harus memastikan bahwa koefsien yang
positif
sama
dengan
satu
dalam
rangka
melestarikan
positif
dan
normalisasi massa jenis.Kami tidak membahas pendekatan ini lebih lanjut

karena merupakan kasus khusus dari teknik yang lebih umum yang kita
pelajari berikutnya.
Sebuah kekuatan, kerangka umum untuk pemodelan distribusi
bersyarat, berdasarkan penggunaan model campuran, diperkenalkan pada
Bagian 2.6. Model campuran merupakan pembagian dari segi kombinasi
linear dari fungsi kernel adaptif.Jika kita menerapkan teknik ini untuk
masalah pemodelan distribusi bersyarat yang kita miliki :
23
di
mana
adalah
jumlah
komponen,
atau
kernel,
di
campur.parameter j (x) disebut pencampuran koefsien, dan dapat

dianggap sebagai probabilitas sebelumnya (dikondisikan pada x) dari t
sasaran vektor yang telah dihasilkan dari j yang komponennya dicampur
.Dengan catatan bahwa koefsien pencampuran diambil sebagai fungsi dari
input vektor x dan fungsi j (t \ x) mewakili kepadatan bersyarat dari t
sasaran vektor untuk pilihan kernel j .Various untuk fungsi kernel adalah
possible.Seperti dalam Bab 2, bagaimana pun, kita akan membatasi
perhatian fungsi kernel Gaussian dalam bentuk :
dimana
vektor j (x) merupakan pusat dari kernel j, dengan
komponen
j k, dan c adalah dimensi dari t. Dalam (6.71) kita telah mengasumsikan
bahwa komponen statistik output vektor independen yang ada di setiap
fungsi kernel, dan dapat dijelaskan oleh varians umum pangkat 2 j (X)
.asumsi secara langsung memperkenalkan matriks kovarians penuh untuk
setiap kernel Gaussian, dengan mengorbankan prinsip formal.Didalam
lebih kompleks, namun , komplikasi seperti itu tidak diperlukan, karena
campuran Model Gaussian, dengan kernel yang diberikan oleh (6.71),
dapat mendekati fungsi kepadatan diberikan sewenang-wenang kepada
akurasi, asalkan koefsien campuran dan parameter Gaussian (rata-rata
varians pasir) yang benar dipilih (McLachlan dan Basford, 1988). Dengan
demikian, representasi yang diberikan oleh (6.70) dan (6.71) benar-benar
general.Didalam hal-hal tertentu, tidak menganggap bahwa komponen t
secara
statistik
independen,
berbeda
dengan
representasi
tunggal
Gaussian yang digunakan dalam (6.6) dan (6.9) untuk menurunkan sumof-square error
24
Untuk setiap nilai yang diberikan x, model campuran (6.70)

memberikan formalisme umum untuk pemodelan fungsi densitas bersyarat
p (t | x). Sekarang akan diambil berbagai parameter dari model campuran,
yaitu koefisien campuran j (x ), j berarti (x) dan varians pangkat 2 j
(X), diatur oleh output dari jaringan saraf konvensional yang mengambil x
sebagai input .Ini teknik diperkenalkan dalam bentuk campuran (. Jacob
setal, 1991) model pakar yang digambarkan dalam Bagian 9.7, dan sejak
itu telah dibahas oleh penulis lain (Bishop, 1994a; Liu, 1994; Neuneieretal,
1994) .
Jaringan saraf pada Gambar 6.6 dapat berupa struktur jaringan
standar umpan-maju dengan kemampuan pendekatan universal. Di sini
kita
mempertimbangkan
lapisan
multiperceptron
dengan
lapisan
tersembunyi tunggal unit sigmoidal dan lapisan output unit linier. Untuk
komponen M dalam model campuran (6.70), jaringan akan memiliki output
M dilambangkan dengan z pangkat j yang menentukan koefsien
pencampuran, output M dilambangkan dengan z pangkat j yang
menentukan Lebar kernel j, dan keluaran/output (M x c) dilambangkan
oleh z pangkat j k yang menentukan komponen j k dari pusat kernel
j. Jumlah output jaringan diberikan oleh (c + 2) x M, dibandingkan dengan
output c biasa untuk jaringan digunakan dengan sum-of-square(kuadrat
total)kesalahan fungsi.
Untuk memastikan bahwa
koefsien j pencampuran (x) dapat
diartikan sebagai probabilitas, mereka harus memenuhi kendala :
Kendala pertama juga memastikan bahwa distribusi dinormalkan dengan

benar,sehingga p terpisahkan (t \ x) dt = 1. Kendala ini dapat dipenuhi
25
dengan memilih j (x) berkaitan dengan jaringan output sesuai dengan

fungsi Softmax (Bridle,1990;. Jacobs et al, 1991).
Akan ditemukan fungsi Softmax lagi di bagian berikutnya ketika kita
mendiskusikan fungsi kesalahan untuk masalah klasifkasi.
Varians j merupakan parameter skala dan sehingga sangat
nyaman untuk mewakili mereka dalam hal eksponensial dari output

jaringan yang sesuai
Dalam kerangka Bayesian (Latihan 10,13) ini sesuai dengan pilihan
non-informatif sebelumnya, dengan asumsi output jaringan yang sesuai
dengan z pangkat j memiliki distribusi probabilitas seragam (Jacobs et al,
1991; Nowlan dan Hinton, 1992). Pusat-pusat j merupakan parameter
lokasi,
dan
lagi
gagasan
non
informatif
sebelum
(Latihan
10.12)
menunjukkan bahwa ini diwakili langsung oleh output jaringan.

Seperti sebelumnya, kita dapat membangun sebuah kesalahan
fungsi dari kemungkinan dengan menggunakan (6.5) untuk memberikan
dengan j (t \ x) yang diberikan oleh (6.71) .suatu minimalisasi fungsi

kesalahan dapat ditolerir untuk parameter jaringan saraf mengarah ke
model untuk kepadatan bersyarat dari target data. Dari fungsi kepadatan
ini, setiap statistik yang diinginkan secara prinsip melibatkan variabel
keluaran yang dapat dihitung.
26
Dalam rangka meminimalkan fungsi error, kita perlu menghitung

turunan dari kesalahan E sehubungan dengan bobot dalam jaringan saraf.
Ini dapat dievaluasi dengan menggunakan prosedur backpropagation
standar, asalkan kita mendapatkan ekspresi derivatif yang cocok dari
kesalahan sehubungan dengan output jaringan. Karena fungsi kesalahan
(6.77) terdiri dari sejumlah istilah
E=n E n
adalah
satu
untuk
mempertimbangkan derivatif
masing-masing
nk = En / k
pola,
kita
dapat
adalah untuk pola n tertentu
dan kemudian menemukan turunan dari E dengan menjumlahkan semua

pola. Perhatikan bahwa, karena unit keluaran jaringan memiliki aktivasi
nk bisa juga ditulis sebagai
En / k
linear fungsi g (a) = a,jumlah
dan setara dengan kesalahan yang diperkenalkan dalam diskusi kesalahan
back-propagasi dalam Bagian 4.8. Kesalahan pemindaian akan kembalidisebarkan melalui jaringan untuk menemukan hubungan derivatif dengan
bobot jaringan.
Telah dikatakan bahwa j dapat dianggap sebagai kepadatan
bersyarat fungsi, dengan probabilitas sebelum j. Seperti dengan model
campuran dibahas dalam Bagian 2.6, akan lebih mudah untuk
memperkenalkan probabilitas posterior yang sesuai, yang kami peroleh
menggunakan teorema Bayes

karena hal ini menyebabkan beberapa penyederhanaan analysis.Note
berikutnya yang, dari (6.78), posterior probabilitas jumlah kesatuan
Pertimbangan turunan pertama dari E pangkat n sehubungan dengan
output jaringan yang sesuai dengan koefsien campuran j. Menggunakan
(6.77) dan (6.78) kita memperoleh
27
Kita sekarang mengetahui bahwa, sebagai akibat dari transformasi

Softmax (6.74), nilai k tergantung pada semua output jaringan yang
berkontribusi untuk campuran koefsien, dan membedakan (6.74) :
Dari aturan rantai yang dimiliki :
Menggabungkan (6.80), (6.81) dan (6.82) kemudian didapatkan :
di mana kita telah menggunakan (6.79).sesuai dengan nilai derivatif.

parameter j kita menggunakan (6.77) dan (6.78), bersama-sama dengan
(6.71), untuk memberikan:
Menggunakan (6.75) dapat dilakukan :

Menggabungkan ini, bersama-sama kita kemudian mendapatkan :
Jaringan memiliki tiga fungsi kernel Gaussian, dan menggunakan dua
lapisan multilayer perceptron dengan lima 'tanh' unit sigmoid pada lapisan
tersembunyi, dan sembilan output. Salah satu contoh penerapan teknik ini
untuk estimasi kepadatan bersyarat diberikan pada Gambar 6.7, yang
menunjukkan kerapatan kontur bersyarat yang sesuai dengan kumpulan
data yang ditunjukkan pada Gambar 6.3.
28
Output
dari
jaringan
saraf,
dan
karenanya
parameter
dalam
campuran
Model, yang selalu terus menerus bernilai
fungsi
tunggal dari variabel
input. Namun, model ini mampu menghasilkan kerapatan bersyarat yang

unimodal
untuk
beberapa nilai x dan trimodal untuk nilai-nilai lainnya, seperti pada

Gambar 6.7, dengan modulasi komponen amplitudo campuran, atau prior,
j (x). Hal ini dapat dilihat pada Gambar 6.8 yang menunjukkan plot dari
tiga prior j (x) sebagai fungsi dari x. Hal ini dapat dilihat bahwa untuk x =
0,2 dan x = 0,8 hanya satu dari tiga kernel memiliki non-nol probabilitas
sebelumnya. Pada x = 0,5, namun, ketiga kernel memiliki prior signifkan.
Setelah jaringan telah dilatih
dan dapat memprediksi fungsi kepadatan
target data bersyarat untuk setiap nilai yang diberikan dari vektor input.
Kondisi ini density merupakan deskripsi lengkap tentang generator data,
sejauh masalah memprediksi nilai vektor output yang bersangkutan.
Gambar 6.8. Plot dari prior j (x) sebagai fungsi dari x untuk fungsi
tiga kernel dari jaringan yang digunakan untuk merencanakan Gambar 6.7.
Pada kedua nilai kecil dan besar x, di mana kepadatan probabilitas
bersyarat dari data target unimodal, hanya satu dari kernel memiliki
29
probabilitas yang berbeda sebelumnya secara signifkan dari nol. Pada

nilai-nilai menengah x, di mana kepadatan bersyarat adalah trimodal, tiga
kernel memiliki prior sebanding
di mana kita telah menggunakan (6.70) dan (6.71). Ini sama dengan
latihan fungsi hitung dengan jaringan standar oleh kuadrat terkecil,
sehingga jaringan ini dapat mereproduksi kuadrat-hasil konvensional
sebagai kasus khusus. Kami juga dapat mengevaluasi varians dari fungsi
kepadatan tentang rata-rata bersyarat, untuk memberikan :

di mana kita telah menggunakan (6.70), (6.71) dan (6.90). Ini lebih umum
daripada
yang
sesuai
dengan
kuadrat-hasil
karena
varians
ini
diperbolehkan untuk menjadi fungsi umum x. Hasil yang sama dapat

diperoleh pada saat-saat lain dari distribusi bersyarat.
30
Gambar 6.9. Ini menunjukkan plot (t \ x) terhadap x (kurva padat)

dihitung dari kepadatan bersyarat pada Gambar 6.7 menggunakan (6.90),
bersama-sama dengan yang sesuai dengan plot (t \ x) s (kurva putusputus) (x) diperoleh dengan menggunakan (6.92).Plot dari mean dan
varians, yang diperoleh dari Distribusi bersyarat pada Gambar 6.7, yang
ditunjukkan pada Gambar 6.9.
Karena
j ( t|x ) dt =1
setiap
komponen
model
campuran
dinormalkan,
cabang yang paling mungkin dari solusi, dengan asumsi
komponen dipisahkan dengan baik dan memiliki tumpang tindih yang

diabaikan, diberikan :
Dalam campuran Model pakar (Jacobs et ai, 1991)hal ini sesuai
dengan memilih output dari salah satu modul jaringan komponen. Nilai
yang diperlukan t kemudian diberikan oleh pusat yang sesuai dengan j.
Gambar 6.10 menunjukkan cabang yang paling mungkin dari solusi,
sebagai fungsi dari x, untuk jaringan yang sama seperti yang digunakan
untuk merencanakan Gambar 6.7.
Sekali lagi, salah satu keterbatasan menggunakan teknik maximum
likelihood untuk menentukan jumlah varians seperti j, adalah bahwa hal
31
itu bias (Bagian 2.2). Secara khusus, ia cenderung meremehkan varians di

daerah-daerah di mana ada data yang terbatas
Gambar 6.10. Plot dari nilai tengah kernel
yang paling mungkin
sebagai
fungsi
x dari jaringan yang digunakan untuk merencanakan Gambar 6.7. Ini

memberikan pemetaan fungsional terputus dari saya untuk f yang pada
setiap nilai x terletak baik di dalam wilayah kepadatan probabilitas
signifkan. Diagram harus dibandingkan dengan pemetaan terus menerus
sesuai pada Gambar 6.3 yang diperoleh dari standar kuadrat terkecil.
6.4.1 Periodic Variables (variabel periodic)
Pendekatan ini
berdasarkan campuran fungsi kernel, tetapi dalam
kasus ini fungsi kernel sendiri periodik, sehingga memastikan bahwa fungsi
kepadatan keseluruhan akan periodik. Untuk memotivasi pendekatan ini,
mempertimbangkan masalah pemodelan distribusi vektor kecepatan v
dalam dua dimensi. Karena v tinggal di pesawat Euclidean, kita dapat
model fungsi kepadatan p (v) menggunakan campuran kernel Gaussian
bola konvensional, di mana masing-masing kernel memiliki bentuk :
mana (vx, vy) adalah komponen Cartesian v, dan ( x, y) adalah

komponen dari pusat kernel. Dari sini kita dapat mengekstrak syarat
32
distribusi sudut polar 9 dari vektor v, diberi nilai t; = || V ||. Hal ini mudah
dilakukan dengan transformasi v = v cos , vy = v sin , dan
mendefnisikan 0 menjadi sudut kutub ,, sehingga x = cos 0 dan
y = sin 0, di mana = | | ||. Hal ini menyebabkan distribusi dapat
ditulis dalam bentuk :
di
mana
koefsien
normalisasi
telah
dinyatakan
dalam
zerothorder
modifkasi fungsi Bessel jenis pertama, Io (m). Distribusi (6,95) dikenal

sebagai normal atau von melingkar distribusi Mises (Mardia, 1972).
Parameter m (yang tergantung pada v di derivasi kami) analog dengan
parameter varians (di-ayat) dalam distribusi normal konvensional. Karena
(6,95) adalah periodik, kita dapat membangun sebuah representasi umum
untuk
kepadatan
bersyarat
dari
variabel
periodik
dengan
mempertimbangkan campuran melingkar kernel yang normal, dengan

parameter diatur oleh output dari jaringan saraf. Bobot dalam jaringan
dapat
lagi
ditemukan
dengan
memaksimalkan
kemungkinan
fungsi
didefnisikan lebih dari satu set data pelatihan

Salah
satu
contoh
penerapan
teknik
ini
untuk
penentuan
arah angin dari data satelit radar scatterometer diberikan di Bishop dan
Legleye (1995). Ini adalah masalah terbalik di mana data multitarget
dihargai. Untuk masalah yang melibatkan variabel periodik dimana data
target
efektif bernilai tunggal sehubungan dengan vektor input, maka kernel
melingkar yang normal tunggal dapat digunakan.
6.5.
Estimating
posterior
probabilities
(Memperkirakan
probabilitas posterior)
33
Saat ini kita akan membahas pertimbangan fungsi error untuk masalah
klasifkasi dimana variabel sasaran mewakili kelas diskrit label.
Ketika kita menggunakan neural network untuk memecahkan masalah
klasifkasi, ada dua cara yang berbeda. Pertama, kita dapat mengatur
jaringan untuk mewakili diskriminan non-linear fungsi. Kedua yang lebih
umum adalah dengan menggunakan jaringan untuk model probabilitas
posterior keanggotaan kelas. Biasanya ada satu unit output untuk setiap
kemungkinan kelas, dan aktivasi setiap unit output yang mewakili posterior
sesuai probabilitas P(Ck|x), di mana Ck adalah kelas kth, dan x adalah
vektor input. Probabilitas ini kemudian dapat digunakan dalam tahap
pengambilan keputusan selanjutnya yaitu klasifkasi.
Dengan
mengatur
output
jaringan
untuk
perkiraan
probabilitas
posterior , kita dapat memanfaatkan sejumlah hasil yang tidak tersedia jika
jaringan yang digunakan hanya sebagai diskriminan non - linear ( Richard
dan Lippmann , 1991) . ini meliputi :
Minimum kesalahan - tingkat keputusan

Untuk meminimalkan kesalahan klasifkasi, masukan baru vektor
seharusnya
diserahkan
kepada
kelas
yang
memiliki
probabilitas
posterior terbesar . Perhatikan bahwa output jaringan tidak perlu

mendekati 0 atau 1 jika fungsi kepadatan tumpang tindih . Prosedur
heuristik , seperti menerapkan tambahan pelatihan menggunakan polapola yang gagal untuk menghasilkan output dekat dengan nilai target ,
akan menjadi kontraproduktif , karena ini mengubah distribusi dan
membuat kemungkinan kecil bahwa jaringan akan menghasilkan
probabilitas bayesian yang benar.
Output berjumlah 1
Karena perkiraan jaringan output probabilitas posterior mereka
harus berjumlah kesatuan. Rata-rata dari setiap output jaringan melalui
semua pola dalam training set harus mendekati probabilitas yang
sesuai dengan kelas sebelumnya.
34
Perkiraan prior ini dapat dibandingkan dengan perkiraan sampel prior

yang diperoleh dari fraksi pola di setiap kelas dalam set data training.
Perbedaan antara dua perkiraan ini merupakan indikasi bahwa jaringan
bukan
pemodelan
probabilitas
posterior
akurat
Richard
dan
Lippmann , 1991) .
Kompensasi untuk probabilitas prior berbeda

Probabilitas posterior yang diungkapkan melalui Teorema Bayes dalam
bentuk
dan probabilitas prior P(Ck) dan kepadatan kelas bersyarat P(x | C k)

diperkirakan secara terpisah. Pendekatan jaringan saraf sebaliknya
menyediakan Perkiraan langsung probabilitas posterior. Kadang-kadang
probabilitas prior yang diharapkan dengan yang sedang digunakan
berbeda dari yang diwakili oleh training set. Dengan begitu maka hal
yang mudah untuk menggunakan Teorema Bayes untuk membuat
koreksi yang diperlukan untuk output jaringan.
Hal ini dicapai hanya dengan membagi output jaringan dengan
probabilitas prior sesuai dengan training set, mengalikan mereka
dengan probabilitas prior baru, dan kemudian normalisasi hasilnya.
Probabilitas prior untuk training set dapat diperkirakan hanya
dengan mengevaluasi fraksi training set titik data di masing-masing
kelas. Sebagai contoh, pertimbangan masalah klasifkasi citra medis
menjadi 'normal' dan 'tumor'. Ketika digunakan untuk skrining tujuan,
kita akan mengharapkan probabilitas sebelumnya sangat kecil 'Tumor'.
Untuk mendapatkan berbagai gambar tumor yang baik pada training
set maka membutuhkan contoh pelatihan yang banyak. Alternatif untuk
35
meningkatkan artifsial proporsi gambar tumor dalam training set, dan

kemudian untuk mengimbangi prior yang berbeda pada data uji dapat
diperoleh dari statistik medis, tanpa harus mengumpulkan gambar
yang sesuai.
Menggabungkan output dari beberapa jaringan

Daripada menggunakan jaringan tunggal untuk memecahkan
masalah yang lengkap ,sering ada manfaat dalam memecahkan
masalah ke dalam bagian-bagian yang lebih kecil dan memperlakukan
setiap bagian dengan jaringan yang terpisah. Dengan membagi output
jaringan dengan probabilitas prior yang digunakan selama pelatihan,
output jaringan menjadi kemungkinan skala oleh kepadatan tanpa
syarat dari vektor input. Likelihood skala ini dapat dikalikan bersama
pada
asumsi
independen.
bahwa
Karena
vektor
scaling
masukan
Faktor
untuk
berbagai
independen
kelas,
jaringan
classifer
berdasarkan produk dari likelihood skala akan memberikan hasil yang

sama seperti yang didasarkan pada likelihood benar. Pendekatan ini
telah berhasil diterapkan untuk masalah pengenalan suara ( Bourlard
dan Morgan , 1990; Singer dan Lippmann , 1992).
minimal risiko
Sebagaimana dibahas dalam Bab 1, tujuan dari sistem klasifkasi
tidak mungkin selalu untuk meminimalkan kemungkinan kesalahan
klasifkasi. kesalahan klasifkasi berbeda dapat membawa hukum yang
berbeda, dan kita mungkin ingin untuk meminimalkan kerugian atau
resiko
secara
keseluruhan.
Sekali
lagi
aplikasi
skrining
medis
memberikan contoh yang baik. Salah mengklasifkasikan gambar tumor

menjadi seperti gambar biasa ini mungkin jauh lebih serius daripada
salah mengklasifkasikan gambar normal yang tumor. Dalam hal ini,
posterior probabilitas dari jaringan dapat dikombinasikan dengan
36
matriks yang sesuai koefsien kerugian untuk memungkinkan minimum

resiko yang akan dibuat.
ambang batas penolakan

Ambang batas penolakan yaitu jika semua probabilitas posterior
jatuh di bawah ambang batas ini maka ada keputusan klasifkasi yang
dibuat. Teknik klasifkasi alternatif bisa kemudian diterapkan pada
kasus ditolak. Hal ini mencerminkan biaya yang terkait dengan
membuat keputusan yang salah diimbangi dengan biaya alternatif
prosedur klasifkasi. Pada gambar medis masalah klasifkasi misalnya :
mungkin lebih baik tidak mencoba untuk mengklasifkasikan gambar
yang diragukan, tetapi memiliki ahli untuk memberikan manusia
keputusan. Penolakan vektor input dapat dicapai dengan cara yang
berprinsip, asalkan jaringan output merupakan probabilitas posterior
keanggotaan kelas.
6.6
Sum-of-squares
for
classification
(Sum-of-squares
untuk
klasifikasi)
Pada bagian sebelumnya kita menunjukkan bahwa, untuk jaringan
dilatih dengan meminimalkan suatu sum-of-squares kesalahan fungsi,
output jaringan mendekati rata-rata bersyarat dari data target
Dalam masalah klasifkasi, setiap vektor input pada training set

diberi label oleh anggota kelasnya, diwakili oleh satu set nilai target
t nk .
Target tersebut dapat dipilih sesuai dengan berbagai skema, tetapi yang
paling nyaman adalah 1-of-c coding dimana, untuk vektor masukan x n dari
kelas Ci, kita memiliki
t nk = kl dimana fkt adalah simbol Kronecker delta.
37
Didalam huruf target nilai-nilai yang diketahui secara tepat dan fungsi
kepadatan target ruang menjadi tunggal dan dapat ditulis sebagai
karena P(Cl|x) adalah probabilitas bahwa x milik kelas Cl. Jika sekarang kita
mengganti (6.99) ke dalam (6.98) kita memperoleh
sehingga output dari jaringan sesuai dengan probabilitas posterior

Bayesian (White, 1989; Richard dan Lippmann, 1991).
Jika output jaringan merupakan probabilitas, maka mereka harus
berada di rentang (0,1) dan harus berjumlah 1. Untuk jaringan dengan
unit-unit output linier, dilatih dengan meminimalkan sum-of-squares fungsi
kesalahan. Diperlihatkan pada Bagian 6.1.2 bahwa jika nilai target
memenuhi kendala linear, maka output jaringan akan memenuhi kendala
yang sama untuk vektor input yang berubah-ubah. Dalam kasus 1-of-c
skema pengkodean, target nilai sum kesatuan untuk setiap pola dan
jaringan output juga akan selalu berjumlah kesatuan. Namun, tidak ada
jaminan bahwa mereka akan terletak di atas kisaran (0,1). Bahkan, sum-ofsquares fungsi kesalahan bukan yang paling tepat untuk masalah
klasifkasi. Namun, ada keuntungan dalam menggunakan sum-of-squares
fungi kesalahan, termasuk fakta bahwa penentuan output bobot dalam
jaringan merupakan masalah optimasi linier. Signifkansi hasil ini untuk
jaringan fungsi basis radial digambarkan dalam Bab 5. Oleh karena itu
penggunaan sum-of-squares fungsi kesalahan dibahas untuk masalah
klasifkasi lebih detail sebelum mempertimbangkan pilihan alternatif fungsi
kesalahan.
Untuk masalah dua kelas, skema 1-of-c coding di atas mengarah
pada jaringan dengan dua unit output, satu untuk masing-masing kelas
dan aktivasi yang mewakili probabilitas yang sesuai dengan keanggotaan
38
kelas. sebuah pendekatan alternatif adalah dengan menggunakan output y

tunggal dan coding sasaran yang menetapkan t n = 1 jika xn adalah dari
kelas Cl dan tn = 0 jika xn dari kelas C2. Dalam hal ini, distribusi nilai target
yang diberikan oleh :
Mengganti ini ke (6.98) memberikan :
dan output jaringan y(x) merupakan probabilitas posterior input vektor x

milik kelas C1. Probabilitas yang sesuai untuk kelas C 2 kemudian diberikan
oleh P (C2 | x) = 1 - y (x).
6.6.1
Interpretation
of
hidden
units
(Interpretasi
unit
tersembunyi)
Dalam Bagian 6.1.1 menggunakan ekspresi (6.29) untuk bobot
akhir-lapisan
yang
meminimalkan
kesalahan
sum-of-squares,
untuk
jaringan dengan unit-unit output linier. Dengan mengganti hasil ini

kembali ke fungsi kesalahan, kita memperoleh ekspresi parameter adaptif
yang terkait dengan unit-unit tersembunyi, yang kita lambangkan dengan
w. Ungkapan ini menyoroti sifat representasi hidden unit jaringan dan
menunjukkan mengapa multi-layer non-linear jaringan saraf bisa efektif
sebagai sistem klasifkasi pola (Webb dan Lowe, 1990).
Dalam notasi matriks kita memperoleh :
dimana Z, W dan T didefnisikan pada halaman 199. Kita sekarang

menggantikan solusi (6.29) untuk bobot optimal dalam (6.103) untuk
memberikan :
Dengan menggunakan beberapa manipulasi matriks (Latihan 6.9) kita

dapat menulis ini dalam bentuk :
39
Berikut ST didapatkan dari :
dan komponen
didefnisikan oleh (6.24). Kami melihat bahwa ini dapat
diartikan sebagai total matriks kovarians untuk aktivasi pada output dari
lapisan akhir unit tersembunyi sehubungan dengan kumpulan data
pelatihan. Demikian SB pada (6.105) di dapatkan :
yang dapat diartikan (seperti yang akan kita lihat) sebagai bentuk antara
kelas kovarians matriks.
Pada (6.105) hanya tergantung pada Target data yang independen
dari bobot tersisa
~
w
dalam jaringan. Dengan demikian, meminimalkan
sum-of-squares error setara dengan memaksimalkan Fungsi diskriminan

yang didefnisikan sehubungan dengan aktivasi dari fnal-layer unit
tersembunyi yang diberikan oleh :
Perhatikan bahwa, jika matriks ST adalah ill-conditioned, maka invers

matriks
S1
T
harus digantikan oleh pseudo-inverse
S T . Kriteria (6.108)
memiliki kesamaan yang jelas dengan fungsi diskriminan Fisher yang

dibahas dalam Bagian 3.6.
Peran yang dimainkan oleh unit tersembunyi sekarang dapat dinyatakan
sebagai berikut. Bobot di lapisan akhir disesuaikan untuk menghasilkan
diskriminasi optimal kelas vektor masukan melalui transformasi linear.
Meminimalkan kesalahan diskriminan linier, mensyaratkan bahwa data
input non-linear sebuah transformasi menjadi ruang yang direntang oleh
aktivasi tersembunyi untuk memaksimalkan fungsi diskriminan yang
diberikan oleh (6.108).
40
Wawasan
lebih
lanjut
ke
sifat
SB
matriks
diperoleh
dengan
mempertimbangkan skema sasaran coding tertentu. Untuk 1-of-c skema

sasaran coding kita bisa menulis (6.107) dalam bentuk :
dimana Nk adalah jumlah pola di kelas Ck dan
adalah vektor rata-rata
aktivasi unit tersembunyi untuk semua pola pelatihan di kelas C k, dan

didefnisikan oleh
Perhatikan SB dalam (6.109) berbeda dari konvensional antara kelas

kovarians
matriks
menggunakan faktor
yang
2
Nk
diperkenalkan
pada
Bagian
3.6
dengan
bukan Nk di penjumlahan kelas atas. Ini
merupakan bobot yang kuat dari kriteria ekstraksi ftur mendukung kelas
dengan jumlah yang lebih besar dari pola. Jika ada perbedaan yang
signifkan antara probabilitas sebelumnya untuk pelatihan dan set data uji,
maka efek ini mungkin tidak diinginkan, dan kita akan melihat bagaimana
memperbaiki itu dengan memodifkasi ukuran kesalahan sum-of-squares.
Secara umum, tidak ada cara untuk memutuskan mana yang akan
menghasilkan hasil terbaik. Untuk masalah dua kelas, antara kelas matriks
kovarians yang diberikan dalam (6,109) berbeda dari konvensional satu
hanya dengan konstan perkalian, sehingga dalam hal ini Kriteria jaringan
setara dengan ekspresi Fisher asli.
6.6.2 Weight sum-of-squares ( Bobot sum-of-squares)
Kita telah melihat bahwa, untuk jaringan dengan unit-unit output
linier, minimalisasi dari
sum-of-squares error pada output jaringan
memaksimalkan non-linear tertentu dengan kriteria ekstraksi ftur
41
di unit tersembunyi. Untuk skema pengkodean 1-of-c, yang sesuai dengan

matriks kovarians antar kelas, yang diberikan oleh (6.109), berisi koefsien
yang tergantung pada Nk, jumlah pola di kelas C k. representasi hidden unit
diperoleh dengan memaksimalkan fungsi diskriminan ini hanya akan
optimal untuk set probabilitas prior tertentu Nk|N. Jika probabilitas
sebelumnya berbeda antara pelatihan dan uji set, maka ekstraksi ftur
tidak perlu optimal.
Kesulitan terkait muncul jika ada biaya yang berbeda antar terkait dengan
berbagai
kesalahan
klasifkasi,
sehingga
kerugian
matriks
perlu
dipertimbangkan. Ini telah diusulkan (Lowe dan Webb, 1990, 1991) bahwa
modifkasi bentuk sum-of-squares error untuk memperhitungkan matriks
kerugian.
Untuk menghadapi kemungkinan sebelum berbeda antara set pelatihan
dan Uji set, Lowe dan Webb (1990) memodifkasi sum-of-squares error
dengan memperkenalkan kn faktor bobot untuk setiap pola n sehingga
fungsi error menjadi
dimana faktor bobot yang diberikan oleh
untuk pola n di kelas Ck di mana
~
P (Ck) adalah probabilitas prior kelas Ck
untuk data uji, dan Pk = Nk|N adalah sesuai (sampel estimasi) probabilitas
prior untuk pelatihan Data. Hal ini mudah untuk menunjukkan (Latihan
6.12) bahwa total kovarians matriks ST kemudian menjadi
42
yang merupakan estimasi sampel berdasarkan dari total matriks kovarians

untuk data dengan probabilitas prior kelas
~
P (Ck). Dalam (6.114)
diberikan oleh
merupakan estimasi-sampel berdasarkan dari nilai

mengambil Data untuk memiliki probabilitas prior
yang akan
~
P (Ck). Demikian pula,
dengan asumsi 1-of-c skema sasaran coding, antara kelas matriks

kovariansi dimodifkasi menjadi
yang merupakan estimasi sampel berdasarkan antara kelas kovarians

matriks untuk Data dengan probabilitas prior
~
P (Ck).
Efek dari kerugian matriks yang berubah-ubah dapat diperhitungkan

dengan memodifkasi target skema pengkodean sehingga, untuk n pola
yang berlabel sebagai milik kelas Cl, vektor target memiliki komponen
= 1 - Llk, dimana Llk
tk
merupakan kerugian dalam menentukan pola dari
kelas Cl untuk kelas Ck. Total matriks kovariansi tidak berubah, sedangkan
kelas antara matriks kovarians menjadi (Latihan 6.13)
Dengan mengurangi ekspresi biasa ketika L lk = 1 lk. Contoh penerapan

teknik ini untuk masalah dalam prognosis medis diberikan dalam Lowe dan
Webb (1990).
6.7. Cross-entropy
kelas)
for
two
classes (Cross-Entropi untuk dua
Sasaran skema pengkodean dengan arget 1-of-c, keluaran dari

jaringan yang dilatih dengan meminimalkan kemungkinan fungsi jumlah
43
kuadrat error dari posterior probabilities keanggotaan kelas, dikondisikan

pada vector input. Namun, jumlah kuadrat error diperoleh dari dasar
kemungkinan maksimum dengan mengasumsikan bahwa target data
degenerate atau berasal dari fungsi deterministic halus dengan
penambahan Gaussian noise (normal noise model). Ini jelas menjadi titik
awal untuk menyadari masalah regresi. Untuk masalah klasifkasi, namun
target merupakan sebuah variable biner, dan Gauss Noisi model tidak
memberikan deskripsi yang baik untuk distribusi mereka. Oleh karena itu
dicari pilihan yang lebih tepat untuk masalah fungsi error.
Untuk memulainya, dilibatkan masalah yang hanya melibatkan 2 kelas,
dan salah satu pendekatan untuk masalah tersebut yaitu menggunakan
jaringan dengan dua unit, satu unit untuk masing-masing kelas. Jenis
representasi ini dibahas dalam Bagian 6.9. Di sini hanya membahas
pendekatan alternatif dengan anggapan sebuah jaringan dengan sebuah
output tunggal. Nilai y merepresentasikan posterior probability P(C 1|x)
untuk kelas C1. Posteriro probability untuk kelas C2 direpresentasikan
dengan P(C2|x) = 1-y. Hal ini dapat dicapai jika memiliki target coding
dimana untuk t=1 jika vector input adalah milik class C1 dan t=0 jika
termasuk ke kelas C2. Hal ini dapat diekspresikan kedalam suatu ekspresi
tunggal, Sehingga kemungkinan nilai target nya adalah sebagai berikut :
kasus khusus dari distribusi binomial disebut sebagai distribusi Bernoulli.
Dengan interpretasinya terhadap unit keluaran aktivasi, kemungkinan
mengamati kumpulan data pelatihan, mengasumsikan titik data diambil
secara independen dari distribusi ini, representasi nilainya digambarkan
sebagai berikut :
Dan akan lebih mudah untuk meminimalkan logaritma negatif dari sebuah
kemungkinan. Hal ini menyebabkan kesalahan fungsi lintas entropi (cross-
entropy error function) dalam bentuk

Maksud dari entropy akan dibahas pada 6.10, untuk saat ini akan
diperhatikan beberapa sifat dasar dari error function-nya. Diferensial
(fungsi turunan) error-function berhubungan dengan yn yang diperoleh :
44
Minimum Absolut dari error function terjadi ketika :
Persamaan diatas berlaku untuk semua nilai n.

Dalam bagian 3.1.3 menunjukkan bahwa jaringan dengan output tunggal
direpresentasikan sebagai y = g(a) dimana nilainya ditafsirkan sebagai
sebuah kemungkinan, hal ini akan sesuai jika mempertimbangkan aktivasi
logistic function sebagai berikut :
Yang memiliki turunan :
Penggabungan
Antara
persamaan
dengan
6.121
dan
6.124
memperlihatkan sebuah turunan yang berkaitan dengan a sehingga
bentuknya menjadi lebih sederhana seperti :
merupakan error kuantitas yang di- back-propogated melalui
jaringan mengatur untuk menghitung turunan dari error function yang

berhubungan dengan bobot jaringan (Bagian 4.8). Jika diperhatikan pada
6.125 memiliki bentuk yang sama sebagaimana diperoleh untuk sum-ofsquare (jumlah kuadrat) error function dan unit output linear. Dapat terlihat
bahwa terdapat sebuah pasangan alami dari error function dan unit output
activation function yang menimbulkan bentuk yang lebih sederhana untuk
45
bentuk derivative( turunan). Penggunaan bentuk logistik dari fungsi

aktivasi juga menyebabkan penyederhanaan yang tepat ketika
mengevaluasi matriks Hessian (matriks turunan kedua dari fungsi error).
Dari persamaan 6.120 dan 6.122, nilai minimum dari cross-entropy error
function dapat dicari dengan :
Skema koding 1-of-C ini menghilang. Namun, error function pada bagian
6.120 tepat digunakan ketika tn adalah variabel kontinyu yang berkisar
antara (0,1) merepresentasikan kemungkinan dari vector input xn yang
termasuk kedalam kelas C1. Dalam hal ini
nilai minimum (pada
persamaan 6.126) tidak perlu menghilang dan ini sangat cocok untuk
melepas nilai dari original error function yang dimodifkasi menjadi :

Karena (6,126) tidak tergantung pada output jaringan ini tidak
mempengaruhi lokasi minimum dan tidak memiliki efek pada pelatihan
jaringan. Kesalahan dimodifkasi (6,127) agar selalu memiliki nilai
minimum pada 0 dan terlepas dari training set tertentu.
Sebagai contoh sederhana dari penafsiran output jaringan sebagai
sebuah kemungkinan, dapat dianggap masalah dua kelas sederhana
dengan satu variabel input di mana kepadatan dari
kelas-bersyarat
diberikan oleh fungsi campuran Gaussian ditunjukkan pada Gambar 6.11.
Sebuah perceptron multilayer dengan lima unit tersembunyi memiliki
'tanh' fungsi aktivasi, dan satu unit output memiliki fungsi aktivasi sigmoid
logistik, dilatih dengan meminimalkan kesalahan lintas entropi
menggunakan 100 siklus algoritma BFGS quasi-Newton (Bagian 7.10).
Sehingga fungsi pemetaan jaringan ditampilkan, bersama dengan
probabilitas posterior yang dihitung dengan menggunakan teorema Bayes.
6.7.1 Fungsi Aktivasi Sigmoid (Sigmoid activation functions)
46
Dalam Bagian 3.1.3, logistik fungsi aktivasi sigmoid didorong untuk

jaringan single layer dengan tujuan untuk memastikan bahwa output
jaringan merupakan probabilitas posterior, dengan asumsi bahwa
kepadatan kelas-bersyarat dapat didekati dengan distribusi normal.
Dengan menerapkan argumen yang sama pada output jaringan dalam
kasus jaringan multi-layer.
Gambar 6.11. Plot dari kepadatan kelas-bersyarat digunakan untuk

menghasilkan data-set untuk menunjukkan interpretasi dari output
jaringan sebagai probabilitas posterior. Sebanyak 2000 titik data dihasilkan
dari kepadatan ini, dengan menggunakan probabilitas yang sama dengan
sebelumnya.
Dalam hal ini perlu dipertimbangkan distribusi dari output unit
tersembunyi, di sini direpresentasikan oleh vector z untuk dua kelas.
Pembahasan ini dapat digeneralisasi dengan asumsi bahwa kepadatan
kelas-bersyarat ini dijelaskan oleh :
yang merupakan anggota dari keluarga eksponensial distribusi (yang
mencakup banyak distribusi umum sebagai kasus khusus seperti Gaussian,
binomial, Bernoulli, Poisson, dan sebagainya). Parameter dan k
mengontrol bentuk distribusi. Dalam 6.128 secara implisit diasumsikan
bahwa distribusi hanya berbeda pada parameter k dan tidak pada .
Dengan contoh distribusi 2 Gaussian dengan cara yang berbeda tetapi
dengan matriks kovariansi umum.
Dengan menggunakan teorema Bayes, kita dapat menulis probabilitas
posterior untuk kelas C1 dalam bentuk :
47
Yang merupakan fungsi sigmoid logistic, dimana :
Gambar 6.12. merupakan hasil pelatihan data dari multi-layer perceptron

yang dihasilkan dari fungsi kepadatan pada Gambar 6.11. Kurva padat
dengan garis tebal menunjukkan output dari jaringan yang dilatih sebagai
fungsi dari input variabel x, sedangkan kurva putus-putus menunjukkan
posterior probability sebenarnya P(C1|x) yang dihitung dari kepadatan
kelas-bersyarat menggunakan teorema bayes.
Dengan menggunakan persamaan 6.128 persamaannya dapat ditulis

dalam bentuk :
Dimana telah didefnisikan :
48
Dengan demikian output jaringan ditentukan oleh fungsi aktivasi sigmoid

logistik yang bekerja pada bobot kombinasi linear output dari unit-unit
tersembunyi yang mengirimkan koneksi ke unit output.
Jelas bahwa kita dapat menerapkan argumen di atas dengan aktivasi dari
unit tersembunyi dalam jaringan. Asalkan unit tersebut menggunakan
logistik fungsi aktivasi sigmoid, kita dapat menafsirkan output mereka
sebagai hadirnya probabilitas sesuai 'ftur' yang dikondisikan pada input ke
unit.
6.7.2 Property dari cross-entropy
Misal dituliskan output jaringan, untuk pola n tertentu, dalam bentuk
.Kemudia cross-entropy error function-nya dapat dituliskan
sebagai berkut :
sehingga fungsi kesalahan tergantung pada kesalahan relatif dari
output jaringan. Hal ini harus dibandingkan dengan fungsi sum-of-square
(jumlah kuadrat) error yang tergantung pada (kuadrat) kesalahan mutlak.
Meminimalisasi cross-entropy error function karena cenderung
akan
mengakibatkan kesalahan yang relatif sama pada kedua nilai dari target
kecil dan besar. Sebaliknya, sum-of-square error functions cenderung
memberikan kesalahan mutlak yang sama untuk setiap pola, oleh karena
itu akan memberikan kesalahan yang relatif besar untuk nilai output yang
kecil. Hal ini menunjukkan bahwa cross-entropy error functions cenderung
lebih baik daripada sum-of-square (jumlah kuadrat) dalam memperkirakan
probabilitas kecil.
49
Untuk target biner, dengan tn=1 untuk sebuah inputan vector xn dari kelas
C1 dan tn=0 untuk inputan vector dari kelas C2 , dan persamaan crossentropy error functionnya dapat ditulis dalam bentuk :
Dimana digunakan z ln z 0 untuk z0 . Jika dimisalkan n nilainya kecil,

jadi error functions nya menjadi :
Dimana logaritmanya diperluas menggunakan ln(1+z) sama dengan

sebanding dengan z dan memperhatikan bahwa y (0,1) kemudian n <0
untuk inputan bagi kelas C1 dan n >0 untuk inputan bagi kelas C2. Hasil
pada persamaan 6.136 merupakan bentuk dari Minkowski-R error function
untuk R=1 yang dibahas sebelumnya. Dibandingkan dengan sum-ofsquare error function, fungsi ini memberikan bobot yang lebih kuat untuk
error yang lebih kecil.
Fungsi cross-entropy error telah diperoleh dengan syarat bahwa output
dari jaringan y merupakan representasi dari probabilitas input vector x
yang termasuk kedalam kelas C1. Jadi konsistensi dari persyaratan ini
dapat dipastikan dengan mempertimbangkan minimal dari error function
untuk kumpulan data besar yang tak berhingga, yang dapat ditulis dalam
bentuk:
Karena fungsi jaringan y(x)
tidak tergantung pada nilai target t, maka
persamaannya dapat ditulis sebagai berikut :
50
Dimana sebelumnya, telah ditentukan bahwa prasayarat dari rata-rata

bersyarat (conditional average) dari target data adalah :
Jika diatur turunan fungsional pada persamaan 6.138 terhadap fungsi y(x)
= 0 maka dapat ditentukan bahwa minimal error function terjadi ketika :
Jadi seperti sum-of-square error, output dari jaringannya mendekati ratarata bersyarat dari data target untuk vektor masukan yang diberikan.
Untuk target skema pengkodeannya telah dituliskan :
Dengan mensubstitusi persamaan 6.141 kedalam 6.139 ditemukan :
6.8
Multiple
independent
attributes
(Beberapa
Atribut
Independen)
Dari semua pengklasifkasian masalah yang telah dibahas sejauh ini,
telah ditetapkan vector baru ke salah satu c (c adalah sebuah kelas yang
saling terpisah dari yang lain (eksklusif)). Namun, dalam beberapa aplikasi
diharapkan dapat menggunakan jaringan untuk menentukan probabilitas
ada atau tidaknya sejumlah atribut yang tidak perlu saling terpisah dengan
yang lain. Dalam hal ini, jaringan ini memiliki multiple output dan nilai dari
output variabel yk merepresentasikan probabilitas adanya kemunculan
atribut kth. Jika atribut diperlakukan secara independen, maka distribusi
dari nilai target akan memuaskan.
51
Dan sekarang dapat digunakan persamaan 6.118 pada masing-masing

distribusi bersyarat untuk memberikan :
Jika sekarang dibangun fungsi likelihood (kemungkinan) dan mengambil

logaaritma negatif dalam cara yang biasa , maka akan diperoleh error
function dalam bentuk :
Dengan pilihan dari error function ini, output dari jaringan masing-masing
harus memiliki fungsi sigmoid logistic dalam bentuk persamaan 6.123.
Sekali lagi, untuk variabel target dalam bentuk biner
t nk
error function-
n
nya menghilang pada nilainya minimum. Jika kisaran probabilitas t k
adalah Antara (0,1), minimum kesalahannya akan tergantung pada set

data tertentu, sehingga akan lebih nudah melepas nilai minimum untuk
memberikan :
n
Yang selalu memiliki nilai absolut minimum yang berkaitan dengan { y k
= 0.
6.9 Cross-entropy
beberapa kelas)
for
multiple
classes ( cross-entropy untuk
52
Kita sekarang kembali ke klasifkasi permasalahan konvensional yang

melibatkan kelas yang saling terpisah satu dengan yang lainnya, dan
mempertimbangkan bentuk error function yang akan diambil jika jumlah
kelasnya lebih dari dua. Mempertimbangkan jaringan dengan satu output
n
tk
untuk setiap kelas, dan yang mana target data mempunyai skema
t nk
pengkodingan 1-of-C, jadi
kl
untuk sebuah pola n dari kelas C1.
Probabilitas pengamatan dari set nilai target

sebuah vector inputan
tk
kl
diberikan
xn, hanya terjadi jika p(C1|x)=yl. Nilai distribusi
bersyarat untuk pola ini dapat ditulis sebagai :

Jika dibentuk fungsi kemungkinan, dan mengambil logaritma negative
maka akan didapatkan error function dalam bentuk :
Minimum absolut dari error functions yang berhubungan dengan { y k

terjadi ketika
y nk
t nk
untuk semua nilai dari n dan k. Minimal dari
error function- nya diambil dari nilai :

Untuk skema koding 1-of-c nilai minimumnya adalah 0. Namun,
fungsi error pada persamaan 6.148 masih tetap valid, sebagaimana yang
t nk adalah sebuah variabel kontinyu yang berkisaran
terlihat, ketika
Antara (0,1) merepresentasikan probabilitas inputan xn termasuk kedalam
kelas Ck. Dalam hal ini minimum dari error-function tidak perlu dihilangkan
( karena merupakan representasi entropy dari distribusi variabel target
53
yang akan dibahas selanjutnya). Hal ini akan memudahkan untuk melepas
nilai minimumnya, sehingga dapat diperoleh error function dalam bentuk :
Yang mana persamaan ini merupakan non-negatif, dan akan sama dengan
n
n
nol jika y k = t k untuk semua nilai k dan n.
Sekarang akan dipertimbangkan fungsi aktivasi yang sesuai yang harus
digunakan untuk unit-unit output dari jaringan. Jika nilai-nilai output yang
diinterpretasikan sebagai probabilitas, maka nilai-nilai tersebut kisarannya

harus terletak Antara (0,1), dan harus berjumlah kesatuan. Hal ini dapat
dicapai dengan menggunakan generalisasi dari sigmoid logistic fungsi
aktivasi yang berbentuk :
Yang mana persamaan tersebut dikenal sebagai normalisasi
eksponensial, atau fungsi aktivasi softmax (Bridle,1990). Istilah softmax
digunakan karena merupakan versi yang lebih halus dari model fungsi
winner-takes-all dimana unit dengan input terbesar memiliki output +1
sementara semua unit yang lain memiliki keluaran 0. Jika eksponensial
pada persamaan 6.151 dimodifkasi menjadi bentuk exp k , kemudian
aktivasi winner-takes-all direcover dalam batasan
. Fungsi aktivasi
Softmax dapat dianggap sebagai generalisasi dari fungsi logistik, karena
dapat ditulis dalam bentuk :
Dimana nilai
Ak
diperoleh dari :
54
Sama seperti logistic sigmoid, dapat diberikan dorongan umum untuk

softmax aktivasi dengan mempertimbangkan probabilitas posterior bahwa
z unit tersembunyi termasuk kedalam kelas C k , di mana kepadatan
kelas-bersyarat diasumsikan milik keluarga dari distribusi eksponensial
dalam bentuk umum :

Dari teorema Bayes , probabilitas posterior kelas
Ck
ditulis dalam bentuk
:
Mensubstitusi persamaan 6.154 kedalam persamaan 6.155 sehingga
diperoleh :
Sehingga dapat didefnisikan bahwa :
Hasil dari persamaan 6,156 merupakan lapisan akhir dari jaringan dengan
fungsi aktivasi Softmax, dan menunjukkan bahwa output dapat diartikan
sebagai probabilitas keanggotaan kelas, dikondisikan pada output dari unit
tersembunyi.
Dalam mengevaluasi turunan dari fungsi kesalahan Softmax, perlu
mempertimbangkan masukan untuk semua unit output, jadi : (untuk pola
n)
55
Dari persamaan 6.151 harus :
Sedangkan dari persamaan 6.150 terdapat persamaan :
Substitusi persamaan 6.161 dan 6.162

sehingga ditemukan persamaan :
kedalam persamaan 6.160,
Ini merupakan hasil yang sama yang ditemukan pada kedua sum-of-square
error (dengan fungsi aktivasi linear) dan two-class entropy-error (dengan
fungsi aktivasi logistik). Sekali lagi, dapat ditemukan bahwa terdapat
pasangan alami dari error function dan fungsi aktivasi.
6.10 Entropi
Konsep entropi sebenarnya di kembangkan oleh para ahli fsika
dalam konteks keseimbangan dari termodinamika dan dikembangkan
kembali melalui mekanik statistik. Teori ini sudah diperkenalkan kedalam
teori informasi oleh Shannon (1948). Disini kita memahami dua fungsi
yang berbeda yaitu p(x) untuk salah satu variable x. hal ini sama dengan
masa jenis sebagai histogram yang dimana x-axis telah terbagi
dalam
konsep yang di tentukan oleh bilangan bulat i. pikirkan sebuah histogram

dengan menempatkan
total N kesamaan distrik objek kedalam bin,
sehingga bin yang mengandung objek Ni,. Karena ada N cara menentukan
56
objek yang pertama, (N-1) cara menentukan objek yang kedua, dan
seterusnya, itulah total dari N begitulah cara menentukan Objek N.
Penyusunan ulang angkanya dalam menghitung jumlah
objek berbeda,
dikenal sebagai multiplisiti, yang ditentukan melalui rumus :
Entropi ditentukan sebagai (konstanta) logaritma negativ dari multiplisiti

sehingga.
Kita sudah menemukan limit N yang memberikan hasil
Pada gambar 6.13 pada sempel dua gaussian fungsi dengan varians
parameter a = 0,4 dan = 0,08, masing-masing berisi
1000 poin dan
distribusi yang memiliki entropi rendah dimana pi = Ni / N (N -> oo) dan

merupakan probabilitas yang sesuai dengan nilai yang terkecil sehingga pi
= 1 / M dimana M adalah jumlah total bin Jika
maka massa probabilitas di bin
adalah lebar setiap bin,

, sehingga entropi bisa
ditulis dalam bentuk
57
Telah digunakan fungsi p(x)dx=1 dimana fungsi tersebut menyimpang

dalam batas M
Dalam tujuan untuk menentukan ukuran entropi yang
bermakna, karena tidak tergantung dari p (x),dan hanya menggunakan

istilah pertama di sisi kanan (6,168), yang disebut entropi diferensial.
Untuk distribusi yang merupakan fungsi dari beberapa variabel, kita
mendefnisikan entropi untuk menjadi
diamana
terbatas
bahwa
x=( x 1 ,... x d )T
Untuk kasus tunggal x variabel pada sumbu tak
(,) kita memaksimalkan :
kendala distribusi menjadi normal dan bahwa mean dan varians
distribusi merupakan nilai yang ditetapkan :
Memperkenalkan
Lagrange
1 , 2 dan
(Lampiran
C)
untuk
masing-masing
kendala, dapat kita menggunakan kalkulus variasi (Lampiran D) untuk
memaksimalkan fungsi
Yang mengarah ke persamaan :
Akhirnya memberikan ekspresi untuk memaksimalkan distribusi tersebut

dalam bentuk
58
Jadi Gaussian melihat bahwa distribusi memiliki entropi maksimum,

untuk diberikan mean dan varian, jumlah informasi, atau ekuivalen 'tingkat
kejutan', yang diperoleh ketika kita belajar bahwa peristiwa tertentu telah
terjadi.
Kami
berharap
bahwa
informasi
akan
tergantung
pada
probabilitas, karena jika p = 1. Oleh karena itu kita mencari ukuran

informasi s (p) yang terus menerus, secara monoton meningkatkan fungsi
p dan yang sedemikian rupa sehingga s (l) = 0
Sebuah ekspresi yang
tepat dapat diperoleh sebagai berikut. Pertimbangkan dua independen

peristiwa A dan B, dengan probabilitas PA dan ps Jika kita tahu bahwa
kedua peristiwa terjadi kemudian informasi S( P A PB )
jika informasi A
telah terjadi, maka informasi residual B harus terjadi S( P A PB ) S( P A )

maka harus sama S (PB) karena pengetahuan bahwa A telah terjadi
seharusnya
tidak
mempengaruhi
informasi
yang
dihasilkan
dari
pembelajaran yang terjadi B. Hal ini menyebabkan kondisi berikut :
Bahwa dapat disimpulkan S( P
)= 2S ( p)
dan dengan induksi S( p
N s (p) untuk integer N. Demikian pula, S(P)=S( [ p
1/N N
dengan
M /N
S( p
p
)= ( 1/ N )
N s
)=
dan
perpanjangan
)=(M/N)S(P) Ini berarti bahwa S( P
)=XS(P) untuk x rasional dan
karenanya, dengan kontinuitas, untuk real x. Jika Z=
- log2p dan P = (1/2)Z
Maka persamaan :
Hal ini konvensional untuk memilih s (l / 2) = 1. Kita melihat

59
bahwa jumlah informasi sebanding dengan logaritma dari probabilitas. Ini

timbul pada dasarnya karena cara independen, probabilitas dan perkalian.
variabel acak yang yang dapat mengambil nilai
k P( k )
Jika pengirim
ingin mengirimkan nilai ke penerima, maka jumlah informasi (dalam bit) ini
adalah
lnp( k )
jika variabel mengambil Nilai demikian
diharapkan (rata-rata) informasi yang diperlukan untuk mengirimkan nilai

yang diberikan oleh persamaan :
yang merupakan entropi dari variabel acak . Dengan demikian S()

sebagai jumlah rata-rata dari informasi yang diterima ketika nilai yang
diamati. Rata-rata pesan biner
diperlukan untuk mengirimkan nilai dari
entropi .Hal ini dikenal sebagai coding teorema (Shannon, 1948, Viterbi
dan Omura, 1979). Kembali ke kasus variabel kontinu, dilambangkan
dengan vektor x, Jika kita menyandikan nilai x untuk transmisi ke
penerima, maka kita harus (secara implisit maupun eksplisit) memilih q
distribusi (x) untuk membangun coding. Informasi diperlukan untuk
mengkodekan
nilai
dalam
distribusi
ini
hanya
ln
g(x).Jika
variabel x diambil dari p distribusi yang benar (x) maka informasi rata-rata
diperlukan untuk mengkodekan x diberikan oleh
Yang merupakan cross-entropyantara distribusi q (x) dan p (x).

Perbandingan dengan (2.68) menunjukkan bahwa sama dengan negatif log
kemungkinan di bawah model q distribusi (x) saat distribusi yang benar
adalah p (x). ). Hal ini juga sama dengan jumlah dari jarak Kullback-Leibler
antara p (x) dan q (x), yang diberikan oleh (2.70), dan sejak Dalam entropi
p (x) maka
60
Dari semua distribusi kemungkinan q (x), pilihan yang memberikan

informasi rata-rata terkecil, yaitu nilai terkecil untuk crossentropy tersebut,
adalah distribusi p benar (x) Karena entropi p (x) independen dari q
distribusi (x), kita lihat dari (6,182) yang meminimalkan silang entropi
setara dengan meminimalkan jarak Kullback-Leibler. Untuk variabel yang
yang mengambil seperangkat nilai diskrit a kita dapat menulis (6,181) di
Bentuk
Pertimbangkan pertama jaringan dengan output

model probabilitas untuk x milik kelas
Ck
y k (X )
yang sesuai
bahwa kami juga memiliki satu set variabel target
mewakili
menganggap
tk
mewakili
probabilitas. Kemudian ditarik secara independen dari distribusi umum,

informasi tersebut aditif dan karenanya total crossentropy menjadi
Untuk satu set titik data N yang dianggap ditarik secara independen
dari distribusi umum, informasi tersebut aditif dan karenanya total
crossentropy diberikan oleh persamaan :
yang dapat digunakan sebagai fungsi kesalahan untuk pelatihan jaringan.

Dilihat dari bentuk fungsi error berlaku tidak hanya ketika target
t nk
n
memiliki satu-of-c coding tetapi juga ketika mereka di kisaran 0 t k 1
untukkendala
untuk kendala
sesuai dengan probabilitas
keanggotaan kelas. Untuk dua kelas, kita dapat mempertimbangkan

61
jaringan dengan output y yang mewakili probabilitas model untuk

C1
keanggotaan kelas
dengan sesuai t probabilitas. Model probabilitas
untuk keanggotaan kelas
C2
dan 1 - y, dan probabilitas yang sesuai
adalah 1 - t. Mengikuti garis yang sama argument seperti di atas kita

kemudian tiba di fungsi error cross-entropy untuk dua kelas dan N titik
data dalam bentuk :
6.11 General conditions for outputs to be probabilities

Sejauh ini, kami telah mempertimbangkan tiga langkah kesalahan
yang berbeda (sum-of-squares, cross-entropy untuk satu output, dan
cross-entropyuntuk jaringan Softmax) yang semuanya memungkinkan
output jaringan yang akan ditafsirkan sebagai probabilitas. Oleh karena itu
ukuran kesalahan harus memenuhi agar jaringan output memiliki properti
ini. Diskusi yang diberikan di sini didasarkan pada bahwa Hampshire dan
Pearlmutter (1990). Semua langkah-langkah error yang kami sedang
mempertimbangkan mengambil bentuk penjumlahan kesalahan untuk
setiap pola
E=n E
error menjadi jumlah atas istilah untuk setiap unit
output yang terpisah. Hal ini terkait asumsi bahwa distribusi variabel target
yang berbeda statistik secara independen. Jadi kita menulis persamaan :
di mana f merupakan beberapa fungsi yang akan ditentukan selanjutnya.

Kita
juga
akan
perbedaan antara
mengasumsikan
yk
dan
tk
hanya
jadi
bergantung
f ( y nk ,t nk )=f (| y nk t nk|)
pada
besarnya
menjadi batas
62
dari kumpulan data tak terbatas, kita dapat menulis Rata-rata per-pola
kesalahan dalam benntuk
Jika kita menggunakan skema target 1-of-c coding, maka dari (6.99) kita
dapat menulis syarat distribusi variabel target dalam bentuk
Sekarang akan diganti (6,189) ke (6,188) dan dievaluasi fungsi integral

atas
tk
yang dimana variabel (hanya melibatkan integral dari 6-fungsi)
untuk memberikan :
di mana kita telah menggunakan

0 yk 1
k P ( Ck|x ) =1 dan diasumsikan bahwa
sehingga tanda-tanda modulus dapat dihilangkan. Kondisi yang
rata-rata per-pola memiliki kesalahan dalam gambar (6,190) minimal

hubungan dengan
y k (X )
diberikan dengan menetapkan turunan
fungsional (E) (Lampiran D) ke nol oleh persamaan :
Yang mana diberikan persamaan :
Jika output dari jaringan digunakan untuk mewakili probabilitas, sehingga

fungsi
y k (x)
=P( C k x ) harus memenuhi kondisi:
63
Sebuah kelas fungsi yang memenuhi kondisi ini diberikan persamaan :
Untuk r = 1 kita memperoleh
yang memberikan sum-of-squares
fungsi kesalahan. Demikian pula, untuk r = 0 kita memperoleh f(y) = ln(1-y)= - ln(1-|y|) yang menimbulkan untuk fungsi kesalahan crossentropi. Untuk melihat ini, pertimbangkan satu output dan catatan bahwa
f(y,t)= - ln(1-|y-t|)= - ln(y)if t = 1 dan f(y,t)= - ln(1-|y-t|)= - ln(1-y)
jika t=0
dimasukkan kedalam sebuah ekspresi tunggal sehingga
membentuk :
Menjumlahkan semua output, seperti dalam persamaan 6.187,

kemudian semua pola memberikan cross-entropy error untuk beberapa
atribut independen dalam bentuk persamaan 6.145.
Sebagai contoh dari error function yang tidak memuaskan pada
persamaan (6.193), mempertimbangkan pengukuran Minkowski-R error,
yang diberikan pada f (y) - y
. Mensubstitusi fungsi tersebut ke (6,193)
sehingga memberikan :
yang hanya bisa dilakukan jika R = 2, sesuai dengan persamaan sum-ofsquares error.
Untuk R 2, output dari jaringan tidak sesuai dengan probabilitas
posterior, ini merupakan fungsi diskriminan non-linear, sehingga diperoleh
kemungkinan minimum klasifkasi yang tidak sesuai dengan menetapkan
pola untuk kelas yang output jaringannya terbesar. Untuk melihat
64
pengganti f (y) -
ke kondisi (6,192) dengan output jaringan minimum
dari fungsi kesalahan, diberikan persamaan :
Dapat dilihat bahwa
yk
yk
hanya mewakili probabilitas posterior
ketika R = 2, sesuai dengan sum-of-squares error. Namun, penetapan

batasan-batasan rate-discriminant yang sesuai untuk minimum kesalahan
klasifkasi untuk semua nilai karena yk adalah fungsi monoton dari
probabilitas posterior P ( C k
| x).
65

Pengenalan Pola - Tugas Kelompok - Gabung

Diunggah oleh

Informasi Dokumen

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Pengenalan Pola - Tugas Kelompok - Gabung

Diunggah oleh

Hak Cipta:

Format Tersedia

6

p(x ,t) adalah menunjukkan kepadatan probabilitas t - x

mengambil nilai tertentu. Sedangkan

mewakili kepadatan tanpa

p(x) adalah nilai dari

Pada fungsi error , nilai

p(tx) digunakan untuk membuat prediksi

t untuk nilai nilai baru x :

Dimana kita asumsikan nilai () diambil secara independen dari

Dimana E adalah fungsi error.

Dengan E sebagai error kita dapat

meneruskan hal tersebut sebagai kerangka kerja untuk pemodelan

p (t |x ) . Pada persamaan 6.4 sebenarnya

tidak bergantung pada parameter jaringan, parameter jaringan adalah

Sebagai catatan , fungsi error mengambil total di atas kesalahan

Kita akan mengasumsikan bahwa distribusi target adalah dilakukan

diberikan nilai dari beberapa deterministic fungsi dari x

dengan menambahkan nilai Gaussian Noise e sehingga nilai

Sekarang kita asumsikan error e adalah normal distribusi dengan

Sekarang kita berusaha untuk menghubungkan fungsi

jaringan syaraf dengan output yk(x;w) dimana w adalah bobot untuk

menggunakan persamaan 6.7 dan 6.8 kita dapat melihat distirbusi

Di mana kita telah mengganti nilai fungsi tidak diketahui oleh

y k ( x ; w ) Secara bersamaan pada persamaan 6.6 dan 6.5

Untuk mengurangi penggunaan untuk meminimalkan error , aturan

menggunakan root-mean-square (RMS) dengan persamaan sebagai berikut

Dimana nilai t dapat dicari dengan cara :

6.1.1 Linear Output Units (Linear Output Unit)

dapat ditulis sebagai :

harus dibuat linear dimana

g ( a )=a , dan dapat ditulis dalam

Dan untuk pada pembahasan jaringan pemetaan dapat dituliskan

Dengan meminimalisasikan sum-of-squares error pada persamaan

Dan untuk mendapatkan nilai

dapat menggunakan cara :

Sehingga diperoleh cara untuk mencari nilai rata rata kuantitas :

Dimana beberapa nilai dapat dicari dengan cara :

Sekarang kita dapat meminimalisir error dengan menggunakan nilai

Dari persamaan 6.27 kita dapat mendapatkan persamaan notasi

adalah notasi untuk transpose dari matriks

dapat menulis nilai solusi matriks tersebut secara eksplisit dengan

Dimana nilai Z transpose adalah :

6.1.2 Linear sum-rules

menggunakan aturan penjumlahan untuk output jaringan tersebut (Lowe

Dimana u dan u0 adalah nilai konstanta. Dan sekarang , jika nilai

Sehingga nilai optimal untuk nilai bias yang diberikan pada

Sekarang nilai konsisten pada nilai scalar pada nilai

untuk sebuah pola input. Untuk mengoptimalkan nilai dapat menggunakan

Dan menggunakan aturan matriks transpose kita dapat mendapatkan

Dan pada sebelumnya kita menggunakan persmaan linear pada 6.32.

Outputs (Interpretasi Dari

Sekarang mendapatkan hasil dari factor

sum-of-squares error sebagai batas limit. Dapat menggunakan persamaan

Kemudian mensubstitusikan nilai 6.44 kedalam 6.40 dan membuat

Karena integral pertama pada persamaan 6.45 adalah non negative ,

w adalah nilai vector minimal dari fungsi error. Persamaan

Outer Product Approximasi dari Hessian (Pendekatan

Produk Luar Untuk Hessian)

Dengan menggunakan hasil dari nilai 6.46 bahwa output

jaringan dilatih mewakili data dengan menggunakan syarat rata rata

6.1.4 Pendekatan Produk Luar Untuk Hessian

yang tepat untuk

Gunakan hasil dari (6.46). bahwa hasil dari jaringan terlatih

6.1.5. Inverse Problems (Masalah Invers)