ERROR FUNCTION
(Fungsi Error)
Gambaran Umum
Sebagai pengingat pada bab sebelumnya - Tujuan utama dalam
training network adalah tidak menghafal data training, tetapi untuk
melakukan generasi data dasar. Sehingga memungkinkan kita untuk
memprediksi data terbaik untuk untuk output vektor t - dan nilai tersebut
akan dilatuh selanjutnya untuk nilai baru sebagai input vektor x.
Deskripsi paling umum untuk generator data adalah kepadatan data
dengan probabilitas p (x,t)
Untuk masalah prediksi asosiatif dari jenis yang kita pertimbangkan Dapat menguraikan kepadatan probabilitas gabungan hasil dari :
- Kerapatan bersyarat dari data target
- Input data
- Kepadatan tanpa syarat input data , sehingga :
Dimana
p( x)
tk
t k adalah
ek
adalah
hk (x ) dengan
yang
mengatur
pemetaan
jaringan
syaraf.
Dengan
hk (x )
menjadi awal untuk expressi yang diikuti fungsi error sebagai berikut :
Akan
tetapi
untuk
jaringan
pengujian
akan
lebih
mudah
Dimana g adalah fungsi untuk aktivasi untuk unit output , wkj adalah
sebagai nilai yang terhubung langsung dengan output unit , dan w adalah
nilai dari sum-of-squares (6.11) dengan focus terhadap nilai
ak
yang
Jika kita memilih untuk melakukan fungsi aktivasi pada unit output ,
maka
bentuk :
wk 0
Pada hasil 6.23 kita medapatkan bahwa peran bias adalah untuk
menggantika perbedaan antara nilai rata- rata dari nilai target dan jumlah
dari rata rata output. Jika kita ganti kembali expresi 6.23 ke dalam sumof-squares error kita mendapatkan persamaan :
Dimana
ZT
Z Kita
menggunakan
fungsi
error
sum-of-squares
untuk
menentukan nilai pada jaringan dengan unit unit output linear dapat
6
Nilai output tersebut diberikan nilai dari persamaan 6.21 yang dapat
ditulis dengan notasi vector melalui persamaan sebagai berikut :
dan vector ,
6.1.3 Interpretation
of
Network
Output Networks)
Sekarang menafsirkan atau menterjemahkan output dari jaringan
yang dilatih dengan meminimalkan nilai fungsi error. Secara khusus ,
output perkiraan rata- rata bersyarat dari data yang diinginkan. Secara
tidak langsung ini menghasilkan nilai untuk aplikasi jaringan syaraf.
Dengan melihat nilai ukuran dari N dan kumpulan data training.
Ukuran tersebut adalah nilai batas untuk pola dalam nilai sum-squareserror dengan integral dalam bentuk persamaan sebagai berikut :
1
N yang merupakan bagian dari
Gambar 6.1
Dimana
6.46 adalah contoh bahwa network mapping diberikan oleh nilai syarat
rata rata dari nilai yang akan dicari , dengan kata lain dengan regresi
nilai TFC dikondisikan. Hasil tersebut dapat digambarkan oleh gambar 6.1
dan contoh sederhana 6.2
Gambar 6.2
Pada gambar 6.2 terlihat pemetaan jaringan dimana nilai rata rata
dari target adalah diambil dari nilai
( 2 phi x )+ e
t =x+ 0.3 sin dimana e adalah random
dari distribusi nilai (-0.1 , 0.1). Bentuk solid pada gambar diambil dari nilai
multi-layer perceptron network dengan nilai sum-of-squares-error yang
memberikan nilai representasi yang bagus.
Kita dapat mudah melihat nilai minimum sum-of-squares error telah
diberikan dari nilai rata rata dari nilai target seperti pada persamaan
berikut :
Dimana a dan b adalah nilai constant. Differensiasi dari E(y) dapat dilihat
dari nilai minimum y pada persamaan berikut :
10
6.1.4
yk x dari
12
Sebuah
ilustrasi
sederhana
dari
masalah
ini,
solusi
dengan
deskripsi
yang
tidak
baik
sebagi
pembangkit
data.
13
Dimana
adalah
parameter
fungsi
gamma
(didefnisikan
pada
halaman
28),
Gambar 6.4 adalah plot dari fungsi |y-r|R terhadap |y-t| untuk
berbagai nilai R. Fungsi ini membentuk dasar untuk mengukur defnisi
Minkowski-R
error.
Disebut
minkowski-R
error.
Untuk
mengurangi
15
itu
rancu
16
yang dipenuhi ketika y merupakan median dari titik {tn} (yaitu nilai yang
jumlah titiknya sama dengan
bentuk nilai kurang dari y) jika salah satu dari tn diambil untuk beberapa
nilai yang sangat besar, hal ini tidak berpengaruh pada solusi yang ke y.
6.3. Input-Dependent Variance (Ketergantungan Masukan Varian)
Sejauh ini telah diasumsikan bahwa varians dari data target dapat
digambarkan oleh satu parameter global. Dalam banyak aplikasi praktis,
ini akan menjadi asumsi yang tidak baik, dan sekarang dibahas model
yang lebih umum untuk data target distribusi. Secara umum, mungkin
untuk menentukan bagaimana varians data tergantung pada vektor input x
(Nix dan Weigend, 1994). al ini dapat dilakukan dengan mengadopsi
17
gambaran yang lebih umum untukdistribusi bersyarat dari data target, dan
kemudian menuliskan kemungkinan log negatifuntuk mendapatkan fungsi
kesalahan yang sesuai. Dengan demikian, dapat ditulis Distribusi bersyarat
dari variabel target dalam bentuk
dalam bentuk :
dengan rata-rata bersyarat dari data target. Rata-rata ini dikurangkan dari
nilai target dan hasilnya kemudian kuadrat dan digunakan sebagai target
untuk jaringan kedua yang juga dilatih menggunakan sejumlah fungsi
kuadrat kesalahan. Output dari jaringan ini kemudian mewakili rata-rata
bersyarat {tk - (tk \ x)} 2dan sehingga mendekati varians er | (x) yang
diberikan oleh (6.55).
Prosedur ini dapat dibenarkan secara langsung sebagai berikut. jika
dianggap bahwa fungsi 2 / jt (x) dan o> (x) fleksibilitas tak terbatas maka
pertama-tama meminimalkan E sehubungan dengan Yk oleh fungsi
diferensiasi diberikan
berguna, ini akan menjadi miskin asumsi, dan kita sekarang membahas
model yang lebih umum untuk distribusi target data .The sum-of-squares
kesalahan dengan mudah diperluas untuk memungkinkan setiap output
dijelaskan oleh perbedaan parameter
dan
kemudian
menuliskan
log
negatif-kemungkinan
untuk
dalam bentuk :
Fungsi k (X) dapat dimodelkan dengan menambahkan output lebih
lanjut untuk jaringan saraf.kita tidak akan mempertimbangkan pendekatan
ini lebih lanjut, karena merupakan kasus khusus dari teknik ini jauh lebih
20
t nk
target .suatu
output dari jaringan ini, ketika disajikan dengan input data latih vektor x
pangkat n, sesuai dengan syarat rata-rata dari target data .rata-rata ini
dikurangi dari nilai target dan hasilnya kemudian dikuadratkan dan
digunakan
sebagai
target
untuk
jaringan
kedua
yang
juga
dilatih
ini
dapat
dibenarkan
secara
langsung
sebagai
21
mana
kita
telah
menggunakan
rumus
(6.67)
.Kami
kemudian
di
menggunakan
atas.Layanan
jaringan
saraf
teknik
sederhana
software
standar.
dan
dapat
dibuat
keterbatasan
utama
Modelling
Conditional
Distributions
(Pemodelan
distribusi bersyarat)
Berhubungan dengan pemodelan distribusi bersyarat dari target data
dalam hal distribusi Gaussian dengan varians parameter global dan mean.
Akan tetapi tergantung x, jika data memiliki struktur yang kompleks,
seperti misalnya pada Gambar 6.3, maka pilihan distribusi tertentu dapat
menyebabkan representasi yang sangat miskin dari data. Oleh karena itu
kami mencari kerangka umum untuk pemodelan distribusi probabilitas
bersyarat.
Gambar 6.6. dapat mewakili massa jenis probabilitas bersyarat umum p (t |
x)
dengan mempertimbangkan model parametrik untuk distribusi t yang
parameternya
22
ditentukan oleh output dari jaringan saraf yang mengambil x sebagai input
vektor
Untuk pilihan yang berbeda dari model parametrik, kita memperoleh
representasi yang berbeda untuk contoh kepadatan.Untuk yang bersyarat,
model Gaussian tunggal untuk p (t \ 0) sesuai dengan prosedur yang
dijelaskan di atas dalam Bagian 6.3.kemungkinan lain adalah dengan
menggunakan kombinasi linear satu set tetap fungsi kernel.Didalam kasus
ini output dari jaringan mewakili koefsien dalam kombinasi linear (Bishop
dan Legleye, 1995), dan kita harus memastikan bahwa koefsien yang
positif
sama
dengan
satu
dalam
rangka
melestarikan
positif
dan
23
di
mana
adalah
jumlah
komponen,
atau
kernel,
di
komponen
j k, dan c adalah dimensi dari t. Dalam (6.71) kita telah mengasumsikan
bahwa komponen statistik output vektor independen yang ada di setiap
fungsi kernel, dan dapat dijelaskan oleh varians umum pangkat 2 j (X)
.asumsi secara langsung memperkenalkan matriks kovarians penuh untuk
setiap kernel Gaussian, dengan mengorbankan prinsip formal.Didalam
lebih kompleks, namun , komplikasi seperti itu tidak diperlukan, karena
campuran Model Gaussian, dengan kernel yang diberikan oleh (6.71),
dapat mendekati fungsi kepadatan diberikan sewenang-wenang kepada
akurasi, asalkan koefsien campuran dan parameter Gaussian (rata-rata
varians pasir) yang benar dipilih (McLachlan dan Basford, 1988). Dengan
demikian, representasi yang diberikan oleh (6.70) dan (6.71) benar-benar
general.Didalam hal-hal tertentu, tidak menganggap bahwa komponen t
secara
statistik
independen,
berbeda
dengan
representasi
tunggal
Gaussian yang digunakan dalam (6.6) dan (6.9) untuk menurunkan sumof-square error
24
mempertimbangkan
lapisan
multiperceptron
dengan
lapisan
tersembunyi tunggal unit sigmoidal dan lapisan output unit linier. Untuk
komponen M dalam model campuran (6.70), jaringan akan memiliki output
M dilambangkan dengan z pangkat j yang menentukan koefsien
pencampuran, output M dilambangkan dengan z pangkat j yang
menentukan Lebar kernel j, dan keluaran/output (M x c) dilambangkan
oleh z pangkat j k yang menentukan komponen j k dari pusat kernel
j. Jumlah output jaringan diberikan oleh (c + 2) x M, dibandingkan dengan
output c biasa untuk jaringan digunakan dengan sum-of-square(kuadrat
total)kesalahan fungsi.
Untuk memastikan bahwa
dan
lagi
gagasan
non
informatif
sebelum
(Latihan
10.12)
26
adalah
satu
untuk
mempertimbangkan derivatif
masing-masing
nk = En / k
pola,
kita
dapat
27
lapisan multilayer perceptron dengan lima 'tanh' unit sigmoid pada lapisan
tersembunyi, dan sembilan output. Salah satu contoh penerapan teknik ini
untuk estimasi kepadatan bersyarat diberikan pada Gambar 6.7, yang
menunjukkan kerapatan kontur bersyarat yang sesuai dengan kumpulan
data yang ditunjukkan pada Gambar 6.3.
28
Output
dari
jaringan
saraf,
dan
karenanya
parameter
dalam
campuran
fungsi
untuk
target data bersyarat untuk setiap nilai yang diberikan dari vektor input.
Kondisi ini density merupakan deskripsi lengkap tentang generator data,
sejauh masalah memprediksi nilai vektor output yang bersangkutan.
Gambar 6.8. Plot dari prior j (x) sebagai fungsi dari x untuk fungsi
tiga kernel dari jaringan yang digunakan untuk merencanakan Gambar 6.7.
Pada kedua nilai kecil dan besar x, di mana kepadatan probabilitas
bersyarat dari data target unimodal, hanya satu dari kernel memiliki
29
sebagai kasus khusus. Kami juga dapat mengevaluasi varians dari fungsi
yang
sesuai
dengan
kuadrat-hasil
karena
varians
ini
30
j ( t|x ) dt =1
setiap
komponen
model
campuran
dinormalkan,
31
sebagai
fungsi
kasus ini fungsi kernel sendiri periodik, sehingga memastikan bahwa fungsi
kepadatan keseluruhan akan periodik. Untuk memotivasi pendekatan ini,
mempertimbangkan masalah pemodelan distribusi vektor kecepatan v
dalam dua dimensi. Karena v tinggal di pesawat Euclidean, kita dapat
model fungsi kepadatan p (v) menggunakan campuran kernel Gaussian
bola konvensional, di mana masing-masing kernel memiliki bentuk :
distribusi sudut polar 9 dari vektor v, diberi nilai t; = || V ||. Hal ini mudah
dilakukan dengan transformasi v = v cos , vy = v sin , dan
mendefnisikan 0 menjadi sudut kutub ,, sehingga x = cos 0 dan
y = sin 0, di mana = | | ||. Hal ini menyebabkan distribusi dapat
ditulis dalam bentuk :
di
mana
koefsien
normalisasi
telah
dinyatakan
dalam
zerothorder
kepadatan
bersyarat
dari
variabel
periodik
dengan
lagi
ditemukan
dengan
memaksimalkan
kemungkinan
fungsi
satu
contoh
penerapan
teknik
ini
untuk
penentuan
arah angin dari data satelit radar scatterometer diberikan di Bishop dan
Legleye (1995). Ini adalah masalah terbalik di mana data multitarget
dihargai. Untuk masalah yang melibatkan variabel periodik dimana data
target
efektif bernilai tunggal sehubungan dengan vektor input, maka kernel
melingkar yang normal tunggal dapat digunakan.
6.5.
Estimating
posterior
probabilities
(Memperkirakan
probabilitas posterior)
33
Saat ini kita akan membahas pertimbangan fungsi error untuk masalah
klasifkasi dimana variabel sasaran mewakili kelas diskrit label.
Ketika kita menggunakan neural network untuk memecahkan masalah
klasifkasi, ada dua cara yang berbeda. Pertama, kita dapat mengatur
jaringan untuk mewakili diskriminan non-linear fungsi. Kedua yang lebih
umum adalah dengan menggunakan jaringan untuk model probabilitas
posterior keanggotaan kelas. Biasanya ada satu unit output untuk setiap
kemungkinan kelas, dan aktivasi setiap unit output yang mewakili posterior
sesuai probabilitas P(Ck|x), di mana Ck adalah kelas kth, dan x adalah
vektor input. Probabilitas ini kemudian dapat digunakan dalam tahap
pengambilan keputusan selanjutnya yaitu klasifkasi.
Dengan
mengatur
output
jaringan
untuk
perkiraan
probabilitas
posterior , kita dapat memanfaatkan sejumlah hasil yang tidak tersedia jika
jaringan yang digunakan hanya sebagai diskriminan non - linear ( Richard
dan Lippmann , 1991) . ini meliputi :
diserahkan
kepada
kelas
yang
memiliki
probabilitas
Output berjumlah 1
Karena perkiraan jaringan output probabilitas posterior mereka
harus berjumlah kesatuan. Rata-rata dari setiap output jaringan melalui
semua pola dalam training set harus mendekati probabilitas yang
sesuai dengan kelas sebelumnya.
34
pemodelan
probabilitas
posterior
akurat
Richard
dan
Lippmann , 1991) .
35
asumsi
independen.
bahwa
Karena
vektor
scaling
masukan
Faktor
untuk
berbagai
independen
kelas,
jaringan
classifer
minimal risiko
Sebagaimana dibahas dalam Bab 1, tujuan dari sistem klasifkasi
tidak mungkin selalu untuk meminimalkan kemungkinan kesalahan
klasifkasi. kesalahan klasifkasi berbeda dapat membawa hukum yang
berbeda, dan kita mungkin ingin untuk meminimalkan kerugian atau
resiko
secara
keseluruhan.
Sekali
lagi
aplikasi
skrining
medis
36
6.6
Sum-of-squares
for
classification
(Sum-of-squares
untuk
klasifikasi)
Pada bagian sebelumnya kita menunjukkan bahwa, untuk jaringan
dilatih dengan meminimalkan suatu sum-of-squares kesalahan fungsi,
output jaringan mendekati rata-rata bersyarat dari data target
t nk .
Target tersebut dapat dipilih sesuai dengan berbagai skema, tetapi yang
paling nyaman adalah 1-of-c coding dimana, untuk vektor masukan x n dari
kelas Ci, kita memiliki
37
Didalam huruf target nilai-nilai yang diketahui secara tepat dan fungsi
kepadatan target ruang menjadi tunggal dan dapat ditulis sebagai
karena P(Cl|x) adalah probabilitas bahwa x milik kelas Cl. Jika sekarang kita
mengganti (6.99) ke dalam (6.98) kita memperoleh
Interpretation
of
hidden
units
(Interpretasi
unit
tersembunyi)
Dalam Bagian 6.1.1 menggunakan ekspresi (6.29) untuk bobot
akhir-lapisan
yang
meminimalkan
kesalahan
sum-of-squares,
untuk
dan komponen
diartikan sebagai total matriks kovarians untuk aktivasi pada output dari
lapisan akhir unit tersembunyi sehubungan dengan kumpulan data
pelatihan. Demikian SB pada (6.105) di dapatkan :
yang dapat diartikan (seperti yang akan kita lihat) sebagai bentuk antara
kelas kovarians matriks.
Pada (6.105) hanya tergantung pada Target data yang independen
dari bobot tersisa
~
w
S1
T
S T . Kriteria (6.108)
Wawasan
lebih
lanjut
ke
sifat
SB
matriks
diperoleh
dengan
matriks
menggunakan faktor
yang
2
Nk
diperkenalkan
pada
Bagian
3.6
dengan
merupakan bobot yang kuat dari kriteria ekstraksi ftur mendukung kelas
dengan jumlah yang lebih besar dari pola. Jika ada perbedaan yang
signifkan antara probabilitas sebelumnya untuk pelatihan dan set data uji,
maka efek ini mungkin tidak diinginkan, dan kita akan melihat bagaimana
memperbaiki itu dengan memodifkasi ukuran kesalahan sum-of-squares.
Secara umum, tidak ada cara untuk memutuskan mana yang akan
menghasilkan hasil terbaik. Untuk masalah dua kelas, antara kelas matriks
kovarians yang diberikan dalam (6,109) berbeda dari konvensional satu
hanya dengan konstan perkalian, sehingga dalam hal ini Kriteria jaringan
setara dengan ekspresi Fisher asli.
6.6.2 Weight sum-of-squares ( Bobot sum-of-squares)
Kita telah melihat bahwa, untuk jaringan dengan unit-unit output
linier, minimalisasi dari
41
kesalahan
klasifkasi,
sehingga
kerugian
matriks
perlu
dipertimbangkan. Ini telah diusulkan (Lowe dan Webb, 1990, 1991) bahwa
modifkasi bentuk sum-of-squares error untuk memperhitungkan matriks
kerugian.
Untuk menghadapi kemungkinan sebelum berbeda antara set pelatihan
dan Uji set, Lowe dan Webb (1990) memodifkasi sum-of-squares error
dengan memperkenalkan kn faktor bobot untuk setiap pola n sehingga
fungsi error menjadi
~
P (Ck) adalah probabilitas prior kelas Ck
untuk data uji, dan Pk = Nk|N adalah sesuai (sampel estimasi) probabilitas
prior untuk pelatihan Data. Hal ini mudah untuk menunjukkan (Latihan
6.12) bahwa total kovarians matriks ST kemudian menjadi
42
~
P (Ck). Dalam (6.114)
diberikan oleh
yang akan
~
P (Ck). Demikian pula,
~
P (Ck).
tk
kelas Cl untuk kelas Ck. Total matriks kovariansi tidak berubah, sedangkan
kelas antara matriks kovarians menjadi (Latihan 6.13)
for
two
dengan P(C2|x) = 1-y. Hal ini dapat dicapai jika memiliki target coding
dimana untuk t=1 jika vector input adalah milik class C1 dan t=0 jika
termasuk ke kelas C2. Hal ini dapat diekspresikan kedalam suatu ekspresi
tunggal, Sehingga kemungkinan nilai target nya adalah sebagai berikut :
kasus khusus dari distribusi binomial disebut sebagai distribusi Bernoulli.
Dengan interpretasinya terhadap unit keluaran aktivasi, kemungkinan
mengamati kumpulan data pelatihan, mengasumsikan titik data diambil
secara independen dari distribusi ini, representasi nilainya digambarkan
sebagai berikut :
Dan akan lebih mudah untuk meminimalkan logaritma negatif dari sebuah
kemungkinan. Hal ini menyebabkan kesalahan fungsi lintas entropi (cross-
44
Penggabungan
Antara
persamaan
dengan
6.121
dan
6.124
memperlihatkan sebuah turunan yang berkaitan dengan a sehingga
bentuknya menjadi lebih sederhana seperti :
Skema koding 1-of-C ini menghilang. Namun, error function pada bagian
6.120 tepat digunakan ketika tn adalah variabel kontinyu yang berkisar
antara (0,1) merepresentasikan kemungkinan dari vector input xn yang
termasuk kedalam kelas C1. Dalam hal ini
nilai minimum (pada
persamaan 6.126) tidak perlu menghilang dan ini sangat cocok untuk
46
47
48
sebagai berkut :
sehingga fungsi kesalahan tergantung pada kesalahan relatif dari
output jaringan. Hal ini harus dibandingkan dengan fungsi sum-of-square
(jumlah kuadrat) error yang tergantung pada (kuadrat) kesalahan mutlak.
Meminimalisasi cross-entropy error function karena cenderung
akan
mengakibatkan kesalahan yang relatif sama pada kedua nilai dari target
kecil dan besar. Sebaliknya, sum-of-square error functions cenderung
memberikan kesalahan mutlak yang sama untuk setiap pola, oleh karena
itu akan memberikan kesalahan yang relatif besar untuk nilai output yang
kecil. Hal ini menunjukkan bahwa cross-entropy error functions cenderung
lebih baik daripada sum-of-square (jumlah kuadrat) dalam memperkirakan
probabilitas kecil.
49
Untuk target biner, dengan tn=1 untuk sebuah inputan vector xn dari kelas
C1 dan tn=0 untuk inputan vector dari kelas C2 , dan persamaan crossentropy error functionnya dapat ditulis dalam bentuk :
bentuk:
Karena fungsi jaringan y(x)
50
Jika diatur turunan fungsional pada persamaan 6.138 terhadap fungsi y(x)
= 0 maka dapat ditentukan bahwa minimal error function terjadi ketika :
Jadi seperti sum-of-square error, output dari jaringannya mendekati ratarata bersyarat dari data target untuk vektor masukan yang diberikan.
Untuk target skema pengkodeannya telah dituliskan :
Dengan mensubstitusi persamaan 6.141 kedalam 6.139 ditemukan :
6.8
Multiple
independent
attributes
(Beberapa
Atribut
Independen)
Dari semua pengklasifkasian masalah yang telah dibahas sejauh ini,
telah ditetapkan vector baru ke salah satu c (c adalah sebuah kelas yang
saling terpisah dari yang lain (eksklusif)). Namun, dalam beberapa aplikasi
diharapkan dapat menggunakan jaringan untuk menentukan probabilitas
ada atau tidaknya sejumlah atribut yang tidak perlu saling terpisah dengan
yang lain. Dalam hal ini, jaringan ini memiliki multiple output dan nilai dari
output variabel yk merepresentasikan probabilitas adanya kemunculan
atribut kth. Jika atribut diperlakukan secara independen, maka distribusi
dari nilai target akan memuaskan.
51
Dengan pilihan dari error function ini, output dari jaringan masing-masing
harus memiliki fungsi sigmoid logistic dalam bentuk persamaan 6.123.
Sekali lagi, untuk variabel target dalam bentuk biner
t nk
error function-
n
nya menghilang pada nilainya minimum. Jika kisaran probabilitas t k
= 0.
6.9 Cross-entropy
beberapa kelas)
for
multiple
52
tk
untuk setiap kelas, dan yang mana target data mempunyai skema
t nk
kl
tk
kl
diberikan
y nk
t nk
yang akan dibahas selanjutnya). Hal ini akan memudahkan untuk melepas
nilai minimumnya, sehingga dapat diperoleh error function dalam bentuk :
Yang mana persamaan ini merupakan non-negatif, dan akan sama dengan
n
n
nol jika y k = t k untuk semua nilai k dan n.
Sekarang akan dipertimbangkan fungsi aktivasi yang sesuai yang harus
digunakan untuk unit-unit output dari jaringan. Jika nilai-nilai output yang
. Fungsi aktivasi
Dimana nilai
Ak
diperoleh dari :
54
Ck
:
Mensubstitusi persamaan 6.154 kedalam persamaan 6.155 sehingga
diperoleh :
Sehingga dapat didefnisikan bahwa :
Hasil dari persamaan 6,156 merupakan lapisan akhir dari jaringan dengan
fungsi aktivasi Softmax, dan menunjukkan bahwa output dapat diartikan
sebagai probabilitas keanggotaan kelas, dikondisikan pada output dari unit
tersembunyi.
Dalam mengevaluasi turunan dari fungsi kesalahan Softmax, perlu
mempertimbangkan masukan untuk semua unit output, jadi : (untuk pola
n)
55
Ini merupakan hasil yang sama yang ditemukan pada kedua sum-of-square
error (dengan fungsi aktivasi linear) dan two-class entropy-error (dengan
fungsi aktivasi logistik). Sekali lagi, dapat ditemukan bahwa terdapat
pasangan alami dari error function dan fungsi aktivasi.
6.10 Entropi
Konsep entropi sebenarnya di kembangkan oleh para ahli fsika
dalam konteks keseimbangan dari termodinamika dan dikembangkan
kembali melalui mekanik statistik. Teori ini sudah diperkenalkan kedalam
teori informasi oleh Shannon (1948). Disini kita memahami dua fungsi
yang berbeda yaitu p(x) untuk salah satu variable x. hal ini sama dengan
masa jenis sebagai histogram yang dimana x-axis telah terbagi
dalam
sehingga bin yang mengandung objek Ni,. Karena ada N cara menentukan
56
objek yang pertama, (N-1) cara menentukan objek yang kedua, dan
seterusnya, itulah total dari N begitulah cara menentukan Objek N.
Penyusunan ulang angkanya dalam menghitung jumlah
objek berbeda,
Pada gambar 6.13 pada sempel dua gaussian fungsi dengan varians
parameter a = 0,4 dan = 0,08, masing-masing berisi
57
diamana
terbatas
bahwa
x=( x 1 ,... x d )T
Memperkenalkan
Lagrange
1 , 2 dan
(Lampiran
C)
untuk
masing-masing
kendala, dapat kita menggunakan kalkulus variasi (Lampiran D) untuk
memaksimalkan fungsi
58
Kami
berharap
bahwa
informasi
akan
tergantung
pada
jika informasi A
tidak
mempengaruhi
informasi
yang
dihasilkan
dari
)= 2S ( p)
1/N N
dengan
M /N
S( p
p
)= ( 1/ N )
N s
)=
dan
perpanjangan
)=(M/N)S(P) Ini berarti bahwa S( P
Maka persamaan :
k P( k )
Jika pengirim
ingin mengirimkan nilai ke penerima, maka jumlah informasi (dalam bit) ini
adalah
lnp( k )
entropi .Hal ini dikenal sebagai coding teorema (Shannon, 1948, Viterbi
dan Omura, 1979). Kembali ke kasus variabel kontinu, dilambangkan
dengan vektor x, Jika kita menyandikan nilai x untuk transmisi ke
penerima, maka kita harus (secara implisit maupun eksplisit) memilih q
distribusi (x) untuk membangun coding. Informasi diperlukan untuk
mengkodekan
nilai
dalam
distribusi
ini
hanya
ln
g(x).Jika
variabel x diambil dari p distribusi yang benar (x) maka informasi rata-rata
diperlukan untuk mengkodekan x diberikan oleh
60
Ck
y k (X )
yang sesuai
mewakili
menganggap
tk
mewakili
Untuk satu set titik data N yang dianggap ditarik secara independen
dari distribusi umum, informasi tersebut aditif dan karenanya total
crossentropy diberikan oleh persamaan :
t nk
n
memiliki satu-of-c coding tetapi juga ketika mereka di kisaran 0 t k 1
untukkendala
untuk kendala
keanggotaan kelas
C2
E=n E
output yang terpisah. Hal ini terkait asumsi bahwa distribusi variabel target
yang berbeda statistik secara independen. Jadi kita menulis persamaan :
juga
akan
perbedaan antara
mengasumsikan
yk
dan
tk
hanya
jadi
bergantung
f ( y nk ,t nk )=f (| y nk t nk|)
pada
besarnya
menjadi batas
62
dari kumpulan data tak terbatas, kita dapat menulis Rata-rata per-pola
kesalahan dalam benntuk
Jika kita menggunakan skema target 1-of-c coding, maka dari (6.99) kita
dapat menulis syarat distribusi variabel target dalam bentuk
tk
untuk memberikan :
y k (X )
63
fungsi kesalahan. Demikian pula, untuk r = 0 kita memperoleh f(y) = ln(1-y)= - ln(1-|y|) yang menimbulkan untuk fungsi kesalahan crossentropi. Untuk melihat ini, pertimbangkan satu output dan catatan bahwa
f(y,t)= - ln(1-|y-t|)= - ln(y)if t = 1 dan f(y,t)= - ln(1-|y-t|)= - ln(1-y)
jika t=0
membentuk :
sehingga memberikan :
yang hanya bisa dilakukan jika R = 2, sesuai dengan persamaan sum-ofsquares error.
Untuk R 2, output dari jaringan tidak sesuai dengan probabilitas
posterior, ini merupakan fungsi diskriminan non-linear, sehingga diperoleh
kemungkinan minimum klasifkasi yang tidak sesuai dengan menetapkan
pola untuk kelas yang output jaringannya terbesar. Untuk melihat
64
pengganti f (y) -
yk
yk
| x).
65