Anda di halaman 1dari 34

.

Sieci wielowarstwowe
Igor T. Podolak
Uniwersytet Jagielloski w Krakowie

26 luty 2014

1
Igor T. Podolak, WMiI UJ

igor.podolak@uj.edu.pl

sieci wielowarstwowe

/32

1/32

Wielo-warstwowy perceptron
funkcje aktywacji

1. kady neuron zawiera nieliniow rniczkowaln funkcj aktywacji


funkcja logistyczna

1
1 + exp(v)
exp(v)
(v) =
= (v)[1 (v)]
[1 + exp(v)]2
(v) =

pochodna ma najwysz warto w okolicach zera i wagi dla neuronw

osigajcych rednie wartoci s najwicej zmieniane

tangens hiperboliczny
(v) = tanh(v) =

1 exp(v)
1 + exp(v)

(v) = (1 tanh2 (v)) = [1 (v)][1 + (v)]


zwykle daje lepsze rezultaty od funkcji logistycznej

problemem jest czsto bardzo niska warto gradientu w stanach


wysycenia potrzebne modykacje celu
2
Igor T. Podolak, WMiI UJ

igor.podolak@uj.edu.pl

sieci wielowarstwowe

/32

2/32

Wielo-warstwowy perceptron
warstwy ukryte

1. sie zawiera warstwy ukryte


odpowiadaj zmiennym nie obserwowalnym w
modelach grafowych
podstawowym celem jest przeksztacenie problemu
do innej przestrzeni

out

perceptron rozwizuje tylko problemy separowalne

liniowo
neurony warstwy wyjciowej w dalszym cigu realizuj
jedynie liniowy podzia
przeksztacenie do innej przestrzeni daje nadziej, e
problem bdzie w niej separowalny
nie wiemy jednak nic o tym jakie powinny by wartoci
aktywacji warstw ukrytych std dugotrwae
problemy ze znalezieniem algorytmu uczenia
algorytm musi sam zdecydowa, ktre cechy (ang.
features) reprezentowa

due problemy z nauczaniem architektur z wieloma


warstwami ukrytymi
ostatnimi rozwizaniami jest podejcie deep learning
Igor T. Podolak, WMiI UJ

igor.podolak@uj.edu.pl

sieci wielowarstwowe

hid 2
.

hid 1

x1 x2 x3 x4

xn
3

/32

3/32

Wielo-warstwowy perceptron
nauczanie

1. dwie fazy algorytmu feed forward oraz wstecznej


propagacji bdu
2. uczenie on-line

E(w) = 12 j e2j (n) = 12 j [dj (n) yj (n)]2

przykady w losowej kolejnoci, std stochastyczne


przeszukiwanie przestrzeni rozwiza
pozwala na ledzenie drobnych zmian w danych, np.
gdy niestacjonarny proces generujcy
prosty w implementacji ale uniemoliwia
urwnoleglenie nauczania

3. uczenie epokami
zmiany parametrw po przedstawieniu wszystkich
przykadw
dokadna estymacja wektora gradientu funkcji kosztu
umoliwia urwnoleglenie ale pamicioerny

x1 x2 x3 x4

xn

4. uczenie maymi pakietami


4
Igor T. Podolak, WMiI UJ

igor.podolak@uj.edu.pl

sieci wielowarstwowe

/32

4/32

Wielo-warstwowy perceptron
algorytm wstecznej propagacji regua delta

wkj =

E vk
E
=
= k yj
wkj
vk wkj

1. jeli k jest neuronem wyjciowym, to sprawa jest prosta

2. a jeli neuron j jest ukryty


2.1 nie jest zdeniowane oczekiwane wyjcie, a std nie
mona obliczy wartoci bdu
2.2 zredeniujmy lokalny gradient j neuronu ukrytego

j =

E yj
E
=
(vj )
yj vj
yj j

x1 x2 x3 x4

xn
5

Igor T. Podolak, WMiI UJ

igor.podolak@uj.edu.pl

sieci wielowarstwowe

/32

5/32

Wielo-warstwowy perceptron
algorytm wstecznej propagacji regua delta

E
E vk
=
= k yj
wkj
vk wkj
E yk
E
k =
=
(vk )
yk vk
yk j

wkj =

j
1.

E
yj

jest sum po wszystkich neuronach wyjciowych

ek vk
[dk yk ]
E
=
ek
=
ek
yj
vk yj
vj
k
k
| {z } |
=

k (vk )

ek k (v)wkj =

j = j (vj )

wkj yj

yj
{z

wkj

k wkj

k wkj

x1 x2 x3 x4

xn
6

Igor T. Podolak, WMiI UJ

igor.podolak@uj.edu.pl

sieci wielowarstwowe

/32

6/32

Wielo-warstwowy perceptron
wspczynnik nauczania

E
E vk
=
= k yj
wkj
vk wkj

E yk
E
k =
=
j (vk )
j = j (vj )
k wkj
yk vk
yk

wkj =

j
1. metoda momentum

wji (n) = wji (n1)+j (n)yi (n) =

nt

E(t)
.
wji(t)

mae daje gadsz trajektori kosztem prdkoci


wiksze daje szybsze zmiany, ale czsto take oscylacje

dla zapewnienia zbienoci szeregu 0 || < 1


zgodny znak E/wji przyspiesza
przeciwny znak E/wji wytumia oscylacje
momentum przeciwdziaa utkniciu w pytkim minimum

Igor T. Podolak, WMiI UJ

igor.podolak@uj.edu.pl

sieci wielowarstwowe

x1 x2 x3 x4

xn
7

/32

7/32

Wielo-warstwowy perceptron
kryteria stopu

1. powierzchnia bdu ma wiele lokalnych minimw


2. Uznajemy, e algorytm wstecznej propagacji zbieg do minimum, jeli
euklidesowa norma wektora gradientu jest mniejsza od wystarczajco maego
progu

3. Uznajemy, e algorytm wstecznej propagacji dotar do minimum jeli


bezwzgldna warto zmiany redniego bdu kwadratowego pojedynczej
epoki jest mniejsza od wystarczajco maego progu

4. Po kadej epoce nauczania sie jest sprawdzana pod ktem jej zdolnoci
generalizacji. Moe by do tego wykorzystany oddzielny zbir przykadw nie
wykorzystywanych w nauczaniu. Nauczanie jest przerywane, jeli poziom
generalizacji jest wystarczajcy, albo poziom generalizacji przekroczy swoje
minimum.

8
Igor T. Podolak, WMiI UJ

igor.podolak@uj.edu.pl

sieci wielowarstwowe

/32

8/32

Wielo-warstwowy perceptron
rne heurystyki

1. stochastycznie czy epoka-po-epoce?


stochastyczne jest zwykle znacznie szybsze
optymalnym rozwizaniem s chyba tzw. minibatches

2. maksymalizacja informacji
najlepiej wybiera przykady niosce najwicej informacji, np. dajce
najwikszy bd czy maksymalnie rne od poprzednich
dobrym rozwizaniem jest randomizacja kolejnoci, take by kolejne
przykady nie naleay do tej samej klasy
innym rozwizaniem jest aktywne nauczanie (active learning)

3. wybr funkcji aktywacji


zwykle najlepszym wyborem jest funkcja nieparzysta (v) = (v), np.
(v) = a tanh(bv)
LeCun proponuje a = 1.7159 i b = 2/3
to daje (1) = 1, (1) = 1, (0) = ab = 1.1424

wartoci oczekiwane musz by w zakresie aktywacji


9
Igor T. Podolak, WMiI UJ

igor.podolak@uj.edu.pl

sieci wielowarstwowe

/32

9/32

Wielo-warstwowy perceptron
pomocne heurystyki

4. normalizacja wej
rednia wartoci wej powinny by bliskie zeru
gdyby wszystkie wejcia byy dodatnie, to wagi do warstwy ukrytej bd albo si

wszystkie zwiksza albo zmniejsza

wejcia powinny by zdekorelowane


skalowanie zdekorelowanych wej by kowariancje byy podobne dla
podobnej prdkoci nauczania
usunicie redniej dekorelacja wyrwnanie kowariancji

10
Igor T. Podolak, WMiI UJ

igor.podolak@uj.edu.pl

sieci wielowarstwowe

/32

10/32

Wielo-warstwowy perceptron
5. inicjalizacja wag pocztkowych

wysokie mog spowodowa saturacj neuronw i operacj w obszarach


gdzie lokalny gradient jest may powolne nauczanie
niskie powoduj prac w pocztku ukadu, ktry jest zwykle punktem
siodowym dla funkcji sigmoidalnych
niech y = E[yi ] = 0, y2 = E[(yi y )2 ] = 1
niech E[yi yk ] = 1, i = k oraz E[yi yk ] = 0, i = k
2
niech dla wag w = E[wji ] = 0 oraz w = E[(wji w )2 ] = E[wji
]
jaka bdzie rednia warto sumy vj

v = E[vj ] = E[
wji yi ] =
E[wji ]E[yi ] = 0
i

warto wariancji

]
[
v2 = E[(vj v )2 ] = E[vj2 ] = E
wji wjk yi yk
i

E[wji wjk ]E[E[yi yk ]] =

k
N

2
2
E[wji
] = N w

dla (v) = 1.7159 tanh((2/3)v) daje to wariancj wej w = N 1/2


Igor T. Podolak, WMiI UJ

igor.podolak@uj.edu.pl

sieci wielowarstwowe

11

/32

11/32

porwnywanie
model

.
bdy
aproksymacji
klasykacji

eksperymenty

walidacja
krzyowa

melody
bootstrap

funkcje . ryzyka
i kosztu

.
.

.
spojrzenie
statystyczne

dekompozycja
bdu

12
Igor T. Podolak, WMiI UJ

igor.podolak@uj.edu.pl

sieci wielowarstwowe

/32

12/32

Ryzyko i koszt

.
Denicja
.
Niech (x, y, f (x)) X Y Y bdzie trjk wektor wejciowy x,
odpowied y i predykcja f (x). Wtedy mapowanie
c : X Y Y [0, ) speniajce c(x, y, y) = 0 x y nazywamy
funkcj
kosztu (loss function).
.
.
Uwaga
.
Koszt jest ograniczony od dou, a std nigdy nie otrzymamy dodatkowego
zysku
za jak niezwyk predykcj.
.

13
Igor T. Podolak, WMiI UJ

igor.podolak@uj.edu.pl

sieci wielowarstwowe

/32

13/32

Klasykacja binarna

.
Denicja
.
Bd niepoprawnej klasykacji zlicza przypadki, gdy przykad jest klasykowany
niepoprawnie
{

c(x, y, f (x)) =

0,
1,

jeli f (x) = y
w przeciwnym przypadku

.
.
Uwaga
.
.Nie rozrnia midzy rnymi bdami typu false positive i false negative

14
Igor T. Podolak, WMiI UJ

igor.podolak@uj.edu.pl

sieci wielowarstwowe

/32

14/32

Klasykacja binarna
.
Denicja
.
Asymetryczny bd niepoprawnej klasykacji zlicza przypadki, gdy przykad jest
klasykowany niepoprawnie biorc pod uwag
{

c(x, y, f (x)) =

0,
c(x),

jeli f (x) = y
w przeciwnym przypadku

gdzie
c() moe by funkcj zalen od zadanego wejcia.
.
.
Uwaga
.
.A rozrnianie kamieni od diamentw?
.
Uwaga
.
Mona
uzaleni bd od oczekiwanej odpowiedzi.
.
15
Igor T. Podolak, WMiI UJ

igor.podolak@uj.edu.pl

sieci wielowarstwowe

/32

15/32

Soft margin
.
Denicja
.
Niech etykiet klasy bdzie okrelona przez sgn(f (x)). Bd typu soft margin
bierze pod uwag odlego od hiperpaszczyny rozdzielajcej
{

0,
jeli f (x) y
c(x, y, f (x)) = max(0, 1yf (x))
1 yf (x), w przeciwnym przypadku
.
.
Uwaga
.
Dla
. wygodnych oblicze brana jest pod uwag take kwadratowa posta.
.
Denicja
.
Bd
logistyczny deniujemy jako c(x, y, f (x)) = ln(1 + exp(yf (x)))
.

16
Igor T. Podolak, WMiI UJ

igor.podolak@uj.edu.pl

sieci wielowarstwowe

/32

16/32

Bd dla problemu regresji


.
Denicja
.
Bd
regresji c(x, y, f (x)) = c(f (x) y)
.
.
Denicja
.
Kwadratowy
bd regresji c(x, y, f (x)) = (f (x) y)2
.
.
Denicja
.
.Dla = (f (x) y)) bd regresji c() = max(|| , 0) = ||
.
Uwaga
.
.Taka denicja nie bierze pod uwag bdw mniejszych od .
.
Denicja
.
.Dla = 0 bd redukuje si do bdu 1 .
17
Igor T. Podolak, WMiI UJ

igor.podolak@uj.edu.pl

sieci wielowarstwowe

/32

17/32

Bd testowania
.
Denicja
.
Jeli poza zbiorem uczcy jest take dostpny zbir testujcy {x1 , . . . , xm }
dla ktrego bdziemy przewidywa y , to naszym celem jest minimalizacja
oczekiwanego bdu
m
1
Rtest [f ] =
c(x , y, f (x ))dP (y|x )
m i=1 Y

.
.
Denicja
.
[Oczekiwane ryzyko] Jeli nie ma wiedzy o przykadach testujcych, to celem
jest minimalizacja oczekiwanego bdu dla wszystkich moliwych zbiorw
przykadw

R[f ] = E[Rtest [f ]] = E[c(x, y, f (x))] =

X Y

c(x, y, f (x))dP (y|x)


18

Igor T. Podolak, WMiI UJ

igor.podolak@uj.edu.pl

sieci wielowarstwowe

/32

18/32

Ryzyko empiryczne
1. niestety wszystko co jest dostpne w trakcie nauczania to dane uczce
2. prawdziwy rozkad P (x, y) moemy aproksymowa

pemp (x, y) =

m
1
x (x)yi (y)
m i=1 i

.
Denicja
.
Ryzyko empiryczne deniujemy jako

Remp [f ] =
.

X Y

c(x, y, f (x))pemp (x, y)dxdy =

m
1
c(xi , yi , f (xi ))
m i=1

19
Igor T. Podolak, WMiI UJ

igor.podolak@uj.edu.pl

sieci wielowarstwowe

/32

19/32

Spojrzenie statystyczne
likelihood i log-likelihood

1. poza sam wartoci oczekiwan bdu (ryzykiem) E[c(x, y, f (x))]


interesuje nas take rozkad y przy danym x, tj. P (y|x)
2. moemy si wic stara znale f , ktra jest najbardziej
prawdopodobna, e generuje dane y na podstawie danych x
.
Denicja
.
Likelihood prbki (x1 , y1 ), . . . , (xm , ym ) dla zalenoci funkcyjnej f jest
dane przez
m

p({x1 , . . . , xm }, {y1 , . . . , ym }|f ) =


p(xi , yi |f ) =
p(yi |f, xi )p(xi )
i=1
i=1
.
3. p(xi ) s niezalene od f , jeli wemiemy ln to maksymalizacja likelihood
bdzie w problemach regresji rwnowana minimalizacji log-likelihood

L[f ] =

ln p(yi |f, xi )

i=1
20
Igor T. Podolak, WMiI UJ

igor.podolak@uj.edu.pl

sieci wielowarstwowe

/32

20/32

Model bdu a funkcja bdu


L[f ] =

ln p(yi |f, xi )

i=1

1. minimalizacja L[f ] i Remp [f ] wspzachodz jeli funkcj kosztu


wybierzemy zgodnie z c(x, y, f (x)) = ln p(y|x, f )
2. w problemach klasykacji interesuje nas modelowanie P (y|f (x)), gdzie
y jest etykiet ze skoczonego zbioru. Dla binarnego problemu
klasykacji mamy odpowiedni funkcj kosztu bdzie

1+y
1y
ln P (y = 1|f (x)) +
ln P (y = 1|f (x))
2
2
= ln P (y|f (x)) dla y {1, +1}

c(x, y, f (x)) =

3. to pokazuje zwizek zaoonego modelu bdu z funkcj kosztu (loss)


21
Igor T. Podolak, WMiI UJ

igor.podolak@uj.edu.pl

sieci wielowarstwowe

/32

21/32

Funkcja bdu a gsto rozkadu bdu


2.5

Gaussian
squared loss

2.0

2.0

1.5

1.5
c(x,y,f(x))

c(x,y,f(x))

2.5

1.0
0.5

Huber
Huber loss

1.0
0.5

0.0

0.0
3

(yf(x))

1 2

2
2
1
p(y f (x)) = exp( )
2
2

c(x, y, f (x)) =

(yf(x))

{
c(x, y, f (x)) =

1 2
2
|| 2

{
p(y f (x)) =

|| <
w.p.p.
2

)
exp( 2
exp( 2 ||)

|| <
w.p.p.
22

Igor T. Podolak, WMiI UJ

igor.podolak@uj.edu.pl

sieci wielowarstwowe

/32

22/32

Funkcja bdu a gsto rozkadu bdu


2.5

Laplacian
wart. bezwzgl.

2.0

2.0

1.5

1.5
c(x,y,f(x))

c(x,y,f(x))

2.5

1.0
0.5

rozklad
- insensitive

1.0
0.5

0.0

0.0
3

(yf(x))

c(x, y, f (x)) = ||
1
p(y f (x)) = exp(||)
2

(yf(x))

c(x, y, f (x)) = max(|| , 0)


p(y f (x)) =

exp( max(|| , 0)
2(1 + )

23
Igor T. Podolak, WMiI UJ

igor.podolak@uj.edu.pl

sieci wielowarstwowe

/32

23/32

Eksperymenty
1, 2, 3 i 5 neuronw
8

6
6

6
6

Igor T. Podolak, WMiI UJ

igor.podolak@uj.edu.pl

sieci wielowarstwowe

24

/32

24/32

Eksperymenty
7, 9, 12 i 16 neuronw
8

6
6

6
6

Igor T. Podolak, WMiI UJ

igor.podolak@uj.edu.pl

sieci wielowarstwowe

25

/32

25/32

Eksperymenty
21x9 oraz 17x11 neuronw
8

6
6

1. na pewno naley minimalizowa liczb parametrw


1.1 model prostszy jest szybszy i atwiejszy w nauczaniu
1.2 model z mniejsz liczb parametrw powinien dawa lepszy poziom
generalizacji
1.3 Brzytwa Ockhama (12851347) Entia non sunt multiplicanda praeter
necessitatem (Nie naley mnoy bytw ponad potrzeb)
26
Igor T. Podolak, WMiI UJ

igor.podolak@uj.edu.pl

sieci wielowarstwowe

/32

26/32

Eksperymenty
cele porwnywania modeli

1. bd nauczania to zwykle redni koszt klasykacji przykadw


1 N
i=1 c(x, y, f (x))
N
2. bd testowania albo generalizacji to oczekiwana warto koszt
klasykacji przykadw R[f ] = E[L(X, Y, f )], gdzie X , Y s losowane
z ich cznego rozkadu
3. w trakcie nauczania mamy dwa podstawowe cele
3.1 okrelenie jakoci dziaania rnych modeli tak, by mona byo wybra
najlepszy z nich,
3.2 po wyborze modelu, okrelenie jego bdu generalizacji na nowych danych

4. podzia zbioru danych


4.1 jeli mamy duo danych, najlepszym wyborem bdzie jego podzia na czci
4.1.1 trenujc do nauczania modelu,
4.1.2 walidujc do okrelania najlepszych meta-parametrw modelu,
4.1.3 testujc do okrelania bdu generalizacji
27
Igor T. Podolak, WMiI UJ

igor.podolak@uj.edu.pl

sieci wielowarstwowe

/32

27/32

Biasvariance decomposition
1. jeli przyjmiemy model Y = f (x) + , przy czym E[] = 0 oraz
V ar[] = 2 , to otrzymujemy rozkad bdu kwadratowego na proste
skadniki
Err(x0 ) = E[(Y f(x0 )2 |X = x0 ]

= E[(Y f (x0 ) + f (x0 ) f(x0 )2 |X = x0 ]


= 2 + E[(f (x0 ) f(x0 ))2 ]

gdzie f () jest funkcj aproksymowan, a f(x) = f(x; w) jest funkcj


sieci

28
Igor T. Podolak, WMiI UJ

igor.podolak@uj.edu.pl

sieci wielowarstwowe

/32

28/32

Biasvariance decomposition
1. jeli przyjmiemy model Y = f (x) + , przy czym E[] = 0 oraz
V ar[] = 2 , to otrzymujemy rozkad bdu kwadratowego na proste
skadniki
Err(x0 ) = E[(Y f(x0 )2 |X = x0 ]

= E[(Y f (x0 ) + f (x0 ) f(x0 )2 |X = x0 ]


= 2 + E[(f (x0 ) f(x0 ))2 ]

gdzie f () jest funkcj aproksymowan, a f(x) = f(x; w) jest funkcj


sieci
2. mona zauway, e f (x) = E[y|x]
f (x) f(x) = E[y|x] f(x)

= (E[y|x] Ef(x)) + (Ef(x) f(x))

28
Igor T. Podolak, WMiI UJ

igor.podolak@uj.edu.pl

sieci wielowarstwowe

/32

28/32

Biasvariance decomposition
1. jeli przyjmiemy model Y = f (x) + , przy czym E[] = 0 oraz
V ar[] = 2 , to otrzymujemy rozkad bdu kwadratowego na proste
skadniki
Err(x0 ) = E[(Y f(x0 )2 |X = x0 ]

= E[(Y f (x0 ) + f (x0 ) f(x0 )2 |X = x0 ]


= 2 + E[(f (x0 ) f(x0 ))2 ]

gdzie f () jest funkcj aproksymowan, a f(x) = f(x; w) jest funkcj


sieci
2. mona zauway, e f (x) = E[y|x]
f (x) f(x) = E[y|x] f(x)

= (E[y|x] Ef(x)) + (Ef(x) f(x))


3. obliczajc teraz E[(f (x) f(x))2 ] znajdujemy, e
E[(f (x) f(x))2 ] = Bias2 (w) + V ar(w)
28
Igor T. Podolak, WMiI UJ

igor.podolak@uj.edu.pl

sieci wielowarstwowe

/32

28/32

Bias-variance decomposition
Closest fit in population

1. MODEL SPACE to
obszar wszystkich
predykcji dla zaoonego
modelu
2. niebieskie koo to obszar
bdu z jakim widzimy
prawdziwe dane poprzez
zbir uczcy

Realization
Closest fit
Truth
Model bias
Estimation Bias

Shrunken fit

Estimation
Variance

RESTRICTED
MODEL SPACE

3. czarne kropki oznaczaj


znalezione rozwizania
4. te okrgi okrelaj
wariancj znalezionego
rozwizania

MODEL
SPACE

(za Hastie et al., The elements of statistical learning)

5 odlego midzy Truth a rozwizaniem okrela bias rozwizania wzgldem


prawdziwej funkcji
6. regularyzacja rozwizania spowoduje zmian i dodatkowy bias estymacji
Igor T. Podolak, WMiI UJ

igor.podolak@uj.edu.pl

sieci wielowarstwowe

29

/32

29/32

Walidacja krzyowa
1. potrzebujemy metody okrelania bdu generalizacji gdy danych jest
ograniczona ilo
2. algorytm walidacji krzyowej
2.1 podziel zbir przykadw uczcych na K czci; zwykle K = 10 lub 5
2.2 dla k = 1, . . . , K
2.2.1 zbuduj model fk na zbiorze uczcym bez czci k
2.2.2 oblicz bd generalizacji na czci k-tej

2.3 oblicz bd walidacji krzyowej CV =

1
N

i=1

L(xi , yi , f k(i) )

3. jeli K = N , to procedur nazywamy one-out-of-n


3.1 taki estymator jest nie zbiasowany
3.2 ma wysok wariancj, bo zbiory s bardzo podobne do caego zbioru

4. dla K = 5 wariancja jest niska, ale bias moe ju stanowi problem


5. zwykle K = 10 jest dobrym kompromisem

30
Igor T. Podolak, WMiI UJ

igor.podolak@uj.edu.pl

sieci wielowarstwowe

/32

30/32

Metody bootstrap

1. idea polega na losowaniu, z N -elementowego zbioru danych Z , ze


zwracaniem B (np. B = 100) zbiorw bootstrap
1.1 pojedyncze przykady wystpuj wielokrotnie we wszystkich zbiorach
1.2 prawdopodobiestwo, e i-ty przykad jest w zbiorze b

(
)N
1
P (i Z ) = 1 1
1 e1 0.632
N
b

2. z kadego zbioru obliczany jest jaki model (czy predykcja) S(Z b )


3. to pozwala przyblia lepiej pewne statystyki, np.
1 B
2
S(Z b )/B
Vd
ar[S(Z)] = B1
b=1 (S() S ) gdzie S =
b

31
Igor T. Podolak, WMiI UJ

igor.podolak@uj.edu.pl

sieci wielowarstwowe

/32

31/32

Bd ze zbiorw bootstrap
1.
d boot =
Err
1.1

N
B
1 1
L(xi , yi , fb (xi ))
B N b=1 i=1

P (i Z b ) 1 e1 0.632

1.2 zbiory b nakadaj si, wic estymacja bdu bdzie zbyt optymistyczna
1.3 klasykator binarny z rwn liczb przykadw w kadej klasie, z etykietami
niezalenymi od wej: oczekiwana warto 0.5 (1 0.632) = 0.184

2.
d
Err

(1)

1
1
L(xi , yi , fb (xi ))
N i=1 |C 1 |
1
bC

3.

d
Err

(.632)

d
= 0.368 err + 0.632 Err

(1)

gdzie err jest bdem na zbiorze uczcym


32
Igor T. Podolak, WMiI UJ

igor.podolak@uj.edu.pl

sieci wielowarstwowe

/32

32/32

Anda mungkin juga menyukai