Sn14 02 Multilayer

.
Sieci wielowarstwowe
Igor T. Podolak
Uniwersytet Jagielloski w Krakowie
26 luty 2014
1
Igor T. Podolak, WMiI UJ
igor.podolak@uj.edu.pl
sieci wielowarstwowe
/32
1/32
Wielo-warstwowy perceptron
funkcje aktywacji
1. kady neuron zawiera nieliniow rniczkowaln funkcj aktywacji

funkcja logistyczna
1
1 + exp(v)
exp(v)
(v) =
= (v)[1 (v)]
[1 + exp(v)]2
(v) =
pochodna ma najwysz warto w okolicach zera i wagi dla neuronw
osigajcych rednie wartoci s najwicej zmieniane
tangens hiperboliczny
(v) = tanh(v) =
1 exp(v)
1 + exp(v)
(v) = (1 tanh2 (v)) = [1 (v)][1 + (v)]

zwykle daje lepsze rezultaty od funkcji logistycznej
problemem jest czsto bardzo niska warto gradientu w stanach

wysycenia potrzebne modykacje celu
2
/32
2/32
warstwy ukryte
1. sie zawiera warstwy ukryte

odpowiadaj zmiennym nie obserwowalnym w
modelach grafowych
podstawowym celem jest przeksztacenie problemu
do innej przestrzeni
out
perceptron rozwizuje tylko problemy separowalne
liniowo
neurony warstwy wyjciowej w dalszym cigu realizuj
jedynie liniowy podzia
przeksztacenie do innej przestrzeni daje nadziej, e
problem bdzie w niej separowalny
nie wiemy jednak nic o tym jakie powinny by wartoci
aktywacji warstw ukrytych std dugotrwae
problemy ze znalezieniem algorytmu uczenia
algorytm musi sam zdecydowa, ktre cechy (ang.
features) reprezentowa
due problemy z nauczaniem architektur z wieloma

warstwami ukrytymi
ostatnimi rozwizaniami jest podejcie deep learning
hid 2
.
hid 1
x1 x2 x3 x4
xn
3
/32
3/32
nauczanie
1. dwie fazy algorytmu feed forward oraz wstecznej

propagacji bdu
2. uczenie on-line
E(w) = 12 j e2j (n) = 12 j [dj (n) yj (n)]2
przykady w losowej kolejnoci, std stochastyczne

przeszukiwanie przestrzeni rozwiza
pozwala na ledzenie drobnych zmian w danych, np.
gdy niestacjonarny proces generujcy
prosty w implementacji ale uniemoliwia
urwnoleglenie nauczania
3. uczenie epokami
zmiany parametrw po przedstawieniu wszystkich
przykadw
dokadna estymacja wektora gradientu funkcji kosztu
umoliwia urwnoleglenie ale pamicioerny
x1 x2 x3 x4
xn
4. uczenie maymi pakietami

4
/32
4/32
algorytm wstecznej propagacji regua delta
wkj =
E vk
E
=
= k yj
wkj
vk wkj
1. jeli k jest neuronem wyjciowym, to sprawa jest prosta
2. a jeli neuron j jest ukryty

2.1 nie jest zdeniowane oczekiwane wyjcie, a std nie
mona obliczy wartoci bdu
2.2 zredeniujmy lokalny gradient j neuronu ukrytego
j =
E yj
E
=
(vj )
yj vj
yj j
x1 x2 x3 x4
xn
5
/32
5/32
algorytm wstecznej propagacji regua delta
E
E vk
=
= k yj
wkj
vk wkj
E yk
E
k =
=
(vk )
yk vk
yk j
wkj =
j
1.
E
yj
jest sum po wszystkich neuronach wyjciowych
ek vk
[dk yk ]
E
=
ek
=
ek
yj
vk yj
vj
k
k
| {z } |
=
k (vk )
ek k (v)wkj =
j = j (vj )
wkj yj
yj
{z
wkj
k wkj
k wkj
x1 x2 x3 x4
xn
6
/32
6/32
wspczynnik nauczania
E
E vk
=
= k yj
wkj
vk wkj
E yk
E
k =
=
j (vk )
j = j (vj )
k wkj
yk vk
yk
wkj =
j
1. metoda momentum
wji (n) = wji (n1)+j (n)yi (n) =
nt
E(t)
.
wji(t)
mae daje gadsz trajektori kosztem prdkoci

wiksze daje szybsze zmiany, ale czsto take oscylacje
dla zapewnienia zbienoci szeregu 0 || < 1

zgodny znak E/wji przyspiesza
przeciwny znak E/wji wytumia oscylacje
momentum przeciwdziaa utkniciu w pytkim minimum
x1 x2 x3 x4
xn
7
/32
7/32
kryteria stopu
1. powierzchnia bdu ma wiele lokalnych minimw

2. Uznajemy, e algorytm wstecznej propagacji zbieg do minimum, jeli
euklidesowa norma wektora gradientu jest mniejsza od wystarczajco maego
progu
3. Uznajemy, e algorytm wstecznej propagacji dotar do minimum jeli

bezwzgldna warto zmiany redniego bdu kwadratowego pojedynczej
epoki jest mniejsza od wystarczajco maego progu
4. Po kadej epoce nauczania sie jest sprawdzana pod ktem jej zdolnoci
generalizacji. Moe by do tego wykorzystany oddzielny zbir przykadw nie
wykorzystywanych w nauczaniu. Nauczanie jest przerywane, jeli poziom
generalizacji jest wystarczajcy, albo poziom generalizacji przekroczy swoje
minimum.
8
/32
8/32
rne heurystyki
1. stochastycznie czy epoka-po-epoce?

stochastyczne jest zwykle znacznie szybsze
optymalnym rozwizaniem s chyba tzw. minibatches
2. maksymalizacja informacji
najlepiej wybiera przykady niosce najwicej informacji, np. dajce
najwikszy bd czy maksymalnie rne od poprzednich
dobrym rozwizaniem jest randomizacja kolejnoci, take by kolejne
przykady nie naleay do tej samej klasy
innym rozwizaniem jest aktywne nauczanie (active learning)
3. wybr funkcji aktywacji

zwykle najlepszym wyborem jest funkcja nieparzysta (v) = (v), np.
(v) = a tanh(bv)
LeCun proponuje a = 1.7159 i b = 2/3
to daje (1) = 1, (1) = 1, (0) = ab = 1.1424
wartoci oczekiwane musz by w zakresie aktywacji

9
/32
9/32
pomocne heurystyki
4. normalizacja wej
rednia wartoci wej powinny by bliskie zeru
gdyby wszystkie wejcia byy dodatnie, to wagi do warstwy ukrytej bd albo si
wszystkie zwiksza albo zmniejsza
wejcia powinny by zdekorelowane

skalowanie zdekorelowanych wej by kowariancje byy podobne dla
podobnej prdkoci nauczania
usunicie redniej dekorelacja wyrwnanie kowariancji
10
/32
10/32
5. inicjalizacja wag pocztkowych
wysokie mog spowodowa saturacj neuronw i operacj w obszarach

gdzie lokalny gradient jest may powolne nauczanie
niskie powoduj prac w pocztku ukadu, ktry jest zwykle punktem
siodowym dla funkcji sigmoidalnych
niech y = E[yi ] = 0, y2 = E[(yi y )2 ] = 1
niech E[yi yk ] = 1, i = k oraz E[yi yk ] = 0, i = k
2
niech dla wag w = E[wji ] = 0 oraz w = E[(wji w )2 ] = E[wji
]
jaka bdzie rednia warto sumy vj
v = E[vj ] = E[
wji yi ] =
E[wji ]E[yi ] = 0
i
warto wariancji
]
[
v2 = E[(vj v )2 ] = E[vj2 ] = E
wji wjk yi yk
i
E[wji wjk ]E[E[yi yk ]] =
k
N
2
2
E[wji
] = N w
dla (v) = 1.7159 tanh((2/3)v) daje to wariancj wej w = N 1/2

11
/32
11/32
porwnywanie
model
.
bdy
aproksymacji
klasykacji
eksperymenty
walidacja
krzyowa
melody
bootstrap
funkcje . ryzyka
i kosztu
.
.
.
spojrzenie
statystyczne
dekompozycja
bdu
12
/32
12/32
Ryzyko i koszt
.
Denicja
.
Niech (x, y, f (x)) X Y Y bdzie trjk wektor wejciowy x,
odpowied y i predykcja f (x). Wtedy mapowanie
c : X Y Y [0, ) speniajce c(x, y, y) = 0 x y nazywamy
funkcj
kosztu (loss function).
.
.
Uwaga
.
Koszt jest ograniczony od dou, a std nigdy nie otrzymamy dodatkowego
zysku
za jak niezwyk predykcj.
.
13
/32
13/32
Klasykacja binarna
.
Denicja
.
Bd niepoprawnej klasykacji zlicza przypadki, gdy przykad jest klasykowany
niepoprawnie
{
c(x, y, f (x)) =
0,
1,
jeli f (x) = y
w przeciwnym przypadku
.
.
Uwaga
.
.Nie rozrnia midzy rnymi bdami typu false positive i false negative
14
/32
14/32
Klasykacja binarna
.
Denicja
.
Asymetryczny bd niepoprawnej klasykacji zlicza przypadki, gdy przykad jest
klasykowany niepoprawnie biorc pod uwag
{
c(x, y, f (x)) =
0,
c(x),
jeli f (x) = y
w przeciwnym przypadku
gdzie
c() moe by funkcj zalen od zadanego wejcia.
.
.
Uwaga
.
.A rozrnianie kamieni od diamentw?
.
Uwaga
.
Mona
uzaleni bd od oczekiwanej odpowiedzi.
.
15
/32
15/32
Soft margin
.
Denicja
.
Niech etykiet klasy bdzie okrelona przez sgn(f (x)). Bd typu soft margin
bierze pod uwag odlego od hiperpaszczyny rozdzielajcej
{
0,
jeli f (x) y
c(x, y, f (x)) = max(0, 1yf (x))
1 yf (x), w przeciwnym przypadku
.
.
Uwaga
.
Dla
. wygodnych oblicze brana jest pod uwag take kwadratowa posta.
.
Denicja
.
Bd
logistyczny deniujemy jako c(x, y, f (x)) = ln(1 + exp(yf (x)))
.
16
/32
16/32
Bd dla problemu regresji

.
Denicja
.
Bd
regresji c(x, y, f (x)) = c(f (x) y)
.
.
Denicja
.
Kwadratowy
bd regresji c(x, y, f (x)) = (f (x) y)2
.
.
Denicja
.
.Dla = (f (x) y)) bd regresji c() = max(|| , 0) = ||
.
Uwaga
.
.Taka denicja nie bierze pod uwag bdw mniejszych od .
.
Denicja
.
.Dla = 0 bd redukuje si do bdu 1 .
17
/32
17/32
Bd testowania
.
Denicja
.
Jeli poza zbiorem uczcy jest take dostpny zbir testujcy {x1 , . . . , xm }
dla ktrego bdziemy przewidywa y , to naszym celem jest minimalizacja
oczekiwanego bdu
m
1
Rtest [f ] =
c(x , y, f (x ))dP (y|x )
m i=1 Y
.
.
Denicja
.
[Oczekiwane ryzyko] Jeli nie ma wiedzy o przykadach testujcych, to celem
jest minimalizacja oczekiwanego bdu dla wszystkich moliwych zbiorw
przykadw
R[f ] = E[Rtest [f ]] = E[c(x, y, f (x))] =
X Y
c(x, y, f (x))dP (y|x)

18
/32
18/32
Ryzyko empiryczne
1. niestety wszystko co jest dostpne w trakcie nauczania to dane uczce
2. prawdziwy rozkad P (x, y) moemy aproksymowa
pemp (x, y) =
m
1
x (x)yi (y)
m i=1 i
.
Denicja
.
Ryzyko empiryczne deniujemy jako
Remp [f ] =
.
X Y
c(x, y, f (x))pemp (x, y)dxdy =
m
1
c(xi , yi , f (xi ))
m i=1
19
/32
19/32
Spojrzenie statystyczne
likelihood i log-likelihood
1. poza sam wartoci oczekiwan bdu (ryzykiem) E[c(x, y, f (x))]

interesuje nas take rozkad y przy danym x, tj. P (y|x)
2. moemy si wic stara znale f , ktra jest najbardziej
prawdopodobna, e generuje dane y na podstawie danych x
.
Denicja
.
Likelihood prbki (x1 , y1 ), . . . , (xm , ym ) dla zalenoci funkcyjnej f jest
dane przez
m
p({x1 , . . . , xm }, {y1 , . . . , ym }|f ) =

p(xi , yi |f ) =
p(yi |f, xi )p(xi )
i=1
i=1
.
3. p(xi ) s niezalene od f , jeli wemiemy ln to maksymalizacja likelihood
bdzie w problemach regresji rwnowana minimalizacji log-likelihood
L[f ] =
ln p(yi |f, xi )
i=1
20
/32
20/32
Model bdu a funkcja bdu

L[f ] =
ln p(yi |f, xi )
i=1
1. minimalizacja L[f ] i Remp [f ] wspzachodz jeli funkcj kosztu

wybierzemy zgodnie z c(x, y, f (x)) = ln p(y|x, f )
2. w problemach klasykacji interesuje nas modelowanie P (y|f (x)), gdzie
y jest etykiet ze skoczonego zbioru. Dla binarnego problemu
klasykacji mamy odpowiedni funkcj kosztu bdzie
1+y
1y
ln P (y = 1|f (x)) +
ln P (y = 1|f (x))
2
2
= ln P (y|f (x)) dla y {1, +1}
c(x, y, f (x)) =
3. to pokazuje zwizek zaoonego modelu bdu z funkcj kosztu (loss)

21
/32
21/32
Funkcja bdu a gsto rozkadu bdu

2.5
Gaussian
squared loss
2.0
2.0
1.5
1.5
c(x,y,f(x))
c(x,y,f(x))
2.5
1.0
0.5
Huber
Huber loss
1.0
0.5
0.0
0.0
3
(yf(x))
1 2
2
2
1
p(y f (x)) = exp( )
2
2
c(x, y, f (x)) =
(yf(x))
{
c(x, y, f (x)) =
1 2
2
|| 2
{
p(y f (x)) =
|| <
w.p.p.
2
)
exp( 2
exp( 2 ||)
|| <
w.p.p.
22
/32
22/32
Funkcja bdu a gsto rozkadu bdu

2.5
Laplacian
wart. bezwzgl.
2.0
2.0
1.5
1.5
c(x,y,f(x))
c(x,y,f(x))
2.5
1.0
0.5
rozklad
- insensitive
1.0
0.5
0.0
0.0
3
(yf(x))
c(x, y, f (x)) = ||
1
p(y f (x)) = exp(||)
2
(yf(x))
c(x, y, f (x)) = max(|| , 0)

p(y f (x)) =
exp( max(|| , 0)
2(1 + )
23
/32
23/32
Eksperymenty
1, 2, 3 i 5 neuronw
8
6
6
6
6
24
/32
24/32
Eksperymenty
7, 9, 12 i 16 neuronw
8
6
6
6
6
25
/32
25/32
Eksperymenty
21x9 oraz 17x11 neuronw
8
6
6
1. na pewno naley minimalizowa liczb parametrw

1.1 model prostszy jest szybszy i atwiejszy w nauczaniu
1.2 model z mniejsz liczb parametrw powinien dawa lepszy poziom
generalizacji
1.3 Brzytwa Ockhama (12851347) Entia non sunt multiplicanda praeter
necessitatem (Nie naley mnoy bytw ponad potrzeb)
26
/32
26/32
Eksperymenty
cele porwnywania modeli
1. bd nauczania to zwykle redni koszt klasykacji przykadw

1 N
i=1 c(x, y, f (x))
N
2. bd testowania albo generalizacji to oczekiwana warto koszt
klasykacji przykadw R[f ] = E[L(X, Y, f )], gdzie X , Y s losowane
z ich cznego rozkadu
3. w trakcie nauczania mamy dwa podstawowe cele
3.1 okrelenie jakoci dziaania rnych modeli tak, by mona byo wybra
najlepszy z nich,
3.2 po wyborze modelu, okrelenie jego bdu generalizacji na nowych danych
4. podzia zbioru danych

4.1 jeli mamy duo danych, najlepszym wyborem bdzie jego podzia na czci
4.1.1 trenujc do nauczania modelu,
4.1.2 walidujc do okrelania najlepszych meta-parametrw modelu,
4.1.3 testujc do okrelania bdu generalizacji
27
/32
27/32
Biasvariance decomposition
1. jeli przyjmiemy model Y = f (x) + , przy czym E[] = 0 oraz
V ar[] = 2 , to otrzymujemy rozkad bdu kwadratowego na proste
skadniki
Err(x0 ) = E[(Y f(x0 )2 |X = x0 ]
= E[(Y f (x0 ) + f (x0 ) f(x0 )2 |X = x0 ]

= 2 + E[(f (x0 ) f(x0 ))2 ]
gdzie f () jest funkcj aproksymowan, a f(x) = f(x; w) jest funkcj

sieci
28
/32
28/32
skadniki
Err(x0 ) = E[(Y f(x0 )2 |X = x0 ]
= E[(Y f (x0 ) + f (x0 ) f(x0 )2 |X = x0 ]

= 2 + E[(f (x0 ) f(x0 ))2 ]

sieci
2. mona zauway, e f (x) = E[y|x]
f (x) f(x) = E[y|x] f(x)
= (E[y|x] Ef(x)) + (Ef(x) f(x))
28
/32
28/32
skadniki
Err(x0 ) = E[(Y f(x0 )2 |X = x0 ]
= E[(Y f (x0 ) + f (x0 ) f(x0 )2 |X = x0 ]

= 2 + E[(f (x0 ) f(x0 ))2 ]

sieci
2. mona zauway, e f (x) = E[y|x]
f (x) f(x) = E[y|x] f(x)
= (E[y|x] Ef(x)) + (Ef(x) f(x))

3. obliczajc teraz E[(f (x) f(x))2 ] znajdujemy, e
E[(f (x) f(x))2 ] = Bias2 (w) + V ar(w)
28
/32
28/32
Bias-variance decomposition
Closest fit in population
1. MODEL SPACE to
obszar wszystkich
predykcji dla zaoonego
modelu
2. niebieskie koo to obszar
bdu z jakim widzimy
prawdziwe dane poprzez
zbir uczcy
Realization
Closest fit
Truth
Model bias
Estimation Bias
Shrunken fit
Estimation
Variance
RESTRICTED
MODEL SPACE
3. czarne kropki oznaczaj

znalezione rozwizania
4. te okrgi okrelaj
wariancj znalezionego
rozwizania
MODEL
SPACE
(za Hastie et al., The elements of statistical learning)
5 odlego midzy Truth a rozwizaniem okrela bias rozwizania wzgldem

prawdziwej funkcji
6. regularyzacja rozwizania spowoduje zmian i dodatkowy bias estymacji
29
/32
29/32
Walidacja krzyowa
1. potrzebujemy metody okrelania bdu generalizacji gdy danych jest
ograniczona ilo
2. algorytm walidacji krzyowej
2.1 podziel zbir przykadw uczcych na K czci; zwykle K = 10 lub 5
2.2 dla k = 1, . . . , K
2.2.1 zbuduj model fk na zbiorze uczcym bez czci k
2.2.2 oblicz bd generalizacji na czci k-tej
2.3 oblicz bd walidacji krzyowej CV =
1
N
i=1
L(xi , yi , f k(i) )
3. jeli K = N , to procedur nazywamy one-out-of-n

3.1 taki estymator jest nie zbiasowany
3.2 ma wysok wariancj, bo zbiory s bardzo podobne do caego zbioru
4. dla K = 5 wariancja jest niska, ale bias moe ju stanowi problem

5. zwykle K = 10 jest dobrym kompromisem
30
/32
30/32
Metody bootstrap
1. idea polega na losowaniu, z N -elementowego zbioru danych Z , ze

zwracaniem B (np. B = 100) zbiorw bootstrap
1.1 pojedyncze przykady wystpuj wielokrotnie we wszystkich zbiorach
1.2 prawdopodobiestwo, e i-ty przykad jest w zbiorze b
(
)N
1
P (i Z ) = 1 1
1 e1 0.632
N
b
2. z kadego zbioru obliczany jest jaki model (czy predykcja) S(Z b )

3. to pozwala przyblia lepiej pewne statystyki, np.
1 B
2
S(Z b )/B
Vd
ar[S(Z)] = B1
b=1 (S() S ) gdzie S =
b
31
/32
31/32
Bd ze zbiorw bootstrap
1.
d boot =
Err
1.1
N
B
1 1
L(xi , yi , fb (xi ))
B N b=1 i=1
P (i Z b ) 1 e1 0.632
1.2 zbiory b nakadaj si, wic estymacja bdu bdzie zbyt optymistyczna
1.3 klasykator binarny z rwn liczb przykadw w kadej klasie, z etykietami
niezalenymi od wej: oczekiwana warto 0.5 (1 0.632) = 0.184
2.
d
Err
(1)
1
1
L(xi , yi , fb (xi ))
N i=1 |C 1 |
1
bC
3.
d
Err
(.632)
d
= 0.368 err + 0.632 Err
(1)
gdzie err jest bdem na zbiorze uczcym

32
/32
32/32

Sn14 02 Multilayer

Diunggah oleh

Informasi Dokumen

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Sn14 02 Multilayer

Diunggah oleh

Hak Cipta:

Format Tersedia

.

1. kady neuron zawiera nieliniow rniczkowaln funkcj aktywacji

pochodna ma najwysz warto w okolicach zera i wagi dla neuronw

osigajcych rednie wartoci s najwicej zmieniane

(v) = (1 tanh2 (v)) = [1 (v)][1 + (v)]

problemem jest czsto bardzo niska warto gradientu w stanach

1. sie zawiera warstwy ukryte

perceptron rozwizuje tylko problemy separowalne

due problemy z nauczaniem architektur z wieloma

1. dwie fazy algorytmu feed forward oraz wstecznej

E(w) = 12 j e2j (n) = 12 j [dj (n) yj (n)]2

przykady w losowej kolejnoci, std stochastyczne

4. uczenie maymi pakietami

1. jeli k jest neuronem wyjciowym, to sprawa jest prosta

2. a jeli neuron j jest ukryty

Igor T. Podolak, WMiI UJ

jest sum po wszystkich neuronach wyjciowych

Igor T. Podolak, WMiI UJ

wji (n) = wji (n1)+j (n)yi (n) =

mae daje gadsz trajektori kosztem prdkoci

dla zapewnienia zbienoci szeregu 0 || < 1

Igor T. Podolak, WMiI UJ

1. powierzchnia bdu ma wiele lokalnych minimw

3. Uznajemy, e algorytm wstecznej propagacji dotar do minimum jeli

1. stochastycznie czy epoka-po-epoce?

3. wybr funkcji aktywacji

wartoci oczekiwane musz by w zakresie aktywacji

wszystkie zwiksza albo zmniejsza

wejcia powinny by zdekorelowane

wysokie mog spowodowa saturacj neuronw i operacj w obszarach

E[wji wjk ]E[E[yi yk ]] =

dla (v) = 1.7159 tanh((2/3)v) daje to wariancj wej w = N 1/2

Bd dla problemu regresji

R[f ] = E[Rtest [f ]] = E[c(x, y, f (x))] =

c(x, y, f (x))dP (y|x)

Igor T. Podolak, WMiI UJ

c(x, y, f (x))pemp (x, y)dxdy =

1. poza sam wartoci oczekiwan bdu (ryzykiem) E[c(x, y, f (x))]

p({x1 , . . . , xm }, {y1 , . . . , ym }|f ) =

Model bdu a funkcja bdu

1. minimalizacja L[f ] i Remp [f ] wspzachodz jeli funkcj kosztu

3. to pokazuje zwizek zaoonego modelu bdu z funkcj kosztu (loss)

Funkcja bdu a gsto rozkadu bdu

Igor T. Podolak, WMiI UJ

Funkcja bdu a gsto rozkadu bdu

c(x, y, f (x)) = max(|| , 0)

Igor T. Podolak, WMiI UJ

Igor T. Podolak, WMiI UJ

1. na pewno naley minimalizowa liczb parametrw

1. bd nauczania to zwykle redni koszt klasykacji przykadw

4. podzia zbioru danych

= E[(Y f (x0 ) + f (x0 ) f(x0 )2 |X = x0 ]

gdzie f () jest funkcj aproksymowan, a f(x) = f(x; w) jest funkcj

= E[(Y f (x0 ) + f (x0 ) f(x0 )2 |X = x0 ]

gdzie f () jest funkcj aproksymowan, a f(x) = f(x; w) jest funkcj

= (E[y|x] Ef(x)) + (Ef(x) f(x))

= E[(Y f (x0 ) + f (x0 ) f(x0 )2 |X = x0 ]

gdzie f () jest funkcj aproksymowan, a f(x) = f(x; w) jest funkcj

= (E[y|x] Ef(x)) + (Ef(x) f(x))

3. czarne kropki oznaczaj

(za Hastie et al., The elements of statistical learning)

5 odlego midzy Truth a rozwizaniem okrela bias rozwizania wzgldem

2.3 oblicz bd walidacji krzyowej CV =

3. jeli K = N , to procedur nazywamy one-out-of-n