Classificação de Padrões
3-Estimação de Parâmetros:
Máxima Verosimilhança e
Bayes
ProfFernandoGomide DCA-FEEC-Unicamp
Conteúdo
1. Introdução
2. Estimador de máxima verosimilhança
3. Estimador de Bayes
4. Teoria geral estimadores Bayesianos
5. Problemas de dimensionalidade
6. Modelos de Markov
7. Resumo
ProfFernandoGomide DCA-FEEC-Unicamp
1-Introdução
Este capítulo
– apresenta métodos principais de estimação
– problema da dimensão e complexidade
– classificação estática e dinâmica
ProfFernandoGomide DCA-FEEC-Unicamp
Estimador de máxima verosimilhança
– parâmetros de p(x/ωi) são valores fixos, mas desconhecidos
– melhor estimativa: maximiza a probabilidade de obter as observações
Estimador de Bayes
– parâmetros são variáveis aleatórias com distribuições a priori dadas
– observações convertem estas distribuições em a posteriori
Aprendizagem
– amostras x obtidas selecionando estado ωi com probabilidade P(ωi)
– amostras independentemente selecionadas de acordo com p(x/ωi)
– supervisionada: classe (estado) ωi de cada amostra é conhecida
– não supervisionada
2-Estimador de máxima verosimilhança
Características
– boa convergência quando número de amostras de treinamento aumenta
– mais simples que métodos alternativos (Bayes, EM, etc.)
Princípio geral
D1,...., Dc : c conjuntos de dados
Dj : conjunto de amostras independentemente de p(x/ωj) (i.i.d.)
p(x/ωj) : forma paramétrica é, por hipótese, conhecida
θj: vetor de parâmetros que caracteriza p(x/ωj) de forma única
p(x/ωj) = p(x/ωj,θ θj)
problema: θj ?
ProfFernandoGomide DCA-FEEC-Unicamp
Hipótese
Di : não tem informação sobre θj se i ≠ j
parâmetros são funcionalmente independentes
permite tratar cada classe separadamente
Problema de estimação
D = {x1, ....,xn}
n
p(D | θ) = ∏ p(x k | θ) likelihood de θ com relação a D (1)
k =1
ProfFernandoGomide DCA-FEEC-Unicamp
Estimador de máxima verosimilhança (MV) θ̂
θ)
– maximiza p(D/θ
– valor de θ mais aderente aos dados de treinamento
– em geral usa-se log-likelihood
l (θ) = ln p (D | θ)
1 1
ln p (x k | µ) = − ln[(2π) | Σ | − (x k − µ)t Σ −1 (x k − µ)
d
2 2
∇ µ ln p ( x k | µ) = Σ −1 (x k − µ)
n
∑ Σ −1(x k − µ) = 0 (multiplicando por ∑–1 e rearranjando)
k =1
1 n
µ = ∑ xk
n k =1
ProfFernandoGomide DCA-FEEC-Unicamp
Caso Gaussiano: µ e ∑ desconhecidos
θ1 = µ e θ2 = σ 2
1 1
ln p ( xk | θ) = − ln[2πθ2 − ( xk − θ1 ) 2
2 2θ2
1
θ ( xk − θ1 )
∇ θl = ∇θ ln p (x k | θ) =
2
2
1 ( xk − θ1 )
− 2θ + 2
2 2θ 2
ProfFernandoGomide DCA-FEEC-Unicamp
n 1
∑ ˆ ( xk − θˆ 1 ) = 0
k =1 θ 2
n 1 ( xk − θˆ 1 ) 2
∑− ˆ + =0
k =1 2θ 2 ˆ 2
2θ2
1 n 1 n
µˆ = ∑ xk µˆ = ∑ x k
n k =1 n k =1
1 n 1 n
σ 22 = ∑ ( xk − µˆ ) 2 ˆ = ∑ (x − µˆ )(x − µˆ )t
Σ k k
n k =1 n k =1
ProfFernandoGomide DCA-FEEC-Unicamp
Tendenciosidade (bias)
1 n 2 n −1 2
E ∑ ( xk − x ) = σ ≠ σ2 tendencioso
n k =1 n
1 n
C= ∑ (x k − µˆ )(x k − µˆ )t não tendencioso
n − 1 k =1
ProfFernandoGomide DCA-FEEC-Unicamp
3-Estimador de Bayes
ProfFernandoGomide DCA-FEEC-Unicamp
Hipóteses
– probabilidades a priori conhecidas/calculadas: P(ωi|D) = P(ωi)
– D1,...., Dc conjuntos de dados de treinamento
Di : não influencia p(x|ωj, D) se i ≠ j
– classes são tratadas separadamente: c problemas independentes
Di para estimar p(x|ωj, D)
p ( x | ωi , D ) P(ωi )
P(ωi | x, D ) =
c
∑ p ( x | ω j , D ) P (ω j )
j =1
ProfFernandoGomide DCA-FEEC-Unicamp
Aprendizagem Bayesiana
ProfFernandoGomide DCA-FEEC-Unicamp
Distribuição de parâmetros
p ( x | D ) = ∫ p ( x, θ | D ) dθ
p ( x, θ | D ) = p ( x | θ, D ) p (θ | D )
ProfFernandoGomide DCA-FEEC-Unicamp
Exemplo: caso Gaussiano
θ|D ) = ?,
p(θ p(x|D ) = ?
µ) ~ N(µ
p(x|µ µ, Σ)
p ( x | µ) = N (µ, σ 2 ) (26)
p (µ) = N (µ o , σ o2 )
D = {x1, ....,xn}
p (D | µ) p (µ) n
p (µ | D ) = = α ∏ p ( xk | µ) p (µ)
∫ p(D | µ) p(µ)dµ k =1
ProfFernandoGomide DCA-FEEC-Unicamp
p(xk|µ) p(µ)
n 1 1 x − µ 2 1 1 µ − µ 2
p (µ | D ) = α ∏ exp − k exp − o
k =1 2 π σ 2 σ 2 σ 2 σ o
o
n µ−x 2 2
µ − µ o
= α′ exp − ∑
1 k
+
2 k =1 σ σo
1 n 1 2 1 n µ o
= α′′ exp − + µ − 2 ∑ xk + 2 µ (29)
2 σ 2 2
σ 2
σo
σ k =1
1 2
1 µ − µn
p (µ | D ) =
exp − ~ N (µ n , σ n ) (30)
2 πσ n 2 σn
ProfFernandoGomide DCA-FEEC-Unicamp
igualando (29) e (30)
1 n 1
= +
σ n2 σ 2
σo2
µn n µo 1 n
= µˆ n + µˆ n = ∑ xk
σ n2 σ2 σ o2 n k =1
nσo2 σ 2
µn = µˆ n + µ
nσ 2 + σ 2 2
nσo + σ 2 o
o
σo2σ 2
σ 2n =
nσo2 + σ 2
ProfFernandoGomide DCA-FEEC-Unicamp
Aprendizagem Bayesiana
ProfFernandoGomide DCA-FEEC-Unicamp
2) Caso univariado: p(x|D )
p ( x | D ) = ∫ p ( x | θ) p (θ | D ) dθ (25)
p ( x | µ) = N (µ, σ 2 ) (26)
1 2
1 µ − µn
p (µ | D ) =
exp − ~ N (µ n , σ n ) (30)
2 πσ n 2 σn
ProfFernandoGomide DCA-FEEC-Unicamp
p ( x | D ) = ∫ p ( x | µ) p (µ | D ) dµ
1 1 x − µ 2 1 1 x − µ 2
=∫ exp − exp − n dµ
2 πσ 2 σ 2πσ n 2 σ n
1 1 ( x − µn )2
= exp − f (σ, σ n )
2πσσn 2 2
2 σ + σ n
2 2
2
1 σ + σn σ n x + σ µ n
2 2
f (σ, σ n ) = ∫ exp − µ− dµ
2 σ 2σ 2 2
σ + σn 2
n
p ( x | D ) ~ N (µ n , σ 2 + σ 2n ) = p ( x | ω j , D j )
ProfFernandoGomide DCA-FEEC-Unicamp
3) Caso Gaussiano multivariado
θ|D ) = ?
p(θ p(x|D ) = ?
µ) ~ N(µ
p(x|µ µ, Σ), p(µ
µ) ~ N(µ
µo, Σo)
D = {x1, ....,xn}, x1, ....,xn amostras independentes
n
p (µ | D ) = α ∏ p ( x k | µ ) p (µ ) (39)
k =1
1 t − − −1 n −
= α′ exp − µ (nΣ + Σ o )µ − 2µ Σ ∑ x k + Σ o µ o
1 1 t 1
2 k =1
ProfFernandoGomide DCA-FEEC-Unicamp
µ|D ) tem a forma
p(µ
1
p(µ | D ) = α′′ exp− (µ − µ n )t Σ n−1 (µ − µ n ) ~ N (µ n , Σ n ) (40)
2
1 n
Σ −n 1 = nΣ −1 + Σ o−1 µˆ n = ∑ x k
n k =1
Σ −n 1µ n = nΣ −1µˆ n + Σ o−1µ o
ProfFernandoGomide DCA-FEEC-Unicamp
−1 −1
1 1 1
µ n = Σ o Σ o + Σ µˆ n + Σ Σ o + Σ µ o
n n n
−1
1 1
Σ n = Σo Σo + Σ Σ
n n
p ( x | D ) = ∫ p (x | µ) p (µ | D )dµ = N (µ n , Σ + Σ n )
ProfFernandoGomide DCA-FEEC-Unicamp
4-Teoria geral estimadores Bayesianos
Hipóteses
θ) é conhecida
– forma da densidade p(x|θ
– valor de θ não é conhecido exatamente
– conhecimento inicial sobre θ contido densidade a priori p(θ
θ)
– restante do conhecimento sobre θ contido em conjunto D
– D = {x1,..., xn}, cada xi obtido independente de acordo com p(x)
– p(x) desconhecida
ProfFernandoGomide DCA-FEEC-Unicamp
Problema básico
solução:
1) fórmula de Bayes
p (D | θ) p (θ)
p (θ | D ) = (50)
∫ p (D | θ) p(θ)dθ
3) hipótese de independência
n
p (D | θ) = ∏ p (x k | θ) (51)
k =1
ProfFernandoGomide DCA-FEEC-Unicamp
Análise
1) Dn = {x1,..., xn}
2) de (51), se n > 1
p (D n | θ) = p ( x n | θ) p (D n-1 | θ) (52)
3) densidade a posteriori
n p (x n | θ) p (θ | D n −1 )
p (θ | D ) = (53)
n n −1
∫ p (D | θ ) p (θ | D )dθ
p (θ | D 0 ) = p (θ)
ProfFernandoGomide DCA-FEEC-Unicamp
Exemplo: caso unidimensional, distribuição uniforme
1 / θ 0 ≤ x ≤ θ
p ( x | θ) ~ U (0, θ) =
0 caso contrário
D = {4, 7, 2, 8}
p (θ | D 0 ) = p (θ ) = U (0,10)
1) x1 = 4 e usando (53)
1 0 1 / θ 4 ≤ θ ≤ 10
p (θ | D ) α p ( x | θ) p (θ | D ) =
0 c .c .
ProfFernandoGomide DCA-FEEC-Unicamp
2) x2 = 7 e usando (53)
2 1 1 /θ 2 7 ≤ θ ≤ 10
p (θ | D ) α p ( x | θ) p (θ | D ) =
0 c.c.
n) xn = 8 (n = 4) e usando (53)
1 /θ n max[D n ] ≤ θ ≤ 10
p (θ | D n ) α p ( x | θ) p (θ | D n −1 ) = x
0 c.c.
ProfFernandoGomide DCA-FEEC-Unicamp
p(θ|Dn)
1 /θ n max[D n ] ≤ θ ≤ 10
p (θ | D n ) α p ( x | θ) p (θ | D n −1 ) = x
0 c.c.
ProfFernandoGomide DCA-FEEC-Unicamp
p(x|D )
MV
Bayes
p( x | D ) = ∫ p( x | θ) p(θ | D )dθ
5-Problemas de dimensionalidade
Questões
ProfFernandoGomide DCA-FEEC-Unicamp
Precisão, dimensão e quantidade dados treinamento
1 ∞ −u 2 / 2
P ( e) = ∫e du
2 πσ r / 2
r 2 = (µ1 − µ 2 )t Σ −1 (µ1 − µ 2 )
ProfFernandoGomide DCA-FEEC-Unicamp
– P(e) diminui quando r aumenta; P(e) → 0 quando r → ∞
– caso condicionalmente independente Σ = diag(σ1 2,...., σd 2)
d µ −µ 2
2
r = ∑ i1 i 2
i =1 σi
ProfFernandoGomide DCA-FEEC-Unicamp
– observa-se na prática que acrescentar atributos além de
um certo limite deteriora o desempenho do classificador.
1 ˆ −1 (x − µˆ ) − d ln 2π − 1 ln | Σ
g (x) = − (x − µˆ )t Σ ˆ | + ln P(ω)
2 2 2
– classificação: O(d2)
– aprendizagem Bayesiana: mais complexo devido à integração
Overftting
(1 − α)ni Σi + αnΣ
Σ i (α ) =
(1 − α)ni + αn
polinômio 2° grau
f ( x) = ax 2 + bx + c + ε p(ε) ~ N (0, σ 2 )
6-Modelos de Markov
– ω(t): estado em t
ωT = {ω(1), ω(2), ...., ω(T)} sequência de tamanho T
exemplo: ω6 = {ω1, ω4, ω2, ω2, ω1, ω2}
b jk = P(vk (t ) | ω j (t )) ∑ a jk = 1 ∀j
k
Problemas importantes em HMM
T
P(ωTr ) = ∏ P(ω(t ) | ω(t − 1)
i =1
T
P(V | ω r ) = ∏ P(v(t ) | ω(t )
T T
i =1
rmax T
P(V ) = ∑ ∏ P(v(t ) | ω(t )) P(ω(t ) | ω(t − 1))
T (135)
r =1 t =1
0 t =0 j ≠ estado inicial
α j (t ) = 1 t =0 j = estado inicial
[∑ α (t − 1)a ]b v(t ) c.c.
i i ij jk
P(VT | θ) P(θ)
classificação: Bayes P(θ | VT ) =
P(VT )
c
α 2 (3) = [ ∑ α i (2)ai 2 ]b2k
i =1
Exemplo: avaliação
1 0 0 0
0.2 0.3 0.1 0.4
[aij ] =
0.2 0.5 0.2 0.1
0.8 0.1 0.0 0.1
1 0 0 0 0
0 0.3 0.4 0.1 0.2
[b jk ] =
0 0.1 0.1 0.7 0.1
0 0.5 0.2 0.1 0.2
P(VT|θ) = 0.0011
2) Decodificação
1 inicialize t ← 0, Path ← {}
2 for t ← t + 1
3 j←j+1
4 for j ← j + 1
5 αj(t) ← bjk v(t)[ ∑i = 1,..,c(αi(t – 1) aij ]
6 until t = T
7 j' = arg maxj αj(t)
8 Append ωj' to Path
9 until t = T
10 return Path
obs: máximos locais → não garante consistência da solução global
Exemplo: decodificação (exemplo de avaliação)
algoritmo forward-backward
0 ωi (t ) ≠ ω0 t = T
βi (t ) = 1 ωi (t ) = ω0 t = T (138)
∑ β (t + 1)a b v(t + 1) c.c.
j j ij jk
Justificativa de (138)
α i (t − 1)aij b jk β j (t )
γ ij (t ) =
P ( V T | θ)
ProfFernandoGomide DCA-FEEC-Unicamp