CT720EstimacaoParametros 3

CT 720 Tópicos em Aprendizagem de Máquina e
Classificação de Padrões
3-Estimação de Parâmetros:
Máxima Verosimilhança e
Bayes
ProfFernandoGomide DCA-FEEC-Unicamp
Conteúdo
1. Introdução
2. Estimador de máxima verosimilhança
3. Estimador de Bayes
4. Teoria geral estimadores Bayesianos
5. Problemas de dimensionalidade
6. Modelos de Markov
7. Resumo
1-Introdução
Teoria Bayesiana de decisão

– assume P(ωi) e p(x/ωi) completamente conhecidos
– na prática estes valores não são conhecidos
– projeto necessita de dados de treinamento
– problema de estimar função → estimar parâmetros
Este capítulo
– apresenta métodos principais de estimação
– problema da dimensão e complexidade
– classificação estática e dinâmica
Estimador de máxima verosimilhança
– parâmetros de p(x/ωi) são valores fixos, mas desconhecidos
– melhor estimativa: maximiza a probabilidade de obter as observações
Estimador de Bayes
– parâmetros são variáveis aleatórias com distribuições a priori dadas
– observações convertem estas distribuições em a posteriori
Aprendizagem
– amostras x obtidas selecionando estado ωi com probabilidade P(ωi)
– amostras independentemente selecionadas de acordo com p(x/ωi)
– supervisionada: classe (estado) ωi de cada amostra é conhecida
– não supervisionada
2-Estimador de máxima verosimilhança
Características
– boa convergência quando número de amostras de treinamento aumenta
– mais simples que métodos alternativos (Bayes, EM, etc.)
Princípio geral
D1,...., Dc : c conjuntos de dados
Dj : conjunto de amostras independentemente de p(x/ωj) (i.i.d.)
p(x/ωj) : forma paramétrica é, por hipótese, conhecida
θj: vetor de parâmetros que caracteriza p(x/ωj) de forma única
p(x/ωj) = p(x/ωj,θ θj)
problema: θj ?
Hipótese
Di : não tem informação sobre θj se i ≠ j
parâmetros são funcionalmente independentes
permite tratar cada classe separadamente
Problema de estimação
Estimar o vetor de parâmetros θj a partir das amostras em D

θ)
amostras estas geradas independentemente a partir de p(x/θ
D = {x1, ....,xn}
n
p(D | θ) = ∏ p(x k | θ) likelihood de θ com relação a D (1)
k =1
Estimador de máxima verosimilhança (MV) θ̂
θ)
– maximiza p(D/θ
– valor de θ mais aderente aos dados de treinamento
– em geral usa-se log-likelihood
l (θ) = ln p (D | θ)
θˆ = arg max l (θ)

θ
n
l (θ) = ∑ ln p (x k | θ)
k =1
n
∇ θl = ∑ ∇θ ln p (x k | θ) = 0 condição necessária (7)
k =1
Caso Gaussiano: µ desconhecido
1 1
ln p (x k | µ) = − ln[(2π) | Σ | − (x k − µ)t Σ −1 (x k − µ)
d
2 2
∇ µ ln p ( x k | µ) = Σ −1 (x k − µ)
n
∑ Σ −1(x k − µ) = 0 (multiplicando por ∑–1 e rearranjando)
k =1
1 n
µ = ∑ xk
n k =1
Caso Gaussiano: µ e ∑ desconhecidos
θ1 = µ e θ2 = σ 2
1 1
ln p ( xk | θ) = − ln[2πθ2 − ( xk − θ1 ) 2
2 2θ2
 1 
 θ ( xk − θ1 ) 
∇ θl = ∇θ ln p (x k | θ) =  
2
2
 1 ( xk − θ1 ) 
− 2θ + 2 
 2 2θ 2 
n 1
∑ ˆ ( xk − θˆ 1 ) = 0
k =1 θ 2
n 1 ( xk − θˆ 1 ) 2
∑− ˆ + =0
k =1 2θ 2 ˆ 2
2θ2
1 n 1 n
µˆ = ∑ xk µˆ = ∑ x k
n k =1 n k =1
1 n 1 n
σ 22 = ∑ ( xk − µˆ ) 2 ˆ = ∑ (x − µˆ )(x − µˆ )t
Σ k k
n k =1 n k =1
Tendenciosidade (bias)
θ̂ é um estimador não tendencioso de θ se se somente se E[θˆ ] = θ
1 n 2  n −1 2
E  ∑ ( xk − x )  = σ ≠ σ2 tendencioso
 n k =1  n
1 n
C= ∑ (x k − µˆ )(x k − µˆ )t não tendencioso
n − 1 k =1
3-Estimador de Bayes
Densidades condicionais de classe
– P(ωi| x) é essencial em classificação Bayesiana

– como obter P(ωi| x) se P(x|ωi) e P(ωi) dão desconhecidos ?
– usar conhecimento e.g. forma funcional e faixas dos parâmetros
– amostras para treinamento: conjunto D
– P(ωi| x, D) ?
p (x | ωi , D ) P(ωi | D )
P(ωi | x, D ) =
c
∑ p ( x | ω j , D ) P (ω j | D )
j =1
Hipóteses
– probabilidades a priori conhecidas/calculadas: P(ωi|D) = P(ωi)
– D1,...., Dc conjuntos de dados de treinamento
Di : não influencia p(x|ωj, D) se i ≠ j
– classes são tratadas separadamente: c problemas independentes
Di para estimar p(x|ωj, D)
p ( x | ωi , D ) P(ωi )
P(ωi | x, D ) =
c
∑ p ( x | ω j , D ) P (ω j )
j =1
Aprendizagem Bayesiana
Usa um conjunto D de amostras observadas independentemente

de acordo com uma distribuição de probabilidade fixa, mas
desconhecida p(x) para estimar p(x| D)
Distribuição de parâmetros
– densidade de probabilidade p(x) desconhecida

θ)
– assume-se forma paramétrica de p(x) conhecida: p(x|θ
– problema: determinar vetor de parâmetros θ
– conhecimento a priori sobre θ: p(θ
θ)
– observações de D converte p(θθ) em p(θ
θ|D )
p ( x | D ) = ∫ p ( x, θ | D ) dθ
p ( x, θ | D ) = p ( x | θ, D ) p (θ | D )
p ( x | θ, D ) = p ( x, θ) seleção de x são independentes
p ( x | D ) = ∫ p ( x | θ) p (θ | D ) dθ (integrar numericamente) (25)
Exemplo: caso Gaussiano
θ|D ) = ?,
p(θ p(x|D ) = ?
µ) ~ N(µ
p(x|µ µ, Σ)
1) Caso univariado: p(µ|D ), µ é o único parâmetro desconhecido
p ( x | µ) = N (µ, σ 2 ) (26)
p (µ) = N (µ o , σ o2 )
D = {x1, ....,xn}
p (D | µ) p (µ) n
p (µ | D ) = = α ∏ p ( xk | µ) p (µ)
∫ p(D | µ) p(µ)dµ k =1
p(xk|µ) p(µ)
n 1  1  x − µ 2  1  1  µ − µ 2 
p (µ | D ) = α ∏ exp −  k   exp −  o 
 
k =1 2 π σ  2  σ   2 σ  2  σ o 
  o  
  n µ−x 2 2 
   µ − µ o 
= α′ exp −  ∑  
1 k
 +  
 2  k =1  σ   σo 
  
 1  n 1  2  1 n µ o   
= α′′ exp −  + µ − 2 ∑ xk + 2 µ   (29)
 2  σ 2 2
σ   2
σo   
  σ k =1
1  2
1  µ − µn  
p (µ | D ) = 
exp −   ~ N (µ n , σ n ) (30)
2 πσ n  2  σn  
 
igualando (29) e (30)
1 n 1
= +
σ n2 σ 2
σo2
µn n µo 1 n
= µˆ n + µˆ n = ∑ xk
σ n2 σ2 σ o2 n k =1
 nσo2  σ 2
µn =  µˆ n + µ
 nσ 2 + σ 2  2
nσo + σ 2 o
 o 
σo2σ 2
σ 2n =
nσo2 + σ 2
Aprendizagem Bayesiana
2) Caso univariado: p(x|D )
p ( x | D ) = ∫ p ( x | θ) p (θ | D ) dθ (25)
p ( x | µ) = N (µ, σ 2 ) (26)
1  2
1  µ − µn  
p (µ | D ) = 
exp −   ~ N (µ n , σ n ) (30)
2 πσ n  2  σn  
 
p ( x | D ) = ∫ p ( x | µ) p (µ | D ) dµ
1  1  x − µ 2  1  1  x − µ 2 
=∫ exp −    exp −  n   dµ
2 πσ  2  σ   2πσ n  2  σ n  
 
1  1 ( x − µn )2 
= exp −  f (σ, σ n )
2πσσn 2 2
 2 σ + σ n 
 2 2

2
1 σ + σn  σ n x + σ µ n  
2 2
f (σ, σ n ) = ∫ exp − µ− dµ
 2 σ 2σ 2  2
σ + σn 2  
 n  
p ( x | D ) ~ N (µ n , σ 2 + σ 2n ) = p ( x | ω j , D j )
3) Caso Gaussiano multivariado
θ|D ) = ?
p(θ p(x|D ) = ?
µ) ~ N(µ
p(x|µ µ, Σ), p(µ
µ) ~ N(µ
µo, Σo)
D = {x1, ....,xn}, x1, ....,xn amostras independentes
Após observar as n amostras de D e usando a fórmula de Bayes:
n
p (µ | D ) = α ∏ p ( x k | µ ) p (µ ) (39)
k =1
 1 t − −  −1 n −  
= α′ exp −  µ (nΣ + Σ o )µ − 2µ  Σ ∑ x k + Σ o µ o  
1 1 t 1
 2   k =1

 
µ|D ) tem a forma
p(µ
 1 
p(µ | D ) = α′′ exp− (µ − µ n )t Σ n−1 (µ − µ n ) ~ N (µ n , Σ n ) (40)
 2 
igualando (39) e (40)
1 n
Σ −n 1 = nΣ −1 + Σ o−1 µˆ n = ∑ x k
n k =1
Σ −n 1µ n = nΣ −1µˆ n + Σ o−1µ o
−1 −1
 1  1  1 
µ n = Σ o  Σ o + Σ  µˆ n + Σ Σ o + Σ  µ o
 n  n  n 
−1
 1  1
Σ n = Σo  Σo + Σ  Σ
 n  n
p ( x | D ) = ∫ p (x | µ) p (µ | D )dµ = N (µ n , Σ + Σ n )
4-Teoria geral estimadores Bayesianos
Hipóteses
θ) é conhecida
– forma da densidade p(x|θ
– valor de θ não é conhecido exatamente
– conhecimento inicial sobre θ contido densidade a priori p(θ
θ)
– restante do conhecimento sobre θ contido em conjunto D
– D = {x1,..., xn}, cada xi obtido independente de acordo com p(x)
– p(x) desconhecida
Problema básico
θ|D) pois com ela calculamos

determinar distribuição a posteriori p(θ
p( x | D ) = ∫ p( x | θ) p(θ | D )dθ (49)
solução:
1) fórmula de Bayes
p (D | θ) p (θ)
p (θ | D ) = (50)
∫ p (D | θ) p(θ)dθ
3) hipótese de independência
n
p (D | θ) = ∏ p (x k | θ) (51)
k =1
Análise
1) p(D|θθ) tem um pico em θ = θˆ

θ) ≠ 0 para θ = θˆ e não varia significativamente na vizinhança
p(θ
(50) → p(θθ|D) tem um pico neste ponto
(49) → p ( x | D ) ≈ p( x | θˆ )
mesmo resultado que o de MV se θ̂ fosse o verdadeiro
θ) é muito acentuado, a influência da informação

2) se pico de p(D|θ
a priori sobre incerteza de θ pode ser desprezada
3) solução Bayesiana usa toda informação disponível

Aprendizagem Bayesiana incremental
1) Dn = {x1,..., xn}
2) de (51), se n > 1
p (D n | θ) = p ( x n | θ) p (D n-1 | θ) (52)
3) densidade a posteriori
n p (x n | θ) p (θ | D n −1 )
p (θ | D ) = (53)
n n −1
∫ p (D | θ ) p (θ | D )dθ
p (θ | D 0 ) = p (θ)
Exemplo: caso unidimensional, distribuição uniforme
1 / θ 0 ≤ x ≤ θ
p ( x | θ) ~ U (0, θ) = 
0 caso contrário
D = {4, 7, 2, 8}
p (θ | D 0 ) = p (θ ) = U (0,10)
1) x1 = 4 e usando (53)
1 0 1 / θ 4 ≤ θ ≤ 10
p (θ | D ) α p ( x | θ) p (θ | D ) = 
0 c .c .
2) x2 = 7 e usando (53)
2 1 1 /θ 2 7 ≤ θ ≤ 10
p (θ | D ) α p ( x | θ) p (θ | D ) = 
0 c.c.
n) xn = 8 (n = 4) e usando (53)
1 /θ n max[D n ] ≤ θ ≤ 10
p (θ | D n ) α p ( x | θ) p (θ | D n −1 ) =  x
0 c.c.
p(θ|Dn)
1 /θ n max[D n ] ≤ θ ≤ 10
p (θ | D n ) α p ( x | θ) p (θ | D n −1 ) =  x
0 c.c.
p(x|D )
MV
Bayes
p( x | D ) = ∫ p( x | θ) p(θ | D )dθ
5-Problemas de dimensionalidade
Questões
– como a precisão de classificação depende da:

• dimensão do espaço de atributos
• quantidade de amostras de treinamento
– complexidade computacional do classificador
– overfitting
Precisão, dimensão e quantidade dados treinamento
– resultados teóricos para atributos independentes

– exemplo com dois atributos: p(x|ωj) ~ N(µ
µj , Σ), j = 1, 2
P(ω1) = P(ω2)
erro classificação Bayes
1 ∞ −u 2 / 2
P ( e) = ∫e du
2 πσ r / 2
r 2 = (µ1 − µ 2 )t Σ −1 (µ1 − µ 2 )
– P(e) diminui quando r aumenta; P(e) → 0 quando r → ∞
– caso condicionalmente independente Σ = diag(σ1 2,...., σd 2)
d µ −µ 2
2 
r = ∑  i1 i 2 
i =1 σi 
– atributos mais relevantes: aqueles em que a diferença das

médias é grande comparada com o desvio padrão
– atributo é útil se suas médias para os classificadores diferem
– como reduzir erro? adicionar novos atributos independentes
– observa-se na prática que acrescentar atributos além de
um certo limite deteriora o desempenho do classificador.
– razões principais são as seguintes:
1. hipóteses erradas sobre o modelo

(e.g. Gaussiano, condicionamento)
2. número amostras treinamento pequeno

Complexidade computacional
– parâmetros distribuição normal para o MV
O(dn) O(nd2) O(1) O(d2n) O(n)
1 ˆ −1 (x − µˆ ) − d ln 2π − 1 ln | Σ
g (x) = − (x − µˆ )t Σ ˆ | + ln P(ω)
2 2 2
– classificação: O(d2)
– aprendizagem Bayesiana: mais complexo devido à integração
Overftting
– erro dados de treinamento × generalização

– em geral, interpolação ou extrapolação só pode ser feita
de forma confiável se a solução é sobredeterminada, isto é,
o número de pontos é maior do que o número de parâmetros
a serem determinados.
– heurísticas: e.g. shrinkage
(1 − α)ni Σi + αnΣ
Σ i (α ) =
(1 − α)ni + αn
Σ(β) = (1 − β) Σ + βI 0 < α, β < 1

polinômio 10° grau
polinômio 2° grau
f ( x) = ax 2 + bx + c + ε p(ε) ~ N (0, σ 2 )
6-Modelos de Markov
Modelos de Markov de 1a ordem
– ω(t): estado em t
ωT = {ω(1), ω(2), ...., ω(T)} sequência de tamanho T
exemplo: ω6 = {ω1, ω4, ω2, ω2, ω1, ω2}
– P(ωj(t + 1)|ωi(t)) = aij probabilidade de transição de estado
– modelo θ: conjunto de todos os valores aij

probabilidade modelo gerar ωT : produto das probabilidades
exemplo: P(ωω6|θ
θ) = a14a42a22a21a14
Modelo Markov de 1a ordem
Modelo de Markov de 1a ordem discreto: estado em t + 1

depende somente do estado em t e das probabilidades de
transição.
Hidden Markov Models de 1a ordem
– ω(t): estado sistema em t

– estado emite símbolos visíveis v(t)
VT = {v(1), v(2), ...., v(T)} sequência de símbolos visíveis
exemplo: V6 = {v5, v1, v1, v5, v2, v3}
– P(vk(t)|ωi(t)) = bjk probabilidade de emitir símbolo vk
– ω não é observável; acesso somente a símbolos visíveis

modelos escondidos de Markov de 1a ordem
Modelo escondido de Markov de 1a ordem
Características
– grafos são máquinas de estado finito

– grafos + probabilidades transição = modelos Markov
– MM são estritamente causais
– ergódigos: aij ≠ 0 ∀i, j
– absorção: estado ωo com aoo = 1
aij = P(ω j (t + 1) | ωi (t )) ∑ aij = 1 ∀i

j
b jk = P(vk (t ) | ω j (t )) ∑ a jk = 1 ∀j
k
Problemas importantes em HMM
1) Avaliação: temos HMM com aij e bjk ; qual probabilidade

que uma sequência particular VT foi gerada pelo modelo?
2) Decodificação: temos HMM e VT; determinar a sequência

mais provável de estados escondidos ωT que produziu VT.
3) Aprendizagem: dado a estrutura do modelo e um conjunto

de observações de treinamento, determinar aij e bjk .
1) Avaliação
dado um modelo HMM, determinar a probabilidade que este

modelo gerou uma sequência particular VT de estados visíveis
rmax
P(V ) = ∑ P(VT |ωTr ) P(ωTr )
T
r =1
ωTr = {ω(1), ω(2),K, ω(T )}
c estados escondidos → rmax = cT termos possíveis
T
P(ωTr ) = ∏ P(ω(t ) | ω(t − 1)
i =1
T
P(V | ω r ) = ∏ P(v(t ) | ω(t )
T T
i =1
rmax T
P(V ) = ∑ ∏ P(v(t ) | ω(t )) P(ω(t ) | ω(t − 1))
T (135)
r =1 t =1
cálculo de (135): O(TcT) c = 10 e T = 20 → 1021 operações
P(VT) calculado recursivamente: envolve v(t), ω(t) e ω(t – 1)
0 t =0 j ≠ estado inicial

α j (t ) = 1 t =0 j = estado inicial
[∑ α (t − 1)a ]b v(t ) c.c.
 i i ij jk
bjkv(t): probabilidade bjk associada estado visível v(t)

Algoritmo HMM Forward
1 inicialize t ← 0, aij, bjk, sequência visível VT, αj(0)

2 for t ← t + 1
3 αj(t) ← bjk v(t)[ ∑i = 1,..,c(αi(t – 1) aij ]
4 until t = T
5 return P(VT) ← α0(T)
O(c2T) ~ 2000 operações para c = 10 e T = 20
P(VT | θ) P(θ)
classificação: Bayes P(θ | VT ) =
P(VT )
c
α 2 (3) = [ ∑ α i (2)ai 2 ]b2k
i =1
Exemplo: avaliação
V4 = {v1, v3, v2, v0}

v0: absorbing state
1 0 0 0
0.2 0.3 0.1 0.4
[aij ] =  
0.2 0.5 0.2 0.1
 
0.8 0.1 0.0 0.1
1 0 0 0 0
0 0.3 0.4 0.1 0.2
[b jk ] =  
0 0.1 0.1 0.7 0.1
 
 0 0.5 0.2 0.1 0.2 
P(VT|θ) = 0.0011
2) Decodificação
dada uma sequência VT de estados visíveis, determinar

a sequência mais provável de estados escondidos
Algoritmo HMM Decoding
1 inicialize t ← 0, Path ← {}
2 for t ← t + 1
3 j←j+1
4 for j ← j + 1
5 αj(t) ← bjk v(t)[ ∑i = 1,..,c(αi(t – 1) aij ]
6 until t = T
7 j' = arg maxj αj(t)
8 Append ωj' to Path
9 until t = T
10 return Path
obs: máximos locais → não garante consistência da solução global
Exemplo: decodificação (exemplo de avaliação)
solução: {ω1, ω3, ω2, ω1, ω0} (inconsistente !! a32 = 0)

3) Aprendizagem
determinar os parâmetros do modelo, aij, bjk
algoritmo forward-backward
αi(t): probabilidade modelo estar no estado ωi(t) e gerou sequência

de referência até t
βi(t): probabilidade modelo está no estado ωi(t) e vai gerar sequência
de referência de t + 1 até T
0 ωi (t ) ≠ ω0 t = T

βi (t ) = 1 ωi (t ) = ω0 t = T (138)
∑ β (t + 1)a b v(t + 1) c.c.
 j j ij jk
Justificativa de (138)
– supor αi(t) conhecido até T – 1

– probabilidade que o modelo gerar o último símbolo visível ?
– esta probabilidade é βi(T)
– βi(T) = probabilidade transição para ωi(T)
×
probabilidade estado emitir símbolo visível correto
– definição: βi(T) = 0, se ωi(T) ≠ ω0
βi(T) = 1, se ωi(T) = ω0
– logo βi(T – 1) = ∑jaijbjk(T) βi(T)
– γij(t) probabilidade transição entre ωi(t – 1) e ωj(t) dado que o
modelo gerou toda a sequência de treinamento VT em
qualquer caminho
– definimos γij(t)
α i (t − 1)aij b jk β j (t )
γ ij (t ) =
P ( V T | θ)
– γij(t) probabilidade transição de ωi(t – 1) para ωj(t) dado que o

modelo gerou a sequência visível VT completamente
Estimativa das probabilidades de transição
∑Tt=1 γ ij (t ) número esperado de transições de ωi(t – 1) para ωj(t)

na sequência de treinamento
∑Tt=1 ∑ k γ ik número total esperado de transições de ωj(t) para

qualquer outro estado
T
∑ ∑l γ jl (t )
t =1
∑Tt=1 γ ij (t ) v (t ) = v k
aˆij (t ) = (140) bˆ jk (t ) = (141)
∑tt =1 ∑ k γ ik (t ) ∑tt =1 ∑l γ jl (t )
Algoritmo Forward-Backward
1 inicialize z ← 0, aij, bjk, sequência treinamento VT, ε convergência

2 do t ← t + 1
3 calcular â(z) usando a(z – 1) e (140)
4 calcular bˆ( z ) usando b(z – 1) e (141)
5 aij (z) ← âij (z – 1)
6 b jk ( z ) ← bˆ jk
7 until max[aij (z) – aij (z – 1), aij (z) – aij (z – 1)] < ε
8 return aij ← aij (z), bij ← bij (z),
9-Resumo
Forma densidades condicionais classe conhecida
Aprendizagem
– estimação de parâmetros MV
– estimação densidades Bayes
Impacto da dimensão espaço atributos e dados de treinamento
Decisão sequencial com modelos de Markov
Observação
Este material refere-se às notas de aula do curso CT 720 Tópicos Especiais

em Aprendizagem de Máquina e Classificação de Padrões da Faculdade de
Engenharia Elétrica e de Computação da Unicamp e do Centro Federal de
Educação Tecnológica do Estado de Minas Gerais. Não substitui o livro
texto, as referências recomendadas e nem as aulas expositivas. Este material
não pode ser reproduzido sem autorização prévia dos autores. Quando
autorizado, seu uso é exclusivo para atividades de ensino e pesquisa em
instituições sem fins lucrativos.

CT720EstimacaoParametros 3

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

CT720EstimacaoParametros 3

Diunggah oleh

Hak Cipta:

Format Tersedia

CT 720 Tópicos em Aprendizagem de Máquina e

Teoria Bayesiana de decisão

Estimar o vetor de parâmetros θj a partir das amostras em D

θˆ = arg max l (θ)

θ̂ é um estimador não tendencioso de θ se se somente se E[θˆ ] = θ

Densidades condicionais de classe

– P(ωi| x) é essencial em classificação Bayesiana

Usa um conjunto D de amostras observadas independentemente

– densidade de probabilidade p(x) desconhecida

p ( x | θ, D ) = p ( x, θ) seleção de x são independentes

p ( x | D ) = ∫ p ( x | θ) p (θ | D ) dθ (integrar numericamente) (25)

1) Caso univariado: p(µ|D ), µ é o único parâmetro desconhecido

Após observar as n amostras de D e usando a fórmula de Bayes:

igualando (39) e (40)

θ|D) pois com ela calculamos

p( x | D ) = ∫ p( x | θ) p(θ | D )dθ (49)

1) p(D|θθ) tem um pico em θ = θˆ

θ) é muito acentuado, a influência da informação

3) solução Bayesiana usa toda informação disponível

– como a precisão de classificação depende da:

– resultados teóricos para atributos independentes

– atributos mais relevantes: aqueles em que a diferença das

– razões principais são as seguintes:

1. hipóteses erradas sobre o modelo

2. número amostras treinamento pequeno

– parâmetros distribuição normal para o MV

O(dn) O(nd2) O(1) O(d2n) O(n)

– erro dados de treinamento × generalização

Σ(β) = (1 − β) Σ + βI 0 < α, β < 1

Modelos de Markov de 1a ordem

– P(ωj(t + 1)|ωi(t)) = aij probabilidade de transição de estado

– modelo θ: conjunto de todos os valores aij

Modelo de Markov de 1a ordem discreto: estado em t + 1

– ω(t): estado sistema em t

– P(vk(t)|ωi(t)) = bjk probabilidade de emitir símbolo vk

– ω não é observável; acesso somente a símbolos visíveis

– grafos são máquinas de estado finito

aij = P(ω j (t + 1) | ωi (t )) ∑ aij = 1 ∀i

1) Avaliação: temos HMM com aij e bjk ; qual probabilidade

2) Decodificação: temos HMM e VT; determinar a sequência

3) Aprendizagem: dado a estrutura do modelo e um conjunto

dado um modelo HMM, determinar a probabilidade que este

ωTr = {ω(1), ω(2),K, ω(T )}

c estados escondidos → rmax = cT termos possíveis

cálculo de (135): O(TcT) c = 10 e T = 20 → 1021 operações

P(VT) calculado recursivamente: envolve v(t), ω(t) e ω(t – 1)

bjkv(t): probabilidade bjk associada estado visível v(t)

1 inicialize t ← 0, aij, bjk, sequência visível VT, αj(0)

O(c2T) ~ 2000 operações para c = 10 e T = 20

V4 = {v1, v3, v2, v0}

dada uma sequência VT de estados visíveis, determinar

Algoritmo HMM Decoding

solução: {ω1, ω3, ω2, ω1, ω0} (inconsistente !! a32 = 0)

determinar os parâmetros do modelo, aij, bjk

αi(t): probabilidade modelo estar no estado ωi(t) e gerou sequência

– supor αi(t) conhecido até T – 1

– γij(t) probabilidade transição de ωi(t – 1) para ωj(t) dado que o

∑Tt=1 γ ij (t ) número esperado de transições de ωi(t – 1) para ωj(t)

∑Tt=1 ∑ k γ ik número total esperado de transições de ωj(t) para

1 inicialize z ← 0, aij, bjk, sequência treinamento VT, ε convergência

Este material refere-se às notas de aula do curso CT 720 Tópicos Especiais

Anda mungkin juga menyukai