Dezembro, 2011
219
Mtodos estatsticos na
seleo genmica ampla
ISSN 1980-3958
Dezembro, 2011
Documentos 219
Mtodos estatsticos na
seleo genmica ampla
Marcos Deon Vilela de Resende
Fabyano Fonseca e Silva
Jos Marcelo Soriano Viana
Luz Alexandre Peternelli
Mrcio Fernando Ribeiro Resende Jr.
Patricio Muoz del Valle
Embrapa Florestas
Colombo, PR
2011
Embrapa Florestas
Estrada da Ribeira, Km 111, Guaraituba,
83411-000, Colombo, PR - Brasil
Caixa Postal: 319
Fone/Fax: (41) 3675-5600
www.cnpf.embrapa.br
sac@cnpf.embrapa.br
Comit Local de Publicaes
Presidente: Patrcia Pvoa de Mattos
Secretria-Executiva: Elisabete Marques Oaida
Membros: lvaro Figueredo dos Santos, Antonio Aparecido
Carpanezzi, Claudia Maria Branco de Freitas Maia, Dalva Luiz
de Queiroz, Guilherme Schnell e Schuhli, Lus Cludio Maranho
Froufe, Marilice Cordeiro Garrastazu, Srgio Gaiad
Superviso editorial: Patrcia Pvoa de Mattos
Reviso de texto: Mauro Marcelo Bert
Normalizao bibliogrfica: Francisca Rasche
Editorao eletrnica: Mauro Marcelo Bert
Capa: Mauro Marcelo Bert
1a edio
Verso digital (2011)
Todos os direitos reservados
A reproduo no-autorizada desta publicao, no todo ou em
parte, constitui violao dos direitos autorais (Lei no 9.610).
Dados Internacionais de Catalogao na Publicao (CIP)
Embrapa Florestas
Mtodos estatsticos na seleo genmica ampla [recurso eletrnico] /
Marcos Deon Vilela de Resende ... [et al.]. Dados eletrnicos -
Colombo : Embrapa Florestas, 2011.
(Documentos / Embrapa Florestas, ISSN 1980-3958 ; 219)
Sistema requerido: Adobe Acrobat Reader.
Modo de acesso: World Wide Web.
<http://www.cnpf.embrapa.br/publica/seriedoc/edicoes/doc219.pdf>
Ttulo da pgina da web (acesso em 10 abr. 2012).
1. Mtodos estatsticos. 2. Medio. 3. Melhoramento vegetal 4.
Melhoramento animal. 5. Marcador gentico. I. Resende, Marcos Deon
Vilela de. II. Silva, Fabyano Fonseca e. III. Viana, Jos Marcelo Soriano. IV.
Peternelli, Luz Alexandre. V. Resende Jnior, Mrcio Fernando Ribeiro. VI.
Muoz del Valle, Patricio. VII. Srie.
CDD 631.52 (21. ed.)
Embrapa 2011
Autores
Apresentao
Washigton L. E. Magalhes
Chefe de Pesquisa e Desenvolvimento
Sumrio
Mtodos estatsticos na
seleo genmica ampla
Marcos Deon Vilela de Resende
Fabyano Fonseca e Silva
Jos Marcelo Soriano Viana
Luz Alexandre Peternelli
Mrcio Fernando Ribeiro Resende Jr.
Patricio Muoz del Valle
10
Famlia
Mtodo
RR-BLUP/GWS
Mtodos de
estimao
penalizada
(Regresso
linear)
LASSO
EN
Regresso
explcita
RR-BLUPHet/GWS
BayesA
Mtodos de
estimao
bayesiana
(Regresso no
linear)
BayesB
Fast BayesB
BayesC
Atributos
Regularizao,
Arquitetura
gentica
homognea,
Seleo indireta de
covariveis
Regularizao,
Arquitetura
gentica
homognea,
Seleo direta de
covariveis
Regularizao,
Arquitetura
gentica
homognea,
Seleo direta de
covariveis
Regularizao,
Arquitetura
gentica flexvel,
Seleo indireta de
covariveis
Regularizao,
Arquitetura
gentica flexvel,
Seleo indireta de
covariveis
Regularizao,
Arquitetura
gentica flexvel,
Seleo direcionada
de covariveis
Regularizao,
Arquitetura
gentica flexvel,
Seleo direcionada
de covariveis
Regularizao,
Arquitetura
11
12
BayesD
Regresso
explcita
Mtodos de
estimao
bayesiana
(Regresso no
linear)
BLASSO
IBLASSO
Regresso
implcita
Regresso
com reduo
dimensional
gentica
homognea,
Seleo direta de
covariveis
Regularizao,
Arquitetura
gentica flexvel,
Seleo direta de
covariveis
Regularizao,
Arquitetura
gentica flexvel,
Seleo direta de
covariveis
Regularizao,
Arquitetura
gentica flexvel,
Seleo direta de
covariveis
Regresso
Kernel
RKHS
Redes neurais
Quadrados
mnimos
parciais
Componentes
principais
13
14
15
16
17
y = ' x = E(y | x)
Isso implica que
= E ( | x, y ) = [ p ( ) p ( y | , x ) d ] /[ p ( ) p ( y | , x ) d ]
em que
i ~ N( 0, 2 )
i
, em que
tomado de uma
que
distribuio qui-quadrado invertida, segundo o enfoque
bayesiano. Nesse caso, isso implica que grande nmero de
marcadores apresenta efeitos pequenos e poucos
marcadores apresentam efeitos grandes.
18
i=1
i=1
de regresso via
2
i
i =1
restrio
2
i
i=1
i=1
i=1
2
minimizao de ( 1 / N) (y j xij i ) + L | i | , em que
n
i=1
sujeita a restrio
| | t . O componente | |
i
i=1
i=1
19
20
RR = argmin (y j xij i )2 + RR i2
i=1
i=1
RR i2
i =1
2
i
a norma de penalizao em .
i =1
21
22
e h 2 = nQ /(nQ + RR ) , em que nQ = 2
p ( 1 p ) ou
i
n
n
N
L = argmin (y j xij i )2 + L | i |
i=1
i=1
Funo de penalizao:
n
L | i |
i=1
Caractersticas:
- Mantm as covariveis mais significativas e remove as
demais.
-
| | a norma de penalizao em
i
(com base em
i=1
L | i |
i=1
regulariza o ajuste de quadrados mnimos e
regressa alguns coeficientes a zero. Essa formulao do
23
24
n
EN = argmin (y j xij i )2 + EN i2 + ( 1 )| i |
i=1
i=1
i=1
Funo de Penalizao:
n
n
EN i2 + ( 1 )| i | ou
i=1
i=1
EN | i |q
i=1
Caractersticas:
- Se = 0, EN = LASSO ou se q = 1, EN = LASSO.
- Se = 1, EN = RR ou se q = 2, EN = RR.
- Se 1 q 2 | tem-se EN.
- varia entre 0 e 1 e maior que 0.
- Usa duas penalizaes: a norma de penalizao do Lasso
para a seleo de covariveis e a norma de penalizao da
25
26
i | i2 ~ N( 0, i2 )
i2 ~ 2 ( , S 2 )
em que o nmero de graus de liberdades e S 2 o
parmetro da escala de distribuio. Tem-se que a
distribuio marginal a priori dos efeitos genticos dos
marcadores, i | , S 2 , tem distribuio t de Student
univariada, ou seja, i | , S 2 ~ t( 0, , S 2 ) . Assim, esta
formulao resulta na modelagem dos efeitos dos
marcadores como amostras de uma distribuio t de
Student.
S 2
. Assim, o parmetro de escala
2
E( 2 )( 2 )
. Ento, para os efeitos
S 2
e
genticos dos marcadores tem-se E( i2 ) =
2
dado por S 2 =
S 2 =
E( i2 )( 2 )
E( i2 ) =
. A esperana E( i2 ) equivale a
a2
. Assim,
2p ( 1 p
i
i=1
S 2 =
( 2 )
a2
n
2p ( 1 p
i
i=1
27
28
S e2 e
e
e 2
E( e2 )(e 2 )
. A esperana E( e2 ) equivale
S =
e
( 2 ) ~ 2 ( 4.2 2 )
, em que
E( e2 ) = ~e2 . Assim, S e2 = ~e2 e
= e
e
4.2
~ 2 um valor a priori de 2 .
2
e
2
Assumido i ~ N (0, i ) , em que i tomado de uma
distribuio qui-quadrado invertida, segundo o enfoque
bayesiano, isso implica que grande nmero de marcadores
apresenta efeitos pequenos e poucos marcadores
apresentam efeitos grandes. O uso de uma mistura de
distribuies normal e qui-quadrado invertida conduz a uma
distribuio t para e, portanto, com maior pico em zero e
uma cauda mais longa que a distribuio normal. Este
mtodo pode ser implementado via amostragem de Gibbs,
para obteno dessa informao combinada ou da
distribuio a posteriori das varincias.
29
30
e : vetor de erros.
1,X : matrizes de incidncia que associam u e aos
dados fenotpicos (y).
Considera-se, inicialmente, que a distribuio condicional
2
dos dados u, e e normal multivariada:
e e2 a varincia residual.
Os parmetros de interesse para inferncias so:
, , i2 e e2 . Para conduzir a anlise bayesiana, torna-se
necessrio especificar as distribuies a priori para
, i2 e e2 . Isto j foi realizado anteriormente. Definidas
estas distribuies, pode-se agora escrever a distribuio
conjunta a posteriori dos parmetros do modelo.
p ( , , 2i , e2 y ) p ( , , 2i , e2 ) p ( y , , 2i , e2 )
= p ( ) p ( i 2i ) p ( 2i ) p ( e2 ) p ( y , , 2i , e2 )
2i
N + e
+1
2
n +
+1
2
( y 1 X )' ( y 1 X )+ e S e2
exp
2 e2
( ' + S 2
exp
2 2i
31
32
e varincia
33
34
35
36
37
38
BayesD
BayesC
Parmetros
que estima
Mtodo se = 1
i2 , i
BayesD
i=1
e2 ,
Modelo para os
efeitos genticos
a j = i xij i
n
a j = i x ij i
i=1
BayesC
a j = i xij i
2 , i , e2 ,
2 , i , e2
RR-BLUP bayesiano
i2 , i , e2
BayesA
i2 , e2
2 , e2
i=1
BayesB
a j = i x ij i
BayesC
( i = 1)
i=1
BayesA
a j = i x ij
i=1
RR-BLUP
a j = i x ij
i=1
Fast BayesB
O mtodo Fast BayesB foi desenvolvido por Meuwissen et
al. (2009) visando diminuir o tempo de computao do
mtodo BayesB. Esses autores derivaram um algoritmo de
esperana condicional iterativa (ICE) para estimar i por
meio de integrao analtica. Os seguintes passos devem
ser adotados.
a) Calcular as observaes ajustadas, y i , que so
corrigidas para os efeitos de todos os outros
marcadores, usando a expresso y i = y
x
j i
j .
Yi = (xi' y (xi' x j ) j ) / N e 2 = e2 / N .
j i
39
40
41
42
Modelo
y = 1u + X + e
Parmetro de forma
a2 = 2p i ( 1 pi )( 2 2e ) / 2
2 = ( 2 2e ) / 2
e e2 ~ MVN (0, I e2 )
LASSO
p( e2 = 1, ) = ( / 2) exp( )
~ ( / 2) exp[( i )
i
y = 1u + X + e
e 2 ~ MVN (0, I 2 )
p( 2 , ) = ( / 2 ) exp[( ) / ]
BLASSO
2
1
2
n
Var ( ) = (2 e2 ) / 2
Var ( i ) = 2 i = i2 2
i=1
p( ) = ( 2 / 2) exp( 2 12 / 2).
i
y = 1u + X + e
e e2 ~ MVN (0, I e2 )
IBLASSO
, 2 ~ ( / 2 ) exp[( i ) / ]
i
Var ( ) = 2 / 2
Var ( i ) = 2 i = i2
a2 = 2p i ( 1 pi ) 2 / 2
Var ( ) = 2
a2 = 2p i ( 1 pi ) 2
2 = 2 / 2
i=1
p( | ) = ( 2 / 2 )exp( 2 i2 / 2 )
i
y = 1u + X + e
RR-BLUP
e | e2 ~ MVN( 0, I e2 )
| 2 ~ MVN( 0, I 2 )
i=1
2 = ( e2 / 2 )2
43
Tabela 3. Continuao.
Mtodo
Modelo
Parmetro de forma
Var(i ) = i2 = i2
y = 1u + X + e
RR-BLUP-Het
e | e2 ~ MVN( 0, I e2 )
| , ~ MVN( 0, D)
44
IBLASSO
A parametrizao do IBLASSO equivalente ao do LASSO
original de Tibshirani (1996), porm, a implementao
bayesiana. Outra diferena refere-se ao fato de que a
parametrizao do LASSO original assume que a matriz de
incidncia X foi padronizada. O IBLASSO no assume isso.
Essa diferena pode ser observada na descrio dos
modelos apresentada na Tabela 3. A igualdade na
parametrizao advm da comparao entre os termos
( / 2 ) e ( / 2 ) . Somente a proporo ( / ) utilizada
na prtica e, portanto, e no podem ser estimados
separadamente. Assim, o de Tibshirani equivale a
( / ) do IBLASSO e , essencialmente, uma medida da
variao gentica dos marcadores na populao. De forma
equivalente, o modelo do IBLASSO poderia ser escrito em
termos de 2 , retirando .
A forma da distribuio dos efeitos das marcas
determinada pelo parmetro de forma , que relacionado
variao gentica dos marcadores por meio da expresso
2
Var ( ) = 2 / 2 .Essa relao denota que desempenha
papel similar ao inverso da varincia nos modelos sob
normalidade. O parmetro pode ser estimado por MCMC
ou mxima verossimilhana marginal (MCEM ou REML). A
estimao por MCEM evita o uso de super-priori para
(PARK; CASELLA, 2008).
Partindo-se da relao a2 =
2p ( 1 p
i
) 2 (GIANOLA et
i=1
2p ( 1 p
i
) 2 / 2 , em que a2 a
i=1
2p ( 1 p
i
) 2 / a2 . Entretanto, nos
i=1
y = 1u + X + e
e | 2 ~ MVN( 0, I 2 )
p( | 2 , ) = ( / 2 )exp [( | | ) / ]
y = 1u + X + e
e | e2 ~ MVN( 0, I e2 )
| , 2 ~ ( / 2 )exp [( | i | ) / ]
i
45
46
| ~ ( / 2 )exp [( | i | )
i
~
u | demais N( 1' (y X ) / 1'1, 1 / 1'1~e2 )
~
i | demais N(xi ' (y 1i ~
Xi )~e2 / LHS I , 1 / LHS I ) , em
que LHSi = xi ' xi ~e2 + i2 e xi a linha de X
~
~
~
, exceto i .
~
i2 | demais IG ( 2 / i2 )1 / 2 , 2 , em que IG refere-se a
Gama Invertida.
2 | demais G (m,2 / ~
i 2 )), em que G refere-se a Gama
com parmetro de forma igual ao nmero m de marcas e
parmetro de escala igual a 2 / ~i 2 ) .
y = 1u + X + e
e | 2 ~ MVN( 0, I 2 )
| , 2 ~ ( / 2 )exp [( | i | ) / ]
i
47
48
~
i2 | demais IG ( 2 2 / i2 )1 / 2 , 2
~ ~
~
2 | demais 2 ' D 1 2 + e~' e~ + S e2 , 4 + m + N
Distribuio
a posteriori
qui-quadrado
invertida no
informativa
qui-quadrado
invertida
BayesA
Normal com
heterogeneidade de
varincias entre marcas
(t dado priori quiquadrado para as
varincias)
qui-quadrado
invertida (equivale
ao BayesB com
= 1)
qui-quadrado
invertida
BayesB
Normal com
heterogeneidade de
varincias entre marcas,
mdia zero e varincia
finita (t dado priori quiquadrado para as
varincias)
Mistura de
distribuies 0
com probabilidade
qui-quadrado
(1-) e quiinvertida
quadrado invertida
com probabilidade
BayesC
Mistura de distribuies
0 e normal com varincia
comum (t dado priori
qui-quadrado para as
varincias)
qui-quadrado
invertida, com
distribuio
Uniforme entre 0
e1
Lassos
Exponencial Dupla
Exponencial Dupla
Mtodo
Gama
Invertida
49
Densidade
50
51
52
g ( x) = E ( y x) =
y p ( y, x) dy
p( x)
2
H
}.
Funo de penalizao
h g ( x)
2
H
2
H
N
SS [ g ( x)] = [( y j u g ( x i )] 2 + h g ( x)
j
essa minimizao dada por:
2
H
}. A soluo para
g ( x ) = 0 + j k ( x xi ) , em que j so coeficientes
j =1
53
54
y j = u + g(x j ) + e j
N
y = 1u + T(h) + e , em que:
t1 (h)
t (h)
2
.
T ( h) =
, ti ( h ) =1 [k h ( xi x1 ) k h ( xi x 2 )...k h ( xi x n )]n
.
t n (h)
e ' =1 [1 2 ...n ]n
Assumindo j ~ N( 0, 2 ) e que os componentes de
varincia e h so conhecidos, tm-se as equaes de
modelo misto para obteno das solues de u e j :
T ( h )'1
1'1
e2
T ( h )1' T ( h )' T ( h ) + I 2
u 1' y
= T ( h )' y
55
56
parmetro de alisamento
( 2 = 1 ). Os resduos tm
57
k=1
{ }
n
p (u, , p, 2 , p2 , e2 y , H N yi u + j + p j , e2 / n j )}N ( 0, K RKHS 2 ) N ( p 0, A p2 )
i =1
x 2 ( e2 df e , S e ) 2 ( 2 df , S ) 2 ( p2 df p , S p )
58
e a posteriori:
n
p (u, , 2 , p2 , e2 y , H N y j u + j , e2 / ni )}N ( 0, K RKHS 2 )
i =1
x 2 ( e2 df e , S e ) 2 ( 2 df , S ) 2 ( p2 df p , S p )
jl
l ,
l=1
x
l
li
l=1
59
60
BLUP = e2 / a2
Considerando cada loco i:
RR = e2 / ai2 = e2 / 2
Pelo BLASSO e com homogeneidade de varincias
genticas entre locos (LEGARRA et al., 2011):
BL = [ 2 e2 / 2 ] 1 / 2
61
62
BL = [ 2 e2 / 2 ] 1 / 2 = [ 2 RR ] 1 / 2 = 1.414 [RR ] 1 / 2
No BLASSO tem-se (CAMPOS et al., 2009b):
i2 = i2 e2
Com homogeneidade de variancias genticas entre locos:
2 = 2 e2 e
2 = 2 / e2 = 1 / RR , em que 2 a mdia dos valores de
i2 .
Assim, BL = [ 2 e2 /( 2 e2 )] 1 / 2 = [ 2 / 2 ] 1 / 2 e
2
. Substituindo em 2 = 2 e2 , tem-se
2 = 2 / BL
2
2 = 2 2e / BL
.
h2 =
2 pi ( 1 pi ) 2
i
n
2 pi ( 1 pi ) 2 + e2
i
h2 =
2 pi (1 pi ) 2
i
n
2 pi (1 pi ) 2 + e2
2 pi (1 pi ) 2 e2
i
n
2 pi (1 pi ) 2 e2 + e2
1
n
1 + 1 /{[2 pi (1 pi )] 2 }
2
De forma alternativa e usando 2 = 2 2e / BL
, tem-se:
n
h2 =
2 pi (1 pi ) 2
i
n
2 pi (1 pi ) 2 + e2
i
2 pi (1 pi )2 e2 / 2BL
i
n
2 pi (1 pi )2 e2 / 2BL + e2
i
, pois nQ = 2
1
n
1 + 2BL /[4 pi (1 pi )]
1
1 + 2BL /( 2nQ )
h2 =
nQ
1
1
1
=
=
=
1 + /( 2n Q ) 1 + 2 RR /( 2n Q ) 1 + RR / nQ nQ + RR
2
BL
h 2 =
2n Q
1
. Utilizando no RR-BLUP
=
2
1 + /( 2n Q ) 2n Q + BL
2
BL
63
64
BLUP = e2 / a2
Considerando cada loco i:
RR = e2 / ai2 = e2 / 2
Pelo IBLASSO e com homogeneidade de varincias
genticas entre locos (LEGARRA et al., 2011):
IBL = [ 2 / 2 ] 1 / 2
Como funo do penalizador no RR-BLUP:
IBL = [BL / e2 ] 1 / 2
No IBLASSO tem-se (LEGARRA et al., 2011): i2 = i2 .
Com homogeneidade de varincias genticas entre locos:
2
, em que 2 a mdia dos
2 = 2 e 2 = 2 = 2 / IBL
valores de i2 .
2 1/2
e como BL = [2 / 2 ]1 / 2 tem-se
Assim, IBL= [ 2 / ]
h2 =
2 pi ( 1 pi ) 2
i
n
2 pi ( 1 pi ) 2 + e2
i
h2 =
2 pi ( 1 pi ) 2
2 pi ( 1 pi ) 2
2 pi ( 1 pi ) +
2
2
e
i
n
2 pi ( 1 pi ) +
2
2
e
2
De forma alternativa e usando 2 = 2 / IBL
, tem-se:
65
66
h2 =
2 pi (1 pi ) 2
i
n
2 pi (1 pi ) +
2
2
e
2 pi (1 pi )2 / 2IBL
2 pi (1 pi )2 /
2
IBL
i
n
2
e
1+
2 2
e IBL
/[4 pi (1 pi )]
pois nQ = 2
1
1 + e2 2IBL /( 2nQ )
1
1+
2
e
2
IBL
/(2n Q ) 1 + 2 RR /(2n Q ) 1 + RR / n Q
nQ
n Q + RR
2n Q
1
. Utilizando no RR-BLUP,
=
2
1 + /( 2n Q ) 2n Q + BL
2
BL
67
68
e2
Z' Z + G
a2
W ' W
Z 'W
W'Z
b W ' y
=
, em que
Z
'
y
G = ( XX ' ) / k = ( XX ' ) /[ 2 pi (1 pi )] e
i
de X (dividindo-os por 2
p (1 p )]
i
1/ 2
) e centrando a
p (1 p
i
) assume
k = ( p 0 q 0 ) 2 + 2 [ pi (1 pi )] / n (( + + 2 ) /( + ) )n
i
[Z ].
Z 'W
e2
Z' Z + H
a2
W'Z
b W ' y
=
a Z ' y
H=
A11 A12
A21 G
= A+
0
0
0
, em que os subscritos 1 e 2
G A22
0
=A +
0
1
0
G 1 A221
A11
A 21
A12
G 1 + A 22 A221
, em que
69
70
p (1 p
i
) ] , essa h2
G jk = ( 1 / n)
i=1
(xij 2p i )(xik 2p i )
2p i ( 1 pi )
71
72
Z 'W
Z W
W'Z
W Z
2
Z ' Z + G 1 e2
a
Z Z
Z Z
Z Z + Gae1
e2
ae2
b W ' y
a = Z ' y ,
ae Z
em que:
Gae = G para pares de indivduos no mesmo ambiente e Gae
= 0 para pares de indivduos em diferentes ambientes. A
varincia da interao entre os efeitos genticos aditivos e
2
de ambientes denotada por ae
.
E ( y ) = 1u + Xmi
e ~ N (0, R = I e2 )
Var ( y ) = V = R
73
74
e2
X '1 X ' X + I 2
gi
u 1' y
m r = X ' y
r
Para a GWAS-PSE deve-se inicialmente obter y = 1u + Xm
e realizar nova anlise sob o modelo:
y = 1u + Xmi* + e
E ( y ) = 1u
e ~ N (0, R = I e2 )
m* ~ N (0, I gi2 )
e2
X '1 X ' X + 2
gi
Fi* =
u X ' y
m * = Z ' y
75
76
Fentipos
Penalizao
N marcas
significativas
Fixo
=0
687
Fixo
=0
652
Aleatrio
= e2 / gi2
394
Aleatrio
= e2 / gi2
63
Mtodo
A
77
78
79
80
i
polignicos. Ajusta-se ento o modelo
,
identificando-se os marcadores significativos. Apenas com
os SNPs significativos, ajusta-se o modelo
81
82
83
Cov ( a, b)
ab a b = Pr ob(ab) Pr ob(a ) Pr ob(b) = D
=
[Var ( a )Var (b)]1 / 2 [Var ( a )]1 / 2 [Var (b)]1 / 2
[ pq]1 / 2 [ rs ]1 / 2
[ pq rs ]1 / 2
D2
, que
[pq rs]
Cov ( X ia , X ib )
.
[Var ( X ia )]1 / 2 [Var ( X ib )]1 / 2
84
Va
Ve
h2
Soma
2pq
N genes
menores
N
genes
maiores
N
indivduos
N
SNP
Sem
gen
maior
4,826202
11,26114
0,300
233,47
100
300
500
114,5132
267,1974
0,300
231,80
98
2*
300
500
Com
gen
maior
Software
Referncia
Selegen Genmica
Resende (2007)
2 RR-BLUP
Selegen Genmica
Resende (2007)
3 RR-BLUP-Het
Selegen Genmica
Resende (2007)
4 RR-BLUP
Padronizado
Genome Wide
Prediction
Meuwissen et al
(2009)
5 Fast BayesA
Genome Wide
Prediction
Meuwissen et al
(2009)
6 Fast BayesB
Genome Wide
Prediction
Meuwissen et al
(2009)
7 IBLASSO
GS3
Legarra et al (2011)
8 BayesCPi
GS3
Legarra et al (2011)
9 MCMC-BLUP
GS3
Legarra et al (2011)
10 BLASSO
BLR
11 RKRS
12 PLSR
Os autores
1 FR-LS
85
86
Acurcia Carter 1
Acurcia Carter 2
0,59
0,44
2 RR-BLUP
0,71
0,78
3 RR-BLUP-Het
(IBLASSO)
0,71
0,80
4 RR-BLUP
Padronizado
0,71
0,78
5 Fast BayesA
0,71
0,79
6 Fast BayesB
0,71
0,79
7 IBLASSO
0,71
0,80
8 BayesCPi
0,59
0,70
9 MCMC-BLUP
0,71
0,80
10 BLASSO
0,68
0,63
11 RKRS
0,99
0,99
12 PLSR
0,99
0,99
1 FR-LS
Software
Referncia
1 GWAS-FR-OBS
Selegen Genmica
Resende (2007)
2 GWAS-PSE-FR-EST
Selegen Genmica
Resende (2007)
3 GWAS-PSE-RR-OBS
Selegen Genmica
Resende (2007)
4 GWAS-PSE-RR-EST
Selegen Genmica
Resende (2007)
5 IBLASSO
GS3
Legarra et al (2011)
87
88
Mtodo 2
Mtodo 3
Mtodo 4
Mtodo 5
Nmero
marcas =
95
Nmero
marcas =
139
Nmero
marcas = 6
Nmero
marcas =
97
Nmero
marcas =
169
Acurcia =
0,80
Acurcia =
0,80
Acurcia =
0,56
Acurcia =
0,81
Acurcia
=0,79
38
31
16
16
43
16
31
394
11
38
43
38
31
16
38
16
38
31
11
218
43
19
43
49
19
84
33
49
17
11
49
330
17
36
35
10
10
190
42
33
33
36
29
36
303
29
39
252
33
29
49
x w yd
i
89
90
p ( 1 p )
i
. Dessa forma,
91
92
Xi = (2 - 2pi)/2/(Var(Xi))1/2 se o indivduo
homozigoto para o segundo alelo no loco marcador
(MM);
Xi = 0 se o indivduo apresenta dado perdido de
marca.
A quantidade pi a frequncia do segundo alelo do
marcador. Dessa forma, a varincia de X com Xi ajustado
igual a 1, obtendo-se uma varivel com mdia zero e
varincia unitria.
Sendo o efeito do marcador na populao, a varincia
devida ao marcador dada por Var(Xi) = Var(Xi) Var().
Com a transformao acima, Var(Xi) = 1 e portanto,
Var(Xi) = Var(). Em outras palavras, modelando a
varincia do efeito do marcador, modela-se diretamente a
varincia do marcador, independentemente de sua
frequncia. Assim, com centralizao e padronizao
a2 = m 2 . Dessa forma, no mtodo RR-BLUP deve-se usar
nQ = m e os efeitos genticos aditivos dos indivduos so
dados por a = X .
Parametrizao 2
Em outra parametrizao, a matriz de incidncia X contm
os valores -1, 0 e 1 para o nmero de alelos do marcador
(ou do suposto QTL) em um indivduo diploide, ou seja,
para os gentipos mm, Mm e MM, respectivamente. Essa
parametrizao ligeiramente inferior anterior (LEGARRA
et al., 2011). Para essa parametrizao deve-se usar,
nomtodo RR-BLUP, n q = 2
p ( 1 p ) e o efeito gentico
i
93
1
, em que A refere-se matriz
AXY AYY
cY 1
de parentesco (correlao) gentico aditivo entre indivduos
genotipados ( AYY ) e entre indivduos genotipados e no
cX = 1
94
1' M
1'1
M '1 M ' M + A 1 cY
c
X
1' cY
, em que M uma
=
M 'cy
cY
AYY
A=
A
XY
AYX
. O fator necessrio para que o
AXX
sistema tenha soluo e dado por = e2 / c2 , em que e2
a varincia do erro de genotipagem e c2 varincia do
contedo allico c. O componente e2 deve ser mantido
prximo de zero, ou seja, da ordem de 0,001. Isso est
associado a um coeficiente de determinao de c
equivalente a 0,999. Dessa forma,
= e2 / c2 = 0,001 / 0,999 = 0,001001 . O modelo associado
ao sistema de equaes equivale a cY = + McY* + e , em
que cY* = [cY
cX ] .
cY = [1 0 2 2]
M = [1
0]
A = [1
0,5
0,5
1]
MC =
1
M '1 M ' M + A
MC = [ 4,0000
1,0000
1,0000
1,0000
1,0000
1,0000
1,0010
1,0000
1,0010 0
1,0000
1,0000
1,0013
-0,0007
-0,0007
0,0013]
1,0010
95
96
LD =
M ' cy
LD = [5 1 0 2 2 0].
Soluo
1,2500
0,2498
1,2488
.
1
cY = ( MC ) LD = 0,7493
0,7493
c
X
0,3746
= (1
1
) c 1
AXY AYY
= (1
AXY I ( 4 ) )
AXY )
1
Y
1.25
0.25
0 0 0 0.5) 1.25 = 1.625
0.75
0.75
97
98
99
100
Referncias
AGUILAR I.; MISZTAL, I.; JOHNSON, D. L.; LEGARRA, A.; TSURUTA,
S.; LAWLOR, T. J. Hot topic: a unified approach to utilize phenotypic,
full pedigree, and genomic information for genetic evaluation of Holstein
final score. Journal of Dairy Science, Champaign, v. 93, n. 2, p. 74352, 2010.
ALMASY, L.; BLANGERO, J. Multipoint quantitative-trait linkage analysis
in general pedigrees. The American Journal of Human Genetics, Chicago,
v. 62, n. 5, p. 1198-1211, 1998.
ANDERSON, D. R.; BURNHAM, K. P.; THOMPSON, W. L. Null
hypothesis testing: problems, prevalence, and an alternative. Journal of
Wildlife Management, Bethesda, v. 64, p. 912-923, 2000.
AKAIKE, H. A new look at the statistical model identification. IEEE
Transaction on Automatic Control, v. 19, p. 716-723, 1974.
AULCHENKO, Y. S.; KONNING, D.; HALEY, C. Grammar: a fast and
simple method for genome-wide pedigree-based quantitative trait loci
association analysis. Genetics, Austin, v. 177, p. 577-585, 2007.
CHIB, S.; GREENBERG, E. Understanding the metropolis-hastings
algorithm. The American Statistician, Washington, DC, v. 49, n. 4, p.
327-335, 1995.
CRUZ, C. D.; GOD, P. I. V. ; BHERING, L. L. Mapeamento de QTLs em
populaes exogmicas. In: BORM, A.; CAIXETA, E. T. (Org.).
Marcadores Moleculares. 2. ed. Viosa, MG: Folha de Viosa, 2009. v.
1. p. 443-481.
CAMPOS, G. de los; GIANOLA, D.; ROSA, G. J. M. Reproducing kernel
Hilbert spaces regression: a general framework for genetic evaluation.
Journal of Animal Science, Champaign, v. 87, p.1883-1887, 2009a.
CAMPOS, G. de los; NAYA, h.; GIANOLA, D.; CROSSA, J.; LEGARRA,
A.; MANFREDI, E.; WEIGEL, K.;COTES, J. M. Predicting quantitative
traits with regression models for dense molecular markers. Genetics,
Austin, v. 182, p. 375-385, 2009b.
101
102
103
104
105
CGPE 9678