Anda di halaman 1dari 107

ISSN 1980-3958

Dezembro, 2011

219

Mtodos estatsticos na
seleo genmica ampla

ISSN 1980-3958
Dezembro, 2011

Empresa Brasileira de Pesquisa Agropecuria


Embrapa Florestas
Ministrio da Agricultura, Pecuria e Abastecimento

Documentos 219

Mtodos estatsticos na
seleo genmica ampla
Marcos Deon Vilela de Resende
Fabyano Fonseca e Silva
Jos Marcelo Soriano Viana
Luz Alexandre Peternelli
Mrcio Fernando Ribeiro Resende Jr.
Patricio Muoz del Valle

Embrapa Florestas
Colombo, PR
2011

Embrapa Florestas
Estrada da Ribeira, Km 111, Guaraituba,
83411-000, Colombo, PR - Brasil
Caixa Postal: 319
Fone/Fax: (41) 3675-5600
www.cnpf.embrapa.br
sac@cnpf.embrapa.br
Comit Local de Publicaes
Presidente: Patrcia Pvoa de Mattos
Secretria-Executiva: Elisabete Marques Oaida
Membros: lvaro Figueredo dos Santos, Antonio Aparecido
Carpanezzi, Claudia Maria Branco de Freitas Maia, Dalva Luiz
de Queiroz, Guilherme Schnell e Schuhli, Lus Cludio Maranho
Froufe, Marilice Cordeiro Garrastazu, Srgio Gaiad
Superviso editorial: Patrcia Pvoa de Mattos
Reviso de texto: Mauro Marcelo Bert
Normalizao bibliogrfica: Francisca Rasche
Editorao eletrnica: Mauro Marcelo Bert
Capa: Mauro Marcelo Bert
1a edio
Verso digital (2011)
Todos os direitos reservados
A reproduo no-autorizada desta publicao, no todo ou em
parte, constitui violao dos direitos autorais (Lei no 9.610).
Dados Internacionais de Catalogao na Publicao (CIP)
Embrapa Florestas
Mtodos estatsticos na seleo genmica ampla [recurso eletrnico] /
Marcos Deon Vilela de Resende ... [et al.]. Dados eletrnicos -
Colombo : Embrapa Florestas, 2011.
(Documentos / Embrapa Florestas, ISSN 1980-3958 ; 219)
Sistema requerido: Adobe Acrobat Reader.
Modo de acesso: World Wide Web.
<http://www.cnpf.embrapa.br/publica/seriedoc/edicoes/doc219.pdf>
Ttulo da pgina da web (acesso em 10 abr. 2012).
1. Mtodos estatsticos. 2. Medio. 3. Melhoramento vegetal 4.
Melhoramento animal. 5. Marcador gentico. I. Resende, Marcos Deon
Vilela de. II. Silva, Fabyano Fonseca e. III. Viana, Jos Marcelo Soriano. IV.
Peternelli, Luz Alexandre. V. Resende Jnior, Mrcio Fernando Ribeiro. VI.
Muoz del Valle, Patricio. VII. Srie.

CDD 631.52 (21. ed.)

Embrapa 2011

Autores

Marcos Deon Vilela de Resende


Estatstico, Doutor,
Pesquisador da Embrapa Florestas
marcos.deon@ufv.br
Fabyano Fonseca e Silva
Zootecnista, Doutor,
Professor da UFV
fabyanofonseca@ufv.br
Jos Marcelo Soriano Viana
Engenheiro Agrnomo, Doutor,
Professor da UFV
jmsviana@ufv.br
Luz Alexandre Peternelli
Engenheiro Agrnomo, Doutor,
Professor da UFV
peternelli@ufv.br
Mrcio Fernando Ribeiro Resende Jr.
Engenheiro Florestal, Mestre,
Estudante na Universidade da Flrida
mresende@ufl.edu
Patricio Muoz Del Valle
Engenheiro Florestal, Mestre,
Estudante na Universidade da Flrida
pmunoz@ufl.edu

Apresentao

A seleo genmica ampla (GWS) aumenta a eficincia e rapidez


do melhoramento gentico. Essa tecnologia fundamenta-se
na predio de fentipos com base na leitura de marcadores
genticos e uso de mtodos preditivos. Existem vrios mtodos
para aplicao na GWS. O presente documento contempla
mais de uma dezena desses mtodos contemplando a teoria,
a computao e a aplicao a dados simulados. Assim, seu
contedo abrangente e pode servir como um guia importante
para os usurios da GWS.

Washigton L. E. Magalhes
Chefe de Pesquisa e Desenvolvimento

Sumrio

Descrio genrica dos mtodos de seleo genmica


ampla (GWS)................................................................9
Mtodos de estimao penalizada.................................16
Mtodos de Estimao bayesiana (BayesA, BayesB, Fast
BayesB, BayesC, BayesD)........................................26
Lasso bayesiano e Lasso bayesiano Melhorado (BLASSO e
IBLASSO)...................................................................40
Regresso Kernel Hilbert Spaces (RKHS)........................51
Regresso via quadrados mnimos parciais (PLSR)...........58
Relao entre RR-BLUP, BLASSO e IBLASSO.................60
Anlise simultnea de indivduos genotipados e no
genotipados via GBLUP................................................67
Anlise de associao genmica ampla (GWAS).............72
Associao genmica ampla (GWAS) em humanos.........77
Comparao entre 12 mtodos de seleo genmica
ampla........................................................................84
Pesos das marcas nos diferentes mtodos e frequncias
allicas......................................................................89
Formas de parametrizao da matriz de incidncia
genotpica.................................................................91

Imputao de gentipos marcadores..............................93


Aumento na eficincia seletiva do melhoramento de plantas
e animais...................................................................97
Referncias..............................................................100

Mtodos estatsticos na
seleo genmica ampla
Marcos Deon Vilela de Resende
Fabyano Fonseca e Silva
Jos Marcelo Soriano Viana
Luz Alexandre Peternelli
Mrcio Fernando Ribeiro Resende Jr.
Patricio Muoz del Valle

Descrio genrica dos mtodos de


seleo genmica ampla (GWS)
Os estudos de associao genmica ampla (Genome Wide
Association Studies - GWAS) e seleo (ou estimao) genmica
ampla (Genome Wide Selection - GWS) so importantes no
melhoramento gentico de animais e plantas e tambm na
gentica humana. No melhoramento gentico, a GWS aumenta a
eficincia e rapidez do processo seletivo. Em gentica humana,
as ferramentas da GWS propiciam a medicina personalizada
ou medicina genmica (WRAY, 2005; WRAY et al., 2007;
GODDARD et al., 2009; CAMPOS et al., 2010; MAKOWSKY
et al., 2011), a qual fundamenta-se na predio de fentipos
com base na leitura de marcadores genticos e uso de mtodos
preditivos. As predies geradas so usadas na diagose,
preveno e tratamento das doenas.
Um mtodo ideal para GWS deve contemplar trs atributos:
(i) acomodar a arquitetura gentica do carter em termos de
genes de pequenos e grandes efeitos e suas distribuies; (ii)
realizar a regularizao do processo de estimao em presena
de multicolinearidade e grande nmero de marcadores, usando
para isso estimadores do tipo shrinkage; (iii) realizar a seleo de
covariveis (marcadores) que afetam a caracterstica em anlise.

10

Mtodos estatsticos na seleo genmica ampla

O problema principal da GWS a estimao de um grande


nmero de efeitos a partir de um limitado nmero de
observaes e tambm as colinearidades advindas do
desequilbrio de ligao entre os marcadores. Os
estimadores do tipo shrinkage lidam adequadamente com
isso, tratando os efeitos de marcadores como variveis
aleatrias e estimando-os simultaneamente (Resende et al.,
2008).
Os principais mtodos para a GWS podem ser divididos em
trs grandes classes: regresso explcita, regresso
implcita e regresso com reduo dimensional. Na primeira
classe, destacam-se os mtodos RR-BLUP, LASSO (Least
Absolute Shrinkage and Selection Operator), Rede Elstica
(Elastic Net EN), BayesA e BayesB, dentre outros. Na
classe de regresso implcita, citam-se os mtodos RKHS
(Reproducing Kernel Hilbert Spaces, que um mtodo
semi-paramtrico, assim como o mtodo de redes neurais)
(GIANOLA; CAMPOS, 2009) e regresso kernel no
paramtrica via modelos aditivos generalizados (GIANOLA
et al., 2006). Dentre os mtodos de regresso com reduo
dimensional, destacam-se o de quadrados mnimos parciais
e de componentes principais. A Tabela 1 ilustra os mtodos
para GWS.

Mtodos estatsticos na seleo genmica ampla

Tabela 1. Classificao dos Mtodos para GWS.


Classe

Famlia

Mtodo

RR-BLUP/GWS

Mtodos de
estimao
penalizada
(Regresso
linear)

LASSO

EN

Regresso
explcita

RR-BLUPHet/GWS

BayesA

Mtodos de
estimao
bayesiana
(Regresso no
linear)

BayesB

Fast BayesB

BayesC

Atributos
Regularizao,
Arquitetura
gentica
homognea,
Seleo indireta de
covariveis
Regularizao,
Arquitetura
gentica
homognea,
Seleo direta de
covariveis
Regularizao,
Arquitetura
gentica
homognea,
Seleo direta de
covariveis
Regularizao,
Arquitetura
gentica flexvel,
Seleo indireta de
covariveis
Regularizao,
Arquitetura
gentica flexvel,
Seleo indireta de
covariveis
Regularizao,
Arquitetura
gentica flexvel,
Seleo direcionada
de covariveis
Regularizao,
Arquitetura
gentica flexvel,
Seleo direcionada
de covariveis
Regularizao,
Arquitetura

11

12

Mtodos estatsticos na seleo genmica ampla

BayesD

Regresso
explcita

Mtodos de
estimao
bayesiana
(Regresso no
linear)

BLASSO

IBLASSO

Regresso
implcita

Regresso
com reduo
dimensional

gentica
homognea,
Seleo direta de
covariveis
Regularizao,
Arquitetura
gentica flexvel,
Seleo direta de
covariveis
Regularizao,
Arquitetura
gentica flexvel,
Seleo direta de
covariveis
Regularizao,
Arquitetura
gentica flexvel,
Seleo direta de
covariveis

Regresso
Kernel
RKHS
Redes neurais
Quadrados
mnimos
parciais
Componentes
principais

Os mtodos de regresso implcita so divididos em dois


grupos: (i) mtodos de estimao penalizada (RR-BLUP,
LASSO, EN, RR-BLUP-Het); (ii) mtodos de estimao
bayesiana (BayesA, BayesB, Fast BayesB, BayesC,
BayesD, BLASSO, IBLASSO e outros) (Tabela 1). Os
estimadores penalizados so obtidos como soluo para um
problema de otimizao, em que a funo objetivo (funo
cujo valor minimizado ou maximizado, dependendo do
problema e objetivo) definida pelo balano entre preciso
do ajuste (soma de quadrado dos resduos) e complexidade

Mtodos estatsticos na seleo genmica ampla

do modelo (componente de penalizao). Os mtodos de


estimao penalizada diferem de acordo com as funes de
penalizao usadas, as quais produzem diferentes graus de
shrinkage. Esse encurtamento previne a superparametrizao e pode conduzir reduo do erro
quadrtico mdio de estimao.
Os mtodos bayesianos esto associados a sistemas de
equaes no lineares e as predies no lineares podem
ser melhores quando os efeitos de Quantitative trait loci
(QTL) no so normalmente distribudos, devido presena
de genes de efeitos maiores. As predies lineares
associadas ao RR-BLUP assumem que todos os marcadores
com mesma frequncia allica contribuem igualmente para
a variao gentica (ausncia de genes de efeitos maiores).
Na estimao bayesiana, o encurtamento das estimativas
dos efeitos do modelo controlado pela distribuio a priori
assumida para esses efeitos. Diferentes prioris induzem a
diferentes encurtamentos. Os mtodos de estimao
penalizada e os bayesianos podem ser com (BayesB, Fast
BayesB,BayesC, BayesD, LASSO, BLASSO, IBLASSO) ou
sem (RR-BLUP, EN, RR-BLUP-Het, BayesA) seleo direta
de covariveis. Os mtodos bayesianos so superiores
quando a distribuio dos efeitos dos QTL leptocrtica
(curtose positiva), devido presena de genes de grandes
efeitos. Com distribuio normal dos efeitos dos QTL, o
mtodo RR-BLUP igualmente eficiente.
Comparaes entre os mtodos de predio de valores
genticos genmicos tm sido realizadas. Meuwissen et al.
(2001) concluram pela superioridade terica do mtodo
BayesB, o qual mostrou-se ligeiramente superior ao RRBLUP. Entretanto, o autor simulou os dados genotpicos
segundo a mesma distribuio a priori empregada no
processo de estimao. Isso conduziu a acurcias mais
elevadas por esse mtodo, as quais podem no ser

13

14

Mtodos estatsticos na seleo genmica ampla

realsticas na prtica, se a distribuio real associada aos


efeitos genticos diferir da distribuio a priori assumida na
anlise.
Comparando mtodos bayesianos, Habier et al. (2011)
relataram que o mtodo BayesA mostrou-se superior na
maioria das situaes, mas nenhum dos mtodos
bayesianos so claramente superiores em todas as
situaes. Entretanto, BayesB, BayesC e BayesD
apresentam a vantagem de propiciar informao sobre a
arquitetura gentica do carter quantitativo e identificar as
posies de QTL por modelagem da frequncia de Single
nucleotide polymorphism( SNP) no nulos. Tambm Mrode
et al. (2010) concluram pela superioridade do BayesA e
Fast BayesB sobre o BayesB.
O mtodo Fast BayesB foi desenvolvido por Meuwissen et
al. (2009), visando diminuir o tempo de computao do
mtodo BayesB, originalmente implementado via simulao
estocstica por meio de procedimento Monte Carlo Cadeia
de Markov (MCMC). Esses autores derivaram um estimador
no MCMC por meio de integrao analtica. Esse mtodo
aproxima bem o mtodo original e muito mais rpido.
Mrode et al. (2010) obtiveram, na prtica, uma ligeira
superioridade do Fast BayesB sobre o BayesB.
Os mtodos BayesA e RR-BLUP em associao com um
mtodo de seleo de marcadores propiciam tambm
informao sobre a arquitetura gentica do carter
quantitativo. E essa seleo de covariveis pode ser feita
por meio da GWAS a posteriori (GWAS-PSE, conforme
detalhado em tpico seguinte) e tambm pelo ordenamento
do mdulo dos efeitos estimados de marcadores.
Com distribuio exponencial e poucos efeitos com valor
zero, o melhor estimador dos efeitos allicos denominado

Mtodos estatsticos na seleo genmica ampla

LASSO (TIBSHIRANI, 1996). Entretanto, com muitos


efeitos com valor zero, o LASSO no adequado. Usai et
al. (2009) compararam o LASSO com BLUP e BayesA
empregando 156 SNPs significativos. As acurcias obtidas
foram das ordens de 0,89, 0,75 e 0,84, respectivamente.
Assim, o LASSO uma boa opo quando se usa um
nmero limitado de marcadores.
Gonzalez-Recio et al. (2008) compararam o mtodo no
paramtrico ou semi-paramtrico Reproducing Kernel
Hilbert Spaces (RKHS) com a regresso bayesiana e RRBLUP em termos de eficincia na seleo genmica.
Concluram que o mtodo da regresso RKHS apresentou
melhor capacidade preditiva do que os demais. Espao de
Hilbert (Hilbert Spaces) um conceito muito usado em
fsica estatstica (fsica quntica) ou mecnica estatstica
(mecnica quntica) associado ao tema entropia, ou medida
de desordem ou imprevisibilidade de um sistema (SALINAS,
2005). Tambm so emprestados da fsica estatstica os
conhecimentos da distribuio de Gibbs, usados na
implementao da anlise bayesiana.
Mtodos de regresso com reduo dimensional
regresso via quadrados mnimos parciais (PLSR) e
regresso via componentes principais (PCR) foram
avaliados por Solberg et al. (2009). Concluram que esses
so mais simples e rpidos computacionalmente, porm
menos acurados que o BayesB, com acurcias da ordem de
0,68 (PLSR e PCR) e 0,84 (BayesB).
Um procedimento BLASSO melhorado (IBLASSO ou
Improved Bayesian Lasso) foi proposto por Legarra et al.
(2011). O IBLASSO apresenta capacidade preditiva superior
ao BLASSO e similar ao RR-BLUP-Het e BayesA com
distribuies a priori no informativas para os efeitos
aleatrios e componentes de varincia.

15

16

Mtodos estatsticos na seleo genmica ampla

Com base no exposto e nos resultados de literatura


relatados, verifica-se que na classe dos mtodos de
regresso explcita, o BayesA, o LASSO bayesiano
Melhorado (IBLASSO) e o RR-BLUP so os mtodos
favoritos quando o modelo polignico infinitesimal se
aplica. Na presena de genes de grande efeito, o mtodo
RR-BLUP necessita ser modificado de forma a permitir
heterogeneidade de varincia gentica entre locos; isso
gera o mtodo RR-BLUP-Het. Adicionalmente, os mtodos
BayesA, RR-BLUP e RR-BLUP-Het necessitam ser
complementados com a seleo de covariveis por meio de
alguma forma de GWAS. As varincias genticas de cada
loco, necessrias no mtodo RR-BLUP-Het, podem ser
estimadas via os mtodos BayesA (por meio de MCMC) ou
IBLASSO.
O presente documento contempla os mtodos BayesA,
BayesB, Fast BayesB, BayesC, BLASSO, IBLASSO, RRBLUP, RR-BLUP-Het, MCMC-BLUP, PLSR, e RKHS. Esses
mtodos propiciam, em determinadas situaes, os trs
atributos desejveis de acomodao da arquitetura gentica
do carter, regularizao da estimao e seleo de
covariveis.

Mtodos de estimao penalizada


Em um problema de regresso tem-se que a varivel
dependente y dada como funo de uma varivel
preditora (x) e vetor de erros aleatrios (e), segundo o

modelo y = ' x + e . No contexto da seleo genmica


define-se x como um vetor de gentipos marcadores
codominantes geralmente codificados como 0, 1 ou 2, de
acordo com o nmero de cpias de um dos alelos do loco
marcador, e definido como um vetor de coeficientes de
regresso que contemplam os efeitos dos marcadores no

Mtodos estatsticos na seleo genmica ampla

17

carter fenotpico y, via desequilbrio de ligao com os


genes que o controlam.
Usando esperana condicional, a equao de regresso
dada por:

y = ' x = E(y | x)
Isso implica que

= E ( | x, y ) = [ p ( ) p ( y | , x ) d ] /[ p ( ) p ( y | , x ) d ]
em que

p( ) a funo densidade de probabilidade de e


p(y | , x) a funo de verossimilhana de y.
Assim, a predio de y depende de p( ) , ou seja, da
distribuio dos efeitos (via LD com os QTLs) dos
marcadores. Essa distribuio pode ser tratada como
informao ou distribuio a priori no contexto bayesiano
ou como varivel aleatria no contexto frequentista. Se

~ N( 0, 2 ) , BLUP de e y BLUP de y. Isto implica


que os efeitos de todos os marcadores so tomados da
mesma distribuio. Alternativamente, pode ser assumido

i ~ N( 0, 2 )

i
, em que
tomado de uma
que
distribuio qui-quadrado invertida, segundo o enfoque
bayesiano. Nesse caso, isso implica que grande nmero de
marcadores apresenta efeitos pequenos e poucos
marcadores apresentam efeitos grandes.

Esse mtodo BLUP para os coeficientes de regresso


denominado regresso aleatria ou regresso de cumeeira
(Ridge regression) (RR-BLUP). Os coeficientes de regresso

18

Mtodos estatsticos na seleo genmica ampla

ridge so definidos como aqueles que minimizam a soma de


quadrados penalizada dada por:
N

i=1

i=1

( 1 / N) (y j xij i )2 + RR (t) i2 , em que o


RR
parmetro de penalizao (associado ao shrinkage) ou
parmetro ridge, n o nmero de marcadores e N o
nmero de indivduos. O primeiro termo da equao a
soma de quadrados dos resduos da regresso (medida da
falta de ajuste do modelo) e o segundo termo a
penalizao, a qual depende da magnitude dos coeficientes
n

de regresso via

2
i

. Por meio da funo de penalizao,

i =1

um grande valor de cria um maior custo para de grande


valor, levando-o a encolher mais. Ocorre ento a
minimizao da soma de quadrados dos resduos, sujeita
n

restrio

2
i

t . A soluo para esse problema de

i=1

otimizao conduz a = [X' X + RR (t)I] 1 X' y .


Outro mtodo relacionado o LASSO, que combina
shrinkage (regularizao) com seleo de variveis e
envolve o seguinte problema de otimizao, via
N

i=1

i=1

2
minimizao de ( 1 / N) (y j xij i ) + L | i | , em que
n

| | a soma dos valores absolutos dos coeficientes de


i

i=1

regresso. As solues em que os coeficientes de


regresso se distanciam de zero sofrem penalizao. Ocorre
ento a minimizao da soma de quadrados dos resduos,
n

sujeita a restrio

| | t . O componente | |
i

i=1

i=1

Mtodos estatsticos na seleo genmica ampla

regulariza a regresso sem penalizar muito. O parmetro de


suavizao L controla a intensidade da regularizao.
Para computao do Lasso, Tibshirani (1996) props o
mtodo de programao quadrtica, o qual muito
complexo. A escolha do L de capital importncia, pois o
mesmo influencia o tamanho do grupo de marcadores
selecionados. medida que L tende a zero a soluo
converge para mtodo de regresso fixa via quadrados
mnimos (FR-LS), ou seja, para = (X' X)1 X' y . Nesse
caso, no h seleo de covariveis e a predio torna-se
instvel. Valores muito altos de L reduzem muito os
valores dos coeficientes de regresso. Para cmputo de
L de forma otimizada, Usai et al. (2009) propuseram o
algoritmo da regresso de ngulo mnimo (LARS) associado
a um passo de validao cruzada. O LASSO pode ser
implementado tambm via abordagem bayesiana, em que
BL controla a preciso da distribuio a priori atribuda aos
coeficientes de regresso.
Dois atributos importantes de um mtodo estatstico de
regresso ou modelo de predio so a acurcia preditiva e
a capacidade de interpretao. O mtodo de quadrados
mnimos falha nos dois aspectos. um mtodo no
viesado, mas pode apresentar estimativas com alta
varincia e, portanto, no apresenta mnimo erro quadrtico
mdio e nem alta acurcia. O mtodo RR apresenta
pequeno vis e alta acurcia preditiva propiciada pelo
shrinkage, o qual regulariza a estimao e melhora a
estabilidade da soluo. Ambos os mtodos no produzem
modelos interpretveis, pois no selecionam covariveis.
Um terceiro mtodo, denominado seleo de subconjunto
de covariveis (como o Garrote de Breiman) produz
modelos interpretveis, porm, com muita variabilidade nos
resultados, pois se trata de um processo discreto. O

19

20

Mtodos estatsticos na seleo genmica ampla

mtodo Lasso foi proposto para conciliar esses dois


atributos desejveis (acurcia preditiva e capacidade de
interpretao). Portanto, mantm a estabilidade da RR e
produz modelos interpretveis (pois produz alguns
coeficientes que so exatamente zero) como o mtodo de
Breiman. Conforme Tibshirani (1996), os trs mtodos
podem ser assim comparados:
a. Situao de pequeno nmero de grandes efeitos
(controle gentico por poucos genes de grandes
efeitos): Garrote de Breiman melhor, seguido por
Lasso e RR.
b. Situao de moderado nmero de moderados
efeitos: Lasso melhor, seguido por RR e Garrote de
Breiman.
c. Situao de grande nmero de pequenos efeitos
(controle gentico por muitos genes de pequenos
efeitos): RR melhor por pequena margem, seguido
por Lasso e Garrote de Breiman.
Detalhes dos mtodos de estimao penalizada
a. Regresso Ridge (RR-BLUP)
O mtodo RR genmico foi proposto por Whittaker et al.
(2000).
Funo objetivo a ser minimizada:
n
n
N

RR = argmin (y j xij i )2 + RR i2
i=1
i=1

Mtodos estatsticos na seleo genmica ampla

Funo de penalizao, restrio ou regularizao:


n

RR i2
i =1

Soluo para os coeficientes de regresso:

= [X' X + RR (t)I] 1 X' y


Soluo para os efeitos genticos aditivos (a) dos
indivduos:

a = X = X[X' X + RR (t)I] 1 X' y


Caractersticas:
- Mantm todas as covariveis, conduzindo a modelos
complexos.
- Produz bons resultados para o caso de muitos marcadores
de pequenos efeitos.
- Previne problema de multicolinearidade (que conduziria a
estimativas imprecisas) entre marcadores correlacionados.
- Regressa os coeficientes de preditores correlacionados
igualmente na direo de zero e de cada um.
-

2
i

a norma de penalizao em .

i =1

- Quanto maior o valor de lambda (parmetro de sintonia ou


complexidade, que regula a fora da penalizao ou
shrinkage), maior o encurtamento.

21

22

Mtodos estatsticos na seleo genmica ampla

- Se lambda estimado por REML, a RR torna-se BLUP e


tem-se o mtodo RR-BLUP e
RR = e2 / ai2 = e2 / m2 = e2 /( a2 / nQ ) = ( 1 h 2 ) /(h 2 / nQ ) = nQ ( 1 h 2 ) /(h 2 )

e h 2 = nQ /(nQ + RR ) , em que nQ = 2

p ( 1 p ) ou
i

nmero de QTL, onde h2 corresponde herdabilidade do


2
carter, a a varincia gentica aditiva do carter e e2
a varincia residual.
- Se a matriz de parentesco A for computada via
informao de marcadores e utilizada no mtodo BLUP
fenotpico tradicional, tem-se o mtodo denominado GBLUP
ou BLUP genmico, que equivalente ao RR-BLUP em
termos da predio dos efeitos aditivos a. Assim, tem-se
para o GBLUP:

a = [ZZ + A1 ( e2 / a2 )] 1 y , em que Z a matriz de


incidncia dos indivduos e y vetor de fentipos corrigidos
para os efeitos fixos.
n

A = (XX' ) / [ 2 pi ( 1 pi ) ] , em que pi a frequncia de


i

um dos alelos do loco i e X* refere-se matriz X corrigida


para suas mdias em cada loco (2pi).
Tem-se ento a equivalncia

a = X = X[X' X + RR (t)I] 1 X' y = [ZZ + A1 ( e2 / a2 )] 1 y .


b. LASSO
Funo objetivo a ser minimizada:

Mtodos estatsticos na seleo genmica ampla

n
n
N

L = argmin (y j xij i )2 + L | i |
i=1
i=1

Funo de penalizao:
n

L | i |
i=1

Caractersticas:
- Mantm as covariveis mais significativas e remove as
demais.
-

| | a norma de penalizao em
i

(com base em

i=1

valores absolutos de ) e induz esparsidade na soluo,


conduzindo a seleo de covariveis e shrinkage,
simultaneamente.
n

L | i |

i=1
regulariza o ajuste de quadrados mnimos e
regressa alguns coeficientes a zero. Essa formulao do

regularizador faz com que o Lasso regresse de forma


mais forte que o RR-BLUP, conduzindo alguns coeficientes
a zero.
-

Instvel com dados de alta dimenso, pois no pode


selecionar mais covariveis (n) do que do que o
tamanho amostral (N) e, nesse caso, seleciona
arbitrariamente um membro de um grupo de
covariveis altamente correlacionadas.

No possui a propriedade orculo ou de retido, que


se refere a coeficientes no zero assintoticamente

23

24

Mtodos estatsticos na seleo genmica ampla

no viesados, normalidade assinttica e seleo


consistente de covariveis medida que N e n
tendem a infinito.
-

O mtodo Lasso adaptativo foi proposto visando


atingir a propriedade orculo, mas mantm a
instabilidade com dados de alta dimenso.

c. Rede elstica (EN)


Funo objetivo a ser minimizada:
n
n
N

n

EN = argmin (y j xij i )2 + EN i2 + ( 1 )| i |
i=1
i=1
i=1

Funo de Penalizao:
n
n

EN i2 + ( 1 )| i | ou
i=1
i=1

EN | i |q
i=1

Caractersticas:
- Se = 0, EN = LASSO ou se q = 1, EN = LASSO.
- Se = 1, EN = RR ou se q = 2, EN = RR.
- Se 1 q 2 | tem-se EN.
- varia entre 0 e 1 e maior que 0.
- Usa duas penalizaes: a norma de penalizao do Lasso
para a seleo de covariveis e a norma de penalizao da

Mtodos estatsticos na seleo genmica ampla

RR para estabilizar a soluo (quando as covariveis so


altamente correlacionadas) e melhorar a predio.
- O comportamento semelhante ao Lasso, mas robusta
extrema colinearidade entre as covariveis.
- Permite selecionar um nmero de covariveis maior que o
tamanho da amostra (N).
- No possui a propriedade orculo.
- O mtodo Rede elstica adaptativa foi proposto visando
atingir a propriedade orculo do Lasso adaptativo e a
robustez do mtodo EN extrema colinearidade entre as
covariveis (ZOU; HASTIE, 2005).
d. Regresso Ridge com heterogeneidade de varincias
entre locos marcadores (RR-BLUP-Het)
Soluo para os coeficientes de regresso:

= [X' X + RR (t)I] 1 X' y


h

- similar ao RR-BLUP, mas mesmo para marcas de mesma


frequncia, regressa os coeficientes de regresso
diferentemente na direo de zero.
- Os fatores de penalizao dos marcadores no sistema de
equaes de modelo misto so dados pelos elementos RR

do vetor RR , em que i refere-se ao loco i.


h

- Os elementos RR podem ser obtidos via os mtodos


i

bayesianos ou REML e usados para cmputo do mtodo


RR-BLUP-Het.

25

26

Mtodos estatsticos na seleo genmica ampla

Mtodos de Estimao bayesiana


(BayesA, BayesB, Fast BayesB,
BayesC, BayesD)
BayesA
O mtodo BayesA proposto por Meuwissen et al. (2001)
produz resultados similares ao mtodo BLUP com varincias
heterogneas, pois as varincias dos segmentos
cromossmicos diferem para cada segmento e so
estimadas sob esse modelo, considerando a informao
combinada dos dados (funo de verossimilhana) e da
distribuio a priori para estas varincias. Neste caso, o
modelo ajustado por meio de uma abordagem bayesiana
com estrutura hierrquica em dois nveis. Os efeitos dos
marcadores so assumidos como amostras de uma
distribuio normal com mdia zero e varincia de cada
marcador dada por uma distribuio qui-quadrado inversa e
escalonada, conforme apresentado a seguir:

i | i2 ~ N( 0, i2 )
i2 ~ 2 ( , S 2 )
em que o nmero de graus de liberdades e S 2 o
parmetro da escala de distribuio. Tem-se que a
distribuio marginal a priori dos efeitos genticos dos
marcadores, i | , S 2 , tem distribuio t de Student
univariada, ou seja, i | , S 2 ~ t( 0, , S 2 ) . Assim, esta
formulao resulta na modelagem dos efeitos dos
marcadores como amostras de uma distribuio t de
Student.

Mtodos estatsticos na seleo genmica ampla

O valor de S 2 pode ser derivado com base no valor


esperado de uma varivel aleatria com distribuio quiquadrado invertida escalonada. Essa esperana matemtica
dada por E( 2 ) =

S 2
. Assim, o parmetro de escala
2

E( 2 )( 2 )
. Ento, para os efeitos

S 2
e
genticos dos marcadores tem-se E( i2 ) =
2

dado por S 2 =

S 2 =

E( i2 )( 2 )

E( i2 ) =

. A esperana E( i2 ) equivale a

a2

. Assim,

2p ( 1 p
i

i=1

S 2 =

( 2 )

a2
n

2p ( 1 p
i

, em que = 4,012 ou 4,2,

i=1

conforme Meuwissen et al. (2001), a2 a varincia


gentica aditiva do carter e pi a frequncia allica do
marcador i. Meuwissen et al. (2001)
consideraram S 2 = 0,002 ou 0,0429 . Isto descreve uma
distribuio moderadamente leptocrtica. Qualquer valor
maior que 4 pode ser usado para . Valores menores ou
iguais a 4 tornam -se a priori flat (no informativa).

27

28

Mtodos estatsticos na seleo genmica ampla

Para os efeitos residuais tem-se E( e2 ) =

S e2 e
e
e 2

E( e2 )(e 2 )
. A esperana E( e2 ) equivale
S =
e
( 2 ) ~ 2 ( 4.2 2 )
, em que
E( e2 ) = ~e2 . Assim, S e2 = ~e2 e
= e
e
4.2
~ 2 um valor a priori de 2 .
2
e

2
Assumido i ~ N (0, i ) , em que i tomado de uma
distribuio qui-quadrado invertida, segundo o enfoque
bayesiano, isso implica que grande nmero de marcadores
apresenta efeitos pequenos e poucos marcadores
apresentam efeitos grandes. O uso de uma mistura de
distribuies normal e qui-quadrado invertida conduz a uma
distribuio t para e, portanto, com maior pico em zero e
uma cauda mais longa que a distribuio normal. Este
mtodo pode ser implementado via amostragem de Gibbs,
para obteno dessa informao combinada ou da
distribuio a posteriori das varincias.

Os mtodos associados a modelos hierrquicos bayesianos


(BayesA e B) por meio de suas formulaes em termos dos
hiperparmetros propiciam varincias especficas para cada
marcador. RR-BLUP so funes lineares dos dados e
regressam as estimativas com o mesmo erro padro
(mesmas frequncias allicas e tamanho amostral) pela
mesma quantidade. Prioris Gaussianas conduzem a
shrinkage homogneo atravs dos marcadores. Os mtodos
bayesianos so funes no lineares dos dados e
regressam efeitos menores mais do que os maiores, ou
seja, admitem maiores herdabilidades para os maiores
efeitos.

Mtodos estatsticos na seleo genmica ampla

O shrinkage homogneo no desejvel, pois alguns


marcadores esto ligados a QTLs e outros no esto. Mas
assumindo uma distribuio a priori t escalonada ou dupla
exponencial para os efeitos de marcadores tem-se os
mtodos BayesA e BLASSO, respectivamente, os quais
produzem shrinkage especficos de acordo com o tamanho
do efeito e da varincia do marcador.
Alm das distribuies consideradas para os efeitos
aleatrios no modelo linear frequentista e para a
verossimilhana do vetor de observaes, a abordagem
bayesiana requer atribuies para as distribuies a priori
dos efeitos e componentes de varincia. Essas distribuies
podem ser informativas, conforme acima, ou no
informativas. Distribuio a priori no informativa ou
uniforme pode ser atribuda a esses componentes,
refletindo conhecimento a priori vago. Para os
componentes de varincia, distribuies 2 invertidas
podem ser consideradas como priori e, considerando
i = -2 e Si2 = 0, a distribuio 2 se torna uniforme e,
portanto, no informativa. A vantagem de usar distribuio
qui-quadrado invertida como priori para os componentes de
varincia refere-se ao fato de que, com dados com
distribuio normal, a distribuio a posteriori tambm
uma qui-quadrado invertida.
Considere o seguinte modelo:
y = 1u + X + e, onde:
y : vetor de dados fenotpicos.
u : mdia geral.
: vetor de efeitos genticos aditivos (aleatrios) de
marcadores.

29

30

Mtodos estatsticos na seleo genmica ampla

e : vetor de erros.
1,X : matrizes de incidncia que associam u e aos
dados fenotpicos (y).
Considera-se, inicialmente, que a distribuio condicional
2
dos dados u, e e normal multivariada:

y , , e2 ~ N (1 + X , I e2 ) , onde I a matriz identidade

e e2 a varincia residual.
Os parmetros de interesse para inferncias so:
, , i2 e e2 . Para conduzir a anlise bayesiana, torna-se
necessrio especificar as distribuies a priori para
, i2 e e2 . Isto j foi realizado anteriormente. Definidas
estas distribuies, pode-se agora escrever a distribuio
conjunta a posteriori dos parmetros do modelo.
p ( , , 2i , e2 y ) p ( , , 2i , e2 ) p ( y , , 2i , e2 )

= p ( ) p ( i 2i ) p ( 2i ) p ( e2 ) p ( y , , 2i , e2 )

Considerando a distribuio a priori dos componentes de


varincia como uma qui-quadrado escalonada invertida,
tem-se que a distribuio conjunta a posteriori pode ser
reescrita:
p ( , , 2i , e2 y ) e2

2i

N + e

+1
2

n +

+1
2

( y 1 X )' ( y 1 X )+ e S e2
exp

2 e2

( ' + S 2
exp

2 2i

Para implementao do GS, deve-se derivar todas as


distribuies condicionais a posteriori a partir da

Mtodos estatsticos na seleo genmica ampla

distribuio conjunta a posteriori. A distribuio condicional


a posteriori de i2 dada por uma qui-quadrado invertida
escalonada por S 2 + i ' i e com graus de liberdade , ou
seja P( i2 | i ) = 2 ( , S 2 + i ' i ) . No se pode usar essa
distribuio a posteriori diretamente para estimar i2 , pois
ela condicional aos efeitos i que so desconhecidos.
Assim, a tcnica de amostragem de Gibbs, baseada em
distribuies a posteriori condicional a todos os outros
efeitos, usada para estimar os efeitos i e suas
varincias.
Ento, para obteno da informao combinada da
distribuio a priori e da verossimilhana dos dados, ou
seja, para obteno da distribuio a posteriori dos efeitos
genticos dos marcadores, adota-se o procedimento de
simulao estocstica (mtodo Monte Carlo cadeias de
Markov MCMC) denominado amostragem de Gibbs.
Em termos mais simples, o algoritmo da amostragem de
Gibbs pode ser apresentado de forma resumida, conforme
Meuwissen et al. (2001) e Resende (2008):
1. Fornecer os valores iniciais dos parmetros de
locao e disperso do modelo. Estes valores
iniciais podem ser calculados atravs de
procedimentos padres tais como a estimao de
componentes de varincia por REML ou quadrados
mnimos. Considerando a mdia geral como nico
efeito fixo, pode-se calcular como a mdia
aritmtica das observaes. O vetor dos efeitos de
marcadores deve ser inicializado com um nmero
positivo de pequena magnitude.
2. Atualizar i2 para o i-simo marcador, amostrando-

31

32

Mtodos estatsticos na seleo genmica ampla

o da distribuio condicional completa


P( i2 | i ) = 2 ( , S 2 + i ' i ) com g = 4,2 e

S 2 calculado conforme a expresso acima.


3. Dados i e , calcular os valores de e via
e = ( y 1 X ) , em que X = [X1 X2 X3...] a matriz
de incidncia para os efeitos de marcadores. Ento,
atualize a varincia residual por meio da
amostragem de 2 (N 2, ei ' ei ) .
4. Amostrar, de uma distribuio normal com mdia
2
(1' y 1' X ) e varincia e /N , a mdia geral,
n

dada a atualizada varincia residual.


5. Amostrar, de uma distribuio com mdia

X ij' y X ij' Xij=0 X ij' 1n u


X ij' X ij + e2 / i2

e varincia

e2 /(X ij' X ij + e2 / i2 ) , todos os efeitos de


marcadores ij dado a amostragem mais recente da
mdia, e2 e i2 , em que Xij o vetor coluna de X
com efeitos ij . No caso, ij=0 equivale a com
efeito ij igualado a zero.
6. Repetir os passos de (2) a (5) at que se obtenha a
convergncia da cadeia.
De maneira genrica, na anlise bayesiana os seguintes
passos devem ser adotados: (i) especificao das
distribuies a priori para os efeitos e componentes de

Mtodos estatsticos na seleo genmica ampla

varincia; (ii) especificao da funo de verossimilhana


para o vetor de observaes (distribuio condicional dos
dados): (iii) obteno das distribuies conjuntas a
posteriori para os efeitos e componentes de varincia; (iv)
obteno das distribuies condicionais a posteriori para os
efeitos e componentes de varincia; (v) marginalizao das
distribuies condicionais a posteriori para os efeitos e
componentes de varincia. A marginalizao analtica
praticamente impossvel. Assim, tm sido usados mtodos
MCMC, como o amostrador de Gibbs, que atua por meio de
amostragem e atualizao de distribuies condicionais.
BayesB
O mtodo BayesB apresenta as mesmas suposies que o
BayesA para uma frao dos SNPs e assume que (1 - )
dos SNPs apresenta efeitos nulos. Um problema desse
mtodo a escolha da frao . Com a seleo de
covariveis baseada no mdulo de seus efeitos estimados,
os dois mtodos tendem a se equivaler. Na prtica, o
BayesA tem se mostrado superior ao BayesB com igual a
0,66 (HABIER et al., 2011; MRODE et al., 2010).
Para os efeitos dos QTLs, o mtodo BayesB usa uma
2
distribuio a priori com alta densidade em = 0 e
distribuio qui-quadrado invertida para 2 > 0 . Assim,
considera que em muitos locos no existe variao
gentica, ou seja, no esto segregando. Assim, a
distribuio a priori equivale a 2i ~ 2 ( , S 2 ) com
probabilidade e i2 = 0 com probabilidade (1 - ), em que
depende da taxa de mutao do gene. As quantidades
= 4,234 e S2 = 0,0429 usadas por Meuwissen et al.
(2001) produzem a mdia e varincia de i2 ,dado que

33

34

Mtodos estatsticos na seleo genmica ampla

i2 > 0 . Tais quantidades tambm dependem dos efeitos


mutacionais e precisam ser estimadas na prtica.
A distribuio a priori do mtodo BayesA no tem um pico
de densidade em i2 = 0 . Uma vez que no possvel uma
amostragem de i2 = 0 , o mtodo da amostragem de Gibbs
no pode ser usado no mtodo BayesB, pois no move
sobre todo o espao de amostragem. Assim, o algoritmo de
Metropolis-Hastings deve ser usado. Esse mtodo resolve
esse problema por meio da amostragem simultnea de
i e i2 . O amostrador de Metropolis-Hastings consiste em
gerar amostras sequenciais como meio de aproximar uma
distribuio da qual no h como amostrar diretamente. Tal
amostrador pode amostrar diretamente de qualquer
distribuio de probabilidade f(x), desde que a densidade
em x possa ser calculada. Detalhes da implementao
desse algoritmo so apresentados por Sorensen e Gianola
(2002) e Chib e Greenberg (1995).
A amostragem simultnea de i e i2 realizada da
distribuio P( i2 , i | y ) = P( i2 | y ).P(i | i2 , y ) , em que
y* denota o vetor de dados corrigido para os efeitos fixos e
para todos os efeitos genticos, exceto i .
Essa expresso indica que se deve amostrar i2 de

P( 2i y *) sem condicionar em i (em contraste com o


mtodo BayesA) e em seguida amostrar i de

P(i | i2 , y ) condicional a i2 e y*, como no mtodo


BayesA. A distribuio P( i2 | y ) no pode ser expressa
na forma de uma distribuio conhecida e ento deve-se
usar o algoritmo MH para amostrar essa distribuio. A

Mtodos estatsticos na seleo genmica ampla

distribuio a priori p( i2 ) usada como distribuio


auxiliar para sugerir atualizaes para a cadeia de MH.
Os mtodos bayesianos teoricamente propiciam acurcias
mais altas porque foram muitos efeitos de segmentos
cromossmicos a valores prximos a zero (BayesA) ou a
zero (BayesB) e as estimativas dos efeitos dos demais
segmentos cromossmicos so regressadas de acordo com
uma quantidade ditada pelas distribuies a priori dos
efeitos de QTL.
BayesC
Gianola et al. (2009) fazem uma anlise crtica dos
mtodos associados a modelos hierrquicos bayesianos
(BayesA e B) especificamente em relao s suas
formulaes em termos dos hiperparmetros que propiciam
varincias especficas para cada marcador. Segundo os
autores nenhum dos mtodos permite o aprendizado
bayesiano sobre essas varincias para prosseguir para
longe das prioris. Em outras palavras, os hiperparmetros
da priori para essas varincias sempre tero influncia na
extenso do shrinkage produzido nos efeitos dos
marcadores. O usurio do mtodo pode controlar a
quantidade de shrinkage apenas arbitrariamente, por meio
da variao nos parmetros e S (associados
distribuio qui-quadrado invertida). Segundo os autores, o
mtodo BayesB no bem formulado no contexto
bayesiano. Isto porque designar a priori que 2i = 0 , no
conduz necessariamente a i = 0, conforme inteno
original de Meuwissen et al. (2001), em que i o efeito
gentico do loco i. Sugere ento que o estado zero seja
especificado no mbito dos efeitos e no no das varincias.
Assim, probabilidade de mistura poderia ser atribuda
uma distribuio a priori Beta. Surge ento, o mtodo

35

36

Mtodos estatsticos na seleo genmica ampla

BayesC que vantajoso e permite especificar uma


distribuio a priori para , permitindo a modelagem da
distribuio dupla exponencial.
Vrios outros mtodos bayesianos foram propostos
(BayesC e BayesD, conforme Habier et al., 2011), todos
eles com o propsito de permitir o aprendizado bayesiano.
Habier et al. (2011) relataram que o mtodo BayesA
mostrou-se superior na maioria das situaes, mas que
nenhum dos mtodos bayesianos so claramente superiores
dentre eles; entretanto o BayesB, BayesD e especialmente
o BayesC apresentam a vantagem de propiciar informao
sobre a arquitetura gentica do carter quantitativo e
identificar as posies de QTL por modelagem da
frequncia de SNP no nulos.
No mtodo BayesC uma varincia comum especificada
para todos os locos. Adicionalmente, tratada como
uma incgnita com distribuio a priori uniforme (0,1)
caracterizando o mtodo BayesC, que equivale ento ao
mtodo RR-BLUP com seleo de covariveis e
implementado via MCMC. Tambm se igual a 1os
mtodos BayesC e RR-BLUP so iguais (se prioris vagas
so usadas).
A modelagem de muito interessante para a anlise de
associao. A maioria das marcas no est em desequilbrio
de ligao com os genes. Assim, necessria a seleo de
um grupo de marcas que est em associao com o
carter. O mtodo BayesB determina subjetivamente.
Usando a varivel indicadora i os mtodos BayesC e
BayesD modelam os efeitos genticos aditivos como
n

a j = i xij i , em que i = ( 0,1 ) . A distribuio de


i=1

= (1...n ) binomial com probabilidade . Esse modelo

Mtodos estatsticos na seleo genmica ampla

de mistura mais parcimonioso do que o mtodo BayesB.


Seguindo a hierarquia do modelo, uma distribuio deve ser
postulada para e deve ser uma Beta (LEGARRA et al.,
2011).
Se = 1 , no h seleo de marcas e o mtodo torna-se o
RR-BLUP implementado via MCMC (RR-BLUP bayesiano).
Para o caso da distribuio Beta com parmetros e ,
tem-se:
- Se = 0 e = 0: h problema na estimao, pois a
distribuio Beta torna-se mal definida.
- Se = 1 e = 1: tem-se uma distribuio Uniforme em
.
- Se = 1 e = 1010: tem-se prximo de zero e a
maioria das marcas ter efeito zero.
- Se = 108 e = 1010: tem-se quase fixado em 0,01 e
em torno de 1% das marcas ter efeito.
BayesD
O mtodo BayesD mantm varincias especficas para
cada loco e modela como uma varivel aleatria. O
mtodo BayesD difere do BayesA e BayesB por considerar
o parmetro de escala das prioris qui-quadrado invertidas
para as varincias especficas para cada loco como uma
incgnita com distribuio a priori Gama (1,1). Como o
desconhecido parmetro de escala comum a todos os
locos as informaes de todos os locos contribuem para a
sua posteriori e por meio desta para as posterioris das
varincias especficas de cada loco.
Adicionalmente, tratado como uma incgnita com
distribuio a priori Uniforme (0,1) produzindo os mtodos

37

38

Mtodos estatsticos na seleo genmica ampla

BayesC e BayesD. Em contraste, igual a um no


BayesA e pode ser da ordem de 0,01 no BayesB (HABIER
et al., 2011).
Uma comparao entre os mtodos bayesianos
apresentada na Tabela 2.
Tabela 2. Comparao entre os mtodos bayesianos.
Mtodo

BayesD

BayesC

Parmetros
que estima

Mtodo se = 1

i2 , i

BayesD

i=1

e2 ,

Modelo para os
efeitos genticos

a j = i xij i
n

a j = i x ij i
i=1

BayesC

a j = i xij i

2 , i , e2 ,

2 , i , e2

RR-BLUP bayesiano

i2 , i , e2

BayesA

i2 , e2

2 , e2

i=1

BayesB

a j = i x ij i

BayesC

( i = 1)

i=1

BayesA

a j = i x ij
i=1

RR-BLUP

a j = i x ij
i=1

Mtodos estatsticos na seleo genmica ampla

Fast BayesB
O mtodo Fast BayesB foi desenvolvido por Meuwissen et
al. (2009) visando diminuir o tempo de computao do
mtodo BayesB. Esses autores derivaram um algoritmo de
esperana condicional iterativa (ICE) para estimar i por
meio de integrao analtica. Os seguintes passos devem
ser adotados.
a) Calcular as observaes ajustadas, y i , que so
corrigidas para os efeitos de todos os outros
marcadores, usando a expresso y i = y

x
j i

j .

Estimar a estatstica suficiente


n

Yi = (xi' y (xi' x j ) j ) / N e 2 = e2 / N .
j i

b) Calcular i = E[i | Yi ] , que usado para atualizar a


soluo para o marcador i. A expresso para
cmputo de i = E[i | Yi ] usa a funo Delta Dirac
e apresentada por Meuwissen et al. (2009).
A natureza aproximada do algoritmo ICE devida ao fato
de y i e Yi no serem conhecidos e sim serem estimados.
Erros de estimao em y i e Yi ocorrem devido a erros de
estimao nos efeitos j dos outros marcadores.

39

40

Mtodos estatsticos na seleo genmica ampla

Lasso bayesiano e Lasso bayesiano


Melhorado (BLASSO e IBLASSO)
Os Lassos bayesianos so vantajosos em relao aos
mtodos bayesianos de Meuwissen et al. (2001) por serem
assintoticamente livres de informao a priori. O parmetro
pode ser estimado dos prprios dados pelos mtodos
MCMC (esse algoritmo pode ser implementado usando
informao a priori vaga) e MCEM (esse algoritmo EM no
requer informao a priori). Os mtodos BayesA e BayesB
requerem a designao de distribuies a priori para a
varincia de cada marcador. Adicionalmente alguns
mtodos bayesianos requerem a estimao de . Nos
Lassos no existe e uma distribuio controlada por
declarada para toda a coleo de varincias dos locos
marcadores.
No mtodo Lasso original, uma moda conjunta estimada e
espera-se que a maioria dos marcadores tenham efeitos
exatamente igual a zero (USAI et al., 2009). No Lasso
bayesiano so estimadas mdias a posteriori, produzindo
valores muito pequenos, mas no zero. E mdias a
posteriori so o critrio timo para seleo (LEGARRA et
al., 2011). No Lasso original a soluo admite at (N-1)
coeficientes de regresso no nulos, em que N o nmero
de indivduos. O Lasso bayesiano relaxa essa restrio,
possivelmente produzindo um modelo mais acurado.
A formulao bayesiana do Lasso (BLASSO) inclui um
termo de varincia comum para modelar ambos os termos,
os resduos e os efeitos genticos dos marcadores (PARK;
CASELLA, 2008; CAMPOS et al., 2009b). Legarra et al.
(2011) propuseram o mtodo BLASSO melhorado
(IBLASSO), o qual usa dois termos de varincia, um para
modelar os resduos e outro para modelar os efeitos

Mtodos estatsticos na seleo genmica ampla

genticos dos marcadores. Esses termos se adequam aos


conceitos de variao endgena e exgena no contexto dos
modelos mistos, conforme Singer et al. (2011). Isso
tambm coerente com a teoria da gentica quantitativa,
que preconiza a decomposio da variao fenotpica em
variao gentica e residual.
Uma comparao entre os trs mtodos Lassos, o RR-BLUP
e o RR-BLUP-Het apresentada na Tabela 3.

41

42

Mtodos estatsticos na seleo genmica ampla

Tabela 3. Caractersticas dos trs mtodos Lassos.


Mtodo

Modelo

y = 1u + X + e

Varincia de cada marcador

Varincia gentica aditiva

Parmetro de forma

a2 = 2p i ( 1 pi )( 2 2e ) / 2

2 = ( 2 2e ) / 2

e e2 ~ MVN (0, I e2 )
LASSO

p( e2 = 1, ) = ( / 2) exp( )

~ ( / 2) exp[( i )
i

y = 1u + X + e
e 2 ~ MVN (0, I 2 )
p( 2 , ) = ( / 2 ) exp[( ) / ]
BLASSO

p ( ) ~ N (0, D ); diag ( D) = ... );


2

2
1

2
n

Var ( ) = (2 e2 ) / 2

Var ( i ) = 2 i = i2 2

i=1

p( ) = ( 2 / 2) exp( 2 12 / 2).
i

y = 1u + X + e
e e2 ~ MVN (0, I e2 )
IBLASSO

, 2 ~ ( / 2 ) exp[( i ) / ]
i

p( | ) ~ N( 0, D); diag(D) = ( 12 ... n2 )

Var ( ) = 2 / 2

Var ( i ) = 2 i = i2

a2 = 2p i ( 1 pi ) 2 / 2

Var ( ) = 2

a2 = 2p i ( 1 pi ) 2

2 = 2 / 2

i=1

p( | ) = ( 2 / 2 )exp( 2 i2 / 2 )
i

y = 1u + X + e
RR-BLUP

e | e2 ~ MVN( 0, I e2 )
| 2 ~ MVN( 0, I 2 )

i=1

2 = ( e2 / 2 )2

43

Mtodos estatsticos na seleo genmica ampla

Tabela 3. Continuao.
Mtodo

Modelo

Varincia de cada marcador

Varincia gentica aditiva

Parmetro de forma

Var(i ) = i2 = i2

y = 1u + X + e
RR-BLUP-Het

e | e2 ~ MVN( 0, I e2 )
| , ~ MVN( 0, D)

44

Mtodos estatsticos na seleo genmica ampla

IBLASSO
A parametrizao do IBLASSO equivalente ao do LASSO
original de Tibshirani (1996), porm, a implementao
bayesiana. Outra diferena refere-se ao fato de que a
parametrizao do LASSO original assume que a matriz de
incidncia X foi padronizada. O IBLASSO no assume isso.
Essa diferena pode ser observada na descrio dos
modelos apresentada na Tabela 3. A igualdade na
parametrizao advm da comparao entre os termos
( / 2 ) e ( / 2 ) . Somente a proporo ( / ) utilizada
na prtica e, portanto, e no podem ser estimados
separadamente. Assim, o de Tibshirani equivale a
( / ) do IBLASSO e , essencialmente, uma medida da
variao gentica dos marcadores na populao. De forma
equivalente, o modelo do IBLASSO poderia ser escrito em
termos de 2 , retirando .
A forma da distribuio dos efeitos das marcas
determinada pelo parmetro de forma , que relacionado
variao gentica dos marcadores por meio da expresso
2
Var ( ) = 2 / 2 .Essa relao denota que desempenha
papel similar ao inverso da varincia nos modelos sob
normalidade. O parmetro pode ser estimado por MCMC
ou mxima verossimilhana marginal (MCEM ou REML). A
estimao por MCEM evita o uso de super-priori para
(PARK; CASELLA, 2008).
Partindo-se da relao a2 =

2p ( 1 p
i

) 2 (GIANOLA et

i=1

al., 2009), tem-se a2 =

2p ( 1 p
i

) 2 / 2 , em que a2 a

i=1

varincia gentica aditiva. Uma vez que a varincia

Mtodos estatsticos na seleo genmica ampla

gentica aditiva do carter geralmente conhecida a priori


(de outros estudos), uma informao a priori para pode
ser dada por 2 =

2p ( 1 p
i

) 2 / a2 . Entretanto, nos

i=1

modelos hierrquicos bayesianos propriamente ditos (caso


dos Lassos bayesianos e no dos mtodos bayesianos de
Meuwissen) informao a priori atribuda aos
hiperparmetros ( e componentes de varincia, por
exemplo) de forma que a influncia dessa informao
desaparece assintoticamente.
O modelo genrico do Lasso da forma:

y = 1u + X + e
e | 2 ~ MVN( 0, I 2 )

p( | 2 , ) = ( / 2 )exp [( | | ) / ]

Essa distribuio exponencial do Lasso para coaduna bem


com a distribuio observada para os efeitos genticos dos
locos de um carter quantitativo(GODDARD, 2009).
Com dois componentes de varincia ( e2 e 2 ) o modelo
torna-se:

y = 1u + X + e
e | e2 ~ MVN( 0, I e2 )

| , 2 ~ ( / 2 )exp [( | i | ) / ]
i

Notando-se a equivalncia com o modelo de Tibshirani,


tem-se:

45

46

Mtodos estatsticos na seleo genmica ampla

| ~ ( / 2 )exp [( | i | )
i

Usando uma formulao em termos de um modelo


hierrquico aumentado, incluindo um componente de
varincia extra i2 associado a cada loco marcador, tem-se:

p( | ) ~ N( 0, D); diag(D) = 12 ... n2 )


p( | ) = ( 2 / 2 )exp( 2 i2 / 2 )
i

Assim, tem-se: Var(i ) = i2 = i2


A implementao prtica desse modelo via amostrador de
Gibbs apresentada a seguir, conforme Legarra et al.
(2011).
A distribuio a priori de e2 consiste de uma qui-quadrado
invertida com 4 graus de liberdade. A distribuio a priori
para pode ser deliberadamente vaga, como uma
uniforme entre 0 e 1.000.000.
As distribuies condicionais a posteriori completas so
apresentadas a seguir.

~
u | demais N( 1' (y X ) / 1'1, 1 / 1'1~e2 )
~
i | demais N(xi ' (y 1i ~
Xi )~e2 / LHS I , 1 / LHS I ) , em
que LHSi = xi ' xi ~e2 + i2 e xi a linha de X
~

correspondente ao efeito i e i indica todas as variveis

~
~
, exceto i .

Mtodos estatsticos na seleo genmica ampla

~
i2 | demais IG ( 2 / i2 )1 / 2 , 2 , em que IG refere-se a
Gama Invertida.

2 | demais G (m,2 / ~
i 2 )), em que G refere-se a Gama
com parmetro de forma igual ao nmero m de marcas e
parmetro de escala igual a 2 / ~i 2 ) .

e2 | demais 2 (e~' e~ + S e2 , 4 + N ), em que N o nmero de


indivduos e S e2 a escala da distribuio a priori da
varincia residual.
BLASSO
O modelo da forma

y = 1u + X + e
e | 2 ~ MVN( 0, I 2 )

| , 2 ~ ( / 2 )exp [( | i | ) / ]
i

Usando uma formulao em termos de um modelo


hierrquico aumentado tem-se:
p ( ) ~ N (0, D 2 ); diag ( D ) = 12 ... n2 )
p ( ) = (2 / 2) exp(2 12 / 2)
i

Assim, tem-se que a varincia gentica em cada loco


marcador dada por i2 = i2 2 .

47

48

Mtodos estatsticos na seleo genmica ampla

As distribuies condicionais a posteriori completas so


conforme descrito para o IBLASSO, porm com as
seguintes modificaes:

LHSi = xi ' xi ~e2 + i2 2

~
i2 | demais IG ( 2 2 / i2 )1 / 2 , 2

~ ~
~
2 | demais 2 ' D 1 2 + e~' e~ + S e2 , 4 + m + N

Essa ltima distribuio condicional mostra que os efeitos


de marcadores so na prtica considerados como pseudo
resduos no BLASSO.
GBLUP com heterogeneidade de varincias
O mtodo GBLUP ou BLUP genmico pode tambm ser
implementado considerando a heterogeneidade de varincia
entre marcadores. Nesse caso, a matriz A dada por
n

A = ( X * DX * ' ) /[ 2 pi (1 pi )] , em que pi a frequncia


i

de um dos alelos do loco i e X* refere-se matriz X


corrigida para suas mdias em cada loco (2pi). A matriz D
dada por diag(D) = (12 ... n2 ) e os elementos i2 podem ser
obtidos pelos mtodos IBLASSO, BLASSO, BayesA,
BayesB, etc. Essa abordagem apresenta tambm os
seguintes pontos favorveis: (i) permite a anlise
simultnea de indivduos genotipados e no genotipados;
(ii) permite o cmputo direto da acurcia seletiva via
inverso da matriz dos coeficientes das equaes de
modelo misto; (iii) a matriz D pode ser estimada em apenas
uma amostra da populao e ser usada em toda a
populao de seleo e em vrias geraes.

Mtodos estatsticos na seleo genmica ampla

Comparao entre distribuies assumidas para os efeitos


genticos nos diferentes mtodos
Na Tabela 4 so apresentadas as distribuies assumidas
para os efeitos genticos de marcadores nos diferentes
mtodos de GWS.
Tabela 4. Distribuies assumidas para os efeitos genticos de
marcadores nos diferentes mtodos de GWS.
Distribuio a
priori das
varincias

Distribuio
a posteriori

qui-quadrado
invertida no
informativa

qui-quadrado
invertida

BayesA

Normal com
heterogeneidade de
varincias entre marcas
(t dado priori quiquadrado para as
varincias)

qui-quadrado
invertida (equivale
ao BayesB com
= 1)

qui-quadrado
invertida

BayesB

Normal com
heterogeneidade de
varincias entre marcas,
mdia zero e varincia
finita (t dado priori quiquadrado para as
varincias)

Mistura de
distribuies 0
com probabilidade
qui-quadrado
(1-) e quiinvertida
quadrado invertida
com probabilidade

BayesC

Mistura de distribuies
0 e normal com varincia
comum (t dado priori
qui-quadrado para as
varincias)

qui-quadrado
invertida, com
distribuio
Uniforme entre 0
e1

Lassos

Exponencial Dupla

Exponencial Dupla

Mtodo

Distribuio a priori dos


efeitos

RR-BLUP Normal com varincia


(bayesiano) comum

Gama
Invertida

49

Mtodos estatsticos na seleo genmica ampla

A Figura 1 ilustra as formas das distribuies normal (RRBLUP) e exponencial (LASSO).

Densidade

50

Figura 1. Densidades das distribuies normal (curva pontilhada)


e exponencial dupla (curva cheia), ambas com mdias iguais a
zero e varincias iguais unidade.

Observa-se que a densidade a priori utilizada no LASSO


Bayesiano apresenta maior massa de densidade no valor
zero e caudas mais robustas, exercendo maior
encurtamento sobre coeficientes de regresso prximos de
0 e menor encurtamento sobre coeficientes de regresso
distantes de zero.

Mtodos estatsticos na seleo genmica ampla

Regresso Kernel Hilbert Spaces


(RKHS)
Os mtodos regresso kernel no paramtrica via modelos
aditivos generalizados (GIANOLA et al., 2006), regresso
semi-paramtrica RKHS (Reproducing Kernel Hilbert
Spaces) (GIANOLA; KAAM, 2008) e de redes neurais
pertencem classe de regresso implcita e so mtodos
no paramtricos ou semi-paramtricos. Esses mtodos so
uma alternativa para o ajuste de modelos com muitas
interaes epistticas e de dominncia.
Gonzalez-Recio et al. (2008) compararam mtodos no
paramtricos (RKHS), regresso bayesiana e RR-BLUP em
termos de eficincia na seleo genmica. Concluram que
o mtodo da regresso RKHS (Reproducing Kernel Hilbert
Spaces) apresentou melhor capacidade preditiva do que os
demais. Esse mtodo equivale ao BLUP modelo animal com
a matriz de parentesco substituda pelos kernels. O mtodo
semi-paramtrico RKHS parece ter maior capacidade
preditiva quando aplicado a dados reais (GIANOLA et al.,
2009), sem fazer fortes suposies a priori.
Regresses no paramtricas so representaes funcionais
entre um grande nmero de covariveis e uma varivel
dependente, gerando uma estrutura menos parametrizada,
com menos suposies e com facilidade para acomodar
efeitos de interaes.
As funes de kernel podem ser usadas em mtodos no
paramtricos para estimar densidades a partir de uma
amostra (BISHOP, 2006). A regresso de Naradaya-Watson
(NWR) aplicando o kernel binomial para estimao da
funo do valor allico tem sido usada para implementao
do modelo no paramtrico usando a teoria do modelo

51

52

Mtodos estatsticos na seleo genmica ampla

aditivo (HASTIE; TIBSHIRANI, 1986; GIANOLA et al.,


2006). Este mtodo apresenta resultado similar ao do RRBLUP, sendo que o NWR depende do fator de alisamento e
o RR-BLUP depende do fator de shrinkage.
RKHS
Modelo
O modelo genrico para o fentipo dado por
y j = u + g(x j ) + e j , em que: yj o fentipo do indivduo j; u
a mdia do carter em estudo; ej o erro aleatrio e g(xj)
uma funo desconhecida que relaciona os gentipos
marcadores (covariveis) com os fentipos (varivel
dependente).
A funo g(x) definida por

g ( x) = E ( y x) =

y p ( y, x) dy

p( x)

Funo objetivo a ser minimizada:

RKHS = arg min [( y j u g ( x i )] 2 + h g ( x)

2
H

}.

Funo de penalizao
h g ( x)

2
H

, em que h o parmetro de suavizao e g ( x)

2
H

a norma de g(x) em um espao de Hilbert, a qual induz


regularizao, cuja fora ditada por h.
Caractersticas
No espao infinito de Hilbert, procura-se a funo g(x) que
minimize a soma de quadrados penalizada

Mtodos estatsticos na seleo genmica ampla

N
SS [ g ( x)] = [( y j u g ( x i )] 2 + h g ( x)
j
essa minimizao dada por:

2
H

}. A soluo para

g ( x ) = 0 + j k ( x xi ) , em que j so coeficientes
j =1

desconhecidos (com total equivalente ao nmero N de


indivduos genotipados) e k(x-xj) o kernel de reproduo,
cuja escolha define o espao de Hilbert em que se dar a
minimizao da soma de quadrados. A regularizao
realizada produz nos modelos de regresso RKHS um
menor nmero de parmetros do que em outros mtodos.
Na RKHS uma coleo de funes reais implicitamente
definida pela escolha de um kernel de reproduo, k(xi,xj).
Esta funo mapeia pares de gentipos em nmeros reais.
Sob uma perspectiva bayesiana o kernel de reproduo
define correlaes a priori entre as avaliaes da funo
(valores genticos) em pares de gentipos (Cor[g(xi),g(xj)].
A escolha do kernel fundamental na especificao do
modelo e a RR pode ser representada como regresses
RKHS. De maneira geral, os kernels so escolhidos por
algoritmos de forma a maximizar a performance do modelo,
maximizando a capacidade preditiva. Uma grande variedade
de kernels avaliada e selecionado aquele que timo
segundo o critrio de seleo do modelo (aquele que
maximiza a capacidade preditiva) (CAMPOS et al., 2009a).
A capacidade preditiva na populao de validao a
capacidade de prever futuras observaes. Na populao
de estimao uma medida da qualidade do ajustamento
entre os dados de treinamento e o modelo.
Na regresso RKHS a estrutura de covarincia
proporcional a uma matriz de kernel K, dada por Cov(gi,gj)
KRKHS(xi,xj), em que xi,xj so vetores de gentipos

53

54

Mtodos estatsticos na seleo genmica ampla

marcadores para os indivduos i e j, e K(.,.) uma funo


positiva definida avaliada nos gentipos marcadores. Uma
grande vantagem da RKHS que o modelo representado
em termos de N incgnitas, fato que uma grande
vantagem computacional quando n muito maior que N.
Nos modelos de regresso explicita e na RKHS, as funes
base (funes das covariveis usadas para construir a
regresso, por exemplo, polinmios) para regressar
fentipos em marcadores so definidas a priori e isto impe
restries nos padres que podem ser capturados pelos
mtodos. No mtodo de redes neurais as funes base
usadas so inferidas dos prprios dados e isso confere
grande flexibilidade a esse mtodo. Porm, h o risco de
superparametrizao e a interpretao dos parmetros no
trivial. A superparametrizao significa que a capacidade
preditiva na populao de estimao apresenta boa
performance mas no a apresenta na populao de
validao (em dados que no foram usados para ajustar o
modelo) (CAMPOS et al., 2009a; 2009b).
O modelo pode ento ser expandido da seguinte forma:

y j = u + g(x j ) + e j
N

y j = u + j k(x xi ) + e j , em que 0 faz parte de u.


j=1

Em termos vetoriais, tem-se:

y = 1u + T(h) + e , em que:

Mtodos estatsticos na seleo genmica ampla

t1 (h)
t (h)
2

.
T ( h) =
, ti ( h ) =1 [k h ( xi x1 ) k h ( xi x 2 )...k h ( xi x n )]n
.

t n (h)
e ' =1 [1 2 ...n ]n
Assumindo j ~ N( 0, 2 ) e que os componentes de
varincia e h so conhecidos, tm-se as equaes de
modelo misto para obteno das solues de u e j :
T ( h )'1
1'1

e2
T ( h )1' T ( h )' T ( h ) + I 2

u 1' y
= T ( h )' y

Aps a escolha do parmetro de suavizao h, pode-se


obter estimativas REML para os componentes de varincia
2 e e2 . O parmetro de suavizao h pode ser
determinado via validao cruzada ou via abordagem
bayesiana, atribuindo-se distribuies a priori prprias para
todos os parmetros do modelo (GIANOLA; CAMPOS,
2009).
O modelo KRHS pode ser tambm assim especificado:
y = 1u + K h + e , em que u uma constante, K h a matriz
positiva definida de kernels, dependente do parmetro de
suavizao h; um vetor contendo coeficientes no
paramtricos que so assumidos com distribuio normal
j ~ N (0, K h1 2 ) , com 2 representando a recproca do

55

56

Mtodos estatsticos na seleo genmica ampla

parmetro de alisamento

( 2 = 1 ). Os resduos tm

distribuio normal com matriz de covarincia R=I e2 . A


soluo para dada por [ e2 K h + 2 I ] = e2 y .
Os fentipos so preditos por y = u1 + K h* , onde uma linha
de K h* tem a forma K t* = [ K h* ( x i x j )] , com K h* ( x i x j )
sendo o kernel entre o gentipo do indivduo i no grupo de
validao e o gentipo do indivduo j no grupo de
estimao.
RKHS com efeito polignico
Nesse caso, o efeito gentico de um indivduo j dado pelo
modelo g j = p j + j , em que p j a regresso sobre o
pedigree e j a regresso semi-paramtrica sobre os
marcadores. Na RKHS, a suposio de que
= (1 ,2 ,...n ) um processo gaussiano com mdia nula
e funo de covarincia proporcional a um kernel de
reproduo, KRKHS(xi,xj), avaliada nos gentipos marcadores,
em que xi e xj so vetores de gentipos marcadores para os
indivduos i e j.
A distribuio a priori conjunta de p , e componentes de
varincia associados 2p , 2 e e2 dada por:
p (u, , p, 2 , p2 , e2 df e , S e , df , S , df p , Sf p ) N ( 0, K RKHS 2 ) N ( p 0, A p2 )
x 2 ( e2 df e , S e ) 2 ( 2 df , S ) 2 ( p2 df p , S p )

Mtodos estatsticos na seleo genmica ampla

57

Qualquer funo positiva definida


satisfazendo
i j K RKHS (xi , x j ) para todas as

sequncias no nulas {ai } uma escolha vlida de kernel.


Pode-se escolher K RKHS (xi , x j ) como um kernel Gaussiano

K RKHS (xi , x j ) = exp{ 2(d ij / q0,5 )} , em que d ij = (xik x jk )2


p

k=1

o quadrado da distncia euclidiana, e q0,5 a mediana


amostral da matriz de quadrados das distncias euclidianas
amostrais d ij .

{ }

Combinando a distribuio a priori conjunta com a funo


de verossimilhana, a distribuio condicional completa do
modelo torna-se (CROSSA et al., 2010):

n
p (u, , p, 2 , p2 , e2 y , H N yi u + j + p j , e2 / n j )}N ( 0, K RKHS 2 ) N ( p 0, A p2 )
i =1
x 2 ( e2 df e , S e ) 2 ( 2 df , S ) 2 ( p2 df p , S p )

Amostras so retiradas dessa distribuio.


Um modelo sem o efeito polignico pode ser ajustado
removendo p j das equaes acima. Assim, as distribuies
a seguir so dadas por:
a priori:
p (u, , 2 , p2 , e2 df e , S e , df , S , df p , Sf p ) N ( 0, K RKHS 2 ) 2 ( e2 df e , S e )
x 2 ( 2 df , S ) 2 ( p2 df p , S p )

58

Mtodos estatsticos na seleo genmica ampla

e a posteriori:

n
p (u, , 2 , p2 , e2 y , H N y j u + j , e2 / ni )}N ( 0, K RKHS 2 )
i =1
x 2 ( e2 df e , S e ) 2 ( 2 df , S ) 2 ( p2 df p , S p )

O modelo animal univariado tradicional pode tambm


ser expresso em termos de y = g + e em que
g 0, K RKHS 2 ~ N (0, K RKHS 2 ) , conduzindo ao estimador
1
] g = e2 y (CAMPOS et al., 2009a).
[ e2 I + 2 K RKHS

Regresso via quadrados mnimos


parciais (PLSR)
A regresso via quadrados mnimos parciais (PLSR) um
mtodo de reduo dimensional que pode ser aplicado
seleo de marcadores com efeitos significativos em um
carter. um mtodo muito usado em quimiometria na
situao em que se tem um grande nmero de variveis
com relaes desconhecidas e o objetivo a construo de
um bom modelo preditivo para a varivel resposta (WOLD
et al., 2001). No PLS variveis latentes so extradas como
combinaes lineares das variveis originais e so usadas
para a predio da varivel resposta, conforme descrito a
seguir.

y j = f(x j ) + e j : valor fenotpico do indivduo j.


f(x j ) : funo que relaciona gentipos marcadores aos
fentipos.
e j : termo residual.

Mtodos estatsticos na seleo genmica ampla

Pelo PLS, a funo f(x j ) definida como f(x j ) =

jl

l ,

l=1

em que t jl o componente latente l (l = 1, 2, h) no


individuo j e geralmente h menor que o nmero de
variveis. l o efeito gentico associado ao componente
latente l. O efeito gentico (regresso) associado ao
marcador i dado por i =

x
l

li

l=1

As variveis latentes so componentes ortogonais, o que


elimina o problema de multicolinearidade e a PLSR similar
regresso via componentes principais (PCR). Ambos os
mtodos constroem a matriz T de componentes latentes,
como transformao linear da matriz X das variveis
originais por meio de T = XW, em que W uma matriz de
pesos. A diferena que a PCR extrai componentes que
explicam a varincia de X e a PLSR extrai componentes que
tm maior covarincia com y. Na PLSR as colunas de pesos
na matriz W so definidas de forma que o quadrado da
matriz de covarincia amostral entre y e os componentes
latentes maximizado sob a restrio de que os
componentes latentes sejam no correlacionados.
Existem diferentes tcnicas para extrao dos componentes
latentes. A complexidade tima do modelo, ou seja, o
nmero de componentes latentes, pode ser determinada
por validao cruzada.

59

60

Mtodos estatsticos na seleo genmica ampla

Relao entre RR-BLUP, BLASSO e


IBLASSO
Resultados prticos tm revelado que a capacidade
preditiva no varia muito com o valor de RR e

L associados herdabilidades entre 5% e 95%, quando o


nmero de locos grande (SILVA et al., 2011).
Em presena de genes maiores, o RR-BLUP difere
consideravelmente do BLASSO e IBLASSO. Nesse caso, o
IBLASSO e o RR-BLUP-Het so melhores. O IBLASSO
similar ao BayesA mas com maior shrinkage nas marcas de
menor efeito, conforme discutido em tpicos anteriores.
Em termos de ordenamento dos candidatos seleo, tmse as seguintes tendncias. Com seleo indireta de
covariveis nos mtodos que no o fazem diretamente: (i)
BayesA igual a BayesB; (ii) RR-BLUP igual ao Lasso em
ranking, desde que a arquitetura gentica seja homognea;
(iii) RR-BLUP igual ao BayesA e BayesB, desde que a
arquitetura gentica seja homognea e as prioris utilizadas
nos mtodos bayesianos sejam no informativas; (iv) Com
arquitetura gentica heterognea, RR-BLUP-Het similar ao
IBLASSO em ranking; (v) RR-BLUP igual ao BayesC
desde que as prioris utilizadas no mtodo bayesiano sejam
no informativas; (vi) RR-BLUP igual ao BayesD, desde
que a arquitetura gentica seja homognea e as prioris
utilizadas no mtodo bayesiano sejam no informativas. Se
= 1, RR-BLUP igual ao BayesC.
RR-BLUP e Lasso podem ser implementadas sob o enfoque
frequentista e bayesiano. Se prioris no informativas forem
utilizadas, tem-se que RR-BLUP frequentista semelhante
ao RR-BLUP bayesiano e Lasso frequentista semelhante
ao Lasso bayesiano.

Mtodos estatsticos na seleo genmica ampla

A seleo indireta de covariveis no RR-BLUP usando os


maiores mdulos dos efeitos estimados dos marcadores
produz o mtodo RR-BLUP_B (RESENDE et al., 2010;
RESENDE JUNIOR et al., 2012), o qual pode apresentar
acurcia superior. Mas esse mtodo e tambm o RR-BLUP
tradicional dividem toda a variao gentica aditiva do
carter por uma funo do nmero de marcadores
ajustados. E os marcadores usados no capturam toda essa
variao gentica. No RR-BLUP_B maior variao gentica
atribuda a cada marcador do que de fato deveria. Assim, o
RR-BLUP_B deve usar somente a variao gentica
capturada pelos marcadores ajustados em cada anlise.
Portanto, deve-se usar o REML para estimar essa variao
ou outro mtodo bayesiano, como o BLASSO ou IBLASSO,
produzindo o mtodo REML/RR-BLUP_B ou BLASSO/RRBLUP_B ou IBLASSO/RR-BLUP_B. Tambm, a escolha do
melhor modelo REML/RR-BLUP_B deve basear-se na
validao cruzada.
Relao entre RR-BLUP e BLASSO
Considerando todos os locos que controlam o carter:

BLUP = e2 / a2
Considerando cada loco i:

RR = e2 / ai2 = e2 / 2
Pelo BLASSO e com homogeneidade de varincias
genticas entre locos (LEGARRA et al., 2011):

BL = [ 2 e2 / 2 ] 1 / 2

61

62

Mtodos estatsticos na seleo genmica ampla

Como funo do penalizador no RR-BLUP:

BL = [ 2 e2 / 2 ] 1 / 2 = [ 2 RR ] 1 / 2 = 1.414 [RR ] 1 / 2
No BLASSO tem-se (CAMPOS et al., 2009b):

i2 = i2 e2
Com homogeneidade de variancias genticas entre locos:

2 = 2 e2 e
2 = 2 / e2 = 1 / RR , em que 2 a mdia dos valores de
i2 .
Assim, BL = [ 2 e2 /( 2 e2 )] 1 / 2 = [ 2 / 2 ] 1 / 2 e
2
. Substituindo em 2 = 2 e2 , tem-se
2 = 2 / BL
2
2 = 2 2e / BL
.

Para cmputo da herdabilidade, tem-se (RESENDE et al.,


2010):
n

h2 =

2 pi ( 1 pi ) 2
i
n

2 pi ( 1 pi ) 2 + e2
i

Fazendo-se as substituies tem-se:

Mtodos estatsticos na seleo genmica ampla

h2 =

2 pi (1 pi ) 2
i
n

2 pi (1 pi ) 2 + e2

2 pi (1 pi ) 2 e2
i
n

2 pi (1 pi ) 2 e2 + e2

1
n

1 + 1 /{[2 pi (1 pi )] 2 }

2
De forma alternativa e usando 2 = 2 2e / BL
, tem-se:
n

h2 =

2 pi (1 pi ) 2

i
n

2 pi (1 pi ) 2 + e2
i

2 pi (1 pi )2 e2 / 2BL
i
n

2 pi (1 pi )2 e2 / 2BL + e2
i

, pois nQ = 2

1
n

1 + 2BL /[4 pi (1 pi )]

1
1 + 2BL /( 2nQ )

p ( 1 p ) . Assim, com arquitetura gentica


i

homognea, a h2 pode ser obtida a partir do parmetro de


penalizao do BLASSO e das frequncias allicas nos
locos marcadores.
Sendo BL = [ 2 RR ] 1 / 2 , tem-se:

h2 =

nQ
1
1
1
=
=
=
1 + /( 2n Q ) 1 + 2 RR /( 2n Q ) 1 + RR / nQ nQ + RR
2
BL

Pelo mtodo RR-BLUP, a h2 dada por h 2 = nQ /(nQ + RR ) ,


fato que confirma a equivalncia dos mtodos na situao
de arquitetura gentica homognea.
Como RR assumido como conhecido no RR-BLUP, o
estimador para a h2 capturada por todos os marcadores em
conjunto tem que ser especificado em funo do parmetro
de penalizao BL do BLASSO, sendo dado por

h 2 =

2n Q
1
. Utilizando no RR-BLUP
=
2
1 + /( 2n Q ) 2n Q + BL
2
BL

63

64

Mtodos estatsticos na seleo genmica ampla

essa h2 estimada, o coeficiente de regresso envolvendo


valores observados e preditos pela GWS sero prximos de
1, desde que o carter seja de arquitetura gentica
homognea. Isso indica que as avaliaes so no viesadas
e so efetivas em predizer as reais magnitudes das
diferenas entre os indivduos em avaliao. Se a
estimativa de tal coeficiente de regresso (em anlise
usando a h2 estimada dessa maneira) se afastar muito de 1,
h indcios de presena de genes de efeitos maiores e,
nesse caso, o mtodo RR-BLUP no adequado, devendose preferir o BLASSO, o IBLASSO ou o RR-BLUP-Het.
Relao entre RR-BLUP, BLASSO e IBLASSO
Considerando todos os locos que controlam o carter:

BLUP = e2 / a2
Considerando cada loco i:

RR = e2 / ai2 = e2 / 2
Pelo IBLASSO e com homogeneidade de varincias
genticas entre locos (LEGARRA et al., 2011):

IBL = [ 2 / 2 ] 1 / 2
Como funo do penalizador no RR-BLUP:

IBL = [ 2 RR / e2 ] 1/ 2 = 1.414 [RR / e2 ] 1/ 2


Como funo do penalizador no BLASSO, dado por
BL = [ 2 e2 / 2 ] 1 / 2 , tem-se:

Mtodos estatsticos na seleo genmica ampla

IBL = [BL / e2 ] 1 / 2
No IBLASSO tem-se (LEGARRA et al., 2011): i2 = i2 .
Com homogeneidade de varincias genticas entre locos:
2
, em que 2 a mdia dos
2 = 2 e 2 = 2 = 2 / IBL

valores de i2 .
2 1/2
e como BL = [2 / 2 ]1 / 2 tem-se
Assim, IBL= [ 2 / ]

tambm a equivalncia entre BLASSO e IBLASSO quando


existe homogeneidade de varincia entre locos.
Do mesmo modo, 2 = 2 / 2BL e, substituindo em 2 = 2 ,
tem-se 2 = 2 / 2BL = 2 / 2IBL .
Para cmputo da herdabilidade, (RESENDE et al., 2010):
n

h2 =

2 pi ( 1 pi ) 2
i
n

2 pi ( 1 pi ) 2 + e2
i

Para o IBLASSO, fazendo-se as substituies, tem-se:


n

h2 =

2 pi ( 1 pi ) 2

2 pi ( 1 pi ) 2

2 pi ( 1 pi ) +
2

2
e

i
n

2 pi ( 1 pi ) +
2

2
e

2
De forma alternativa e usando 2 = 2 / IBL
, tem-se:

65

66

Mtodos estatsticos na seleo genmica ampla

h2 =

2 pi (1 pi ) 2

i
n

2 pi (1 pi ) +
2

2
e

2 pi (1 pi )2 / 2IBL
2 pi (1 pi )2 /

2
IBL

i
n

2
e

1+

2 2
e IBL

/[4 pi (1 pi )]

pois nQ = 2

1
1 + e2 2IBL /( 2nQ )

p ( 1 p ) . Assim, com arquitetura gentica


i

homognea, a h2 pode ser obtida a partir do parmetro de


penalizao do IBLASSO, das frequncias allicas nos locos
marcadores e da varincia residual.
Sendo IBL = [ 2 RR / e2 ] 1 / 2 , tem-se:
h2 =

1
1+
2
e

2
IBL

/(2n Q ) 1 + 2 RR /(2n Q ) 1 + RR / n Q

nQ
n Q + RR

Pelo mtodo RR-BLUP, a h2 dada por h 2 = nQ /(nQ + RR ) ,


fato que confirma a equivalncia dos trs mtodos na
situao de arquitetura gentica homognea.
Como RR assumido como conhecido no RR-BLUP e a h2
via IBL depende tambm de e2 , o estimador para a h2
capturada por todos os marcadores em conjunto tem que
ser especificado em funo do parmetro de penalizao
BL do BLASSO (o qual estimado dos dados), sendo dado
por h 2 =

2n Q
1
. Utilizando no RR-BLUP,
=
2
1 + /( 2n Q ) 2n Q + BL
2
BL

essa h2 estimada, o coeficiente de regresso envolvendo


valores observados e preditos pela GWS sero prximos de
1, desde que o carter seja de arquitetura gentica
homognea.

Mtodos estatsticos na seleo genmica ampla

Anlise simultnea de indivduos


genotipados e no genotipados via
GBLUP
A avaliao gentica em um programa de melhoramento
gentico envolve simultaneamente indivduos fenotipados e
genotipados, apenas fenotipados e apenas genotipados.
Essas trs classes de indivduos necessitam ter seus
valores genticos preditos para que sejam ordenados e
comparados. Uma opo realizar trs predies isoladas e
fazer o ordenamento global. Outra opo para o grupo de
indivduos apenas genotipados estabelecer um ndice
combinando a predio genmica com a predio baseada
nos valores genticos preditos de seus genitores.
No entanto, a alternativa mais eficiente realizar toda a
predio em um nico passo, conforme relatado por Misztal
et al. (2009) e Aguilar et al. (2010) e apresentado a seguir.
Para o grupo de indivduos genotipados e fenotipados, o
seguinte modelo linear misto geral ajustado para estimar
os efeitos genticos aditivos usando informaes
fenotpicas e dos marcadores (RESENDE, 2008; RESENDE
et al., 2010): y = Wb + Za + e, em que y o vetor de
observaes fenotpicas, b o vetor de efeitos fixos, a o
vetor dos efeitos genticos aditivos (aleatrios) e e referese ao vetor de resduos aleatrios. W e Z so as matrizes
de incidncia para b e a.
Esse modelo equivalente a: y = Wb + ZXm + e, em que
m o vetor dos efeitos aleatrios de marcadores, X a
matriz de incidncia para m e a = Xm.
A matriz de incidncia X contm os valores 0, 1 e 2 para o
nmero de alelos do marcador (ou do suposto QTL) em um

67

68

Mtodos estatsticos na seleo genmica ampla

indivduo diploide. Outra forma equivalente de codificar


usar os valores -1, 0 e 1.
As equaes de modelo misto para a predio de a via o
mtodo G-BLUP equivalem a:

e2
Z' Z + G

a2

W ' W

Z 'W

W'Z

b W ' y
=
, em que
Z
'
y

G = ( XX ' ) / k = ( XX ' ) /[ 2 pi (1 pi )] e
i

k = 2 pi ( 1 pi ) . Com padronizao prvia dos elementos


i

de X (dividindo-os por 2

p (1 p )]
i

1/ 2

) e centrando a

mdia em zero tem-se G = XX' .


O parmetro de escala k = 2

p (1 p
i

) assume

independncia entre efeitos de SNPS. Visando contornar


essa suposio, Gianola et al. (2009) determinaram o
seguinte parmetro de escala:

k = ( p 0 q 0 ) 2 + 2 [ pi (1 pi )] / n (( + + 2 ) /( + ) )n
i

em que p0 = /( + ) a frequncia allica esperada,


q0 = ( 1 p0 ) e e so parmetros da distribuio beta
ajustando a frequncia allica bsica e n o nmero de
SNP.

Mtodos estatsticos na seleo genmica ampla

O estimador de a pode ser resumido em:


2
[a ] = Z' Z + G 1 e2
a

[Z ].

Para a avaliao global das trs classes de indivduos em


um nico passo, o mesmo modelo y = Wb + Za + e pode
ser usado, porm com uma alterao (substituio da
matriz G pela matriz H) nas equaes de modelo misto,
conforme Misztal et al.(2009):
W ' W

Z 'W

e2
Z' Z + H

a2
W'Z

b W ' y
=

a Z ' y

A matriz H inclui ambas as relaes, baseadas em pedigree


(A) e diferenas ( A ) entre essas e as relaes genmicas,
de forma que H = A + A . Assim, H dada por

H=

A11 A12
A21 G

= A+

0
0

0
, em que os subscritos 1 e 2
G A22

representam indivduos no genotipados e genotipados,


respectivamente.
A inversa de H, que permite computaes mais simples,
dada por:

0
=A +
0
1

0
G 1 A221

A11
A 21

A12
G 1 + A 22 A221

, em que

A221 a inversa da matriz de parentesco baseada em


pedigree para os indivduos somente genotipados.

69

70

Mtodos estatsticos na seleo genmica ampla

O valor gentico genmico global do indivduo j dado por

a j = X ij i . Esse, quando estimado quando o individuo j


i

no participa da estimao de , pode ser correlacionado


com o fentipo observado de j, visando fazer a validao.
A partir da estimao dos valores genticos ( a ) pelo
GBLUP, os efeitos estimados dos marcadores ( ) podem
ser obtidos, conforme desenvolvido a seguir:
a = X
X a = X X
= ( X X ) 1 X a

Modelos com efeitos de dominncia (d) podem ser


ajustados. Esses so da forma y = Wb + X + Td + e.
Nesse caso, os elementos de X so codificados como (2)1/2,
0 e (2)1/2 para os gentipos MM, Mm e mm,
respectivamente. E os elementos de T so codificados
como 1, 1 e 1 para os gentipos AA, Aa e aa,
respectivamente. Valores de X e T codificados dessa forma
so independentes e apresentam mdia zero e varincia 1.
Se os elementos de X so codificados com os valores -1, 0
e 1, os modelos com efeitos de dominncia apresentam os
elementos de T dados por 0, 1 e 0, para os gentipos MM,
Mm e mm, respectivamente.
A anlise pelo GBLUP favorvel computacionalmente,
pois resulta em um menor nmero de equaes a serem
resolvidas. Outro uso importante dessa anlise refere-se
estimao da herdabilidade total explicada por todos os
marcadores simultaneamente. Com matriz de parentesco

Mtodos estatsticos na seleo genmica ampla

dada por G = (XX' ) / k = (XX' ) / [ 2

p (1 p
i

) ] , essa h2

pode ser estimada por REML fazendo uso das equaes de


modelo misto para a estimao dos componentes de
varincia a2 e e2 . Os elementos da matriz G representam
o parentesco realizado mdio multi-locos e so dados por
n

G jk = ( 1 / n)
i=1

(xij 2p i )(xik 2p i )
2p i ( 1 pi )

. Outro ponto favorvel

do GBLUP refere-se possibilidade de estimao direta (via


PEV) da acurcia da GWS. Para indivduos com fentipos,
essa acurcia ser aquela sem validao cruzada, vlida
para a populao de estimao. No G-BLUP, a populao
de validao tem seus fentipos substitudos por dados
perdidos e, portanto, os indivduos dessa populao tem
uma estimativa validada da acurcia.
Na populao de estimao recomenda-se ajustar o vetor
de fentipos para os efeitos dos genitores antes de se fazer
a anlise genmica (GARRICK et al., 2009; RESENDE et al.,
2010). Outra forma de realizar esse ajuste por meio do
ajuste dos efeitos de genitores como efeitos fixos
(VAZQUEZ et al., 2010). Este ajuste suga dos valores
genticos individuais os efeitos dos genitores, deixando
somente os efeitos da segregao mendeliana, os quais
devem ser desregressados.
Modelos em nvel de indivduos contemplando as interaes
gentipos ambientes (ae) podem tambm ser ajustados,
desde que existam indivduos aparentados no mesmo
ambiente e tambm entre ambientes. Neste caso, o modelo
equivale a y = Wb + Za + Zae + e, em que ae o vetor
dos efeitos da interao entre os efeitos genticos aditivos

71

72

Mtodos estatsticos na seleo genmica ampla

e de ambientes (aleatrios) e Z a matriz de incidncia


para a e ae. As equaes de modelo misto para a predio
de a e ae via o mtodo BLUP equivalem a:
W 'W

Z 'W

Z W

W'Z

W Z

2
Z ' Z + G 1 e2
a

Z Z

Z Z

Z Z + Gae1

e2
ae2

b W ' y
a = Z ' y ,

ae Z

em que:
Gae = G para pares de indivduos no mesmo ambiente e Gae
= 0 para pares de indivduos em diferentes ambientes. A
varincia da interao entre os efeitos genticos aditivos e
2
de ambientes denotada por ae
.

Anlise de associao genmica


ampla (GWAS)
A anlise de associao genmica ampla pode ser realizada
pelos seguintes mtodos.
(A) Anlise de associao genmica ampla (GWAS
Modelo fixo sobre fentipos observados y; Fator de
penalizao = 0 )
O modelo para o valor fenotpico em analise dado por
y = 1u + Xmi + e,
A estrutura de mdias e varincias definida como:

Mtodos estatsticos na seleo genmica ampla

E ( y ) = 1u + Xmi
e ~ N (0, R = I e2 )

Var ( y ) = V = R

As equaes de quadrados mnimos para a estimao dos


efeitos da mdia geral e do SNP equivalem a:
1'1 1' X u 1' y
X '1 X ' X m = X ' y em que y o vetor de fentipos.

Resolvendo-se esse sistema, obtm-se o vetor soluo


u
m .
i

A hiptese da nulidade, ou seja, de que o marcador no


apresenta qualquer efeito sobre o carter, pode ser avaliada
pelo teste F. A hiptese nula rejeitada se F > F(a,v1,v2),
em que F a estatstica de Snedecor calculada dos dados,
a o nvel de significncia e v1 e v2 so os graus de
liberdade associados distribuio F tabelada. A hiptese
alternativa de que o marcador afeta o carter, ou seja, o
marcador e QTL encontram-se em desequilbrio de ligao.
O valor da estatstica F, conforme Resende (2008),
calculado via

QM Re gresso m i X y + u 1' y (1 / n) (1' y ) 2


.
Fi =
=
( y y m i X ' y u 1' y ) /( n 2)
e2
As caractersticas da GWAS tradicional so:
a. Regresso fixa em marcas nicas;
b. Fentipos observados;
c. Shrinkage: 0;

73

74

Mtodos estatsticos na seleo genmica ampla

d. Impreciso devido correlao entre efeitos dos


marcadores (no considerada na anlise);
e. Impreciso devido a shrinkage nulo e diferentes
frequncias allicas dos marcadores (no
consideradas simultaneamente na anlise);
f. Superestimao: cada marcador suga seu efeito e
mais de outros.
(B) Anlise de associao genmica ampla ps estimao
simultnea (GWAS-PSE- Modelo aleatrio sobre fentipos
estimados y ; Fator de penalizao = e2 / gi2 )
O modelo da GWS para o valor fenotpico em analise
dado por:
y = 1 + Xmr + e, em que mr o vetor de efeitos
aleatrios simultneos de todas as marcas.
As equaes de modelo misto genmicas para a predio
de mr via o mtodo RR-BLUP-Het equivalem a:
1' X
1'1

e2
X '1 X ' X + I 2
gi

u 1' y
m r = X ' y

As caractersticas da GWS so:


a. Regresso aleatria em marcas simultneas;
b. Fentipos observados;
c. Shrinkage diferenciado: f( gi2 );

Mtodos estatsticos na seleo genmica ampla

d. Preciso: devida a shrinkage diferenciado


(heterogeneidade de gi2 ) e considerao das
diferentes frequencias allicas simultaneamente;
e. Ausncia de superestimao: anlise simultnea de
efeitos correlacionados.

r
Para a GWAS-PSE deve-se inicialmente obter y = 1u + Xm
e realizar nova anlise sob o modelo:
y = 1u + Xmi* + e
E ( y ) = 1u
e ~ N (0, R = I e2 )
m* ~ N (0, I gi2 )

As equaes de modelo misto para marcas individuais so:


1' X
1'1

e2
X '1 X ' X + 2
gi

Fi* =

u X ' y
m * = Z ' y

QM Re gresso m i* X y + u 1' y (1 / n) (1' y ) 2


=
e2
( y y m i* X ' y u 1' y ) /( n 2)

As caractersticas do mtodo GWAS-PSE so:


a. Regresso aleatria em marcas nicas;
b. Fentipos estimados;
c. Shrinkage diferenciado: f( gi2 );

75

76

Mtodos estatsticos na seleo genmica ampla

d. Preciso: devida a shrinkage diferenciado


(heterogeneidade de gi2 );
e. Ausncia de superestimao: anlise simultnea de
efeitos correlacionados;
f. Ausncia de superestimao: cada marcador suga
apenas seu efeito, ditado por seu gi2 estimado via
anlise simultnea.
Para obteno de gi2 pode-se usar os mtodos IBLASSO,
BLASSO, BayesA, BayesB, BayesC.
(C) Anlise de associao genmica ampla ps estimao
simultnea (GWAS-PSE- Modelo fixo sobre fentipos
estimados y ; Fator de penalizao = 0 )
Equivale ao modelo descrito em (A), porm aplicado sobre
fentipos estimados.
(D) Anlise de associao genmica ampla (GWAS-PSEModelo aleatrio sobre fentipos observados y; Fator de
penalizao = e2 / gi2 )
Equivale ao modelo descrito em (B), porm aplicado sobre
fentipos observados.
Essas quatro abordagens foram aplicadas a dados reais
(nvel de significncia 5% pelo teste F), gerando os
resultados mostrados na Tabela 5.

Mtodos estatsticos na seleo genmica ampla

Tabela 5. Comparao entre os modelos de anlise de associao


(GWAS).
Modelo para efeitos
de marcas

Fentipos

Penalizao

N marcas
significativas

Fixo

=0

687

Fixo

=0

652

Aleatrio

= e2 / gi2

394

Aleatrio

= e2 / gi2

63

Mtodo
A

Verifica-se que tratar os efeitos de marcas como fixos


conduz seleo de um maior nmero de marcas. Isso
ocorre porque essa abordagem superestima os efeitos de
marcas individuais. Verifica-se tambm que o mtodo D
conduz seleo do menor nmero de marcas e o mtodo
B o mais equilibrado.
As vantagens dos mtodos GWAS-PSE so: estimao
simultnea dos efeitos de marcas, considerao dos efeitos
de marcas como aleatrios, considerao da
heterogeneidade de varincias entre marcas e estimao
aps validao cruzada.

Associao genmica ampla


(GWAS) em humanos
Os primeiros estudos em gentica quantitativa humana
visando ao entendimento do controle gentico dos
caracteres basearam-se na estimao da herdabilidade (h2)
via anlise de pares de gmeos, usando o conceito de
semelhana entre parentes baseada em pedigree (alelos
idnticos por descendncia, IBD). Essa abordagem

77

78

Mtodos estatsticos na seleo genmica ampla

considera todos os locos, variantes comuns e raros (genes


de baixa frequncia), ou seja, todos genes que controlam o
carter ou h2 total.
O papel de genes individuais no controle gentico dos
caracteres passou a ser estudado pela metodologia de
Fulker e Cardon (1994), por meio da estimao da h2 de
um loco marcado no contexto do mapeamento de QTL,
conforme descrito por Resende (2008) e Cruz et al. (2009).
A aplicao do mtodo fundamenta-se na anlise de ligao
dentro de famlia de irmos completos, usando marcas
moleculares duas a duas.
Visscher et al. (2006; 2008) apresentaram uma abordagem
para a estimao da h2 usando simultaneamente todos os
locos marcados e tambm usando anlise de segregao
dentro de famlia de irmos completos. Essa abordagem
genmica ampla baseia-se tambm em IBD e capitaliza o
parentesco exato ou realizado. A h2 estimada foi de 0,80
para altura em humanos. O mtodo considera variantes
comuns e raros (genes de baixa frequncia), ou seja, todos
os genes ou h2 total, pois usa tambm o pedigree via
genotipagem dos genitores, estimando alelos IBD em todos
os locos.
Outro mtodo de estudo do controle dos caracteres em
nvel populacional e no apenas dentro de famlias a
GWAS. Essa baseia-se em anlise de desequilbrio de
ligao em nvel populacional, porm usando apenas um
loco marcador de cada vez, via anlise de regresso fixa
sobre indivduos no aparentados. A h2 capturada pelos
marcadores significativos foi de apenas 0,10 para altura em
humanos.
A GWAS entre membros de uma famlia (de irmos
completos) pode ser descrita como uma anlise de ligao.

Mtodos estatsticos na seleo genmica ampla

Em tal anlise, marcadores a alguma distncia de um QTL


exibir uma associao com o carter porque houve apenas
uma gerao de recombinao entre os genitores e os
filhos irmos completos. Consequentemente, um alelo
marcador e um alelo do QTL no mesmo cromossomo
tendero a ser herdados juntos.
Um procedimento mais eficaz para capturar a maioria da
herdabilidade de um carter a anlise de desequilbrio de
ligao em nvel populacional usando todos os locos
marcadores simultaneamente de maneira similar ao mtodo
da GWS. baseado em regresso aleatria para a predio
de efeitos latentes. Utiliza indivduos no aparentados,
embora todos os indivduos de uma espcie sejam
aparentados em algum grau porque compartilham
ancestrais comuns e, portanto, compartilham alelos
idnticos em estado (IBS).
Os marcadores SNPS captam esses parentescos ancestrais
e, portanto, estimam relaes genticas entre indivduos
baseadas em IBS (POWELL et al., 2010; VISSCHER et al.,
2010). O uso simultneo da gentica de populaes
(anlise de ligao, desequilbrio de ligao e mapeamento
gentico) e da gentica quantitativa (estimao da
herdabilidade), tradicionalmente foram usados
separadamente na gentica humana. A GWS combinando
essa duas reas permitiu capturar uma h2 de 0,45 para
altura em humanos. O restante (0,80 0,45 = 0,35) no
capturado devido a muitos variantes de baixa frequncia
(incluindo locos de grande efeito).
A variao gentica no loco i dada por ai2 = 2p i ( 1 pi )ai2 ,
ignorando a dominncia. Assim, um alelo raro no pode
explicar grande parte da variao gentica, mesmo se for
de grande efeito. Para que esses locos sejam capturados
pelos marcadores e detectados necessrio um grande

79

80

Mtodos estatsticos na seleo genmica ampla

tamanho amostral. Pelo mtodo GWS a variao gentica


aditiva total estimada por a2 =
2p i ( 1 pi )ai2 .

Outra forma muito usada para a estimao da h2 via


anlise de ligao usando toda a genealogia (ALMASY;
BLANGERO, 1998; HAMZA; PAYAMI, 2010). O software
Solar (Sequential Oligogenic Linkage Analysis Routines) tem
sido usado para estimao.
Aulchenko et al. (2007) propuseram o mtodo GRAMMAR
para a GWAS em mltiplos estgios, conforme descrito a
seguir. Aps o ajuste do modelo y = Xb + Zg + e obtm-

se e = y Xb Zg , em que g um vetor de efeitos


e = 1u + Wm + e

i
polignicos. Ajusta-se ento o modelo
,
identificando-se os marcadores significativos. Apenas com
os SNPs significativos, ajusta-se o modelo

y = Xb +Wmi + Zg + e . Isso reduz o tempo de computao.

Os efeitos m so ajustados como efeitos fixos (pois assim


os SNPs no modelam estrutura familiar em g, isto , no
explicam correlao entre indivduos aparentados, com
alelos IBD). Fundamenta-se no fato de que os efeitos de
genes maiores integram o vetor de resduos condicionais,
aps o ajuste para g sob modelo polignico infinitesimal
(ajuste ou eliminao dos efeitos de famlia ou variao
entre pedigrees ou estrutura ou do parentesco). Na anlise
final, volta-se com o modelo completo. Nesse caso, o
efeito polignico includo visando corrigir os dados para a
estrutura de famlias por meio da matriz de parentesco,
2
visto que g ~ N( 0, A g ) .

A comparao de modelos hierrquicos, mas com mesma


estrutura de efeitos fixos, realizada pelo LRT ou anlise

Mtodos estatsticos na seleo genmica ampla

de deviance. A comparao de modelos no hierrquicos,


mas com mesma estrutura de efeitos fixos, deve ser feita
por meio dos procedimentos AIC e BIC. O AIC est
relacionado aos conceitos de informao de kullback-Leibler
e mxima verossimilhana (ANDERSON et al., 2000).
Informao de kullback-Leibler um conceito da fsica para
medir a diferena entre o modelo (aproximao da
realidade) e a realidade. Akaike (1974) percebeu que o log
da verossimilhana de um modelo um estimador da
informao de kullback-Leibler, porm viesado. E esse vis
igual ao nmero de parmetros do modelo. Ento,definiu
o AIC como a deviance mais duas vezes o nmero de
parmetros do modelo. Como o objetivo minimizar a
perda de informao, o modelo com o menor AIC tem o
maior suporte nos dados.
Captura da h2 em humanos, imperfeito LD entre SNPs e
variantes causais
Visscher et al. (2010) abordam os resultados da GWAS
referente ao carter altura em humanos. A h2 capturada
pela GWAS nos estudos tradicionais foi da ordem de 0,10.
Esse baixo valor ocorreu devido ao fato de variantes de
baixa frequncia (MAF < 0.10) no estarem em perfeito
LD com marcadores comuns (MAF > 0.10), ou seja, o r2
baixo e tambm variantes de pequenos efeitos no so
detectados significativamente pela GWAS tradicional,
mesmo se em LD com marcadores comuns. No estudo de
Yang et al. (2010), a h2 capturada foi de 0,45. Isso ocorreu
porque variantes de pequenos efeitos no so detectados
significativamente, mas em LD com marcadores comuns,
so capturados pela GWS a qual no faz uso de
significncia para efeitos de marcas.
O valor mximo que r2 pode atingir fortemente
determinado pelas frequncias allicas nos dois locos

81

82

Mtodos estatsticos na seleo genmica ampla

(WRAY, 2005). Quanto mais diferentes as frequncias


allicas, menor o valor de r2. Assim, como a maioria dos
SNP genotipados so comuns, se os variantes so raros r2
2
ser baixo e, ento a variao mi
associada aos SNP
substancialmente menor que a variao ai2 no QTL
(VISSCHER et al., 2010). As expresses abaixo ilustram
essa questo.
2
r 2 = mi
/ ai2
2
mi
= r 2 ai2

Na prtica, pode-se estimar o LD apenas entre os SNP.


Essa estimativa pode ser til apenas quando SNP e gene
apresentam frequncias allicas similares. Um gene pode
estar em LD com mltiplos SNPs, ento esses
coletivamente podem capturar o variante causal mesmo
que nenhum SNP esteja em perfeito LD com ele (VISSCHER
et al., 2010). Assim, um SNP pode no ser detectado
como significativo, mas, em conjunto com outros, ser
importante para explicar a variao gentica e maximizar a
acurcia seletiva. Dessa forma, recomenda-se no aplicar
teste de significncia antes da GWS.
Mesmo com o uso de dezenas de milhares de marcadores,
se os variantes so raros, e sendo comuns os marcadores,
ainda assim, os marcadores no capturaro toda a variao
gentica. Assim, a eficincia da GWS depende da
arquitetura gentica do carter na populao. Se o mesmo
for governado por um grande nmero de variantes raros
que explicam grande parte da variao gentica, a GWS
ter menor sucesso. Nesse caso, recomendvel ajustar no
modelo, o efeito polignico residual, como forma de
capturar esses variantes raros.

Mtodos estatsticos na seleo genmica ampla

83

Em resumo, as causas da herdabilidade perdida so: (i)


variantes de baixa frequncia (MAF < 0,10) no esto em
perfeito LD com marcadores comuns (MAF > 0,10),
causando baixo r2; (ii) pequeno nmero de marcas,
causando baixo r2; (iii) uso apenas dos SNPs significativos
na GWAS.
A estimao simultnea necessria porque os SNPs esto
em LD, ou seja, so dependentes e correlacionados. A
regresso simultnea equivalente a regressar o fentipo
em todos os componentes principais derivados dos
marcadores, sendo que o grau de shrinkage experimentado
por cada efeito estimado proporcional ao seu associado
valor singular quadrtico (CAMPOS et al., 2010). Isso d
suporte ao mtodo GWAS-PSE e, mais ainda, prpria
GWAS com estimao simultnea (GWAS-SE), conforme
Yang et al. (2011). Baseados nesse princpio h tambm os
mtodos regresso via quadrados mnimos parciais (PLSR) e
regresso via componentes principais (PCR) (SOLBERG et
al., 2009).
Ilustra-se a seguir a dependncia de r2 em relao s
frequncias allicas nos dois locos considerados. O r2 um
coeficiente de determinao e equivale ao quadrado do
coeficiente de correlao entre duas variveis ou locos a e
b, dado por:
r=

Cov ( a, b)
ab a b = Pr ob(ab) Pr ob(a ) Pr ob(b) = D
=
[Var ( a )Var (b)]1 / 2 [Var ( a )]1 / 2 [Var (b)]1 / 2
[ pq]1 / 2 [ rs ]1 / 2
[ pq rs ]1 / 2

O quadrado dessa quantidade equivale a r 2 =

D2
, que
[pq rs]

a medida padro de desequilbrio de ligao. Usando as


matrizes de incidncia X dos marcadores o valor de r pode
ser dado por r( a ,b ) =

Cov ( X ia , X ib )
.
[Var ( X ia )]1 / 2 [Var ( X ib )]1 / 2

84

Mtodos estatsticos na seleo genmica ampla

Definem-se as quantidades D = Prob(ab) Prob(a)Prob(b) ,


em que Prob (a) a frequncia do alelo a e Prob (ab) a
frequncia do gentipo ab. Genericamente, p a frequncia
do alelo A, q a frequncia do alelo a, r a frequncia do
alelo B e s a frequncia do alelo b. A igualdade
Var(a) = pq assume distribuio Bernoulli para a presena
do alelo.

Comparao entre 12 mtodos de


seleo genmica ampla

Para a comparao entre vrios mtodos estatsticos na


GWS foram simulados dois conjuntos de dados usando o
aplicativo RealBreeding (VIANA, 2011), (Tabela 6).
Tabela 6. Parmetros usados na simulao.
Carter

Va

Ve

h2

Soma
2pq

N genes
menores

N
genes
maiores

N
indivduos

N
SNP

Sem
gen
maior

4,826202

11,26114

0,300

233,47

100

300

500

114,5132

267,1974

0,300

231,80

98

2*

300

500

Com
gen
maior

* os dois explicando 30% da variao gentica e os 98 explicando 70%.

Foram empregados os seguintes softwares e mtodos na


GWS (Tabela 7).

Mtodos estatsticos na seleo genmica ampla

Tabela 7. Softwares e mtodos usados na GWS.


Mtodo

Software

Referncia

Selegen Genmica

Resende (2007)

2 RR-BLUP

Selegen Genmica

Resende (2007)

3 RR-BLUP-Het

Selegen Genmica

Resende (2007)

4 RR-BLUP
Padronizado

Genome Wide
Prediction

Meuwissen et al
(2009)

5 Fast BayesA

Genome Wide
Prediction

Meuwissen et al
(2009)

6 Fast BayesB

Genome Wide
Prediction

Meuwissen et al
(2009)

7 IBLASSO

GS3

Legarra et al (2011)

8 BayesCPi

GS3

Legarra et al (2011)

9 MCMC-BLUP

GS3

Legarra et al (2011)

10 BLASSO

BLR

Perez et al. (2010)

11 RKRS

Campos et al. (2009a)

12 PLSR

Os autores

1 FR-LS

Os resultados referentes GWS so apresentados na


Tabela 8.

85

86

Mtodos estatsticos na seleo genmica ampla

Tabela 8. Resultados de acurcia referentes GWS.


Mtodo

Acurcia Carter 1

Acurcia Carter 2

0,59

0,44

2 RR-BLUP

0,71

0,78

3 RR-BLUP-Het
(IBLASSO)

0,71

0,80

4 RR-BLUP
Padronizado

0,71

0,78

5 Fast BayesA

0,71

0,79

6 Fast BayesB

0,71

0,79

7 IBLASSO

0,71

0,80

8 BayesCPi

0,59

0,70

9 MCMC-BLUP

0,71

0,80

10 BLASSO

0,68

0,63

11 RKRS

0,99

0,99

12 PLSR

0,99

0,99

1 FR-LS

Verifica-se que, para o carter 1, com arquitetura gentica


homognea, a maioria dos mtodos forneceram acurcia
idntica de 0,71. Apenas os mtodos FR-LS, BLASSO e
BayesCPi foram inferiores. Os mtodos RKRS e PLSR no
usam herdabilidade e, portanto, os resultados (0,99)
obtidos na populao de estimao referem-se a
coeficientes de determinao fenotpica e no a acurcias.
Para a comparao desses mtodos com os demais torna-

Mtodos estatsticos na seleo genmica ampla

se necessria a realizao de validao cruzada em todos


os mtodos.
Para o carter 2, com arquitetura gentica heterognea, os
mtodos diferiram mais, destacando-se como superiores os
mtodos IBLASSO, RR-BLUP-Het (com componentes de
varincia estimados pelo IBLASSO) e MCMC-BLUP,
concordando com Legarra et al. (2011). Os mtodos FR-LS
e BLASSO foram inadequados para os dois caracteres. Os
mtodos RR-BLUP e RR-BLUP padronizado, se aplicados
corretamente, so idnticos.
Foram tambm comparados cinco mtodos na GWAS,
conforme a Tabela 9.
Tabela 9. Softwares e mtodos usados na GWAS.
Mtodo

Software

Referncia

1 GWAS-FR-OBS

Selegen Genmica

Resende (2007)

2 GWAS-PSE-FR-EST

Selegen Genmica

Resende (2007)

3 GWAS-PSE-RR-OBS

Selegen Genmica

Resende (2007)

4 GWAS-PSE-RR-EST

Selegen Genmica

Resende (2007)

5 IBLASSO

GS3

Legarra et al (2011)

*FR: regresso fixa; RR: regresso aleatria

Os resultados referentes GWAS para o carter 2 so


apresentados na Tabela 10. So apresentados o nmero de
marcas retidas em cada mtodo, a acurcia da GWS com o
emprego das referidas marcas retidas e as 16 marcas de
maiores efeitos em cada mtodo de GWAS.

87

88

Mtodos estatsticos na seleo genmica ampla

Tabela 10. Resultados referentes GWAS.


Mtodo1

Mtodo 2

Mtodo 3

Mtodo 4

Mtodo 5

Nmero
marcas =
95

Nmero
marcas =
139

Nmero
marcas = 6

Nmero
marcas =
97

Nmero
marcas =
169

Acurcia =
0,80

Acurcia =
0,80

Acurcia =
0,56

Acurcia =
0,81

Acurcia
=0,79

38

31

16

16

43

16

31

394

11

38

43

38

31

16

38

16

38

31

11

218

43

19

43

49

19

84

33

49

17

11

49

330

17

36

35

10

10

190

42

33

33

36

29

36

303

29

39

252

33

29

49

Mtodos estatsticos na seleo genmica ampla

Verifica-se que os mtodos retiveram nmero de marcas


ligeiramente diferentes mas conduziram a acurcias
similares, exceto pelo mtodo 3. Essas acurcias foram
tambm praticamente idnticas quelas obtidas com o uso
de todas as 500 marcas. Assim, possvel a seleo de um
subconjunto de marcas. O mtodo 3 til em fornecer um
ponto de corte para a seleo de um nmero muito restrito
de marcas mais associadas com o carter. As marcas com
maior associao com o carter foram aproximadamente
coincidentes nos diferentes mtodos. O nvel de
significncia de 5% na GWAS parece adequado para a
GWS. Isso difere dos nveis bem rigorosos (menos que
1/1000) adotados na GWAS propriamente dita.

Pesos das marcas nos diferentes


mtodos e frequncias allicas
O conhecimento dos pesos dados s diferentes fontes de
informao nos procedimentos de estimao relevante no
estudo das propriedades dos diferentes mtodos de
estimao. Mrode et al. (2010) abordaram essa questo.
A equao de estimao dos efeitos de marcadores pelo
mtodo RR-BLUP dada por = (X' X + RR I) 1 X' y . O
estimador do efeito de uma marca i equivale a

i = (xi ' xi + RR I)1 xi ' xi yd i = wi yd i , em que yd i o desvio


fenotpico associado marca i corrigido para todos os
demais efeitos ambientais e genticos de outras marcas,
sendo dado por yd i = xi ' (y x j j ) , i j. O valor
gentico aditivo do indivduo k dado por a k =

x w yd
i

Pelos mtodos bayesianos BayesA e BayesB existe um


componente adicional resultante da amostragem da

89

90

Mtodos estatsticos na seleo genmica ampla

distribuio condicional a posteriori de tal que

a k = xi wi yd i + N ( i , ( xi ' xi + i ) 1 e2 ) . O segundo termo


i

dessa equao tende a zero quando se faz as mdias de


todas as amostras de Gibbs salvas aps o perodo de burn
in.
Diferenas nos pesos dos marcadores, ou seja, diferentes
shrinkages podem surgir mesmo quando se usa o mtodo
RR-BLUP, como resultado da variao nas frequncias
allicas. Mrode et al. (2010) relatam os seguintes pesos
associados a cada categoria (alta, mdia e baixa) de
frequncia allica: 0,19, 0,12 e 0,04, respectivamente.
Para os mtodos BayesA e BayesB, os pesos no variaram
entre as categorias de frequncia allica, equivalendo a
0,52 e 0,88, respectivamente. O peso maior associado ao
BayesB deve-se ao fato desse mtodo efetivamente ajustar
um menor (66% no caso) nmero de marcadores.
Verifica-se ento que os pesos diferem entre mtodos. Isso
afeta as alteraes nas frequncias allicas como resultado
da seleo. E o mtodo RR-BLUP enfatiza pouco os alelos
de baixa frequncia, podendo ser desfavorvel para o
melhoramento a longo prazo. Para contornar isso, um
ndice de seleo enfatizando mais os alelos de baixa
frequncia poderia ser estabelecido.
As correlaes entre pesos e frequncias allicas foram
0,99; 0,40 e -0,05 para o RR-BLUP, BayesA e BayesB,
respectivamente. No mtodo RR-BLUP, a quantidade e
magnitude de informao depende essencialmente das
frequncias allicas. No BayesA e BayesB, dependem
tambm da variao gentica diferencial entre locos.
Conforme Mrode et al. (2010), a correlao entre os efeitos
dos marcadores pelos mtodos BayesA e RR-BLUP usando

Mtodos estatsticos na seleo genmica ampla

componentes de varincia obtidos pelo mtodo BayesA foi


de 0,99.

Formas de parametrizao da matriz


de incidncia genotpica
Parametrizao 1
A matriz de incidncia X contm os valores 0, 1 e 2 para o
nmero de alelos do marcador (ou do suposto QTL) em um
indivduo diploide e, 2p para os indivduos com dados
perdidos de marcas. Esses valores devem ser centrados em
zero para que os efeitos das marcas codominantes sejam
efeitos de substituio allica com mdia zero na
populao, e, nesse caso, assumindo equilbrio de HardyWeinberg, a variao gentica aditiva do carter na
populao equivale a a2 = 2

p ( 1 p )
i

. Dessa forma,

os valores de Xi devem ser subtrados pela mdia de X (via


0 - 2p, 1 - 2p e 2 - 2p, respectivamente) obtendo-se uma
varivel com mdia zero. Assim, com centralizao, no
m

mtodo RR-BLUP deve-se usar nQ = 2 pi (1 pi ) e os


i

efeitos genticos aditivos dos indivduos so dados por


a = X .
Adicionalmente, pode-se padronizar os dados dos
marcadores na matriz X, da seguinte forma para cada
elemento Xi da matriz, referente ao loco i:
Xi = (0 2pi) /(Var(Xi))1/2 se o indivduo
homozigoto para o primeiro alelo (mm);
Xi = (1 - 2pi)/(Var(Xi))1/2 se o indivduo
heterozigoto (Mm);

91

92

Mtodos estatsticos na seleo genmica ampla

Xi = (2 - 2pi)/2/(Var(Xi))1/2 se o indivduo
homozigoto para o segundo alelo no loco marcador
(MM);
Xi = 0 se o indivduo apresenta dado perdido de
marca.
A quantidade pi a frequncia do segundo alelo do
marcador. Dessa forma, a varincia de X com Xi ajustado
igual a 1, obtendo-se uma varivel com mdia zero e
varincia unitria.
Sendo o efeito do marcador na populao, a varincia
devida ao marcador dada por Var(Xi) = Var(Xi) Var().
Com a transformao acima, Var(Xi) = 1 e portanto,
Var(Xi) = Var(). Em outras palavras, modelando a
varincia do efeito do marcador, modela-se diretamente a
varincia do marcador, independentemente de sua
frequncia. Assim, com centralizao e padronizao
a2 = m 2 . Dessa forma, no mtodo RR-BLUP deve-se usar
nQ = m e os efeitos genticos aditivos dos indivduos so
dados por a = X .
Parametrizao 2
Em outra parametrizao, a matriz de incidncia X contm
os valores -1, 0 e 1 para o nmero de alelos do marcador
(ou do suposto QTL) em um indivduo diploide, ou seja,
para os gentipos mm, Mm e MM, respectivamente. Essa
parametrizao ligeiramente inferior anterior (LEGARRA
et al., 2011). Para essa parametrizao deve-se usar,
nomtodo RR-BLUP, n q = 2

p ( 1 p ) e o efeito gentico
i

aditivo do indivduo j dado por

Mtodos estatsticos na seleo genmica ampla

93

a j = [ I ( xij = 1)(2 pi i ) +I ( xij = 0)( pi i qi i ) + I ( xij = 1)(2qi i )


i

Imputao de gentipos marcadores


Dados perdidos associados aos gentipos marcadores
podem ser imputados cientificamente usando a informao
de parentesco entre os indivduos genotipados e no
genotipados. Assim, para funcionar, esse mtodo demanda
que haja algum parentesco entre os indivduos da
populao.
O contedo allico c para os indivduos genotipados (Y)
dado por 0, 1 ou 2 para os gentipos aa, Aa e AA,
respectivamente, para marcadores biallicos e
codominantes. O contedo allico para os indivduos no
genotipados (X) dado por (GENGLER et al., 2007):

1
, em que A refere-se matriz

AXY AYY
cY 1
de parentesco (correlao) gentico aditivo entre indivduos
genotipados ( AYY ) e entre indivduos genotipados e no

cX = 1

genotipados ( AXY ); cY o vetor de contedo allico dos


indivduos genotipados; a mdia geral, calculada
diretamente dos dados genotpicos: 1 um vetor de uns.
A mdia geral pode tambm ser calculada simultaneamente
ao vetor c X por meio das equaes de modelo misto:

94

Mtodos estatsticos na seleo genmica ampla


1' M
1'1

M '1 M ' M + A 1 cY

c
X

1' cY
, em que M uma
=

M 'cy

cY

matriz de incidncia que associa cY a . M pode ser


cX
reescrita como M = (I Y 0 X ) , em que I uma matriz
identidade. A matriz de parentesco dada por

AYY
A=
A
XY

AYX
. O fator necessrio para que o
AXX
sistema tenha soluo e dado por = e2 / c2 , em que e2
a varincia do erro de genotipagem e c2 varincia do
contedo allico c. O componente e2 deve ser mantido
prximo de zero, ou seja, da ordem de 0,001. Isso est
associado a um coeficiente de determinao de c
equivalente a 0,999. Dessa forma,
= e2 / c2 = 0,001 / 0,999 = 0,001001 . O modelo associado
ao sistema de equaes equivale a cY = + McY* + e , em
que cY* = [cY

cX ] .

Considere o seguinte exemplo, com quatro indivduos


genotipados (no aparentados e com contagem de alelos
marcadores 1, 0, 2 e 2, respectivamente) e 1 no
genotipado e irmo completo do indivduo nmero 4. Temse as seguintes matrizes e resoluo pelas equaes de
modelo misto:
1= [1 1 1 1]

cY = [1 0 2 2]

Mtodos estatsticos na seleo genmica ampla

M = [1

0]

A = [1

0,5

0,5

1]

Sendo = 0,001 , tem-se


Matriz dos Coeficientes = MC
1' M
1'1

MC =
1
M '1 M ' M + A
MC = [ 4,0000
1,0000

1,0000

1,0000

1,0000

1,0000

1,0010

1,0000

1,0010 0

1,0000

1,0000

1,0013

-0,0007

-0,0007

0,0013]

1,0010

95

96

Mtodos estatsticos na seleo genmica ampla

Lado Direito das Equaes = LD


1' cY

LD =

M ' cy

LD = [5 1 0 2 2 0].
Soluo
1,2500

0,2498
1,2488

.


1
cY = ( MC ) LD = 0,7493
0,7493
c
X

0,3746

Assim, o gentipo imputado para o indivduo 5 foi 0,3746.


Resolvendo-se via frmula tem-se:
c X = (1
= (1

= (1

1
) c 1
AXY AYY

= (1
AXY I ( 4 ) )
AXY )
1

Y
1.25

0.25
0 0 0 0.5) 1.25 = 1.625

0.75
0.75

Mtodos estatsticos na seleo genmica ampla

O valor 1,625 menos a mdia geral 1,25, fornece o valor


0,375.

Aumento na eficincia seletiva do


melhoramento de plantas e animais
O aumento da eficincia seletiva com o uso da GWS pode
ocorrer pela alterao dos quatro componentes da
expresso do progresso gentico, dada por
GS = (k rgg g ) / L , em que k o diferencial de seleo
padronizado (dependente da intensidade de seleo), rgg
a acurcia seletiva, g o desvio padro gentico
(variabilidade gentica) do carter na populao e L o
tempo necessrio para completar um ciclo seletivo.
Espcies vegetais perenes (florestais, fruteiras, forrageiras,
cana-de-acar) e animais
Nessas espcies, o benefcio da GWS se d devido ao
aumento de rgg e reduo em L. O aumento em rgg se d
devido ao uso da matriz de parentesco real e prpria de
cada carter (RESENDE, 2007). E esse aumento depende
do tamanho da populao de estimao e da densidade de
marcadores. O fator L enormemente reduzido com a
GWS, pois a predio genmica e a seleo podem ser
feitas no estgio de plntulas. Assim, mesmo que rgg seja
de mesma magnitude que aquela obtida com a seleo
fenotpica, a GWS ser ainda superior seleo baseada
em fentipos, devido reduo em L.
Espcies vegetais algamas anuais (milho, girassol)
Nessas espcies o benefcio da GWS se d devido a trs
fatores: aumento de rgg , aumento de k e reduo em L.

97

98

Mtodos estatsticos na seleo genmica ampla

H tambm um aumento da variao gentica explorada


pelo mtodo da seleo recorrente.
Nesse caso, o aumento de rgg se d devido ao uso da
matriz de parentesco real e tambm devido ao fato de se
explorar toda a variao gentica da populao e no
somente aquela entre famlias. Uma vez que a seleo pela
GWS praticada precocemente e antes do florescimento,
torna-se possvel a seleo em nvel de indivduo e nos dois
sexos (como se faz no melhoramento de plantas perenes),
sem a necessidade de duas estaes de plantio: uma para a
avaliao de famlias e outra para o estabelecimento do lote
de recombinao. Consequentemente, o tempo L tambm
reduzido. Essa coincidncia entre unidade de seleo e
unidade de recombinao maximiza tambm a herdabilidade
do mtodo de seleo (explora adicionalmente 0,50 ou
0,75 da variao gentica aditiva que estava dentro de
prognies). A seleo em nvel de indivduo propicia
tambm o aumento da intensidade de seleo k.
Espcies vegetais autgamas anuais (soja, feijo, arroz,
trigo)
Nessas espcies, usando a duplicao de haplides para a
obteno direta de linhagens, o benefcio da GWS se d
devido aos quatro fatores: aumento de rgg , aumento de k,
aumento de g (por meio da explorao de duas vezes a
variao gentica aditiva) e reduo em L.
Seguindo o mtodo normal ou genealgico de
melhoramento, tem-se que a seleo via GWS no pode ser
realizada na gerao F2, pois deve-se caminhar at a
homozigose para a seleo final. Assim, no se reduz L.
Mas pode-se identificar os bons alelos com a GWS na
gerao F2 e direcionar o cruzamento entre as melhores

Mtodos estatsticos na seleo genmica ampla

plantas, fazendo-se a seleo recorrente intrapopulacional


em autgamas. Isso permite aumentar rgg e g e,
consequentemente, aumenta-se o ganho gentico.
Adicionalmente aumenta-se k, pois possvel avaliar um
nmero muito maior de plantas F2 do que de famlias F2:3.
Para o avano de plantas S0 at linhagens homozigotas
pode-se praticar a seleo precoce via GWS em cada
gerao (sem a necessidade de experimentar prognie),
maximizando-se ento a acurcia seletiva. A estimao dos
efeitos de marcas baseada em plantas S0 da gerao F2.

99

100

Mtodos estatsticos na seleo genmica ampla

Referncias
AGUILAR I.; MISZTAL, I.; JOHNSON, D. L.; LEGARRA, A.; TSURUTA,
S.; LAWLOR, T. J. Hot topic: a unified approach to utilize phenotypic,
full pedigree, and genomic information for genetic evaluation of Holstein
final score. Journal of Dairy Science, Champaign, v. 93, n. 2, p. 74352, 2010.
ALMASY, L.; BLANGERO, J. Multipoint quantitative-trait linkage analysis
in general pedigrees. The American Journal of Human Genetics, Chicago,
v. 62, n. 5, p. 1198-1211, 1998.
ANDERSON, D. R.; BURNHAM, K. P.; THOMPSON, W. L. Null
hypothesis testing: problems, prevalence, and an alternative. Journal of
Wildlife Management, Bethesda, v. 64, p. 912-923, 2000.
AKAIKE, H. A new look at the statistical model identification. IEEE
Transaction on Automatic Control, v. 19, p. 716-723, 1974.
AULCHENKO, Y. S.; KONNING, D.; HALEY, C. Grammar: a fast and
simple method for genome-wide pedigree-based quantitative trait loci
association analysis. Genetics, Austin, v. 177, p. 577-585, 2007.
CHIB, S.; GREENBERG, E. Understanding the metropolis-hastings
algorithm. The American Statistician, Washington, DC, v. 49, n. 4, p.
327-335, 1995.
CRUZ, C. D.; GOD, P. I. V. ; BHERING, L. L. Mapeamento de QTLs em
populaes exogmicas. In: BORM, A.; CAIXETA, E. T. (Org.).
Marcadores Moleculares. 2. ed. Viosa, MG: Folha de Viosa, 2009. v.
1. p. 443-481.
CAMPOS, G. de los; GIANOLA, D.; ROSA, G. J. M. Reproducing kernel
Hilbert spaces regression: a general framework for genetic evaluation.
Journal of Animal Science, Champaign, v. 87, p.1883-1887, 2009a.
CAMPOS, G. de los; NAYA, h.; GIANOLA, D.; CROSSA, J.; LEGARRA,
A.; MANFREDI, E.; WEIGEL, K.;COTES, J. M. Predicting quantitative
traits with regression models for dense molecular markers. Genetics,
Austin, v. 182, p. 375-385, 2009b.

Mtodos estatsticos na seleo genmica ampla

CAMPOS, G. de los; GIANOLA, D.; ALLISON, D. B. Predicting genetic


predisposition in humans: the promise of whole-genome markers. Nature
Reviews Genetics, London, v. 11, p. 880-886 Dec. 2010.
FULKER, D. F.; CARDON, L. R. A sib-pair approach to interval mapping
of quantitative trait loci. American Journal of Human Genetics, Chicago,
v. 54, p. 1092-1103, 1994.
GARRICK, D. J.; TAYLOR, J. F.; FERNANDO, R. L. Deregressing
estimated breeding values and weighting information for genomic
regression analyses. Genetics Selection Evolution, London, v. 41, p. 55,
2009.
GENGLER, N.; MAYERES, P.; SZYDLOWSKI, M. A simple method to
approximate gene content in large pedigree populations: application to
the myostatin gene in dual-purpose Belgian Blue cattle. Animal,
Cambrige, v. 1, n. 1, p. 21-28, 2007. DOI:
10.1017/S1751731107392628
GIANOLA, D.; CAMPOS, G. de los. Inferring genetic values for
quantitative traits non-parametrically. Genetics Research, Cambridge, v.
90, p. 525-540, 2009.
GIANOLA D.; FERNANDO, R. L.; STELLA, A. Genomic-assisted
prediction of genetic value with semiparametric procedures. Genetics,
Austin, v. 173, p. 1761-1776, 2006.
GIANOLA, D.; CAMPOS, G.; HILL, W. G.; MANFREDI, E.; FERNANDO,
R. Additive genetic variability and the Bayesian alphabet. Genetics,
Austin, v. 183, p. 347-363, 2009.
GIANOLA, D.; KAAM, J. B. C. H. M. van. Reproducing kernel hilbert
spaces regression methods for genomic assisted prediction of
quantitative traits. Genetics, Austin, v. 178, n. 4, p. 22892303, 2008.
GODDARD, M. E. Genomic selection: prediction of accuracy and
maximization of long term response. Genetica, Dordrecht, v. 136, n. 2,
p. 245-257, 2009.
GODDARD, M. E.; WRAY, N. R.; VERBYLA, K.; VISSCHER, P .M.
Estimating effects and making predictions from genome-wide marker
data. Statistical Science, Hayward, v. 24, p. 517-529, 2009.

101

102

Mtodos estatsticos na seleo genmica ampla

GONZALEZ-RECIO, O.; GIANOLA, D.; LONG, N.; WEIGEL, K. A.; ROSA,


G. J. M.; AVENDANO, S. Nonparametric methods for incorporating
genomic information into genetic evaluations: an application to mortality
in broilers. Genetics, Austin, v. 178, n. 4, p. 23052313, 2008.
HABIER, D.; FERNANDO, R. L.; KIZILKAYA, K.; GARRICK, D. J.
Extension of the bayesian alphabet for genomic selection. BMC
Bioinformatics, London, v. 12, p. 186, 2011.
HAMZA, T. H.; PAYAMI, H. The heritability of risk and age at onset of
Parkinsons disease after accounting for known genetic risk factors.
Journal of Human Genetics, v. 55, p. 241243, 2010.
HASTIE, T.; TIBSHIRANI, R. Generalized Additive Models (with
discussion). Statistical Science, v. 1, n. 3, p. 297-318, 1986.
LEGARRA, A.; ROBERT-GRANI, C.; CROISEAU, P.; GUILLAUME, F.;
FRITZ, S. Improved Lasso for genomic selection. Genetics Research,
Cambridge, v. 93, n. 1, p. 77-87, 2011.
MAKOWSKY, R.; PAJEWSKI, N. M.; KLIMENTIDIS, Y. C.; VAZQUEZ, A.
I.; DUARTE, C. W.; ALLISON, D. B.; CAMPOS, G. de los. Beyond
missing heritability: prediction of complex traits. Plos Genetics, San
Francisco, CA, v. 7, n. 4, 2011.
MEUWISSEN, T. H. E.; HAYES, B. J.; GODDARD, M. E. Prediction of
total genetic value using genome-wide dense marker maps. Genetics,
Austin, v. 157, p. 1819-1829, 2001.
MEUWISSEN, T. H. E.; SOLBERG, T. R.; SHEPHERD, R.; WOOLLIAMS,
J. A. A fast algorithm for BayesB type of prediction of genome-wide
estimates of genetic value. Genetics Selection Evolution, London, v. 41,
p. 2, 2009. DOI:10.1186/1297-9686-41-2.
MISZTAL, I.; LEGARRA, A.; AGUILAR I. Computing procedures for
genetic evaluation including phenotypic, full pedigree, and genomic
information. Journal of Dairy Science, Champaign, v. 92, n. 9, p.
4648-55, 2009.
MRODE, R.; COFFEY, M.; BERRY, D.P. Understanding genomic
evaluations from various evaluation methods and GMACE. Interbull
Bulletin, v. 42, p. 52-55, 2010.

Mtodos estatsticos na seleo genmica ampla

PARK, T.; CASELLA, G. The Bayesian LASSO. Journal of the American


Statistical Association, v. 103, n. 482, p. 681-686, 2008. DOI:
10.1198/016214508000000337
PEREZ, P.; CAMPOS, G; CROSSA, J.; GIANOLA, D. Genomic-enabled
prediction based on molecular markers and pedigree using the BLR
package in R. Plant Genome, v. 3, n. 2, p. 106116, 2010.
POWELL, J. E.; VISSCHER, P. M.; GODDARD, M. E. Reconciling the
analysis of IBD and IBS in complex trait studies. Nature Reviews
Genetics, London, v. 11, p. 800-805, 2010.
RESENDE, M. D. V. Genmica quantitativa e seleo no melhoramento
de plantas perenes e animais. Colombo: Embrapa Florestas, 2008. 330
p.
RESENDE, M. D. V. Matemtica e estatstica na anlise de experimentos
e no melhoramento gentico. Colombo: Embrapa Florestas, 2007. v. 1.
561 p.
RESENDE M. D. V.; LOPES P. S.; SILVA R. L.; PIRES I. E. Seleo
genmica ampla (GWS) e maximizao da eficincia do melhoramento
gentico. Pesquisa Florestal Brasileira, v. 56, p.63-78, 2008
RESENDE M. D. V.; RESENDE JUNIOR, M. F. R.; AGUIAR, A. M.; ABAD,
J. I. M.; MISSIAGGIA A. A.; SANSALONI, C.; PETROLI, C.;
GRATTAPAGLIA, D. Computao da seleo genmica ampla (GWS).
Colombo: Embrapa Florestas, 2010. 79 p.
RESENDE JR., M. F. R. ; VALLE, P. R. M. ; RESENDE, M. D. V. ;
GARRICK, D. J. ; FERNANDO, R. L. ; DAVIS, J. M. ; JOKELA, E. J. ;
MARTIN, T. A. ; PETER, G. F. ; KIRST, M. Accuracy of genomic
selection methods in a standard dataset of loblolly pine. Genetics,
Austin, v. 190, 2012. DOI: 10.1534/genetics.111.137026
SALINAS, S. R. A. Introduo fsica estatstica. 2. ed. So Paulo:
EDUSP, 2005. 462 p.
SILVA, F. F. E.; VARONA, L.; RESENDE, M. D. V.; BUENO FILHO, J. S.
S.; ROSA, G. J. M.; VIANA, J. M. S. A note on accuracy of Bayesian
LASSO regression in GWS. Livestock Science, New York, v. 141, n. 13, p. 310-314, Dec. 2011. DOI:10.1016/j.livsci.2011.09.010.

103

104

Mtodos estatsticos na seleo genmica ampla

SINGER, J. M.; STANEK, E. J.; LENCINA, V. B.; GONZLEZD, L. M.;


LIE, W.; MARTIN, S. S. Prediction with measurement errors in finite
populations. Statistics and Probability Letters, Amsterdam, v. 82, n. 2,
Feb. 2011. DOI: 10.1016/j.spl.2011.10.013.
SOLBERG, T. R.; SONESSON, A. K.; WOOLLIAMS, J. A.; MEUWISSEN,
T. H. E. Reducing dimensionality for prediction of genome-wide breeding
values. Genetics Selection Evolution, London, v. 41, n. 29, 2009.
DOI:10.1186/1297-9686-41-29.
SORENSEN, D.; GIANOLA, D. Likelihood, Bayesian and MCMC methods
in quantitative genetics. New York: Springer Verlag, 2002. 740 p.
TIBSHIRANI, R. Regression shrinkage and selection via the Lasso.
Journal of the Royal Statistics Society Series B, Oxford, v. 58, p.267288, 1996.
USAI, M. G; GODDARD, M. E.; HAYES, B. J. LASSO with crossvalidation for genomic selection. Genetics Research, Cambridge, v. 91,
n. 6, p. 427-36, Dec. 2009 .
VIANA, J. M. S. RealBreeding. Viosa: UFV, 2011.
VAZQUEZ, A. I.; ROSA, G. J.; WEIGEL, K. A.; CAMPOS, G. de los;
GIANOLA, D.; ALLISON, D. B. Predictive ability of subsets of SNP with
and without parent average for several traits in US Holsteins. Journal of
Dairy Science, Champaign, v. 93, n. 1, p. 5942-5949, 2010. DOI:
10.3168/jds.2010-3335.
VISSCHER, P. M.; HILL, W. G.; WRAY, N. R. Heritability in the genomics
era: concepts and misconceptions. Nature Reviews Genetics, London,
v. 9, p. 255-266, 2008.
VISSCHER, P. M.; MEDLAND, S. E.; FERREIRA, M. A. R.; MORLEY, K.
I.; ZHU G.; CORNES, B. K.; MONTGOMERY, G. W.; MARTIN, N. G.
Assumption-free estimation of heritability from genome-wide identity-bydescent sharing between full siblings. PLoS Genetics, San Francisco,
CA, v. 2, n. 3, e41, 2006. DOI: 10.1371/journal.pgen.0020041.
VISSCHER, P. M.; YANG, J.; GODDARD, M. E. A commentary on
Common SNPs explain a large proportion of the heritability for human
height by Yang et al. (2010). Twin Research and Human Genetics, v.
13, n. 6, p. 517524, 2010.

Mtodos estatsticos na seleo genmica ampla

WHITTAKER, J. C.; THOMPSON, R.; DENHAM, M. C. Marker assisted


selection using ridge regression. Genetical Research, Cambridge, v. 75,
p. 249-252, 2000.
WOLD, S.; SJSTRM, M.; ERIKSSON, L. PLS-regression: a basic tool
of chemometrics, Chemometrics and Intelligent Laboratory Systems,
Amsterdam, v. 58, 109130, 2001.
WRAY, N. R. Allele frequencies and the r2 measure of linkage
disequilibrium: impact on design and interpretation of association
studies. Twin Research and Human Genetics, v. 8, p. 87-94, 2005.
WRAY, N. R.; GODDARD, M. E.; VISSCHER, P. M. Prediction of
individual risk to disease from genome-wide association studies. Genome
Research, New York, v. 17, p. 15201528, 2007.
YANG, J.; BENYAMIN, B.; MCEVOY, B. P.; GORDON, S.; HENDERS, A.
K.; NYHOLT, D. R.; MADDEN, P. A.; HEATH, A. C.; MARTIN. N. G.;
MONTGOMERY, G. W.; GODDARD, M. E.; VISSCHER, P. M. Common
SNPS explain a large proportion of the heritability for human height.
Nature Genetics, New York, v. 42, n. 7, p. 565-569, 2010.
YANG, J.; LEE, S. H.; GODDARD, M. E.; VISSCHER, P. M. GCTA: a tool
for genome-wide complex trait analysis. The American Journal of Human
Genetics, Chicago, v. 88, p. 76-82, 2011.
ZOU, H.; HASTIE, T. Regularization and variable selection via the elastic
net. Journal of the Royal Statistical Society B, Oxford, v. 67, p. 301320, 2005 .

105

CGPE 9678

Anda mungkin juga menyukai