BIOMETRIA FLORESTAL
Manaus AM
Maro, 2008
PARTE 1
Um pouco de filosofia.
- Aristteles escreveu: A verdade um alvo to grande que dificilmente algum deixar de toc-lo, mas, ao mesmo tempo, ningum ser capaz de acert-lo em cheio, num s tiro. - A meta da cincia a organizao sistemtica do conhecimento sobre o universo, baseado nos princpios explanatrios que so genuinamente testveis. - O pesquisador tem os dons da instituio e criatividade para saber que o problema importante e quais questes devem ser levantadas; a estatstica, por sua vez, o assistir por meio da maximizao de output no ambguos enquanto minimiza os inputs. - O pesquisador tem que ter em mente que a pesquisa freqentemente levanta mais questes do que respostas. Os resultados quase sempre so meramente uma demonstrao de nossa ignorncia e uma declarao mais clara do que no sabemos. - O pesquisador tem que manter os olhos abertos, sua mente flexvel e estar preparado para surpresas. - A pesquisa est na cabea do pesquisador; o laboratrio ou o campo meramente confirma ou rejeita o que a sua mente concebeu. A sabedoria consiste em conhecer mais as questes certas para fazer e no nas certas respostas. - A aplicao indiscriminada dos mtodos quantitativos sobre inesgotveis quantidades de dados no significa que o entendimento cientfico vai emergir s por causa disso.
tirado do Quadro 1.1. Os resultados do IBOPE, do ltimo dia de pesquisa (com margem de erro igual a 1,8%), so praticamente iguais aos oficiais do TSE. A informao do TSE sobre votos vlidos enquanto que os da pesquisa de opinio so de inteno de votos. Na pesquisa de opinio do 1 turno difcil identificar o voto nulo. Exemplo 2: Pesquisas de opinio sobre o 2 turno da eleio presidencial 2002, realizadas pelo Datafolha. Neste caso, foi possvel estimar os percentuais sobre os votos vlidos. No ltimo dia da pesquisa (26/10/02), o Datafolha estimou 64% dos votos vlidos para o Lula e 36% para o Serra. A Figura 1.6 mostra a dinmica de opinio de eleitores para o2 turno da eleio de 2002. O resultado do TSE (oficial) foi de 61,2% para o Lula e 38,7% para o Serra Quadro 1.1. Considerando a margem de erro de 2% (para mais e para menos), as estimativas do ltimo dia seriam 62% (para menos) para o Lula e 38% (para mais) para o Serra. Esta parte da estatstica de inferncia evoluiu muito no Brasil. A prova disso so os resultados finais do primeiro e do segundo turno da eleio presidencial de 2002 que tem muito a ver com as previses feitas pelas pesquisas de opinio dos vrios institutos. O sucesso tem que ser creditado principalmente pela escolha correta do tipo de amostragem, coleta de dados e processamento & anlise dos resultados A evoluo da informtica tambm contribuiu muito para o sucesso das pesquisas; o rpido processamento e, conseqente, anlise dos resultados, permitiu a repetio em intervalos de tempo menores isso fundamental para a validao dos mtodos utilizados que, por sua vez, d a robustez necessria para a pesquisa e a sociedade ganha com a maior preciso e confiabilidade das pesquisas de opinio. Exemplo 3: Previso da rea desmatada para 2006 (agosto 2005 a julho 2006) com base no intervalo de confiana (95%) da srie histrica de 1978 a 2005 Figura 1.7. Apesar da confuso das estatsticas e de sua interpretao, com boa vontade e profissionalismo, as causas do desmatamento poderiam ser identificadas. O desafio entender a direo que o desmatamento pode tomar no futuro. Sem entender as causas, a direo s pode ser estocstica. A Figura 1.7 ilustra o uso do intervalo de confiana IC (nvel de probabilidade de 95%) para a mdia do perodo 1978-2005. De acordo com dinmica do desmatamento at 2005, as chances do desmatamento durante 2005-2006 (agosto 2005 a julho 2006) so: 29% de ficar acima da estimativa mxima provvel (maior do que 20.983 km2), 29% abaixo da estimativa mnima provvel (menor do que 16.296 km2) e 42 % de ficar dentro do intervalo de confiana (entre 16.296 a 20.983 km2) com 95% de chance de acertar. Exemplo 4: Todos os trabalhos de equaes de volume que utilizam os modelos destrutivos (na maioria das vezes) para ajustar os dados de volume real observado em modelos matemticos que sero utilizados, posteriormente, para estimar o volume da rvore em p. Para concluir a discusso, em torno da natureza da estatstica, importante no perder de vista que a opo por uma das duas estatsticas pode ser pessoal. Entretanto, se a escolha recair sobre a de inferncia, o pesquisador deve se sujeitar as suas regras e condicionantes. A estatstica de inferncia, por sua vez, deve ficar sob as condicionantes da teoria da probabilidade, da normalidade e da independncia; a violao de uma dessas condicionantes implica em um comprometimento muito srio de todo o seu trabalho.
trabalhos de pesquisa, encurtando caminhos para a produo de cincia e de resultados de inventrio florestal. (i) Erro Amostral => o erro que voc comete por no medir toda a populao. Este parmetro mensurvel e, dependendo da escolha dos mtodos, voc tem condies de aumentar ou diminuir este erro. De qualquer modo, trata-se de um parmetro que pode ser controlado e avaliado por voc. o desvio padro da mdia ou, simplesmente, erro padro e tem frmula para o seu clculo. a nica medida de preciso, por mais paradoxal que possa parecer, em qualquer trabalho de pesquisa ou de inventrio florestal. (ii) Erro no-amostral => o erro humano, que pode ser cometido acidental ou deliberadamente. o tipo de erro que voc comete ao alocar uma amostra no lugar errado ex.: no escritrio voc faz a opo pela amostragem inteiramente aleatria e sorteia as unidades amostrais e distribui em sua rea estudo; no campo, entretanto, voc no consegue aloc-las de acordo com as coordenadas pr-estabelecidas e aloc-as em outro lugar. Voc tambm comete erro no-amostral quando utiliza um equipamento defeituoso ou, por preguia, voc chuta as medidas de uma determinada varivel. O problema desse erro que voc no consegue dimension-lo e, neste caso, no h estatstica que d jeito para consertar o mal-feito. A estatstica e o computador s so teis na interpretao de fenmenos observados quando os dados so de absoluta confiana e sem erros no-amostrais. Moral: Busque sempre a melhor metodologia para conseguir a maior preciso de seu trabalho sem, contudo, aumentar a possibilidade de cometer erros no-amostrais. BOM PESQUISADOR aquele que no entrega sua coleta de dados para qualquer PEO. (iii) Populaes, Parmetros e Estimativas A noo central em qualquer problema de amostragem a existncia de uma populao. Pense em uma populao como um agregado de valores unitrios, onde a unidade a coisa sobre a qual a observao feita e o valor a propriedade observada sobre aquela coisa. Populao ento o conjunto de todos os indivduos ou itens sob considerao. Ou ainda: populao o universo de seu interesse. Ilustrando: - se voc est interessado em estudar o potencial quantitativo da floresta da Reserva Ducke, a POPULAO o conjunto de todas as rvores acima de um determinado DAP, existentes naquela rea de 10.000 hectares. - se para voc potencial quantitativo significa volume cbico obtido de equaes simples (DAP como varivel independente), o volume mdio (por hectare, por ex.) de todas as rvores da Reserva Ducke o PARMETRO. - se voc, no entanto, decidir pela avaliao por amostragem e lanar naquela rea algumas amostras (ex.: 10 amostras de 1000 m2, aleatoriamente distribudas), o volume mdio dessas amostras a ESTIMATIVA. AMOSTRA aquela parte da populao da qual a informao coletada. (iv) Tendncia (bias), Exatido e Preciso TENDNCIA ou VIS (bias, em ingls) uma distoro sistemtica. Ela pode ser devido a alguma falha na medio, ou no mtodo de selecionar a amostra, ou na tcnica de estimar o parmetro. Se voc medir o DAP com uma fita diamtrica faltando um pedao na ponta (2 cm), voc medir todas as rvores com 2 cm a mais, ou seja, voc superestimar esta varivel. Uma maneira prtica de minimizar as tendncias em medies por meio de checagens peridicas
dos instrumentos, treinamento adequado para o pessoal que usa os instrumentos e cuidado com eles. Tendncia devido o mtodo de amostragem ocorre quando certas unidades ganham maior ou menor representao na amostra do que na populao. Ex.: se voc excluir 20 metros de bordadura do lado oeste da Reserva Ducke por causa de um igarap. Neste caso, voc est introduzindo tendncia em sua avaliao simplesmente porque voc no deu a mesma oportunidade, para as rvores que ocorrem naquela faixa, em aparecer no seu trabalho. Outro exemplo: quando a equipe econmica faz uma pesquisa nos supermercados do centrosul e extrapola o custo de vida para todo o Brasil; isso uma medida tendenciosa que no reflete o que se passa em Manaus. Tendncia na forma de estimar determinado parmetro pode ser introduzida quando voc, por exemplo, toma o volume mdio da Reserva Ducke e junta com o volume mdio do Distrito Agropecurio da SUFRAMA (600.000 hectares), para avaliar o potencial madeireiro da regio de Manaus. Um volume mdio no tendencioso seria uma mdia ponderada considerando os diferentes tamanhos de cada rea, em vez de usar a mdia aritmtica simples (tendenciosa, neste caso). Importante: A tendncia a me do erro no-amostral, por esta razo, evit-la sinal de prudncia e sensatez. PRECISO E EXATIDO uma estimativa tendenciosa pode ser PRECISA, mas nunca EXATA. Ainda que o Aurlio (dicionrio) pense diferente, para os estatsticos, EXATIDO refere-se ao sucesso em estimar o valor verdadeiro de uma quantidade; PRECISO refere-se distribuio dos valores amostrais em torno de sua prpria mdia que, se for tendenciosa, no pode ser o valor verdadeiro Ver figura 1.8. Exatido ou estreiteza ao valor verdadeiro pode estar ausente por causa da tendncia, falta de preciso ou por causa de ambas.
PENSAMENTO
OPERACIONALIZAR
HIPOTETIZAR
planejar
coletar coletar
tratar
processar
analisar
rejeita rejeita ?
no, concluir!
sim, concluir!
Quadro 1.1: Resultados das eleies para presidente de 2002. RESULTADOS DAS ELEIES DE 2002 Total de eleitores = 115.254.113 Resultado do 1 turno: n de votantes = 94.804.126 ordem 1 2 3 4 5 6 Nmero 13 45 40 23 16 29 Candidato Lula Jos Serra Garotinho Ciro Gomes Z Maria Rui Pimenta total votos 39.454.692 19.705.061 15.179.879 10.170.666 402.232 38.619 % vlidos 46,44 23,20 17,87 11,97 0,47 0,05
Resultado do 2 turno: n de votantes = 91.664.259 ordem 1 2 Nmero 13 45 Candidato Lula Jos Serra total votos 52.793.364 33.370.739 % vlidos 61,27 38,73
18.900 27.200 24597 23.266 18.165 18.226 17.269 17.383 13.227 18.161 29.059 14.896 13.786 11.030 13.730 17.770 21.050
ano ou perodo
99/00 98/99 97/98 96/97 95/96 94/95 92/94 91/92 90/91 89/90 87-89 78/87
3.000 rea desmatada (km2) 2.500 2.000 1.500 1.000 500 0 1997 1998 1999 2000 2001 2002 2003 2004 ano A D A:D (%)
45 40 35 30 25 20 15 10 5 0
Fonte: www.ibama.gov.br sisprof. A = rea desmatada com autorizao; D = rea desmatada total e A:D relao entre autorizado e no autorizado. Figura 1.3: Relao entre reas (em km2) desmatadas com autorizao e sem autorizao na Amaznia.
Fonte: www.ibama.gov.br sisprof Figura 1.4: Origem da madeira da Amaznia planos de manejo florestal sustentvel (PMFS), desmatamento autorizado e sem origem definida.
45
46
23,2 19 12 15 12 19 13 19 14 14 18 15 19 16 20 15 17,9
12
11
12 9
14 a 16/9 17 a 19/9 21 a 24/9 28 a 30/9 4 e 5/10 perodo da pesquisa Lula Serra Garotinho Ciro
TSE
Figura 1.5: Pesquisas de opinio realizadas pelo IBOPE para o 1 turno da eleio presidencial de 2002.
70 60 58 61 59 58
32
32
31
32
data
Lula Serra indecisos nulos/brancos
Figura 1.6: Pesquisas de opinio realizadas pelo Datafolha para o 2 turno da eleio presidencial de 2002.
rea
30.000 28.000 26.000
mdia
mnima
mxima
12.000 10.000
ano ou perodo
Figura 1.7: Previso da rea desmatada para 2006 (agosto 2005 a julho 2006) com base no intervalo de confiana (95%) da srie histrica de 1978 a 2005.
impreciso
preciso
preciso
exato
Por outro lado, a maioria dos dados mtricos considerada DADOS CONTNUOS porque eles envolvem medies sobre uma escala contnua. A escala fica por conta da preciso do aparelho de medio: na suta ou na fita diamtrica, o mximo que podemos chegar dcimo de centmetros, ou seja, entre os DAPs 20 e 21 cm ns podemos ter DAPs com 20.1, 20.2, ... , 20.9; nos cronmetros da Frmula 1, no entanto, o nvel de preciso impensvel para os nossos relgios de pulso.
Quadro 2.2. Clculo de freqncia de cada classe de dimetro. classes de DAP 20 < 30 30 < 40 40 < 50 50 < 60 60 < 70 70 < 80 total Contagem IIIII III IIIII IIIII IIIII IIII IIIII II IIII I I n de rvores (f) 8 19 7 4 1 1 40
O nmero de indivduos (rvores) em cada categoria ou de DAP chamada de FREQUNCIA daquela classe. O quadro 2.2 uma tabela de distribuio de freqncia. No confundir distribuio de freqncia em estatstica com o termo freqncia da Ecologia Vegetal. Nem sempre voc trabalha com quantidade to pequena de indivduos (n = 40, neste caso). Com n maiores mais seguro montar a distribuio de freqncia utilizando a tabela dinmica do Excel aplicao no Captulo 17 (Cadeia de Markov). Algumas dicas para estabelecer distribuies de freqncia: - o nmero de classes no deve ser nem muito pequeno e nem muito grande, ao contrrio, no meio. Sugere-se um nmero entre 5 e 12 regra do olhmetro. Outra forma atravs da seguinte frmula: n classes 1 + 3,33 log N (N = nmero de dados) - cada classe tem que ter a mesma dimenso. Do quadro 2.2, as dimenses so: 20 a 29.9, 30 a 39.9 etc. - cada pedao de dados tem que pertencer a apenas a uma nica classe. Essa lista poderia continuar, mas isso seria artificial. O propsito de grupar dados distribu-los em um nmero razovel de classes de igual tamanho para facilitar a interpretao dos mesmos. Se possvel, os intervalos que tem uma interpretao natural, devem ser utilizados, como por exemplo: dados em DAP que so normalmente divididos em mltiplos de 10.
20 18 freqncia absoluta 16 14 12 10 8 6 4 2 0 Freq
A freqncia pode ser tambm apresentada em porcentagem ou decimal, conhecida como FREQUNCIA RELATIVA. No quadro 2.3 para obter a freqncia relativa de cada classe, bastou dividir a freqncia de cada classe por 40 (nmero total de indivduos contados). Se multiplicarmos essas fraes por 100, teremos a freqncia em %, caso contrrio, em decimais. Quadro 2.3. - Distribuio de Freqncia relativa do quadro 2.1. classes DAP 20 < 30 30 < 40 40 < 50 50 < 60 60 < 70 70 < 80 pt mdio 25 35 45 55 65 75 Freq 8 19 7 4 1 1 freq rel 0,200 0,475 0,175 0,100 0,025 0,025 freq acum 8 27 34 38 39 40
Algumas terminologias: Classe uma categoria para o grupamento de dados. Freqncia o nmero de indivduos ou objetos numa classe. Por exemplo, a freqncia da classe 30-39.9 19. Freqncia relativa a porcentagem, expressa como um decimal, do nmero total de indivduos de uma determinada classe. A freqncia relativa da classe 50-59.9 0.1 ou 10%. Freqncia acumulada a soma das freqncias dos valores inferiores ou iguais a valor dado. Distribuio de Freqncia a listagem das classes com suas freqncias. Limite inferior da classe o menor valor que pode ir dentro de uma classe. Na classe 20-29.9 o limite inferior 20. Limite superior da classe o maior valor que pode ir dentro de uma classe. Na classe 20-29.9 o limite superior 29.9. Se a preciso fosse de duas casas decimais, o limite superior poderia ser 29.99 e assim por diante. Intervalo de classe a diferena entre o limite superior e o limite inferior de uma dada classe. No nosso exemplo, o intervalo 10, ou seja, 30 20 =10. Ponto mdio da classe a mdia aritmtica entre o limite superior e limite inferior da classe. Assim, se a classe for: (20+30)/2 = 25. Da classe 30-40 o ponto mdio 35 e assim por diante.
Computao de Mdia, Mediana e Moda Mdia a estimativa da mdia, x ou , do parmetro , obtida da seguinte maneira: Dos dados do quadro 2.1, a mdia ser:
x =
_ _
( x 1 + x 2 + .... + x 40 ) 40
x = 38,225 Mediana do quadro 2.1, primeiro preciso ordenar em ordem crescente, (1) 25 (11) 31.8 (21) 35 (31) 43 (2) 27 (12) 32 (22) 36 (32) 45 (3) 27 (13) 32 (23) 36 (33) 47 (4) 27 (14) 32 (24) 37 (34) 47 (5) 27.7 (15) 33 (25) 37 (35) 52 (6) 28 (16) 33 (26) 38.5 (36) 53 (7) 28 (17) 33 (27) 39 (37) 58 (8) 29 (18) 33 (28) 40 (38) 58 (9) 30 (19) 34 (29) 40 (39) 63 (10) 30 (20) 34 (30) 41 (40) 77
Neste caso, o nmero total de observaes, n, par, a mediana ser a mdia aritmtica dos vigsimo e vigsimo-primeiro valores, ou seja, (34 + 35)/2 = 34.5. Moda simplesmente o ponto mdio da classe que tem a maior freqncia, que no nosso caso, quadro 2.2, 35, que tem a freqncia = 19. Resumo das estimativas das medidas: Mdia Moda = 38,225 = 35,0 Mediana = 34,5 Interpretao: um conjunto de dados pode ter mais de uma moda, mas sempre ter somente uma mdia ou mediana. Como voc pode ver, de um mesmo conjunto de dados, voc tem diferentes medidas de tendncia central. Qual delas a melhor? A deciso vai depender, principalmente, do objetivo de sua informao. Quando a gente vende madeira em volume, normalmente truncada a um determinado dimetro mnimo, a mdia deve prevalecer tendo em vista a maior facilidade para os clculos posteriores. Se a rvore vendida em p, a moda pode ser mais interessante, porque ela d uma noo tambm da distribuio de freqncia. A utilizao da mediana mais prtica na tomada de decises quanto a tratamentos silviculturais, desbastes etc., quando voc precisa priorizar o tamanho que precisa sofrer intervenes.
As mdias dos dois grupos so iguais. No entanto, claro que estamos nos referindo a dois grupos diferentes em idade. D para perceber que o grupo do Manejo mais uniforme em termos de idade. Neste caso, para ver a variao que h dentro de cada conjunto de dados, podemos usar a amplitude total ou o desvio padro, as duas medidas de disperso mais comuns. AMPLITUDE TOTAL a medida da variao olhando apenas a diferena entre o maior e o menor valor. Esta medida de fcil computao porque depende apenas do maior e do menor valor, mas, em compensao ela no diz o que acontece entre esses dois valores. Alm disso, considerada muito limita, sendo uma medida que depende apenas dos valores externos, instvel, no sendo afetada pela disperso dos valores internos. Do quadro 3.1, as amplitudes so: Manejo: 30 25 = 5 Ecologia: 39 21 = 18
DESVIO PADRO nos d a disperso dos indivduos em relao mdia. Ele nos d uma idia se os dados esto prximos da mdia ou muito longe. O desvio padro dos indivduos de uma populao freqentemente simbolizado pela letra grega minscula (). Dificilmente a gente trabalha com o parmetro. Entretanto, dado uma amostra de valores individuais de uma populao, podemos fazer uma estimativa de que comumente simbolizada por s.
2 (x i - x) n
Frmula : s =
i =1
n -1
x
i =1
2 i
- (( x i ) 2 ) / n
i =1
n -1
redundante. Por esta razo, ao usar a mdia amostral x em vez da mdia da populao como um ponto central no clculo de s, voc perde um grau de liberdade (gl) e a estimativa de dita ter ( n 1 ) gl associados com ela. O uso de (n 1) em vez de (n) no clculo de s tambm fornece uma estimativa no-tendenciosa; isto , em uma srie infinita de amostras aleatrias, o valor mdio do estimador igual a . Os desvios padres dos dados do quadro 3.1 so: Manejo: s = 1.87 Ecologia: s = 7.25
Resumindo: quanto maior a variao dentro de um conjunto de dados, maior ser o desvio padro. Do exemplo 1 ns constatamos agora, que apesar dos dois terem as mesmas medidas de tendncia central, mdia e mediana, as medidas de disperso so totalmente diferentes. Isto quer dizer que o grupo de Manejo mais homogneo em idade, comprovada pela menor variao encontrada.
Clculo da mdia e desvio dos dados grupados:
A mdia calculada da seguinte maneira: x = ( xi * fi ) / n onde: xi = ponto mdio da classe, fi = freqncia de cada classe e n = nmero de classes E o desvio padro segue o mesmo princpio da mdia em relao s classes. Do quadro 2.2, essas medidas sero: x = 38,5 e s = 11,45
_ _
3.4 Percentil:
Ns j vimos um exemplo de percentil. A mediana divide um conjunto de dados em duas partes, 50% de um lado e 50% de outro, depois de coloc-los em ordem crescente. Por esta razo ela se refere ao qinquagsimo percentil de um conjunto de dados. Alm dos percentils, que pode dividir os dados de acordo com qualquer valor percentual, o pesquisador pode tambm querer encontrar o quartil e o decil.
Quartil a separatriz que divide a rea de uma distribuio de freqncia em domnios de rea igual a mltiplos inteiros de um quarto da rea total. Decil a separatriz correspondente ao valor do argumento que divide a distribuio numa razo decimal.
Primeiro quarto
25 27 27 32 36 47 27 32 37 47 27.7 33 37 52 28 33 38.5 53 28 33 39 58 29 33 40 58 30 34 40 63 30 34 41 77
Segundo quarto
31.8 32 35 43 36 45
Computaes: Primeiro quartil = (30 + 31.8) / 2 = 30.9 Segundo quartil = (34 + 35) / 2 = 34.5 Terceiro quartil = (41 + 43) / 2 = 42.0
Do quadro 3.1, estimamos as mdias (28 para manejo e 28 para Ecologia) e os desvios padres (1.87 e 7.25). Agora temos os coeficientes de variao (CV):
CV = 1.87/28 = 0.0668 ou 6.68 % - Manejo CV = 7.25/28 = 0.2589 ou 25.89 % - Ecologia
Do nosso exemplo do quadro 2.1, temos uma populao de rvores, com as seguintes estimativas: mdia = 38,225 e desvio = 11,28
CV = 11,28/38,225 = 0.2951 ou 29,51 % - floresta ZF-2
Mesmo se tratando de populaes diferentes podemos concluir com base nos CVs: A populao Manejo mais homognea e a mais heterognea a floresta da ZF-2. Isto possvel porque o CV uma medida relativa, que independente da unidade de medida utilizada.
VARINCIA - Varincia uma medida da disperso dos valores unitrios individuais em torno de sua mdia. A varincia no s parece com o desvio padro, como o prprio, apenas ao quadrado . Se voc tirar da frmula do desvio, a raiz quadrada, voc tem a frmula da varincia. Por que ao quadrado? Simplesmente porque a soma de todos os desvios tem que se anular, tendendo a zero e, da, voc no teria condies de ver a amplitude de variao dos seus dados em relao mdia.
COVARINCIA - uma medida de como 2 variveis variam juntas, em relacionamento (covariabilidade). Suponha duas variveis x e y. Se os maiores valores de x tende a ser associados com os maiores valores y, ns dizemos que a covarincia positiva. Quando os maiores se associam com os menores, ou vice-versa, a covarincia negativa. Quando no h uma associao particular de x e y, a covarincia tende a zero.
As frmulas so:
Varincia, s2 = SQCx /(n-1) Covarincia, sxy = SPCxy / (n-1)
Sendo: SQC = Soma dos Quadrados Corrigidos SPC = Soma dos Produtos Corrigidos
Frmulas teis
Mdia Aritmtica Varincia
x=
x
i =1
s2 =
(x
i =1
x)
n 1
Erro padro
Desvio padro
s= s
2
2
sx = s / n
n yi n 2 i =1 SQC y = y i n i =1
2
n xi n 2 i =1 SQC x = xi n i =1
SPC xy = xi y i
i =1
( x )( y )
i i
Coeficiente de correlao
r=
Captulo 4 Probabilidade
No captulo 1 ns distinguimos dois tipos de estatsticas: descritiva e de inferncia. A estatstica descritiva envolve a organizao e a sumarizao dos dados. A estatstica de inferncia lida com inferncias (predies educadas) sobre uma populao baseada em uma amostra da populao. Desde que a estatstica de inferncia envolve predies (educadas), sempre possvel fazer uma inferncia incorreta. preciso saber o quanto a nossa inferncia est correta. Para medir a chance de estar certo na nossa inferncia estatstica, precisamos entender a teoria de probabilidade, que a fundamentao matemtica para a estatstica de inferncia. Para entender os princpios da teoria de probabilidade no h como fugir dos exemplos clssicos de cara & coroa, dos dados e do jogo de baralho. A propsito, a teoria foi desenvolvida por causa de jogos de azar. O objetivo deste captulo dar uma base geral para facilitar o entendimento da aplicao de testes de hipteses, paramtrica e no-paramtrica. O processo de computao (clculo) de probabilidades depende de sua capacidade de contar, 1, 2, 3 e assim por diante. A seguir vamos discutir alguns mtodos de contagem.
4.1. Contagem:
Primeiro vamos estabelecer as seguintes definies dentro da teoria de probabilidade.
Resultado - no caso de cara ou coroa, 2 resultados so possveis e no caso do jogo de dados, 6 resultados. Teste - (ou tentativa) - a ao de jogar a moeda e ver se ela cai com a cara ou
coroa.
Experimento - o conjunto de testes (tentativas); se a moeda jogada uma vez, ou duas, ou n vezes, no interessa o procedimento deve ser considerado um experimento. Eventos - so os possveis resultados de um teste, vrios testes ou de todo o experimento. Exemplo de evento: uma coroa em 4 jogadas ou pelo menos um cara. REGRA 1: Se um experimento consiste de n testes, onde cada teste pode resultar em um dos k possveis resultados, afirmamos que h kn possveis resultados de todo o experimento. Exemplo 1: no jogo da moeda voc tem dois resultados, cara (C) ou coroa (c), k=2. Se voc jogar apenas uma vez, n=1, voc ter 21 = 2 possveis resultados, C ou c. Se voc jogar duas vezes, n = 2, voc ter 22 = 4 possveis resultados, CC cc Cc cC. REGRA 2: H n! (fatorial) maneiras de arranjar n objetos distinguveis em uma seqncia. Exemplo 2: considere o nmero de maneiras de arranjar as letras A, B e C numa seqncia. A primeira letra pode ser qualquer uma das trs, a segunda pode ser escolhida de duas maneiras diferentes uma vez que a primeira j foi escolhida, e a letra remanescente se torna a ltima letra escolhida, para um total (3) (2) (1) = 6 ou 3! Arranjos diferentes. Os 6 possveis arranjos so: ABC ACB BAC BCA CAB e CBA. Exemplo 3: suponha uma corrida de cavalos com 8 cavalos. H 8 maneiras de qualquer um deles chegar em primeiro lugar, tendo nas outras colocaes qualquer outro. Se voc quiser saber quantos arranjos so possveis tendo, no primeiro e segundo lugar, qualquer um deles e, as demais colocaes, de qualquer jeito, voc far (8) (7) = 56 arranjos. Se voc,
no entanto, quiser saber todos os possveis arranjos do primeiro ao oitavo lugar voc far 8! = 40320 arranjos.
REGRA 3: se um grupo de n objetos composto de k objetos idnticos de um tipo e o restante (n-k) so objetos idnticos de um segundo tipo, o nmero de arranjos distinguveis dos n objetos numa seqncia, denotado por meio de
n dado por k
n n! = k k! (n - k)!
Ou: se um grupo de n objetos composto de n1 objetos idnticos do tipo 1, n2 objetos idnticos do tipo 2, ..., nr objetos idnticos do tipo r, o nmero de arranjos distintos numa seqncia ser: n dado por ni n n! = ni n1! n2! ... nr!
Cada experimento tem o seu prprio espao amostral, que consiste essencialmente de uma lista de diferentes resultados possveis de um experimento. O espao subdividido e cada subdiviso um ponto. Cada possvel resultado representado por um ponto e somente um ponto.
Exemplo 1: se um experimento consiste em jogar duas vezes a moeda, o espao amostral consiste de 4 pontos CC cc Cc cC. Exemplo 2: uma prova consistindo de 10 questes falsa ou verdadeira passada a um aluno como um experimento. H 210 = 1024 pontos no espao amostral, onde cada ponto consiste da seqncia das possveis respostas para as 10 questes sucessivas, tais como: FFFFVVFFVV.
Agora, ento, possvel definir evento, em termos dos pontos do espao amostral.
(iii) Evento - um evento qualquer conjunto de pontos no espao amostral.
No exemplo 1 ao falarmos do evento duas caras, estamos nos referindo a um simples ponto CC; o evento uma cara consiste de dois pontos Cc e cC; o evento pelo menos uma cara consiste de trs pontos CC, Cc e cC.
Dois diferentes eventos podem ter pontos comuns e ambos. Os eventos pelo menos uma cara e pelo menos uma coroa tem os pontos Cc e cC em comum. Se dois eventos no tm pontos em comuns eles so chamados de eventos mutuamente exclusivos porque a ocorrncia de um evento automaticamente exclui a possibilidade de ocorrer outro evento ao mesmo tempo. Para cada ponto no espao amostral h um nmero correspondente chamado de probabilidade do ponto ou probabilidade do resultado. Estas probabilidades podem ser quaisquer nmeros entre 0 a 1. A definio da probabilidade de um evento inclui a definio da probabilidade de um resultado como um caso especial, desde que o evento possa ser considerado como que se consistisse de um resultado simples. Na prtica, o conjunto de probabilidades associadas com um particular espao amostral raramente conhecido, mas as probabilidades so atribudas de acordo com as noes pr-concebidas do pesquisador, isto , o pesquisador formula um modelo como uma verso ideal do experimento. Ento, o espao amostral do modelo experimental examinado e as probabilidades so atribudas aos vrios pontos do espao amostral de alguma maneira que o pesquisador sinta que pode ser justificada.
Exemplo 3: Num experimento consistindo de uma nica jogada de uma moeda no viciada, razovel assumir que o resultado cara (C) tem metade da chance de ocorrer. Assim, podemos atribuir a probabilidade de para o resultado C e o mesmo para c. Isso pode ser escrito da seguinte maneira: P (C) =1/2 e P (c) = 1/2 . Exemplo 4: Num experimento consistindo de 3 jogadas (testes), razovel assumir que cada um dos 23 = 8 resultados CCC CCc CcC Ccc cCC ccC cCc ccc tem a mesma chance de ocorrer. Assim, a probabilidade de cada resultado 1/8. Tambm P (3 caras) = 1/8, P (pelo menos 1 cara) = 7/8, P (pelo menos 2 caras) = 4/8 = . (iv) Funo de Probabilidade: uma funo que atribui probabilidades aos vrios eventos no espao amostral.
Vrias propriedades dessas funes so aparentes. Considere S como espao amostral e A, B ou C como qualquer evento em S. Ento, se P a funo de probabilidade, P(S) = 1, P(A) > 0 e P(a) = 1 P(A), onde a o evento o evento no ocorre.
(v) Probabilidade Condicional: a probabilidade de ocorrer A dado B.
P (A | B) =
1/ 3 = 2/3 1/ 2
(1)
Exemplo 6: Num experimento consistindo de 2 jogadas de moeda, os 4 pontos no espao amostral assumem ter a mesma probabilidade. Deixe A ser o evento uma cara ocorre na primeira jogada e B ser o evento uma cara ocorre na segunda jogada. Ento A tem os pontos CC e Cc. B tem os pontos CC e cC. AB tem os pontos CC. Tambm P (A) = 2/4, P (B) = 2/4 e P (AB) = 1/4.
P (AB) = (2/4) (2/4) = 4/16 = 1/4 satisfaz a condio (1) e, por esta razo, A e B so independentes.
(vii) Experimentos Mutuamente Independentes: so mutuamente independentes se todos os conjuntos de n eventos formados tiverem a seguinte equao como verdadeira:
P ( A1, A2, ..An) = P (A1) P(A2) ...P (An) onde Ai representa um resultado do i-simo experimento para i = 1, 2, ....n.
Exemplo 7: Considere um experimento com 1 jogada da moeda, onde o evento C tem a probabilidade p e o evento c tem a probabilidade q = 1 p. Considere 3 repeties independentes do experimento, onde o subscrito ser usado para diferenciar o experimento com o qual o resultado est associado. Dessa maneira, C1 c2 C3 significa que o primeiro experimento resultou em C, o segundo em c e o terceiro em C. Por causa de nossa hiptese de independncia,
P (C1 c2 C3) = P (C1) P (c2) P (C3) = pqp Se considerarmos o evento exatamente 2 caras associado aos experimentos combinados, o seguinte pode ocorrer
3 6 = = 3 maneiras e conseqentemente 2 2 P ( exatamente 2 caras) = 3p 2 q
Obviamente o anterior pode ser descrito simplesmente como um experimento com 3 tentativas independentes. Por extenso, podemos considerar um experimento consistindo de n jogadas independentes. A probabilidade de obter exatamente k caras , ento, igual ao termo pkqn - k vezes o nmero de vezes que o termo pode aparecer. Por esta razo, em n jogadas independentes de uma moeda n P (exatamente k caras) = p k q n - k k onde p = P(C) em qualquer jogada.
O quadro 4.1 mostra, por ex., que 17,5% (0.175) das 40 famlias possuem 2 crianas. Agora, suponha que uma das famlias tenha sido selecionada aleatoriamente, ou seja, cada famlia teve igual chance de ser escolhida. Qual a probabilidade que a famlia selecionada tenha 3 crianas? A resposta 4/40, que a mesma frequncia relativa. Suponha que h N resultados possveis num experimento. A probabilidade que um evento ocorra o nmero de vezes, f, que o evento pode ocorrer, dividido pelo nmero total, N, de possveis resultados.
As variveis aleatrias so normalmente representadas pelas letras maisculas X, W, Y ou Z com ou sem subscritos. Os nmeros reais atribudos pelas variveis aleatrias sero representados por letras minsculas.
Exemplo 1: Num experimento onde ao consumidor dada a chance de escolher 3 produtos, sabonete, detergente ou marca A, o espao amostral consiste dos 3 pontos representando as 3 possveis escolhas. Deixe a varivel aleatria atribuir o nmero 1 para a escolha marca A e o nmero 0 (zero) para os outros 2 possveis resultados. Ento, P(X = 1) igual a probabilidade do consumidor escolher a marca A. Exemplo 2: Para 6 meninas e 8 meninos perguntado se eles se comunicam mais facilmente com suas mes ou com seus pais. Deixe X ser o nmero de meninas que pensam que se comunicam melhor com suas mes e deixe Y ser o nmero total de crianas que pensam que se comunicam melhor com suas mes. Se X = 3, ns sabemos que ocorreu o evento 3 meninas pensam que se comunicam melhor com suas mes. Se, ao mesmo tempo, Y = 7, ns sabemos que ocorreu o evento 3 meninas e 7 3 = 4 meninos pensam que se comunicam melhor com suas mes.
Se X uma varivel aleatria, X = x uma notao simplificada que usamos para corresponder ao mesmo evento no espao amostral, especificamente o evento que consiste do conjunto de todos os pontos para os quais varivel X foi atribudo o valor x.
Exemplo 3: Num experimento consistindo de 2 jogadas de moeda, deixe X ser o nmero de caras. Ento, X = 1 corresponde ao evento contendo os pontos Cc e cC.
Dessa maneira, X = x , s vezes, referida como o evento X = x, quando, na realidade, pretendeu-se dizer o evento consistindo de todos os resultados atribudos o nmero x pela varivel aleatria X. Por causa desta estreita correspondncia entre variveis aleatrias e eventos, as definies de probabilidade condicional e independncia se aplicam igualmente bem s variveis aleatrias.
Definio 2: A probabilidade condicional de X dado Y, P (X = x | Y = y), a probabilidade que a varivel aleatria X assume o valor x, dado que a varivel aleatria Y j assumiu o valor y.
(1) P(X = x | Y = y) = P (X = x, Y = y) se P(Y = y) > 0 P(Y = y)
Exemplo 4: Deixe X ser o nmero de meninas que se comunicam bem com suas mes, das 6 meninas entrevistadas, como no exemplo 2 e deixe Y ser o nmero total de crianas que se comunicam bem com suas mes. Por convenincia, deixe Z=Y-X, tal que Z igual ao de meninos, dos 8 entrevistados, que se comunicam bem com suas mes. Assuma que as respostas dadas pelas crianas so independentes de cada outra e que cada criana tem a mesma probabilidade p (desconhecida) de dizer que se comunica bem com a sua me. Encontre a probabilidade condicional P ( X=3 | Y=7).
Primeiro, pelas suposies anteriores, X=3 e Z=4 so eventos independentes. Desde que o evento (X=3, Y=7) o mesmo que o evento (X=3, Z=4), temos a probabilidade P(X=3, Y=7) = P(X=3, Z=4) = P(X=3) P(Z=4) (2) 6 = p 3 (1 - p) 3 3 8 4 p (1 - p) 4 4
por causa do exemplo 7 do item 4.2. Pelo mesmo exemplo, conclumos que (3) 14 P(Y = 7) = p 7 (1 - p) 7 7
(4)
Como os pontos no espao amostral so mutuamente exclusivos, os valores que uma varivel aleatria pode assumir so tambm mutuamente exclusivos. Para um simples resultado de um experimento, a varivel aleatria definida por apenas um nmero. Assim, todo o conjunto de valores que uma varivel aleatria pode assumir tem as mesmas propriedades do espao amostral. Os valores individuais assumidos pela varivel aleatria correspondem aos pontos no espao amostral, um conjunto de valores corresponde a um evento e a probabilidade da varivel aleatria assumir qualquer valor dentro de um conjunto de valores igual a soma das probabilidades associadas com todos os valores dentro do conjunto. Por exemplo:
P (a < X < b) =
a < x <b
P(X = x)
x par
P (X = x)
onde o somatrio se aplica a todos os valores de x que so pares. Por causa dessa similaridade entre o conjunto de valores possveis de X e um espao amostral, a descrio do conjunto de probabilidades associadas com os vrios valores que X pode assumir, freqentemente chamado de funo de probabilidade da varivel aleatria X, assim como um espao amostral tem uma funo de probabilidade. Entretanto, a funo de probabilidade de uma varivel aleatria no uma atribuio arbitrria de probabilidades, como a funo de probabilidade para um espao amostral. Isto porque uma vez que as probabilidades so atribudas aos pontos num espao amostral e uma vez que a varivel aleatria X definida no espao amostral, as probabilidades associadas com os vrios valores de X so conhecidas e a funo de probabilidade de X , dessa maneira, j determinada.
Definio 3: A funo de probabilidade da varivel aleatria X, usualmente representada por f(x) ou de outra maneira qualquer, a funo que d a probabilidade de X assumir o valor x, para qualquer nmero real x, ou seja,
(5)
f(x) = P(X = x)
Vimos at aqui que a distribuio de probabilidades associadas com uma varivel aleatria pode ser descrita por uma funo de probabilidade. Uma outra maneira de dizer a mesma coisa atravs de uma funo de distribuio que descreve as probabilidades acumuladas.
Definio 4: A funo de distribuio de uma varivel aleatria, usualmente representada por F(x), a funo que d a probabilidade de X ser menor ou igual a qualquer nmero real x, ou seja,
(6)
F(x) = P (X x) =
t x
f(t)
(7)
onde: n nmero inteiro positivo, 0 p 1 e q = 1 p. Note que usaremos a conveno usual que 0! = 1. A funo de distribuio ser ento
(8) F(x) = P(X x) =
i x
i p i q n-i
onde o somatrio se estende a todos os possveis valores de i menor ou igual a x. H tabelas prontas para alguns valores selecionados dos parmetros n e p.
Exemplo 5: Um experimento com n testes independentes, onde cada teste pode resultar em um dos dois resultados sucesso ou insucesso, com probabilidade P e q, respectivamente. Deixe X ser igual ao nmero total de sucessos nos n testes. Ento, como mostrado na equao (7),
(9)
Desta maneira, X pode assumir qualquer valor inteiro de 1 a N com igual probabilidade, se X tem a funo de probabilidade discreta uniforme.
Exemplo 6: H em um saco N papeletas numeradas de 1 a N. O experimento consiste de tirar uma papeleta do saco, onde cada papeleta tem a mesma chance de ser tirada. O espao amostral tem N pontos, representando as N papeletas que podem ser tiradas. Deixe X ser igual ao nmero da papeleta tirada. Ento X tem a distribuio uniforme discreta. Definio 7: A funo de probabilidade conjunta f (x1, x2, .. xn ) das variveis aleatrias x1, x2, .. xn a probabilidade da ocorrncia conjunta de X1 = x1, X2 = x2, ... , Xn = xn.
(10)
Definio 8: A funo de distribuio conjunta F(x1, x2, .. xn ) das variveis aleatrias x1, x2, .. xn a probabilidade da ocorrncia junta de X1 x1, X2 x2, ... , Xn xn .
(11)
Exemplo 7: Considere as variveis aleatrias X e Y como definidas no exemplo 2. Considere f(x,y) e F(x,y) como as funes de probabilidade conjunta e de distribuio, respectivamente.
6 f(3, 7) = P (X = 3, Y = 7) = 3
8 7 p (1 - p) 7 4
F(3, 7) = P (X 3, Y 7) =
0 x 3 x y7
f(x, y)
6 f(x, y) = p x (1 - p) 6 - x x
8 y- x 8 - (y - x) y - x p (1 - p)
e onde o somatrio na equao (13) se estende a todos os valores de x e y tal que x 3 e y 7, com a usual restrio de que x e y x so inteiros no negativos. Note que as equaes (12) e (13) no podem ser avaliadas sem conhecer o valor de p.
Definio 9: A funo de probabilidade condicional de X dado Y, f(x | y)
(14)
f(x | y) = P(X = x | Y = y)
Da equao 1 vemos que (15) f(x | y) = P(X = x | Y = y) = P(X = x, Y = y) P(Y = y) f(x, y) f(y)
Para encontrar a frmula geral para f(x | y) (isto , para qualquer valor de x e y), primeiro deixe f(x, y) ser a funo de probabilidade conjunta de X e Y. Isto dado no exemplo 7 como 6 f(x, y) = p x (1 - p) 6 - x x 8 y- x 8 - (y - x) y - x p (1 - p)
que originalmente era uma forma geral da equao (2). Tambm, deixe f(y) ser a funo de probabilidade de Y. Do exemplo 4, novamente, podemos generalizar da seguinte maneira 14 f(y) = P(Y = y) = p y (1 - p)14 - y y Pela definio 9 podemos agora escrever a funo de probabilidade condicional de X dado Y =y
6 8 x y - x f(x, y) f(x y) = = f(y) 14 y
(16)
para
0x6 0 y-x 8
onde todos os termos que envolvem o parmetro desconhecido p foram convenientemente cancelados.
Definio 10: Considere X1, X2, ... , Xn como variveis aleatrias com as respectivas funes de probabilidade f1 (x1), f2 (x2), ... , fn (xn) e com a funo de probabilidade conjunta f (x1, x2, ... , xn ). Ento X1, X2, ... , Xn so mutuamente independentes
(17) se: f(x1, x2, ... , xn ) = f1 (x1) f2 (x2) ... fn (xn) para todas as combinaes dos valores de x1, x2, ... , xn.
Exemplo 9: Considere o experimento descrito no exemplo 8. Ento, a funo de probabilidade de X dada por
Desde que:
f(x, y) = P(X = x, Y = y) = P(X = x | Y = y) P(y = y) O uso das equaes (16) e (19) resulta na funo de probabilidade conjunta de X e Y, sendo dada por 6 x 8 y - x 14 y
f(x, y) =
14 y p (1 - p)14 - y y
6 8 y 14 - y = x y - x p (1 - p) desde que: 6 f 1 (x) f 2 (y) = x vemos que: f(x, y) diferente de f1(x) f2(y) e, por esta razo, X e Y no so independentes. 14 x + y p (1 - p) 20 - x + y y
n( x; , ) =
Para:
0.5
(( x ) )
2
< x < +
- -3 -2 -1 1 2 3 +
Figura 5.1: Curva normal padro Propriedades: A curva normal padro (CNP) tem = 0 e = 1 rea sob a CNP igual a 1 A CNP se estende indefinidamente em ambas direes A CNP simtrica em torno de zero A maior parte (99,73%) da CNP fica entre -3 e +3 Toda a estatstica paramtrica foi desenvolvida com base nos pressupostos da distribuio normal. Se voc usar os testes desenvolvidos com base na distribuio normal, sem atender a condicionante da normalidade, o teste perde a robustez e a consistncia e os
seus resultados podem perder toda a confiabilidade. Entretanto, nem sempre as variveis aleatrias distribuem-se na forma perfeita de um sino ( = 0 e = 1). H vrias maneiras de superar este tipo de obstculo, como aumentar o nmero de amostras e fazer transformaes. S no pode ignorar o detalhe da normalidade.
para: n = 10 e i = 1, 2, ... n
x = 26 anos
Se voc utilizou uma amostra representativa da populao, voc estar afirmando que a mdia verdadeira da populao dos 200 estudantes, , deve ser em torno de 26 anos. Diante disso, surgem algumas questes: Qual a justificativa para utilizar a mdia amostral x para estimar a mdia da (i) populao ? Qual a confiana sobre a preciso envolvida ao usar x para estimar ? No (ii) exemplo 1, se uma amostragem com 10 estudantes utilizada, qual a probabilidade da idade
_ _
mdia amostral, x , estar dentro de um intervalo (vamos dizer, 1 ano) da mdia da populao, ? (iii) Qual a necessria intensidade de amostragem para assegurar uma certa preciso com grande confiana? No exemplo 1, quo grande deveria ser uma amostragem (10? 20 estudantes?) para assegurar que 95% de todos os possveis x cassem dentro de um intervalo de 1 ano da mdia da populao, ? Vamos responder todas estas questes nesta apostila. A primeira ser respondida, parcialmente, neste captulo e completada no captulo 6. As outras duas (ii e iii) sero respondidas nos captulos 6 e 7, respectivamente. Ao amostrar uma populao, a mdia amostral, x , uma varivel aleatria. No captulo 6, vamos ver, em detalhes, como este valor parecido com a mdia da populao. A incerteza da estimativa depende de uma chance sobre a qual a amostra foi selecionada. Apesar disso, a incerteza diminui com o aumento da intensidade de amostragem. Isto uma sentena de um teorema matemtico chamado a lei dos grandes nmeros e a nossa justificativa para usar x para estimar .
_ _ _
. As
probabilidades para x podem ser obtidas aproximadamente usando reas sob certas curvas em forma de sino. H vrias curvas normais, que variam de acordo com a mdia e desvio padro, e . No entanto, a curva que norteia todas as outras curvas, a curva normal padro (Figura 5.1). Tanto a forma como as propriedades da CNP podem ser vistas nesta figura. S existe uma nica curva normal padro, com = 0 e = 1. Quando voc tem pela frente situaes com mdias e desvios diferentes de 0 e 1, respectivamente ... no entre em pnico! Tudo que tem que ser feito padronizar a sua varivel aleatria e, em seguida, usar a CNP para obteno das probabilidades (ou reas). A curva apresentada na Figura 5.1. foi desenhada depois de integrar a funo de distribuio, de z = 0 a z = 3,9 para a primeira metade da curva direita de 0. Como a parte da curva esquerda de 0 espelho da parte direita, as probabilidades da esquerda foram calculadas de z = -3,9 a z = 0. Portanto, o trabalho braal j est feito. A Tabela 1 (anexo da apostila) tem todas as probabilidades (reas sob a CNP) calculadas com preciso de dois dgitos. Vamos ver como funciona a Tabela 1 (anexo da apostila) usando alguns exemplos. As figuras que ilustram o uso da Tabela 1 esto no anexo deste captulo.
Exemplo 2: Achar a rea sob a curva normal padro (CNP) esquerda de z = -0,97.
A soluo grfica est na Figura 5.2-a. Voc vai direto tabela 1 e procure z = -0,9 (sentido vertical), depois o centsimo (7) (sentido horizontal) e no encontro dos dois nmeros (0,97), voc tem a rea (que a probabilidade) sob a CNP.
Neste caso, a rea igual a 0,1660. Isto quer dizer que 16,6% da rea est esquerda de z = -0,97 ou que 83,4% est direita de z = -0,97. No esquecer que a rea total sob a CNP igual a 1.
Exemplo 3: Achar a rea sob a CNP direita de z = 2,5.
Veja a soluo grfica na Figura 5.2-b. De novo, voc vai tabela 1 e procure z = 2,5, depois o centsimo 0 e no encontro dos dois nmeros (2,50), voc tem a rea (que a probabilidade) sob a CNP. Neste caso, voc est calculando a rea sob a CNP de - at 2,5, que d 0,9938 ... esquerda de z = 2,5. Como voc quer saber a rea direita de z = 2,5, voc tem que subtrair de 1 (rea total da CNP) e a sim voc ter a rea direita de z = 2,5. Assim, a rea direita ser 1 0,9938 = 0,0062, ou seja, 0,62% da rea est direita da CNP.
Exemplo 4: Achar a rea sob a CNP entre z = -1,04 e z = 2,06.
Veja a soluo grfica na Figura 5.2-c. Neste caso, so necessrios os seguintes passos: (1) achar a rea esquerda de z = -1,04, que igual a 0,1492; (2) achar a rea direita de z = 2,06, que igual a 0,9803; (3) calcular a rea entre z = -1,04 e z = 2,06, que dada pela diferena (0,9803 0,1492), que igual a 0,8311. Portanto, a resposta : a rea sob a CNP entre z = -1,04 e z = 2,06 0,8311, ou seja, 83,11% da rea da CNP est entre os dois pontos de z.
normal. Cada curva normal pode ser identificada por 2 nmeros chamados parmetros. Estes dois parmetros so usualmente representados por mdia e desvio padro . O parmetro nos diz onde a curva est centrada e indica a disperso da curva normal. Como vimos na Figura 5.1, quando = 0 e = 1, temos a curva normal padro. No entanto, no mundo real esta condio de = 0 e = 1 praticamente impossvel de ser verificada. Os parmetros e variam entre populaes diferentes. Igual CNP, a curva normal (ou curvas normais) centrada na e quanto maior for , mais dispersa (achatada ou esparramada) ser a curva. A curva normal tem as mesmas propriedades da CNP. A nica diferena que o eixo horizontal da CNP z e das outras curvas normais, o eixo x. As curvas normais podem assumir diferentes formas. As figuras 5.3-a, 5.3-b e 5.3-c ilustram as diferentes formas, as quais podem ser consideradas, respectivamente, como platicrtica, mesocrtica e leptocrtica. bvio que existe um limite de achatamento para que a curva seja considerada normal. Este limite pode ser determinado usando o teste de achatamento ou curtose. Da mesma maneira, a curva normal pode ser simtrica ou assimtrica. A assimtrica pode ser negativa (maior freqncia dos dados tendendo direita
do eixo horizontal) e positiva (maior freqncia tendendo esquerda do eixo) V. Figura 5.4. Tambm neste caso, h limite para a assimetria, que pode ser definido usando o teste de assimetria.
Veja a soluo grfica na Figura 5.5-a. Primeiro de tudo preciso padronizar a varivel aleatria x. Os resultados da padronizao so: z = 3,0 (para x = 1) e z = 1 (para x = -1). Agora, voc vai a Tabela 1 (anexo da apostila) para: (1) achar a rea direita de z = 3,0, que igual a 0,9987; (2) achar a rea direita de z = 1, que igual a 0,8413; (3) calcular a rea entre z = 3,0 e z = 1,0, que dada pela diferena (0,9987 0,8413), que igual a 0,1574. Portanto, a resposta : a rea sob a curva normal entre x = -1,0 e x = 1,0 0,1574, ou seja, 15,74% da rea sob a curva normal est entre os dois pontos de x.
Exemplo 6: Achar a rea sob a curva normal ( = 3 e = 2) entre x = 2 e x = 7.
Veja a soluo grfica na Figura 5.5-b. Primeiro de tudo preciso padronizar a varivel aleatria x. Os resultados da padronizao so: z = -0,5 (para x = 2) e z = 2,0 (para x = 7). Agora, voc vai a Tabela 1 (anexo da apostila) para: (1) achar a rea esquerda de z = - 0,5, que igual a 0,3085; (2) achar a rea direita de z = 2, que igual a 0,9772; (3) calcular a rea entre z = -0,5 e z = 2,0, que dada pela diferena (0,9772 0,3085), que igual a 0,6687. Portanto, a resposta : a rea sob a curva normal entre x = 2,0 e x = 7,0 0,6687, ou seja, 66,87 % da rea sob a curva normal est entre os dois pontos de x.
Exemplo 7: Achar rea sob a curva normal ( = 6 e = 3) entre x = 0 e x = 12.
Veja a soluo grfica na Figura 5.5-c. Primeiro de tudo preciso padronizar a varivel aleatria x. Os resultados da padronizao so: z = -2,0 (para x = 0) e z = 2 (para x = 12). Agora, voc vai Tabela 1 (anexo da apostila) para: (1) achar a rea direita de z = 2,0, que igual a 0,9772; (2) achar a rea esquerda de z = -2, que igual a 0,0228; (3) calcular a rea entre z = 2,0 e z = -2,0, que dada pela diferena (0,9772 0,0228), que igual a 0,9544. Portanto, a resposta : a rea sob a curva normal entre x = 0 e x = 12 0,9544, ou seja, 95,44 % da rea sob a curva normal est entre os dois pontos de x.
A grande maioria (no todas) das populaes e variveis aleatrias que so representadas por quantidades como peso, volume, rea basal, DAP etc. tem distribuio de probabilidade que pode ser representada, pelo menos aproximadamente, por meio de curvas normais. Em outras palavras, as probabilidades para tais quantidades podem ser encontradas por meio da interpretao das reas sob as curvas normais. Vamos ver isso com exemplos.
Exemplo 8: Uma populao consistindo do peso (em kg) de um grupo de 100 estudantes de mestrado. Os dados da populao esto sumarizados no quadro abaixo.
Quadro 5.2: distribuio de pesos de uma populao em intervalos de 1 kg. Peso (x) freqncia (f) f relativa (prob) 69 1 ,01 70 2 ,02 71 6 ,06 72 13 ,13 73 17 ,17 74 20 ,20 75 18 ,18 76 12 ,12 77 7 ,07 78 3 ,03 79 1 ,01
O histograma e o polgono de freqncias (absoluta e relativa) dos dados contidos no quadro 5.2 so apresentados na Figura 5.6. Como em qualquer populao, podemos associar a esta populao de pesos, uma varivel aleatria x, como o peso de um estudante selecionado ao acaso. Neste caso, as probabilidades de x so simplesmente as freqncias relativas. Exemplo: qual probabilidade de pegar um estudante com peso igual a 72 kg? Resposta: 13% ou 0,13 (freqncia relativa do quadro 5.2). O ponto importante deste exemplo que o histograma de freqncia (Figura 5.6) tem uma quase perfeita forma de sino. Por causa disto, seremos capazes de aproximarmos das probabilidades para x usando as reas sob uma curva normal. Como voc pode notar, a curva normal apropriada simplesmente aquela com os parmetros e , onde a mdia da populao (ou da varivel aleatria x) e o seu desvio padro. Do quadro 5.2, a mdia () da varivel aleatria x igual a 70,06 kg e o seu desvio padro () igual a 1,95. Estes dois parmetros podem ser sobrepostos Figura 5.6 para trabalhar com uma curva normal com = 74,06 e = 1,95. Podemos querer saber, por exemplo, qual a probabilidade (rea) de pegar, aleatoriamente, um estudante com 72 kg. Do quadro 5.2, temos a probabilidade exata disto acontecer, olhando apenas para a freqncia relativa desta classe (72), que 0,13 ou 13%. A propsito, a classe 72 vai de 71,5 a 72,5. Desta forma, podemos escrever assim: P (71,5 < x < 72,5) = 0,13. No entanto, o mundo real diferente. Nem sempre voc tem uma populao to pequena e to bem organizada que permite ter e e as freqncias relativas. Vamos trabalhar, agora, sem as freqncias relativas. Voc tem uma populao com = 74,06 e = 1,95 e quer saber qual a probabilidade (rea) de pegar, aleatoriamente, um estudante com 72 kg. Passos necessrios: (1) desenhar a curva normal com = 74,06 e = 1,95; (2) definir o qu voc est procurando, que a probabilidade P (71,5 < x < 72,5); (3) padronizar as variveis aleatrias, x = 71,5 e x = 72,5; (4) achar as reas para os respectivos z sob a CNP (Tabela 1 do anexo da apostila). Soluo: a padronizao das variveis aleatrias x = 71,5 e x = 72,5 resulta em z = 1,31 e z = -0,80, respectivamente. Agora, voc vai Tabela 1 para encontrar as reas sob a CNP para z = -1,31 e z = -0,80, obtendo as reas 0,0951 e 0,2119, respectivamente. O resultado ento: 0,2119 - 0,0951 = 0,1168, ou seja, a probabilidade de selecionar, aleatoriamente, um estudante com peso igual a 72 kg (71,5 a 72,5) de 11,68%.
Sumarizando: a probabilidade exata de selecionar, aleatoriamente, um estudante com peso igual a 72 kg de 13% e a estimada de 11,68%. Um importante ponto do exemplo 8 que, para certas populaes e certas variveis aleatrias, podemos usar as reas sob a curva normal para determinar as probabilidades. Neste caso, podemos dizer que a populao ou a varivel aleatria normalmente distribuda. Dizer que uma populao ou varivel aleatria normalmente distribuda (aproximadamente) significa que as probabilidades para a populao ou varivel aleatria so aproximadamente iguais s reas sob a curva normal.
z=
antes de usar a curva normal padro (CNP). Vamos ver o significado de z e seus desdobramentos com exemplos.
Exemplo 9: Considere o DAP de uma rvore selecionada ao acaso. Ento, DAP uma varivel aleatria x com mdia = 100 cm e desvio padro = 10. Por meio da padronizao da varivel x teremos
z=
x 100 10
e se pegarmos, aleatoriamente, uma rvore qualquer da ZF-2, com 120 cm de DAP, por exemplo, o que acontece?
z = (120 100) / 10 = 2
Qual o significado deste nmero, z = 2? Isto significa que a rvore selecionada, aleatoriamente, com DAP = 120 cm est a dois desvios () da mdia da populao. O processo pode ser tambm invertido, ou seja, temos o z e queremos encontrar o valor da varivel aleatria x. Vamos ao exemplo.
Exemplo 10: temos z = 1,5; isto , a varivel x est 1,5 vez da mdia. Qual x? 1,5 = (x 100) / 10 = ? x = 100 + 10(1,5) = 115
ou seja, nesta populao, uma rvore para estar 1,5 vez do desvio, tem que ter DAP igual a 115 cm. Agora, vamos ao principal ponto desta seo. Considere x uma varivel aleatria normalmente distribuda com mdia e desvio padro . Ento, a varivel aleatria, que pode ser padronizada da seguinte maneira:
z=
tem a distribuio normal padronizada. Desta maneira, ns calculamos as probabilidades para a varivel x por meio da interpretao das reas sob a CNP. Daqui para frente, este fato ser usado como guia.
Exemplo 11: pense na floresta adulta (DAP 25 cm) do Distrito Agropecurio da Suframa, onde todos os DAPs so normalmente distribudos com = 35 cm e = 5.
z=
x 35 5
tem a distribuio normal padro. Isto quer dizer que, de acordo com as propriedades da CNP temos
rea = 0,1660
z
-3 -2
Z = -0,97
-1
=0
rea = 0,9938
z
-3 -2 -1 0 1 2 3
Z = 2,5
=0
rea = 0,1492
rea = 0,9803
z
-3 -2
Z = -1,04
z
-3 -2 -1 0 1 2 3
Z = 2,06
-1
=0
=0
z
-3 -2
Z = -1,04
-1
3
Z = 2,06
=0
= -2 =1
x
-5 -4 -3 -2 -1 0 1
=3 =2
x
-3 -1 1 3 5 7 9
=6 =3
-3
12
15
ASSIMETRIA
POSITIVA
NEGATIVA
rea sob a curva normal ( = -2 e = 1) entre x = 1 e x = -1) Padronizando x x- z = ----------- 1 (-2) z = ------------ = 3,0 1 -1 - (-2) z = ------------ = 1,0 1
x z
-5 -3 -4 -2 -3 -1 -2 0 -1 1 z=1 0 2 1 3 z=3
x
-3 -1 1 3 5 7 9
z
-3 -2 -1 z = - 0,5 0 1 z=2 2 3
x
-3 0 3 6 9 12 15
z
-3 -2 -1 0 1 2 3
z = -2,0
z = 2,0
25 20
15 10 5 0
peso (kg)
freq absoluta
i =1
xi p xi
(x )
i xi
n 1
p xi
Vamos ver isso por meio de um exemplo meio irreal. Vamos considerar as idades (congelada em 2003) de cada membro de minha famlia (eu, mulher e 3 filhos) como uma populao, ou seja, N = 5. Esta situao nunca ser encontrada na vida real porque para saber a idade mdia dessa famlia basta somar as 5 idades e dividir por 5 ... ningum vai utilizar os recursos da amostragem. No entanto, se voc entender o significado da estimativa da mdia da populao e o comportamento do erro padro da mdia conforme se aumenta intensidade de amostragem, para uma pequena populao (N = 5), fica mais fcil entender essas duas variveis aleatrias quando for trabalhar com uma populao grande ou infinita (nmero de eleitores do Brasil, N = 115 milhes, floresta da ZF-2 etc.). Temos 3 situaes ilustrando a utilizao de 3 intensidades diferentes de amostragem anexos 1, 2 e 3. A situao 1 se refere a uma amostragem considerando n = 2, ou seja, escolha aleatria de 2 pessoas para estimar a mdia da populao. Primeiro voc tem que saber quantas combinaes so possveis ao sortear 2 (n) de um conjunto de 5 (N) pessoas. S para lembrar: fatorial de zero (0!) igual a 1 e fatorial de nmeros negativos ou no inteiros no existe. Isto mostrado na pgina que ilustra a situao 1. Depois disso, voc tem que estimar a mdia de cada combinao possvel. Aplicando a frmula de x voc vai encontrar a mdia da mdia de todas as possveis combinaes. Voc vai notar que a mdia da mdia exatamente igual mdia verdadeira da populao. Repetindo as mesmas operaes para as situaes 2 e 3, respectivamente, amostragens de n = 3 e n = 4, voc vai notar que a mdia da mdia ser sempre igual mdia da populao, mudando apenas o desvio padro da mdia. Resumindo: a mdia da amostra ser sempre muito parecida com a da populao e conforme voc aumenta o n, o desvio padro da mdia (ou erro ou incerteza) diminui. Voc se convenceu desta afirmativa? Se no, melhor tentar a vida em outra praia. Se sim, vamos pensar agora em termos de populao de verdade. Vamos falar de eleitores brasileiros. Em geral, os institutos utilizam aproximadamente 4.000 eleitores para inferir sobre a populao de 115 milhes de eleitores brasileiros. Quantas possveis combinaes so possveis quando a gente utiliza n = 4000 de N = 115 milhes? s fazer as contas ... mas no as faa.
_
115.000.000 4.000
bvio que ningum vai fazer todas as possveis combinaes. Se fizesse, a mdia da mdia seria exatamente igual mdia da populao. Ento, o que feito? As empresas tomam apenas uma nica combinao de 4000 eleitores para inferir sobre a populao de eleitores pressupondo que a mdia estimada na pesquisa ser igual da populao e que n = 4000 produzir uma incerteza (erro) menor que n = 3.999. Em uma floresta de porte mdio como a da ZF-2, por exemplo, com 21.000 hectares, temos N = 84.000 (21000 x 4) amostras possveis de ha cada. Se a gente usar n = 50, quantas possveis combinaes seriam possveis? Vrias. Quantas combinaes a gente faria no caso de um inventrio florestal? Certamente, apenas uma. A nossa expectativa ter uma mdia (volume ou outra varivel) representativa da populao com uma margem de erro aceitvel. A mdia importante porque sem ela no h planejamento. No entanto, mais importante mesmo saber com que margem de erro (incerteza) a gente est trabalhando. importante tambm no perder de vista que a intensidade de amostragem est diretamente relacionada com os custos. No caso de inventrios, voc tem duas alternativas: (1) fixa a incerteza e libera os custos ou (2) fixa os custos e libera a incerteza. Em geral, a segunda alternativa a mais freqente. H meios para se prevenir de incertezas indesejadas. Em inventrios florestais, voc pode se prevenir utilizando boas imagens, bons mapas, bons equipamentos e mtodos adequados de amostragem, em combinao com planejamento de coleta e processamento dos dados. Estamos falando de erros de amostragem (o erro que voc comete por medir apenas parte da populao). No confundir com erros no-amostrais (humanos, principalmente), que no so tratados aqui. No esquecer tambm que n denominador.
encontradas, aproximadamente, utilizando as reas sob a curva normal com os parmetros e x . Isto quer dizer que: independentemente da forma que a distribuio de sua varivel aleatria assumir, voc pode calcular as probabilidades usando a tabela-z, desde que n 30. Significa tambm que para as amostras aleatrias de qualquer distribuio com mdia e desvio padro x , a mdia amostral dessas unidades de tamanho n aproximadamente normal e esta aproximao melhora conforme se aumenta o n. Para se chegar a este nmero mgico igual a 30, foram feitas inmeras simulaes at constatar que acima deste nmero no se percebe diferenas entre as reas sob a curva normal e de outras funes. Tanto em trabalhos de pesquisas ou de inventrios florestais, o ideal utilizar uma amostragem com, pelo menos, 30 unidades amostrais. Se voc fizer assim, a incerteza que voc encontrar, consistente; caso contrrio, voc ter que comprovar a normalidade antes de inferir. A propsito, uma amostragem com n < 30 considerada pequena e a curva-t a que tem que ser utilizada para a obteno das probabilidades.
_ _
Anexo 1
Situao 1 Tomando uma amostragem com n = 2 de uma populao com N = 5 Quantas combinaes so possveis?
x
48,5 36,5 35,5 31,5 34,0 33,0 29,0 21,0 17,0 16,0
x*p
4,85 3,65 3,55 3,15 3,40 3,30 2,90 2,10 1,70 1,60
30,2 9,43
Desvio
51 46 22 20 12 30,2 17,21
1 2 3 4 5 6 7 8 9 10
51 51 51 51 46 46 46 22 22 20
46 22 20 12 22 20 12 20 12 12
0,1 0,1 0,1 0,1 0,1 0,1 0,1 0,1 0,1 0,1 x x
_ _
33,49 3,97 2,81 0,17 1,44 0,78 0,14 8,46 17,42 20,16 88,86
Anexo 2
x
39,67 39,00 36,33 31,00 28,33 27,67 29,33 26,67 26,00 18,00 x x
_ _
x*p
3,97 3,90 3,63 3,10 2,83 2,77 2,93 2,67 2,60 1,80
30,20 6,28
Desvio
51 46 22 20 12
30,2
1 2 3 4 5 6 7 8 9 10
51 51 51 51 51 51 46 46 46 22
46 46 46 22 22 20 22 22 20 20
22 20 12 20 12 12 20 12 12 12
8,96 7,74 3,76 0,06 0,35 0,64 0,08 1,25 1,76 14,88 39,49
desvio
17,21
Anexo 3
x
34,75 32,75 32,25 26,25 25
x*p
6,95 6,55 6,45 5,25 5
30,2 3,85
desvio
51 46 22 20 12
30,2 17,21
51 51 51 51 46
46 46 46 22 22
22 22 20 20 20
20 12 12 12 12
= 30,2 x = 30,2 Coincidncia? No! Por que no? 1) Se voc usar todas as possveis combinaes, a mdia da mdia x ser sempre igual a mdia da populao , independentemente do tamanho da amostragem. 2) O que muda o desvio padro da mdia ou erro padro, ou seja, conforme aumenta a intensidade de amostragem, diminui o erro, aumenta a preciso e diminui a incerteza da sua estimativa.
_ _
n.
Estamos falando do Intervalo de Confiana (IC), que ser definido com exemplos.
Exemplo 1: Um estatstico est interessado em obter informaes sobre a mdia em altura de uma populao, , de todos os adultos masculinos de uma grande cidade.
Com base em experincia anterior ele sabe que o igual a 2,5. Se ele tomar uma amostragem aleatria de 30 adultos, qual a probabilidade da altura mdia x estar dentro de 1 da altura mdia da populao, ?
_
encontrar as probabilidades para x usando as reas sob a curva normal com parmetros (que no conhecemos) e / n = 2,5 / 30 = 0,46.
Ento, para encontrar P ( - 1 < x < + 1 ), precisamos encontrar a rea sob a curva normal (com parmetros e 0,46) entre - 1 e + 1. Desta vez no conhecemos - 1 e + 1, ao contrrio de exemplos anteriores. Mas, mesmo assim, podemos resolver o problema pela padronizao de nossa varivel aleatria, da seguinte maneira:
_
z = x 0,46
O valor de z para x = - 1 z = [ ( - 1) - ] / 0,46 = -1 / 0,46 = -2,17 E o valor de z para x = + 1 z = [ ( + 1) - ] / 0,46 = 1 / 0,46 = 2,17
_ _
Da tabela 1, tiramos as reas sob a curva para z = -2,17 e z = 2,17, que so respectivamente 0,0150 e 0,9850. A rea, ento, compreendida entre -2,17 e 2,17 : rea = 0,9850 - 0,0150 = 0,97 Conseqentemente,
P ( - 1 < x < + 1 ) = 0,97
_
Suponha agora, por exemplo, que quando o pesquisador tomar uma amostragem aleatria, ele consegue x = 67, ento
_ _ _
x - 1 = 66 e x + 1 = 68
Ele sabe que, 97% destes intervalos contero e, por esta razo, ele pode estar 97% certo de que a estar entre 66 e 68. Desta forma, o intervalo de 66 a 68 chamado de IC 97% para .
Nesta questo (ao contrrio das questes consideradas previamente) a confiana especificada a priori: queremos um IC a 95%. A soluo para este problema o inverso do procedimento usado para resolver o exemplo 1, o que implica em usar a tabela 1 no sentido inverso, ou seja, voc tem a rea sob a curva (rea = 0,05) e precisa encontrar o valor de z.
Soluo: Encontrar o valor-z, para o qual a rea sob a CNP (curva normal padro) direita deste z, 0,025 (rea/2) e esquerda de z. Note que a rea total sob a CNP 1, ento estamos falando de uma rea equivalente a [1 - 0,025 ] = 0,975 e 0,025. Dessa maneira, para
resolver este problema precisamos encontrar o valor-z que tem uma rea entre 0,975 e 0,025 sua esquerda. Na tabela 1, o valor-z que tem uma rea de 0,975 sua esquerda 1,96 - no encontro da linha 1,9 com a coluna 6, voc tem uma rea de 0,9750. Neste caso, voc tem o valor exato de 0,9750 (1 - 0,025) na tabela. Se o valor exato no for encontrado, faa interpolaes. O valor-z que tem uma rea de 0,025 sua esquerda -1,96. Agora, voltando companhia telefnica: sabemos que n = 100 e, em funo podemos recorrer ao TLC (teorema de limite central) para assumir que x aproximadamente normalmente distribuda com x = (que no conhecemos) e o desvio padro:
_ _
n = 4,4
100 = 0,44
z = ( x ) 0,44
e ter aproximadamente uma distribuio normal padro. Como queremos o IC 95% para , podemos coloc-lo da seguinte maneira: P ( -1,96 < z < 1,96 ) = 0,95 P ( -1,96 < [ x - ] / 0,44 < 1,96 ) = 0,95 P ( x - 1,96*0,44 < < x + 1,96*0,44 ) = 0,95 P ( x - 0,86 < < x + 0,86 ) = 0,95 substituindo o valor de x = 5,8, teremos os seguintes intervalos:
_ _ _ _ _ _
x -z
/2
*(/
n ) para x + z
/2
*(/
n )
_
onde z /2 obtido seguindo o passo 1, n o tamanho da amostragem e x obtida dos dados da amostragem.
Exemplo 3: Uma empresa florestal est interessada em obter informaes sobre o dimetro mdio, , de sua floresta. Um estudo preliminar indicou que = 10 cm. O empresrio decidiu verificar esta informao com base em uma amostragem de 30 rvores.
Ele encontrou uma mdia amostral das 30 rvores, x = 40 cm. Baseado nestas informaes, vamos encontrar o IC 90% para a .
Soluo: Checando primeiro: n 30 - OK!; e conhecido. Podemos, ento, aplicar os passos necessrios:
1. O nvel de confiana 0,90 = 1 - 0,90; logo = 0,10 e da tabela 1 tiramos z 2. Desde que z
/2
_
/2
= z 0,05 = 1,64
_
x - z
a x + z
/2*
40 + 1,64 * 10 /
30
37 a 43
Concluindo: o empresrio pode ter 90% de confiana que o dimetro mdio, , de sua floresta est entre 37 a 43 cm.
At agora assumimos que o conhecido. Entretanto, na maioria dos casos, isto no possvel. Uma maneira de lidar com isto fazer um levantamento piloto para estimar o . Quer dizer: podemos usar o desvio padro amostral s no lugar do . Isto aceitvel porque, para grandes amostras ( n 30 ), o valor de s extremamente parecido a ser uma boa aproximao de . A conseqncia matemtica disso a seguinte (recorrendo tambm aoTLC):
x s n
em vez de
E os outros procedimentos so os mesmos apresentados no quadro anterior, substituindo apenas por s . Exemplo 4: No Quadro 7.1 so apresentadas informaes sobre rea basal por hectare de 30 unidades amostrais (ua) selecionadas aleatoriamente de 2 transectos de 20 x 2.500 m, distribudos nas seguintes classes topogrficas: plat, encosta e baixio. Os procedimentos so os mesmos utilizados anteriormente e os resultados so: plat => encosta => baixio =>
IC (95%) = x 2,5 = 31,2 2,5 = 28,7 < < 33,6 IC (95%) = x 2,3 = 28,5 2,5 = 26,2 < < 30,8 IC (95%) = x 2,1 = 26,5 2,5 = 24,4 < < 28,6
_ _
O segundo termo aps o sinal () pode ser considerado como incerteza ou margem de erro. Assim, as incertezas para plat, encosta e baixio so, respectivamente: 0,0799, 0,0808 e 0,0785, ou seja, as incertezas (em %) so de 7,99%, 8,08% e 7,85%.
Se n < 30, no podemos usar a CNP para encontrar as probabilidades para o IC. Entretanto, um pesquisador chamado W.S. Gosset desenvolveu curvas de probabilidade que podem ser usadas, em vez da CNP. Estas curvas so conhecidas como curvas-t de student ou simplesmente curvas-t. A forma de uma curva-t depende do tamanho da amostra. Se a amostra de tamanho n, ns identificamos a curva-t em questo dizendo que a curva-t com (n-1) graus de liberdade. Se tomamos uma amostra aleatria de tamanho n de uma populao que aproximadamente normalmente distribuda com mdia , a varivel aleatria
t = (x ) s
tem a distribuio-t com (n - 1) graus de liberdade. As probabilidades para esta varivel aleatria pode ser encontrada usando as reas sob a curva-t com (n - 1) graus de liberdade tabela 2. As curvas-t variam conforme os graus de liberdade, como ilustrado na figura 7.1.
A rea total sob qualquer curva-t igual a 1. As curvas-t so simtricas em torno de zero. As curvas-t se estendem indefinidamente em ambas as direes. Conforme aumenta o nmero de graus de liberdade, as curvas-t ficam mais parecidas com a CNP.
A maneira de encontrar a rea sob a curva-t a mesma usada na CNP.
x -t
/2
*(s/
n ) para x + t
/2
*(s/
n )
_
onde t /2 obtido seguindo o passo 1, n o tamanho da amostragem e x e s so obtidas dos dados da amostragem.
Exemplo 4: Um vendedor de pneus est interessado em obter informaes a respeito da durabilidade mdia ( ) de uma nova marca. O fabricante diz que a nova marca foi feita para aguentar 40.000 milhas, ou seja, = 40.000. O vendedor quer testar, por sua conta, a durabilidade dos pneus.
Para isto, ele decide tomar uma amostragem aleatria de 16 pneus e conferiu a milhagem de cada um.Os resultados deste teste o seguinte: Pneu 1 2 3 4 5 6 7 8 milhagem 43.725 40.652 37.732 41.868 44.473 43.097 37.396 42.200 Pneu 9 10 11 12 13 14 15 16 Milhagem 39.783 44.652 38.740 39.385 39.686 44.019 40.220 40.742
Usando estes dados, vamos encontrar o IC 95% para , considerando que a durabilidade do pneu normalmente distribuda.
Soluo: Vamos usar o procedimento definido anteriormente; neste caso com n = 16.
1. O nvel de confiana desejado 0.95, isto , = 0,05. Usando a tabela 2 para (16-1) = 15 graus de liberdade. t /2 = t 0,025 = 2,13 2. O IC 95% :
_
_
x - 2,13*( s /
n ) para x + 2,13*( s /
_
n )
x = 41.148,13
e s = 2.360, 32 Conseqentemente
x - 2,13*( s /
x + 2,13*( s /
_
Isto quer dizer que o vendedor pode ter 95% de confiana que a (durabilidade mdia da nova marca) est entre 39.891 a 42.405 milhas. Desta forma, o fabricante est correto em afirmar que a nova marca tem = 40.000 milhas.
Quadro 7.1: Dados de rea basal (m2/ha) em dois transectos na ZF-2 distribudos em classes topogrficas (plat, encosta e baixio).
transecto 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 mdia desvio IC(95%) ua 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 plat 41,4 43,7 26,1 33,8 33,3 37,2 31,0 18,6 33,2 32,4 26,2 41,3 19,6 34,8 27,3 39,5 30,1 24,6 36,6 34,7 60,7 44,7 26,3 24,5 26,6 22,2 35,7 19,4 17,0 52,6 26,6 36,7 33,3 20,6 57,7 38,8 43,2 23,6 28,4 17,6 18,9 27,6 47,7 23,9 21,1 22,3 19,7 27,4 39,2 27,7 28,5 18,0 39,0 28,1 34,0 25,3 26,4 40,6 21,3 31,1 31,2 9,8 2,5 encosta 21,8 28,2 22,1 14,9 21,9 27,5 30,9 36,5 21,9 28,5 28,4 31,5 32,7 30,8 29,9 23,5 18,4 18,4 24,0 16,3 15,9 35,0 19,9 31,3 18,4 31,1 11,3 24,3 47,0 24,8 27,0 30,9 23,8 27,9 28,2 36,6 17,6 33,5 30,2 39,9 38,0 26,6 32,7 56,0 59,8 34,7 29,8 28,5 25,3 9,4 32,3 31,2 28,1 28,1 39,7 21,5 38,7 29,4 25,5 34,0 28,5 9,1 2,3 baixio 28,2 22,1 29,6 39,3 43,2 39,7 40,7 22,6 12,4 15,8 25,6 40,6 26,4 21,8 35,8 34,6 20,6 21,1 24,3 41,6 29,6 41,9 36,7 23,5 27,4 28,1 12,3 23,5 29,6 23,4 6,4 26,9 21,1 17,2 25,2 23,7 14,5 27,7 28,6 37,5 26,1 25,7 18,6 24,2 19,2 15,2 42,3 20,4 26,1 27,0 35,6 24,9 25,2 20,8 23,1 24,9 23,1 23,5 21,3 30,7 26,5 8,2 2,1
Curva normal
Curva-t com 12 gl
Curva-t com 3 gl
-3
-2
-1
0 1
-3 -2 -1 0 1
-3 -2 -1 0 1
uma amostragem aleatria (por ex., n = 30, correspondente a 30 hectares), x , para decidir se aquilo que hipotetizamos ( = 38 cm) est correto ou no. Dizemos ento que = 38 cm a hiptese nula (h0), que pode ser escrita da seguinte maneira: Hiptese nula: = 38 Que pode ser testada contra a hiptese de que a no igual a 38 cm, conhecida como hiptese alternativa (h1), que pode ser escrita da seguinte maneira: Hiptese alternativa: 38 (que pode ser tambm < 38 ou > 38) A questo agora : como usar a x para tomar a deciso? A idia simplesmente a seguinte: sabemos que x dever ser aproximadamente igual a , ou seja, se = 38 (assumindo que h0 verdadeira), podemos esperar que a x (o DAP estimado) seja mais ou menos igual a 38 cm. E agora? O quo prximo de 38 precisa estar o DAP mdio para ser considerado estatisticamente igual a ? Se a gente olhar para h1, precisamos responder: o quo distante de 38 precisa estar o DAP mdio para ser considerado diferente da ? Ou ento: o quo menor ou o quo maior para testar as hipteses alternativas ( < 38 ou > 38)? Matematicamente falando, precisamos encontrar um ponto para tomada de deciso, d, tal que se x d ou se x < d ou se x > d, ento rejeitamos h0 ( = 38). Geralmente os estatsticos usam 1, 5 ou 10% como limites para d antes de rejeitar h0. Os nmeros 0,01 (1%), 0,05 (5%) e 0,10(10%) so chamados de nveis de significncia do teste e so geralmente denotados como .
Como escolher as hipteses para serem testadas??
_ _ _ _ _ _
Em geral a escolha das hipteses nula (h0) e alternativa (h1) bastante subjetiva. Como regra bsica podemos dizer que h0 leva sempre o sinal de ( = ); exemplos: = 38, 1 = 2 (mdia da populao 1 igual a mdia da populao 2) e assim por diante.
1
predio educada pode ser traduzida como um chute certeiro de um Romrio por exemplo.
A h1 pode ser quebrada em duas situaes: - teste uni-caudal: neste caso, ou olhamos direita de d quando temos h1: > 38, ou esquerda de d quando temos h1: < 38. Outra situao 1 < 2 ou 1 > 2. - teste bi-caudal: olhamos simultaneamente direita e esquerda de d e o qu acontecer primeiro transforma-se no argumento principal para rejeitar h0 e, neste caso, em vez de ns temos que usar /2.
Observao: Desde que o nvel de significncia seja a probabilidade de rejeitar uma h0 verdadeira, improvvel que h0 ser rejeitada quando ela for verdadeira. Conseqentemente, se podemos rejeitar h0 num teste de hiptese, ento podemos estar razoavelmente confiantes que h1 verdadeira. Por outro lado, se no podemos rejeitar h0, isto no prova que h0 seja verdadeira, simplesmente quer dizer que ela razovel, nada mais.
H dois tipos de erros quando aceitamos a hiptese que no verdadeira, Tipo I e Tipo II, que ilustramos no quadro abaixo:
hiptese que Aceita h0 h1 H0 OK! erro Tipo I hiptese que verdadeira h1 erro Tipo II OK!
z=
(x )
s n
8.2.1. Testes de Hipteses para uma mdia simples: teste unicaudal para grandes amostras.
(i) Olhando apenas o lado esquerdo da curva:
Procedimentos: 1. Hiptese nula: = 0 2. Hiptese alternativa: < 0 3. Condicionante: tamanho da amostragem n 30 4. Escolher o nvel de significncia2 . Normalmente = 0,01, 0,05 ou 0,10 5. O valor crtico d = - z. Usar Tabela 1 para encontrar o valor de z.
2
6. Calcular o valor de
z=
7. Se z < d, rejeitar a hiptese nula.
(x 0 )
(s n )
Procedimentos: 1. Hiptese nula: = 0 2. Hiptese alternativa: > 0 3. Condicionante: tamanho da amostragem n 30 4. Escolher o nvel de significncia . Normalmente = 0,01, 0,05 ou 0,10 5. O valor crtico d = z. Usar Tabela 1 para encontrar o valor de z. 6. Calcular o valor de
z=
7. Se z > d, rejeitar a hiptese nula.
(x 0 )
(s n )
8.2.2. Testes de Hipteses para uma mdia simples: teste bi-caudal para grandes amostras.
Neste caso vamos olhar esquerda e direita da curva e, por esta razo, temos dois nveis crticos ou pontos de deciso d. Procedimentos: 1. Hiptese nula: = 0 2. Hiptese alternativa: 0 3. Condicionante: tamanho da amostragem n 30 4. Escolher o nvel de significncia . Normalmente = 0,01, 0,05 ou 0,10 5. Os valores crticos so d = - z/2 e d = z/2. Usar Tabela I para encontrar os valores de z/2. 6. Calcular o valor de
z=
(x 0 )
(s n )
8.2.3. Testes de Hipteses para Diferena entre Mdias de Amostras Independentes Grandes Amostras:
Neste caso estamos considerando a possibilidade de comparar dois stios diferentes. Queremos, por exemplo, comparar (querer saber) e o DAP mdio da floresta do Distrito
Agropecurio da SUFRAMA (municpio de Manaus) igual ao DAP mdio da FLONA (Floresta Nacional) do Tapajs (Santarm, Par). Estatisticamente podemos fazer isso da seguinte maneira: Hiptese nula: 1 = 2 Hiptese alternativa: 1 2 ou 1 < 2 ou 1 > 2 sendo: 1 = mdia da populao 1 (Manaus) e 2 = mdia da populao 2 (Santarm). Agora, vamos usar a x de cada populao para fazer inferncia concernente a nossa hiptese. Considere x 1 a mdia amostral da populao 1 tirada de uma amostra aleatria de tamanho n1 de uma populao com mdia 1; e x 2 a mdia amostral da populao 2 tirada de uma amostra aleatria de tamanho n2 de uma populao com mdia 2. Assumindo tambm que as duas amostras so independentes e, se n1 e n2 so ambas maiores que 30, ento a varivel aleatria
_ _ _
x1 x 2 (1 2 ) z= 2 s12 n1 + s 2 n 2
) (
tem aproximadamente a distribuio normal padro. Aqui s1 e s2 so os desvios padres amostrais das respectivas populaes. Agora, se a hiptese nula verdadeira ( 1 = 2 ), ento a frmula de z fica assim
x1 x 2 (1 2 ) z= 2 2 s1 n1 + s 2 n 2
) (
e tem aproximadamente a distribuio normal padro. Procedimentos: 1. Hiptese nula: 1 = 2 2. Hiptese alternativa: 1 < 2 3. Condicionante: n1 e n2 30 4. Escolher o nvel de significncia . Normalmente = 0,01, 0,05 ou 0,10 5. O valor crtico d = - z. Usar Tabela I para encontrar o valor de z. 6. Calcular o valor de
z=
x1 x 2 2 2 s1 n1 + s 2 n 2
) (
Para o teste uni-caudal com hiptese alternativa 1 > 2, o procedimento o mesmo que o anterior, mudando apenas o valor crtico d que d = z e, conseqentemente, a rea de rejeio da h0 passa a ser z > d. Para o teste bi-caudal com hiptese alternativa 1 2, o procedimento o mesmo tambm, usando os dois valores crticos e, em vez de , usamos /2. A rejeio de h0 se dar em funo do qu ocorrer primeiro, ou z < d ou z > d.
t=
x s n
t=
7. Se t > d, rejeitar a hiptese nula.
x 0 s n
Para o teste uni-caudal com hiptese alternativa 1 < 0, o procedimento o mesmo que o anterior, mudando apenas o valor crtico d que d = - t e, conseqentemente, a rea de rejeio da h0 passa a ser t < d. Para o teste bi-caudal com hiptese alternativa 1 2, o procedimento o mesmo tambm, usando os dois valores crticos e, em vez de , usamos /2. A rejeio de h0 se dar em funo do qu ocorrer primeiro, ou t < d ou t > d.
8.3.2. Teste de Hiptese para Diferenas entre Mdias de Amostras Independentes (e Varincia igual) de Pequenas Amostras:
Vimos anteriormente como fazer este teste quando temos amostras independentes com n1 e n2 30. Agora, vamos ver como lidar com este teste quando n1 e n2 so menores que 30. Assim como no caso de mdia simples, podemos usar a distribuio t de Student; a diferena aqui que, alm de assumir que as duas populaes so aproximadamente normalmente distribudas, temos tambm que (i) considerar quando as varincias das populaes ( 12 e 22 ) so iguais e (ii) quando as varincias no so iguais. Neste captulo vamos trabalhar apenas com a condio de varincias iguais porque vamos ver como aplicar teste para saber se duas varincias so iguais ou no, no prximo captulo. As condicionantes sero as seguintes: (1) amostras aleatrias independentes tomadas de duas populaes; (2) as duas populaes so aproximadamente normalmente distribudas; (3) as duas populaes tm varincias iguais. Recapitulando: quando temos uma nica populao, usamos o desvio padro amostral s como a estimativa do desvio padro da populao . Quando trabalhamos com amostras aleatrias independentes de duas populaes com o mesmo desvio padro da populao (i.e., mesma varincia), a melhor estimativa do desvio padro comum (s duas populaes)
sp =
Onde s1 e s2 so desvios padres amostrais obtidos de amostragem da populao 1 e 2, respectivamente. O subscrito p em sp para indicar que estamos referindo a um desvio combinado de duas populaes. Se as populaes so normalmente distribudas e 12 = 22, ento a varivel aleatria tem a distribuio t de Student com (n1 + n2 2) graus de liberdade.
t=
(x1 x2 ) (1 2 ) s p (1 n1 ) + (1 n2 ) (x1 x2 ) (1 n1 ) + (1 n2 )
Considerando 1 = 2, ento 1 - 2 = 0 e se a hiptese nula verdadeira, ento tem a distribuio t de Studente com (n1 + n2 2) graus de liberdade.
t=
Procedimentos: 1. Hiptese nula: 1 = 2 2, Hiptese alternativa: 1 < 2
sp
3. Condicionantes: (i) amostras independentes; (ii) populaes normais; (iii) varincias das populaes iguais. 4. Escolher o nvel de significncia . Normalmente = 0,01, 0,05 ou 0,10 gl. 5. O valor crtico d = - t. Usar Tabela II para encontrar o valor de t com (n1 + n2 -2) 6. Calcular o valor de
t=
sp
(x1 x2 ) (1 n1 ) + (1 n2 )
sendo:
sp =
7. Se t < d, rejeitar a hiptese nula. Para o teste uni-caudal com hiptese alternativa 1 > 2, o procedimento o mesmo que o anterior, mudando apenas o valor crtico d que d = t e, conseqentemente, a rea de rejeio da h0 passa a ser t > d. Para o teste bi-caudal com hiptese alternativa 1 2, o procedimento o mesmo tambm, usando os dois valores crticos e, em vez de , usamos /2. A rejeio de h0 se dar em funo do qu ocorrer primeiro, ou t < d ou t > d.
n 30
(1) n1 30, n2 30 (2) amostras independentes populao normal
(1) amostras independentes (2) populaes normais (3) varincias iguais
= 0
[ x - 0 ] z = ------------[s / n ]
[x 1- x 2] z = ------------------------ [ s12 / n1 ] + [ s22 / n2 ] [ x - 0] t = -----------[s / n ]
[x 1- x 2] t = --------------------------sp (1 / n1) + (1 / n2 )
_ _
1 = 2
= 0
z > z z < -z z > z/2 ou z < -z/2 t > t t < -t t > t/2 ou t < -z/2
t > t t < -t t > t/2 ou t < -t/2
1 = 2
O fabricante avisa que a margem de segurana de 0,1 mm, ou seja, parafusos com dimetros variando de 9,9 e 10,1 mm passam pelo controle de qualidade. Chama-se uma estatstica e ela faz uma amostragem aleatria nas duas linhas de produo concluindo que o dimetro mdio em torno de 10 mm, mas alerta que um ou outro parafuso pode estar fora da especificao (da margem de segurana). Sendo assim, preciso testar as varincias antes de apresentar o relatrio de controle de qualidade das linhas de produo. Foram coletados 20 parafusos de cada linha de produo e tomadas as medidas de dimetro de cada um (Quadro 9.1). Aqui, duas questes precisam ser respondidas: (1) qual a varincia apropriada? (2) se as duas linhas de produo tm a mesma varincia, igualmente apropriada? Margem de segurana igual a 0,1 mm o mesmo que dizer que o desvio de 0,1 mm e varincia de 0,01 mm. Ento, para responder a questo 1, formulamos as seguintes hipteses para a linha de produo 2:
Hiptese nula:
2 = 0,01
diferentes valores de 2. A maneira de encontrar as probabilidades para 2 a mesma usada para determinar as probabilidades para a varivel aleatria z. Se uma varivel aleatria de tamanho n tomada de uma populao que normalmente distribuda com varincia 2, ento as probabilidades para a varivel aleatria
2 =
(n 1) s 2
2
podem ser encontradas usando as reas sob curvas especiais conhecidas como curvas de 2.
As principais caractersticas das curvas 2 so: diferentes para diferentes graus de liberdade; a curva comea no ponto-zero sobre o eixo horizontal e se estende direita; no so simtricas; a rea total sob a curva igual a 1 (um). Os valores de 2 podem ser obtidos diretamente na Tabela III. A Figura 9.1 apresenta trs diferentes curvas para diferentes graus de liberdade (GL).
2 =
(n 1) s 2
2
tem a distribuio qui-quadrado com (n 1) GL; ou seja, as probabilidades para a varivel aleatria 2 podem ser determinadas usando reas sob a curva 2 com (n 1) GL. O nosso exemplo consiste de 20 parafusos escolhidos aleatoriamente da linha de produo 2. A varincia estimada s2 = 0,058. Para testar as hipteses, temos que calcular o valor de 2:
2 =
(n 1) s 2
02
onde 02 o valor de 2 hipotetizada (neste caso, 02 = 0,01). Queremos saber se esta s2 est muito longe da 02 hipotetizada ou no, ou seja, se 0,058 igual a 0,01, do ponto de vista estatstico. Precisamos tambm escolher o nvel de significncia (). Para 19 (20 - 1) GL, 20,05 = 30,14 (Tabela III)
Assim, se a hiptese nula verdadeira, ento a probabilidade que o nosso 2 calculado seja maior do que 30,14 de 0,05. Em smbolos matemticos, podemos escrever P(2tabelado > 30,14) = 0,05. Dessa maneira, se a hiptese nula verdadeira, os valores 2 podem ocorrer apenas em 5% das vezes. Classificaremos os 2 > 30,14 como muito grandes (Figura 9.2). Como em captulos anteriores, vamos chamar 30,14 como valor crtico do teste.
Hiptese nula:
2 = 0,01
2 =
Desde 2 > 30,14, temos que rejeitar a hiptese nula e concluir que 2 > 0,01 para a linha de produo 2. O procedimento geral para montar o teste de hiptese para uma nica varincia o seguinte: 1. Definir as hipteses: - Hiptese nula:
2 = 02
2 =
(n 1) s 2
02
onde 02 o valor hipotetizado na hiptese nula, n o nmero de amostras (ou observaes) e s2 a varincia amostral (estimada). 6. Deciso: Se 2 > c, rejeitar a hiptese nula.
montar o IC, vamos usar o fato que, se uma amostra aleatria de tamanho n tomada de uma populao que normalmente distribuda com varincia 2, ento a varivel aleatria
2 =
(n 1) s 2
02
tem a distribuio qui-quadrado com (n-1) GL. O procedimento geral para montar o IC o seguinte: 1. Pressuposto: Populao normal 2. Se o nvel de confiana desejado 1 - , usar a Tabela III para encontrar
(n 1)s 2
2 2
para
(n 1)s 2
2
1 2
Exerccio 1: Voltando ao exemplo 1, vamos determinar o IC para a varincia da populao, 2, com base na varincia estimada, s2. Vamos usar o nvel de significncia de 10% ( = 0,10) e podemos escrever como 90% IC. Como estamos trabalhando com IC, temos que olhar para os dois lados (caudas) da curva-2 e, em vez de , usamos /2.
Primeiro, vamos Tabela III para encontrar 2/2 e 21-/2 2/2 = 20,05 = 30,14 21-/2 = 21-0,05 = 20,95 = 10,12 O 90% IC ser ento: 19 x (0,058) ----------------- a 30,14 19 x (0,058) ------------------10,12
Em outras palavras: com 90% de confiana, podemos afirmar que a varincia da populao de parafusos da linha de produo 2 est entre 0,037 a 0,109 mm.
no so simtricas; a rea total sob a curva-F igual a 1. As reas sob as curvas-F so apresentadas nas Tabelas IV ( = 0,01) e VI ( = 0,05). Se for preciso usar outros , preciso recorrer aos livros especializados. Para cada preciso uma tabela diferente porque so necessrios valores crticos especficos para cada combinao de GL.
(i) Uso do teste-F para comparao de duas varincias:
Imagine duas amostras aleatrias independentes de duas populaes que so normalmente distribudas. Vamos considerar:
n1 = tamanho da amostragem da populao 1 s12 = varincia amostral da populao 1
12 = varincia da populao 1 e n2, s22 e 22 so os valores correspondentes para a populao 2. Se 12 = 22, ento, a varivel aleatria
F = s12 / s22
tem a distribuio-F com (n1-1, n2 - 1) GL; ou seja, as probabilidades para a varivel aleatria F pode ser determinada usando as reas sob a curva-F com (n1-1, n2 - 1) GL. O procedimento geral para montar um teste de hiptese usando o F o seguinte: 1. Definir as hipteses: - Hiptese nula, H0: 12 = 22 - Hiptese alternativa, H1: 12 > 22 2. Pressupostos: (1) amostras independentes e (2) populaes normais 3. Escolher o nvel de significncia 4. O valor crtico c = F com (n1 - 1, n2 - 1) GL, onde n1 e n2 so os tamanhos das amostragens. 5. Calcular o valor de
F = s12 / s22;
onde s12 e s22 so as varincias amostrais das populaes 1 e 2. 6. Deciso: se F > c, rejeitar a hiptese nula.
Exerccio 2: Vamos comparar as varincias das linhas de produo 1 e 2.
Hiptese nula, H0: 12 = 22 Hiptese alternativa, H1: 12 > 22 A amostragem foi feita de forma independente e os dados so oriundos de uma populao normalmente distribuda. Dessa maneira, podemos usar o procedimento dado anteriormente assumindo = 0,05.
Para (19, 19) GL, o valor crtico F (ou c) aproximadamente 2,16. Quando s12 > s22 recomenda-se a inverso da frmula de F-estatstico, mantendo os mesmos GL. E o Festatstico
F = s22 / s12 = 0,058 / 0,008 = 7,25
Como F > c, podemos rejeitar H0, portanto, 22 > 12. Como sempre, o procedimento para o uso das duas caudas da curva-F basicamente o mesmo que para uma cauda, exceto que precisamos de dois valores crticos em vez de um s. Neste caso, precisamos olhar os dois lados da curva [/2 e (1 - /2)]. No primeiro lado, vamos encontrar nas tabelas IV e VI, para = 0,02 e = 0,10, respectivamente, ou seja, no temos nenhum problema. No entanto, o outro lado da curva (1 - /2), no h como tirar das tabelas. Por exemplo, se vamos definir = 0,10, um lado da curva (/2) ser 0,05 (Tabela VI) e o outro ser 1 - /2 = 0,95. Neste caso, o clculo do F0,95 pode ser feito da seguinte maneira: 1. Vamos considerar = 0,10 e os seguintes graus de liberdade (GL): numerador = 9 e denominador = 8. 2. Calcular o lado direito da curva, /2, F0,05, 9, 8 na Tabela VI, que igual a 3,39. 3. Calcular, ento, o lado esquerdo da curva, 1 - /2, F0,95, 9, 8, da seguinte maneira: - F0,95 para GL = (9,8) a recproca do valor F1-0,95 = F0,05 com os GL trocados (8,9). - Na Tabela VI, F0,95, 8, 9 igual a 3,23 - O F0,95, 9, 8 , ento igual a 1 / 3,23 = 0,31 4. Os valores de F para as duas caudas so: 0,31 e 3,39
Quadro 9.1: Dimetros (mm) de parafusos em duas linhas de produo. Parafuso 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Mdia Varincia Produo 1 9,91 9,97 9,84 9,97 10,18 10,08 10,03 10,02 9,88 10,03 10,05 10,18 10,06 9,98 9,91 10,07 9,98 10,1 9,99 9,97 10,01 0,008 Produo 2 10,48 10,07 9,89 10,38 9,5 9,95 9,81 9,87 10,13 10,03 10,26 9,73 10,29 9,97 10,38 9,94 10,14 10,17 10,17 10,09 10,06 0,058
F
0
Figura 9.1: Curva-F com (3,20) gl
2
0 5 10 15 20 25 30
Figura 9.2: Curva qui quadrado
1) Distribuio de dimetro: voc desenvolve uma funo para descrever a relao entre classes de dimetro e freqncia. Ao testar a confiabilidade dessa funo em outra rea, voc deve coletar novos dados e produzir a nova distribuio de freqncia. O passo seguinte confrontar a sua verdade de campo distribuio observada - com a distribuio hipotetizada (desenvolvida em outro local, por outro pesquisador) distribuio esperada. 2) Projeo da distribuio de dimetro: voc usa a cadeia de transio probabilstica Markov para fazer a projeo da dinmica da floresta de seu interesse. Voc usa, por exemplo, ano 2000 como hoje e 1997 como seu passado imediato perodo de 3 anos para fazer a projeo para um futuro imediato, 2003. Portanto, em 2003, voc tem condies de avaliar se a Cadeia de Markov confivel para este tipo de trabalho. Basta comparar a projeo feita (hipotetizada ou esperada) e confrontar com medies feitas em 2003 (observada). Se der no significante, significa que a projeo , estatisticamente, igual verdade de campo (medies realizadas em 2003) e voc pode confiar na Cadeia de Markov.
(ii) Independncia: Exemplos:
3) Ocorrncia de espcies nas diferentes classes topogrficas: imagine que voc no sabe nada disso, ento, voc vai hipotetizar que a distribuio seja a seguinte: 1/3 das espcies ocorrem no plat; 1/3 na encosta e 1/3 no baixio. Faa um levantamento em algumas toposseqncias e distribua as espcies de acordo com as classes topogrficas. Compare os valores observados seu levantamento com os valores hipotetizados (1/3, 1/3 e 1/3). Se der no significante, isso quer dizer a distribuio de espcies na sua rea de trabalho ocorre independentemente das classes topogrficas.
(iii) Homogeneidade: Exemplos:
4) Usando o exemplo (3): se voc quiser comparar uma toposseqncia da ZF-2 com uma da Reserva Ducke pra saber se essas toposseqncias so homogneas em relao a distribuio de nmero de espcies por classe topogrfica. Imagine que na ZF-2, a distribuio seja 40% no plat, 30% na encosta e 30% no baixio. A, voc faz o levantamento na Ducke e descobre que a distribuio 36% no plat, 32% na encosta e 32% no baixio.
Aplica o teste qui-quadrado pra checar se a distribuio da ZF-2 igual a da Ducke. Se der no significante, isso quer dizer as toposseqncias so homogneas.
H0 => A populao grupada de acordo com uma determinada distribuio de probabilidade. H1 => A populao no grupada de acordo com uma determinada distribuio de probabilidade.
Passo 2: lembrar das seguintes condies => (i) E > 1 e (ii) mximo 20% de E < 5 Passo 3: Definir o => 10%, 5% ou 1%. Passo 4: Determinar o valor crtico c com (k 1) graus de liberdade, na Tabela III => k = nmero de grupos ou nmero de classes de dimetro. Passo 5: Calcular o 2
=
2
(O E )2
E
Agora, vamos exemplificar com nmeros. Imagine uma populao de rvores com 120 indivduos tendo a seguinte distribuio de dimetro.
classes DAP 25 35 45 55 > 65 Total freqncia 24 48 24 12 12 120 probabilidade 0,2 0,4 0,2 0,1 0,1 1
Em seguida, voc faz um levantamento usando apenas parte da populao (neste caso 40 rvores) e quer saber se a amostra representativa. A distribuio de dimetro dessa amostragem apresentada abaixo incluindo a freqncia de acordo com a distribuio da populao (n = 120) e o 2.
H0: A distribuio de probabilidades das classes DAP da amostragem (n=50) igual a da populao (n=120). H1: A distribuio de probabilidades das classes DAP da amostragem (n=50) no igual a da populao (n=120).
= 0,05
Deciso => c (9,49) maior do que 2calculado (1,5); portanto, no rejeitar H0. Concluir que a distribuio da amostragem , estatisticamente, igual a da populao e, por essa razo, a amostragem representativa da populao.
10.2.2. Qui-quadrado ( 2 ) para teste de independncia ou tabela de contingncia.
Neste caso, vamos trabalhar com linhas (L) e colunas (C). O valor esperado de cada clula calculado da seguinte maneira: (total da linha) x (total da coluna) E = -----------------------------------------total de observaes
Passos necessrios: Passo 1: formular as hipteses cientficas:
=
2
(O E )2
E
Exemplificando com nmeros: Pesquisa com acidentes em relao ao sexo das pessoas envolvidas. Veja quadro abaixo com 2 colunas e 3 linhas.
homem 40 49 18 107
mulher 5 58 13 76
H0: a circunstncia de um acidente independente do sexo da vtima. H1: a circunstncia de um acidente no independente do sexo da vtima. Calculando os valores esperados (E): primeira linha e primeira coluna => (45 x 107) / 183 = 26,3 primeira linha e segunda coluna => (45 x 76) / 183 = 18,7 segunda linha e primeira coluna => (107 x 107) / 183 = 62,6 segunda linha e segunda coluna => (107 x 76) / 183 = 44,4 terceira linha e segunda coluna => (31 x 76) / 183 = 12,9 terceira linha e primeira coluna => 31 x 107) / 183 = 18,1 E o quadro com os valores observados e esperados o seguinte:
local acidente homem O E 40 26,3 49 62,6 18 18,1 107 mulher O E 5 18,7 58 44,4 13 12,9 76 total 45 107 31 183
Valor crtico c (tabela III com GL=2) igual a 9,21. GL = 2 => (L-1)(C-1) = (3-1)(2-1) = 2 Calcular 2 = (40-26,3)2/26,3 + ...... + (13-12,9)2/12,9 = 24,30 Deciso: 2 > c; logo, rejeitamos a H0.
10.2.3. Qui-quadrado ( 2 ) para teste de homogeneidade
Como para o teste de independncia, vamos trabalhar com linhas (L) e colunas (C). O valor esperado de cada clula calculado da seguinte maneira: (total da linha) x (total da coluna) E = -----------------------------------------total de observaes
Passos necessrios: Passo 1: formular as hipteses cientficas:
=
2
(O E )2
E
Exemplificando: Comparando duas cidades estratificadas por cor da pele. Duas amostragens (n = 100 para as duas) so consideradas e o resultado apresentado no quadro abaixo.
amostragem brancos 83 87 170 negros 5 6 11 Outros 12 7 19 total 100 100 200
cidade 1 cidade 2
total
Hipteses: H0: Cidade 1 e cidade 2 tm a mesma % para cada cor de pele H1: Cidade 1 e cidade 2 no tm a mesma % para cada cor de pele Checando: nenhum E menor do que 1 e no tem E < 5 => OK
= 0,05
Valor crtico c (tabela III com GL=2) igual a 5,99. GL = 2 => (L-1)(C-1) = (2-1)(3-1) = 2 Calcular 2 = (83-85)2/85 + ...... + (7-9,5)2/9,5 = 1,52 Deciso: 2 < c; logo, no rejeitamos a H0, ou seja, cidade 1 e cidade 2 tm a mesma distribuio de cor de pele.
No primeiro caso (de simples entrada), voc determina o valor de F dividindo MQentre pela MQdentro. Antigamente, muito antigamente mesmo, voc pegava o Fcalculado e comparava com o Ftabela (funo dos GLs ENTRE e DENTRO e nvel de significncia ). Atualmente, os softwares estatsticos vo te dar o valor exato da probabilidade para inferncia => ento, em vez do valor de F no quadro auxiliar, o software vai te fornecer a probabilidade. No segundo caso (de dupla entrada), voc quer ver, separadamente, os efeitos dos blocos e dos tratamentos. Para isso, voc aplica o teste-F para blocos e para os tratamentos, separadamente. O valor de F para blocos voc consegue dividindo MQblocos pela MQresduos e para os tratamentos dividindo MQtratamentos pela MQresduos.
Passos necessrios:
(i) Formular as hipteses H0 => 1 = 2 ...... = n H1 => nem todas as so iguais ou, pelo menos, uma diferente. (ii) Definir os tipos de dados que voc vai utilizar => dados mtricos (iii) Condies => as k populaes so normais com a mesma varincia. (iv) Definir o nvel crtico (v) Determinar o valor crtico c => c = F com (k-1) GL no numerador e (n-k) GL no denominador. (vi) Calcular F
MQentre F = -------------MQdentro
(vii) Deciso => Se F > c, rejeitar H0
11.3. Exemplo com aplicao das frmulas necessrias para o preenchimento do quadro de ANOVA:
a) Frmulas:
Soma dos Quadrados => SQentre ou SQE g xij ( xij )2 2 n i =1 i =1 SQE = ( x media ) ou g n i =1
k
2
SQD = xij
i =1
Estamos interessados em comparar a renda mdia anual de 4 companhias diferentes.Vamos s companhias e, aleatoriamente, pegamos a declarao de renda para o Imposto de Renda de 5 empregados de cada uma. O resultado apresentado no quadro seguinte (em R$ 1.000,00):
H0: 1 = 2 = 3 = 4 H1: nem todas so iguais n = 20 g=5 k=4 = 0,05
empreg 1 2 3 4 5 subtot
CIA1 46 53 54 29 27 209
CIA2 65 59 17 18 37 196
CIA3 37 13 65 42 33 190
CIA4 11 35 57 56 40 199
Quadro auxiliar
Fontes de Variao Entre Dentro (Resduo) Total GL 3 16 19 SQ 37,8 5486,6 5524,4 MQ 12,6 342,9 F 0,04
SQE = [ (2092 + 1962 + 1902 + 1992) / 5 ] [ (46 + 53 + 54 + .....56 + 40)2 ] / 20 = 37,8 SQD = [ 462 + 532 + ... 562 + 402 ] - [ (2092 + 1962 + 1902 + 1992) / 5 ] = 5.486,6 MQE = 37,8 / 3 = 12,6 MQD = 5.486,6 / 16 = 342,9 F = 12,6 / 342,9 = 0,04 Deciso => F0,05 = 3,24 para GL = 3, 16; logo, no rejeitar H0
c) Exemplo 2: Utilizando os dados do Quadro 7.1 vamos ver se h diferenas entre as estimativas de rea basal das diferentes classes topogrficas. Neste caso, vamos direto sada (output) do Systat, que a seguinte: Fontes de Variao Entre classes Dentro (Resduo) Total GL 2 177 179 SQ 659,83 14582,04 MQ 329,92 82,38 F 4,005 p 0,02
O resultado da ANOVA mostra p = 0,02. Se usssemos os nveis crticos tradicionais ( = 0,05 e = 0,01), a concluso poderia ser a seguinte: as diferenas em rea basal entre as classes topogrficas so significantes a 0,05, mas no a 0,01. Com esta facilidade o valor exato de voc deve concluir com aquilo que voc est vendo, ou seja, 0,02.
Todas as equaes bsicas podem ser linearizadas e, deste modo, as estimativas dos coeficientes de regresso podem ser obtidos usando procedimento tradicional de regresso linear. Este truque utilizado para facilitar o processamento dos dados. Entretanto, quando se tem recurso da informtica que permite trabalhar com processos iterativos para convergncia das estimativas dos coeficientes, o truque perde o sentido. Neste captulo, vamos demonstrar como so estimados os coeficientes de regresso e de correlao para a regresso linear simples. Sabendo como estimar os coeficientes de regresso e correlao da simples, voc poder, por analogia, estimar os coeficientes da regresso mltipla. No caso de regresso no linear, h duas alternativas: (i) linearizar a equao original e adotar os procedimentos das regresses simples ou mltipla e (ii) manter a equao original e estimar os coeficientes de regresso e correlao utilizando um dos seguintes mtodos: Gauss-Newton, Quasi-Newton e Simplex opes do software Systat.
sendo: a = coeficiente de interseo (onde o valor de X corta o valor de Y) e b = coeficiente angular ou de inclinao (estimativa de Y para cada unidade de X acrescentada) Ver figura 12.1. Em regresso, um relacionamento funcional no significa que, dado um valor de X, o valor de Y tem que ser igual a a + b X, mas que o valor esperado de Y igual a a + b X. Em um exemplo real, as observaes no permanecem perfeitamente ao longo da linha de regresso. Isto devido ao erro aleatrio () e outros fatores no quantificveis. A forma mais utilizada de ajuste dos dados linha reta (regresso linear simples) por meio do mtodo dos mnimos quadrados (MMQ), que requer uma soma mnima dos desvios ao quadrado, entre os pontos observados e os estimados (sobre a reta).
(i) Condicionantes para o uso da regresso linear:
- Homogeneidade da varincia => a varincia de Y sobre a linha de regresso a mesma para todos os valores de X. Isto pode ser resolvido aplicando o teste de Bartlett. - Normalidade => o simples ajuste dos dados regresso (ou a descrio do relacionamento entre as variveis Y e X) no requer a distribuio normal de Y, mas se a anlise de varincia for realizada (o que bvio), preciso comprovar a normalidade ou utilizar o expediente do teorema de limite central (Captulo 6). - Independncia => independncia dos erros (afastamento da linha de regresso) das observaes. A validade desta condicionante melhor assegurada por meio de seleo das unidades de amostra de forma aleatria. No
Assume-se, tentativamente, que a linha de regresso de varivel Y sobre a varivel X tem a forma a + b X, que assume a seguinte expresso matemtica
Y = 0 + 1 X + i
o que quer dizer: para um dado X, um valor correspondente de Y consiste do valor 0 + 1 X mais uma quantidade i, o incremento pelo qual algum indivduo Y pode desviar-se da linha de regresso. Os coeficientes 0 e 1 so desconhecidos. O erro i muito difcil de ser encontrado porque ele varia para cada observao Y. Entretanto, 0 e 1 permanecem fixos e, apesar de no poder encontr-los exatamente sem o exame de todas as possveis ocorrncias de Y e X, pode-se utilizar as informaes disponveis para obter as estimativas a e b de 0 e 1, respectivamente. Desta maneira, podemos escrever o modelo acima, como um modelo estatstico da seguinte maneira
Ye = a + bX
onde Ye o valor estimado de Y para um dado X, quando a e b so conhecidos. A questo, agora, saber como determinar os coeficientes a e b. Como falamos anteriormente, ser utilizado o MMQ para a determinao dos coeficientes. Vamos fazer esta demonstrao a partir da figura 12.1.:
Vamos considerar Yi = valor observado Yei = valor estimado Nesta figura temos 6 valores de X. A equao da reta ajustada passa exatamente entre os pontos (X) observados. O desvio () a diferena entre o valor observado (Y) e o valor estimado (Ye) pela equao da reta para o mesmo valor de X. Vamos comear a demonstrao adiantando que vamos chamar a soma dos desvios ao quadrado de S e S tem que ser mnimo (zero), assim (i)2 = S = 0 => i variando de 1 a n sem esquecer que i = Yi - Yei sendo: Yei = a + b Xi logo i = Yi (a + b Xi) Continuando o desenvolvimento do MMQ. (1)2 + (2)2 + (3)2 + ... (n)2 tem que ser mnimo logo S = (i)2 = (Yi Yei)2 tem que ser mnimo e
S = (Yi (a + b Xi))2
O passo seguinte derivar esta expresso S para a e b, da seguinte maneira: S/a = 2 ( Yi a b Xi) (-1) S/b = 2 ( Yi a b Xi) (-1Xi) Como S tem que ser mnimo, S/a e S/b podem ser igualados a zero, tal que as estimativas sejam dadas da seguinte maneira: -2 ( Yi a b Xi) = 0 -2 Xi ( Yi a b Xi) = 0 e dividindo tudo por (-2) e completando as outras operaes algbricas, as expresses ficam assim Yi a b Xi = 0 Xi Yi a Xi b Xi2 = 0 e, finalmente, temos as seguintes equaes normais:
an
+ b Xi = Yi
b = (SPC xy ) (SQC x )
Ento, para estimar os coeficientes de regresso a e b, voc tem que saber os seguintes somatrios: Yi, Xi, XiYi e Xi2. Para facilitar os clculos manuais, monte a seguinte quadro auxiliar. As frmulas de SPC e SQC so encontradas no Captulo 3. Quadro 12.1: Quadro auxiliar para estimar os coeficientes de regresso.
obs Y X Y2 X2 XY (Y-Ye)2
1 2 . . .
N Y X Y2 X2 XY (Y-Ye)2
Comentrios:
i)
Com os coeficientes de regresso estimados temos condies de descrever o relacionamento linear entre a varivel dependente Y e a independente X. Mais para a frente, vamos mostrar como se estima o coeficiente de correlao e a preciso da equao. A reta dos MMQ passa pelo ponto (Xmdio, Ymdio), isto , quando X = Xmdio temse Ye = Ymdio O coeficiente de regresso b, coeficiente angular ou de inclinao, fornece a variao que ocorre em Y, por unidade de X.
ii) iii)
r=
O coeficiente de correlao tem o mesmo sinal do numerador e, conseqentemente, o mesmo sinal do coeficiente de regresso b. E mais, o r independe das unidades de medida das variveis Y e X. O coeficiente de correlao varia de -1 a +1
r positivo => os maiores valores de Y esto relacionados com os maiores valores de X ou os menores de Y esto relacionados com os menores de X. r negativo => os maiores valores de Y esto relacionados com os menores valores de X ou vice-versa. r = 0 => Y no tem relacionamento linear com X. r = 1 => perfeito relacionamento linear entre a varivel dependente (Y) e a independente (X).
Portanto, em anlise de varincia (ANOVA), a grande vantagem a possibilidade de decompor a variao total (SQCY) em outras fontes de variao. Estes so os principais elementos para montar o quadro de anlise de varincia (ANOVA) para regresso:
Quadro 12.2: Quadro de anlise de varincia (ANOVA) Fontes de variao Devido regresso Sobre a regresso (resduo) Total (corrigido) GL c1 nc n-1 SQ b * (SPCxy) por subtrao SQCY MQ SQREG/(c-1) SQRES/(n-c) F
sendo: c = nmero de coeficientes de regresso. O valor de F dado pela razo entre MQREG e MQRES. Quanto maior for o numerador MQREG, maior ser o valor de F. Quanto maior for o F, mais significante ser o modelo testado. Antigamente, voc pegava o F calculado e ia tabela-F para comparar os dois valores; se o valor calculado fosse maior do que o tabelado (para os 3 principais nveis crticos de 10%, 5% e 1%), voc conclua que o seu modelo era significante, caso contrrio, no significante. Hoje, os programas de estatstica j do os valores exatos da probabilidade (ou a rea sob a curva-F). Portanto, hoje voc pode tomar decises baseadas na sua capacidade de discernimento. Por exemplo: se p for igual a 0,03 (ou 3%), voc pode dizer que significante a 5% mas no a 1% ou, ento, dizer qualquer coisa sobre o 0,03 da sua prpria cabea sem ficar no maniquesmo do significante ou no significante. A MQRES igual a s2 e fornece uma estimativa da varincia residual, baseada em (n-2) graus de liberdade (GL). Se a equao de regresso foi estimada de um nmero grande de observaes, a varincia residual representa uma medida do erro com a qual qualquer valor observado de Y poderia ser estimado de um dado valor de X, usando a equao ajustada. Por ltimo, vamos apresentar a varivel que mede a preciso da equao ajustada que o erro padro de estimativa (SY.X):
s y. x = s 2
No Captulo 13 ser visto como se trabalha com equaes mltiplas. Um exemplo prtico ser visto no Captulo 15 (biomassa florestal), que o manuscrito de um artigo j publicado na Acta Amazonica.
Neste captulo vamos ver alguns testes no paramtricos, principalmente aqueles que tm contrapartidas (correspondentes) na estatstica paramtrica.
n k n p P( x = k ) = p (1 p ) k
Numa pesquisa incluindo n experimentos independentes do tipo sucesso e insucesso, teremos:
p = probabilidade de sucesso x = o nmero de sucessos
(1 - p) = probabilidade de insucesso
Exemplo 1 => Uma pessoa em uma sala tem cartes numerados de 1 a 10. Ela pega um carto ao acaso e uma outra pessoa (em outra sala) tenta adivinhar o nmero que foi pego. Este experimento repetido 3 vezes. A pergunta : qual a probabilidade de acertar 2 vezes. Resolvendo => sabemos que: n=3 p = probabilidade de sucesso = 1/10 = 0,1 q = (1 p) = probabilidade de insucesso = 9/10 = 0,9 P (x = 2) = ? => probabilidade de acertar 2 vezes Portanto: 3 P (x = 2) = 2 ou seja, a probabilidade de outra pessoa acertar 2 vezes em 3 tentativas 0,027 ou 2,7%. A Tabela VIII d direto essas probabilidades, desde que haja coincidncia em termos de n, k e p. Pra se garantir, melhor saber como calcular a probabilidade exata da distribuio binomial. Voc obtm a probabilidade usando a Tabela VIII => n = 3, k = 2 e p = 0,1 na primeira coluna tem o n (nmero de tentativas ou experimentos) na segunda coluna tem o k (nmero de sucessos) para n = 3, temos k = 0, k = 1, k = 2 e k =3 para cada k, temos uma probabilidade de acordo com a probabilidade de sucesso, p, pr-estabelecida =>
o o o o
pra k = 0 => p = 0,7290 pra k = 1 => p = 0,2430 pra k = 2 => p = 0,0270 pra k = 3 => p = 0,0010
Respondendo, ento, a pergunta: P (x = 2) = ? P (x = 2) igual a 0,0270 E se eu quisesse saber: P (x < 2) e P (x 2) P (x < 2) => fcil, basta somar as probabilidades de sucessos (no incluindo k = 2), ou seja, 0,7290 + 0,2430 = 0,9720 => A probabilidade de acertar uma ou nenhuma vez de 0,9720 ou 97,2%.
P (x 2) => tenho que somar a probabilidade de k = 2 e k = 3, ou seja, 0,0270 + 0,0010 = 0,0280 => a probabilidade de acertar mais de 2 vezes de 2,8%.
pra k = 12 => p = 0,0002 e = 0,0002 pra k = 11 => p = 0,0029 e = 0,0002 + 0,0029 = 0,0031 pra k = 10 => p = 0,0161 e = 0,0031 + 0,0161 = 0,0192 pra k = 9 => p = 0,0537 e = 0,0192 + 0,0537 = 0,0729 Se a opo for = 0,05 (aproximadamente), o seu valor crtico pode ser k = 10 ou k = 9, ou seja, se o nmero de famlias que tm renda maior ou igual a R$ 14.000,00 for maior ou igual a 10 voc rejeita H0 para = 0,0192 e se for maior ou igual a 9, voc rejeita H0 para = 0,0729. Voltando ao exemplo, n = 12 e vamos atribuir o sinal (+) para as rendas superiores ao valor hipotetizado (14.000) e o sinal (-) para as rendas inferiores a 14000. 60,0 25,7 22,4 20,1 17,3 16,1 15,3 14,8 14,3 14,1 + + + + + + + + + + 10,4 6,2 -
Quantos sinais (+) temos? Temos 10, ou seja, o nosso ponto de deciso 10 => Considerando = 0,0192, temos que rejeitar H0 porque k 10. Como o k s pode ser inteiro, o nosso valor crtico estaria entre 0,0192 e 0,0729. Concluso: Rejeitamos H0, a nossa mediana no igual a R$ 14.000,00 com = 0,0192.
Decises: para H1: MD < M => R+ d => rejeitar H0 para H1: MD > M => R- d => rejeitar H0 Vamos a um exemplo prtico. Tomamos o DAP de 8 rvores (isso uma coisa que voc nunca vai fazer entrar na floresta e medir apenas 8 rvores um desperdcio inaceitvel) e queremos saber se a mediana igual a 50 cm. O quadro seguinte apresenta os dados observados (x) e as demais colunas necessrias para a execuo do teste. val obs (x) 50,2 50,1 49,6 49,5 49,2 49,0 48,4 47,0
Soluo:
rank de |D| 2 1 3 4 5 6 7 8
rank c/ sinal R +2 +1 -3 -4 -5 -6 -7 -8
Da tabela IX, para n = 8, tiramos que o mais prximo de 0,05 0,055; portanto o valor crtico d igual a 6 para = 0,055. Calculamos, ento, o R+ somando os ranks com sinais positivos (+) => na ltima coluna tem apenas 2 ranks (+), que so 2 e 1, logo R+ = 2 + 1 = 3 Deciso: Como d = 6 e R+ = 3, rejeitamos H0
13.5. Teste de Mann-Whitney: comparao de duas medianas (ou mdias de duas populaes):
Procedimentos: Formular as hipteses: H0: As duas populaes tm a mesma mediana => MD1 = MD2 H1: As duas populaes no tm a mesma mediana => MD1 > MD2 (ou menor) Considere n como o tamanho da amostra da populao 1 e k como o tamanho da amostra da populao 2. Usar a Tabela 13.11 para encontrar o valor crtico d para = 0,05. Coletar os dados, rankear e calcular S1 que a soma dos ranks da populao 1. Calcular T = S1 [ n (n+1) ] / 2 Deciso: Rejeitar H0 se T d Exemplificando: diferenciados: Considere duas populaes de escolas com tratamentos
Pop 2: tempo de aprendizagem para todos os trabalhadores sem experincia comprovada Hipteses: H0: MD1 = MD2 H1: MD1 < MD2 Tamanhos das amostras => n = 8 da populao 1 k = 7 da populao 2 Da tabela 13.11, para = 0,05, n = 8 e k = 7, o valor crtico d igual a 13. Vamos aos clculos: Populao 1 Tempo rank 2,33 11 1,81 5 2,17 8 1,78 4 1,74 3 1,46 1 1,58 2 1,92 6 Populao 2 tempo rank 2,31 10 1,96 7 2,73 14 2,51 13 3,04 15 2,34 12 2,24 9
PARTE 2
Na engenharia florestal, o dimetro da rvore DAP e ponto final. DAP se mede a 1,3 m acima do nvel do solo. O objetivo desta seo no ensinar como medir o DAP porque isto est muito bem explicado nos livros de Machado & Figueiredo Filho (2003)3 e Campos & Leite (2002)4. Em plantios de eucalipto, o DAP tende a ser medido quase sempre a 1,3 m do solo. Na Amaznia, a situao um pouco diferente porque h sapopemas e outras irregularidades no tronco que nem sempre a parte a 1,3 m do solo est disponvel para medir. Em inventrios em uma nica ocasio, esta situao pode ser superada utilizando equipamentos especiais ou a projeo do dimetro altura do DAP. Por compensao de erros, o resultado final no ser afetado. Em inventrios contnuos, a subjetividade na medio de um mesmo indivduo em ocasies sucessivas, no bem-vinda. Neste caso, necessrio medir sempre no mesmo local (altura em relao ao solo) e a o recurso medir aonde possvel e marcar (com tinta) este ponto da medio. Dessa forma, ser possvel estimar as mudanas ocorridas entre duas ou mais ocasies. Como a pronncia correta desta varivel to importante para a engenharia florestal; D-A-P ou Dape ou Dapi? Segundo o Manual de Estilos da Abril, temos os seguintes conceitos:
Sigla a reunio das iniciais de um nome prprio composto de vrias palavras e deve ir, quase sempre, em caixa alta: CNBB, CPI, CPMF, IBGE, BNDS, CBF etc. Certas siglas silabveis, mesmo estrangeira, so escritas em caixa alta e baixa: Vasp, Ibope, Inpa, Incra, Aids etc.
Diante disso, o nosso dimetro altura do peito tem que ser pronunciado como Dape ou Dapi. Certos esto os bilogos, eclogos e outros no florestais e errados esto os engenheiros florestais. Por conta disso, quero dedicar esta seo queles que pronunciam errado esta varivel, D-A-P. No critiquem (e nem tripudiem) queles que falam Dape ou Dapi porque eles esto certos, mas continuem pronunciando D-A-P., que uma tradio florestal de mais de 40 anos no Brasil.
Acrnimo a reunio de elementos (iniciais, primeiras letras e slabas) dos componentes de um nome, com a inteno de formar uma palavra silabvel e, deve ir, sempre, em caixa alta e baixa: Ibama, Cacex, Varig etc. Chichu um acrnimo. 14.1.2 DAP usado na estrutura da floresta
A curva do tipo J-invertido a que melhor descreve a estrutura diamtrica das florestas da regio amaznica. Os valores observados de DAP podem ser ajustados por funes matemticas que produzem curvas que se assemelham ao tipo J-invertido. A mais popular na Amaznia a funo de Weibull. No anexo 4 est disponvel uma reviso sobre as funes Weibull e exponencial.
3 4
Machado, S.A. e Figueiredo Filho, A. 2003. Dendrometria. 309p. Campos, J.C.C. e Leite, H.G. 2002. Mensurao florestal. UFV. 407p.
Como o DAP a principal varivel independente para o setor florestal da Amaznia, uma funo de distribuio bem ajustada pode facilitar o inventrio florestal sem perder a preciso. Com uma boa funo, que apresenta a distribuio de probabilidade de cada classe de DAP, o inventrio usando a contagem de indivduos por unidade de rea perfeitamente possvel. Dessa forma, o tempo de coleta seria muito mais rpido e, conseqentemente, o inventrio ficaria mais barato.
14.1.3 DAP como varivel independente de equaes de volume e de biomassa
Tanto para volume e biomassa os seguintes modelos logartmicos podem ser utilizados para descrever a relao entre volume e DAP e ou H e biomassa e DAP e ou HT: 1) ln V = a + b ln (DAP ) ou ln PF = a + b ln (DAP ) 2) ln V = a + b ln (DAP ) + c ln (H ) ou ln PF = a + b ln (DAP ) + c ln (HT ) onde: V = volume do tronco em m3 D = DAP em cm H = altura comercial ou comprimento do tronco em m PF = peso fresco da parte area em kg HT = altura total da rvore em m ln = logaritmo natural Todo o desenvolvimento desses modelos ser detalhado na prxima seo. Aqui, queremos apenas mostrar os indicadores usados na escolha do melhor modelo, como erro padro da estimativa syx, coeficiente de correlao (r) e coeficiente de determinao (r2), para advogar em favor do uso do DAP apenas. Vamos considerar modelo 1 como aquele que tem apenas o DAP como varivel independente e modelo 2 o que tem DAP e altura (comercial ou total), separadamente para volume e biomassa.
Volume (n = 959):
Voc v alguma diferena entre os modelos 1 e 2, para volume e biomassa? Neste captulo queremos enfatizar apenas essas diferenas, sem se preocupar com o significado de cada indicador (ser explicado na prxima seo). No caso do volume, acrescentar a varivel H significa um ganho muito pequeno na preciso. O mesmo acontece com a biomassa. Entretanto, acrescentar a altura (H ou HT) ao modelo uma outra coisa. Em um hectare de floresta amaznica primria podemos ter: (i) 600-700 indivduos arbreos com DAP 10 cm dividindo o espao com lianas, epfitas e palmeiras; (ii) alta diversidade em espcies; (iii) arquitetura de copa de mltiplas formas; (iv) dossel com vrios estratos em altura; (v) espcies com idades diferentes, que podem variar de 1 a 100 anos. Como medir a altura desses indivduos? Para o desenvolvimento dos modelos, o mtodo destrutivo empregado; portanto, temos as rvores no cho e medimos as alturas (comprimentos) com trena. Durante o inventrio florestal, a situao outra, ou seja, temos
que medir as alturas da rvore em p. Mesmo com equipamentos sofisticados, muito difcil, seno impossvel, medir precisamente a altura total. A altura comercial pode at ser medida precisamente com equipamentos, mas diferentes medidores podem apresentar diferentes medidas para a mesma rvore por causa da subjetividade em definir o que "altura comercial". Nunca, mas nunca mesmo, "chutar" a altura para utilizar o modelo 2. Nos exemplos com equaes de volume e de biomassa, temos o seguinte: (i) acrescentar a altura comercial (H) ao modelo 1, significa melhorar a preciso em 0,42% (1,46 1,04) e (ii) acrescentar altura total (HT) ao modelo, significa melhorar a preciso em 1,22% (6,54 5,32). Vale a pena acrescentar a altura? Pense nisso, sobretudo, nos custos de coleta de dados para o inventrio florestal.
Na rea experimental de manejo florestal da ZF-2, a rea basal mdia est em torno de 30 m /ha. Isso quer dizer que se projetarmos todos os DAPs 10 cm sobre uma rea de 10.000 m2 (um hectare), as rvores ocuparo 30 m2. Algumas estimativas (m2/ha) para diferentes stios na Amaznia: UHE de Santa Izabel (regio do Araguaia) = 15,2; Projeto Rio Arinos (norte de MT) = 1,6; Floresta Estadual do Antimary (Acre) = 15,2, Trombetas (Par) = 24,8; PIC Altamira (Par) = 22, Sul de Roraima = 20,9 e Alto Solimes (Fonte Boa e Juta no AM) = 27 m2/ha.
2
Com esses poucos exemplos, podemos dizer que a floresta da ZF-2 mais densa do que as outras florestas. A estimativa de rea basal, de forma isolada, diz muito pouco sobre uma determinada floresta. Com esses poucos exemplos, difcil afirmar que a floresta da ZF2, por exemplo, muito densa ou pouco ou mdio, porque deve haver florestas mais densas do que esta. De qualquer modo, no custa nada estimar a rea basal da rea inventariada j que as medies de DAP so obrigatrias em inventrios florestais. Antigamente (at incio dos anos 90), era comum ver inventrios florestais com volumes estimados a partir da rea basal, ou seja, AB x altura x fator de forma. O fator de forma utilizado era igual a 0,7 proposto por peritos da FAO (Food and Agriculture Organization) que realizaram os primeiros inventrios na Amaznia nas dcadas de 50 e 60. A altura era, invariavelmente, "chutada". O engenheiro florestal deve utilizar-se de equaes prprias para estimar o volume de madeira.
14.3. Volume
No setor florestal, as decises so tomadas baseadas no volume de madeira. Isto to forte que, muitas vezes, o engenheiro florestal at se esquece que numa floresta h muitas outras coisas alm da madeira. Aqui, o objetivo mostrar como se estima o volume de
madeira nos inventrios florestais. Para isto, voc precisa ter equaes confiveis e us-las para estimar o volume de rvores em p medidas em parcelas fixas do inventrio florestal.
Volume real
Para desenvolver equaes de volume, voc precisa ter o volume real de vrios indivduos. Este volume pode ser obtido por meio do mtodo destrutivo (aproveitando reas exploradas ou desmatadas, autorizadas pelo Ibama) ou utilizando o relascpio de Bitterlich (por exemplo). O mais comum o mtodo destrutivo. Antes de derrubar a rvore, o DAP medido. Com a rvore no cho, as alturas ou comprimentos (comercial e total) so determinados e o tronco dividido em pequenas toras, tentando se aproximar forma do cilindro. Em geral, o tronco dividido em 10 toras (ou sees) e duas medidas so tomadas em cada tora, na base e no topo. Com estas duas medidas, voc tem condies de calcular as reas transversais da base e do topo; a, voc estima a mdia (g da base + g do topo dividido por 2) e multiplica pelo comprimento da tora [lembrando que m2 de g vezes m do comprimento, voc ter m3] para ter o volume da tora ou seo. A soma dos volumes das 10 toras considerada "volume real" da rvore. Melhores explicaes voc vai encontrar nos livros de Machado & Figueiredo Filho (2003) e Campos & Leite (2002).
Quantas rvores so necessrias para desenvolver os modelos estatsticos para volume ou equaes de volume ou modelos alomtricos? Alometria => (do grego: allos outra e metron medida) => o estudo das variaes das formas e dos processos dos organismos e tem dois significados: (i) o crescimento de uma parte do organismo em relao ao crescimento do organismo inteiro ou de parte dele e (ii) o estudo das conseqncias do tamanho sobre as formas e os processos.
Voc pode usar uma funo conhecida de distribuio em dimetro (Weibull, por exemplo) e ver se os dados j coletados se ajustam a esta funo. Teste simples como o quiquadrado (confrontao entre freqncia esperada e freqncia observada) d conta disso. Se o teste for significante, colete mais dados das classes que esto faltando e refaa o teste quiquadrado. Se o resultado for no significante, voc tem, em mos, uma amostra representativa de sua populao de interesse. H tambm a possibilidade de utilizar-se do recurso do inventrio florestal quanto intensidade de amostragem; neste caso, cada indivduo uma amostra. A frmula a seguinte:
n = t 2s2 2
sendo: t = valor obtido na tabela-t ( p = 0,05 ou outro e n-1 graus de liberdade) s2 = estimativa da varincia 2 = expectativa do erro = (LE x mdia)2. Em geral, o LE (limite de erro) igual a 0,10 ou 10%.
Observaes: use z em vez de t. Como vimos anteriormente, os valores de z para os nveis crticos mais freqentes, = 0,10, = 0,05 e = 0,01 so, respectivamente, 1,64, 1,96 e 2,57. Outra coisa: h tambm o fator de correo para populaes finitas, ou seja, neste caso ao denominador da frmula (2) deve ser acrescentado ( 1 n/N ). A populao considerada finita quando a frao n/N menor do que 0,05, segundo Freese (1962)5.
Freese, F. 1962. Elementary forest sampling. Agriculture Handbook n 232. USDA-Forest Service. 91p.
5
O passo seguinte testar modelos matemticos. Antigamente (fim dos anos 70), o grande desafio era encontrar o melhor modelo para descrever a funo V = f (DAP, H). Depois de vrias dissertaes e artigos cientficos, verificou-se que qualquer modelo, seja de simples entrada (apenas DAP como varivel independente) ou de dupla entrada (DAP e H como variveis independentes, combinadas ou no) produzem bons ajustes. A deciso para escolher o melhor modelo ficou nos detalhes. Hoje em dia, qualquer modelo que voc venha a testar, utilizando DAP e H, voc vai conseguir uma alta e significativa correlao, um modelo que explica mais de 75% da variao de seus dados (r2) e um erro padro de estimativa aceitvel. O padro de hoje o modelo que apresenta r > 0,90, r2 > 0,90 e syx (%) < 10. Alm disso, o modelo tem que ter uma boa distribuio de resduos, que : as diferenas entre os valores estimados e observados, positivos e negativos, tm que se distribuir uniformemente ao longo da curva (ou reta) estimada, ou seja, estas diferenas no podem aumentar (ou diminuir) conforme aumenta o tamanho da rvore. Por exemplo: se o seu modelo produzir uma diferena de 0,5 m3 para uma rvore com DAP = 10 cm, esta mesma diferena (mais ou menos) tem que ser verificada para outra rvore com DAP = 70 cm ou DAP = 150 m. Os modelos que apresentam as melhores distribuies de resduos so os modelos logartmicos. Os mais usados so os seguintes, do item 1.1.3: 1) ln V = a + b ln (DAP ) 2) ln V = a + b ln (DAP ) + c ln (H ) A abordagem para estimar os coeficientes de regresso a do mtodo dos mnimos quadrticos (MMQ) e depois da obteno das equaes normais, os coeficientes podem ser estimados usando o mtodo da substituio ou por meio do clculo matricial. As explicaes sobre as operaes necessrias para se chegar aos coeficientes podem ser encontradas em qualquer livro de estatstica bsica. No computador, basta entrar com as variveis ln V, ln D e ln H e voc ter, alm dos coeficientes de regresso, erro padro de estimativa, coeficiente de correlao, coeficiente de determinao e distribuio de resduos.
Regresso => descreve apenas o relacionamento linear entre uma varivel dependente (Y) e uma ou mais variveis independentes (X1 = DAP, X2 = altura etc.).
Antes de derivar a equao em relao a a e b, primeiro preciso linearizar as variveis aleatrias, da seguinte maneira: ln V = Y, ln D = X1 e ln H = X2. Para o modelo 1, as equaes normais so: an + b X1 = Y a X1 + b X12 = X1Y Pelo mtodo de substituio, os coeficientes sero: a = [ Y - b X1 ] / n b = [ SPCX1Y ] / [ SQCX1 ] Para o modelo 2, as equaes normais so an + b X1 + c X2 = Y = X2 Y a X1 + b X12 + c X1 X2 = X1 Y
a X2 + b X1 X2 + b X22
Neste caso, melhor estimar os coeficientes apelando para o clculo matricial. matriz de Y (nx1) = matriz de X (nxp) x matriz de coeficientes "b" (px1) (X'X) b = X'Y b = (X'X)-1 X'Y Hoje, com o Excel ficou fcil inverter matrizes de qualquer tamanho e a multiplicao mais fcil ainda. Mesmo assim, no h necessidade de trabalhar com matrizes para a obteno dos coeficientes. Os programas de estatstica, em geral, calculam automaticamente os coeficientes. Sei que para regresses simples (com dois coeficientes), o Excel d conta do recado. Para regresses mltiplas e as no lineares, melhor usar outro software (Systat, SAS etc.). Vamos aproveitar as sadas (outputs) do Systat, por exemplo, para explicar os significados de alguns indicadores da regresso.
1) Coeficiente de correlao => r => a regresso descreve o relacionamento e este coeficiente mostra o grau de estreiteza que existe entre as variveis Y e X1, X2 etc.. Este coeficiente varia de -1 a +1. Igual a -1 ou +1, h uma correlao perfeita, ou seja, a cada unidade acrescentada X, haver um aumento proporcional em Y (uma, duas, ou menos 2 unidades). Sinal (-) significa que os menores valores de Y tendem aos maiores valores de X ou vice-versa. Sinal (+) significa que os menores Y tendem aos menores X e os maiores Y tendem aos maiores X. O teste-t geralmente utilizado para testar a significncia de r. 2) Coeficiente de determinao => r2 => multiplicado por 100 mostra a percentagem da variao dos dados que explicada pelo modelo testado. No caso de regresso mltipla, prefira sempre o coeficiente ajustado. 3) Erro padro de estimativa => syx => a raiz quadrada da mdia quadrtica dos resduos (MQR), logo o desvio padro da relao. Ao comparar duas equaes, o uso deste indicador direto, ou seja, aquela que apresentar o menor erro a melhor. Isoladamente, preciso ainda alguns clculos. Dividindo syx pela raiz quadrada de n voc ter o erro padro da mdia e dividindo o mesmo pela mdia da varivel dependente Y, voc ter o seu erro em percentagem. Melhor ainda apresentar a incerteza de seu modelo. Neste caso, voc tem estimar o intervalo de confiana (IC) e aquela poro (z * erro padro) dividida pela mdia vai te fornecer a incerteza de seu modelo. Em geral, uma incerteza de 10% considerada aceitvel. 4) Coeficientes de regresso => O Systat apresenta a constante ( a ) e os coeficientes associados s outras variveis independentes (b, c, d etc.) => o Systat apresenta tambm a significncia de cada coeficiente; se for no significante, voc deve remov-lo do modelo. 5) Anlise de varincia (ANOVA) => a regresso descreve, a correlao mostra a estreiteza entre as variveis e a ANOVA mostra a significncia do seu modelo de regresso. O teste-F o que determina se o modelo significante ou no. No Systat, o valor p o mesmo que , ou seja, o valor crtico para a tomada de deciso. Os valores clssicos de p so 0,01, 0,05 e 0,10; portanto quando o p < 0,01, o modelo testado significante para os trs nveis. 6) Durbin-Watson D Statistics e First Order Autocorrelation => No caso de equaes de volume (e biomassa), no h envolvimento de sries temporais. Portanto, no precisa se preocupar com isto. Estes dois testes so usados para verificar se os termos dos erros no modelo de regresso no so correlacionados e nem dependentes. Os termos dos erros correlacionados com o passar do tempo so conhecidos como "autocorrelacionados" ou "serialmente correlacionados".
7) Distribuio de resduos => o grfico pode ser interpretado diferentemente por diferentes eng florestais, mas ele fundamental para a deciso final do melhor modelo conforme foi explicado anteriormente. Aplicao da equao de volume
Com o melhor modelo em mos, voc vai aplic-lo em inventrios florestais. Num inventrio na Amaznia, para rvores com DAP 10 cm, voc deve utilizar uma parcela de, no mnimo, 2.500 m2 (10 x 250 m ou 20 x 125 m). Numa parcela deste tamanho, voc deve encontrar entre 100 e 150 indivduos. Lembre-se que, de acordo com o conceito de intervalo de confiana (IC), em 95 vezes (se o seu p = 0,05, por exemplo) a sua estimativa estar dentro do seu IC e em 5 vezes, a estimativa estar fora do IC. Portanto, no se surpreenda e confie na estatstica (na incerteza que o seu modelo declarou). No esquecer que os seus modelos so logartmicos e, por esta razo, ao estimar o volume de madeira voc tem que usar o inverso do logaritmo natural que a exponencial.
14.4. Biomassa
Estimar a biomassa importante para compreender a produo primria de um ecossistema e avaliar o potencial de uma floresta para produo de energia. No manejo florestal sustentvel na Amaznia, a biomassa usada para estimar a quantidade de nutrientes que exportada do sistema via explorao de madeira e que devolvida via inputs atmosfricos. No entanto, depois da Rio-92, a biomassa ganhou uma nova dimenso. O carbono da vegetao passou a ser um elemento importante nas mudanas climticas globais. O eng florestal sabe (ou deveria saber) que aproximadamente 50% da madeira secada (em estufa) carbono e que os compostos de carbono so: celulose (45%), hemicelulose (28%) e lignina (25%). De acordo com o IPCC (Painel Intergovernamental de Mudanas Climticas), os componentes de biomassa e carbono da vegetao so: (i) biomassa ou C na matria viva acima do nvel do solo (tronco, galhos, folhas, frutos e flores); (ii) biomassa ou C na matria viva abaixo do nvel do solo (razes) e (iii) biomassa ou C na matria morta em p ou no cho. Quem foi treinado para estimar o volume de madeira tem todas as condies para estimar a biomassa tambm. O anexo 5 um artigo (manuscrito) sobre biomassa que j foi publicado na Acta Amazonica6. Este artigo cobre o componente 1 do IPCC. O componente 2 envolve razes e isto est sendo realizado pelo LMF (laboratrio de manejo florestal do INPA) e ser includo em uma tese de doutorado. O trabalho de campo para obteno do peso de razes muito trabalhoso, mas nada que assuste o verdadeiro eng florestal. Como o solo da Amaznia muito pobre em nutrientes, as rvores tendem a desenvolver razes superficiais raramente ultrapassam 50 cm de profundidade. Mesmo na Amaznia, em regies que tm as estaes do ano (chuvosa e seca) bem definidas, as rvores tendem a desenvolver razes mais profundas para procurar gua, o que no o caso da Amaznia Central. O componente 3 pode ser estimado com preciso combinando as taxas de mortalidade com os modelos usados no componente 1.
Coleta de dados => verdade de campo => mtodo destrutivo
Higuchi, N., Santos, J. dos, Ribeiro, R.J., Minette, L. e Biot, Y. 1998. Biomassa da parte area da vegetao da floresta tropical mida de terra-firme da Amaznia brasileira. Acta Amazonica, 28(2):152-166.
Os procedimentos para o componente 1 so apresentados no Anexo 2. Ao incluir o componente 2 em coletas de biomassa, preciso incluir as razes. preciso escavar, separar as razes do tronco e pes-las. A metodologia de coleta de amostras para as determinaes dos teores (concentraes) de gua e carbono a mesma utilizada na parte area. Aqui tambm, exige-se mais transpirao do que inspirao.
Equaes de biomassa
O pargrafo apresentado para o volume deve ser repetido aqui. Para o caso de biomassa, cabem ainda as seguintes consideraes: (i) voc estima o peso fresco; portanto, voc tem que transform-lo em peso seco e depois em carbono basta multiplicar o peso pelas concentraes de gua e carbono obtidas em laboratrio; (ii) o carbono como commodity (mercadoria) em bolsas de mercadorias significa estoque e diferena de estoque; portanto, voc precisa trabalhar com inventrio florestal contnuo com, pelo menos, duas ocasies; (iii) voc precisa separar o peso nos trs componentes definidos pelo IPCC.
f ( x ) = (c b )x c 1 exp ( x ) / b
c
= 0, em outras circunstncias
tem a seguinte funo de verossimilhana para uma amostragem de n observaes L (xi, ....., xn; c, b) = n (c/b) xic-1 exp (-xic/b) (1) Tirando o logaritmo de (1), teremos ln L = ln [(c/b)xic-1 exp (-xic/b)] ln L = [ln (c/b) + ln xic-1 (xic/b)] ln L = n ln (c/b) + (c-1) ln xi (1/b) xic Por meio da diferenciao em relao a c e b e igualando a zero as derivadas, as seguintes equaes sero obtidas:
d ln L/d c = n/c + ln xi (1/b) xic ln xi = 0 d ln L/d b = -(n/b) + (1/b2) xic = 0 (3) Tirando b de (3), temos b = ( xic ) / n (4) e substituindo em (2), temos n/c + ln xi [1/(xic/n)] xic ln xi = 0 n [(1/c) ( xic ln xi) / xic] = - ln xi [( xic ln xi) / xic] (1/c) = (1/n) ln xi (5)
(2)
Dessa forma, o coeficiente c pode ser estimado por meio de qualquer processo iterativo ou via tentativa-e-erro para igualar os dois lados da equao (5). O coeficiente b pode ser estimado pela equao (4), depois de estimado o c. A freqncia esperada pode ser determinada atravs da seguinte funo de distribuio cumulativa de Weibul, F(x), que, por sua vez, pode ser encontrada integrando a sua funo de densidade probabilstica, f(x), do DAP mnimo at o mximo (Zarnoch et al., 1982)
F (x ) = 1 exp (x a ) b]
ii. Weibull Percentis (PERC):
{[
A funo de Weibull usando o mtodo dos percentis, tem a seguinte funo de densidade probabilstica
f (x) = (c/b) [(x-a)/b)c-1 exp {-[(x-a)/b]c; para xa0, b>0 e c>0 f (x) = 0, em outras circunstncias
2 a = x1 x n x 2
) (x
+ x n 2x 2 )
b = a + x(0,63n )
c= ln[ln(1 p k )] [ln(1 pi )] ln(x npk a ) (x npi a )
onde: x i ( i = 1, 2, ... n) = o i-simo DAP em ordem crescente x 1 = o menor DAP e x n = o ltimo DAP, ou seja, o maior DAP. x (0,63n) = o DAP rankeado em ( 0,63 * nmero total de DAP observados). Exemplo: num conjunto de dados de 100 DAPs, x (0,63n) o 63 DAP. p i = 0,16731 e p k = 0,97366 A freqncia esperada pode ser determinada por meio da seguinte funo de distribuio cumulativa de Weibul, F(x), que, por sua vez, pode ser encontrada integrando a
sua funo de densidade probabilstica, f(x), do DAP mnimo at o mximo (Zarnoch et al., 1982).
F (x ) = 1 exp (x a ) b]
(iii) Exponencial:
{[
Y = ae bx
podem ser obtidos pela linearizao (srie de Taylor) ou por meio do mtodo iterativo (Marquardt, por exemplo), segundo Draper e Smith (1981). O software Systat pode calcular os coeficientes pelos dois mtodos.
3. Clculo das probabilidades (freqncia esperada): caso Weibull percentis para DAP10 cm
1 {exp [(10 a)/b]c} {exp [(10 a)/b]c} - {exp [(20 a)/b]c} {exp [(20 a)/b]c} - {exp [(30 a)/b]c} {exp [(30 a)/b]c} - {exp [(40 a)/b]c}
3. Bibliografia:
Bailey, R.L. e T.R. Dell. 1973. Quantifying Diameter Distributions with the Weibull Function. Forest Science 19:97-104. Barros, P.L.C., S.A. Machado, D. Burger e J.D.P. Siqueira. 1979. Comparao de Modelos Descritivos da Distribuio Diamtrica em uma Floresta Tropical. Floresta 10(2):19-31. Clutter, J.L., J.C. Fortson, L.V. Pienaar, G.H. Brister e R.L. Bailey. 1983. Timber Management: A Quantitative Approach. John Wiley and Sons, Inc. New York. 333p. Cohen, A.C. 1965. Maximum Likelihood Estimation in the Weibull Distribution Based on Complete and on Censored Samples. Technometrics 7(4):579-588. Draper, N.R. e H. Smith. 1981. Applied Regression Analysis. John Wiley and Sons, Inc. New York. Segunda edio. 709p. Einsesmith, S.P. 1985. PLOTIT: Users Guide. Higuchi, N. 1987. Short-term Growth of an Undisturbed Tropical Moist Forest in the Brazilian Amazon. Tese de Doutor, Michigan State University. 129p. Hosokawa, R.T. 1981. Manejo de Florestas Tropicais midas em Regime de Rendimento Sustentado. UFPr, Relatrio Tcnico. Lawrence, K.D. e D.R. Shier. 1981. A Comparison of Least Squares and Least Absolute Deviation Regression Models for Estimating Weibull Parameters. Commun. Statist. Simula Computa. B10(3):315-326. Little, S.N. 1983. Weibull Diameter Distribution for Mixed Stands of Western Confiers. Can.J.For.Res. 1:85-88. Umana, C.L.A. e Alencar, J.C. 1998. Distribuies Diamtricas da Floresta Tropical mida em uma rea no Municpio de Itacoatiara AM. Acta Amazonica 28(2):167-190. Zarnoch, S.J. e T.R. Dell. 1973. An Evaluation of Percentile and Maximum Likelihood Estimators of Weibull Parameters. Zarnoch, S.J., C.W. Ramm, V.J. Rudolph e MW. Day. 1982. The effects of Red Pine Thinning Regimes on Diameter Distribution Fitterd to Weibull Function. MSU Agricultural Experiment Station East Lansing. RI-423. 11p.
Captulo 16 Biomassa da Parte Area da Vegetao da Floresta Tropical mida de Terra-Firme da Amaznia Brasileira.
Niro Higuchi1 , Joaquim dos Santos1 , Ralfh Joo Ribeiro1, Luciano Minette1 e Yvan Biot2
Resumo
Usando um banco de dados com 315 rvores, com DAP5 cm, foram testados quatro modelos estatsticos - linear, no linear e dois logartmicos - para estimar a biomassa de rvores em p. Os dados foram coletados, de forma destrutiva, na regio de Manaus, Estado do Amazonas, em um stio coberto por floresta de terra-firme sobre plats de latossolo amarelo. Em diferentes simulaes com diferentes intensidades de amostragem, os quatro modelos estimam precisamente a biomassa, sendo que o afastamento entre a mdia observada e a estimada, em nenhuma ocasio ultrapassou 5%. As equaes para estimar a biomassa de rvores individuais em uma parcela fixa, distintamente para rvores com 5DAP<20 cm e com DAP20 cm, so mais consistentes do que o uso de uma nica equao para estimar, genericamente, todas as rvores com DAP5 cm. O modelo logartmico com apenas uma varivel independente, o DAP, apresenta resultados to consistentes e precisos quanto os modelos que se utilizam tambm da varivel altura total da rvore. Alm do modelo estatstico para estimar o peso da massa fresca total de uma rvore, outras informaes so apresentadas, estratificadas nos diferentes compartimentos (tronco, galho grosso, galho fino, folhas e, eventualmente, flores e frutos) de uma rvore, como: concentrao de gua para estimar o peso da massa seca, concentrao carbono e a contribuio do peso de cada compartimento no peso total. palavras-chaves: Carbono, manejo florestal, modelo estatstico.
Aboveground Biomass of the Brazilian Amazon Rainforest Abstract
Data set with 315 trees with diameter at breast height (dbh) greater than 5 cm was used to test four statistical models - linear, non-linear and two logarithmics - to estimate aboveground biomass of standing trees. The data were collected destructively in Manaus region, Central Amazonia, in a site covered by a typical dense terra-firme moist forest on plateaus dominated by yellow latosols. The difference between observed and estimated biomass was always below 5%. The logarithmic model using a single independent variable (dbh) produced results as consistent and precise as those with double-entry (dbh and total height). Besides statistical models to estimate aboveground biomass, the following information are also presented in this paper: the contribution of each tree compartment (stem, branch, twigs, leaves and flowers or fruits) to the total weight of a standing tree, water concentration to estimate the dry weight and carbon concentration of each tree compartment. Key words: Carbon, forest management, statistical model
Instituto Nacional de Pesquisas da Amaznia - Cx. Postal, 478 - Manaus - Am. U. K. Overseas Development Administration (ODA). Victoria Street, 94 - London. SW1E5JL England.
2
Introduo:
O objetivo deste trabalho o desenvolvimento de modelos estatsticos para estimar a biomassa individual, de rvores em p, de espcies da floresta densa de terra-firme, regio de Manaus (AM), assim como a apresentao de informaes necessrias para a converso de massa fresca para massa seca e de biomassa para estoque de carbono. So testados quatro modelos, linear, no-linear e dois logartmicos, tendo como varivel dependente, o peso da massa fresca (no seca) e, como variveis independentes, dimetro altura do peito (DAP) e altura total, de rvores individuais. O principal atributo dos modelos testados o tamanho da rvore e, por esta razo, tm que absorver a alta diversidade florstica e as diferentes associaes botnicas, distribuies espaciais e densidades da madeira (intra e interespecficas), da vegetao de terra-firme. As estimativas de biomassa florestal so informaes imprescindveis nas questes ligadas, entre outras, s reas de manejo florestal e de clima. No primeiro caso, a biomassa est relacionada com os estoques de macro e micronutrientes da vegetao, que so obtidos pelo produto da massa pelas concentraes de cada mineral. No caso do clima, a biomassa usada para estimar os estoques de Carbono, que, por sua vez, so utilizados para estimar a quantidade de CO2 que liberada atmosfera durante um processo de queimadas. O manejo florestal est associado ao uso sustentvel dos recursos florestais existentes, para atender s demandas da sociedade, por produtos madeireiros e no-madeireiros. Tratando-se de Amaznia, os cuidados tm que ser redobrados porque estes recursos esto em ecossistemas heterogneos, complexos e frgeis. Os solos da Amaznia so antigos e, em sua maioria, pobres em nutrientes (especialmente para a agropecuria) e cidos. A contrastante exuberncia de sua cobertura florestal est associada s estratgias de conservao e de ciclagem de nutrientes dentro do prprio sistema. importante conhecer a distribuio de nutrientes nos diferentes compartimentos (tronco, galho, casca, folha), para controlar a exportao dos mesmos pela colheita florestal e entrada via inputs atmosfricos e, com isto, minimizar os impactos ambientais da produo madeireira. Para as questes climticas, h grande interesse em quantificar a biomassa que convertida, principalmente em dixido de carbono, pelas diferentes formas de uso do solo amaznico (Fearnside et al., 1993, Foster Brown et al., 1995, Higuchi & Carvalho Jr., 1994, Skole et al., 1994, Schroeder & Winjum, 1995 e Fearnside, 1996). Esta informao necessria para uma correta avaliao da contribuio dos projetos de desenvolvimento da regio, no processo de mudanas climticas globais, no mbito da Conveno do Clima, assinada pelo Governo Brasileiro durante a Conferncia das Naes Unidas sobre Desenvolvimento e Meio Ambiente, Rio-92. As estimativas de biomassa, atualmente disponveis na literatura, dos diversos tipos florestais da Amaznia, vm de estudos que se utilizam de mtodos diretos e indiretos. O mtodo direto consiste na derrubada e pesagem de todas as rvores que ocorrem em parcelas fixas, fornecendo estimativas, que segundo Brown et al. (1989), no so confiveis porque baseiam-se em poucas parcelas, pequenas e tendenciosamente escolhidas. No mtodo indireto, as estimativas tm sido produzidas a partir de dados de inventrios florestais, que foram executados com a finalidade de planejar a explorao e o manejo florestal, sendo o volume da madeira, a principal varivel. Neste mtodo, a biomassa estimada a partir do volume da madeira, usando-se a densidade mdia da madeira e um fator de correo para rvores com DAP < 25 cm. Estes dois mtodos ainda geram muita polmica e controvrsias e produzem estimativas desencontradas, mesmo quando se usa o mesmo banco de dados (Fearnside et al., 1993, Brown et al., 1989 e Higuchi et al., 1994 e Foster Brown et al., 1995). A tabela 1 ilustra
o que foi posto anteriormente. Esta tabela foi parcialmente reproduzida de FEARNSIDE et al. (1993), considerando apenas a biomassa viva acima do nvel do solo. So produzidas estimativas diferentes, com o passar do tempo, pelos mesmos autores e para o mesmo banco de dados (montado nos anos 70). Alm disso, Foster Brown et al. (1995) criticam estes bancos de dados, afirmando que as alturas das rvores foram obtidas sem aparelhos de medio e que, estes erros no amostrais no so mencionados. O consenso existente entre os pesquisadores que trabalham com biomassa de que praticamente impossvel determinar a biomassa de cada rvore, pelo mtodo direto, ao executar um inventrio florestal. Por esta razo, os recursos da anlise de regresso para o desenvolvimento de modelos estatsticos, para estimar a biomassa de rvores em p, devem ser empregados para superar este problema. Salomo et al. (1996) citam apenas dois modelos estatsticos utilizados na Amaznia; um proposto por Sandra Brown e colaboradores e, outro, proposto por Christopher Uhl e colaboradores. O primeiro requer o conhecimento da densidade da madeira de cada indivduo, que praticamente impossvel obte-la durante o inventrio; e o segundo, recomendado para florestas secundrias. Alm destes, h o modelo de Overman et al. (1994), para a floresta amaznica colombiana, desenvolvido principalmente para rvores de pequenos dimetros.
Materiais e Mtodos (i) Coleta de Dados:
Os dados foram coletados na Estao Experimental de Silvicultura Tropical (EEST) do INPA, aproximadamente 90 km ao norte de Manaus, em reas derrubadas para experimentos com liberao de dixido de carbono, usando-se queimadas tradicionalmente praticadas por pequenos produtores da regio, e em reas especialmente designadas para esta pesquisa. Nos dois casos foram escolhidas reas de plats sobre latossolo amarelo. Estes dados constituem o banco de dados de biomassa do INPA. No total, foram derrubadas e pesadas 315 rvores-amostras com DAP5 cm. O peso total de todos os indivduos amostrados foi compartimentado em tronco e copa (incluindo galhos e folhas e, eventualmente, frutos). Alm do peso da rvore, foram tambm medidos o DAP, altura total, altura comercial, altura da copa e dimetro da copa. A distribuio de freqncia e a estatstica descritiva dos dados observados encontram-se nas tabelas 2a e 2b). Na tabela 2c observam-se as estatsticas descritivas para as variveis DAP, altura total e peso total, quando os dados so divididos em algumas classes de dimetro. Nesta tabela fica evidente que a varivel peso total tem uma variabilidade natural bem maior que as outras duas variveis, mesmo em mais classes de dimetro. Para obteno das concentraes de gua e nutrientes de cada compartimento da rvores, 38 indivduos (dos 315 amostrados) foram coletados diferentemente, baseando-se no esquema apresentado por Higuchi & Carvalho Jr. (1994) e Santos (1996). Foram retiradas amostras (discos) a 0% (base), 25, 50, 75 e 100% (topo) do tronco e do galho grosso (dimetro de base10 cm). Do tronco foi retirado tambm um disco altura do DAP. Todos os discos retirados foram imediatamente pesados e enviados ao laboratrio para secagem em estufas calibradas a 105o C. O mesmo procedimento foi adotado para os galhos finos e folhas, mas que em vez de discos, foram retiradas, de vrias partes da copa, amostras de 5 e 3 kg, respectivamente. A estimativa da concentrao de carbono na vegetao das espcies mais abundantes, no stio estudado, foi feita tendo ainda as amostras coletadas por Higuchi & Carvalho Jr. (1994). O peso total de cada uma destas 38 rvores foi compartimentado em tronco, casca, galho grosso, galho fino (dimetro<10 cm), folha e, eventualmente, flores e frutos. Alm
destas concentraes, a coleta compartimentada permite ainda a determinao da contribuio de cada um dos compartimentos no peso total da rvore. A estatstica descritiva destes dados e a contribuio de cada compartimento no peso total e a porcentagem do Peso da massa fresca que transformado em Peso da massa seca, visualizam-se nas tabelas 3a e 3b. Um desdobramento da pesquisa de Nutrientes o estudo de densidade da madeira (g/cm ), nos sentidos base-topo e casca-medula da rvore (utilizando-se das amostras coletadas a 0, 25, 50, 75 e 100% da altura comercial e do DAP). Resultados preliminares deste estudo encontram-se na tabela 4, de 12 rvores analisadas.
3
O banco de dados de biomassa do INPA vem sendo completado ao longo do tempo e j foi utilizado preliminarmente por Higuchi et al. (1994), Higuchi & Carvalho Jr. (1994), Arajo (1995) e Santos (1996).
(ii) Modelos Testados:
Os modelos estatsticos foram selecionados a partir do trabalho de SANTOS (1996), que testou 34 diferentes modelos em diferentes combinaes. O banco de dados foi dividido em dois, para rvores com 5DAP<20 cm e DAP20 cm. Foram testados os seguintes modelos estatsticos, para todas as rvores com DAP5 cm, equao nica, e para as duas classes de tamanho, (a) 5DAP<20 cm e (b) DAP20 cm: 1. ln Pi = 0 + 1 ln Di + ln i 2. ln Pi = 0 + 1 ln Di + 2 ln Hi + ln i 3. Pi = 0 + 1 Di2Hi + i 4. Pi = 0 D 1 H 2 + i para i = 1, 2, ... 315 - equao nica i = 1, 2, ... 244 - equao (a) i = 1, 2, ... 71 - equao (b) onde: Pi = peso da massa fresca de cada rvore, em quilograma (para modelos 1, 2 e 4) e em toneladas mtricas (para o modelo 3). Di= dimetro altura do peito de cada rvore, DAP, em centmetros (para modelos 1, 2 e 4) e em metros (para o modelo 3) Hi = altura total de cada rvore, em metros 0, 1 e 2 = coeficientes de regresso i = erro aleatrio ln = logartimo natural Os modelos estatsticos propostos por Brown e Lugo (Foster Brown et al., 1995, Salomo et al., 1996) e aqueles que apresentaram os melhores resultados no trabalho de Saldarriaga et al. (1988), que incluem densidade da madeira, no foram testados porque esta varivel de difcil obteno para cada indivduo em p. Alm disso, segundo Higuchi & Carvalho Jr. (1994), a densidade da madeira (g/cm3) apresenta significativas variaes intra e inter-especficas. Pelas mesmas razes, Overman et al. (1994) descartam esta varivel, apesar do bom desempenho dos modelos que a contm.
Na tabela 4, onde visualizam-se as densidades de 12 rvores, observa-se que: a menor densidade de 0,480 e a maior de 1,031; a densidade tende a diminuir no sentido base-topo; a densidade mdia, considerando base-topo, de 0,756; e esta ltima varivel sempre menor que a densidade mdia obtida na altura do DAP. A densidade mdia do DAP igual a 0,803, que, por sua vez, diferente de todas as estimativas fornecidas por Foster Brown et al. (1995) e a de Saldarriaga et al. (1988). As variaes no sentido casca-medula tambm so significativas (Higuchi & Carvalho Jr., 1994).
(iii) Escolha do Melhor Modelo Estatstico:
Para a escolha do melhor modelo estatstico visando-se estimar a biomassa em p da rea em estudo, foram adotados os procedimentos tradicionais da cincia florestal, que so: maior coeficiente de determinao, menor erro padro de estimativa e melhor distribuio dos resduos (Santos, 1996). Alm destes procedimentos, foram simuladas amostras de diferentes intensidades, para testar a consistncia dos modelos na estimativa da biomassa. Foram tomadas 15 amostras com 50 rvores selecionadas aleatoriamente do banco de dados original; 10 amostras com n = 100; 5 amostras com n = 200; e 5 amostras com n = 300.
Resultados e Discusso:
Do trabalho de Higuchi & Carvalho Jr. (1994), as seguintes informaes quantitativas do stio estudado so importantes para uma melhor interpretao destes resultados e para futuras comparaes com outros stios: - Em uma parcela fixa de 2.000 m2, o peso da biomassa fresca distribui-se da seguinte maneira, em relao ao peso total: a vegetao (exceto cips) com DAP5 cm contribui com 86,9% do peso total; a vegetao com DAP<5 cm contribui com 2,4%; os cips contribuem com 1,3% e a liteira (toda a vegetao morta sobre a superfcie do solo) contribui com 9,4%. - Os teores mdios de carbono so os seguintes: tronco (48%), galhos grossos (48%), galhos finos (47%), folhas (39%), plntulas - at 50 cm de altura - (47%), mudas - altura>50 cm e DAP<5 cm - (49%), cips (48%) e liteira (39%). Os coeficientes de regresso e de determinao e os erros padres de estimativa de todos os quatro modelos estatsticos testados (rvores com DAP5 cm), incluindo as variaes (a) para rvores com 5DAP<20 cm e (b) DAP20 cm, verificam-se na tabela 5. De um modo geral, os quatro modelos (incluindo as variaes a e b) esto aprovados nos quesitos coeficiente de determinao (r2) e erro padro de estimativa (sy.x) e, por esta razo, poderiam ser utilizados para estimar a biomassa de rvores em p da rea em estudo. Todos os modelos apresentam coeficientes de correlao (r) altamente significantes (<0,01). De um modo geral, os modelos nicos para rvores com DAP 5 cm apresentam os maiores coeficientes de determinao (r2), exceto para o modelo 3. Com relao ao (sy.x), o modelo 4 o que tem o melhor desempenho, apresentado os menores erros, seguido do modelo 2. Combinando as equaes a e b, no mesmo banco de dados, os erros (em quilogramas) produzidos foram: 949, 693, 356 e 537, respectivamente para os modelos 1, 2, 3 e 4. Nesta situao, o melhor desempenho do modelo 3, seguido do modelo 4. O exame da distribuio dos resduos mostra que os modelos 1, 2 e 3 no apresentam nenhum padro, distribuindo-se aleatoriamente ao longo do eixo da biomassa observada e estimada, ordenada de forma crescente pela varivel DAP. O modelo 4, no entanto, apresenta um claro padro, aumentando os desvios conforme aumentam os DAPs. As equaes resultantes so:
Modelo 1:
- Equaes a & b: (a) ln P = -1,754 + 2,665 ln D; para 5DAP<20 cm (b) ln P = -0,151 + 2,170 ln D; para DAP20 cm - Equao nica: ln P = -1,497 + 2,548 ln D; para para DAP5 cm
Modelo2:
- Equaes a & b: (a) ln P = -2,668 + 2,081 ln D + 0,852 ln H; para 5DAP<20 (b) ln P = -2,088 + 1,837 ln D + 0,939 ln H; para DAP20 cm - Equao nica: ln P = -2,694 + 2,038 ln D + 0,902 ln H; para DAP5 cm
Modelo 3:
- Equaes a & b: (a) P = 0,0056 + 0,621 D2H; para 0,05DAP<0,20 m (b) P = 0,393 + 0,473 D2H; para DAP0,20 m - Equao nica: P = 0,077 + 0,492 D2H; para DAP0,05 m
Modelo 4:
- Equaes a & b: (a) P = 0,0336 * D2,171*H1,038; para 5DAP<20 cm (b) P = 0,0009 * D1,585*H2,651; para DAP20 cm - Equao nica: P = 0,001 * D1,579*H2,621; para DAP5 cm A verificao da consistncia de cada um dos modelos estatsticos para estimar a biomassa em p, sobre amostras simuladas (tiradas aleatoriamente do banco de dados original), encontram-se na tabela 6. Nesta tabela verificam-se as mdias observadas e estimadas em cada simulao. A anlise feita sobre o afastamento da mdia estimada em relao observada, em percentagem, utilizando-se equaes distintas para estimar a biomassa de rvores com 5DAP<20 cm e DAP20 cm e uma nica equao para todas as rvores contidas na amostra com DAP5 cm.
(i) Modelo 1:
- Usando as equaes a e b, para estimar a biomassa do banco de dados original, a mdia estimada afasta-se -1,9% da mdia observada, ou seja, o desvio7 de -1,9%. Quando utiliza-se uma s equao para estimar a biomassa das duas classes de dimetro, o desempenho anterior no repetido, apresentando um desvio de +16%. Excepcionalmente, na simulao com n = 50, o uso de uma s equao resulta em um desvio mdio de +2,8%, que poderia ser considerado bom se no fosse a amplitude de variao entre o menor e o maior desvio, que foi de 0,1 a 24,9%. - Este modelo (equaes a e b) demonstra a mesma consistncia nas simulaes com n = 300, n = 200 e n = 100, respectivamente, com desvios de -1,9% (1,6 e 2,3, menor e maior desvio, em valores absolutos), +0,5% (2,7 e 11,6) e +2,6% (3,7 e 22,1). A simulao com n = 50, o desvio mdio de -10,2%. - A equao nica para estimar a biomassa, usando este modelo estatstico, no alternativa para as duas equaes, ou seja, o uso deste modelo requer as duas equaes para estimar a biomassa de rvores com 5DAP<20 cm e DAP20 cm, separadamente.
7
Desvio afastamento, em %, do peso mdio estimado pelas diferentes equaes, em relao ao peso mdio observado. Entre parntesis, os desvios aparecem em valores absolutos e o primeiro sempre o menor e, o segundo, o maior desvio.
- Trata-se de um modelo com apenas o DAP como varivel independente, que uma varivel fcil de ser medida no campo, sem erros no amostrais. O nico problema deste modelo que o peso ser sempre o mesmo, para um determinado dimetro, independentemente da altura da rvore, da espcie e de outros atributos da rvore.
(ii) Modelo 2:
- Usando as equaes a e b, para estimar a biomassa do banco de dados original, a mdia estimada afasta-se -3,6% da mdia observada. Quando utiliza-se uma s equao para estimar a biomassa das duas classes de dimetro, o seu desempenho melhor do que o anterior, com desvio de +2,9%. - Este modelo (equaes a e b) demonstra a mesma consistncia nas simulaes com n = 300, n = 200 e n = 100, respectivamente, com desvios de -3,6% (3,2 e 4,3, menor e maior desvio, em valores absolutos), -1,8% (5,2 e 6,7) e -1,1% (0,9 e 12,7). A simulao com n = 50, o desvio mdio de 9,4%. O uso de uma s equao tem um desempenho razovel para todas as simulaes, que exceto para n = 50, apresenta desvio menor do que quando se utilizam as equaes a e b. - Apesar do bom desempenho da equao nica, em relao aos desvios mdios, onde as diferenas so negligveis, as amplitudes de variao dos mesmos nas equaes a e b so menores, sendo, por esta razo, mais apropriadas para a estimativa da biomassa. - A incorporao da altura total neste modelo permite estimar diferentes pesos para iguais DAPs, ao contrrio do modelo 1.
(iii) Modelo 3:
- Usando as equaes a e b, para estimar a biomassa do banco de dados original, a mdia estimada afasta-se +1,2% da mdia observada. Quando se utiliza uma s equao para estimar a biomassa das duas classes de dimetro, o seu desempenho melhor do que o anterior, com desvio de +0,1%. Apesar de um claro padro na distribuio dos resduos, este modelo tem uma boa capacidade de compensao quando se utiliza todo o banco de dados, tanto com as equaes a e b como com a equao nica para as duas classes de dimetro. - Este modelo (equaes a e b) demonstra a mesma consistncia nas simulaes com n = 300, n = 200, n = 100 e n = 50, respectivamente, com desvios de +1,2% (0,4 e 1,6, menor e maior desvio, em valores absolutos), +3,1% (1,1 e 1,7), +3,8% (0,8 e 20,3) e -4,8% (0,4 e 19,4). O uso de uma s equao tem um desempenho to consistente quanto ao anterior, com desvios de +0,1% (0,2 e 0,9), +2,2% (0,6 e 11,5), +2,4% (0,7 e 17,6) e -6,8% (0,4 e 16,2), respectivamente para n = 300, n = 200, n = 100 e n = 50. - A equao nica para este modelo a melhor alternativa para estimar a biomassa, principalmente considerando apenas a estimativa da biomassa mdia de uma parcela fixa, sem preocupar-se com as estimativas individuais. Em todos os tamanhos da amostragem, esta equao demonstrou-se bastante consistente e precisa. - Sem preocupar-se com as estimativas individuais, prestando ateno apenas no total ou na mdia das parcelas fixas, este o melhor modelo entre os testados. De um modo geral, este modelo superestima o peso das menores classes de dimetro. Para grandes inventrios para estimativa de biomassa, este modelo o mais preciso.
(iv) Modelo 4:
- Usando as equaes a e b, para estimar a biomassa do banco de dados original, a mdia estimada afasta-se -4,6% da mdia observada. Quando utiliza-se uma s equao para
estimar a biomassa das duas classes de dimetro, o desempenho anterior no repetido, com desvio de -7,3%. - Este modelo (equaes a e b) demonstra a mesma consistncia nas simulaes com n = 300, n = 200, n = 100 e n = 50, respectivamente, com desvios de -4,3% (3,4 e 5,1, menor e maior desvio, em valores absolutos), +0,3% (0,6 e 3,7), -4,0% (1,2 e 7,6) e -7,7% (4,2 e 16,1). O uso de uma s equao tem um desempenho inferior a todos os outros modelos testados e, por esta razo, no uma alternativa para as duas equaes. Neste caso, a opo tem que ser pelas duas equaes, 4 a para rvores com 5DAP<20 cm e 4b para DAP20 cm. - De todos os modelos testados, este modelo o que apresenta as menores amplitudes de variao, demonstrando uma boa consistncia na estimativa da biomassa. um modelo bastante conservador e que apresenta poucas surpresas na estimativa da biomassa das diferentes classes de dimetro.
Consideraes finais:
1. Os quatro modelos estatsticos testados produzem estimativas confiveis de biomassa de rvore em p, todos com desvios inferiores a 5% em relao mdia. 2. As equaes distintas para rvores com 5DAP<20 cm e com DAP20 cm so mais consistentes que a equao nica para todas as rvores com DAP5 cm. 3. Dentre os modelos testados, os melhores so os modelos 1 e 4, respectivamente com as seguintes equaes:
(a) ln P = -1,754 + 2,665 ln D; para 5DAP<20 cm (b) ln P = -0,151 + 2,170 ln D; para DAP20 cm
e
(a) P = 0,0336 * D2,171*H1,038; para 5DAP<20 cm (b) P = 0,0009 * D1,585*H2,651; para DAP20 cm
- O modelo 1 tem a vantagem de ser dependente de apenas uma varivel, o DAP, que uma varivel fcil de ser medida no campo, com poucos riscos de erros no amostrais; - O modelo 4 tem a vantagem de ser muito consistente e de poder estimar mais realisticamente rvores individuais, com mesmos DAPs e diferentes alturas. Alm disso, este modelo j foi preliminarmente utilizado por Arajo (1995), em Tom-Au (Par), para confrontar com os resultados obtidos pelo mtodo direto. Em Tom-Au, a biomassa estimada por este modelo ficou tambm a menos de 5% da observada. 4. A eficincia das equaes est associada utilizao de parcelas fixas para o inventrio de biomassa de um determinado stio, com as dimenses mnimas recomendadas para os inventrios florestais na Amaznia. 5. O peso do tronco seco corresponde a 61% de seu peso antes da secagem; e o da copa corresponde a 58% de seu peso fresco. 6. Do peso total de uma rvore, 65,6% tronco e 34,4% copa. A contribuio de cada compartimento da rvore em seu peso total a seguinte: tronco (65,6%), galho grosso (17,8%), galho fino (1,5%), folhas (2,03%) e flores/frutos (0,01%). 7. Os teores mdios de carbono so os seguintes: tronco (48%), galhos grossos (48%), galhos finos (47%) e folhas (39%).
Tabela 1: Algumas estimativas de biomassa para a floresta densa da Amaznia brasileira*. biomassa (t) fonte 268 Brown & Lugo (1992a) ) cf. fonte* Densa (FAO) Amaznia 162 Brown & Lugo (1992a) - cf. fonte* Densa (RADAMBRASIL) Amaznia 289 Brown & Lugo (1992b) - cf. fonte* Densa (FAO) Amaznia 227 Brown & Lugo (1992b) - cf. fonte* Densa (presente) Amaznia 12.3 Fearnside (1992a) - cf. fonte* Densa (presente) Amaznia 319.9 Fearnside (unpub. 1993) - cf. fonte* (*) Fonte: parcialmente reproduzida de Fearnside et al. (1993) Tabela 2: Banco de Dados de Biomassa, do INPA (n = 315). (a) Distribuio de Freqncia dos Dados Observados (n = 315). Limites de classe 5 < 10 10 < 20 20< 30 30< 40 40< 50 50< 60 60< 70 70< 80 80< 90 90< 100 100< 110 110< 120 120 total Freq. 154 90 28 18 9 8 3 3 0 1 0 0 1 315 % 48,89 28,57 8,89 5,71 2,86 2,54 0,95 0,95 0,32 0,32 100 Tipo de floresta Densa (RADAMBRASIL) local Amaznia
(b) Estatstica Descritiva dos Dados Observados: varivel DAP (cm) H-total (m) H-com (m) P-tronco (kg) P-copa (kg) P-total (kg) copa (%) mdia 16,0 17,0 10,7 476,3 306,4 782,7 31 desvio 15,3 7,7 5,2 1299,3 1031,5 2271,1 1 CV(%) 96 45 49 273 337 290 45 Mnimo 5,0 5,6 2,4 4,5 0,6 9,1 2 mximo 120,0 41,4 26,1 12736,5 12897,9 25634,4 70
(c) Estatstica Descritiva dos Dados Observados, Divididos em Algumas Classes de Dimetro: Classes de dimetro 5 < 10 10 < 15 15 < 20 20 < 30 30 < 50 >= 50 nmero casos 154 62 28 28 27 16 DAP mdia CV(%) 7,0 20 12,0 12 17,5 9 23,6 11 37,2 1 65,9 29 altura Total mdia CV(%) 11,4 27 16,4 20 20,8 18 23,7 1 29,3 11 34,1 10 Peso Total mdia CV(%) 35,7 68 15,0 42 407,5 34 852,0 43 2449,2 35 8205,4 72
Tabela 3: Dados Utilizados para estudos de Nutrientes (n = 38). (a) Estatstica Descritiva dos Dados Observados: varivel DAP (cm) alt. total (m) alt. com (m) P-tronco (kg) P-copa (kg) P-total (kg) copa (%) mdia 39,9 28,8 17,3 217,4 1595,3 3742,6 34 desvio 20,3 6,0 3,7 2449,1 2429,5 3005,4 1 CV(%) 51 56 22 11 152 128 22 Mnimo 9,5 11,4 7,5 48,7 15,2 63,9 9 mximo 98,0 41,4 25,0 12736,5 12898,3 25634,4 63
(b) Contribuio de cada compartimento (tronco, galho grosso, galho fino, folhas e flor/frutos) no peso total de uma rvore e % do PF de cada um que transformado em PS: tronco g.grosso g.fino folhas flor/frutos TOTAL m 217,36 1109,68 434,24 50,30 1,07 3742,61 VERDE s 2449,1 1985,66 432,65 48,87 5,41 4793,77 n 38 38(34) 38 38 38(8) 38 m 65,60 17,83 1,52 2,03 0,01 % total s 1,19 1,43 7,21 1,28 0,03 n 38 38(34) 38 38 38(8) m 101,65 665,63 246,64 23,58 0,80 2238,30 SECO s 1552,45 1243,55 253,6 23,01 4,60 3005,38 n 38 38(34) 38 38 38(8) 38 m 61,11 60,56 57,22 47,56 36,73 60,28 % PF s 8,27 7,98 5,75 7,21 20,62 7,41 n 38 34 38 38 8 38 m = mdia aritmtica; s = desvio padro amostral; n = nmero de observaes. % total = contribuio do peso de cada compartimento da rvore em relao ao seu peso total. % PF = % do Peso Fresco da rvore ou do compartimento que corresponde ao Peso Seco. PESOS
Tabela 4: Informaes sobre Densidade da Madeira. Espcie 1 2 3 4 5 6 7 8 9 10 11 12 mdia desvio mn. mx. 0% 0,856 0,696 0,879 0,536 0,681 0,818 0,725 1,027 0,891 0,571 1,077 0,891 0,804 0,167 0,536 1,077 25% 0,790 0,697 0,903 0,521 0,678 0,807 0,707 0,990 0,870 0,533 1,033 0,870 0,783 0,163 0,521 1,033 50% 0,757 0,683 0,866 0,509 0,640 0,806 0,711 0,946 0,862 0,485 1,000 0,807 0,756 0,159 0,485 1,000 75% 0,753 0,650 0,741 0,499 0,640 0,653 0,693 0,929 0,862 0,445 0,987 0,716 0,71 0,159 0,445 0,987 100% 0,718 0,684 0,724 0,471 0,615 0,704 0,704 0,961 0,846 0,367 1,056 0,846 0,725 0,191 0,367 1,056 mdia 0,775 0,682 0,823 0,507 0,651 0,758 0,708 0,971 0,866 0,480 1,031 0,826 0,756 0,165 0,480 1,031 DAP 0,824 0,706 0,91 0,546 0,700 0,838 0,717 1,015 0,896 0,528 1,059 0,896 0,803 0,168 0,528 1,059
Tabela 5: Coeficientes de Regresso e de Determinao, Erro Padro de Estimativa dos Modelos Estatsticos para Estimar a Biomassa (Peso total) de rvores em p. b1 B2 r2 Modelo b0 1 -1,497 2,548 0,97 1a -1,754 2,665 0,92 1b -0,151 2,170 0,90 2 -2,694 2,038 0,902 0,98 2a -2,668 2,081 0,852 0,95 2b -2,088 1,837 0,939 0,91 3 0,077 0,492 0,90 3a 0,0056 0,621 0,94 3b 0,393 0,473 0,86 4 0,001 1,579 2,621 0,94 4a 0,0336 2,171 1,038 0,94 4b 0,0009 1,585 2,651 0,92 b0, b1 e b2 = estimadores dos parmetros 0, 1 e 2, respectivamente. r 2 = coeficiente de determinao ajustado ry.x = erro padro de estimativa. sy.x 1729 43 2035 812 35 197 716 34 1508 540 31 1159
- modelo 1: ln Pi = b0 + b1 ln Di; sendo (1) para DAP5 cm e i = 1,..., 315; (1a) para 5DAP<20 cm e i = 1,..., 244; e (1b) para DAP20 cm e i = 1,..., 71. - modelo 2: ln Pi = b0 + b1 ln Di + b2 ln Hi; sendo (2) para DAP5 cm e i = 1,..., 315; (2a) para 5DAP<20 cm e i = 1,..., 244; e (2b) para DAP20 cm e i = 1,..., 71. - modelo 3: Pi = b0 + b1 Di2Hi; sendo (3) para DAP0,05 m e i = 1,..., 315; (3a) para 0,05DAP<0,20 m e i = 1,..., 244; e (3b) para DAP 0,20 m e i = 1,..., 71. - modelo 4: Pi = b0 D b1 H b2; sendo (1) para DAP5 cm e i = 1,..., 315; (1a) para 5DAP<20 cm e i = 1,..., 244; e (1b) para DAP20 cm e i = 1,..., 71.
Tabela 6: Resumo das simulaes utilizando diferentes intensidades de amostragem (tomadas aleatoriamente do banco de dados). Biomassa (observada e estimada) observada banco de dados modelo 1 modelo 2 (n = 315) modelo 3 modelo 4 observada amostra com n = 300 modelo 1 modelo 2 (5 repeties) modelo 3 modelo 4 observada amostra com n = 200 modelo 1 modelo 2 (5 repeties) modelo 3 modelo 4 observada amostra com n = 100 modelo 1 modelo 2 (10 repeties) modelo 3 modelo 4 observada amostra com n = 50 modelo 1 modelo 2 (15 repeties) modelo 3 modelo 4 Observada equaes a & b equao nica 782,7 768,2 [ -1,9 ] 907,7 [+16,0 ] 754,6 [ -3,6 ] 805,2 [ +2,9 ] 792,1 [ +1,2 ] 783,3 [ +0,1 ] 746,9 [ -4,6 ] 725,3 [ -7,3 ] 794,1 779,1 [ -1,9 ] 924,1 [ +16,4 ] 765,5 [ -3,6 ] 817,0 [ +2,9 ] 803,3 [ +1,2 ] 794,7 [ +0,1 ] 760,2 [ -4,3 ] 738,9 [ -7,0 ] 784,2 788,3 [ +0,5 ] 944,2 [ +20,4 ] 770,0 [ -1,8 ] 826,4 [ +5,4 ] 808,1 [ +3,1 ] 801,3 [ +2,2 ] 786,3 [ +0,3 ] 740,2 [ -5,6 ] 844,8 866,9 [ +2,6 ] 1052,4 [ +24,6 ] 835,4 [ -1,1 ] 900,5 [ +6,6 ] 876,6 [+3,8 ] 865,1 [ +2,4 ] 811,3 [ -4,0 ] 790,8 [ -6,4 ] 836,2 750,8 [ -10,2 ] 859,3 [ +2,8 ] 757,2 [ -9,4 ] 799,8 [ -4,4 ] 795,8 [ -4,8 ] 779,1 [ -6,8 ] 771,8 [ -7,7 ] 750,8 [ -10,2 ]
Bibliografia
Arajo, T.M. 1995. Investigao das Taxas de Dixido de Carbono Gerado em Queimadas na Regio Amaznica. Tese de Doutorado, Universidade Estadual Paulista, Faculdade de Engenharia de Guaratinguet, 212 p.. Brown, S., A.J.R. Gillespie e A.E. Lugo. 1989. Biomass Estimation Methods for Tropical Forests with Applications to Forest Inventory Data. Forest Science, 35(4):881-902. Carvalho Jr., J.A., J.M. Santos, J.C. Santos, M.M. Leito e N. Higuchi. 1995. A Tropical Rainforest Clearing Experiment by Biomass Burning in the Manaus Region. Atmospheric Environment 29(17):2301-2309. Fearnside, P.M., N. Leal Filho e F.M Fernandes. 1993. Rainforest Burning and the Global Budget: Biomass, Combustion Efficiency, and Charcoal Formation in the Brazilian Amazon. J. of Geophysical Research, 98(D9):16733-16743. Fearnside, P.M. 1996. Amazonian Deforestation and Global Warming: Carbon Stocks in Vegetation Replacing Brazils Amazon Forest. Forest Ecology and Management 80:2134. Foster Brown, I., D.C. Nepstad, I.O. Pires, L.M. Luz e A.S. Alechandre. 1992. Carbon Storage and Land-use in Extractive Reserves, Acre, Brazil. Environmental Conservation 19(4):307-315. Foster Brown, I., L.A. Martinelli, W. Wayt Thomas, M.Z. Moreira, C.A. Cid Ferreira e R.A. Victoria. 1995. Uncertainty in the Biomass of Amazonian Forests: an Example from Rondnia, Brazil. Forest Ecology and Management, 75:175-189. Higuchi, N. e J.A. Carvalho Jr. 1994. Fitomassa e Contedo de Carbono de Espcies Arbreas da Amaznia. Em: Anais do Seminrio Emisso x Seqestro de CO2 - Uma Nova Oportunidade de Negcios para o Brasil:127-153. Higuchi, N., J.M. dos Santos, M. Imanaga e S. Yoshida. 1994. Aboveground Biomass Estimate for Amazonian Dense Tropical Moist Forests. Memoirs of the Faculty of Agriculture, Kagoshima, 30(39):43-54. Overman, J.P.M., H.J.L. Witte e J.G. Saldarriaga. 1994. Evaluation of Regression Models for Above-ground Biomass Determination in Amazonia Rainforest. Forest Ecology and Management, 10:207-218. Saldarriaga, J.G., D.C. West, M.L. Tharp e C. Uhl. 1988. Long-term Chronosequence of Forest Sucession in the Upper Rio Negro of Colombia and Venezuela. Journal of Ecology 76:938-958. Salomo, R.P., D.C. Nepstad e I.C.G. Vieira. 1996. Como a Biomassa de Florestas Tropicais Influi no Efeito Estufa. Cincia Hoje, 21(122):38-47. Santos, J. dos. 1996. Anlise de Modelos de Regresso para Estimar a Fitomassa da Floresta Tropical mida de Terra-firme da Amaznia Brasileira. Tese de Doutorado, Universidade Federal de Viosa, 121 p.. Schroeder, P.E. e J.K. Winjum. 1995. Assessing Brazils Carbon Budget: II. Biotic Fluxes and Net Carbon Balance. Forest Ecology and Management, 75(87-99). Skole, D.L., W.H. Chomentowski, W.A. Salas e A.D. Nobre. 1994. Physical and Human Dimensions of Deforestation in Amazonia. BioScience, 44(5):31-321.
exponencial) no demonstraram ainda que so comprovadamente adequados, quando sries de tempo so envolvidas (Morrison, 1976). Segundo Enright e Ogden (1979), nas florestas tropicais, o atributo tamanho pode ser mais importante do que a idade. Uma razo para isso que o tamanho pode ser mais ecologicamente informativo do que a idade, quando esta difcil de ser obtida com preciso. Alm disso, segundo ainda os mesmos autores, a diviso de ciclos de vida em estgios de desenvolvimento pode permitir a predio do comportamento futuro mais precisamente do que a diviso em puras classes de idade. Usher (1966) usou o atributo tamanho no lugar da idade para desenvolver um modelo para o manejo de recursos renovveis. Ele afirma que um organismo que est na i-sima classe no tempo t, pode permanecer na mesma classe, mudar para a classe seguinte (mais de uma classe tambm) ou morrer, no tempo t+1. Os modelos que usam matriz de transio so apropriados para anlise de muitos problemas biolgicos, principalmente em estudos relacionados com a dinmica da floresta (Enright e Ogden, 1979). Esses modelos tm sido usados intensivamente em estudos de dinmica de populaes de plantas ou animais em vrias regies do mundo. Alguns exemplos so: a demografia do jack-in-the-pulpit em Nova York (Bierzychudek, 1982); dinmica florestal de uma populao de Araucaria numa floresta tropical mida de Papua Nova Guinea e Nothofagus em floresta montana temperada da Nova Zelndia (Enright e Ogden, 1979); sucesso de trmitas em Gana (Usher, 1979); sucesso florestal na Nova Jersey (Horn, 1975); aplicao da Cadeia de Markov em estudos de dinmica florestal em florestas tropicais (Acevedo, 1981) e a aplicao de Markov para predizer o desenvolvimento de um povoamento florestal (Usher, 1966; Usher, 1969, Bruner e Moser, 1973; Peden et al., 1973 e Buogiorno e Michie, 1980). Alder (1980) tambm descreve a matriz de transio como uma possvel ferramenta para anlise de dados de crescimento e incremento de povoamentos multianos de florestas tropicais mistas. Na regio de Manaus, Higuchi (1987) usou Markov para estudar a dinmica das parcelas testemunhas do projeto de manejo florestal (Projeto Bionte) e Rocha (2001) nos transectos do projeto Jacaranda. A maioria dos trabalhos citados anteriormente inclui revises razoveis da teoria do mtodo de Markov. H tambm outras leituras teis sobre o assunto, como Grossman e Turner (1974), Chiang (1980) e Anderson e Goodman (1957). 3. Aplicao de Markov aos dados das parcelas permanentes da ZF-2: Primeiro vamos considerar: (i) estados i e j = 1, 2, ..., m; (ii) tempos de observao t = 0, 1, .., T; (iii) p ij (t+1) (i, j = 1, 2, ..., m) = probabilidade do estado j no tempo t+1, dado o estado i no tempo t. Um processo Markov considerado homogneo em relao ao tempo ou tempo homogneo, se a probabilidade de transio p ij (t, t+1) = Pr [x(t+1) = j | x(t) = i], para i, j = 1, 2, ...., m. depender apenas da diferena entre t e t+1, mas no de t e t+1 separadamente (Chiang, 1980). A montagem da matriz comea com o clculo de p ij = n ij / n j onde: n ij = nmero de indivduos na classe j no tempo t+1, dada a classe i no tempo t e n j = nmero total de indivduos na classe i no tempo t. A matriz de transio probabilstica de uma cadeia de Markov para um processo de n estados pode ser montada da seguinte maneira:
P = (p ij) =
A probabilidade de transio p ij pode ser de n passos, tomando a forma de p ij (n) onde n indica o nmero de tentativas, ou seja, a probabilidade que a populao vai de um estado i de uma tentativa para o estado j, n tentativas depois.
Exemplo didtico: Projees da dinmica de Parcelas Permanentes usando Markov (transectos Leste-Oeste e Norte-Sul)
No caso dos dados da parcela permanente do exemplo, vamos considerar 17 estados (i, j = 1, 2, ...17), onde:
estado 1 = recrutamento (R) estados de 2 a 16 = classes de dimetro. As classes de DAP so de 5-5 cm e vo de 10, passando pela classe truncada DAP 75 at classe prxima depois de DAP 75. A movimentao de uma classe para outra, no caso da classe DAP 75, pode ser uma rvore com DAP = 78, em 2000, que passou para a classe seguinte (podendo ser DAP = 80 ou DAP = 81), em 2004 ou tambm uma com DAP = 119, em 2000, que passou para a classe seguinte, em 2004. estado 17 = mortalidade (M)
1. Matriz A (Quadro 1) => transio entre a 1 ocasio (2000) e 2 ocasio (2004) => tabelas dinmicas do Excel (V. Box). Daqui uns 10 anos, bem provvel que algum no veja nenhuma importncia nas instrues contidas no Box por achar completamente obsoleta. Hoje, em 2007, apesar deste recurso ser pouco conhecido pelos florestais, um poderoso e prtico instrumento para organizar os dados. Quando se trabalha com parcelas permanentes, re-medidas em vrias ocasies sucessivas, a tabela dinmica serve tambm para conferir o arquivo de dados. A matriz A simtrica; portanto, h 19 colunas e 19 linhas. 1.1. => total 1 ocasio = (total, freqncia da linha 19 e coluna 19 ou f19,19 =6251) menos recrutas (R, linha 3 e coluna 19 ou f3,19 = 396) = 5623 1.2. => total 2 ocasio = (total, f19,19 = 6251) menos mortas (M, f19,18 = 264) = 5987 2. Matriz B1 e B2 (Quadro 2) => probabilidades de mudanas de um estado (i) para outro (j). A matriz de probabilidade repetida pra facilitar a multiplicao de matrizes no Excel. Portanto B1 = B2. 2.1. Recrutas (R) => das 396 rvores recrutadas em 2004 => 385, 7 e 4, respectivamente, foram recrutadas para a 1 classe (10<15), 2 (15<20) e 3 (20<25). 2.2. Probabilidades de 2.1. => 385/396, 7/396 e 4/396.
2.3. 1 classe (10<15) => das 2167 rvores que estavam na 1 classe na 1 ocasio (2000) => na 2 ocasio (2004), 1869 permaneceram na 1 classe, 205 mudaram para a 2 classe, 2 passaram para a 3 classe e 91 morreram. 2.4. Probabilidades de 2.3. => 1869/2167, 205/2167, 2/2167 e 91/2167. 2.5. 2 classe (15<20) => das 1319 rvores que estavam na 2 classe na 1 ocasio (2000) => na 2 ocasio (2004), 1126 permaneceram na 2 classe, 144 mudaram para a 3 classe, 1 passou para a 4 classe e 48 morreram. 2.6. Probabilidades de 2.5. => 1126/1319, 144/1319, 1/1319 e 48/1319. 3. Matriz de probabilidade 2 passos adiante (at 2004) => matriz de transio probabilstica (Matriz B) elevada ao quadrado que resultar na Matriz C (Quadro 3). Se quiser 3 passos adiante, a matriz de transio probabilstica ser elevada ao cubo. 3.1. Multiplicao de matrizes (B1*B2) => No Excel: - blocar (passando o cursor em toda a sua extenso) um espao igual matriz que ser multiplicada (Matriz B), ou seja, mesmo nmero de linhas e mesmo nmero de colunas; - ir ao menu Inserir, selecionar a opo Funo e escolher Matriz.Mult; - definir matriz 1 (B1), blocando a matriz B; - definir matriz 2 (B2), blocando novamente a matriz B e OK; - truque pra ver o resultado (matriz C) => segurar juntos Ctrl, Shift e Enter mantendo o cursor dentro da barra de funo (fx) que fica acima da planilha. - Obs.: a matriz B no deve estar como frmula e sim como Somente Valores. 4. Projeo para 2008 => Matriz D (Quadro 4) => 4.1. A multiplicao de matrizes (B1 e B2) no inclui a coluna TOTAL, portanto, necessrio copi-la da Matriz A e col-la na Matriz C para facilitar o clculo da freqncia esperada por classe (Matriz D); 4.2. A Matriz D calculada multiplicando a probabilidade de ocorrncia de rvores em uma classe dois passos a diante (Matriz C) pelo nmero total de rvores daquela classe. Ex.: - classe 10<15 => C2*T2 = 0,8395 * 396 = 332,05 C3*T3 = 0,7439 * 2167 = 1612 - classe 15 < 20 => D2*T2 = 0,1071 * 396 = 42,39 D3*T3 = 0,1624 * 2167 = 351,81 D4*T4 = 0,7288 * 1319 = 961,24 e assim por diante para todas as classes. 4.3. O total da freqncia esperada por classe ou estado (que a projeo para 2008) calculado da seguinte forma (dados da Matriz D): - classe 10<15 => C2 + C3 = 332,05 + 1612 = 1944. - classe 15<20 => D2 + D3 + D4 = 42,39 + 351,81 + 961,24 = 1355,5 e assim por diante para todas as classes.
4.4. Classe PRX. => esta classe criada apenas para descrever a dinmica das rvores truncadas ao DAP 75 cm. No quadro com as freqncias esperadas (E) (5b) a freqncia da classe PRX deve ser acrescentada classe DAP 75 cm. Portanto, a freqncia esperada da classe DAP 75 cm deve ser somada da classe PROX: - classe DAP 75 cm => Q19 + R19 = 11,56 + 4,407 = 15,963 (Quadro 5a) 5. Ajustes necessrios => a cadeia de Markov no faz projees do recrutamento. Portanto, h necessidade de fazer ajustes para que a probabilidade de recrutamento das rvores em 2004 possa ser includa na projeo de 2008. Enquanto no tiver uma srie histrica de recrutamento, o nico recurso usar o n de indivduos recrutados de uma ocasio para outra. 5.1. O ajuste feito com os dados do Quadro 5a: (prob do n de arv da 1 classe prob da mortalidade da 1 classe) + (Total de recrutas de 2004 * projeo da 1 classe para 2008). Ex.: - classe 10<15 => (1944 86) + (396 * 0,9722) 2242,3 - classe 15<20 => (1355,5 47) + (396 * 0,0177) 1316 - classe 20<25 => (865,8 33) + (396 * 0,0101) 837 5.2. Para as classes onde no houve recrutamento em 2004, basta diminuir a prob do n de arv da classe sem recrutamento prob da mortalidade dessa mesma classe. Ex.: - classe 25<30 => 543,4 24 519 ... - classe DAP 75 cm => 15,96 - 3 13 6. Se 3 ocasies esto disponveis, o certo usar a mdia [ R = (R1+R2)/2 ], sendo que R1 o n indivduos recrutados entre a 1 e 2 ocasio e R2 o n entre a 2 e 3 ocasio, ou seja, seriam necessrios 3 inventrios. 7. Comparao entre freqncias esperadas (E), para 2008, fornecida pela Cadeia de Markov e as freqncias observadas de fato em 2004 (Quadro 6) => teste qui-quadrado ( 2 ). Neste exemplo, como o 2 tabelado com 13 graus de liberdade e p = 0,05 igual a 22,36, isso significa dizer que h fracas evidncias para afirmar que E seja diferente de O. Usando p = 0,01, o valor de 2 igual a 27,69 e, do ponto de vista de estatstica, pode-se afirmar que o teste no significante. O certo seria usar um intervalo de tempo maior para fazer projees para um perodo imediatamente posterior, para confirmar a eficincia de Markov. O exemplo foi usado para comprovar que Markov eficiente para fazer projees da dinmica de uma floresta manejada. Essa comprovao j tinha sido realizada em florestas no perturbadas (Rocha, 2001).
Bibliografia:
Acevedo, M.F. 1981. On Horns Markovian Model of Forest Dynamics with Particular Reference to Tropical Forests. Theoretical Population Biology 19:230-250.
Alder, D. 1980. Forest Volume Estimation and Yield Prediction. V.2 Yield Prediction. FAO Forestry Paper 22/2. 194 p. Anderson, T.W. e L.A. Goodman. 1957. Statistical Inference about Markov Chains. Annals of Mathematical Statistics 28:89-110. Bierzychudek, P. 1982. The Demography of Jack-in-the-pulpit, a Forest Perennial that Changes Sex. Ecol. Monographs 52(4):333-351. Bruner, H.D. e J.W. Moser Jr.. 1973. A Markov Chain Approach to the Prediction of Diameter Distributions in Uneven-aged Forest Stands. Can.J.For.Res. 3:409-417. Buogiorno, J. e B.C. Michie. 1980. A Matrix Model of Unever-aged Forest Management. Forest Science 26:609-625. Chambers, J.Q., N. Higuchi e J.P. Schimel. 1998. Ancient Trees in Amazonia. Nature, 391:15-16. Chiang, C.L. 1980. An Introduction to Stochastic Processes and their Applications. Robert E. Krieger Publ. Co., Huntington, New York. Clutter, J.L., J.C. Fortson, L.V. Pienaar, G.H. Brister e R.L. Bailey. 1983. Timber Management: A Quantitative Approach. John Wiley and Sons, Inc. New York. 333p. Enright, N. e J. Ogden. 1979. Applications of Transition Matrix Models in Forest Dynamics: Araucaria in Papua New Guinea and Nothofagus in New Zealand. Australian J. of Ecology 4:3-23. Ferguson, I.S. e J.W. Leech. 1978. Generalized Least Squares Estimation of Yield Functions. Forest Science 24:27-42. Grossman, S.I. e J.E. Turner. 1974. Mathematics for the Biological Sciences. Macmillan Publ. Co., Inc. New York. 512p. Higuchi. N. 1987. Short-term Growth of an Undisturbed Tropical Moist Forest in the Brazilian Amazon. Tese de Doutor. MSU. 129p. Horn, H.S. 1975. Markovian Properties of Forest Succession. In: Ecology and Evolution of Communities (M. Cody e J. Diamond, editores), pp.196-211. Harvard University Press. Cambridge, Mass. Morrison, D.F. 1976. Multivariate Statistical Methods. McGraw-Hill Inc.. 415p. Peden, L.M., J.S. Williams e W.E. Frayer. 1973. A Markov Model for Stand Projection. Forest Science 19:303-31. Rocha, R.M. 2001. Taxas de recrutamento e mortalidade da floresta de terra-firme da bacia do rio Cueiras na regio de Manaus-AM. Dissertao de mestrado CFT-INPA. 49p. Shugart, H.H. 1984. A Theory of Forest Dynamics: The Ecological Forest Succession Models. Springer-Verlag Inc. New York. 278p. Shugart, H.H. e D.C. West. 1981. Long-term Dynamics of Forest Ecosystems. Am. Scientist 69:647-652.
Smith, V.G. 1983. Compatible Basal Area Growth and Yield Models Consistent with Forest Growth Theory. Forest Science 29:279-288. Sullivan, A.D. e J.L. Clutter. 1972. A Simultaneous Growth and Yield Model for Loblolly Pine. Forest Science 18:76-86. Usher, M.B. 1966. A Matrix Approach to the Management of Renewable Resources, with Special Reference to Selection Forests. J. of Applied Ecology 3(2):355-367. Usher, M.B. 1969. A Matrix Model for Forest Management. Biometrics, June:309-315. Usher, M.B. 1979. Markovian Approaches to Ecological Succession. J. of Animal Ecology 48:41-426.
Box 1
1. Neste arquivo h as seguintes colunas: nome comum da espcie, DAP90, DAP97 e DAP04 2. Inserir trs novas colunas entre DAP90 e DAP97, entre DAP97 e DAP04 e depois de DAP04 e nomear como CD1, CD2 e CD3, respectivamente. 3. Clicar em DADOS => FILTRAR => AUTO-FILTRO => apenas para a transio entre 1990 e 1997. Para a transio entre 1997e 2004, o procedimento o mesmo. 4. Identificar as recrutas => so clulas que aparecem em branco ou zero na coluna do DAP90 em DAPs registrados na coluna DAP97 => clicar em DAP90 e procurar branco e zero e nomear com R na prpria coluna DAP90 e na coluna CD1 atribuir o cdigo 1 => para todas as rvores nessas condies. 5. Calcular as freqncias das classes 10<15, 15<20 ... at 65 => continuar com o FILTRAR nas colunas DAP90 e DAP97. Comear com 1990 clicando em DAP90 e ir para PERSONALIZAR. Lembrar que a primeira classe (10<15) o segundo estado. Em PERSONALIZAR, a primeira condio maior ou igual a 10 (digitando) e a segunda menor do que 15 (digitando). Depois de OK, digitar em CD1 o nmero da classe (2, neste caso). Repetir isso at a ltima classe ( 65), que ser a classe nmero 1. 6. Identificar as mortas => so clulas que aparecem em branco ou zero na coluna do DAP97 e tinham DAPs na coluna DAP90 => clicar em DAP97 e nomear com M na prpria coluna DAP97 e na coluna CD2 atribuir o cdigo 15 => para todas as rvores nessas condies. 7. Repetir passo 5 para DAP97. Em DAP97 tem que incluir a classe 1 (PRX). Neste caso, o trabalho tem que ser feito manualmente (no olho), ou seja, tem que olhar para as colunas DAP90 e DAP97 e verificar quais rvores que estavam na classe 1 em 1990 e mudaram de classe em 1997. 8. Ir pra DADOS, clicar em FILTRAR e retirar o AUTO-FILTRO. 9. Em DADOS, clicar em RELATRIOS DE TABELA E GRFICOS DINMICOS e seguir as instrues lgicas. 10. Pra ter a tabela dinmica: - arrastar CD1 at a coluna onde est escrito solte campos de linha aqui - arrastar CD2 at a linha onde est escrito solte campos de coluna aqui - arrastar DAP97 em cima de solte itens de dados aqui
Quadro 1: Matriz (A) => transio do estado i para o estado j durante o perodo de 2000 a 2004.
A 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 estados R 10 < 15 15 < 20 20 < 25 25 < 30 30 < 35 35 < 40 40 < 45 45 < 50 50 < 55 55 < 60 60 < 65 65 < 70 70 < 75 >=75 PROX M Total B R 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 C 10 < 15 385 1869 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 2254 D 15 < 20 7 205 1126 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1338 E 20 < 25 4 2 144 711 0 0 0 0 0 0 0 0 0 0 0 0 0 861 F 25 < 30 0 0 1 104 419 0 0 0 0 0 0 0 0 0 0 0 0 524 G 30 < 35 0 0 0 4 59 276 0 0 0 0 0 0 0 0 0 0 0 339 H 35 < 40 0 0 0 0 0 59 195 0 0 0 0 0 0 0 0 0 0 254 I 40 < 45 0 0 0 1 0 0 23 119 0 0 0 0 0 0 0 0 0 143 J 45 < 50 0 0 0 0 0 0 0 27 72 0 0 0 0 0 0 0 0 99 L 50 < 55 0 0 0 0 0 0 0 1 14 36 0 0 0 0 0 0 0 51 M 55 < 60 0 0 0 0 0 0 0 0 0 7 28 0 0 0 0 0 0 35 N 60 < 65 0 0 0 0 0 0 0 0 0 0 6 19 0 0 0 0 0 25 O 65 < 70 0 0 0 0 0 0 0 0 0 0 1 8 12 0 0 0 0 21 P 70 < 75 0 0 0 0 0 0 0 0 0 0 0 0 4 15 0 0 0 19 Q >=75 0 0 0 0 0 0 0 0 0 0 0 0 0 2 15 0 0 17 R PROX 0 0 0 0 0 0 0 0 0 0 0 0 0 0 7 0 0 7 S M 0 91 48 33 24 26 10 8 7 3 6 1 1 1 5 0 0 264 T Total 396 2167 1319 853 502 361 228 155 93 46 41 28 17 18 27 0 0 6251
Quadro 2: Matriz B (B1 e B2) transio probabilstica do estado i para o estado j durante o perodo de 2000 a 2004.
A 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 estados R 10 < 15 15 < 20 20 < 25 25 < 30 30 < 35 35 < 40 40 < 45 45 < 50 50 < 55 55 < 60 60 < 65 65 < 70 70 < 75 >=75 PROX M Total B R 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 C 10 < 15 0,9722 0,8625 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 D 15 < 20 0,0177 0,0946 0,8537 0 0 0 0 0 0 0 0 0 0 0 0 0 0 E 20 < 25 0,0101 0,0009 0,1092 0,8335 0 0 0 0 0 0 0 0 0 0 0 0 0 F 25 < 30 0 0 0,0008 0,1219 0,8347 0 0 0 0 0 0 0 0 0 0 0 0 G 30 < 35 0 0 0 0,0047 0,1175 0,7645 0 0 0 0 0 0 0 0 0 0 0 H 35 < 40 0 0 0 0 0 0,1634 0,8553 0 0 0 0 0 0 0 0 0 0 I 40 < 45 0 0 0 0,0012 0 0 0,1009 0,7677 0 0 0 0 0 0 0 0 0 J 45 < 50 0 0 0 0 0 0 0 0,1742 0,7742 0 0 0 0 0 0 0 0 L 50 < 55 0 0 0 0 0 0 0 0,0065 0,1505 0,7826 0 0 0 0 0 0 0 M 55 < 60 0 0 0 0 0 0 0 0 0 0,1522 0,6829 0 0 0 0 0 0 N 60 < 65 0 0 0 0 0 0 0 0 0 0 0,1463 0,6786 0 0 0 0 0 O 65 < 70 0 0 0 0 0 0 0 0 0 0 0,0244 0,2857 0,7059 0 0 0 0 P 70 < 75 0 0 0 0 0 0 0 0 0 0 0 0 0,2353 0,8333 0 0 0 Q >=75 0 0 0 0 0 0 0 0 0 0 0 0 0 0,11 0,56 0 0 R PROX 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0,259 0 0 S M 0 0 0 0 0 0,1 0 0,1 0,1 0,1 0,1 0 0,1 0,1 0,2 0 0 T Total
Quadro 3: Matriz C ou [B]2 - Matriz de transio probabilstica dois passos adiante (at 2008)
A 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 estados R 10<15 15<20 20<25 25<30 30<35 35<40 40<45 45<50 50<55 55<60 60<65 65<70 70<75 >=75 PROX M Total B R 0,0000 0,0000 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 C 10<15 0,8385 0,7439 0,0000 0 0 0 0 0 0 0 0 0 0 0 0 0 0 D 15<20 0,1071 0,1624 0,7288 0,0000 0 0 0 0 0 0 0 0 0 0 0 0 0 E 20<25 0,0112 0,0119 0,1842 0,6948 0,0000 0 0 0 0 0 0 0 0 0 0 0 0 F 25<30 0,0012 0,0002 0,0146 0,2034 0,6967 0,0000 0 0 0 0 0 0 0 0 0 0 0 G 30<35 5E-05 4E-06 0,0006 0,0218 0,188 0,5845 0,0000 0 0 0 0 0 0 0 0 0 0 H 35<40 0 0 0 0,0008 0,0192 0,2647 0,7315 0,0000 0 0 0 0 0 0 0 0 0 I 40<45 1E-05 1E-06 0,0001 0,0019 0 0,0165 0,1637 0,5894 0,0000 0 0 0 0 0 0 0 0 J 45<50 0 0 0 0,0002 0 0 0,0176 0,2686 0,5994 0,0000 0 0 0 0 0 0 0 L 50<55 0 0 0 8E-06 0 0 0,0007 0,0362 0,2344 0,6125 0,0000 0 0 0 0 0 0 M 55<60 0 0 0 0 0 0 0 0,001 0,0229 0,223 0,4664 0,0000 0 0 0 0 0 N 60<65 0 0 0 0 0 0 0 0 0 0,0223 0,1992 0,4605 0,0000 0 0 0 0 O 65<70 0 0 0 0 0 0 0 0 0 0,0037 0,0757 0,3956 0,4983 0,0000 0 0 0 P 70<75 0 0 0 0 0 0 0 0 0 0 0,0057 0,0672 0,3622 0,6944 0,0000 0 0 Q >=75 0 0 0 0 0 0 0 0 0 0 0 0 0,026 0,154 0,3086 0 0 R PROX 0 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0288 0,1440 0 0 S M 0,042 0,04 0,035 0,038 0,048 0,062 0,043 0,053 0,068 0,073 0,107 0,041 0,055 0,067 0,103 0 0 T Total 396 2167 1319 853 502 361 228 155 93 46 41 28 17 18 27 0 0
Quadro 5b: Freqncias esperadas (E) para 2008 incluindo ajustes feitos para o recrutamento (R)
Estado CD 10 < 15 15 < 20 20 < 25 25 < 30 30 < 35 35 < 40 40 < 45 45 < 50 50 < 55 55 < 60 60 < 65 65 < 70 70 < 75 >=75 Prxima Total 2000 2167 1319 853 502 361 228 155 93 46 41 28 17 18 27 5855 rvores 2004 (O) 2254 1338 861 524 339 254 143 99 51 35 25 21 19 17 7 5987 2008 (E) 2243,0 1315,9 837,0 519,1 302,3 262,9 128,2 95,2 52,4 27,3 20,9 21,9 19,6 13,2 5857,6 Mortalidade 2004 2008 (O) (E) 91 86,02 48 46,60 33 32,82 24 24,28 26 22,47 10 9,74 8 8,24 7 6,33 3 3,37 6 4,37 1 1,15 1 0,93 1 1,20 5 2,78 264 250
estado 10 < 15 15 < 20 20 < 25 25 < 30 30 < 35 35 < 40 40 < 45 45 < 50 50 < 55 55 < 60 60 < 65 65 < 70 70 < 75 >=75 Total
P P
2 0,05 0,37 0,69 0,05 4,45 0,30 1,71 0,15 0,04 2,18 0,79 0,04 0,02 2,08 20,13
P P