ESTÀTISTICA. (Biometria Florestal)

INSTITUTO NACIONAL DE PESQUISAS DA AMAZNIA
COORDENAO DE PESQUISAS EM SILVICULTURA TROPICAL
LABORATRIO DE MANEJO FLORESTAL - LMF
BIOMETRIA FLORESTAL
Niro Higuchi Joaquim dos Santos Adriano Jos Nogueira Lima
Manaus AM
Maro, 2008
PARTE 1
Captulo 1 Introduo - Conceitos gerais

A estatstica uma ferramenta importante para o manejo florestal, seja pra quem est interessado em trabalhar em pesquisas ou pra quem tem a responsabilidade de planejar, executar e acompanhar um projeto. Difcil separar a estatstica pra essas duas frentes. O objetivo desta Parte da apostila aprofundar em conceitos dos indicadores estatsticos mais freqentemente utilizados pelos florestais e ajudar na interpretao dos resultados. Estatstica um ramo do conhecimento cientfico que consta de conjunto de processos que tm por objeto a observao, a classificao formal e a anlise dos fenmenos coletivos ou de massa (finalidade descritiva) e, por fim, investigar a possibilidade de fazer inferncias indutivas vlidas a partir dos dados observados e buscar mtodos capazes de permitir esta inferncia (finalidade indutiva). Durante uma defesa de tese no CENA-USP, surgiu um novo conceito para estatstica que, segundo Edgard, "a arte de torturar os nmeros at que eles confessem aquilo que voc quer ouvir." Em inventrio florestal, produto sem estatstica no produto. Em inventrios, o principal produto o intervalo de confiana para a mdia estimada. Na pesquisa cientfica, a estatstica pode ser vista como um instrumento de comunicao e, embora o seu uso seja absolutamente opcional, ela fornece os modelos que so necessrios para estudar as situaes que envolvem incertezas, mas a palavra final sua. O exerccio, a anlise e a interpretao do pensamento cientfico normalmente so feitos por meio da linguagem operacional dos conceitos e hipteses cientficas. Isso implica na formulao de hipteses estatsticas e estabelecimento dos procedimentos de observaes diretas ou de medies. Linguagem terica: quanto mais grossa a rvore, mais madeira ser oferecida indstria de transformao. Neste caso, dois conceitos so envolvidos: espessura e madeira. Com definir esses dois conceitos? Espessura pode ser o dimetro de uma rvore. Madeira pode ser a quantidade de material lenhoso disponvel para a indstria. E da? Que fazemos agora? Temos que operacionalizar as observaes e medies de espessura e madeira. Espessura pode ser traduzida operacionalmente, por exemplo, em centmetros de dimetro altura do peito (DAP), medido a 1,3 m do solo. E a madeira, por sua vez, pode ser traduzida como volume cbico da rvore. Agora, a hiptese cientfica pode ser enunciada, em termos de hiptese estatstica, da seguinte maneira: Quanto maior o DAP, maior ser o volume da rvore. Dessa forma, o pica-pau fica mais vontade. Depois de formulada a hiptese, o passo seguinte consiste em test-la. Para se testar as hipteses sero precisos: planejar a coleta de dados, coletar os dados, tratar os dados, processar os dados, analisar os resultados e, finalmente, tomar decises para rejeitar ou no a hiptese estatstica formulada (Ver figura 1.1). O papel da estatstica na pesquisa cientfica ajudar o pesquisador pica-pau a formular as hipteses e a fixar as regras de deciso.
Um pouco de filosofia.
- Aristteles escreveu: A verdade um alvo to grande que dificilmente algum deixar de toc-lo, mas, ao mesmo tempo, ningum ser capaz de acert-lo em cheio, num s tiro. - A meta da cincia a organizao sistemtica do conhecimento sobre o universo, baseado nos princpios explanatrios que so genuinamente testveis. - O pesquisador tem os dons da instituio e criatividade para saber que o problema importante e quais questes devem ser levantadas; a estatstica, por sua vez, o assistir por meio da maximizao de output no ambguos enquanto minimiza os inputs. - O pesquisador tem que ter em mente que a pesquisa freqentemente levanta mais questes do que respostas. Os resultados quase sempre so meramente uma demonstrao de nossa ignorncia e uma declarao mais clara do que no sabemos. - O pesquisador tem que manter os olhos abertos, sua mente flexvel e estar preparado para surpresas. - A pesquisa est na cabea do pesquisador; o laboratrio ou o campo meramente confirma ou rejeita o que a sua mente concebeu. A sabedoria consiste em conhecer mais as questes certas para fazer e no nas certas respostas. - A aplicao indiscriminada dos mtodos quantitativos sobre inesgotveis quantidades de dados no significa que o entendimento cientfico vai emergir s por causa disso.
1.1. A Natureza da Estatstica:

Basicamente, so dois tipos de estatstica: descritiva e de inferncia. A cincia da estatstica inclui ambas, descritiva e de inferncia. A estatstica descritiva apareceu primeiro, nos censos feitos na poca do imprio romano. A de Inferncia mais recente e baseada na teoria da probabilidade que, por sua vez, no se estabeleceu antes da metade do sculo XVII. a) Estatstica descritiva => consiste de mtodos para organizar e sumarizar as informaes. O propsito da organizao e sumarizao te ajudar na interpretao de um monte de informaes. Os mtodos descritivos incluem a construo de grficos, figuras e tabelas, como tambm, o clculo de vrios tipos de mdias e ndices. Exemplos: resultado final de uma eleio apresentado pelo Tribunal Superior Eleitoral (TSE) Quadro 1.1, desmatamento na Amaznia Figura 1.2., reas desmatadas com autorizao e sem autorizao Figura 1.3 e as origens da madeira amaznica Figura 1.4. b) Estatstica de inferncia => consiste de mtodos para inferir sobre uma populao baseada na informao de uma amostra da populao. A estatstica de inferncia moderna praticamente surgiu aps as publicaes cientficas de Karl Pearson e Ronald Fisher, no incio do sculo passado (XX). Depois disso, houve uma evoluo fantstica dessa cincia, tornando-se aplicvel a vrias reas de conhecimento, tais como: Eng. Florestal, Agronomia, Biologia, Histria, Fsica, Qumica, Psicologia etc. Exemplo 1: Pesquisas de opinio realizadas pelas empresas (DATAFOLHA, IBOPE, VOX POPULI etc), pouco antes de eleies. A Figura 1.5 mostra a dinmica de opinio de eleitores brasileiros na eleio para presidente de 2002 com base em pesquisas de opinio realizadas pelo IBOPE. O resultado do 1 turno apresentado na ltima coluna como TSE,
tirado do Quadro 1.1. Os resultados do IBOPE, do ltimo dia de pesquisa (com margem de erro igual a 1,8%), so praticamente iguais aos oficiais do TSE. A informao do TSE sobre votos vlidos enquanto que os da pesquisa de opinio so de inteno de votos. Na pesquisa de opinio do 1 turno difcil identificar o voto nulo. Exemplo 2: Pesquisas de opinio sobre o 2 turno da eleio presidencial 2002, realizadas pelo Datafolha. Neste caso, foi possvel estimar os percentuais sobre os votos vlidos. No ltimo dia da pesquisa (26/10/02), o Datafolha estimou 64% dos votos vlidos para o Lula e 36% para o Serra. A Figura 1.6 mostra a dinmica de opinio de eleitores para o2 turno da eleio de 2002. O resultado do TSE (oficial) foi de 61,2% para o Lula e 38,7% para o Serra Quadro 1.1. Considerando a margem de erro de 2% (para mais e para menos), as estimativas do ltimo dia seriam 62% (para menos) para o Lula e 38% (para mais) para o Serra. Esta parte da estatstica de inferncia evoluiu muito no Brasil. A prova disso so os resultados finais do primeiro e do segundo turno da eleio presidencial de 2002 que tem muito a ver com as previses feitas pelas pesquisas de opinio dos vrios institutos. O sucesso tem que ser creditado principalmente pela escolha correta do tipo de amostragem, coleta de dados e processamento & anlise dos resultados A evoluo da informtica tambm contribuiu muito para o sucesso das pesquisas; o rpido processamento e, conseqente, anlise dos resultados, permitiu a repetio em intervalos de tempo menores isso fundamental para a validao dos mtodos utilizados que, por sua vez, d a robustez necessria para a pesquisa e a sociedade ganha com a maior preciso e confiabilidade das pesquisas de opinio. Exemplo 3: Previso da rea desmatada para 2006 (agosto 2005 a julho 2006) com base no intervalo de confiana (95%) da srie histrica de 1978 a 2005 Figura 1.7. Apesar da confuso das estatsticas e de sua interpretao, com boa vontade e profissionalismo, as causas do desmatamento poderiam ser identificadas. O desafio entender a direo que o desmatamento pode tomar no futuro. Sem entender as causas, a direo s pode ser estocstica. A Figura 1.7 ilustra o uso do intervalo de confiana IC (nvel de probabilidade de 95%) para a mdia do perodo 1978-2005. De acordo com dinmica do desmatamento at 2005, as chances do desmatamento durante 2005-2006 (agosto 2005 a julho 2006) so: 29% de ficar acima da estimativa mxima provvel (maior do que 20.983 km2), 29% abaixo da estimativa mnima provvel (menor do que 16.296 km2) e 42 % de ficar dentro do intervalo de confiana (entre 16.296 a 20.983 km2) com 95% de chance de acertar. Exemplo 4: Todos os trabalhos de equaes de volume que utilizam os modelos destrutivos (na maioria das vezes) para ajustar os dados de volume real observado em modelos matemticos que sero utilizados, posteriormente, para estimar o volume da rvore em p. Para concluir a discusso, em torno da natureza da estatstica, importante no perder de vista que a opo por uma das duas estatsticas pode ser pessoal. Entretanto, se a escolha recair sobre a de inferncia, o pesquisador deve se sujeitar as suas regras e condicionantes. A estatstica de inferncia, por sua vez, deve ficar sob as condicionantes da teoria da probabilidade, da normalidade e da independncia; a violao de uma dessas condicionantes implica em um comprometimento muito srio de todo o seu trabalho.
1.2. Conceitos Bsicos:

Talvez, os conceitos mais importantes para os florestais so erros amostrais e no amostrais. Se voc conseguir distinguir esses dois conceitos, voc sempre far um trabalho confivel e, por conseguinte, a estatstica ser uma ferramenta til na execuo de seus
trabalhos de pesquisa, encurtando caminhos para a produo de cincia e de resultados de inventrio florestal. (i) Erro Amostral => o erro que voc comete por no medir toda a populao. Este parmetro mensurvel e, dependendo da escolha dos mtodos, voc tem condies de aumentar ou diminuir este erro. De qualquer modo, trata-se de um parmetro que pode ser controlado e avaliado por voc. o desvio padro da mdia ou, simplesmente, erro padro e tem frmula para o seu clculo. a nica medida de preciso, por mais paradoxal que possa parecer, em qualquer trabalho de pesquisa ou de inventrio florestal. (ii) Erro no-amostral => o erro humano, que pode ser cometido acidental ou deliberadamente. o tipo de erro que voc comete ao alocar uma amostra no lugar errado ex.: no escritrio voc faz a opo pela amostragem inteiramente aleatria e sorteia as unidades amostrais e distribui em sua rea estudo; no campo, entretanto, voc no consegue aloc-las de acordo com as coordenadas pr-estabelecidas e aloc-as em outro lugar. Voc tambm comete erro no-amostral quando utiliza um equipamento defeituoso ou, por preguia, voc chuta as medidas de uma determinada varivel. O problema desse erro que voc no consegue dimension-lo e, neste caso, no h estatstica que d jeito para consertar o mal-feito. A estatstica e o computador s so teis na interpretao de fenmenos observados quando os dados so de absoluta confiana e sem erros no-amostrais. Moral: Busque sempre a melhor metodologia para conseguir a maior preciso de seu trabalho sem, contudo, aumentar a possibilidade de cometer erros no-amostrais. BOM PESQUISADOR aquele que no entrega sua coleta de dados para qualquer PEO. (iii) Populaes, Parmetros e Estimativas A noo central em qualquer problema de amostragem a existncia de uma populao. Pense em uma populao como um agregado de valores unitrios, onde a unidade a coisa sobre a qual a observao feita e o valor a propriedade observada sobre aquela coisa. Populao ento o conjunto de todos os indivduos ou itens sob considerao. Ou ainda: populao o universo de seu interesse. Ilustrando: - se voc est interessado em estudar o potencial quantitativo da floresta da Reserva Ducke, a POPULAO o conjunto de todas as rvores acima de um determinado DAP, existentes naquela rea de 10.000 hectares. - se para voc potencial quantitativo significa volume cbico obtido de equaes simples (DAP como varivel independente), o volume mdio (por hectare, por ex.) de todas as rvores da Reserva Ducke o PARMETRO. - se voc, no entanto, decidir pela avaliao por amostragem e lanar naquela rea algumas amostras (ex.: 10 amostras de 1000 m2, aleatoriamente distribudas), o volume mdio dessas amostras a ESTIMATIVA. AMOSTRA aquela parte da populao da qual a informao coletada. (iv) Tendncia (bias), Exatido e Preciso TENDNCIA ou VIS (bias, em ingls) uma distoro sistemtica. Ela pode ser devido a alguma falha na medio, ou no mtodo de selecionar a amostra, ou na tcnica de estimar o parmetro. Se voc medir o DAP com uma fita diamtrica faltando um pedao na ponta (2 cm), voc medir todas as rvores com 2 cm a mais, ou seja, voc superestimar esta varivel. Uma maneira prtica de minimizar as tendncias em medies por meio de checagens peridicas
dos instrumentos, treinamento adequado para o pessoal que usa os instrumentos e cuidado com eles. Tendncia devido o mtodo de amostragem ocorre quando certas unidades ganham maior ou menor representao na amostra do que na populao. Ex.: se voc excluir 20 metros de bordadura do lado oeste da Reserva Ducke por causa de um igarap. Neste caso, voc est introduzindo tendncia em sua avaliao simplesmente porque voc no deu a mesma oportunidade, para as rvores que ocorrem naquela faixa, em aparecer no seu trabalho. Outro exemplo: quando a equipe econmica faz uma pesquisa nos supermercados do centrosul e extrapola o custo de vida para todo o Brasil; isso uma medida tendenciosa que no reflete o que se passa em Manaus. Tendncia na forma de estimar determinado parmetro pode ser introduzida quando voc, por exemplo, toma o volume mdio da Reserva Ducke e junta com o volume mdio do Distrito Agropecurio da SUFRAMA (600.000 hectares), para avaliar o potencial madeireiro da regio de Manaus. Um volume mdio no tendencioso seria uma mdia ponderada considerando os diferentes tamanhos de cada rea, em vez de usar a mdia aritmtica simples (tendenciosa, neste caso). Importante: A tendncia a me do erro no-amostral, por esta razo, evit-la sinal de prudncia e sensatez. PRECISO E EXATIDO uma estimativa tendenciosa pode ser PRECISA, mas nunca EXATA. Ainda que o Aurlio (dicionrio) pense diferente, para os estatsticos, EXATIDO refere-se ao sucesso em estimar o valor verdadeiro de uma quantidade; PRECISO refere-se distribuio dos valores amostrais em torno de sua prpria mdia que, se for tendenciosa, no pode ser o valor verdadeiro Ver figura 1.8. Exatido ou estreiteza ao valor verdadeiro pode estar ausente por causa da tendncia, falta de preciso ou por causa de ambas.
PENSAMENTO
OPERACIONALIZAR
HIPOTETIZAR
planejar
coletar coletar
tratar
processar
analisar
rejeita rejeita ?
no, concluir!
sim, concluir!
Figura 1.1: Pesquisa cientfica do pensamento inferncia.
Quadro 1.1: Resultados das eleies para presidente de 2002. RESULTADOS DAS ELEIES DE 2002 Total de eleitores = 115.254.113 Resultado do 1 turno: n de votantes = 94.804.126 ordem 1 2 3 4 5 6 Nmero 13 45 40 23 16 29 Candidato Lula Jos Serra Garotinho Ciro Gomes Z Maria Rui Pimenta total votos 39.454.692 19.705.061 15.179.879 10.170.666 402.232 38.619 % vlidos 46,44 23,20 17,87 11,97 0,47 0,05
Resultado do 2 turno: n de votantes = 91.664.259 ordem 1 2 Nmero 13 45 Candidato Lula Jos Serra total votos 52.793.364 33.370.739 % vlidos 61,27 38,73
fonte: www.tse.gov.br => consultas: 1 turno em 21/10/02 e 2 turno em 29/10/02
04/05 03/04 02/03 01/02 00/01
18.900 27.200 24597 23.266 18.165 18.226 17.269 17.383 13.227 18.161 29.059 14.896 13.786 11.030 13.730 17.770 21.050
ano ou perodo
99/00 98/99 97/98 96/97 95/96 94/95 92/94 91/92 90/91 89/90 87-89 78/87
rea desmatada em km2

fonte: www.inpe.br Figura 1.2: Desmatamento anual (km2) na Amaznia.
3.000 rea desmatada (km2) 2.500 2.000 1.500 1.000 500 0 1997 1998 1999 2000 2001 2002 2003 2004 ano A D A:D (%)
45 40 35 30 25 20 15 10 5 0
Fonte: www.ibama.gov.br sisprof. A = rea desmatada com autorizao; D = rea desmatada total e A:D relao entre autorizado e no autorizado. Figura 1.3: Relao entre reas (em km2) desmatadas com autorizao e sem autorizao na Amaznia.
sem origem 63%
d autorizado 20% PMFS 17%
Fonte: www.ibama.gov.br sisprof Figura 1.4: Origem da madeira da Amaznia planos de manejo florestal sustentvel (PMFS), desmatamento autorizado e sem origem definida.
relao A:D (%)
50 45 inteno de voto (%) 40 35 30 25 20 15 10 5 0 6 a 9/9

39 41 39 41 43
45
46
23,2 19 12 15 12 19 13 19 14 14 18 15 19 16 20 15 17,9
12
11
12 9
14 a 16/9 17 a 19/9 21 a 24/9 28 a 30/9 4 e 5/10 perodo da pesquisa Lula Serra Garotinho Ciro
TSE
Figura 1.5: Pesquisas de opinio realizadas pelo IBOPE para o 1 turno da eleio presidencial de 2002.
70 60 58 61 59 58
inteno de votos (%)
50 40 30 20 10 0 11 out 6 4 4 3 18/out 6 4 23/out 7 3 26/out
32
32
31
32
data
Lula Serra indecisos nulos/brancos
Figura 1.6: Pesquisas de opinio realizadas pelo Datafolha para o 2 turno da eleio presidencial de 2002.
rea
30.000 28.000 26.000
mdia
mnima
mxima
IC(95%) = 18.689 2.372
rea desmatada (km2)
24.000 22.000 20.000 18.000 16.000 14.000
21.060 18.689 16.317

Acima = 29% 2005/06? Dentro = 42% Abaixo = 29%
87-89 78/87 89/90 90/91 91/92 92/94 94/95 95/96 96/97 97/98 98/99 99/00 00/01 01/02 02/03 03/04 04/05 05/06
12.000 10.000
ano ou perodo
Figura 1.7: Previso da rea desmatada para 2006 (agosto 2005 a julho 2006) com base no intervalo de confiana (95%) da srie histrica de 1978 a 2005.
impreciso
preciso
preciso
exato
Figura 1.8: Diferena entre preciso e exatido.
Captulo 2 Organizao dos dados

2.1. Dados:
A informao coletada e analisada pelo estatstico chamada de DADOS. H vrios tipos de dados e a escolha da metodologia, pelo estatstico , parcialmente, determinada pelo tipo de dados que ele tem em mos. Exemplo 1: No exame de seleo para turma 90/91 do Manejo Florestal, tivemos 15 candidatos, 13 homens e 2 mulheres. Do total, apenas 7 fizeram o exame. Foram aprovados 6 candidatos, 5 homens e 1 mulher. Joo da Silva tirou o primeiro lugar com nota 6,7 e Joaquim Moreira tirou o ltimo lugar com a nota 5,0. No exemplo acima, ns podemos destacar os seguintes tipos de dados: QUALITATIVO o tipo mais simples de dados, a informao que coloca cada candidato em uma das duas categorias homem ou mulher ou tipo florestal I ou tipo II ou estocada ou no estocada etc. Esses dados do informaes sobre um indivduo ou um item. ORDINAL A informao sobre classificao, dados que colocam os indivduos ou objetos em ordem, rankeados. No exemplo, as classificaes de Joo e Joaquim so dados ordinais. MTRICO O termo mtrico se refere aos dados mensurveis e no deve ser confundido com os dados em unidades mtricas. No exemplo, as notas dos candidatos (6,7 e 5,0 e outras notas) so dados mtricos. Resumindo: Dados qualitativos: dados que se referem qualidade no numricas ou atributos, tais como: tipo florestal, gnero ou espcie florestal, cor de alguma coisa etc. Dados ordinais: dados sobre classificao, ordem ou rank, tais como: classificao de toras, ordem de chegada etc. Dados mtricos: dados obtidos de medies de certas quantidades como: tempo, altura, DAP, volume, peso etc. Um outro importante tipo de dados o chamado DADOS CONTVEIS. A contagem do numero de indivduos ou itens que caem em vrias categorias, tais como homem e mulher fornece os dados contveis. Por exemplo, a informao dada no exemplo anterior que foram aprovados 5 homens e 1 mulher, so dados contveis. DADOS CONTVEIS so dados sobre o nmero de indivduos ou itens que caem em certas categorias ou classes, que podem ser obtidos de quaisquer tipos de dados (qualitativo, ordinal ou mtrico). Os dados QUALITATIVO e ORDINAL so referidos pelos estatsticos como dados DISCRETOS porque eles classificam coisas em classes separadas e discretas. Na classificao dos candidatos ao mestrado no h como colocar ningum entre o primeiro lugar e o segundo. Tambm no h como classificar ningum entre homem e mulher. So exemplos tpicos de dados discretos, porque no h como dizer que algum ficou em primeiro lugar e meio ou o que fulano homem e meio. No caso de ordem de chegada ou rank h possibilidade de empate, mas isso outra coisa e ser discutido na estatstica noparamtrica.
Por outro lado, a maioria dos dados mtricos considerada DADOS CONTNUOS porque eles envolvem medies sobre uma escala contnua. A escala fica por conta da preciso do aparelho de medio: na suta ou na fita diamtrica, o mximo que podemos chegar dcimo de centmetros, ou seja, entre os DAPs 20 e 21 cm ns podemos ter DAPs com 20.1, 20.2, ... , 20.9; nos cronmetros da Frmula 1, no entanto, o nvel de preciso impensvel para os nossos relgios de pulso.
2.2. Dados grupados:

A quantidade de dados que pode ser coletada do mundo-real simplesmente fantstica. Exemplo 1: O censo brasileiro. Voc j imaginou a trabalheira que d para cadastrar aproximadamente 180 milhes de pessoas, anotando o nome, sexo, idade, ocupao, escolaridade etc. Apenas para ilustrar, se voc usar qualquer software (Excel ou Word) para listar toda essa gente, voc gastar mais de 600 quilmetros de papel apenas para imprimir as informaes bsicas, Manaus-Itacoatiara-Manaus. Com todo esse papel, dificilmente voc teria uma boa fotografia da populao brasileira. Ento, o que fazem os especialistas do IBGE? Eles nos proporcionam variadas informaes: quantidades de homens e de mulheres (X1); X1 por classe idade (X2); X2 por estado e por regio; X1 por nvel de escolaridade; populao ativa etc. Isso um exemplo tpico da aplicao da estatstica DESCRITIVA, por meio da organizao e simplificao dos dados. Exemplo 2: Dados sobre DAP das rvores da parcela-testemunha do bloco 2 (apenas as 40 primeiras rvores). Os pica-paus normalmente pensam no DAP em classes de 10, 20, 30, 40 cm etc. Para ver quantos DAPs h em cada classe voc faz o seguinte: Quadro 2.1. Dados de DAPs de 40 rvores. rv. n 1 2 3 4 5 6 7 8 9 10 DAP 25.0 27.0 45.0 36.0 39.0 36.0 33.0 47.0 34.0 53.0 rv. n 11 12 13 14 15 16 17 18 19 20 DAP 33.0 38.5 31.8 52.0 37.0 27.7 35.0 33.0 47.0 33.0 rv. N 21 22 23 24 25 26 27 28 29 30 DAP 32.0 63.0 34.0 30.0 29.0 32.0 27.0 28.0 27.0 40.0 rv. n 31 32 33 34 35 36 37 38 39 40 DAP 37.0 41.0 40.0 32.0 58.0 28.0 77.0 58.0 43.0 30.0
Quadro 2.2. Clculo de freqncia de cada classe de dimetro. classes de DAP 20 < 30 30 < 40 40 < 50 50 < 60 60 < 70 70 < 80 total Contagem IIIII III IIIII IIIII IIIII IIII IIIII II IIII I I n de rvores (f) 8 19 7 4 1 1 40
O nmero de indivduos (rvores) em cada categoria ou de DAP chamada de FREQUNCIA daquela classe. O quadro 2.2 uma tabela de distribuio de freqncia. No confundir distribuio de freqncia em estatstica com o termo freqncia da Ecologia Vegetal. Nem sempre voc trabalha com quantidade to pequena de indivduos (n = 40, neste caso). Com n maiores mais seguro montar a distribuio de freqncia utilizando a tabela dinmica do Excel aplicao no Captulo 17 (Cadeia de Markov). Algumas dicas para estabelecer distribuies de freqncia: - o nmero de classes no deve ser nem muito pequeno e nem muito grande, ao contrrio, no meio. Sugere-se um nmero entre 5 e 12 regra do olhmetro. Outra forma atravs da seguinte frmula: n classes 1 + 3,33 log N (N = nmero de dados) - cada classe tem que ter a mesma dimenso. Do quadro 2.2, as dimenses so: 20 a 29.9, 30 a 39.9 etc. - cada pedao de dados tem que pertencer a apenas a uma nica classe. Essa lista poderia continuar, mas isso seria artificial. O propsito de grupar dados distribu-los em um nmero razovel de classes de igual tamanho para facilitar a interpretao dos mesmos. Se possvel, os intervalos que tem uma interpretao natural, devem ser utilizados, como por exemplo: dados em DAP que so normalmente divididos em mltiplos de 10.
20 18 freqncia absoluta 16 14 12 10 8 6 4 2 0 Freq
Figura 2.1: Histograma de freqncia para os mesmos dados do quadro 2.1.
A freqncia pode ser tambm apresentada em porcentagem ou decimal, conhecida como FREQUNCIA RELATIVA. No quadro 2.3 para obter a freqncia relativa de cada classe, bastou dividir a freqncia de cada classe por 40 (nmero total de indivduos contados). Se multiplicarmos essas fraes por 100, teremos a freqncia em %, caso contrrio, em decimais. Quadro 2.3. - Distribuio de Freqncia relativa do quadro 2.1. classes DAP 20 < 30 30 < 40 40 < 50 50 < 60 60 < 70 70 < 80 pt mdio 25 35 45 55 65 75 Freq 8 19 7 4 1 1 freq rel 0,200 0,475 0,175 0,100 0,025 0,025 freq acum 8 27 34 38 39 40
Algumas terminologias: Classe uma categoria para o grupamento de dados. Freqncia o nmero de indivduos ou objetos numa classe. Por exemplo, a freqncia da classe 30-39.9 19. Freqncia relativa a porcentagem, expressa como um decimal, do nmero total de indivduos de uma determinada classe. A freqncia relativa da classe 50-59.9 0.1 ou 10%. Freqncia acumulada a soma das freqncias dos valores inferiores ou iguais a valor dado. Distribuio de Freqncia a listagem das classes com suas freqncias. Limite inferior da classe o menor valor que pode ir dentro de uma classe. Na classe 20-29.9 o limite inferior 20. Limite superior da classe o maior valor que pode ir dentro de uma classe. Na classe 20-29.9 o limite superior 29.9. Se a preciso fosse de duas casas decimais, o limite superior poderia ser 29.99 e assim por diante. Intervalo de classe a diferena entre o limite superior e o limite inferior de uma dada classe. No nosso exemplo, o intervalo 10, ou seja, 30 20 =10. Ponto mdio da classe a mdia aritmtica entre o limite superior e limite inferior da classe. Assim, se a classe for: (20+30)/2 = 25. Da classe 30-40 o ponto mdio 35 e assim por diante.
2.3. Grficos e figuras:

Uma outra maneira de dar sentido a um conjunto de dados por meio da representao grfica dos mesmos. O grfico mais simples dos dados o HISTOGRAMA DE FREQUNCIA. A altura de cada barra igual a freqncia que ela representa. Tem tambm o HISTOGRAMA DE FREQUNCIA RELATIVA. H muitas outras formas de representao grfica de seus dados. Hoje em dia, uma forma muito usada a PIE (torta). De qualquer modo, fique a vontade e use de sua imaginao para dar a representao mais conveniente dos seus dados.
Captulo 3 Medidas descritivas

H muitos critrios, por sinal, bem avanados, para a descrio sucinta dos fenmenos naturais. Apesar disso, a maioria das caractersticas usadas na estatstica, para descrever as variveis aleatrias, em populaes particulares, caem em uma das trs categorias: (1) medidas da tendncia central (alocao de um valor ordinrio); (2) medidas de disperso (distncia relativa de valores extremos de um valor central); (3) medidas de relacionamento entre as variveis (grau de similaridade ou dissimilaridade em magnitude). Em geral, o volume de dados de uma pesquisa muito grande. Os mtodos de grficos e grupamento de dados so teis no manuseio de um grande conjunto de dados. Uma outra forma de sumarizar os dados por meio da computao de um nmero, tal como a mdia, a qual substitui um grande volume de dados por um simples nmero.
3.1 Medidas de tendncia central:

As medidas de alocao mais comumente utilizadas so mdia aritmtica e a mediana. Menos freqentemente usadas so: moda, percentil, mdia geomtrica e mdia harmnica. A mdia comum ou mdia aritmtica ou simplesmente mdia, a mais freqentemente usada de todas as medidas estatsticas. Mdia simplesmente a soma de todas observaes (DAP, altura, idade) dividida pelo nmero total de observaes. a medida que tem a menor variabilidade de amostra para amostra, fcil de ser manuseada matematicamente e tem as propriedades mais desejveis em conexo com as distribuies de probabilidade. Mediana o valor de uma varivel aleatria que, em ordem crescente ou decrescente, est rankeado no meio, entre os valores maiores e menores. Em amostras com nmero par de observaes, a mediana a mdia aritmtica dos 2 valores que esto rankeados no meio. Estimativas da mediana de pequenas amostras no so muito confiveis. Moda o valor mais freqente, ou seja, a categoria ou classe com a maior freqncia. uma medida fcil e rpida de ser obtida, mas, por outro lado, fica sempre sujeita a variao extrema de uma amostra para outra, ao menos que a amostra seja bem grande. Percentil para um melhor entendimento pense na mediana como o 50-simo percentil. Mdia geomtrica a n-sima raiz de um produto de n valores, ou antilog da mdia aritmtica dos logs de um conjunto de valores e sempre to pequeno ou menor que a mdia do mesmo conjunto de dados. Mdia harmnica a recproca da mdia de um conjunto de dados recprocos e to pequena ou menor que a mdia geomtrica para um mesmo conjunto de dados. Para dados ordinais, prefervel utilizar-se da mediana, apesar de que a mdia , as vezes, utilizada. Para dados mtricos pode ser usada a mdia ou a mediana. Como com dados ordinais, a mediana preferida para propsitos descritivos. A maioria das teorias estatsticas para dados mtricos usa a mdia.
Computao de Mdia, Mediana e Moda Mdia a estimativa da mdia, x ou , do parmetro , obtida da seguinte maneira: Dos dados do quadro 2.1, a mdia ser:
x =
_ _
( x 1 + x 2 + .... + x 40 ) 40
x = 38,225 Mediana do quadro 2.1, primeiro preciso ordenar em ordem crescente, (1) 25 (11) 31.8 (21) 35 (31) 43 (2) 27 (12) 32 (22) 36 (32) 45 (3) 27 (13) 32 (23) 36 (33) 47 (4) 27 (14) 32 (24) 37 (34) 47 (5) 27.7 (15) 33 (25) 37 (35) 52 (6) 28 (16) 33 (26) 38.5 (36) 53 (7) 28 (17) 33 (27) 39 (37) 58 (8) 29 (18) 33 (28) 40 (38) 58 (9) 30 (19) 34 (29) 40 (39) 63 (10) 30 (20) 34 (30) 41 (40) 77
Neste caso, o nmero total de observaes, n, par, a mediana ser a mdia aritmtica dos vigsimo e vigsimo-primeiro valores, ou seja, (34 + 35)/2 = 34.5. Moda simplesmente o ponto mdio da classe que tem a maior freqncia, que no nosso caso, quadro 2.2, 35, que tem a freqncia = 19. Resumo das estimativas das medidas: Mdia Moda = 38,225 = 35,0 Mediana = 34,5 Interpretao: um conjunto de dados pode ter mais de uma moda, mas sempre ter somente uma mdia ou mediana. Como voc pode ver, de um mesmo conjunto de dados, voc tem diferentes medidas de tendncia central. Qual delas a melhor? A deciso vai depender, principalmente, do objetivo de sua informao. Quando a gente vende madeira em volume, normalmente truncada a um determinado dimetro mnimo, a mdia deve prevalecer tendo em vista a maior facilidade para os clculos posteriores. Se a rvore vendida em p, a moda pode ser mais interessante, porque ela d uma noo tambm da distribuio de freqncia. A utilizao da mediana mais prtica na tomada de decises quanto a tratamentos silviculturais, desbastes etc., quando voc precisa priorizar o tamanho que precisa sofrer intervenes.
3.2. Medidas de disperso:

Uma medida de disperso um nmero usado para mostrar quanto de variao existe num conjunto de dados. At agora discutimos somente as medidas de tendncia central. Entretanto, 2 conjuntos de dados podem ter a mesma mdia ou a mesma mediana e, mesmo assim, ser bastante diferente. Exemplo 1: Dois conjuntos de dados (turmas de Manejo e Ecologia), no quadro 3.1 Quadro 3.1. Idades de alunos dos cursos de manejo e ecologia do INPA Manejo (CFT) aluno idade 1 25 2 28 3 30 4 29 5 28 mdia 28 Ecologia aluno idade 1 22 2 30 3 28 4 21 5 39 mdia 28
As mdias dos dois grupos so iguais. No entanto, claro que estamos nos referindo a dois grupos diferentes em idade. D para perceber que o grupo do Manejo mais uniforme em termos de idade. Neste caso, para ver a variao que h dentro de cada conjunto de dados, podemos usar a amplitude total ou o desvio padro, as duas medidas de disperso mais comuns. AMPLITUDE TOTAL a medida da variao olhando apenas a diferena entre o maior e o menor valor. Esta medida de fcil computao porque depende apenas do maior e do menor valor, mas, em compensao ela no diz o que acontece entre esses dois valores. Alm disso, considerada muito limita, sendo uma medida que depende apenas dos valores externos, instvel, no sendo afetada pela disperso dos valores internos. Do quadro 3.1, as amplitudes so: Manejo: 30 25 = 5 Ecologia: 39 21 = 18
DESVIO PADRO nos d a disperso dos indivduos em relao mdia. Ele nos d uma idia se os dados esto prximos da mdia ou muito longe. O desvio padro dos indivduos de uma populao freqentemente simbolizado pela letra grega minscula (). Dificilmente a gente trabalha com o parmetro. Entretanto, dado uma amostra de valores individuais de uma populao, podemos fazer uma estimativa de que comumente simbolizada por s.
2 (x i - x) n
Frmula : s =
i =1
n -1
ou, mais simples : s =
x
i =1
2 i
- (( x i ) 2 ) / n
i =1
n -1
Por que o denominador (n-1) em vez (n)?

_
Porque os n desvios, (xi x ), so

_
necessariamente conectados pela relao linear ( xi x ) = 0. Se voc especifica o valor da

x e os ( n-1 ) valores de xi, ento o valor do ltimo xi fixo; isto , uma informao
redundante. Por esta razo, ao usar a mdia amostral x em vez da mdia da populao como um ponto central no clculo de s, voc perde um grau de liberdade (gl) e a estimativa de dita ter ( n 1 ) gl associados com ela. O uso de (n 1) em vez de (n) no clculo de s tambm fornece uma estimativa no-tendenciosa; isto , em uma srie infinita de amostras aleatrias, o valor mdio do estimador igual a . Os desvios padres dos dados do quadro 3.1 so: Manejo: s = 1.87 Ecologia: s = 7.25
Resumindo: quanto maior a variao dentro de um conjunto de dados, maior ser o desvio padro. Do exemplo 1 ns constatamos agora, que apesar dos dois terem as mesmas medidas de tendncia central, mdia e mediana, as medidas de disperso so totalmente diferentes. Isto quer dizer que o grupo de Manejo mais homogneo em idade, comprovada pela menor variao encontrada.
Clculo da mdia e desvio dos dados grupados:
A mdia calculada da seguinte maneira: x = ( xi * fi ) / n onde: xi = ponto mdio da classe, fi = freqncia de cada classe e n = nmero de classes E o desvio padro segue o mesmo princpio da mdia em relao s classes. Do quadro 2.2, essas medidas sero: x = 38,5 e s = 11,45
_ _
3.3. Medidas de relacionamento:

As medidas mais comumente utilizadas para relacionamento so correlao e regresso. Vrios tipos de correlao podem ser usados para medir o grau de associao (similaridade ou dissimilaridade) entre 2 (ou mais) variveis aleatrias, independente das unidades de medida e mudanas lineares em escala. Estas medidas sero vistas, em detalhe, num captulo especfico.
3.4 Percentil:
Ns j vimos um exemplo de percentil. A mediana divide um conjunto de dados em duas partes, 50% de um lado e 50% de outro, depois de coloc-los em ordem crescente. Por esta razo ela se refere ao qinquagsimo percentil de um conjunto de dados. Alm dos percentils, que pode dividir os dados de acordo com qualquer valor percentual, o pesquisador pode tambm querer encontrar o quartil e o decil.
Quartil a separatriz que divide a rea de uma distribuio de freqncia em domnios de rea igual a mltiplos inteiros de um quarto da rea total. Decil a separatriz correspondente ao valor do argumento que divide a distribuio numa razo decimal.
Exemplo: dados do quadro 2.1 em ordem crescente.
Primeiro quarto
25 27 27 32 36 47 27 32 37 47 27.7 33 37 52 28 33 38.5 53 28 33 39 58 29 33 40 58 30 34 40 63 30 34 41 77
Segundo quarto
31.8 32 35 43 36 45
Terceiro quarto Quarto quarto
Computaes: Primeiro quartil = (30 + 31.8) / 2 = 30.9 Segundo quartil = (34 + 35) / 2 = 34.5 Terceiro quartil = (41 + 43) / 2 = 42.0
3.5. Consideraes finais:

Neste captulo no poderamos deixar de mencionar trs outros conceitos muito importantes na nossa rea de conhecimento, coeficiente de variao, varincia e covarincia.
COEFICIENTE DE VARIAO a razo entre o desvio padro e a mdia. Ele nos d uma idia de variao relativa de nossa populao, permitindo a comparao de 2 populaes diferentes independentes das unidades de medida.
Do quadro 3.1, estimamos as mdias (28 para manejo e 28 para Ecologia) e os desvios padres (1.87 e 7.25). Agora temos os coeficientes de variao (CV):
CV = 1.87/28 = 0.0668 ou 6.68 % - Manejo CV = 7.25/28 = 0.2589 ou 25.89 % - Ecologia
Do nosso exemplo do quadro 2.1, temos uma populao de rvores, com as seguintes estimativas: mdia = 38,225 e desvio = 11,28
CV = 11,28/38,225 = 0.2951 ou 29,51 % - floresta ZF-2
Mesmo se tratando de populaes diferentes podemos concluir com base nos CVs: A populao Manejo mais homognea e a mais heterognea a floresta da ZF-2. Isto possvel porque o CV uma medida relativa, que independente da unidade de medida utilizada.
VARINCIA - Varincia uma medida da disperso dos valores unitrios individuais em torno de sua mdia. A varincia no s parece com o desvio padro, como o prprio, apenas ao quadrado . Se voc tirar da frmula do desvio, a raiz quadrada, voc tem a frmula da varincia. Por que ao quadrado? Simplesmente porque a soma de todos os desvios tem que se anular, tendendo a zero e, da, voc no teria condies de ver a amplitude de variao dos seus dados em relao mdia.
COVARINCIA - uma medida de como 2 variveis variam juntas, em relacionamento (covariabilidade). Suponha duas variveis x e y. Se os maiores valores de x tende a ser associados com os maiores valores y, ns dizemos que a covarincia positiva. Quando os maiores se associam com os menores, ou vice-versa, a covarincia negativa. Quando no h uma associao particular de x e y, a covarincia tende a zero.
As frmulas so:
Varincia, s2 = SQCx /(n-1) Covarincia, sxy = SPCxy / (n-1)
Sendo: SQC = Soma dos Quadrados Corrigidos SPC = Soma dos Produtos Corrigidos
Frmulas teis
Mdia Aritmtica Varincia
x=
x
i =1
s2 =
(x
i =1
x)
n 1
Erro padro
Desvio padro
s= s
2
2
sx = s / n
n yi n 2 i =1 SQC y = y i n i =1
2
n xi n 2 i =1 SQC x = xi n i =1
SPC xy = xi y i
i =1
( x )( y )
i i
Coeficiente de correlao
r=
SPCxy SQC X SQCY
Captulo 4 Probabilidade
No captulo 1 ns distinguimos dois tipos de estatsticas: descritiva e de inferncia. A estatstica descritiva envolve a organizao e a sumarizao dos dados. A estatstica de inferncia lida com inferncias (predies educadas) sobre uma populao baseada em uma amostra da populao. Desde que a estatstica de inferncia envolve predies (educadas), sempre possvel fazer uma inferncia incorreta. preciso saber o quanto a nossa inferncia est correta. Para medir a chance de estar certo na nossa inferncia estatstica, precisamos entender a teoria de probabilidade, que a fundamentao matemtica para a estatstica de inferncia. Para entender os princpios da teoria de probabilidade no h como fugir dos exemplos clssicos de cara & coroa, dos dados e do jogo de baralho. A propsito, a teoria foi desenvolvida por causa de jogos de azar. O objetivo deste captulo dar uma base geral para facilitar o entendimento da aplicao de testes de hipteses, paramtrica e no-paramtrica. O processo de computao (clculo) de probabilidades depende de sua capacidade de contar, 1, 2, 3 e assim por diante. A seguir vamos discutir alguns mtodos de contagem.
4.1. Contagem:
Primeiro vamos estabelecer as seguintes definies dentro da teoria de probabilidade.
Resultado - no caso de cara ou coroa, 2 resultados so possveis e no caso do jogo de dados, 6 resultados. Teste - (ou tentativa) - a ao de jogar a moeda e ver se ela cai com a cara ou
coroa.
Experimento - o conjunto de testes (tentativas); se a moeda jogada uma vez, ou duas, ou n vezes, no interessa o procedimento deve ser considerado um experimento. Eventos - so os possveis resultados de um teste, vrios testes ou de todo o experimento. Exemplo de evento: uma coroa em 4 jogadas ou pelo menos um cara. REGRA 1: Se um experimento consiste de n testes, onde cada teste pode resultar em um dos k possveis resultados, afirmamos que h kn possveis resultados de todo o experimento. Exemplo 1: no jogo da moeda voc tem dois resultados, cara (C) ou coroa (c), k=2. Se voc jogar apenas uma vez, n=1, voc ter 21 = 2 possveis resultados, C ou c. Se voc jogar duas vezes, n = 2, voc ter 22 = 4 possveis resultados, CC cc Cc cC. REGRA 2: H n! (fatorial) maneiras de arranjar n objetos distinguveis em uma seqncia. Exemplo 2: considere o nmero de maneiras de arranjar as letras A, B e C numa seqncia. A primeira letra pode ser qualquer uma das trs, a segunda pode ser escolhida de duas maneiras diferentes uma vez que a primeira j foi escolhida, e a letra remanescente se torna a ltima letra escolhida, para um total (3) (2) (1) = 6 ou 3! Arranjos diferentes. Os 6 possveis arranjos so: ABC ACB BAC BCA CAB e CBA. Exemplo 3: suponha uma corrida de cavalos com 8 cavalos. H 8 maneiras de qualquer um deles chegar em primeiro lugar, tendo nas outras colocaes qualquer outro. Se voc quiser saber quantos arranjos so possveis tendo, no primeiro e segundo lugar, qualquer um deles e, as demais colocaes, de qualquer jeito, voc far (8) (7) = 56 arranjos. Se voc,
no entanto, quiser saber todos os possveis arranjos do primeiro ao oitavo lugar voc far 8! = 40320 arranjos.
REGRA 3: se um grupo de n objetos composto de k objetos idnticos de um tipo e o restante (n-k) so objetos idnticos de um segundo tipo, o nmero de arranjos distinguveis dos n objetos numa seqncia, denotado por meio de
n dado por k
n n! = k k! (n - k)!
Ou: se um grupo de n objetos composto de n1 objetos idnticos do tipo 1, n2 objetos idnticos do tipo 2, ..., nr objetos idnticos do tipo r, o nmero de arranjos distintos numa seqncia ser: n dado por ni n n! = ni n1! n2! ... nr!
3 (3) (2) (1) 3! = = = 3 2 2! 1! (2) (1) (1)

Exemplo 4: no exemplo 2 listamos as 6 maneiras de arranjar as letras A, B e C numa seqncia. Suponha agora que as letras A e B so idnticas e chame-as de X. Assim, os arranjos ABC e BAC se tornam indistintos, XXC para os dois. Tambm ACB e BCA se tornam XCX. O arranjo original reduzido para arranjos distintos, que so XXC, XCX e CXX.
4.2. Definies de probabilidade:

Primeiro vamos ver algumas definies:
(i) Espao amostral experimento.
a coleo de todos os possveis resultados de um
(ii) Ponto no espao amostral - um resultado possvel de um experimento.
Cada experimento tem o seu prprio espao amostral, que consiste essencialmente de uma lista de diferentes resultados possveis de um experimento. O espao subdividido e cada subdiviso um ponto. Cada possvel resultado representado por um ponto e somente um ponto.
Exemplo 1: se um experimento consiste em jogar duas vezes a moeda, o espao amostral consiste de 4 pontos CC cc Cc cC. Exemplo 2: uma prova consistindo de 10 questes falsa ou verdadeira passada a um aluno como um experimento. H 210 = 1024 pontos no espao amostral, onde cada ponto consiste da seqncia das possveis respostas para as 10 questes sucessivas, tais como: FFFFVVFFVV.
Agora, ento, possvel definir evento, em termos dos pontos do espao amostral.
(iii) Evento - um evento qualquer conjunto de pontos no espao amostral.
No exemplo 1 ao falarmos do evento duas caras, estamos nos referindo a um simples ponto CC; o evento uma cara consiste de dois pontos Cc e cC; o evento pelo menos uma cara consiste de trs pontos CC, Cc e cC.
Dois diferentes eventos podem ter pontos comuns e ambos. Os eventos pelo menos uma cara e pelo menos uma coroa tem os pontos Cc e cC em comum. Se dois eventos no tm pontos em comuns eles so chamados de eventos mutuamente exclusivos porque a ocorrncia de um evento automaticamente exclui a possibilidade de ocorrer outro evento ao mesmo tempo. Para cada ponto no espao amostral h um nmero correspondente chamado de probabilidade do ponto ou probabilidade do resultado. Estas probabilidades podem ser quaisquer nmeros entre 0 a 1. A definio da probabilidade de um evento inclui a definio da probabilidade de um resultado como um caso especial, desde que o evento possa ser considerado como que se consistisse de um resultado simples. Na prtica, o conjunto de probabilidades associadas com um particular espao amostral raramente conhecido, mas as probabilidades so atribudas de acordo com as noes pr-concebidas do pesquisador, isto , o pesquisador formula um modelo como uma verso ideal do experimento. Ento, o espao amostral do modelo experimental examinado e as probabilidades so atribudas aos vrios pontos do espao amostral de alguma maneira que o pesquisador sinta que pode ser justificada.
Exemplo 3: Num experimento consistindo de uma nica jogada de uma moeda no viciada, razovel assumir que o resultado cara (C) tem metade da chance de ocorrer. Assim, podemos atribuir a probabilidade de para o resultado C e o mesmo para c. Isso pode ser escrito da seguinte maneira: P (C) =1/2 e P (c) = 1/2 . Exemplo 4: Num experimento consistindo de 3 jogadas (testes), razovel assumir que cada um dos 23 = 8 resultados CCC CCc CcC Ccc cCC ccC cCc ccc tem a mesma chance de ocorrer. Assim, a probabilidade de cada resultado 1/8. Tambm P (3 caras) = 1/8, P (pelo menos 1 cara) = 7/8, P (pelo menos 2 caras) = 4/8 = . (iv) Funo de Probabilidade: uma funo que atribui probabilidades aos vrios eventos no espao amostral.
Vrias propriedades dessas funes so aparentes. Considere S como espao amostral e A, B ou C como qualquer evento em S. Ento, se P a funo de probabilidade, P(S) = 1, P(A) > 0 e P(a) = 1 P(A), onde a o evento o evento no ocorre.
(v) Probabilidade Condicional: a probabilidade de ocorrer A dado B.
P (A | B) = [ P (AB) ] / [ P (B) ] onde P (B) > 0, caso contrrio, indefinido.

Exemplo 5: Considere o jogo de dados, tal que cada um dos 6 possveis resultados tem a probabilidade de 1/6 de ocorrer. Como antes, deixe A ser o evento a ocorrncia de 4, 5 ou 6 e B o evento a ocorrncia de um nmero par . Ento P (AB) = P (4 ou 6) = 2/6 = 1/3. Tambm, P (B) = 3/6 = . Ento, a probabilidade condicional P (A|B) dada por
P (A | B) =
1/ 3 = 2/3 1/ 2
(vi) Eventos independentes: Dois eventos A e B so independentes se
(1)
P (AB) = P (A) P (B)
Exemplo 6: Num experimento consistindo de 2 jogadas de moeda, os 4 pontos no espao amostral assumem ter a mesma probabilidade. Deixe A ser o evento uma cara ocorre na primeira jogada e B ser o evento uma cara ocorre na segunda jogada. Ento A tem os pontos CC e Cc. B tem os pontos CC e cC. AB tem os pontos CC. Tambm P (A) = 2/4, P (B) = 2/4 e P (AB) = 1/4.
P (AB) = (2/4) (2/4) = 4/16 = 1/4 satisfaz a condio (1) e, por esta razo, A e B so independentes.
(vii) Experimentos Mutuamente Independentes: so mutuamente independentes se todos os conjuntos de n eventos formados tiverem a seguinte equao como verdadeira:
P ( A1, A2, ..An) = P (A1) P(A2) ...P (An) onde Ai representa um resultado do i-simo experimento para i = 1, 2, ....n.
Exemplo 7: Considere um experimento com 1 jogada da moeda, onde o evento C tem a probabilidade p e o evento c tem a probabilidade q = 1 p. Considere 3 repeties independentes do experimento, onde o subscrito ser usado para diferenciar o experimento com o qual o resultado est associado. Dessa maneira, C1 c2 C3 significa que o primeiro experimento resultou em C, o segundo em c e o terceiro em C. Por causa de nossa hiptese de independncia,
P (C1 c2 C3) = P (C1) P (c2) P (C3) = pqp Se considerarmos o evento exatamente 2 caras associado aos experimentos combinados, o seguinte pode ocorrer
3 6 = = 3 maneiras e conseqentemente 2 2 P ( exatamente 2 caras) = 3p 2 q
Obviamente o anterior pode ser descrito simplesmente como um experimento com 3 tentativas independentes. Por extenso, podemos considerar um experimento consistindo de n jogadas independentes. A probabilidade de obter exatamente k caras , ento, igual ao termo pkqn - k vezes o nmero de vezes que o termo pode aparecer. Por esta razo, em n jogadas independentes de uma moeda n P (exatamente k caras) = p k q n - k k onde p = P(C) em qualquer jogada.
Outras consideraes: Conceito de probabilidade usando distribuies de

freqncias relativas. Exemplo 8: Um diretor de escola numa pequena cidade de 40 famlias classificou cada famlia de acordo com o nmero de crianas (menores que 18 anos). As informaes obtidas so sumarizadas no quadro 4.1.
Quadro 4.1: Distribuio de nmero de crianas por famlia.

n de crianas 0 1 2 3 4 n de famlias 18 8 7 4 3 40 % 45,0 20,0 17,5 10,0 7,5 100,0 freq. relativa 0,450 0,200 0,175 0,100 0,075 1,000
O quadro 4.1 mostra, por ex., que 17,5% (0.175) das 40 famlias possuem 2 crianas. Agora, suponha que uma das famlias tenha sido selecionada aleatoriamente, ou seja, cada famlia teve igual chance de ser escolhida. Qual a probabilidade que a famlia selecionada tenha 3 crianas? A resposta 4/40, que a mesma frequncia relativa. Suponha que h N resultados possveis num experimento. A probabilidade que um evento ocorra o nmero de vezes, f, que o evento pode ocorrer, dividido pelo nmero total, N, de possveis resultados.
4.3. Variveis aleatrias:

No exemplo 8 ns vimos um levantamento que classificou cada uma das 40 famlias de acordo com o nmero de crianas na famlia. Desde que o nmero de crianas varia de famlia para famlia, ela chamada de varivel. Quando selecionamos uma famlia aleatoriamente, o nmero de crianas uma varivel aleatria desde que o seu valor (um nmero real) depende de uma chance.
Definio 1: Uma varivel aleatria uma funo que atribui nmeros reais aos pontos num espao amostral.
As variveis aleatrias so normalmente representadas pelas letras maisculas X, W, Y ou Z com ou sem subscritos. Os nmeros reais atribudos pelas variveis aleatrias sero representados por letras minsculas.
Exemplo 1: Num experimento onde ao consumidor dada a chance de escolher 3 produtos, sabonete, detergente ou marca A, o espao amostral consiste dos 3 pontos representando as 3 possveis escolhas. Deixe a varivel aleatria atribuir o nmero 1 para a escolha marca A e o nmero 0 (zero) para os outros 2 possveis resultados. Ento, P(X = 1) igual a probabilidade do consumidor escolher a marca A. Exemplo 2: Para 6 meninas e 8 meninos perguntado se eles se comunicam mais facilmente com suas mes ou com seus pais. Deixe X ser o nmero de meninas que pensam que se comunicam melhor com suas mes e deixe Y ser o nmero total de crianas que pensam que se comunicam melhor com suas mes. Se X = 3, ns sabemos que ocorreu o evento 3 meninas pensam que se comunicam melhor com suas mes. Se, ao mesmo tempo, Y = 7, ns sabemos que ocorreu o evento 3 meninas e 7 3 = 4 meninos pensam que se comunicam melhor com suas mes.
Se X uma varivel aleatria, X = x uma notao simplificada que usamos para corresponder ao mesmo evento no espao amostral, especificamente o evento que consiste do conjunto de todos os pontos para os quais varivel X foi atribudo o valor x.
Exemplo 3: Num experimento consistindo de 2 jogadas de moeda, deixe X ser o nmero de caras. Ento, X = 1 corresponde ao evento contendo os pontos Cc e cC.
Dessa maneira, X = x , s vezes, referida como o evento X = x, quando, na realidade, pretendeu-se dizer o evento consistindo de todos os resultados atribudos o nmero x pela varivel aleatria X. Por causa desta estreita correspondncia entre variveis aleatrias e eventos, as definies de probabilidade condicional e independncia se aplicam igualmente bem s variveis aleatrias.
Definio 2: A probabilidade condicional de X dado Y, P (X = x | Y = y), a probabilidade que a varivel aleatria X assume o valor x, dado que a varivel aleatria Y j assumiu o valor y.
(1) P(X = x | Y = y) = P (X = x, Y = y) se P(Y = y) > 0 P(Y = y)
Exemplo 4: Deixe X ser o nmero de meninas que se comunicam bem com suas mes, das 6 meninas entrevistadas, como no exemplo 2 e deixe Y ser o nmero total de crianas que se comunicam bem com suas mes. Por convenincia, deixe Z=Y-X, tal que Z igual ao de meninos, dos 8 entrevistados, que se comunicam bem com suas mes. Assuma que as respostas dadas pelas crianas so independentes de cada outra e que cada criana tem a mesma probabilidade p (desconhecida) de dizer que se comunica bem com a sua me. Encontre a probabilidade condicional P ( X=3 | Y=7).
Primeiro, pelas suposies anteriores, X=3 e Z=4 so eventos independentes. Desde que o evento (X=3, Y=7) o mesmo que o evento (X=3, Z=4), temos a probabilidade P(X=3, Y=7) = P(X=3, Z=4) = P(X=3) P(Z=4) (2) 6 = p 3 (1 - p) 3 3 8 4 p (1 - p) 4 4
por causa do exemplo 7 do item 4.2. Pelo mesmo exemplo, conclumos que (3) 14 P(Y = 7) = p 7 (1 - p) 7 7
tal que a probabilidade condicional
(4)
6 8 3 4 P(X = 3 | Y = 7) = 14 7 6! 8! 3! (6 - 3)! 4! (8 - 4)! = = 0.408 14! 7! (14 - 7)!
Como os pontos no espao amostral so mutuamente exclusivos, os valores que uma varivel aleatria pode assumir so tambm mutuamente exclusivos. Para um simples resultado de um experimento, a varivel aleatria definida por apenas um nmero. Assim, todo o conjunto de valores que uma varivel aleatria pode assumir tem as mesmas propriedades do espao amostral. Os valores individuais assumidos pela varivel aleatria correspondem aos pontos no espao amostral, um conjunto de valores corresponde a um evento e a probabilidade da varivel aleatria assumir qualquer valor dentro de um conjunto de valores igual a soma das probabilidades associadas com todos os valores dentro do conjunto. Por exemplo:
P (a < X < b) =
a < x <b
P(X = x)
onde o somatrio se estende a todos os valores de x entre, no incluindo os nmeros a e b,

P (X = nmero par) =
x par
P (X = x)
onde o somatrio se aplica a todos os valores de x que so pares. Por causa dessa similaridade entre o conjunto de valores possveis de X e um espao amostral, a descrio do conjunto de probabilidades associadas com os vrios valores que X pode assumir, freqentemente chamado de funo de probabilidade da varivel aleatria X, assim como um espao amostral tem uma funo de probabilidade. Entretanto, a funo de probabilidade de uma varivel aleatria no uma atribuio arbitrria de probabilidades, como a funo de probabilidade para um espao amostral. Isto porque uma vez que as probabilidades so atribudas aos pontos num espao amostral e uma vez que a varivel aleatria X definida no espao amostral, as probabilidades associadas com os vrios valores de X so conhecidas e a funo de probabilidade de X , dessa maneira, j determinada.
Definio 3: A funo de probabilidade da varivel aleatria X, usualmente representada por f(x) ou de outra maneira qualquer, a funo que d a probabilidade de X assumir o valor x, para qualquer nmero real x, ou seja,
(5)
f(x) = P(X = x)
Vimos at aqui que a distribuio de probabilidades associadas com uma varivel aleatria pode ser descrita por uma funo de probabilidade. Uma outra maneira de dizer a mesma coisa atravs de uma funo de distribuio que descreve as probabilidades acumuladas.
Definio 4: A funo de distribuio de uma varivel aleatria, usualmente representada por F(x), a funo que d a probabilidade de X ser menor ou igual a qualquer nmero real x, ou seja,
(6)
F(x) = P (X x) =
t x
f(t)
onde o somatrio se estende a todos os valores de t que no forem superiores a x.

Definio 5: Deixe X ser uma varivel aleatria. A distribuio binominal a distribuio de probabilidade representada pela funo de probabilidade
(7)
n f(x) = P(X = x) = p x q n -x para x = 0,1, .., n x
onde: n nmero inteiro positivo, 0 p 1 e q = 1 p. Note que usaremos a conveno usual que 0! = 1. A funo de distribuio ser ento
(8) F(x) = P(X x) =
i x
i p i q n-i

onde o somatrio se estende a todos os possveis valores de i menor ou igual a x. H tabelas prontas para alguns valores selecionados dos parmetros n e p.
Exemplo 5: Um experimento com n testes independentes, onde cada teste pode resultar em um dos dois resultados sucesso ou insucesso, com probabilidade P e q, respectivamente. Deixe X ser igual ao nmero total de sucessos nos n testes. Ento, como mostrado na equao (7),
n P (X = x) = p x q n -x x para x inteiro de 0 a n. Desta maneira, o experimento tem a distribuio binominal.

Definio 6: Deixe X ser uma varivel aleatria. A distribuio discreta uniforme a distribuio de probabilidade representada pela funo de probabilidade.
(9)
f(x) = 1/N para x = 1,2, ... , N
Desta maneira, X pode assumir qualquer valor inteiro de 1 a N com igual probabilidade, se X tem a funo de probabilidade discreta uniforme.
Exemplo 6: H em um saco N papeletas numeradas de 1 a N. O experimento consiste de tirar uma papeleta do saco, onde cada papeleta tem a mesma chance de ser tirada. O espao amostral tem N pontos, representando as N papeletas que podem ser tiradas. Deixe X ser igual ao nmero da papeleta tirada. Ento X tem a distribuio uniforme discreta. Definio 7: A funo de probabilidade conjunta f (x1, x2, .. xn ) das variveis aleatrias x1, x2, .. xn a probabilidade da ocorrncia conjunta de X1 = x1, X2 = x2, ... , Xn = xn.
(10)
f(x1, x2, .. xn ) = P (X1 = x1, X2 = x2, ... , Xn = xn )
Definio 8: A funo de distribuio conjunta F(x1, x2, .. xn ) das variveis aleatrias x1, x2, .. xn a probabilidade da ocorrncia junta de X1 x1, X2 x2, ... , Xn xn .
(11)
F(x1, x2, .. xn ) = P (X1 x1, X2 x2, ... , Xn xn )
Exemplo 7: Considere as variveis aleatrias X e Y como definidas no exemplo 2. Considere f(x,y) e F(x,y) como as funes de probabilidade conjunta e de distribuio, respectivamente.
(12) e (13) onde
6 f(3, 7) = P (X = 3, Y = 7) = 3
8 7 p (1 - p) 7 4
F(3, 7) = P (X 3, Y 7) =
0 x 3 x y7
f(x, y)
6 f(x, y) = p x (1 - p) 6 - x x
8 y- x 8 - (y - x) y - x p (1 - p)
e onde o somatrio na equao (13) se estende a todos os valores de x e y tal que x 3 e y 7, com a usual restrio de que x e y x so inteiros no negativos. Note que as equaes (12) e (13) no podem ser avaliadas sem conhecer o valor de p.
Definio 9: A funo de probabilidade condicional de X dado Y, f(x | y)
(14)
f(x | y) = P(X = x | Y = y)
Da equao 1 vemos que (15) f(x | y) = P(X = x | Y = y) = P(X = x, Y = y) P(Y = y) f(x, y) f(y)
onde f(x, y) a funo de probabilidade conjunta de X e Y e f(y) a funo de probabilidade de Y em si.

Exemplo 8: Como uma continuao do exemplo 7, considere f(x | y) como a funo de probabilidade condicional de X dado Y.
F(3 | 7) = P(X = 3 | Y = 7) = 0.408 da equao (4)
Para encontrar a frmula geral para f(x | y) (isto , para qualquer valor de x e y), primeiro deixe f(x, y) ser a funo de probabilidade conjunta de X e Y. Isto dado no exemplo 7 como 6 f(x, y) = p x (1 - p) 6 - x x 8 y- x 8 - (y - x) y - x p (1 - p)
que originalmente era uma forma geral da equao (2). Tambm, deixe f(y) ser a funo de probabilidade de Y. Do exemplo 4, novamente, podemos generalizar da seguinte maneira 14 f(y) = P(Y = y) = p y (1 - p)14 - y y Pela definio 9 podemos agora escrever a funo de probabilidade condicional de X dado Y =y
6 8 x y - x f(x, y) f(x y) = = f(y) 14 y
(16)
para
0x6 0 y-x 8
onde todos os termos que envolvem o parmetro desconhecido p foram convenientemente cancelados.
Definio 10: Considere X1, X2, ... , Xn como variveis aleatrias com as respectivas funes de probabilidade f1 (x1), f2 (x2), ... , fn (xn) e com a funo de probabilidade conjunta f (x1, x2, ... , xn ). Ento X1, X2, ... , Xn so mutuamente independentes
(17) se: f(x1, x2, ... , xn ) = f1 (x1) f2 (x2) ... fn (xn) para todas as combinaes dos valores de x1, x2, ... , xn.
Exemplo 9: Considere o experimento descrito no exemplo 8. Ento, a funo de probabilidade de X dada por
6 f1 (x) = P (X = x) = p x (1 - p ) 6 - x x e a funo de probabilidade de Y dada por (18) (19) 14 f 2 (y) = P (Y = y) = p y (1 - p)14 - y y
Desde que:
f(x, y) = P(X = x, Y = y) = P(X = x | Y = y) P(y = y) O uso das equaes (16) e (19) resulta na funo de probabilidade conjunta de X e Y, sendo dada por 6 x 8 y - x 14 y
f(x, y) =
14 y p (1 - p)14 - y y
6 8 y 14 - y = x y - x p (1 - p) desde que: 6 f 1 (x) f 2 (y) = x vemos que: f(x, y) diferente de f1(x) f2(y) e, por esta razo, X e Y no so independentes. 14 x + y p (1 - p) 20 - x + y y
CAPTULO 5 DISTRIBUIO NORMAL

Uma funo de distribuio mostra, para uma populao, a freqncia relativa (probabilidade) com que diferentes valores (nmeros reais) de uma varivel aleatria ocorrem. Em geral, cada populao tende a ter a sua prpria distribuio. No entanto, a distribuio normal a mais popular de todas por causa de sua grande aplicabilidade na aproximao do comportamento de um grande nmero de variveis aleatrias naturais que so contnuas. Ela conhecida como distribuio de Gauss (difusor) ou distribuio com a forma de sino V. Figura 5.1. abaixo. Funo:
n( x; , ) =
Para:
0.5
(( x ) )
2
< x < +
- -3 -2 -1 1 2 3 +
68,27% 95,45% 99,73%
Figura 5.1: Curva normal padro Propriedades: A curva normal padro (CNP) tem = 0 e = 1 rea sob a CNP igual a 1 A CNP se estende indefinidamente em ambas direes A CNP simtrica em torno de zero A maior parte (99,73%) da CNP fica entre -3 e +3 Toda a estatstica paramtrica foi desenvolvida com base nos pressupostos da distribuio normal. Se voc usar os testes desenvolvidos com base na distribuio normal, sem atender a condicionante da normalidade, o teste perde a robustez e a consistncia e os
seus resultados podem perder toda a confiabilidade. Entretanto, nem sempre as variveis aleatrias distribuem-se na forma perfeita de um sino ( = 0 e = 1). H vrias maneiras de superar este tipo de obstculo, como aumentar o nmero de amostras e fazer transformaes. S no pode ignorar o detalhe da normalidade.
5.1. Estimando a mdia da populao:

Na estatstica de inferncia tudo gira em torno da obteno da estimativa da mdia verdadeira da populao, . Por exemplo, podemos estar interessados em saber: o volume mdio, , de uma determinada rea florestal a idade mdia, , dos estudantes da turma-2006 do CFT Se a populao pequena, calculada sem problemas; no caso de populaes maiores, a mdia tem que ser estimada usando amostragem de parte da populao. No caso do CFT, 18 estudantes, obter a idade mdia uma tarefa muito fcil. No h necessidade de fazer amostragem, basta somar a idade de cada um e dividir por 18. Entretanto, em nossa rea de conhecimento, a gente s trabalha com populaes muito grandes com tendncia ao infinito. Neste caso, fica muito difcil e caro, seno impossvel, obter a mdia verdadeira da populao, . Levando em conta os princpios e as condicionantes da amostragem, possvel obter informao suficientemente precisa (e confivel) sobre tomando apenas parte da populao para estimar a mdia amostral x .
Exemplo 1: queremos saber a idade mdia dos estudantes da ps-graduao do INPA, que tem uma populao igual a 200. Para isso, selecionamos, aleatoriamente, 10 estudantes e anotamos a idade de cada um. Portanto, temos uma amostragem de 10 estudantes de uma populao de 200 - hipoteticamente.
_
Quadro 5.1. idades de 10 estudantes de ps-graduao do INPA estudante idade 1 23 2 25 3 26 4 28 5 26 6 24 7 25 8 27 9 30 10 26
A idade mdia (amostral) ser:

x = ( xi ) / n
_
para: n = 10 e i = 1, 2, ... n
x = 26 anos
Se voc utilizou uma amostra representativa da populao, voc estar afirmando que a mdia verdadeira da populao dos 200 estudantes, , deve ser em torno de 26 anos. Diante disso, surgem algumas questes: Qual a justificativa para utilizar a mdia amostral x para estimar a mdia da (i) populao ? Qual a confiana sobre a preciso envolvida ao usar x para estimar ? No (ii) exemplo 1, se uma amostragem com 10 estudantes utilizada, qual a probabilidade da idade
_ _
mdia amostral, x , estar dentro de um intervalo (vamos dizer, 1 ano) da mdia da populao, ? (iii) Qual a necessria intensidade de amostragem para assegurar uma certa preciso com grande confiana? No exemplo 1, quo grande deveria ser uma amostragem (10? 20 estudantes?) para assegurar que 95% de todos os possveis x cassem dentro de um intervalo de 1 ano da mdia da populao, ? Vamos responder todas estas questes nesta apostila. A primeira ser respondida, parcialmente, neste captulo e completada no captulo 6. As outras duas (ii e iii) sero respondidas nos captulos 6 e 7, respectivamente. Ao amostrar uma populao, a mdia amostral, x , uma varivel aleatria. No captulo 6, vamos ver, em detalhes, como este valor parecido com a mdia da populao. A incerteza da estimativa depende de uma chance sobre a qual a amostra foi selecionada. Apesar disso, a incerteza diminui com o aumento da intensidade de amostragem. Isto uma sentena de um teorema matemtico chamado a lei dos grandes nmeros e a nossa justificativa para usar x para estimar .
_ _ _
5.2. Curva normal padro (CNP) ou curva-z:

A lei dos grandes nmeros a nossa justificativa matemtica para usar x para estimar ...justifica, mas no explica. Da mesma forma, ela no particularmente til para responder questes prticas envolvendo a preciso de tais estimativas. Esta lei, por exemplo, no informa sobre a probabilidade de x estar dentro do intervalo de 1 ano de
_ _ _
. As
probabilidades para x podem ser obtidas aproximadamente usando reas sob certas curvas em forma de sino. H vrias curvas normais, que variam de acordo com a mdia e desvio padro, e . No entanto, a curva que norteia todas as outras curvas, a curva normal padro (Figura 5.1). Tanto a forma como as propriedades da CNP podem ser vistas nesta figura. S existe uma nica curva normal padro, com = 0 e = 1. Quando voc tem pela frente situaes com mdias e desvios diferentes de 0 e 1, respectivamente ... no entre em pnico! Tudo que tem que ser feito padronizar a sua varivel aleatria e, em seguida, usar a CNP para obteno das probabilidades (ou reas). A curva apresentada na Figura 5.1. foi desenhada depois de integrar a funo de distribuio, de z = 0 a z = 3,9 para a primeira metade da curva direita de 0. Como a parte da curva esquerda de 0 espelho da parte direita, as probabilidades da esquerda foram calculadas de z = -3,9 a z = 0. Portanto, o trabalho braal j est feito. A Tabela 1 (anexo da apostila) tem todas as probabilidades (reas sob a CNP) calculadas com preciso de dois dgitos. Vamos ver como funciona a Tabela 1 (anexo da apostila) usando alguns exemplos. As figuras que ilustram o uso da Tabela 1 esto no anexo deste captulo.
Exemplo 2: Achar a rea sob a curva normal padro (CNP) esquerda de z = -0,97.
A soluo grfica est na Figura 5.2-a. Voc vai direto tabela 1 e procure z = -0,9 (sentido vertical), depois o centsimo (7) (sentido horizontal) e no encontro dos dois nmeros (0,97), voc tem a rea (que a probabilidade) sob a CNP.
Neste caso, a rea igual a 0,1660. Isto quer dizer que 16,6% da rea est esquerda de z = -0,97 ou que 83,4% est direita de z = -0,97. No esquecer que a rea total sob a CNP igual a 1.
Exemplo 3: Achar a rea sob a CNP direita de z = 2,5.
Veja a soluo grfica na Figura 5.2-b. De novo, voc vai tabela 1 e procure z = 2,5, depois o centsimo 0 e no encontro dos dois nmeros (2,50), voc tem a rea (que a probabilidade) sob a CNP. Neste caso, voc est calculando a rea sob a CNP de - at 2,5, que d 0,9938 ... esquerda de z = 2,5. Como voc quer saber a rea direita de z = 2,5, voc tem que subtrair de 1 (rea total da CNP) e a sim voc ter a rea direita de z = 2,5. Assim, a rea direita ser 1 0,9938 = 0,0062, ou seja, 0,62% da rea est direita da CNP.
Exemplo 4: Achar a rea sob a CNP entre z = -1,04 e z = 2,06.
Veja a soluo grfica na Figura 5.2-c. Neste caso, so necessrios os seguintes passos: (1) achar a rea esquerda de z = -1,04, que igual a 0,1492; (2) achar a rea direita de z = 2,06, que igual a 0,9803; (3) calcular a rea entre z = -1,04 e z = 2,06, que dada pela diferena (0,9803 0,1492), que igual a 0,8311. Portanto, a resposta : a rea sob a CNP entre z = -1,04 e z = 2,06 0,8311, ou seja, 83,11% da rea da CNP est entre os dois pontos de z.
5.3. reas sob outras curvas normais:

Na seo anterior mostramos como encontrar as reas sob a curva normal padro (CNP). No entanto, h vrias curvas normais, que variam de acordo as variaes da mdia e do desvio padro . Para calcular as probabilidades (reas sob a CNP) para a mdia amostral
x (o principal objetivo), precisamos ser capazes de encontrar as reas sob qualquer curva
_
normal. Cada curva normal pode ser identificada por 2 nmeros chamados parmetros. Estes dois parmetros so usualmente representados por mdia e desvio padro . O parmetro nos diz onde a curva est centrada e indica a disperso da curva normal. Como vimos na Figura 5.1, quando = 0 e = 1, temos a curva normal padro. No entanto, no mundo real esta condio de = 0 e = 1 praticamente impossvel de ser verificada. Os parmetros e variam entre populaes diferentes. Igual CNP, a curva normal (ou curvas normais) centrada na e quanto maior for , mais dispersa (achatada ou esparramada) ser a curva. A curva normal tem as mesmas propriedades da CNP. A nica diferena que o eixo horizontal da CNP z e das outras curvas normais, o eixo x. As curvas normais podem assumir diferentes formas. As figuras 5.3-a, 5.3-b e 5.3-c ilustram as diferentes formas, as quais podem ser consideradas, respectivamente, como platicrtica, mesocrtica e leptocrtica. bvio que existe um limite de achatamento para que a curva seja considerada normal. Este limite pode ser determinado usando o teste de achatamento ou curtose. Da mesma maneira, a curva normal pode ser simtrica ou assimtrica. A assimtrica pode ser negativa (maior freqncia dos dados tendendo direita
do eixo horizontal) e positiva (maior freqncia tendendo esquerda do eixo) V. Figura 5.4. Tambm neste caso, h limite para a assimetria, que pode ser definido usando o teste de assimetria.
Exemplo 5: Achar rea sob a curva normal ( = -2 e = 1) entre x = 1 e x = -1.
Veja a soluo grfica na Figura 5.5-a. Primeiro de tudo preciso padronizar a varivel aleatria x. Os resultados da padronizao so: z = 3,0 (para x = 1) e z = 1 (para x = -1). Agora, voc vai a Tabela 1 (anexo da apostila) para: (1) achar a rea direita de z = 3,0, que igual a 0,9987; (2) achar a rea direita de z = 1, que igual a 0,8413; (3) calcular a rea entre z = 3,0 e z = 1,0, que dada pela diferena (0,9987 0,8413), que igual a 0,1574. Portanto, a resposta : a rea sob a curva normal entre x = -1,0 e x = 1,0 0,1574, ou seja, 15,74% da rea sob a curva normal est entre os dois pontos de x.
Exemplo 6: Achar a rea sob a curva normal ( = 3 e = 2) entre x = 2 e x = 7.
Veja a soluo grfica na Figura 5.5-b. Primeiro de tudo preciso padronizar a varivel aleatria x. Os resultados da padronizao so: z = -0,5 (para x = 2) e z = 2,0 (para x = 7). Agora, voc vai a Tabela 1 (anexo da apostila) para: (1) achar a rea esquerda de z = - 0,5, que igual a 0,3085; (2) achar a rea direita de z = 2, que igual a 0,9772; (3) calcular a rea entre z = -0,5 e z = 2,0, que dada pela diferena (0,9772 0,3085), que igual a 0,6687. Portanto, a resposta : a rea sob a curva normal entre x = 2,0 e x = 7,0 0,6687, ou seja, 66,87 % da rea sob a curva normal est entre os dois pontos de x.
Exemplo 7: Achar rea sob a curva normal ( = 6 e = 3) entre x = 0 e x = 12.
Veja a soluo grfica na Figura 5.5-c. Primeiro de tudo preciso padronizar a varivel aleatria x. Os resultados da padronizao so: z = -2,0 (para x = 0) e z = 2 (para x = 12). Agora, voc vai Tabela 1 (anexo da apostila) para: (1) achar a rea direita de z = 2,0, que igual a 0,9772; (2) achar a rea esquerda de z = -2, que igual a 0,0228; (3) calcular a rea entre z = 2,0 e z = -2,0, que dada pela diferena (0,9772 0,0228), que igual a 0,9544. Portanto, a resposta : a rea sob a curva normal entre x = 0 e x = 12 0,9544, ou seja, 95,44 % da rea sob a curva normal est entre os dois pontos de x.
5.4. Populaes normalmente distribudas e variveis aleatrias:

Agora chegou a vez de ver como se usa as reas sob as curvas normais para encontrar as probabilidades para x (aproximadamente). Antes, porm, vamos fazer algumas consideraes sobre populaes e variveis aleatrias normalmente distribudas.
_
A grande maioria (no todas) das populaes e variveis aleatrias que so representadas por quantidades como peso, volume, rea basal, DAP etc. tem distribuio de probabilidade que pode ser representada, pelo menos aproximadamente, por meio de curvas normais. Em outras palavras, as probabilidades para tais quantidades podem ser encontradas por meio da interpretao das reas sob as curvas normais. Vamos ver isso com exemplos.
Exemplo 8: Uma populao consistindo do peso (em kg) de um grupo de 100 estudantes de mestrado. Os dados da populao esto sumarizados no quadro abaixo.
Quadro 5.2: distribuio de pesos de uma populao em intervalos de 1 kg. Peso (x) freqncia (f) f relativa (prob) 69 1 ,01 70 2 ,02 71 6 ,06 72 13 ,13 73 17 ,17 74 20 ,20 75 18 ,18 76 12 ,12 77 7 ,07 78 3 ,03 79 1 ,01
O histograma e o polgono de freqncias (absoluta e relativa) dos dados contidos no quadro 5.2 so apresentados na Figura 5.6. Como em qualquer populao, podemos associar a esta populao de pesos, uma varivel aleatria x, como o peso de um estudante selecionado ao acaso. Neste caso, as probabilidades de x so simplesmente as freqncias relativas. Exemplo: qual probabilidade de pegar um estudante com peso igual a 72 kg? Resposta: 13% ou 0,13 (freqncia relativa do quadro 5.2). O ponto importante deste exemplo que o histograma de freqncia (Figura 5.6) tem uma quase perfeita forma de sino. Por causa disto, seremos capazes de aproximarmos das probabilidades para x usando as reas sob uma curva normal. Como voc pode notar, a curva normal apropriada simplesmente aquela com os parmetros e , onde a mdia da populao (ou da varivel aleatria x) e o seu desvio padro. Do quadro 5.2, a mdia () da varivel aleatria x igual a 70,06 kg e o seu desvio padro () igual a 1,95. Estes dois parmetros podem ser sobrepostos Figura 5.6 para trabalhar com uma curva normal com = 74,06 e = 1,95. Podemos querer saber, por exemplo, qual a probabilidade (rea) de pegar, aleatoriamente, um estudante com 72 kg. Do quadro 5.2, temos a probabilidade exata disto acontecer, olhando apenas para a freqncia relativa desta classe (72), que 0,13 ou 13%. A propsito, a classe 72 vai de 71,5 a 72,5. Desta forma, podemos escrever assim: P (71,5 < x < 72,5) = 0,13. No entanto, o mundo real diferente. Nem sempre voc tem uma populao to pequena e to bem organizada que permite ter e e as freqncias relativas. Vamos trabalhar, agora, sem as freqncias relativas. Voc tem uma populao com = 74,06 e = 1,95 e quer saber qual a probabilidade (rea) de pegar, aleatoriamente, um estudante com 72 kg. Passos necessrios: (1) desenhar a curva normal com = 74,06 e = 1,95; (2) definir o qu voc est procurando, que a probabilidade P (71,5 < x < 72,5); (3) padronizar as variveis aleatrias, x = 71,5 e x = 72,5; (4) achar as reas para os respectivos z sob a CNP (Tabela 1 do anexo da apostila). Soluo: a padronizao das variveis aleatrias x = 71,5 e x = 72,5 resulta em z = 1,31 e z = -0,80, respectivamente. Agora, voc vai Tabela 1 para encontrar as reas sob a CNP para z = -1,31 e z = -0,80, obtendo as reas 0,0951 e 0,2119, respectivamente. O resultado ento: 0,2119 - 0,0951 = 0,1168, ou seja, a probabilidade de selecionar, aleatoriamente, um estudante com peso igual a 72 kg (71,5 a 72,5) de 11,68%.
Sumarizando: a probabilidade exata de selecionar, aleatoriamente, um estudante com peso igual a 72 kg de 13% e a estimada de 11,68%. Um importante ponto do exemplo 8 que, para certas populaes e certas variveis aleatrias, podemos usar as reas sob a curva normal para determinar as probabilidades. Neste caso, podemos dizer que a populao ou a varivel aleatria normalmente distribuda. Dizer que uma populao ou varivel aleatria normalmente distribuda (aproximadamente) significa que as probabilidades para a populao ou varivel aleatria so aproximadamente iguais s reas sob a curva normal.
5.5. Padronizando a varivel aleatria:

J vimos que para encontrar as reas sob a curva normal com parmetros diferentes de = 0 e = 1 preciso usar a padronizao, ou seja, converter os valores de x para valores de z por meio da seguinte frmula:
z=
antes de usar a curva normal padro (CNP). Vamos ver o significado de z e seus desdobramentos com exemplos.
Exemplo 9: Considere o DAP de uma rvore selecionada ao acaso. Ento, DAP uma varivel aleatria x com mdia = 100 cm e desvio padro = 10. Por meio da padronizao da varivel x teremos
z=
x 100 10
e se pegarmos, aleatoriamente, uma rvore qualquer da ZF-2, com 120 cm de DAP, por exemplo, o que acontece?
z = (120 100) / 10 = 2
Qual o significado deste nmero, z = 2? Isto significa que a rvore selecionada, aleatoriamente, com DAP = 120 cm est a dois desvios () da mdia da populao. O processo pode ser tambm invertido, ou seja, temos o z e queremos encontrar o valor da varivel aleatria x. Vamos ao exemplo.
Exemplo 10: temos z = 1,5; isto , a varivel x est 1,5 vez da mdia. Qual x? 1,5 = (x 100) / 10 = ? x = 100 + 10(1,5) = 115
ou seja, nesta populao, uma rvore para estar 1,5 vez do desvio, tem que ter DAP igual a 115 cm. Agora, vamos ao principal ponto desta seo. Considere x uma varivel aleatria normalmente distribuda com mdia e desvio padro . Ento, a varivel aleatria, que pode ser padronizada da seguinte maneira:
z=
tem a distribuio normal padronizada. Desta maneira, ns calculamos as probabilidades para a varivel x por meio da interpretao das reas sob a CNP. Daqui para frente, este fato ser usado como guia.
Exemplo 11: pense na floresta adulta (DAP 25 cm) do Distrito Agropecurio da Suframa, onde todos os DAPs so normalmente distribudos com = 35 cm e = 5.
Sabemos que a varivel x padronizada
z=
x 35 5
tem a distribuio normal padro. Isto quer dizer que, de acordo com as propriedades da CNP temos
P( 3 < z < 3) = 0,9973 P( 2 < z < 2 ) = 0,9545 P( 1 < z < 1) = 0,6827

Considerando que z simplesmente o nmero de desvios padres que x se afasta de sua mdia, podemos dizer que as probabilidades para intervalos contendo 1 desvio, 2 desvios e 3 desvios so, respectivamente, 0,6827, 0,9545 e 0,9973. No caso da floresta do Distrito, isto quer dizer, com base nos parmetros de mdia = 35 cm e desvio = 5, temos o seguinte: (i) P (-1 < z < 1) 35 1 (5) = 30 => limite inferior do intervalo 35 + 1 (5) = 40 => limite superior do intervalo (ii) P (-2 < z < 2) 35 2 (5) = 25 => limite inferior do intervalo 35 + 2 (5) = 45 => limite superior do intervalo (iii) P (-3 < z < 3) 35 3 (5) = 20 => limite inferior do intervalo 35 + 3 (5) = 50 => limite superior do intervalo Sumarizando: a) 68,26% das rvores do Distrito tm DAPs entre 30 e 40 cm b) 95,44% das rvores do Distrito tm DAPs entre 25 e 45 cm c) 99,74% das rvores do Distrito tm DAPs entre 20 e 50 cm
rea = 0,1660
z
-3 -2
Z = -0,97
-1
=0
Figura 5.2-a: rea esquerda de z = -0,97
rea = 0,9938
z
-3 -2 -1 0 1 2 3
Z = 2,5
=0
Figura 5.2-b: rea direita de z = 2,5
Passo 1: rea para z = -1,04
Passo 2: rea para z = 2,06
rea = 0,1492
rea = 0,9803
z
-3 -2
Z = -1,04
z
-3 -2 -1 0 1 2 3
Z = 2,06
-1
=0
=0
Final: rea entre z = - 1,04 e z = 2,06
z
-3 -2
Z = -1,04
-1
3
Z = 2,06
=0
rea = 0,9803 0,1492 = 0,8311
Figura 5.2-c: entre z = - 1,04 e z = 2,06
= -2 =1
x
-5 -4 -3 -2 -1 0 1
Figura 5.3-a: curva normal com
=3 =2
x
-3 -1 1 3 5 7 9
Figura 5.3-b: curva normal com
=6 =3
-3
12
15
Figura 5.3-c: curva normal
ASSIMETRIA
POSITIVA
NEGATIVA
Figura 5.4: Assimetria das curvas normais
rea sob a curva normal ( = -2 e = 1) entre x = 1 e x = -1) Padronizando x x- z = ----------- 1 (-2) z = ------------ = 3,0 1 -1 - (-2) z = ------------ = 1,0 1
x z
-5 -3 -4 -2 -3 -1 -2 0 -1 1 z=1 0 2 1 3 z=3
Figura 5.5-a: Exemplo 5

rea sob a curva normal ( = 3 e = 2) entre x = 2 e x = 7) Padronizando x x- z = ----------- 2 (3) z = ------------ = -0,5 2 7 - (3) z = ------------ = 2,0 2
x
-3 -1 1 3 5 7 9
z
-3 -2 -1 z = - 0,5 0 1 z=2 2 3
Figura 5.5-b: Exemplo 6

rea sob a curva normal ( = 6 e = 3) entre x = 0 e x = 12) Padronizando x 0 (6) x- z = ------------ = -2,0 z = -----------3 12 - (6) z = ------------ = 2,0 3
x
-3 0 3 6 9 12 15
z
-3 -2 -1 0 1 2 3
z = -2,0
z = 2,0
Figura 5.5-c: Exemplo 7
25 20
0,25 0,2 0,15 0,1 0,05 0 69 70 71 72 73 74 75 76 77 78 79
15 10 5 0
peso (kg)
Figura 5.6: Histograma e polgono de freqncia (absoluta e relativa).
freq relativa (prob)
freq absoluta
Captulo 6 Distribuio amostral da mdia ( x )

Todo eng florestal sabe que o inventrio florestal o primeiro passo para planejar o manejo sentido lato de uma floresta, nativa ou artificial. O inventrio, por sua vez, consiste em obter uma mdia representativa da populao de interesse, seja em termos de volume, rea basal ou outra varivel de interesse. O que uma mdia representativa? Por analogia, mdia (volume) de uma floresta o mesmo que a mdia usada para definir caf-com-leite em muitos bares do sul e sudeste do Brasil. Em um copo de 100 ml, uma mdia deveria ter 50 ml de caf e 50 de leite. Certo? Errado ... porque se fosse assim, o balconista no teria na ponta da lngua aquela pergunta: mais caf ou mais leite? Mais leite ou mais caf vai depender do gosto do fregus e da mo do balconista. Voc tem que confiar ou parar de tomar aquela mdia naquele bar. De qualquer modo, o total do copo no passar de 100 ml, ou seja, o excedente de caf (+) ser anulado pelo que falta de leite (-) ou viceversa. Vamos mostrar neste captulo que a estimativa de uma mdia tende sempre a ser parecida com a mdia verdadeira da populao. O que muda o desvio padro, que base de clculo da incerteza. A tendncia diminuir a incerteza (que bom) com o aumento da intensidade de amostragem. Portanto, mdia representativa aquela que proporciona confiana (incerteza sob controle) e conforto ($) para quem vai us-la.
6.1. Amostras aleatrias

Amostra pode ser um nico indivduo ou um conjunto deles. No caso de pesquisas de opinio, cada eleitor uma amostra. No caso de inventrio florestal, um conjunto de rvores corresponde a uma amostra. Na Amaznia, vrios estudos apontam que parcela de 2.500 m2 suficiente para cobrir as variaes (volume) de uma determinada rea florestal com DAP 20 cm, ou seja, um conjunto com aproximadamente 50 rvores. Em geral, as amostras tm que ser tomadas de forma aleatria, pois foi assim que a estatstica de inferncia foi concebida. No entanto, a amostragem aleatria pode ser desdobrada em: inteiramente aleatria e aleatria restrita. Tanto nos inventrios, como em pesquisas de opinio, a aleatria restrita a mais utilizada por causa dos custos de coletas de dados e tem produzido bons resultados. No caso de eleies presidenciais, a populao de eleitores brasileiros estratificada por sexo, idade e, principalmente, por densidade eleitoral. Em inventrios na Amaznia, a maioria utiliza a amostragem em dois estgios, ou seja, seleciona aleatoriamente a unidade primria e distribui as unidades secundrias de forma sistemtica. Intensidade de amostragem o nmero total de amostras ( n ) dividido pelo nmero total de possveis amostras em uma populao ( N ). Por exemplo: os institutos de pesquisas (Ibope, Datafolha etc.) ao realizar uma pesquisa de opinio sobre eleies presidenciais no Brasil, tm utilizado em torno de 4.000 eleitores de um total de 115 milhes; neste caso, n = 4.000 e N = 115 milhes. No nosso caso, se voc tem uma rea de 1.000 hectares e quer instalar 100 amostras de 2.500 m2 cada ( hectare) para realizar o inventrio florestal; neste caso n = 100 e N = 4.000 (n total de possveis amostras de, ha, ou seja, 20x125m). Do ponto de vista terico, vamos mostrar como calcular as probabilidades de x usando as reas sob as curvas normais. Isso quer dizer que temos que determinar a distribuio da probabilidade da varivel aleatria x . A distribuio de probabilidade de x chamada de distribuio amostral da mdia.
_ _ _
6.2. A mdia da mdia ( x ) e o desvio padro de ( x )

O primeiro passo para descrever a distribuio amostral da mdia saber como encontrar a mdia e o desvio padro da varivel aleatria x . Isto necessrio para usar os mtodos da curva normal para encontrar as probabilidades para x . As frmulas para calcular essas duas variveis so:
_ _
i =1
xi p xi
(x )
i xi
n 1
p xi
Vamos ver isso por meio de um exemplo meio irreal. Vamos considerar as idades (congelada em 2003) de cada membro de minha famlia (eu, mulher e 3 filhos) como uma populao, ou seja, N = 5. Esta situao nunca ser encontrada na vida real porque para saber a idade mdia dessa famlia basta somar as 5 idades e dividir por 5 ... ningum vai utilizar os recursos da amostragem. No entanto, se voc entender o significado da estimativa da mdia da populao e o comportamento do erro padro da mdia conforme se aumenta intensidade de amostragem, para uma pequena populao (N = 5), fica mais fcil entender essas duas variveis aleatrias quando for trabalhar com uma populao grande ou infinita (nmero de eleitores do Brasil, N = 115 milhes, floresta da ZF-2 etc.). Temos 3 situaes ilustrando a utilizao de 3 intensidades diferentes de amostragem anexos 1, 2 e 3. A situao 1 se refere a uma amostragem considerando n = 2, ou seja, escolha aleatria de 2 pessoas para estimar a mdia da populao. Primeiro voc tem que saber quantas combinaes so possveis ao sortear 2 (n) de um conjunto de 5 (N) pessoas. S para lembrar: fatorial de zero (0!) igual a 1 e fatorial de nmeros negativos ou no inteiros no existe. Isto mostrado na pgina que ilustra a situao 1. Depois disso, voc tem que estimar a mdia de cada combinao possvel. Aplicando a frmula de x voc vai encontrar a mdia da mdia de todas as possveis combinaes. Voc vai notar que a mdia da mdia exatamente igual mdia verdadeira da populao. Repetindo as mesmas operaes para as situaes 2 e 3, respectivamente, amostragens de n = 3 e n = 4, voc vai notar que a mdia da mdia ser sempre igual mdia da populao, mudando apenas o desvio padro da mdia. Resumindo: a mdia da amostra ser sempre muito parecida com a da populao e conforme voc aumenta o n, o desvio padro da mdia (ou erro ou incerteza) diminui. Voc se convenceu desta afirmativa? Se no, melhor tentar a vida em outra praia. Se sim, vamos pensar agora em termos de populao de verdade. Vamos falar de eleitores brasileiros. Em geral, os institutos utilizam aproximadamente 4.000 eleitores para inferir sobre a populao de 115 milhes de eleitores brasileiros. Quantas possveis combinaes so possveis quando a gente utiliza n = 4000 de N = 115 milhes? s fazer as contas ... mas no as faa.
_
115.000.000 4.000
115.000.000 ! = ------------------------------------possveis combinaes 4.000 ! (115.000.000-4.000) !
bvio que ningum vai fazer todas as possveis combinaes. Se fizesse, a mdia da mdia seria exatamente igual mdia da populao. Ento, o que feito? As empresas tomam apenas uma nica combinao de 4000 eleitores para inferir sobre a populao de eleitores pressupondo que a mdia estimada na pesquisa ser igual da populao e que n = 4000 produzir uma incerteza (erro) menor que n = 3.999. Em uma floresta de porte mdio como a da ZF-2, por exemplo, com 21.000 hectares, temos N = 84.000 (21000 x 4) amostras possveis de ha cada. Se a gente usar n = 50, quantas possveis combinaes seriam possveis? Vrias. Quantas combinaes a gente faria no caso de um inventrio florestal? Certamente, apenas uma. A nossa expectativa ter uma mdia (volume ou outra varivel) representativa da populao com uma margem de erro aceitvel. A mdia importante porque sem ela no h planejamento. No entanto, mais importante mesmo saber com que margem de erro (incerteza) a gente est trabalhando. importante tambm no perder de vista que a intensidade de amostragem est diretamente relacionada com os custos. No caso de inventrios, voc tem duas alternativas: (1) fixa a incerteza e libera os custos ou (2) fixa os custos e libera a incerteza. Em geral, a segunda alternativa a mais freqente. H meios para se prevenir de incertezas indesejadas. Em inventrios florestais, voc pode se prevenir utilizando boas imagens, bons mapas, bons equipamentos e mtodos adequados de amostragem, em combinao com planejamento de coleta e processamento dos dados. Estamos falando de erros de amostragem (o erro que voc comete por medir apenas parte da populao). No confundir com erros no-amostrais (humanos, principalmente), que no so tratados aqui. No esquecer tambm que n denominador.
6.3. Teorema do limite central

Vimos at aqui que a confiana na mdia passa pela confiana nas probabilidades que a gente trabalha. No prximo captulo vamos ver como calcula a incerteza de uma estimativa. Aqui, vamos nos concentrar nas probabilidades obtidas usando as reas sob as curvas normais. Temos a curva normal padro com = 0 e = 1. Com a integrao da funo que descreve esta curva, a gente obtm as probabilidades. Estas reas j foram calculadas por vrios autores e esto disponveis em apndices de livros de estatstica, tabela-z. No mundo real, a curva normal com estas caractersticas no existe. Por esta razo, a gente tem que padronizar as possveis curvas normais para utilizar a tabela-z. As curvas normais podem ser, dentro de limites bem definidos, assimtricas ou achatadas, diferentes da forma de sino. Para isso, h testes para saber se as suas variveis de interesse esto dentro desses limites. Difcil mesmo fazer a nossa varivel ficar dentro dos limites da distribuio normal. No entre em pnico ainda! O remdio para essa situao o teorema do limite central. O que diz este teorema? Quando uma amostragem aleatria de tamanho n (onde n pelo menos igual a 30) tomada de uma populao, a x aproximadamente normalmente distribuda com x = e desvio padro da mdia x = /
_ _ _
_
n . Nestas condies, as probabilidades para x podem ser
encontradas, aproximadamente, utilizando as reas sob a curva normal com os parmetros e x . Isto quer dizer que: independentemente da forma que a distribuio de sua varivel aleatria assumir, voc pode calcular as probabilidades usando a tabela-z, desde que n 30. Significa tambm que para as amostras aleatrias de qualquer distribuio com mdia e desvio padro x , a mdia amostral dessas unidades de tamanho n aproximadamente normal e esta aproximao melhora conforme se aumenta o n. Para se chegar a este nmero mgico igual a 30, foram feitas inmeras simulaes at constatar que acima deste nmero no se percebe diferenas entre as reas sob a curva normal e de outras funes. Tanto em trabalhos de pesquisas ou de inventrios florestais, o ideal utilizar uma amostragem com, pelo menos, 30 unidades amostrais. Se voc fizer assim, a incerteza que voc encontrar, consistente; caso contrrio, voc ter que comprovar a normalidade antes de inferir. A propsito, uma amostragem com n < 30 considerada pequena e a curva-t a que tem que ser utilizada para a obteno das probabilidades.
_ _
Anexo 1
Situao 1 Tomando uma amostragem com n = 2 de uma populao com N = 5 Quantas combinaes so possveis?
N! 5! 120 N = = = 10 combinaes = n n!( N n )! 2!(5 2)! 12

Populao nome idade Amostragem comb. idade1 idade2
_
x
48,5 36,5 35,5 31,5 34,0 33,0 29,0 21,0 17,0 16,0
x*p
4,85 3,65 3,55 3,15 3,40 3,30 2,90 2,10 1,70 1,60
30,2 9,43
Desvio
NH MIGH IGH FGH GGH mdia desvio
51 46 22 20 12 30,2 17,21
1 2 3 4 5 6 7 8 9 10
51 51 51 51 46 46 46 22 22 20
46 22 20 12 22 20 12 20 12 12
0,1 0,1 0,1 0,1 0,1 0,1 0,1 0,1 0,1 0,1 x x
_ _
33,49 3,97 2,81 0,17 1,44 0,78 0,14 8,46 17,42 20,16 88,86
= 30,2 x = 30,2 Coincidncia? No!

_
Anexo 2
Situao 2 Amostragem de n = 3 da populao com N = 5 Quantas combinaes so possveis?
N! 5! 120 N = = = 10 combinaes = n n!(N n )! 3!(5 3)! 12

Populao nome idade Amostragem comb. idade1 idade2 idade3
_
x
39,67 39,00 36,33 31,00 28,33 27,67 29,33 26,67 26,00 18,00 x x
_ _
x*p
3,97 3,90 3,63 3,10 2,83 2,77 2,93 2,67 2,60 1,80
30,20 6,28
Desvio
NH MIGH IGH FGH GGH

mdia
51 46 22 20 12
30,2
1 2 3 4 5 6 7 8 9 10
51 51 51 51 51 51 46 46 46 22
46 46 46 22 22 20 22 22 20 20
22 20 12 20 12 12 20 12 12 12
8,96 7,74 3,76 0,06 0,35 0,64 0,08 1,25 1,76 14,88 39,49
desvio
17,21
= 30,2 x = 30,2 Coincidncia de novo? No!

_
Anexo 3
Situao 3 Amostragem de n = 4 da populao de N = 5 Quantas combinaes so possveis?
5! 120 N! N = = = 5 combinaes = n n!( N n )! 4!(5 4 )! 24

Populao nome idade idade1 Amostragem idade2 idade3 idade4
_
x
34,75 32,75 32,25 26,25 25
x*p
6,95 6,55 6,45 5,25 5
30,2 3,85
desvio
NH MIGH IGH FGH GGH

mdia desvio
51 46 22 20 12
30,2 17,21
51 51 51 51 46
46 46 46 22 22
22 22 20 20 20
20 12 12 12 12
0,2 0,2 0,2 0,2 0,2 x x

_ _
4,141 1,301 0,841 3,121 5,408 14,812
= 30,2 x = 30,2 Coincidncia? No! Por que no? 1) Se voc usar todas as possveis combinaes, a mdia da mdia x ser sempre igual a mdia da populao , independentemente do tamanho da amostragem. 2) O que muda o desvio padro da mdia ou erro padro, ou seja, conforme aumenta a intensidade de amostragem, diminui o erro, aumenta a preciso e diminui a incerteza da sua estimativa.
_ _
CAPTULO 7 Estimando a mdia da populao

7.1. Intervalos de confiana:
Vimos no captulo 5 que razovel usar uma mdia amostral x para estimar a mdia da populao ( ). A Lei dos Grandes Nmeros diz que: se uma grande amostragem aleatria tomada de uma populao, a x tende a ser parecida com . No captulo 6 discutimos o Teorema de Limite Central que diz: se uma amostragem aleatria de tamanho n (n 30) tomada de uma populao com mdia e desvio padro , ento x (aproximadamente) normalmente distribuda e, por esta razo, podemos encontrar as probabilidades para x usando as reas sob a curva normal com parmetros e /
E AGORA?? Qual a confiana sobre a preciso envolvida ao usar x para estimar ?
_
n.
Estamos falando do Intervalo de Confiana (IC), que ser definido com exemplos.
Exemplo 1: Um estatstico est interessado em obter informaes sobre a mdia em altura de uma populao, , de todos os adultos masculinos de uma grande cidade.
Com base em experincia anterior ele sabe que o igual a 2,5. Se ele tomar uma amostragem aleatria de 30 adultos, qual a probabilidade da altura mdia x estar dentro de 1 da altura mdia da populao, ?
_
Soluo: Queremos encontrar a probabilidade da x estar dentro de 1 de ; que , P

( - 1 <
_
< + 1 ). Como n 30, recorremos ao Teorema de Limite Central para

_
encontrar as probabilidades para x usando as reas sob a curva normal com parmetros (que no conhecemos) e / n = 2,5 / 30 = 0,46.
Ento, para encontrar P ( - 1 < x < + 1 ), precisamos encontrar a rea sob a curva normal (com parmetros e 0,46) entre - 1 e + 1. Desta vez no conhecemos - 1 e + 1, ao contrrio de exemplos anteriores. Mas, mesmo assim, podemos resolver o problema pela padronizao de nossa varivel aleatria, da seguinte maneira:
_
z = x 0,46
O valor de z para x = - 1 z = [ ( - 1) - ] / 0,46 = -1 / 0,46 = -2,17 E o valor de z para x = + 1 z = [ ( + 1) - ] / 0,46 = 1 / 0,46 = 2,17
_ _
Da tabela 1, tiramos as reas sob a curva para z = -2,17 e z = 2,17, que so respectivamente 0,0150 e 0,9850. A rea, ento, compreendida entre -2,17 e 2,17 : rea = 0,9850 - 0,0150 = 0,97 Conseqentemente,
P ( - 1 < x < + 1 ) = 0,97
_
Quer dizer: a probabilidade da x estar entre 1 da de 0,97.

Vamos colocar a expresso anterior de outra maneira: que a x deve estar 1 da , que o mesmo que dizer que est entre 1 de x . Isto pode ser re-escrito da seguinte maneira: P ( x - 1 < < x + 1) = 0,97
_ _ _ _
Em outras palavras, sabemos que se uma amostragem aleatria de 30 adultos masculinos

tomada, ento a probabilidade do intervalo de x - 1 a x + 1 conter de 0,97.
_ _
Suponha agora, por exemplo, que quando o pesquisador tomar uma amostragem aleatria, ele consegue x = 67, ento
_ _ _
x - 1 = 66 e x + 1 = 68
Ele sabe que, 97% destes intervalos contero e, por esta razo, ele pode estar 97% certo de que a estar entre 66 e 68. Desta forma, o intervalo de 66 a 68 chamado de IC 97% para .
7.2. Especificando o nvel de confiana:

Na seo anterior vimos como encontrar o IC para uma mdia da populao , com base na informao obtida de mdia amostral x . No exemplo anterior especificamos o tamanho da amostragem e a forma do IC e, com estas especificaes, calculamos a confiana. Entretanto, freqentemente desejvel especificar a confiana a priori.
Exemplo 2: A companhia de telefone est interessada em obter informaes sobre o tempo mdio, , de cada chamada. Um levantamento preliminar indicou que o desvio padro das chamadas = 4,4 minutos. Ao monitorar (no grampear) aleatoriamente 100 chamadas,
_
n = 100, chegou-se a um tempo mdio x = 5,8 minutos.

Sabendo que x = 5,8, encontrar o IC 95% para
_
Nesta questo (ao contrrio das questes consideradas previamente) a confiana especificada a priori: queremos um IC a 95%. A soluo para este problema o inverso do procedimento usado para resolver o exemplo 1, o que implica em usar a tabela 1 no sentido inverso, ou seja, voc tem a rea sob a curva (rea = 0,05) e precisa encontrar o valor de z.
Soluo: Encontrar o valor-z, para o qual a rea sob a CNP (curva normal padro) direita deste z, 0,025 (rea/2) e esquerda de z. Note que a rea total sob a CNP 1, ento estamos falando de uma rea equivalente a [1 - 0,025 ] = 0,975 e 0,025. Dessa maneira, para
resolver este problema precisamos encontrar o valor-z que tem uma rea entre 0,975 e 0,025 sua esquerda. Na tabela 1, o valor-z que tem uma rea de 0,975 sua esquerda 1,96 - no encontro da linha 1,9 com a coluna 6, voc tem uma rea de 0,9750. Neste caso, voc tem o valor exato de 0,9750 (1 - 0,025) na tabela. Se o valor exato no for encontrado, faa interpolaes. O valor-z que tem uma rea de 0,025 sua esquerda -1,96. Agora, voltando companhia telefnica: sabemos que n = 100 e, em funo podemos recorrer ao TLC (teorema de limite central) para assumir que x aproximadamente normalmente distribuda com x = (que no conhecemos) e o desvio padro:
_ _
n = 4,4
100 = 0,44
Assim, a varivel aleatria z ter a seguinte frmula
z = ( x ) 0,44
e ter aproximadamente uma distribuio normal padro. Como queremos o IC 95% para , podemos coloc-lo da seguinte maneira: P ( -1,96 < z < 1,96 ) = 0,95 P ( -1,96 < [ x - ] / 0,44 < 1,96 ) = 0,95 P ( x - 1,96*0,44 < < x + 1,96*0,44 ) = 0,95 P ( x - 0,86 < < x + 0,86 ) = 0,95 substituindo o valor de x = 5,8, teremos os seguintes intervalos:
_ _ _ _ _ _
x - 0,86 = 5,8 - 0,86 = 4,94

e
_
x + 0,86 = 5,8 + 0,86 = 6,66

Concluindo que o intervalo entre 4,94 e 6,66 minutos o IC 95% para . A companhia pode ter 95% de confiana que a durao mdia de uma chamada, , da cidade est entre 4,94 e 6,66 minutos.
7.3. Intervalos de confiana para mdias: grandes amostras

No exemplo anterior encontramos o IC 95%. O nmero 0,95 conhecido como o nvel de confiana ou coeficiente de confiana. Em estatstica, costuma-se escrever 0,95 como 1 0,05. Este nmero subtrado de 1 para obter o nvel de confiana que representado pela letra grega . Para IC 95%, = 0,05; para IC 90%, o nvel de confiana = 0,10 e assim por diante.
Procedimento para encontrar o IC para , baseado em x :

Requisitos: (1) n 30 e (2) conhecido Passo 1: Se o nvel de confiana desejado 1 - , use a tabela 1 para encontrar z /2 Passo 2: O IC desejado para :
x -z
/2
*(/
n ) para x + z
/2
*(/
n )
_
onde z /2 obtido seguindo o passo 1, n o tamanho da amostragem e x obtida dos dados da amostragem.
Exemplo 3: Uma empresa florestal est interessada em obter informaes sobre o dimetro mdio, , de sua floresta. Um estudo preliminar indicou que = 10 cm. O empresrio decidiu verificar esta informao com base em uma amostragem de 30 rvores.
Ele encontrou uma mdia amostral das 30 rvores, x = 40 cm. Baseado nestas informaes, vamos encontrar o IC 90% para a .
Soluo: Checando primeiro: n 30 - OK!; e conhecido. Podemos, ento, aplicar os passos necessrios:
1. O nvel de confiana 0,90 = 1 - 0,90; logo = 0,10 e da tabela 1 tiramos z 2. Desde que z
/2
_
/2
= z 0,05 = 1,64
_
= 1,64, n = 30, = 10 e x = 40, o IC 90% para ser:

/2* /
x - z
a x + z
/2*
substituindo os valores conhecidos 40 - 1,64 * 10 /

30 a
40 + 1,64 * 10 /
30
37 a 43
Concluindo: o empresrio pode ter 90% de confiana que o dimetro mdio, , de sua floresta est entre 37 a 43 cm.
At agora assumimos que o conhecido. Entretanto, na maioria dos casos, isto no possvel. Uma maneira de lidar com isto fazer um levantamento piloto para estimar o . Quer dizer: podemos usar o desvio padro amostral s no lugar do . Isto aceitvel porque, para grandes amostras ( n 30 ), o valor de s extremamente parecido a ser uma boa aproximao de . A conseqncia matemtica disso a seguinte (recorrendo tambm aoTLC):
x s n
em vez de
E os outros procedimentos so os mesmos apresentados no quadro anterior, substituindo apenas por s . Exemplo 4: No Quadro 7.1 so apresentadas informaes sobre rea basal por hectare de 30 unidades amostrais (ua) selecionadas aleatoriamente de 2 transectos de 20 x 2.500 m, distribudos nas seguintes classes topogrficas: plat, encosta e baixio. Os procedimentos so os mesmos utilizados anteriormente e os resultados so: plat => encosta => baixio =>
IC (95%) = x 2,5 = 31,2 2,5 = 28,7 < < 33,6 IC (95%) = x 2,3 = 28,5 2,5 = 26,2 < < 30,8 IC (95%) = x 2,1 = 26,5 2,5 = 24,4 < < 28,6
_ _
O segundo termo aps o sinal () pode ser considerado como incerteza ou margem de erro. Assim, as incertezas para plat, encosta e baixio so, respectivamente: 0,0799, 0,0808 e 0,0785, ou seja, as incertezas (em %) so de 7,99%, 8,08% e 7,85%.
7.4. A distribuio t (de student):

Nas sees anteriores deste captulo vimos como encontrar o IC para , quando lidamos com grandes amostras ( n 30 ). Entretanto, em muitos casos, quando grandes amostras no esto disponveis, extremamente caras ou, por alguma razo, simplesmente indesejvel, voc tem que dar outro jeito porque a curva-z no se aplica nestas condies. Neste caso, recorremos curva-t em vez da curva-z.
Detalhe importante: para obter IC para a mdia da populao, a partir de pequenas amostras ( n < 30 ), a populao, por si s, tem que ser aproximadamente normalmente distribuda.
Se n < 30, no podemos usar a CNP para encontrar as probabilidades para o IC. Entretanto, um pesquisador chamado W.S. Gosset desenvolveu curvas de probabilidade que podem ser usadas, em vez da CNP. Estas curvas so conhecidas como curvas-t de student ou simplesmente curvas-t. A forma de uma curva-t depende do tamanho da amostra. Se a amostra de tamanho n, ns identificamos a curva-t em questo dizendo que a curva-t com (n-1) graus de liberdade. Se tomamos uma amostra aleatria de tamanho n de uma populao que aproximadamente normalmente distribuda com mdia , a varivel aleatria
t = (x ) s
tem a distribuio-t com (n - 1) graus de liberdade. As probabilidades para esta varivel aleatria pode ser encontrada usando as reas sob a curva-t com (n - 1) graus de liberdade tabela 2. As curvas-t variam conforme os graus de liberdade, como ilustrado na figura 7.1.
E as curvas-t tm as seguintes propriedades:
A rea total sob qualquer curva-t igual a 1. As curvas-t so simtricas em torno de zero. As curvas-t se estendem indefinidamente em ambas as direes. Conforme aumenta o nmero de graus de liberdade, as curvas-t ficam mais parecidas com a CNP.
A maneira de encontrar a rea sob a curva-t a mesma usada na CNP.
7.5. Intervalos de confiana para mdias - pequenas amostras:

Vamos ver agora os procedimentos para encontrar os IC para baseada em x , quando o tamanho da amostra menor que 30 ( n < 30 ). Vamos ilustrar o procedimento com um exemplo. Procedimento para encontrar o IC para , baseado em x :
Requisitos: Populao normal Passo 1: Se o nvel de confiana desejado 1 - , use a tabela 2 para encontrar t /2 Passo 2: O IC desejado para :
_ _
x -t
/2
*(s/
n ) para x + t
/2
*(s/
n )
_
onde t /2 obtido seguindo o passo 1, n o tamanho da amostragem e x e s so obtidas dos dados da amostragem.
Exemplo 4: Um vendedor de pneus est interessado em obter informaes a respeito da durabilidade mdia ( ) de uma nova marca. O fabricante diz que a nova marca foi feita para aguentar 40.000 milhas, ou seja, = 40.000. O vendedor quer testar, por sua conta, a durabilidade dos pneus.
Para isto, ele decide tomar uma amostragem aleatria de 16 pneus e conferiu a milhagem de cada um.Os resultados deste teste o seguinte: Pneu 1 2 3 4 5 6 7 8 milhagem 43.725 40.652 37.732 41.868 44.473 43.097 37.396 42.200 Pneu 9 10 11 12 13 14 15 16 Milhagem 39.783 44.652 38.740 39.385 39.686 44.019 40.220 40.742
Usando estes dados, vamos encontrar o IC 95% para , considerando que a durabilidade do pneu normalmente distribuda.
Soluo: Vamos usar o procedimento definido anteriormente; neste caso com n = 16.
1. O nvel de confiana desejado 0.95, isto , = 0,05. Usando a tabela 2 para (16-1) = 15 graus de liberdade. t /2 = t 0,025 = 2,13 2. O IC 95% :
_
_
x - 2,13*( s /
n ) para x + 2,13*( s /
_
n )
Dos dados deste exemplo (dos pneus) temos:
x = 41.148,13
e s = 2.360, 32 Conseqentemente
x - 2,13*( s /
x + 2,13*( s /
_
n ) = 41.148,13 - 2,13 * (2.360,32/ 16 ) = 39.891,26

n ) = 41.148,13 + 2,13 * (2.360,32/ 16 ) = 42.405,00
Isto quer dizer que o vendedor pode ter 95% de confiana que a (durabilidade mdia da nova marca) est entre 39.891 a 42.405 milhas. Desta forma, o fabricante est correto em afirmar que a nova marca tem = 40.000 milhas.
Quadro 7.1: Dados de rea basal (m2/ha) em dois transectos na ZF-2 distribudos em classes topogrficas (plat, encosta e baixio).
transecto 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 mdia desvio IC(95%) ua 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 plat 41,4 43,7 26,1 33,8 33,3 37,2 31,0 18,6 33,2 32,4 26,2 41,3 19,6 34,8 27,3 39,5 30,1 24,6 36,6 34,7 60,7 44,7 26,3 24,5 26,6 22,2 35,7 19,4 17,0 52,6 26,6 36,7 33,3 20,6 57,7 38,8 43,2 23,6 28,4 17,6 18,9 27,6 47,7 23,9 21,1 22,3 19,7 27,4 39,2 27,7 28,5 18,0 39,0 28,1 34,0 25,3 26,4 40,6 21,3 31,1 31,2 9,8 2,5 encosta 21,8 28,2 22,1 14,9 21,9 27,5 30,9 36,5 21,9 28,5 28,4 31,5 32,7 30,8 29,9 23,5 18,4 18,4 24,0 16,3 15,9 35,0 19,9 31,3 18,4 31,1 11,3 24,3 47,0 24,8 27,0 30,9 23,8 27,9 28,2 36,6 17,6 33,5 30,2 39,9 38,0 26,6 32,7 56,0 59,8 34,7 29,8 28,5 25,3 9,4 32,3 31,2 28,1 28,1 39,7 21,5 38,7 29,4 25,5 34,0 28,5 9,1 2,3 baixio 28,2 22,1 29,6 39,3 43,2 39,7 40,7 22,6 12,4 15,8 25,6 40,6 26,4 21,8 35,8 34,6 20,6 21,1 24,3 41,6 29,6 41,9 36,7 23,5 27,4 28,1 12,3 23,5 29,6 23,4 6,4 26,9 21,1 17,2 25,2 23,7 14,5 27,7 28,6 37,5 26,1 25,7 18,6 24,2 19,2 15,2 42,3 20,4 26,1 27,0 35,6 24,9 25,2 20,8 23,1 24,9 23,1 23,5 21,3 30,7 26,5 8,2 2,1
Curva normal
Curva-t com 12 gl
Curva-t com 3 gl
-3
-2
-1
0 1
-3 -2 -1 0 1
-3 -2 -1 0 1
Figura 7.1.: Diferentes curvas-t com diferentes graus de liberdade (gl).
Captulo 8 Testes de hipteses para mdias

8.1. Introduo:
No Captulo 7 aprendemos como fazer uma predio educada1 (inferncia) sobre uma mdia da populao olhando a mdia amostral x de uma amostra aleatria da populao. Neste captulo, vamos fazer o inverso; vamos fazer uma predio educada ou levantar uma hiptese sobre a e ento vamos usar a x para fazer inferncia concernente a nossa hiptese. Em outras palavras, usaremos x para decidir se a nossa hiptese concernente correta.
Exemplo 1: O DAP mdio da floresta do Distrito Agropecurio da SUFRAMA (rea de 600.000 ha) = 38 cm. Vamos ver neste captulo como usar o DAP mdio tomado de
_ _ _
uma amostragem aleatria (por ex., n = 30, correspondente a 30 hectares), x , para decidir se aquilo que hipotetizamos ( = 38 cm) est correto ou no. Dizemos ento que = 38 cm a hiptese nula (h0), que pode ser escrita da seguinte maneira: Hiptese nula: = 38 Que pode ser testada contra a hiptese de que a no igual a 38 cm, conhecida como hiptese alternativa (h1), que pode ser escrita da seguinte maneira: Hiptese alternativa: 38 (que pode ser tambm < 38 ou > 38) A questo agora : como usar a x para tomar a deciso? A idia simplesmente a seguinte: sabemos que x dever ser aproximadamente igual a , ou seja, se = 38 (assumindo que h0 verdadeira), podemos esperar que a x (o DAP estimado) seja mais ou menos igual a 38 cm. E agora? O quo prximo de 38 precisa estar o DAP mdio para ser considerado estatisticamente igual a ? Se a gente olhar para h1, precisamos responder: o quo distante de 38 precisa estar o DAP mdio para ser considerado diferente da ? Ou ento: o quo menor ou o quo maior para testar as hipteses alternativas ( < 38 ou > 38)? Matematicamente falando, precisamos encontrar um ponto para tomada de deciso, d, tal que se x d ou se x < d ou se x > d, ento rejeitamos h0 ( = 38). Geralmente os estatsticos usam 1, 5 ou 10% como limites para d antes de rejeitar h0. Os nmeros 0,01 (1%), 0,05 (5%) e 0,10(10%) so chamados de nveis de significncia do teste e so geralmente denotados como .
Como escolher as hipteses para serem testadas??
_ _ _ _ _ _
Em geral a escolha das hipteses nula (h0) e alternativa (h1) bastante subjetiva. Como regra bsica podemos dizer que h0 leva sempre o sinal de ( = ); exemplos: = 38, 1 = 2 (mdia da populao 1 igual a mdia da populao 2) e assim por diante.
1
predio educada pode ser traduzida como um chute certeiro de um Romrio por exemplo.
A h1 pode ser quebrada em duas situaes: - teste uni-caudal: neste caso, ou olhamos direita de d quando temos h1: > 38, ou esquerda de d quando temos h1: < 38. Outra situao 1 < 2 ou 1 > 2. - teste bi-caudal: olhamos simultaneamente direita e esquerda de d e o qu acontecer primeiro transforma-se no argumento principal para rejeitar h0 e, neste caso, em vez de ns temos que usar /2.
Observao: Desde que o nvel de significncia seja a probabilidade de rejeitar uma h0 verdadeira, improvvel que h0 ser rejeitada quando ela for verdadeira. Conseqentemente, se podemos rejeitar h0 num teste de hiptese, ento podemos estar razoavelmente confiantes que h1 verdadeira. Por outro lado, se no podemos rejeitar h0, isto no prova que h0 seja verdadeira, simplesmente quer dizer que ela razovel, nada mais.
H dois tipos de erros quando aceitamos a hiptese que no verdadeira, Tipo I e Tipo II, que ilustramos no quadro abaixo:
hiptese que Aceita h0 h1 H0 OK! erro Tipo I hiptese que verdadeira h1 erro Tipo II OK!
8.2. Montando um Teste de Hiptese: Grandes Amostras

Veremos agora o procedimento para montar um teste de hiptese referente mdia de uma populao, , quando o tamanho da amostragem considerado grande (n 30). Para executar este teste podemos recorrer a curva normal padro (distribuio), vista anteriormente, que diz que quando tomamos uma amostra aleatria de n 30 de uma populao com mdia , ento a varivel aleatria tem aproximadamente a distribuio normal padro.
z=
(x )
s n
8.2.1. Testes de Hipteses para uma mdia simples: teste unicaudal para grandes amostras.
(i) Olhando apenas o lado esquerdo da curva:
Procedimentos: 1. Hiptese nula: = 0 2. Hiptese alternativa: < 0 3. Condicionante: tamanho da amostragem n 30 4. Escolher o nvel de significncia2 . Normalmente = 0,01, 0,05 ou 0,10 5. O valor crtico d = - z. Usar Tabela 1 para encontrar o valor de z.
2
hoje em dia a maioria dos pacotes estatsticos j do diretamente o valor exato de .
6. Calcular o valor de
z=
7. Se z < d, rejeitar a hiptese nula.
(x 0 )
(s n )
(ii) Olhando apenas o lado direito da curva:
Procedimentos: 1. Hiptese nula: = 0 2. Hiptese alternativa: > 0 3. Condicionante: tamanho da amostragem n 30 4. Escolher o nvel de significncia . Normalmente = 0,01, 0,05 ou 0,10 5. O valor crtico d = z. Usar Tabela 1 para encontrar o valor de z. 6. Calcular o valor de
z=
7. Se z > d, rejeitar a hiptese nula.
(x 0 )
(s n )
8.2.2. Testes de Hipteses para uma mdia simples: teste bi-caudal para grandes amostras.
Neste caso vamos olhar esquerda e direita da curva e, por esta razo, temos dois nveis crticos ou pontos de deciso d. Procedimentos: 1. Hiptese nula: = 0 2. Hiptese alternativa: 0 3. Condicionante: tamanho da amostragem n 30 4. Escolher o nvel de significncia . Normalmente = 0,01, 0,05 ou 0,10 5. Os valores crticos so d = - z/2 e d = z/2. Usar Tabela I para encontrar os valores de z/2. 6. Calcular o valor de
z=
(x 0 )
(s n )
7. Se z < - d ou z > d, rejeitar a hiptese nula.
8.2.3. Testes de Hipteses para Diferena entre Mdias de Amostras Independentes Grandes Amostras:
Neste caso estamos considerando a possibilidade de comparar dois stios diferentes. Queremos, por exemplo, comparar (querer saber) e o DAP mdio da floresta do Distrito
Agropecurio da SUFRAMA (municpio de Manaus) igual ao DAP mdio da FLONA (Floresta Nacional) do Tapajs (Santarm, Par). Estatisticamente podemos fazer isso da seguinte maneira: Hiptese nula: 1 = 2 Hiptese alternativa: 1 2 ou 1 < 2 ou 1 > 2 sendo: 1 = mdia da populao 1 (Manaus) e 2 = mdia da populao 2 (Santarm). Agora, vamos usar a x de cada populao para fazer inferncia concernente a nossa hiptese. Considere x 1 a mdia amostral da populao 1 tirada de uma amostra aleatria de tamanho n1 de uma populao com mdia 1; e x 2 a mdia amostral da populao 2 tirada de uma amostra aleatria de tamanho n2 de uma populao com mdia 2. Assumindo tambm que as duas amostras so independentes e, se n1 e n2 so ambas maiores que 30, ento a varivel aleatria
_ _ _
x1 x 2 (1 2 ) z= 2 s12 n1 + s 2 n 2
) (
tem aproximadamente a distribuio normal padro. Aqui s1 e s2 so os desvios padres amostrais das respectivas populaes. Agora, se a hiptese nula verdadeira ( 1 = 2 ), ento a frmula de z fica assim
x1 x 2 (1 2 ) z= 2 2 s1 n1 + s 2 n 2
) (
e tem aproximadamente a distribuio normal padro. Procedimentos: 1. Hiptese nula: 1 = 2 2. Hiptese alternativa: 1 < 2 3. Condicionante: n1 e n2 30 4. Escolher o nvel de significncia . Normalmente = 0,01, 0,05 ou 0,10 5. O valor crtico d = - z. Usar Tabela I para encontrar o valor de z. 6. Calcular o valor de
z=
x1 x 2 2 2 s1 n1 + s 2 n 2
) (
7. Se z < d, rejeitar a hiptese nula.
Para o teste uni-caudal com hiptese alternativa 1 > 2, o procedimento o mesmo que o anterior, mudando apenas o valor crtico d que d = z e, conseqentemente, a rea de rejeio da h0 passa a ser z > d. Para o teste bi-caudal com hiptese alternativa 1 2, o procedimento o mesmo tambm, usando os dois valores crticos e, em vez de , usamos /2. A rejeio de h0 se dar em funo do qu ocorrer primeiro, ou z < d ou z > d.
8.3. Montando um Teste de Hiptese para Pequenas Amostras:

Nem sempre possvel fazer um trabalho de pesquisa usando uma intensidade de amostragem considerada grande (n 30), ou simplesmente no tem muitas amostras disponveis, ou so extremamente caras, ou, por qualquer outra razo, so indesejveis. Para isso, existe teste para pequenas amostras, e o teste t o contraparte para o teste z. A nica e principal diferena que, neste caso, temos que comprovar a normalidade de nossos dados. Vimos em captulos anteriores que para pequenas amostras (n < 30), a varivel aleatria no tem a distribuio normal padro. Mas, se assumirmos que a populao que estamos amostrando aproximadamente normalmente distribuda, ento a varivel aleatria tem a distribuio t de Student com (n-1) graus de liberdade. Conseqentemente, quando consideramos populaes normalmente distribudas, podemos fazer testes de hipteses para mdias usando pequenas amostras, da mesma maneira como foi feito para grandes amostras.
t=
x s n
8.3.1. Teste de Hiptese para uma Mdia Simples de Pequenas Amostras:

Procedimentos: 1. Hiptese nula: = 0 2. Hiptese alternativa: > 0 3. Pressuposto: populao normal 4. Escolher o nvel de significncia . Normalmente = 0,01, 0,05 ou 0,10 5. O valor crtico d = t. Usar Tabela II para encontrar o valor de t com (n-1) gl. 6. Calcular o valor de
t=
7. Se t > d, rejeitar a hiptese nula.
x 0 s n
Para o teste uni-caudal com hiptese alternativa 1 < 0, o procedimento o mesmo que o anterior, mudando apenas o valor crtico d que d = - t e, conseqentemente, a rea de rejeio da h0 passa a ser t < d. Para o teste bi-caudal com hiptese alternativa 1 2, o procedimento o mesmo tambm, usando os dois valores crticos e, em vez de , usamos /2. A rejeio de h0 se dar em funo do qu ocorrer primeiro, ou t < d ou t > d.
8.3.2. Teste de Hiptese para Diferenas entre Mdias de Amostras Independentes (e Varincia igual) de Pequenas Amostras:
Vimos anteriormente como fazer este teste quando temos amostras independentes com n1 e n2 30. Agora, vamos ver como lidar com este teste quando n1 e n2 so menores que 30. Assim como no caso de mdia simples, podemos usar a distribuio t de Student; a diferena aqui que, alm de assumir que as duas populaes so aproximadamente normalmente distribudas, temos tambm que (i) considerar quando as varincias das populaes ( 12 e 22 ) so iguais e (ii) quando as varincias no so iguais. Neste captulo vamos trabalhar apenas com a condio de varincias iguais porque vamos ver como aplicar teste para saber se duas varincias so iguais ou no, no prximo captulo. As condicionantes sero as seguintes: (1) amostras aleatrias independentes tomadas de duas populaes; (2) as duas populaes so aproximadamente normalmente distribudas; (3) as duas populaes tm varincias iguais. Recapitulando: quando temos uma nica populao, usamos o desvio padro amostral s como a estimativa do desvio padro da populao . Quando trabalhamos com amostras aleatrias independentes de duas populaes com o mesmo desvio padro da populao (i.e., mesma varincia), a melhor estimativa do desvio padro comum (s duas populaes)
sp =
(n1 1)s12 + (n2 1)s 22

n1 + n 2 2
Onde s1 e s2 so desvios padres amostrais obtidos de amostragem da populao 1 e 2, respectivamente. O subscrito p em sp para indicar que estamos referindo a um desvio combinado de duas populaes. Se as populaes so normalmente distribudas e 12 = 22, ento a varivel aleatria tem a distribuio t de Student com (n1 + n2 2) graus de liberdade.
t=
(x1 x2 ) (1 2 ) s p (1 n1 ) + (1 n2 ) (x1 x2 ) (1 n1 ) + (1 n2 )
Considerando 1 = 2, ento 1 - 2 = 0 e se a hiptese nula verdadeira, ento tem a distribuio t de Studente com (n1 + n2 2) graus de liberdade.
t=
Procedimentos: 1. Hiptese nula: 1 = 2 2, Hiptese alternativa: 1 < 2
sp
3. Condicionantes: (i) amostras independentes; (ii) populaes normais; (iii) varincias das populaes iguais. 4. Escolher o nvel de significncia . Normalmente = 0,01, 0,05 ou 0,10 gl. 5. O valor crtico d = - t. Usar Tabela II para encontrar o valor de t com (n1 + n2 -2) 6. Calcular o valor de
t=
sp
(x1 x2 ) (1 n1 ) + (1 n2 )
sendo:
sp =
(n1 1)s12 + (n2 1)s 22

n1 + n 2 2
7. Se t < d, rejeitar a hiptese nula. Para o teste uni-caudal com hiptese alternativa 1 > 2, o procedimento o mesmo que o anterior, mudando apenas o valor crtico d que d = t e, conseqentemente, a rea de rejeio da h0 passa a ser t > d. Para o teste bi-caudal com hiptese alternativa 1 2, o procedimento o mesmo tambm, usando os dois valores crticos e, em vez de , usamos /2. A rejeio de h0 se dar em funo do qu ocorrer primeiro, ou t < d ou t > d.
Sumrio dos Procedimentos para Testar as Hipteses Discutidas neste Captulo um

Tipo Mdia Simples (grandes amostras) Condicionantes h0 h1 > 0 < 0 0 teste estatstico rea de rejeio rejeio z > z z < -z z > z/2 ou z < -z/2
n 30
(1) n1 30, n2 30 (2) amostras independentes populao normal
(1) amostras independentes (2) populaes normais (3) varincias iguais
= 0
[ x - 0 ] z = ------------[s / n ]
[x 1- x 2] z = ------------------------ [ s12 / n1 ] + [ s22 / n2 ] [ x - 0] t = -----------[s / n ]
[x 1- x 2] t = --------------------------sp (1 / n1) + (1 / n2 )
_ _
Duas Mdias (grandes amostras) Mdia Simples (Pequenas Amostras)

Duas Mdias (Pequenas Amostras)
1 = 2
= 0
1 > 2 1 < 2 1 2 > 0 < 0 0

1 > 2 1 < 2 1 2
z > z z < -z z > z/2 ou z < -z/2 t > t t < -t t > t/2 ou t < -z/2
t > t t < -t t > t/2 ou t < -t/2
1 = 2
Captulo 9 Inferncias sobre as varincias

9.1. Introduo:
Neste captulo vamos ver os mtodos usados para os testes de hipteses e intervalos de confiana para a varincia. No confundir com anlise de varincia (ANOVA), que utilizada para teste (comparao) de mdias e ser vista no captulo 11. Vamos apresentar o teste quiquadrado (2) e o teste-F. Na rea florestal, ainda no comum fazer este tipo de inferncia. Em qu situao podemos estar interessados em controlar a variao? J vimos que a mdia muito mais popular que a varincia; por essa razo, a maioria das inferncias feita com base nesta varivel. No caso de uma indstria de carro, por exemplo, temos um grande nmero de diferentes fornecedores (parafusos, porcas, rodas, espelhos etc.). Neste caso, podemos ter um fornecedor de rodas diferente de um fornecedor de parafuso. O encaixe da roda ao carro, no justo e tem sempre uma certa margem de segurana tanto no comprimento como na espessura do parafuso. Aquele que fabrica o parafuso fornece para vrios outros fabricantes e nem sempre consegue fazer os parafusos exatamente iguais. Neste caso, o controle de qualidade pode ser feito usando a inferncia sobre a varincia, seja do comprimento ou da espessura.
9.2. Teste estatstico 2 e a curva 2:

Exemplo 1: Um fabricante precisa produzir parafusos de aproximadamente 10 mm em dimetro para ajustar em buracos de 10,4 mm. Em princpio, sabe-se que as linhas de produo produzem parafusos com dimetros que se distribuem normalmente, mas a linha 1 mais barata do que a linha 2.
O fabricante avisa que a margem de segurana de 0,1 mm, ou seja, parafusos com dimetros variando de 9,9 e 10,1 mm passam pelo controle de qualidade. Chama-se uma estatstica e ela faz uma amostragem aleatria nas duas linhas de produo concluindo que o dimetro mdio em torno de 10 mm, mas alerta que um ou outro parafuso pode estar fora da especificao (da margem de segurana). Sendo assim, preciso testar as varincias antes de apresentar o relatrio de controle de qualidade das linhas de produo. Foram coletados 20 parafusos de cada linha de produo e tomadas as medidas de dimetro de cada um (Quadro 9.1). Aqui, duas questes precisam ser respondidas: (1) qual a varincia apropriada? (2) se as duas linhas de produo tm a mesma varincia, igualmente apropriada? Margem de segurana igual a 0,1 mm o mesmo que dizer que o desvio de 0,1 mm e varincia de 0,01 mm. Ento, para responder a questo 1, formulamos as seguintes hipteses para a linha de produo 2:
Hiptese nula:
2 = 0,01
Hiptese alternativa: 2 > 0,01

Para aplicar o teste, primeiro preciso estimar 2 usando s2. Depois, preciso escolher o teste estatstico. Neste caso, vamos usar o 2 (qui-dradrado). O 2 uma varivel aleatria, isto , o seu valor depende de uma chance para ocorrer. Tomando diferentes amostras, temos
diferentes valores de 2. A maneira de encontrar as probabilidades para 2 a mesma usada para determinar as probabilidades para a varivel aleatria z. Se uma varivel aleatria de tamanho n tomada de uma populao que normalmente distribuda com varincia 2, ento as probabilidades para a varivel aleatria
2 =
(n 1) s 2
2
podem ser encontradas usando as reas sob curvas especiais conhecidas como curvas de 2.
As principais caractersticas das curvas 2 so: diferentes para diferentes graus de liberdade; a curva comea no ponto-zero sobre o eixo horizontal e se estende direita; no so simtricas; a rea total sob a curva igual a 1 (um). Os valores de 2 podem ser obtidos diretamente na Tabela III. A Figura 9.1 apresenta trs diferentes curvas para diferentes graus de liberdade (GL).
9.3. Testes de hipteses para uma nica varincia:

Voltando ao exemplo 1, temos o seguinte: Suponha que uma varivel aleatria de tamanho n tomada de uma populao que normalmente distribuda com varincia 2, ento a varivel aleatria
2 =
(n 1) s 2
2
tem a distribuio qui-quadrado com (n 1) GL; ou seja, as probabilidades para a varivel aleatria 2 podem ser determinadas usando reas sob a curva 2 com (n 1) GL. O nosso exemplo consiste de 20 parafusos escolhidos aleatoriamente da linha de produo 2. A varincia estimada s2 = 0,058. Para testar as hipteses, temos que calcular o valor de 2:
2 =
(n 1) s 2
02
onde 02 o valor de 2 hipotetizada (neste caso, 02 = 0,01). Queremos saber se esta s2 est muito longe da 02 hipotetizada ou no, ou seja, se 0,058 igual a 0,01, do ponto de vista estatstico. Precisamos tambm escolher o nvel de significncia (). Para 19 (20 - 1) GL, 20,05 = 30,14 (Tabela III)
Assim, se a hiptese nula verdadeira, ento a probabilidade que o nosso 2 calculado seja maior do que 30,14 de 0,05. Em smbolos matemticos, podemos escrever P(2tabelado > 30,14) = 0,05. Dessa maneira, se a hiptese nula verdadeira, os valores 2 podem ocorrer apenas em 5% das vezes. Classificaremos os 2 > 30,14 como muito grandes (Figura 9.2). Como em captulos anteriores, vamos chamar 30,14 como valor crtico do teste.
Podemos agora executar o teste de hiptese:
Hiptese nula:
2 = 0,01
Hiptese alternativa: 2 > 0,01

Como a amostragem de 20 parafusos da linha de produo 2 produziu s2 = 0,058, temos
2 =
(n 1) s 2 = (20 1) 0,058 = 110,20

02
0,01
Desde 2 > 30,14, temos que rejeitar a hiptese nula e concluir que 2 > 0,01 para a linha de produo 2. O procedimento geral para montar o teste de hiptese para uma nica varincia o seguinte: 1. Definir as hipteses: - Hiptese nula:
2 = 02
- Hiptese alternativa: 2 > 02

2. Pressuposto: Populao normal 3. Definir o nvel de significncia () 4. O valor crtico c = 2 com (n-1) GL, obtido na Tabela III 5. Calcular o valor de
2 =
(n 1) s 2
02
onde 02 o valor hipotetizado na hiptese nula, n o nmero de amostras (ou observaes) e s2 a varincia amostral (estimada). 6. Deciso: Se 2 > c, rejeitar a hiptese nula.
9.4. Intervalos de Confiana para Varincias:

No captulo 7 aprendemos como encontrar o intervalo de confiana (IC) para uma mdia da populao, , baseado em uma mdia amostral, x . Neste seo vamos ver como encontrar o IC para a varincia da populao, 2, baseado em uma varincia amostral, s2. Para
_
montar o IC, vamos usar o fato que, se uma amostra aleatria de tamanho n tomada de uma populao que normalmente distribuda com varincia 2, ento a varivel aleatria
2 =
(n 1) s 2
02
tem a distribuio qui-quadrado com (n-1) GL. O procedimento geral para montar o IC o seguinte: 1. Pressuposto: Populao normal 2. Se o nvel de confiana desejado 1 - , usar a Tabela III para encontrar
21- e 2/2 com (n-1) GL

3. O IC desejado para 2
(n 1)s 2
2 2
para
(n 1)s 2
2
1 2
Exerccio 1: Voltando ao exemplo 1, vamos determinar o IC para a varincia da populao, 2, com base na varincia estimada, s2. Vamos usar o nvel de significncia de 10% ( = 0,10) e podemos escrever como 90% IC. Como estamos trabalhando com IC, temos que olhar para os dois lados (caudas) da curva-2 e, em vez de , usamos /2.
Primeiro, vamos Tabela III para encontrar 2/2 e 21-/2 2/2 = 20,05 = 30,14 21-/2 = 21-0,05 = 20,95 = 10,12 O 90% IC ser ento: 19 x (0,058) ----------------- a 30,14 19 x (0,058) ------------------10,12
0,037 a 0,109 ou IC (0,037<2<0,109) = 90%
Em outras palavras: com 90% de confiana, podemos afirmar que a varincia da populao de parafusos da linha de produo 2 est entre 0,037 a 0,109 mm.
9.5. O teste-F e as curvas-F:

Nas sees anteriores discutimos as situaes envolvendo somente uma varincia desconhecida. H ocasies que queremos comparar duas varincias desconhecidas. Neste caso, o melhor recurso usar o teste-F. Os valores de F so encontrados usando as curvas-F. Essas curvas dependem dos graus de liberdade (GL). As caractersticas das curvas-F so: as curvas so diferentes para diferentes GL; cada curva comea no ponto-zero no eixo horizontal e se estende direita;
no so simtricas; a rea total sob a curva-F igual a 1. As reas sob as curvas-F so apresentadas nas Tabelas IV ( = 0,01) e VI ( = 0,05). Se for preciso usar outros , preciso recorrer aos livros especializados. Para cada preciso uma tabela diferente porque so necessrios valores crticos especficos para cada combinao de GL.
(i) Uso do teste-F para comparao de duas varincias:
Imagine duas amostras aleatrias independentes de duas populaes que so normalmente distribudas. Vamos considerar:
n1 = tamanho da amostragem da populao 1 s12 = varincia amostral da populao 1
12 = varincia da populao 1 e n2, s22 e 22 so os valores correspondentes para a populao 2. Se 12 = 22, ento, a varivel aleatria
F = s12 / s22
tem a distribuio-F com (n1-1, n2 - 1) GL; ou seja, as probabilidades para a varivel aleatria F pode ser determinada usando as reas sob a curva-F com (n1-1, n2 - 1) GL. O procedimento geral para montar um teste de hiptese usando o F o seguinte: 1. Definir as hipteses: - Hiptese nula, H0: 12 = 22 - Hiptese alternativa, H1: 12 > 22 2. Pressupostos: (1) amostras independentes e (2) populaes normais 3. Escolher o nvel de significncia 4. O valor crtico c = F com (n1 - 1, n2 - 1) GL, onde n1 e n2 so os tamanhos das amostragens. 5. Calcular o valor de
F = s12 / s22;
onde s12 e s22 so as varincias amostrais das populaes 1 e 2. 6. Deciso: se F > c, rejeitar a hiptese nula.
Exerccio 2: Vamos comparar as varincias das linhas de produo 1 e 2.
Hiptese nula, H0: 12 = 22 Hiptese alternativa, H1: 12 > 22 A amostragem foi feita de forma independente e os dados so oriundos de uma populao normalmente distribuda. Dessa maneira, podemos usar o procedimento dado anteriormente assumindo = 0,05.
Para (19, 19) GL, o valor crtico F (ou c) aproximadamente 2,16. Quando s12 > s22 recomenda-se a inverso da frmula de F-estatstico, mantendo os mesmos GL. E o Festatstico
F = s22 / s12 = 0,058 / 0,008 = 7,25
Como F > c, podemos rejeitar H0, portanto, 22 > 12. Como sempre, o procedimento para o uso das duas caudas da curva-F basicamente o mesmo que para uma cauda, exceto que precisamos de dois valores crticos em vez de um s. Neste caso, precisamos olhar os dois lados da curva [/2 e (1 - /2)]. No primeiro lado, vamos encontrar nas tabelas IV e VI, para = 0,02 e = 0,10, respectivamente, ou seja, no temos nenhum problema. No entanto, o outro lado da curva (1 - /2), no h como tirar das tabelas. Por exemplo, se vamos definir = 0,10, um lado da curva (/2) ser 0,05 (Tabela VI) e o outro ser 1 - /2 = 0,95. Neste caso, o clculo do F0,95 pode ser feito da seguinte maneira: 1. Vamos considerar = 0,10 e os seguintes graus de liberdade (GL): numerador = 9 e denominador = 8. 2. Calcular o lado direito da curva, /2, F0,05, 9, 8 na Tabela VI, que igual a 3,39. 3. Calcular, ento, o lado esquerdo da curva, 1 - /2, F0,95, 9, 8, da seguinte maneira: - F0,95 para GL = (9,8) a recproca do valor F1-0,95 = F0,05 com os GL trocados (8,9). - Na Tabela VI, F0,95, 8, 9 igual a 3,23 - O F0,95, 9, 8 , ento igual a 1 / 3,23 = 0,31 4. Os valores de F para as duas caudas so: 0,31 e 3,39
Quadro 9.1: Dimetros (mm) de parafusos em duas linhas de produo. Parafuso 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Mdia Varincia Produo 1 9,91 9,97 9,84 9,97 10,18 10,08 10,03 10,02 9,88 10,03 10,05 10,18 10,06 9,98 9,91 10,07 9,98 10,1 9,99 9,97 10,01 0,008 Produo 2 10,48 10,07 9,89 10,38 9,5 9,95 9,81 9,87 10,13 10,03 10,26 9,73 10,29 9,97 10,38 9,94 10,14 10,17 10,17 10,09 10,06 0,058
F
0
Figura 9.1: Curva-F com (3,20) gl
2
0 5 10 15 20 25 30
Figura 9.2: Curva qui quadrado
Captulo 10 Teste de Qui-quadrado ( 2 )

10.1. Introduo:
Neste captulo vamos ver um teste estatstico baseado na distribuio de Qui-quadrado ( 2 ), conhecido como teste de qui-quadrado. Este teste pode ser usado tanto na estatstica paramtrica como na no paramtrica. O teste estatstico 2 e a curva 2 j foram descritos no captulo anterior (Captulo 9). Aqui, vamos enfatizar a aplicao deste teste para:
(i) Ajuste de curvas ou de distribuies: Exemplos:
1) Distribuio de dimetro: voc desenvolve uma funo para descrever a relao entre classes de dimetro e freqncia. Ao testar a confiabilidade dessa funo em outra rea, voc deve coletar novos dados e produzir a nova distribuio de freqncia. O passo seguinte confrontar a sua verdade de campo distribuio observada - com a distribuio hipotetizada (desenvolvida em outro local, por outro pesquisador) distribuio esperada. 2) Projeo da distribuio de dimetro: voc usa a cadeia de transio probabilstica Markov para fazer a projeo da dinmica da floresta de seu interesse. Voc usa, por exemplo, ano 2000 como hoje e 1997 como seu passado imediato perodo de 3 anos para fazer a projeo para um futuro imediato, 2003. Portanto, em 2003, voc tem condies de avaliar se a Cadeia de Markov confivel para este tipo de trabalho. Basta comparar a projeo feita (hipotetizada ou esperada) e confrontar com medies feitas em 2003 (observada). Se der no significante, significa que a projeo , estatisticamente, igual verdade de campo (medies realizadas em 2003) e voc pode confiar na Cadeia de Markov.
(ii) Independncia: Exemplos:
3) Ocorrncia de espcies nas diferentes classes topogrficas: imagine que voc no sabe nada disso, ento, voc vai hipotetizar que a distribuio seja a seguinte: 1/3 das espcies ocorrem no plat; 1/3 na encosta e 1/3 no baixio. Faa um levantamento em algumas toposseqncias e distribua as espcies de acordo com as classes topogrficas. Compare os valores observados seu levantamento com os valores hipotetizados (1/3, 1/3 e 1/3). Se der no significante, isso quer dizer a distribuio de espcies na sua rea de trabalho ocorre independentemente das classes topogrficas.
(iii) Homogeneidade: Exemplos:
4) Usando o exemplo (3): se voc quiser comparar uma toposseqncia da ZF-2 com uma da Reserva Ducke pra saber se essas toposseqncias so homogneas em relao a distribuio de nmero de espcies por classe topogrfica. Imagine que na ZF-2, a distribuio seja 40% no plat, 30% na encosta e 30% no baixio. A, voc faz o levantamento na Ducke e descobre que a distribuio 36% no plat, 32% na encosta e 32% no baixio.
Aplica o teste qui-quadrado pra checar se a distribuio da ZF-2 igual a da Ducke. Se der no significante, isso quer dizer as toposseqncias so homogneas.
10.2. Procedimentos para aplicar os testes em diferentes situaes:

Valor esperado => E Valor observado => O O valor crtico c tirado da Tabela III => c = 2 9.2).
10.2.1. Qui-quadrado ( 2 ) para teste de ajuste: Passos necessrios: Passo 1: formular as hipteses cientficas:
=> descritos no Captulo 9 (item
H0 => A populao grupada de acordo com uma determinada distribuio de probabilidade. H1 => A populao no grupada de acordo com uma determinada distribuio de probabilidade.
Passo 2: lembrar das seguintes condies => (i) E > 1 e (ii) mximo 20% de E < 5 Passo 3: Definir o => 10%, 5% ou 1%. Passo 4: Determinar o valor crtico c com (k 1) graus de liberdade, na Tabela III => k = nmero de grupos ou nmero de classes de dimetro. Passo 5: Calcular o 2
=
2
(O E )2
E
Passo 6: Deciso => Se 2 > c => rejeitar H0
Agora, vamos exemplificar com nmeros. Imagine uma populao de rvores com 120 indivduos tendo a seguinte distribuio de dimetro.
classes DAP 25 35 45 55 > 65 Total freqncia 24 48 24 12 12 120 probabilidade 0,2 0,4 0,2 0,1 0,1 1
Em seguida, voc faz um levantamento usando apenas parte da populao (neste caso 40 rvores) e quer saber se a amostra representativa. A distribuio de dimetro dessa amostragem apresentada abaixo incluindo a freqncia de acordo com a distribuio da populao (n = 120) e o 2.
classes DAP 25 35 45 55 >65
Freq obs. (O) 8 20 13 5 4 50
Freq esperada (E) 50 x 0,2 = 10 50 x 0,4 = 20 50 x 0,2 = 10 50 x 0,1 = 5 50 x 0,1 = 5
(OE) (8-10) = -2 (20-20) = 0 (13-10) = 3 (5-5) = 0 (4-5) = -1
(O-E)2 / E 0,4 0,0 0,9 0,0 0,2 1,5
k = 5 => 5 classes de DAP
H0: A distribuio de probabilidades das classes DAP da amostragem (n=50) igual a da populao (n=120). H1: A distribuio de probabilidades das classes DAP da amostragem (n=50) no igual a da populao (n=120).
= 0,05
Valor crtico c (tabela III com GL = 4) igual a 9,49

2 igual 1,5
Deciso => c (9,49) maior do que 2calculado (1,5); portanto, no rejeitar H0. Concluir que a distribuio da amostragem , estatisticamente, igual a da populao e, por essa razo, a amostragem representativa da populao.
10.2.2. Qui-quadrado ( 2 ) para teste de independncia ou tabela de contingncia.
Neste caso, vamos trabalhar com linhas (L) e colunas (C). O valor esperado de cada clula calculado da seguinte maneira: (total da linha) x (total da coluna) E = -----------------------------------------total de observaes
Passos necessrios: Passo 1: formular as hipteses cientficas:
H0 => As duas caractersticas so independentes. H1 => As duas caractersticas no so independentes

Passo 2: lembrar das seguintes condies => (i) E > 1 e (ii) mximo 20% de E < 5 Passo 3: Definir o => 10%, 5% ou 1%. Passo 4: Determinar o valor crtico c com (L-1) x (C-1) graus de liberdade, na Tabela III. Passo 5: Calcular o 2
=
2
(O E )2
E
Exemplificando com nmeros: Pesquisa com acidentes em relao ao sexo das pessoas envolvidas. Veja quadro abaixo com 2 colunas e 3 linhas.
local acidente no trabalho em casa Outros Total
homem 40 49 18 107
mulher 5 58 13 76
total 45 107 31 183
H0: a circunstncia de um acidente independente do sexo da vtima. H1: a circunstncia de um acidente no independente do sexo da vtima. Calculando os valores esperados (E): primeira linha e primeira coluna => (45 x 107) / 183 = 26,3 primeira linha e segunda coluna => (45 x 76) / 183 = 18,7 segunda linha e primeira coluna => (107 x 107) / 183 = 62,6 segunda linha e segunda coluna => (107 x 76) / 183 = 44,4 terceira linha e segunda coluna => (31 x 76) / 183 = 12,9 terceira linha e primeira coluna => 31 x 107) / 183 = 18,1 E o quadro com os valores observados e esperados o seguinte:
local acidente homem O E 40 26,3 49 62,6 18 18,1 107 mulher O E 5 18,7 58 44,4 13 12,9 76 total 45 107 31 183
no trabalho em casa outros total
O = valor observado e E = valor esperado
Checando: nenhum E menor do que 1 e no tem E < 5 => OK

= 0,01
Valor crtico c (tabela III com GL=2) igual a 9,21. GL = 2 => (L-1)(C-1) = (3-1)(2-1) = 2 Calcular 2 = (40-26,3)2/26,3 + ...... + (13-12,9)2/12,9 = 24,30 Deciso: 2 > c; logo, rejeitamos a H0.
10.2.3. Qui-quadrado ( 2 ) para teste de homogeneidade
Como para o teste de independncia, vamos trabalhar com linhas (L) e colunas (C). O valor esperado de cada clula calculado da seguinte maneira: (total da linha) x (total da coluna) E = -----------------------------------------total de observaes
Passos necessrios: Passo 1: formular as hipteses cientficas:
H0 => As duas caractersticas so homogneas.
H1 => As duas caractersticas no so homogneas

Passo 2: lembrar das seguintes condies => (i) E > 1 e (ii) mximo 20% de E < 5 Passo 3: Definir o => 10%, 5% ou 1%. Passo 4: Determinar o valor crtico c com (L-1) x (C-1) graus de liberdade, na Tabela III. Passo 5: Calcular o 2
=
2
(O E )2
E
Exemplificando: Comparando duas cidades estratificadas por cor da pele. Duas amostragens (n = 100 para as duas) so consideradas e o resultado apresentado no quadro abaixo.
amostragem brancos 83 87 170 negros 5 6 11 Outros 12 7 19 total 100 100 200
cidade 1 cidade 2
total
Calculando o valor esperado (E) para cada clula, o resultado o seguinte:

amostragem cidade 1 cidade 2 total brancos 85 85 170 negros 5,5 5,5 11 Outros 9,5 9,5 19 total 100 100 200
Hipteses: H0: Cidade 1 e cidade 2 tm a mesma % para cada cor de pele H1: Cidade 1 e cidade 2 no tm a mesma % para cada cor de pele Checando: nenhum E menor do que 1 e no tem E < 5 => OK
= 0,05
Valor crtico c (tabela III com GL=2) igual a 5,99. GL = 2 => (L-1)(C-1) = (2-1)(3-1) = 2 Calcular 2 = (83-85)2/85 + ...... + (7-9,5)2/9,5 = 1,52 Deciso: 2 < c; logo, no rejeitamos a H0, ou seja, cidade 1 e cidade 2 tm a mesma distribuio de cor de pele.
Captulo 11 Anlise de Varincia ANOVA

11.1. Introduo:
Apesar do nome, a anlise de varincia (ANOVA) usada para comparao de mdias. Vimos, anteriormente, que h vrios testes usados na comparao de mdia (teste t, Tukey, Bonferroni, Duncan etc). Por que usar a ANOVA? Usamos a ANOVA quando queremos compreender melhor a natureza da variao natural das diferentes fontes, alm de comparar as mdias. No fundo, ANOVA a partio (ou desdobramento) da variao total de acordo com as fontes de variao. A ANOVA aplicada para testar hipteses quando a pesquisa envolve mais de duas mdias. Trata-se de uma ferramenta estatstica amplamente utilizada e com um grau de sofisticao muito alto. Podemos, de forma muito simplista, definir os seguintes tipos de ANOVA: a) ANOVA de simples entrada => fontes de variao ou grupos classificados por um simples critrio como ENTRE os transectos e DENTRO (ou resduo ou erro) dos transectos => aplicado em experimentos inteiramente casualizados. b) ANOVA de dupla entrada => aplicao clssica em experimentos blocos casualizados => fontes de variao: BLOCO, TRATAMENTO e RESDUO (ou erro). c) ANOVA de tripla ou mltiplas entradas => aplicao clssica em experimentos fatoriais incluindo as interaes como fontes de variao. d) ANOVA aninhada (nested): aplicao em experimentos com parcelas subdivididas tipo Split Plot (clssico) ou quando o adapta para anlise de parcelas repetidas. e) ANOVA para regresso: tanto para as regresses lineares (simples e mltiplas) e no lineares (simples e mltiplas) => para explicar o quanto da variao dos dados explicado pelo modelo utilizado. f) MANOVA => anlise de varincia de vrias variveis, simultaneamente. Na verdade, voc arma a ANOVA de acordo com as fontes de variao estabelecidas, ou seja, desmembrando a variao total; o teste aplicado para testar as suas hipteses o testeF (Captulo 9, item 9.5). Em seguida, apresentamos os quadros auxiliares usados para ANOVA de simples entrada e para ANOVA de dupla entrada. ANOVA de simples entrada: Fontes de Variao Entre Dentro (Resduo) Total GL = graus de liberdade SQ = soma dos quadrados MQ = mdia quadrtica F = calculado GL SQ MQ F
ANOVA de dupla entrada: Fontes de Variao Blocos Tratamentos Resduos Total GL SQ MQ F
No primeiro caso (de simples entrada), voc determina o valor de F dividindo MQentre pela MQdentro. Antigamente, muito antigamente mesmo, voc pegava o Fcalculado e comparava com o Ftabela (funo dos GLs ENTRE e DENTRO e nvel de significncia ). Atualmente, os softwares estatsticos vo te dar o valor exato da probabilidade para inferncia => ento, em vez do valor de F no quadro auxiliar, o software vai te fornecer a probabilidade. No segundo caso (de dupla entrada), voc quer ver, separadamente, os efeitos dos blocos e dos tratamentos. Para isso, voc aplica o teste-F para blocos e para os tratamentos, separadamente. O valor de F para blocos voc consegue dividindo MQblocos pela MQresduos e para os tratamentos dividindo MQtratamentos pela MQresduos.
11.2. Procedimentos para aplicar a ANOVA de simples entrada:

n = nmero total de observaes (g * k) k = nmero de grupos g = nmero de observaes por grupo
Passos necessrios:
(i) Formular as hipteses H0 => 1 = 2 ...... = n H1 => nem todas as so iguais ou, pelo menos, uma diferente. (ii) Definir os tipos de dados que voc vai utilizar => dados mtricos (iii) Condies => as k populaes so normais com a mesma varincia. (iv) Definir o nvel crtico (v) Determinar o valor crtico c => c = F com (k-1) GL no numerador e (n-k) GL no denominador. (vi) Calcular F
MQentre F = -------------MQdentro
(vii) Deciso => Se F > c, rejeitar H0
11.3. Exemplo com aplicao das frmulas necessrias para o preenchimento do quadro de ANOVA:
a) Frmulas:
Variao entre os grupos:
Soma dos Quadrados => SQentre ou SQE g xij ( xij )2 2 n i =1 i =1 SQE = ( x media ) ou g n i =1
k
2
> GL para SQE => (k 1) Mdia Quadrtica => MQentre ou MQE

MQE = (SQE) / (k 1) Variao dentro dos grupos:
Soma dos Quadrados => SQdentro ou SQD g xij i =1 i =1 g

k
2
SQD = xij
i =1
> GL para SQD => (n - k) Mdia Quadrtica => MQdentro ou MQD

MQD = (SQD) / (n - k) Teste Estatstico => teste-F F = (MQE)/(MQD) b) Exemplo 1:
Estamos interessados em comparar a renda mdia anual de 4 companhias diferentes.Vamos s companhias e, aleatoriamente, pegamos a declarao de renda para o Imposto de Renda de 5 empregados de cada uma. O resultado apresentado no quadro seguinte (em R$ 1.000,00):
H0: 1 = 2 = 3 = 4 H1: nem todas so iguais n = 20 g=5 k=4 = 0,05
empreg 1 2 3 4 5 subtot
CIA1 46 53 54 29 27 209
CIA2 65 59 17 18 37 196
CIA3 37 13 65 42 33 190
CIA4 11 35 57 56 40 199
subtot 159 160 193 145 137 794
Quadro auxiliar
Fontes de Variao Entre Dentro (Resduo) Total GL 3 16 19 SQ 37,8 5486,6 5524,4 MQ 12,6 342,9 F 0,04
SQE = [ (2092 + 1962 + 1902 + 1992) / 5 ] [ (46 + 53 + 54 + .....56 + 40)2 ] / 20 = 37,8 SQD = [ 462 + 532 + ... 562 + 402 ] - [ (2092 + 1962 + 1902 + 1992) / 5 ] = 5.486,6 MQE = 37,8 / 3 = 12,6 MQD = 5.486,6 / 16 = 342,9 F = 12,6 / 342,9 = 0,04 Deciso => F0,05 = 3,24 para GL = 3, 16; logo, no rejeitar H0
c) Exemplo 2: Utilizando os dados do Quadro 7.1 vamos ver se h diferenas entre as estimativas de rea basal das diferentes classes topogrficas. Neste caso, vamos direto sada (output) do Systat, que a seguinte: Fontes de Variao Entre classes Dentro (Resduo) Total GL 2 177 179 SQ 659,83 14582,04 MQ 329,92 82,38 F 4,005 p 0,02
O resultado da ANOVA mostra p = 0,02. Se usssemos os nveis crticos tradicionais ( = 0,05 e = 0,01), a concluso poderia ser a seguinte: as diferenas em rea basal entre as classes topogrficas so significantes a 0,05, mas no a 0,01. Com esta facilidade o valor exato de voc deve concluir com aquilo que voc est vendo, ou seja, 0,02.
Captulo 12 Regresso e correlao

12.1 Introduo:
O objetivo da regresso obter uma expresso da dependncia de uma varivel Y sobre uma ou mais variveis independentes X. Tal expresso , matematicamente, conhecida como funo, logo, Y uma funo de X. Funo um relacionamento matemtico que nos capacita predizer quais valores de uma varivel Y, para dados valores de uma varivel X. Resumindo: Y = f (X). A regresso define o relacionamento estatstico entre as variveis tomadas e, a correlao, a estreiteza deste relacionamento. Na regresso estima-se o relacionamento de uma varivel com uma outra, expressando-se em termos de uma funo linear (ou uma outra mais complexa), enquanto que na anlise de correlao, s vezes, confundida com regresso, estima-se o grau para o qual duas ou mais variveis variam juntas. Os mtodos de regresso so de grande utilidade na derivao das relaes empricas entre vrios fenmenos, sendo aplicveis para: (i) encontrar uma funo estatstica que possa ser utilizada para descrever o relacionamento entre uma varivel dependente e uma ou mais variveis independentes e (ii) testar hipteses sobre a relao entre uma varivel dependente e uma ou mais variveis independentes. No manejo florestal, o uso da regresso fundamental na derivao de modelos matemticos: (i) para explicar o comportamento de uma espcie ou povoamento submetido a um determinado tipo de interveno; (ii) para desenvolver modelos de crescimento; (iii) desenvolvimento de equaes de volume e de biomassa; (iv) desenvolvimento de relaes hipsomtricas; (v) para alguns estudos da estrutura da floresta (distribuio em dimetro, por exemplo) etc. Ao olhar um povoamento florestal, voc pode achar que quanto maiores forem o dimetro e altura, maior ser o volume ou peso da rvore. Entretanto, voc no poder afirmar nada alm disso. Com o auxlio da regresso, voc ser capaz de expressar o relacionamento entre as variveis independentes dimetro e altura e o volume (ou peso) da rvore na forma de um modelo estatstico. Desta maneira, voc ser capaz de predizer o volume (ou peso) de uma rvore em p tendo apenas as medies de dimetro e altura. Dependendo do nmero de variveis independentes, a regresso pode ser simples (uma varivel) ou mltipla (mais de duas variveis) e, dependendo da natureza da equao bsica, a regresso pode ser linear ou no linear.
12.2. Equaes bsicas das curvas de ajuste:

Linear => Y = a + bX => linha reta Quadrtica => Y = a + bX + cX 2 => parbola Cbica => Y = Y = a + bX + cX 2 + dX 3 => curva do 3 grau Genrica => Y = Y = a + bX + cX 2 + ... + xX n => curva do n-simo grau Hiprbole => Y = 1 (a + bX ) Exponencial => Y = Y = ae bX Geomtrica => Y = Y = aX b
Todas as equaes bsicas podem ser linearizadas e, deste modo, as estimativas dos coeficientes de regresso podem ser obtidos usando procedimento tradicional de regresso linear. Este truque utilizado para facilitar o processamento dos dados. Entretanto, quando se tem recurso da informtica que permite trabalhar com processos iterativos para convergncia das estimativas dos coeficientes, o truque perde o sentido. Neste captulo, vamos demonstrar como so estimados os coeficientes de regresso e de correlao para a regresso linear simples. Sabendo como estimar os coeficientes de regresso e correlao da simples, voc poder, por analogia, estimar os coeficientes da regresso mltipla. No caso de regresso no linear, h duas alternativas: (i) linearizar a equao original e adotar os procedimentos das regresses simples ou mltipla e (ii) manter a equao original e estimar os coeficientes de regresso e correlao utilizando um dos seguintes mtodos: Gauss-Newton, Quasi-Newton e Simplex opes do software Systat.
12.3. Regresso linear simples:

Para se ter uma idia de regresso linear simples necessrio considerar uma populao com n indivduos, cada um com caractersticas xi e yi. Se a informao desejada uma expresso numrica para o relacionamento entre os valores x e y, o primeiro passo marcar os valores num sistema de coordenadas. Isto feito para dar uma evidncia visual do relacionamento das duas variveis. Se existir um relacionamento simples, os pontos marcados tendero a formar um modelo (uma linha reta ou uma curva). Se o relacionamento fraco, os pontos sero mais dispersos e, o modelo, menos definido. Uma linha reta representa a regresso linear simples, a qual geralmente definida pela equao
Y = a + bX
sendo: a = coeficiente de interseo (onde o valor de X corta o valor de Y) e b = coeficiente angular ou de inclinao (estimativa de Y para cada unidade de X acrescentada) Ver figura 12.1. Em regresso, um relacionamento funcional no significa que, dado um valor de X, o valor de Y tem que ser igual a a + b X, mas que o valor esperado de Y igual a a + b X. Em um exemplo real, as observaes no permanecem perfeitamente ao longo da linha de regresso. Isto devido ao erro aleatrio () e outros fatores no quantificveis. A forma mais utilizada de ajuste dos dados linha reta (regresso linear simples) por meio do mtodo dos mnimos quadrados (MMQ), que requer uma soma mnima dos desvios ao quadrado, entre os pontos observados e os estimados (sobre a reta).
(i) Condicionantes para o uso da regresso linear:
- Homogeneidade da varincia => a varincia de Y sobre a linha de regresso a mesma para todos os valores de X. Isto pode ser resolvido aplicando o teste de Bartlett. - Normalidade => o simples ajuste dos dados regresso (ou a descrio do relacionamento entre as variveis Y e X) no requer a distribuio normal de Y, mas se a anlise de varincia for realizada (o que bvio), preciso comprovar a normalidade ou utilizar o expediente do teorema de limite central (Captulo 6). - Independncia => independncia dos erros (afastamento da linha de regresso) das observaes. A validade desta condicionante melhor assegurada por meio de seleo das unidades de amostra de forma aleatria. No
caso de usar parcelas repetidas ou srie temporal, o teste Durbin-Watson a soluo.

(ii) Mtodo dos Mnimos Quadrados (MMQ):
Assume-se, tentativamente, que a linha de regresso de varivel Y sobre a varivel X tem a forma a + b X, que assume a seguinte expresso matemtica
Y = 0 + 1 X + i
o que quer dizer: para um dado X, um valor correspondente de Y consiste do valor 0 + 1 X mais uma quantidade i, o incremento pelo qual algum indivduo Y pode desviar-se da linha de regresso. Os coeficientes 0 e 1 so desconhecidos. O erro i muito difcil de ser encontrado porque ele varia para cada observao Y. Entretanto, 0 e 1 permanecem fixos e, apesar de no poder encontr-los exatamente sem o exame de todas as possveis ocorrncias de Y e X, pode-se utilizar as informaes disponveis para obter as estimativas a e b de 0 e 1, respectivamente. Desta maneira, podemos escrever o modelo acima, como um modelo estatstico da seguinte maneira
Ye = a + bX
onde Ye o valor estimado de Y para um dado X, quando a e b so conhecidos. A questo, agora, saber como determinar os coeficientes a e b. Como falamos anteriormente, ser utilizado o MMQ para a determinao dos coeficientes. Vamos fazer esta demonstrao a partir da figura 12.1.:
Figura 12.1: Valores observados versus valores estimados pela regresso.
Vamos considerar Yi = valor observado Yei = valor estimado Nesta figura temos 6 valores de X. A equao da reta ajustada passa exatamente entre os pontos (X) observados. O desvio () a diferena entre o valor observado (Y) e o valor estimado (Ye) pela equao da reta para o mesmo valor de X. Vamos comear a demonstrao adiantando que vamos chamar a soma dos desvios ao quadrado de S e S tem que ser mnimo (zero), assim (i)2 = S = 0 => i variando de 1 a n sem esquecer que i = Yi - Yei sendo: Yei = a + b Xi logo i = Yi (a + b Xi) Continuando o desenvolvimento do MMQ. (1)2 + (2)2 + (3)2 + ... (n)2 tem que ser mnimo logo S = (i)2 = (Yi Yei)2 tem que ser mnimo e
S = (Yi (a + b Xi))2
O passo seguinte derivar esta expresso S para a e b, da seguinte maneira: S/a = 2 ( Yi a b Xi) (-1) S/b = 2 ( Yi a b Xi) (-1Xi) Como S tem que ser mnimo, S/a e S/b podem ser igualados a zero, tal que as estimativas sejam dadas da seguinte maneira: -2 ( Yi a b Xi) = 0 -2 Xi ( Yi a b Xi) = 0 e dividindo tudo por (-2) e completando as outras operaes algbricas, as expresses ficam assim Yi a b Xi = 0 Xi Yi a Xi b Xi2 = 0 e, finalmente, temos as seguintes equaes normais:
an
+ b Xi = Yi
a Xi + b Xi2 = XiYi Pelo mtodo de substituio, os coeficientes sero:

a = ( Yi b X i ) n
b = (SPC xy ) (SQC x )
Ento, para estimar os coeficientes de regresso a e b, voc tem que saber os seguintes somatrios: Yi, Xi, XiYi e Xi2. Para facilitar os clculos manuais, monte a seguinte quadro auxiliar. As frmulas de SPC e SQC so encontradas no Captulo 3. Quadro 12.1: Quadro auxiliar para estimar os coeficientes de regresso.
obs Y X Y2 X2 XY (Y-Ye)2
1 2 . . .
N Y X Y2 X2 XY (Y-Ye)2
Comentrios:
i)
Com os coeficientes de regresso estimados temos condies de descrever o relacionamento linear entre a varivel dependente Y e a independente X. Mais para a frente, vamos mostrar como se estima o coeficiente de correlao e a preciso da equao. A reta dos MMQ passa pelo ponto (Xmdio, Ymdio), isto , quando X = Xmdio temse Ye = Ymdio O coeficiente de regresso b, coeficiente angular ou de inclinao, fornece a variao que ocorre em Y, por unidade de X.
ii) iii)
12.4. Correlao linear:

Depois da determinao dos coeficientes de regresso, vamos verificar o quo estreito o relacionamento linear entre as variveis Y e X. De uma amostragem aleatria (X e Y) de tamanho n de uma populao normalmente distribuda, a estimativa do coeficiente de correlao, r, obtida da seguinte maneira:
r=
SPCxy SQC X SQCY
O coeficiente de correlao tem o mesmo sinal do numerador e, conseqentemente, o mesmo sinal do coeficiente de regresso b. E mais, o r independe das unidades de medida das variveis Y e X. O coeficiente de correlao varia de -1 a +1
r positivo => os maiores valores de Y esto relacionados com os maiores valores de X ou os menores de Y esto relacionados com os menores de X. r negativo => os maiores valores de Y esto relacionados com os menores valores de X ou vice-versa. r = 0 => Y no tem relacionamento linear com X. r = 1 => perfeito relacionamento linear entre a varivel dependente (Y) e a independente (X).
12.5. Preciso da regresso estimada:

Depois de estimar os coeficientes de regresso e de correlao, podemos descrever o relacionamento entre Y e X e sabemos o quo estreito este relacionamento linear. O passo seguinte saber o quo precisa a equao resultante. Primeiro, considere a seguinte identidade Yi - Yei = ( Yi - ) - ( Yei - ) elevando ao quadrado os dois lados e somando de i = 1 at n, tem-se (Yi - Yei)2 = [(Yi - ) (Yei - )]2 = [(Yi - )2 (Yei - )2 2 (Yi - ) (Yei - )] = (Yi - )2 (Yei - )2 2 (Yi - ) (Yei - ) e re-escrevendo o 3 termo de modo a ter ( Yi Yei)2 = (Yi - )2 (Yei - )2 tal que, o resultado final desta operao
(Yi - )2 = ( Yi Yei)2 + (Yei - )2 SQCY = SQRES + SQREG
Qual o significado de cada termo?

(Yi - )2 => SQCY = soma dos quadrados corrigidos de Y ( Yi Yei)2 => soma dos quadrados sobre a regresso = SQRES (Yei - )2 => soma dos quadrados devido a regresso = SQREG
Portanto, em anlise de varincia (ANOVA), a grande vantagem a possibilidade de decompor a variao total (SQCY) em outras fontes de variao. Estes so os principais elementos para montar o quadro de anlise de varincia (ANOVA) para regresso:
Quadro 12.2: Quadro de anlise de varincia (ANOVA) Fontes de variao Devido regresso Sobre a regresso (resduo) Total (corrigido) GL c1 nc n-1 SQ b * (SPCxy) por subtrao SQCY MQ SQREG/(c-1) SQRES/(n-c) F
sendo: c = nmero de coeficientes de regresso. O valor de F dado pela razo entre MQREG e MQRES. Quanto maior for o numerador MQREG, maior ser o valor de F. Quanto maior for o F, mais significante ser o modelo testado. Antigamente, voc pegava o F calculado e ia tabela-F para comparar os dois valores; se o valor calculado fosse maior do que o tabelado (para os 3 principais nveis crticos de 10%, 5% e 1%), voc conclua que o seu modelo era significante, caso contrrio, no significante. Hoje, os programas de estatstica j do os valores exatos da probabilidade (ou a rea sob a curva-F). Portanto, hoje voc pode tomar decises baseadas na sua capacidade de discernimento. Por exemplo: se p for igual a 0,03 (ou 3%), voc pode dizer que significante a 5% mas no a 1% ou, ento, dizer qualquer coisa sobre o 0,03 da sua prpria cabea sem ficar no maniquesmo do significante ou no significante. A MQRES igual a s2 e fornece uma estimativa da varincia residual, baseada em (n-2) graus de liberdade (GL). Se a equao de regresso foi estimada de um nmero grande de observaes, a varincia residual representa uma medida do erro com a qual qualquer valor observado de Y poderia ser estimado de um dado valor de X, usando a equao ajustada. Por ltimo, vamos apresentar a varivel que mede a preciso da equao ajustada que o erro padro de estimativa (SY.X):
s y. x = s 2
No Captulo 13 ser visto como se trabalha com equaes mltiplas. Um exemplo prtico ser visto no Captulo 15 (biomassa florestal), que o manuscrito de um artigo j publicado na Acta Amazonica.
Captulo 13 Estatstica no Paramtrica

13.1. Introduo:
At o captulo 12, vimos vrias situaes da estatstica paramtrica. Basicamente, a estatstica paramtrica foi desenvolvida sob a teoria da distribuio normal. No entanto, os fenmenos naturais tendem a no seguir a distribuio normal padro ( = 0 e 2 = 1) e, muitas vezes, no h nem como normalizar os dados da populao uso da padronizao da varivel aleatria. Quando os seus dados teimam em no seguir a distribuio normal, temos ainda o recurso do uso do teorema do limite central para driblar a condio normalidade da maioria dos testes estatsticos. Se voc achou que acabaram os recursos estatsticos para analisar os seus resultados, restou o ltimo e derradeiro recurso que o uso da estatstica no paramtrica. A estatstica no paramtrica usada quando as condies impostas ao uso da estatstica paramtrica so muito violadas. Alm disso, quando no d para repetir a pesquisa de campo ou de laboratrio e voc tem que analisar o material que voc em suas mos. Para alvio de sua conscincia, existe a estatstica no paramtrica que a estatstica de distribuio livre e os seus testes podem ser aplicados s populaes com qualquer distribuio. Qual o preo que voc paga por usar a estatstica no paramtrica? O preo a limitao de sua comunicao. No d pra voc ir muito longe com as decises tomadas com base nos testes no paramtricos, alm do significante ou no significante. No entanto, a estatstica no paramtrica requer poucos dados (portanto, a pesquisa mais barata), os clculos so simples e voc pode trabalhar diretamente (sem transformaes) com dados ordinais e qualitativos. A estatstica no paramtrica assim conhecida porque no trabalha com parmetros ( e ). Este conceito, no entanto, ganhou uma certa flexibilidade com o passar do tempo. Hoje, quando viola as condies impostas pela estatstica paramtrica, voc corre atrs de um teste similar na no paramtrica e usa at para comparao de mdias.
2
Neste captulo vamos ver alguns testes no paramtricos, principalmente aqueles que tm contrapartidas (correspondentes) na estatstica paramtrica.
13.2. Distribuio Binomial:

Este teste j foi visto no captulo 4 (Probabilidade). Sabemos, ento, que:
n k n p P( x = k ) = p (1 p ) k
Numa pesquisa incluindo n experimentos independentes do tipo sucesso e insucesso, teremos:
p = probabilidade de sucesso x = o nmero de sucessos
(1 - p) = probabilidade de insucesso
Exemplo 1 => Uma pessoa em uma sala tem cartes numerados de 1 a 10. Ela pega um carto ao acaso e uma outra pessoa (em outra sala) tenta adivinhar o nmero que foi pego. Este experimento repetido 3 vezes. A pergunta : qual a probabilidade de acertar 2 vezes. Resolvendo => sabemos que: n=3 p = probabilidade de sucesso = 1/10 = 0,1 q = (1 p) = probabilidade de insucesso = 9/10 = 0,9 P (x = 2) = ? => probabilidade de acertar 2 vezes Portanto: 3 P (x = 2) = 2 ou seja, a probabilidade de outra pessoa acertar 2 vezes em 3 tentativas 0,027 ou 2,7%. A Tabela VIII d direto essas probabilidades, desde que haja coincidncia em termos de n, k e p. Pra se garantir, melhor saber como calcular a probabilidade exata da distribuio binomial. Voc obtm a probabilidade usando a Tabela VIII => n = 3, k = 2 e p = 0,1 na primeira coluna tem o n (nmero de tentativas ou experimentos) na segunda coluna tem o k (nmero de sucessos) para n = 3, temos k = 0, k = 1, k = 2 e k =3 para cada k, temos uma probabilidade de acordo com a probabilidade de sucesso, p, pr-estabelecida =>
o o o o
(1/10)2 (9/10)3-2 = 3 * 0,01 * 0,9 = 0,027
pra k = 0 => p = 0,7290 pra k = 1 => p = 0,2430 pra k = 2 => p = 0,0270 pra k = 3 => p = 0,0010
Respondendo, ento, a pergunta: P (x = 2) = ? P (x = 2) igual a 0,0270 E se eu quisesse saber: P (x < 2) e P (x 2) P (x < 2) => fcil, basta somar as probabilidades de sucessos (no incluindo k = 2), ou seja, 0,7290 + 0,2430 = 0,9720 => A probabilidade de acertar uma ou nenhuma vez de 0,9720 ou 97,2%.
P (x 2) => tenho que somar a probabilidade de k = 2 e k = 3, ou seja, 0,0270 + 0,0010 = 0,0280 => a probabilidade de acertar mais de 2 vezes de 2,8%.
13.3. Teste de sinal para medianas:

Mediana valor da varivel aleatria que, em ordem crescente ou decrescente, est rankeado no meio. Vamos ilustrar a aplicao desse teste com um exemplo sobre renda familiar. Fixo (arbitro) ou hipotetizo uma renda familiar e vou verificar se rejeito ou no a hiptese. Pego, aleatoriamente, 12 famlias e registro a renda anual de cada uma e o resultado o seguinte (em R$ 1.000,00): 60,0 25,7 22,4 20,1 17,3 16,1 15,3 14,8 14,3 14,1 > 14.000 Como estamos trabalhando com a mediana, sabemos que: probabilidade de sucesso => p = 0,5 (acima da mediana) probabilidade de insucesso => q = (1-p) = 0,5 (menor do que a mediana) Quais so as nossas hipteses? H0: Mediana (MD) = 14.000 H1: MD > 14.000 Podemos utilizar a Tabela VIII para calcular a probabilidade, considerando que: n = 12 k = 10 (so 10 rendas maiores do que 14.000) => de acordo com H0, sucesso significa que a renda tem que ser menor que 14.000; renda > 14.000 significa insucesso. p = 0,5 e, conseqentemente, q = 0,5 Neste caso, temos tambm que fixar (aproximadamente) o nvel crtico para estabelecer a rea de rejeio de nossa hiptese nula. Ento, vamos a tabela VIII temos que olhar na primeira coluna com n = 12 (temos 12 rendas familiares, terceira pgina, o k est na segunda coluna e como p = 0,5 (sucesso) temos que ver as probabilidades de cada k na oitava coluna. como o nosso = 0,05 (aproximadamente), temos que, num processo inverso, determinar a nossa rea de rejeio e seu correspondente k que seria, ento, o nosso valor crtico a ser usado na tomada de deciso. 10,4 6,2 < 14.000
pra k = 12 => p = 0,0002 e = 0,0002 pra k = 11 => p = 0,0029 e = 0,0002 + 0,0029 = 0,0031 pra k = 10 => p = 0,0161 e = 0,0031 + 0,0161 = 0,0192 pra k = 9 => p = 0,0537 e = 0,0192 + 0,0537 = 0,0729 Se a opo for = 0,05 (aproximadamente), o seu valor crtico pode ser k = 10 ou k = 9, ou seja, se o nmero de famlias que tm renda maior ou igual a R$ 14.000,00 for maior ou igual a 10 voc rejeita H0 para = 0,0192 e se for maior ou igual a 9, voc rejeita H0 para = 0,0729. Voltando ao exemplo, n = 12 e vamos atribuir o sinal (+) para as rendas superiores ao valor hipotetizado (14.000) e o sinal (-) para as rendas inferiores a 14000. 60,0 25,7 22,4 20,1 17,3 16,1 15,3 14,8 14,3 14,1 + + + + + + + + + + 10,4 6,2 -
Quantos sinais (+) temos? Temos 10, ou seja, o nosso ponto de deciso 10 => Considerando = 0,0192, temos que rejeitar H0 porque k 10. Como o k s pode ser inteiro, o nosso valor crtico estaria entre 0,0192 e 0,0729. Concluso: Rejeitamos H0, a nossa mediana no igual a R$ 14.000,00 com = 0,0192.
13.4. Teste de sinal-rankeado Wilcoxon:

um teste similar ao anterior, mas a operao executada usando as diferenas entre o valor observado e o valor hipotetizado. E mais: as diferenas so expressas em valores absolutos e o rankeamento feito a partir disso. Procedimentos: Formular as hipteses H0: MD = M H1: MD < M (MD > M) Em uma amostra de tamanho n, usar a Tabela IX para encontrar e o valor crtico d. Tomar uma amostra de tamanho n e montar o seguinte quadro: val obs (x) x1 xn Calcular: para H1: MD < M => R+ = soma dos R com sinais positivos para H1: MD > M => R- = soma dos R com sinais negativos dif (x M) |D| rank de |D| rank c/ sinal R
Decises: para H1: MD < M => R+ d => rejeitar H0 para H1: MD > M => R- d => rejeitar H0 Vamos a um exemplo prtico. Tomamos o DAP de 8 rvores (isso uma coisa que voc nunca vai fazer entrar na floresta e medir apenas 8 rvores um desperdcio inaceitvel) e queremos saber se a mediana igual a 50 cm. O quadro seguinte apresenta os dados observados (x) e as demais colunas necessrias para a execuo do teste. val obs (x) 50,2 50,1 49,6 49,5 49,2 49,0 48,4 47,0
Soluo:
dif (x M) + 0,2 + 0,1 - 0,4 - 0,5 - 0,8 - 1,0 - 1,6 - 3,0
|D| 0,2 0,1 0,4 0,5 0,8 1,0 1,6 3,0
rank de |D| 2 1 3 4 5 6 7 8
rank c/ sinal R +2 +1 -3 -4 -5 -6 -7 -8
Da tabela IX, para n = 8, tiramos que o mais prximo de 0,05 0,055; portanto o valor crtico d igual a 6 para = 0,055. Calculamos, ento, o R+ somando os ranks com sinais positivos (+) => na ltima coluna tem apenas 2 ranks (+), que so 2 e 1, logo R+ = 2 + 1 = 3 Deciso: Como d = 6 e R+ = 3, rejeitamos H0
13.5. Teste de Mann-Whitney: comparao de duas medianas (ou mdias de duas populaes):
Procedimentos: Formular as hipteses: H0: As duas populaes tm a mesma mediana => MD1 = MD2 H1: As duas populaes no tm a mesma mediana => MD1 > MD2 (ou menor) Considere n como o tamanho da amostra da populao 1 e k como o tamanho da amostra da populao 2. Usar a Tabela 13.11 para encontrar o valor crtico d para = 0,05. Coletar os dados, rankear e calcular S1 que a soma dos ranks da populao 1. Calcular T = S1 [ n (n+1) ] / 2 Deciso: Rejeitar H0 se T d Exemplificando: diferenciados: Considere duas populaes de escolas com tratamentos
Pop 1: tempo de aprendizagem para todos os trabalhadores com experincia comprovada.
Pop 2: tempo de aprendizagem para todos os trabalhadores sem experincia comprovada Hipteses: H0: MD1 = MD2 H1: MD1 < MD2 Tamanhos das amostras => n = 8 da populao 1 k = 7 da populao 2 Da tabela 13.11, para = 0,05, n = 8 e k = 7, o valor crtico d igual a 13. Vamos aos clculos: Populao 1 Tempo rank 2,33 11 1,81 5 2,17 8 1,78 4 1,74 3 1,46 1 1,58 2 1,92 6 Populao 2 tempo rank 2,31 10 1,96 7 2,73 14 2,51 13 3,04 15 2,34 12 2,24 9
Primeiro, calculamos S1 = 11 + 5 + 8 + .....+ 6 = 40 Calculamos, ento, o T

T = 40 [ 8 (8+1) ] / 2 = 4 Deciso: Como T < d; rejeitamos H0 e conclumos que MD1 < MD2
13.6. Consideraes finais:

Evidentemente, a estatstica no paramtrica no se resume nos testes apresentados neste captulo. Isso foi apenas um aperitivo acrescentado a sua disciplina de Biometria Florestal. Estatstica no paramtrica tem um vasto repertrio de testes; por exemplo, do tipo Kolmogorov-Smirnov:
o Teste Kolmogorov para ajuste da distribuio o Teste Lilliefors para normalidade o Teste Shapiro-Wilk para normalidade o Teste Smirnov para teste de 2 amostras independentes o Teste Cramr-von Mises para teste de 2 amostras independentes o Teste Birnbaum-Hall para teste de vrias amostras independentes
PARTE 2
Captulo 14 Algumas variveis aleatrias utilizadas em manejo florestal

14.1 Dimetro altura do peito (DAP)
14.1.1 Notas preliminares
Na engenharia florestal, o dimetro da rvore DAP e ponto final. DAP se mede a 1,3 m acima do nvel do solo. O objetivo desta seo no ensinar como medir o DAP porque isto est muito bem explicado nos livros de Machado & Figueiredo Filho (2003)3 e Campos & Leite (2002)4. Em plantios de eucalipto, o DAP tende a ser medido quase sempre a 1,3 m do solo. Na Amaznia, a situao um pouco diferente porque h sapopemas e outras irregularidades no tronco que nem sempre a parte a 1,3 m do solo est disponvel para medir. Em inventrios em uma nica ocasio, esta situao pode ser superada utilizando equipamentos especiais ou a projeo do dimetro altura do DAP. Por compensao de erros, o resultado final no ser afetado. Em inventrios contnuos, a subjetividade na medio de um mesmo indivduo em ocasies sucessivas, no bem-vinda. Neste caso, necessrio medir sempre no mesmo local (altura em relao ao solo) e a o recurso medir aonde possvel e marcar (com tinta) este ponto da medio. Dessa forma, ser possvel estimar as mudanas ocorridas entre duas ou mais ocasies. Como a pronncia correta desta varivel to importante para a engenharia florestal; D-A-P ou Dape ou Dapi? Segundo o Manual de Estilos da Abril, temos os seguintes conceitos:
Sigla a reunio das iniciais de um nome prprio composto de vrias palavras e deve ir, quase sempre, em caixa alta: CNBB, CPI, CPMF, IBGE, BNDS, CBF etc. Certas siglas silabveis, mesmo estrangeira, so escritas em caixa alta e baixa: Vasp, Ibope, Inpa, Incra, Aids etc.
Diante disso, o nosso dimetro altura do peito tem que ser pronunciado como Dape ou Dapi. Certos esto os bilogos, eclogos e outros no florestais e errados esto os engenheiros florestais. Por conta disso, quero dedicar esta seo queles que pronunciam errado esta varivel, D-A-P. No critiquem (e nem tripudiem) queles que falam Dape ou Dapi porque eles esto certos, mas continuem pronunciando D-A-P., que uma tradio florestal de mais de 40 anos no Brasil.
Acrnimo a reunio de elementos (iniciais, primeiras letras e slabas) dos componentes de um nome, com a inteno de formar uma palavra silabvel e, deve ir, sempre, em caixa alta e baixa: Ibama, Cacex, Varig etc. Chichu um acrnimo. 14.1.2 DAP usado na estrutura da floresta
A curva do tipo J-invertido a que melhor descreve a estrutura diamtrica das florestas da regio amaznica. Os valores observados de DAP podem ser ajustados por funes matemticas que produzem curvas que se assemelham ao tipo J-invertido. A mais popular na Amaznia a funo de Weibull. No anexo 4 est disponvel uma reviso sobre as funes Weibull e exponencial.
3 4
Machado, S.A. e Figueiredo Filho, A. 2003. Dendrometria. 309p. Campos, J.C.C. e Leite, H.G. 2002. Mensurao florestal. UFV. 407p.
Como o DAP a principal varivel independente para o setor florestal da Amaznia, uma funo de distribuio bem ajustada pode facilitar o inventrio florestal sem perder a preciso. Com uma boa funo, que apresenta a distribuio de probabilidade de cada classe de DAP, o inventrio usando a contagem de indivduos por unidade de rea perfeitamente possvel. Dessa forma, o tempo de coleta seria muito mais rpido e, conseqentemente, o inventrio ficaria mais barato.
14.1.3 DAP como varivel independente de equaes de volume e de biomassa
Tanto para volume e biomassa os seguintes modelos logartmicos podem ser utilizados para descrever a relao entre volume e DAP e ou H e biomassa e DAP e ou HT: 1) ln V = a + b ln (DAP ) ou ln PF = a + b ln (DAP ) 2) ln V = a + b ln (DAP ) + c ln (H ) ou ln PF = a + b ln (DAP ) + c ln (HT ) onde: V = volume do tronco em m3 D = DAP em cm H = altura comercial ou comprimento do tronco em m PF = peso fresco da parte area em kg HT = altura total da rvore em m ln = logaritmo natural Todo o desenvolvimento desses modelos ser detalhado na prxima seo. Aqui, queremos apenas mostrar os indicadores usados na escolha do melhor modelo, como erro padro da estimativa syx, coeficiente de correlao (r) e coeficiente de determinao (r2), para advogar em favor do uso do DAP apenas. Vamos considerar modelo 1 como aquele que tem apenas o DAP como varivel independente e modelo 2 o que tem DAP e altura (comercial ou total), separadamente para volume e biomassa.
Volume (n = 959):
Modelo 1: syx = 1,46% Modelo 2: syx = 1,04%

Biomassa (n = 498):
r = 0,971 r = 0,988 r = 0,984 r = 0,989
r2 = 0,943 r2 = 0,977 r2 = 0,967 r2 = 0,978
Modelo 1: syx = 6,54% Modelo 2: syx = 5,32%
Voc v alguma diferena entre os modelos 1 e 2, para volume e biomassa? Neste captulo queremos enfatizar apenas essas diferenas, sem se preocupar com o significado de cada indicador (ser explicado na prxima seo). No caso do volume, acrescentar a varivel H significa um ganho muito pequeno na preciso. O mesmo acontece com a biomassa. Entretanto, acrescentar a altura (H ou HT) ao modelo uma outra coisa. Em um hectare de floresta amaznica primria podemos ter: (i) 600-700 indivduos arbreos com DAP 10 cm dividindo o espao com lianas, epfitas e palmeiras; (ii) alta diversidade em espcies; (iii) arquitetura de copa de mltiplas formas; (iv) dossel com vrios estratos em altura; (v) espcies com idades diferentes, que podem variar de 1 a 100 anos. Como medir a altura desses indivduos? Para o desenvolvimento dos modelos, o mtodo destrutivo empregado; portanto, temos as rvores no cho e medimos as alturas (comprimentos) com trena. Durante o inventrio florestal, a situao outra, ou seja, temos
que medir as alturas da rvore em p. Mesmo com equipamentos sofisticados, muito difcil, seno impossvel, medir precisamente a altura total. A altura comercial pode at ser medida precisamente com equipamentos, mas diferentes medidores podem apresentar diferentes medidas para a mesma rvore por causa da subjetividade em definir o que "altura comercial". Nunca, mas nunca mesmo, "chutar" a altura para utilizar o modelo 2. Nos exemplos com equaes de volume e de biomassa, temos o seguinte: (i) acrescentar a altura comercial (H) ao modelo 1, significa melhorar a preciso em 0,42% (1,46 1,04) e (ii) acrescentar altura total (HT) ao modelo, significa melhorar a preciso em 1,22% (6,54 5,32). Vale a pena acrescentar a altura? Pense nisso, sobretudo, nos custos de coleta de dados para o inventrio florestal.
14.2. rea basal

a projeo dos DAPs ao solo, que indica a densidade da floresta. Do ponto de vista tcnico, a soma da rea transversal de todos os indivduos em um hectare. rea transversal a rea do crculo altura do DAP. Isto conseguido fazendo (imaginrio) um corte transversal no DAP e medindo o raio ou o dimetro do crculo. a rea de um plano sobre o tronco, disposto em ngulo reto ao eixo longitudinal. Portanto, a rea transversal (classicamente representada pela letra "g") obtida da seguinte maneira:
g i = (DAP ) 4
2
e a rea basal, ento:

AB = g i (i = 1,2,...n )
Na rea experimental de manejo florestal da ZF-2, a rea basal mdia est em torno de 30 m /ha. Isso quer dizer que se projetarmos todos os DAPs 10 cm sobre uma rea de 10.000 m2 (um hectare), as rvores ocuparo 30 m2. Algumas estimativas (m2/ha) para diferentes stios na Amaznia: UHE de Santa Izabel (regio do Araguaia) = 15,2; Projeto Rio Arinos (norte de MT) = 1,6; Floresta Estadual do Antimary (Acre) = 15,2, Trombetas (Par) = 24,8; PIC Altamira (Par) = 22, Sul de Roraima = 20,9 e Alto Solimes (Fonte Boa e Juta no AM) = 27 m2/ha.
2
Com esses poucos exemplos, podemos dizer que a floresta da ZF-2 mais densa do que as outras florestas. A estimativa de rea basal, de forma isolada, diz muito pouco sobre uma determinada floresta. Com esses poucos exemplos, difcil afirmar que a floresta da ZF2, por exemplo, muito densa ou pouco ou mdio, porque deve haver florestas mais densas do que esta. De qualquer modo, no custa nada estimar a rea basal da rea inventariada j que as medies de DAP so obrigatrias em inventrios florestais. Antigamente (at incio dos anos 90), era comum ver inventrios florestais com volumes estimados a partir da rea basal, ou seja, AB x altura x fator de forma. O fator de forma utilizado era igual a 0,7 proposto por peritos da FAO (Food and Agriculture Organization) que realizaram os primeiros inventrios na Amaznia nas dcadas de 50 e 60. A altura era, invariavelmente, "chutada". O engenheiro florestal deve utilizar-se de equaes prprias para estimar o volume de madeira.
14.3. Volume
No setor florestal, as decises so tomadas baseadas no volume de madeira. Isto to forte que, muitas vezes, o engenheiro florestal at se esquece que numa floresta h muitas outras coisas alm da madeira. Aqui, o objetivo mostrar como se estima o volume de
madeira nos inventrios florestais. Para isto, voc precisa ter equaes confiveis e us-las para estimar o volume de rvores em p medidas em parcelas fixas do inventrio florestal.
Volume real
Para desenvolver equaes de volume, voc precisa ter o volume real de vrios indivduos. Este volume pode ser obtido por meio do mtodo destrutivo (aproveitando reas exploradas ou desmatadas, autorizadas pelo Ibama) ou utilizando o relascpio de Bitterlich (por exemplo). O mais comum o mtodo destrutivo. Antes de derrubar a rvore, o DAP medido. Com a rvore no cho, as alturas ou comprimentos (comercial e total) so determinados e o tronco dividido em pequenas toras, tentando se aproximar forma do cilindro. Em geral, o tronco dividido em 10 toras (ou sees) e duas medidas so tomadas em cada tora, na base e no topo. Com estas duas medidas, voc tem condies de calcular as reas transversais da base e do topo; a, voc estima a mdia (g da base + g do topo dividido por 2) e multiplica pelo comprimento da tora [lembrando que m2 de g vezes m do comprimento, voc ter m3] para ter o volume da tora ou seo. A soma dos volumes das 10 toras considerada "volume real" da rvore. Melhores explicaes voc vai encontrar nos livros de Machado & Figueiredo Filho (2003) e Campos & Leite (2002).
Quantas rvores so necessrias para desenvolver os modelos estatsticos para volume ou equaes de volume ou modelos alomtricos? Alometria => (do grego: allos outra e metron medida) => o estudo das variaes das formas e dos processos dos organismos e tem dois significados: (i) o crescimento de uma parte do organismo em relao ao crescimento do organismo inteiro ou de parte dele e (ii) o estudo das conseqncias do tamanho sobre as formas e os processos.
Voc pode usar uma funo conhecida de distribuio em dimetro (Weibull, por exemplo) e ver se os dados j coletados se ajustam a esta funo. Teste simples como o quiquadrado (confrontao entre freqncia esperada e freqncia observada) d conta disso. Se o teste for significante, colete mais dados das classes que esto faltando e refaa o teste quiquadrado. Se o resultado for no significante, voc tem, em mos, uma amostra representativa de sua populao de interesse. H tambm a possibilidade de utilizar-se do recurso do inventrio florestal quanto intensidade de amostragem; neste caso, cada indivduo uma amostra. A frmula a seguinte:
n = t 2s2 2
sendo: t = valor obtido na tabela-t ( p = 0,05 ou outro e n-1 graus de liberdade) s2 = estimativa da varincia 2 = expectativa do erro = (LE x mdia)2. Em geral, o LE (limite de erro) igual a 0,10 ou 10%.
Observaes: use z em vez de t. Como vimos anteriormente, os valores de z para os nveis crticos mais freqentes, = 0,10, = 0,05 e = 0,01 so, respectivamente, 1,64, 1,96 e 2,57. Outra coisa: h tambm o fator de correo para populaes finitas, ou seja, neste caso ao denominador da frmula (2) deve ser acrescentado ( 1 n/N ). A populao considerada finita quando a frao n/N menor do que 0,05, segundo Freese (1962)5.
Freese, F. 1962. Elementary forest sampling. Agriculture Handbook n 232. USDA-Forest Service. 91p.
5
Equaes de volume ou modelo alomtrico
O passo seguinte testar modelos matemticos. Antigamente (fim dos anos 70), o grande desafio era encontrar o melhor modelo para descrever a funo V = f (DAP, H). Depois de vrias dissertaes e artigos cientficos, verificou-se que qualquer modelo, seja de simples entrada (apenas DAP como varivel independente) ou de dupla entrada (DAP e H como variveis independentes, combinadas ou no) produzem bons ajustes. A deciso para escolher o melhor modelo ficou nos detalhes. Hoje em dia, qualquer modelo que voc venha a testar, utilizando DAP e H, voc vai conseguir uma alta e significativa correlao, um modelo que explica mais de 75% da variao de seus dados (r2) e um erro padro de estimativa aceitvel. O padro de hoje o modelo que apresenta r > 0,90, r2 > 0,90 e syx (%) < 10. Alm disso, o modelo tem que ter uma boa distribuio de resduos, que : as diferenas entre os valores estimados e observados, positivos e negativos, tm que se distribuir uniformemente ao longo da curva (ou reta) estimada, ou seja, estas diferenas no podem aumentar (ou diminuir) conforme aumenta o tamanho da rvore. Por exemplo: se o seu modelo produzir uma diferena de 0,5 m3 para uma rvore com DAP = 10 cm, esta mesma diferena (mais ou menos) tem que ser verificada para outra rvore com DAP = 70 cm ou DAP = 150 m. Os modelos que apresentam as melhores distribuies de resduos so os modelos logartmicos. Os mais usados so os seguintes, do item 1.1.3: 1) ln V = a + b ln (DAP ) 2) ln V = a + b ln (DAP ) + c ln (H ) A abordagem para estimar os coeficientes de regresso a do mtodo dos mnimos quadrticos (MMQ) e depois da obteno das equaes normais, os coeficientes podem ser estimados usando o mtodo da substituio ou por meio do clculo matricial. As explicaes sobre as operaes necessrias para se chegar aos coeficientes podem ser encontradas em qualquer livro de estatstica bsica. No computador, basta entrar com as variveis ln V, ln D e ln H e voc ter, alm dos coeficientes de regresso, erro padro de estimativa, coeficiente de correlao, coeficiente de determinao e distribuio de resduos.
Regresso => descreve apenas o relacionamento linear entre uma varivel dependente (Y) e uma ou mais variveis independentes (X1 = DAP, X2 = altura etc.).
Antes de derivar a equao em relao a a e b, primeiro preciso linearizar as variveis aleatrias, da seguinte maneira: ln V = Y, ln D = X1 e ln H = X2. Para o modelo 1, as equaes normais so: an + b X1 = Y a X1 + b X12 = X1Y Pelo mtodo de substituio, os coeficientes sero: a = [ Y - b X1 ] / n b = [ SPCX1Y ] / [ SQCX1 ] Para o modelo 2, as equaes normais so an + b X1 + c X2 = Y = X2 Y a X1 + b X12 + c X1 X2 = X1 Y
a X2 + b X1 X2 + b X22
Neste caso, melhor estimar os coeficientes apelando para o clculo matricial. matriz de Y (nx1) = matriz de X (nxp) x matriz de coeficientes "b" (px1) (X'X) b = X'Y b = (X'X)-1 X'Y Hoje, com o Excel ficou fcil inverter matrizes de qualquer tamanho e a multiplicao mais fcil ainda. Mesmo assim, no h necessidade de trabalhar com matrizes para a obteno dos coeficientes. Os programas de estatstica, em geral, calculam automaticamente os coeficientes. Sei que para regresses simples (com dois coeficientes), o Excel d conta do recado. Para regresses mltiplas e as no lineares, melhor usar outro software (Systat, SAS etc.). Vamos aproveitar as sadas (outputs) do Systat, por exemplo, para explicar os significados de alguns indicadores da regresso.
1) Coeficiente de correlao => r => a regresso descreve o relacionamento e este coeficiente mostra o grau de estreiteza que existe entre as variveis Y e X1, X2 etc.. Este coeficiente varia de -1 a +1. Igual a -1 ou +1, h uma correlao perfeita, ou seja, a cada unidade acrescentada X, haver um aumento proporcional em Y (uma, duas, ou menos 2 unidades). Sinal (-) significa que os menores valores de Y tendem aos maiores valores de X ou vice-versa. Sinal (+) significa que os menores Y tendem aos menores X e os maiores Y tendem aos maiores X. O teste-t geralmente utilizado para testar a significncia de r. 2) Coeficiente de determinao => r2 => multiplicado por 100 mostra a percentagem da variao dos dados que explicada pelo modelo testado. No caso de regresso mltipla, prefira sempre o coeficiente ajustado. 3) Erro padro de estimativa => syx => a raiz quadrada da mdia quadrtica dos resduos (MQR), logo o desvio padro da relao. Ao comparar duas equaes, o uso deste indicador direto, ou seja, aquela que apresentar o menor erro a melhor. Isoladamente, preciso ainda alguns clculos. Dividindo syx pela raiz quadrada de n voc ter o erro padro da mdia e dividindo o mesmo pela mdia da varivel dependente Y, voc ter o seu erro em percentagem. Melhor ainda apresentar a incerteza de seu modelo. Neste caso, voc tem estimar o intervalo de confiana (IC) e aquela poro (z * erro padro) dividida pela mdia vai te fornecer a incerteza de seu modelo. Em geral, uma incerteza de 10% considerada aceitvel. 4) Coeficientes de regresso => O Systat apresenta a constante ( a ) e os coeficientes associados s outras variveis independentes (b, c, d etc.) => o Systat apresenta tambm a significncia de cada coeficiente; se for no significante, voc deve remov-lo do modelo. 5) Anlise de varincia (ANOVA) => a regresso descreve, a correlao mostra a estreiteza entre as variveis e a ANOVA mostra a significncia do seu modelo de regresso. O teste-F o que determina se o modelo significante ou no. No Systat, o valor p o mesmo que , ou seja, o valor crtico para a tomada de deciso. Os valores clssicos de p so 0,01, 0,05 e 0,10; portanto quando o p < 0,01, o modelo testado significante para os trs nveis. 6) Durbin-Watson D Statistics e First Order Autocorrelation => No caso de equaes de volume (e biomassa), no h envolvimento de sries temporais. Portanto, no precisa se preocupar com isto. Estes dois testes so usados para verificar se os termos dos erros no modelo de regresso no so correlacionados e nem dependentes. Os termos dos erros correlacionados com o passar do tempo so conhecidos como "autocorrelacionados" ou "serialmente correlacionados".
7) Distribuio de resduos => o grfico pode ser interpretado diferentemente por diferentes eng florestais, mas ele fundamental para a deciso final do melhor modelo conforme foi explicado anteriormente. Aplicao da equao de volume
Com o melhor modelo em mos, voc vai aplic-lo em inventrios florestais. Num inventrio na Amaznia, para rvores com DAP 10 cm, voc deve utilizar uma parcela de, no mnimo, 2.500 m2 (10 x 250 m ou 20 x 125 m). Numa parcela deste tamanho, voc deve encontrar entre 100 e 150 indivduos. Lembre-se que, de acordo com o conceito de intervalo de confiana (IC), em 95 vezes (se o seu p = 0,05, por exemplo) a sua estimativa estar dentro do seu IC e em 5 vezes, a estimativa estar fora do IC. Portanto, no se surpreenda e confie na estatstica (na incerteza que o seu modelo declarou). No esquecer que os seus modelos so logartmicos e, por esta razo, ao estimar o volume de madeira voc tem que usar o inverso do logaritmo natural que a exponencial.
14.4. Biomassa
Estimar a biomassa importante para compreender a produo primria de um ecossistema e avaliar o potencial de uma floresta para produo de energia. No manejo florestal sustentvel na Amaznia, a biomassa usada para estimar a quantidade de nutrientes que exportada do sistema via explorao de madeira e que devolvida via inputs atmosfricos. No entanto, depois da Rio-92, a biomassa ganhou uma nova dimenso. O carbono da vegetao passou a ser um elemento importante nas mudanas climticas globais. O eng florestal sabe (ou deveria saber) que aproximadamente 50% da madeira secada (em estufa) carbono e que os compostos de carbono so: celulose (45%), hemicelulose (28%) e lignina (25%). De acordo com o IPCC (Painel Intergovernamental de Mudanas Climticas), os componentes de biomassa e carbono da vegetao so: (i) biomassa ou C na matria viva acima do nvel do solo (tronco, galhos, folhas, frutos e flores); (ii) biomassa ou C na matria viva abaixo do nvel do solo (razes) e (iii) biomassa ou C na matria morta em p ou no cho. Quem foi treinado para estimar o volume de madeira tem todas as condies para estimar a biomassa tambm. O anexo 5 um artigo (manuscrito) sobre biomassa que j foi publicado na Acta Amazonica6. Este artigo cobre o componente 1 do IPCC. O componente 2 envolve razes e isto est sendo realizado pelo LMF (laboratrio de manejo florestal do INPA) e ser includo em uma tese de doutorado. O trabalho de campo para obteno do peso de razes muito trabalhoso, mas nada que assuste o verdadeiro eng florestal. Como o solo da Amaznia muito pobre em nutrientes, as rvores tendem a desenvolver razes superficiais raramente ultrapassam 50 cm de profundidade. Mesmo na Amaznia, em regies que tm as estaes do ano (chuvosa e seca) bem definidas, as rvores tendem a desenvolver razes mais profundas para procurar gua, o que no o caso da Amaznia Central. O componente 3 pode ser estimado com preciso combinando as taxas de mortalidade com os modelos usados no componente 1.
Coleta de dados => verdade de campo => mtodo destrutivo
Higuchi, N., Santos, J. dos, Ribeiro, R.J., Minette, L. e Biot, Y. 1998. Biomassa da parte area da vegetao da floresta tropical mida de terra-firme da Amaznia brasileira. Acta Amazonica, 28(2):152-166.
Os procedimentos para o componente 1 so apresentados no Anexo 2. Ao incluir o componente 2 em coletas de biomassa, preciso incluir as razes. preciso escavar, separar as razes do tronco e pes-las. A metodologia de coleta de amostras para as determinaes dos teores (concentraes) de gua e carbono a mesma utilizada na parte area. Aqui tambm, exige-se mais transpirao do que inspirao.
Equaes de biomassa
Procedimentos iguais aos de volume.

Aplicao da equao de biomassa
O pargrafo apresentado para o volume deve ser repetido aqui. Para o caso de biomassa, cabem ainda as seguintes consideraes: (i) voc estima o peso fresco; portanto, voc tem que transform-lo em peso seco e depois em carbono basta multiplicar o peso pelas concentraes de gua e carbono obtidas em laboratrio; (ii) o carbono como commodity (mercadoria) em bolsas de mercadorias significa estoque e diferena de estoque; portanto, voc precisa trabalhar com inventrio florestal contnuo com, pelo menos, duas ocasies; (iii) voc precisa separar o peso nos trs componentes definidos pelo IPCC.
Captulo 15 Distribuio de dimetro: Weibull versus Exponencial

15.1. Introduo:
Como a altura da rvore difcil de ser medida, com preciso, o dimetro passa a ser a varivel mais importante e mais segura para estimar o volume e a biomassa de florestas tropicais de uma regio como a Amaznia. Alm disso, o dimetro consagrou-se como uma varivel importante na descrio da estrutura florestal, como tambm na comercializao de madeira. Assim, a quantificao de distribuies de dimetro fundamental para o entendimento da estrutura da floresta e do estoque da floresta, que so pr-requisitos nas decises do manejo florestal. Bailey and Dell (1973), Clutter et al. (1983) e Higuchi (1987) apresentam revises compreensivas sobre distribuies de dimetro. De acordo com Clutter et al. (1983) e Lawrence e Shier (1981), entre as vrias distribuies estatsticas, a distribuio Weibull tem sido a mais usada pelo setor florestal, depois da distribuio exponencial. A introduo da funo de distribuio Weibull aos problemas relacionados com silvicultura e manejo florestal, atribuda Bailey e Dell em 1973 (Zarnoch et al., 1982; Little, 1983; Clutter et al., 1983 e Zarnoch e Dell, 1985). Desde ento, esta distribuio tem sido extensivamente utilizada para descrever a distribuio de dimetro, tanto em povoamentos equianos como multianos, especialmente nos Estados Unidos. No Brasil, especialmente na floresta amaznica, a Weibull foi utilizada por Higuchi (1987), Umaa (1998), mas segundo Barros et al. (1979) e Hosokawa (1981), a distribuio mais popular a exponencial.
15.2. As funes de distribuio de dimetro:

Nesta comparao entre Weibull e exponencial, usaremos a metodologia proposta por Zarnoch e Dell (1985), Cohen (1965) e Einsensmith (1985), respectivamente tcnica dos percentis, da mxima verossimilhana e exponencial, para a obteno estimadores (coeficientes) das funes.
(i) Weibull Mxima Verossimilhana (WMV)
A distribuio Weibull, que tem a seguinte funo de densidade probabilstica:
f ( x ) = (c b )x c 1 exp ( x ) / b
c
); para x0, c>0 e b>0
= 0, em outras circunstncias
tem a seguinte funo de verossimilhana para uma amostragem de n observaes L (xi, ....., xn; c, b) = n (c/b) xic-1 exp (-xic/b) (1) Tirando o logaritmo de (1), teremos ln L = ln [(c/b)xic-1 exp (-xic/b)] ln L = [ln (c/b) + ln xic-1 (xic/b)] ln L = n ln (c/b) + (c-1) ln xi (1/b) xic Por meio da diferenciao em relao a c e b e igualando a zero as derivadas, as seguintes equaes sero obtidas:
d ln L/d c = n/c + ln xi (1/b) xic ln xi = 0 d ln L/d b = -(n/b) + (1/b2) xic = 0 (3) Tirando b de (3), temos b = ( xic ) / n (4) e substituindo em (2), temos n/c + ln xi [1/(xic/n)] xic ln xi = 0 n [(1/c) ( xic ln xi) / xic] = - ln xi [( xic ln xi) / xic] (1/c) = (1/n) ln xi (5)
(2)
Dessa forma, o coeficiente c pode ser estimado por meio de qualquer processo iterativo ou via tentativa-e-erro para igualar os dois lados da equao (5). O coeficiente b pode ser estimado pela equao (4), depois de estimado o c. A freqncia esperada pode ser determinada atravs da seguinte funo de distribuio cumulativa de Weibul, F(x), que, por sua vez, pode ser encontrada integrando a sua funo de densidade probabilstica, f(x), do DAP mnimo at o mximo (Zarnoch et al., 1982)
F (x ) = 1 exp (x a ) b]
ii. Weibull Percentis (PERC):
{[
A funo de Weibull usando o mtodo dos percentis, tem a seguinte funo de densidade probabilstica
f (x) = (c/b) [(x-a)/b)c-1 exp {-[(x-a)/b]c; para xa0, b>0 e c>0 f (x) = 0, em outras circunstncias
2 a = x1 x n x 2
Os parmetros a, b e c so estimados da seguinte maneira:
) (x
+ x n 2x 2 )
b = a + x(0,63n )
c= ln[ln(1 p k )] [ln(1 pi )] ln(x npk a ) (x npi a )
onde: x i ( i = 1, 2, ... n) = o i-simo DAP em ordem crescente x 1 = o menor DAP e x n = o ltimo DAP, ou seja, o maior DAP. x (0,63n) = o DAP rankeado em ( 0,63 * nmero total de DAP observados). Exemplo: num conjunto de dados de 100 DAPs, x (0,63n) o 63 DAP. p i = 0,16731 e p k = 0,97366 A freqncia esperada pode ser determinada por meio da seguinte funo de distribuio cumulativa de Weibul, F(x), que, por sua vez, pode ser encontrada integrando a
sua funo de densidade probabilstica, f(x), do DAP mnimo at o mximo (Zarnoch et al., 1982).
F (x ) = 1 exp (x a ) b]
(iii) Exponencial:
{[
As estimativas dos parmetros da primeira ordem da funo exponencial
Y = ae bx
podem ser obtidos pela linearizao (srie de Taylor) ou por meio do mtodo iterativo (Marquardt, por exemplo), segundo Draper e Smith (1981). O software Systat pode calcular os coeficientes pelos dois mtodos.
3. Clculo das probabilidades (freqncia esperada): caso Weibull percentis para DAP10 cm
P (x < 10) = P ( 10 x < 20 ) = P ( 20 x < 30 ) = P ( 30 x < 40 ) =
1 {exp [(10 a)/b]c} {exp [(10 a)/b]c} - {exp [(20 a)/b]c} {exp [(20 a)/b]c} - {exp [(30 a)/b]c} {exp [(30 a)/b]c} - {exp [(40 a)/b]c}
etc at o ltimo intervalo.
3. Bibliografia:
Bailey, R.L. e T.R. Dell. 1973. Quantifying Diameter Distributions with the Weibull Function. Forest Science 19:97-104. Barros, P.L.C., S.A. Machado, D. Burger e J.D.P. Siqueira. 1979. Comparao de Modelos Descritivos da Distribuio Diamtrica em uma Floresta Tropical. Floresta 10(2):19-31. Clutter, J.L., J.C. Fortson, L.V. Pienaar, G.H. Brister e R.L. Bailey. 1983. Timber Management: A Quantitative Approach. John Wiley and Sons, Inc. New York. 333p. Cohen, A.C. 1965. Maximum Likelihood Estimation in the Weibull Distribution Based on Complete and on Censored Samples. Technometrics 7(4):579-588. Draper, N.R. e H. Smith. 1981. Applied Regression Analysis. John Wiley and Sons, Inc. New York. Segunda edio. 709p. Einsesmith, S.P. 1985. PLOTIT: Users Guide. Higuchi, N. 1987. Short-term Growth of an Undisturbed Tropical Moist Forest in the Brazilian Amazon. Tese de Doutor, Michigan State University. 129p. Hosokawa, R.T. 1981. Manejo de Florestas Tropicais midas em Regime de Rendimento Sustentado. UFPr, Relatrio Tcnico. Lawrence, K.D. e D.R. Shier. 1981. A Comparison of Least Squares and Least Absolute Deviation Regression Models for Estimating Weibull Parameters. Commun. Statist. Simula Computa. B10(3):315-326. Little, S.N. 1983. Weibull Diameter Distribution for Mixed Stands of Western Confiers. Can.J.For.Res. 1:85-88. Umana, C.L.A. e Alencar, J.C. 1998. Distribuies Diamtricas da Floresta Tropical mida em uma rea no Municpio de Itacoatiara AM. Acta Amazonica 28(2):167-190. Zarnoch, S.J. e T.R. Dell. 1973. An Evaluation of Percentile and Maximum Likelihood Estimators of Weibull Parameters. Zarnoch, S.J., C.W. Ramm, V.J. Rudolph e MW. Day. 1982. The effects of Red Pine Thinning Regimes on Diameter Distribution Fitterd to Weibull Function. MSU Agricultural Experiment Station East Lansing. RI-423. 11p.
Captulo 16 Biomassa da Parte Area da Vegetao da Floresta Tropical mida de Terra-Firme da Amaznia Brasileira.
Niro Higuchi1 , Joaquim dos Santos1 , Ralfh Joo Ribeiro1, Luciano Minette1 e Yvan Biot2
Resumo
Usando um banco de dados com 315 rvores, com DAP5 cm, foram testados quatro modelos estatsticos - linear, no linear e dois logartmicos - para estimar a biomassa de rvores em p. Os dados foram coletados, de forma destrutiva, na regio de Manaus, Estado do Amazonas, em um stio coberto por floresta de terra-firme sobre plats de latossolo amarelo. Em diferentes simulaes com diferentes intensidades de amostragem, os quatro modelos estimam precisamente a biomassa, sendo que o afastamento entre a mdia observada e a estimada, em nenhuma ocasio ultrapassou 5%. As equaes para estimar a biomassa de rvores individuais em uma parcela fixa, distintamente para rvores com 5DAP<20 cm e com DAP20 cm, so mais consistentes do que o uso de uma nica equao para estimar, genericamente, todas as rvores com DAP5 cm. O modelo logartmico com apenas uma varivel independente, o DAP, apresenta resultados to consistentes e precisos quanto os modelos que se utilizam tambm da varivel altura total da rvore. Alm do modelo estatstico para estimar o peso da massa fresca total de uma rvore, outras informaes so apresentadas, estratificadas nos diferentes compartimentos (tronco, galho grosso, galho fino, folhas e, eventualmente, flores e frutos) de uma rvore, como: concentrao de gua para estimar o peso da massa seca, concentrao carbono e a contribuio do peso de cada compartimento no peso total. palavras-chaves: Carbono, manejo florestal, modelo estatstico.
Aboveground Biomass of the Brazilian Amazon Rainforest Abstract
Data set with 315 trees with diameter at breast height (dbh) greater than 5 cm was used to test four statistical models - linear, non-linear and two logarithmics - to estimate aboveground biomass of standing trees. The data were collected destructively in Manaus region, Central Amazonia, in a site covered by a typical dense terra-firme moist forest on plateaus dominated by yellow latosols. The difference between observed and estimated biomass was always below 5%. The logarithmic model using a single independent variable (dbh) produced results as consistent and precise as those with double-entry (dbh and total height). Besides statistical models to estimate aboveground biomass, the following information are also presented in this paper: the contribution of each tree compartment (stem, branch, twigs, leaves and flowers or fruits) to the total weight of a standing tree, water concentration to estimate the dry weight and carbon concentration of each tree compartment. Key words: Carbon, forest management, statistical model
Instituto Nacional de Pesquisas da Amaznia - Cx. Postal, 478 - Manaus - Am. U. K. Overseas Development Administration (ODA). Victoria Street, 94 - London. SW1E5JL England.
2
Introduo:
O objetivo deste trabalho o desenvolvimento de modelos estatsticos para estimar a biomassa individual, de rvores em p, de espcies da floresta densa de terra-firme, regio de Manaus (AM), assim como a apresentao de informaes necessrias para a converso de massa fresca para massa seca e de biomassa para estoque de carbono. So testados quatro modelos, linear, no-linear e dois logartmicos, tendo como varivel dependente, o peso da massa fresca (no seca) e, como variveis independentes, dimetro altura do peito (DAP) e altura total, de rvores individuais. O principal atributo dos modelos testados o tamanho da rvore e, por esta razo, tm que absorver a alta diversidade florstica e as diferentes associaes botnicas, distribuies espaciais e densidades da madeira (intra e interespecficas), da vegetao de terra-firme. As estimativas de biomassa florestal so informaes imprescindveis nas questes ligadas, entre outras, s reas de manejo florestal e de clima. No primeiro caso, a biomassa est relacionada com os estoques de macro e micronutrientes da vegetao, que so obtidos pelo produto da massa pelas concentraes de cada mineral. No caso do clima, a biomassa usada para estimar os estoques de Carbono, que, por sua vez, so utilizados para estimar a quantidade de CO2 que liberada atmosfera durante um processo de queimadas. O manejo florestal est associado ao uso sustentvel dos recursos florestais existentes, para atender s demandas da sociedade, por produtos madeireiros e no-madeireiros. Tratando-se de Amaznia, os cuidados tm que ser redobrados porque estes recursos esto em ecossistemas heterogneos, complexos e frgeis. Os solos da Amaznia so antigos e, em sua maioria, pobres em nutrientes (especialmente para a agropecuria) e cidos. A contrastante exuberncia de sua cobertura florestal est associada s estratgias de conservao e de ciclagem de nutrientes dentro do prprio sistema. importante conhecer a distribuio de nutrientes nos diferentes compartimentos (tronco, galho, casca, folha), para controlar a exportao dos mesmos pela colheita florestal e entrada via inputs atmosfricos e, com isto, minimizar os impactos ambientais da produo madeireira. Para as questes climticas, h grande interesse em quantificar a biomassa que convertida, principalmente em dixido de carbono, pelas diferentes formas de uso do solo amaznico (Fearnside et al., 1993, Foster Brown et al., 1995, Higuchi & Carvalho Jr., 1994, Skole et al., 1994, Schroeder & Winjum, 1995 e Fearnside, 1996). Esta informao necessria para uma correta avaliao da contribuio dos projetos de desenvolvimento da regio, no processo de mudanas climticas globais, no mbito da Conveno do Clima, assinada pelo Governo Brasileiro durante a Conferncia das Naes Unidas sobre Desenvolvimento e Meio Ambiente, Rio-92. As estimativas de biomassa, atualmente disponveis na literatura, dos diversos tipos florestais da Amaznia, vm de estudos que se utilizam de mtodos diretos e indiretos. O mtodo direto consiste na derrubada e pesagem de todas as rvores que ocorrem em parcelas fixas, fornecendo estimativas, que segundo Brown et al. (1989), no so confiveis porque baseiam-se em poucas parcelas, pequenas e tendenciosamente escolhidas. No mtodo indireto, as estimativas tm sido produzidas a partir de dados de inventrios florestais, que foram executados com a finalidade de planejar a explorao e o manejo florestal, sendo o volume da madeira, a principal varivel. Neste mtodo, a biomassa estimada a partir do volume da madeira, usando-se a densidade mdia da madeira e um fator de correo para rvores com DAP < 25 cm. Estes dois mtodos ainda geram muita polmica e controvrsias e produzem estimativas desencontradas, mesmo quando se usa o mesmo banco de dados (Fearnside et al., 1993, Brown et al., 1989 e Higuchi et al., 1994 e Foster Brown et al., 1995). A tabela 1 ilustra
o que foi posto anteriormente. Esta tabela foi parcialmente reproduzida de FEARNSIDE et al. (1993), considerando apenas a biomassa viva acima do nvel do solo. So produzidas estimativas diferentes, com o passar do tempo, pelos mesmos autores e para o mesmo banco de dados (montado nos anos 70). Alm disso, Foster Brown et al. (1995) criticam estes bancos de dados, afirmando que as alturas das rvores foram obtidas sem aparelhos de medio e que, estes erros no amostrais no so mencionados. O consenso existente entre os pesquisadores que trabalham com biomassa de que praticamente impossvel determinar a biomassa de cada rvore, pelo mtodo direto, ao executar um inventrio florestal. Por esta razo, os recursos da anlise de regresso para o desenvolvimento de modelos estatsticos, para estimar a biomassa de rvores em p, devem ser empregados para superar este problema. Salomo et al. (1996) citam apenas dois modelos estatsticos utilizados na Amaznia; um proposto por Sandra Brown e colaboradores e, outro, proposto por Christopher Uhl e colaboradores. O primeiro requer o conhecimento da densidade da madeira de cada indivduo, que praticamente impossvel obte-la durante o inventrio; e o segundo, recomendado para florestas secundrias. Alm destes, h o modelo de Overman et al. (1994), para a floresta amaznica colombiana, desenvolvido principalmente para rvores de pequenos dimetros.
Materiais e Mtodos (i) Coleta de Dados:
Os dados foram coletados na Estao Experimental de Silvicultura Tropical (EEST) do INPA, aproximadamente 90 km ao norte de Manaus, em reas derrubadas para experimentos com liberao de dixido de carbono, usando-se queimadas tradicionalmente praticadas por pequenos produtores da regio, e em reas especialmente designadas para esta pesquisa. Nos dois casos foram escolhidas reas de plats sobre latossolo amarelo. Estes dados constituem o banco de dados de biomassa do INPA. No total, foram derrubadas e pesadas 315 rvores-amostras com DAP5 cm. O peso total de todos os indivduos amostrados foi compartimentado em tronco e copa (incluindo galhos e folhas e, eventualmente, frutos). Alm do peso da rvore, foram tambm medidos o DAP, altura total, altura comercial, altura da copa e dimetro da copa. A distribuio de freqncia e a estatstica descritiva dos dados observados encontram-se nas tabelas 2a e 2b). Na tabela 2c observam-se as estatsticas descritivas para as variveis DAP, altura total e peso total, quando os dados so divididos em algumas classes de dimetro. Nesta tabela fica evidente que a varivel peso total tem uma variabilidade natural bem maior que as outras duas variveis, mesmo em mais classes de dimetro. Para obteno das concentraes de gua e nutrientes de cada compartimento da rvores, 38 indivduos (dos 315 amostrados) foram coletados diferentemente, baseando-se no esquema apresentado por Higuchi & Carvalho Jr. (1994) e Santos (1996). Foram retiradas amostras (discos) a 0% (base), 25, 50, 75 e 100% (topo) do tronco e do galho grosso (dimetro de base10 cm). Do tronco foi retirado tambm um disco altura do DAP. Todos os discos retirados foram imediatamente pesados e enviados ao laboratrio para secagem em estufas calibradas a 105o C. O mesmo procedimento foi adotado para os galhos finos e folhas, mas que em vez de discos, foram retiradas, de vrias partes da copa, amostras de 5 e 3 kg, respectivamente. A estimativa da concentrao de carbono na vegetao das espcies mais abundantes, no stio estudado, foi feita tendo ainda as amostras coletadas por Higuchi & Carvalho Jr. (1994). O peso total de cada uma destas 38 rvores foi compartimentado em tronco, casca, galho grosso, galho fino (dimetro<10 cm), folha e, eventualmente, flores e frutos. Alm
destas concentraes, a coleta compartimentada permite ainda a determinao da contribuio de cada um dos compartimentos no peso total da rvore. A estatstica descritiva destes dados e a contribuio de cada compartimento no peso total e a porcentagem do Peso da massa fresca que transformado em Peso da massa seca, visualizam-se nas tabelas 3a e 3b. Um desdobramento da pesquisa de Nutrientes o estudo de densidade da madeira (g/cm ), nos sentidos base-topo e casca-medula da rvore (utilizando-se das amostras coletadas a 0, 25, 50, 75 e 100% da altura comercial e do DAP). Resultados preliminares deste estudo encontram-se na tabela 4, de 12 rvores analisadas.
3
O banco de dados de biomassa do INPA vem sendo completado ao longo do tempo e j foi utilizado preliminarmente por Higuchi et al. (1994), Higuchi & Carvalho Jr. (1994), Arajo (1995) e Santos (1996).
(ii) Modelos Testados:
Os modelos estatsticos foram selecionados a partir do trabalho de SANTOS (1996), que testou 34 diferentes modelos em diferentes combinaes. O banco de dados foi dividido em dois, para rvores com 5DAP<20 cm e DAP20 cm. Foram testados os seguintes modelos estatsticos, para todas as rvores com DAP5 cm, equao nica, e para as duas classes de tamanho, (a) 5DAP<20 cm e (b) DAP20 cm: 1. ln Pi = 0 + 1 ln Di + ln i 2. ln Pi = 0 + 1 ln Di + 2 ln Hi + ln i 3. Pi = 0 + 1 Di2Hi + i 4. Pi = 0 D 1 H 2 + i para i = 1, 2, ... 315 - equao nica i = 1, 2, ... 244 - equao (a) i = 1, 2, ... 71 - equao (b) onde: Pi = peso da massa fresca de cada rvore, em quilograma (para modelos 1, 2 e 4) e em toneladas mtricas (para o modelo 3). Di= dimetro altura do peito de cada rvore, DAP, em centmetros (para modelos 1, 2 e 4) e em metros (para o modelo 3) Hi = altura total de cada rvore, em metros 0, 1 e 2 = coeficientes de regresso i = erro aleatrio ln = logartimo natural Os modelos estatsticos propostos por Brown e Lugo (Foster Brown et al., 1995, Salomo et al., 1996) e aqueles que apresentaram os melhores resultados no trabalho de Saldarriaga et al. (1988), que incluem densidade da madeira, no foram testados porque esta varivel de difcil obteno para cada indivduo em p. Alm disso, segundo Higuchi & Carvalho Jr. (1994), a densidade da madeira (g/cm3) apresenta significativas variaes intra e inter-especficas. Pelas mesmas razes, Overman et al. (1994) descartam esta varivel, apesar do bom desempenho dos modelos que a contm.
Na tabela 4, onde visualizam-se as densidades de 12 rvores, observa-se que: a menor densidade de 0,480 e a maior de 1,031; a densidade tende a diminuir no sentido base-topo; a densidade mdia, considerando base-topo, de 0,756; e esta ltima varivel sempre menor que a densidade mdia obtida na altura do DAP. A densidade mdia do DAP igual a 0,803, que, por sua vez, diferente de todas as estimativas fornecidas por Foster Brown et al. (1995) e a de Saldarriaga et al. (1988). As variaes no sentido casca-medula tambm so significativas (Higuchi & Carvalho Jr., 1994).
(iii) Escolha do Melhor Modelo Estatstico:
Para a escolha do melhor modelo estatstico visando-se estimar a biomassa em p da rea em estudo, foram adotados os procedimentos tradicionais da cincia florestal, que so: maior coeficiente de determinao, menor erro padro de estimativa e melhor distribuio dos resduos (Santos, 1996). Alm destes procedimentos, foram simuladas amostras de diferentes intensidades, para testar a consistncia dos modelos na estimativa da biomassa. Foram tomadas 15 amostras com 50 rvores selecionadas aleatoriamente do banco de dados original; 10 amostras com n = 100; 5 amostras com n = 200; e 5 amostras com n = 300.
Resultados e Discusso:
Do trabalho de Higuchi & Carvalho Jr. (1994), as seguintes informaes quantitativas do stio estudado so importantes para uma melhor interpretao destes resultados e para futuras comparaes com outros stios: - Em uma parcela fixa de 2.000 m2, o peso da biomassa fresca distribui-se da seguinte maneira, em relao ao peso total: a vegetao (exceto cips) com DAP5 cm contribui com 86,9% do peso total; a vegetao com DAP<5 cm contribui com 2,4%; os cips contribuem com 1,3% e a liteira (toda a vegetao morta sobre a superfcie do solo) contribui com 9,4%. - Os teores mdios de carbono so os seguintes: tronco (48%), galhos grossos (48%), galhos finos (47%), folhas (39%), plntulas - at 50 cm de altura - (47%), mudas - altura>50 cm e DAP<5 cm - (49%), cips (48%) e liteira (39%). Os coeficientes de regresso e de determinao e os erros padres de estimativa de todos os quatro modelos estatsticos testados (rvores com DAP5 cm), incluindo as variaes (a) para rvores com 5DAP<20 cm e (b) DAP20 cm, verificam-se na tabela 5. De um modo geral, os quatro modelos (incluindo as variaes a e b) esto aprovados nos quesitos coeficiente de determinao (r2) e erro padro de estimativa (sy.x) e, por esta razo, poderiam ser utilizados para estimar a biomassa de rvores em p da rea em estudo. Todos os modelos apresentam coeficientes de correlao (r) altamente significantes (<0,01). De um modo geral, os modelos nicos para rvores com DAP 5 cm apresentam os maiores coeficientes de determinao (r2), exceto para o modelo 3. Com relao ao (sy.x), o modelo 4 o que tem o melhor desempenho, apresentado os menores erros, seguido do modelo 2. Combinando as equaes a e b, no mesmo banco de dados, os erros (em quilogramas) produzidos foram: 949, 693, 356 e 537, respectivamente para os modelos 1, 2, 3 e 4. Nesta situao, o melhor desempenho do modelo 3, seguido do modelo 4. O exame da distribuio dos resduos mostra que os modelos 1, 2 e 3 no apresentam nenhum padro, distribuindo-se aleatoriamente ao longo do eixo da biomassa observada e estimada, ordenada de forma crescente pela varivel DAP. O modelo 4, no entanto, apresenta um claro padro, aumentando os desvios conforme aumentam os DAPs. As equaes resultantes so:
Modelo 1:
- Equaes a & b: (a) ln P = -1,754 + 2,665 ln D; para 5DAP<20 cm (b) ln P = -0,151 + 2,170 ln D; para DAP20 cm - Equao nica: ln P = -1,497 + 2,548 ln D; para para DAP5 cm
Modelo2:
- Equaes a & b: (a) ln P = -2,668 + 2,081 ln D + 0,852 ln H; para 5DAP<20 (b) ln P = -2,088 + 1,837 ln D + 0,939 ln H; para DAP20 cm - Equao nica: ln P = -2,694 + 2,038 ln D + 0,902 ln H; para DAP5 cm
Modelo 3:
- Equaes a & b: (a) P = 0,0056 + 0,621 D2H; para 0,05DAP<0,20 m (b) P = 0,393 + 0,473 D2H; para DAP0,20 m - Equao nica: P = 0,077 + 0,492 D2H; para DAP0,05 m
Modelo 4:
- Equaes a & b: (a) P = 0,0336 * D2,171*H1,038; para 5DAP<20 cm (b) P = 0,0009 * D1,585*H2,651; para DAP20 cm - Equao nica: P = 0,001 * D1,579*H2,621; para DAP5 cm A verificao da consistncia de cada um dos modelos estatsticos para estimar a biomassa em p, sobre amostras simuladas (tiradas aleatoriamente do banco de dados original), encontram-se na tabela 6. Nesta tabela verificam-se as mdias observadas e estimadas em cada simulao. A anlise feita sobre o afastamento da mdia estimada em relao observada, em percentagem, utilizando-se equaes distintas para estimar a biomassa de rvores com 5DAP<20 cm e DAP20 cm e uma nica equao para todas as rvores contidas na amostra com DAP5 cm.
(i) Modelo 1:
- Usando as equaes a e b, para estimar a biomassa do banco de dados original, a mdia estimada afasta-se -1,9% da mdia observada, ou seja, o desvio7 de -1,9%. Quando utiliza-se uma s equao para estimar a biomassa das duas classes de dimetro, o desempenho anterior no repetido, apresentando um desvio de +16%. Excepcionalmente, na simulao com n = 50, o uso de uma s equao resulta em um desvio mdio de +2,8%, que poderia ser considerado bom se no fosse a amplitude de variao entre o menor e o maior desvio, que foi de 0,1 a 24,9%. - Este modelo (equaes a e b) demonstra a mesma consistncia nas simulaes com n = 300, n = 200 e n = 100, respectivamente, com desvios de -1,9% (1,6 e 2,3, menor e maior desvio, em valores absolutos), +0,5% (2,7 e 11,6) e +2,6% (3,7 e 22,1). A simulao com n = 50, o desvio mdio de -10,2%. - A equao nica para estimar a biomassa, usando este modelo estatstico, no alternativa para as duas equaes, ou seja, o uso deste modelo requer as duas equaes para estimar a biomassa de rvores com 5DAP<20 cm e DAP20 cm, separadamente.
7
Desvio afastamento, em %, do peso mdio estimado pelas diferentes equaes, em relao ao peso mdio observado. Entre parntesis, os desvios aparecem em valores absolutos e o primeiro sempre o menor e, o segundo, o maior desvio.
- Trata-se de um modelo com apenas o DAP como varivel independente, que uma varivel fcil de ser medida no campo, sem erros no amostrais. O nico problema deste modelo que o peso ser sempre o mesmo, para um determinado dimetro, independentemente da altura da rvore, da espcie e de outros atributos da rvore.
(ii) Modelo 2:
- Usando as equaes a e b, para estimar a biomassa do banco de dados original, a mdia estimada afasta-se -3,6% da mdia observada. Quando utiliza-se uma s equao para estimar a biomassa das duas classes de dimetro, o seu desempenho melhor do que o anterior, com desvio de +2,9%. - Este modelo (equaes a e b) demonstra a mesma consistncia nas simulaes com n = 300, n = 200 e n = 100, respectivamente, com desvios de -3,6% (3,2 e 4,3, menor e maior desvio, em valores absolutos), -1,8% (5,2 e 6,7) e -1,1% (0,9 e 12,7). A simulao com n = 50, o desvio mdio de 9,4%. O uso de uma s equao tem um desempenho razovel para todas as simulaes, que exceto para n = 50, apresenta desvio menor do que quando se utilizam as equaes a e b. - Apesar do bom desempenho da equao nica, em relao aos desvios mdios, onde as diferenas so negligveis, as amplitudes de variao dos mesmos nas equaes a e b so menores, sendo, por esta razo, mais apropriadas para a estimativa da biomassa. - A incorporao da altura total neste modelo permite estimar diferentes pesos para iguais DAPs, ao contrrio do modelo 1.
(iii) Modelo 3:
- Usando as equaes a e b, para estimar a biomassa do banco de dados original, a mdia estimada afasta-se +1,2% da mdia observada. Quando se utiliza uma s equao para estimar a biomassa das duas classes de dimetro, o seu desempenho melhor do que o anterior, com desvio de +0,1%. Apesar de um claro padro na distribuio dos resduos, este modelo tem uma boa capacidade de compensao quando se utiliza todo o banco de dados, tanto com as equaes a e b como com a equao nica para as duas classes de dimetro. - Este modelo (equaes a e b) demonstra a mesma consistncia nas simulaes com n = 300, n = 200, n = 100 e n = 50, respectivamente, com desvios de +1,2% (0,4 e 1,6, menor e maior desvio, em valores absolutos), +3,1% (1,1 e 1,7), +3,8% (0,8 e 20,3) e -4,8% (0,4 e 19,4). O uso de uma s equao tem um desempenho to consistente quanto ao anterior, com desvios de +0,1% (0,2 e 0,9), +2,2% (0,6 e 11,5), +2,4% (0,7 e 17,6) e -6,8% (0,4 e 16,2), respectivamente para n = 300, n = 200, n = 100 e n = 50. - A equao nica para este modelo a melhor alternativa para estimar a biomassa, principalmente considerando apenas a estimativa da biomassa mdia de uma parcela fixa, sem preocupar-se com as estimativas individuais. Em todos os tamanhos da amostragem, esta equao demonstrou-se bastante consistente e precisa. - Sem preocupar-se com as estimativas individuais, prestando ateno apenas no total ou na mdia das parcelas fixas, este o melhor modelo entre os testados. De um modo geral, este modelo superestima o peso das menores classes de dimetro. Para grandes inventrios para estimativa de biomassa, este modelo o mais preciso.
(iv) Modelo 4:
- Usando as equaes a e b, para estimar a biomassa do banco de dados original, a mdia estimada afasta-se -4,6% da mdia observada. Quando utiliza-se uma s equao para
estimar a biomassa das duas classes de dimetro, o desempenho anterior no repetido, com desvio de -7,3%. - Este modelo (equaes a e b) demonstra a mesma consistncia nas simulaes com n = 300, n = 200, n = 100 e n = 50, respectivamente, com desvios de -4,3% (3,4 e 5,1, menor e maior desvio, em valores absolutos), +0,3% (0,6 e 3,7), -4,0% (1,2 e 7,6) e -7,7% (4,2 e 16,1). O uso de uma s equao tem um desempenho inferior a todos os outros modelos testados e, por esta razo, no uma alternativa para as duas equaes. Neste caso, a opo tem que ser pelas duas equaes, 4 a para rvores com 5DAP<20 cm e 4b para DAP20 cm. - De todos os modelos testados, este modelo o que apresenta as menores amplitudes de variao, demonstrando uma boa consistncia na estimativa da biomassa. um modelo bastante conservador e que apresenta poucas surpresas na estimativa da biomassa das diferentes classes de dimetro.
Consideraes finais:
1. Os quatro modelos estatsticos testados produzem estimativas confiveis de biomassa de rvore em p, todos com desvios inferiores a 5% em relao mdia. 2. As equaes distintas para rvores com 5DAP<20 cm e com DAP20 cm so mais consistentes que a equao nica para todas as rvores com DAP5 cm. 3. Dentre os modelos testados, os melhores so os modelos 1 e 4, respectivamente com as seguintes equaes:
(a) ln P = -1,754 + 2,665 ln D; para 5DAP<20 cm (b) ln P = -0,151 + 2,170 ln D; para DAP20 cm
e
(a) P = 0,0336 * D2,171*H1,038; para 5DAP<20 cm (b) P = 0,0009 * D1,585*H2,651; para DAP20 cm
- O modelo 1 tem a vantagem de ser dependente de apenas uma varivel, o DAP, que uma varivel fcil de ser medida no campo, com poucos riscos de erros no amostrais; - O modelo 4 tem a vantagem de ser muito consistente e de poder estimar mais realisticamente rvores individuais, com mesmos DAPs e diferentes alturas. Alm disso, este modelo j foi preliminarmente utilizado por Arajo (1995), em Tom-Au (Par), para confrontar com os resultados obtidos pelo mtodo direto. Em Tom-Au, a biomassa estimada por este modelo ficou tambm a menos de 5% da observada. 4. A eficincia das equaes est associada utilizao de parcelas fixas para o inventrio de biomassa de um determinado stio, com as dimenses mnimas recomendadas para os inventrios florestais na Amaznia. 5. O peso do tronco seco corresponde a 61% de seu peso antes da secagem; e o da copa corresponde a 58% de seu peso fresco. 6. Do peso total de uma rvore, 65,6% tronco e 34,4% copa. A contribuio de cada compartimento da rvore em seu peso total a seguinte: tronco (65,6%), galho grosso (17,8%), galho fino (1,5%), folhas (2,03%) e flores/frutos (0,01%). 7. Os teores mdios de carbono so os seguintes: tronco (48%), galhos grossos (48%), galhos finos (47%) e folhas (39%).
Tabela 1: Algumas estimativas de biomassa para a floresta densa da Amaznia brasileira*. biomassa (t) fonte 268 Brown & Lugo (1992a) ) cf. fonte* Densa (FAO) Amaznia 162 Brown & Lugo (1992a) - cf. fonte* Densa (RADAMBRASIL) Amaznia 289 Brown & Lugo (1992b) - cf. fonte* Densa (FAO) Amaznia 227 Brown & Lugo (1992b) - cf. fonte* Densa (presente) Amaznia 12.3 Fearnside (1992a) - cf. fonte* Densa (presente) Amaznia 319.9 Fearnside (unpub. 1993) - cf. fonte* (*) Fonte: parcialmente reproduzida de Fearnside et al. (1993) Tabela 2: Banco de Dados de Biomassa, do INPA (n = 315). (a) Distribuio de Freqncia dos Dados Observados (n = 315). Limites de classe 5 < 10 10 < 20 20< 30 30< 40 40< 50 50< 60 60< 70 70< 80 80< 90 90< 100 100< 110 110< 120 120 total Freq. 154 90 28 18 9 8 3 3 0 1 0 0 1 315 % 48,89 28,57 8,89 5,71 2,86 2,54 0,95 0,95 0,32 0,32 100 Tipo de floresta Densa (RADAMBRASIL) local Amaznia
(b) Estatstica Descritiva dos Dados Observados: varivel DAP (cm) H-total (m) H-com (m) P-tronco (kg) P-copa (kg) P-total (kg) copa (%) mdia 16,0 17,0 10,7 476,3 306,4 782,7 31 desvio 15,3 7,7 5,2 1299,3 1031,5 2271,1 1 CV(%) 96 45 49 273 337 290 45 Mnimo 5,0 5,6 2,4 4,5 0,6 9,1 2 mximo 120,0 41,4 26,1 12736,5 12897,9 25634,4 70
(c) Estatstica Descritiva dos Dados Observados, Divididos em Algumas Classes de Dimetro: Classes de dimetro 5 < 10 10 < 15 15 < 20 20 < 30 30 < 50 >= 50 nmero casos 154 62 28 28 27 16 DAP mdia CV(%) 7,0 20 12,0 12 17,5 9 23,6 11 37,2 1 65,9 29 altura Total mdia CV(%) 11,4 27 16,4 20 20,8 18 23,7 1 29,3 11 34,1 10 Peso Total mdia CV(%) 35,7 68 15,0 42 407,5 34 852,0 43 2449,2 35 8205,4 72
Tabela 3: Dados Utilizados para estudos de Nutrientes (n = 38). (a) Estatstica Descritiva dos Dados Observados: varivel DAP (cm) alt. total (m) alt. com (m) P-tronco (kg) P-copa (kg) P-total (kg) copa (%) mdia 39,9 28,8 17,3 217,4 1595,3 3742,6 34 desvio 20,3 6,0 3,7 2449,1 2429,5 3005,4 1 CV(%) 51 56 22 11 152 128 22 Mnimo 9,5 11,4 7,5 48,7 15,2 63,9 9 mximo 98,0 41,4 25,0 12736,5 12898,3 25634,4 63
(b) Contribuio de cada compartimento (tronco, galho grosso, galho fino, folhas e flor/frutos) no peso total de uma rvore e % do PF de cada um que transformado em PS: tronco g.grosso g.fino folhas flor/frutos TOTAL m 217,36 1109,68 434,24 50,30 1,07 3742,61 VERDE s 2449,1 1985,66 432,65 48,87 5,41 4793,77 n 38 38(34) 38 38 38(8) 38 m 65,60 17,83 1,52 2,03 0,01 % total s 1,19 1,43 7,21 1,28 0,03 n 38 38(34) 38 38 38(8) m 101,65 665,63 246,64 23,58 0,80 2238,30 SECO s 1552,45 1243,55 253,6 23,01 4,60 3005,38 n 38 38(34) 38 38 38(8) 38 m 61,11 60,56 57,22 47,56 36,73 60,28 % PF s 8,27 7,98 5,75 7,21 20,62 7,41 n 38 34 38 38 8 38 m = mdia aritmtica; s = desvio padro amostral; n = nmero de observaes. % total = contribuio do peso de cada compartimento da rvore em relao ao seu peso total. % PF = % do Peso Fresco da rvore ou do compartimento que corresponde ao Peso Seco. PESOS
Tabela 4: Informaes sobre Densidade da Madeira. Espcie 1 2 3 4 5 6 7 8 9 10 11 12 mdia desvio mn. mx. 0% 0,856 0,696 0,879 0,536 0,681 0,818 0,725 1,027 0,891 0,571 1,077 0,891 0,804 0,167 0,536 1,077 25% 0,790 0,697 0,903 0,521 0,678 0,807 0,707 0,990 0,870 0,533 1,033 0,870 0,783 0,163 0,521 1,033 50% 0,757 0,683 0,866 0,509 0,640 0,806 0,711 0,946 0,862 0,485 1,000 0,807 0,756 0,159 0,485 1,000 75% 0,753 0,650 0,741 0,499 0,640 0,653 0,693 0,929 0,862 0,445 0,987 0,716 0,71 0,159 0,445 0,987 100% 0,718 0,684 0,724 0,471 0,615 0,704 0,704 0,961 0,846 0,367 1,056 0,846 0,725 0,191 0,367 1,056 mdia 0,775 0,682 0,823 0,507 0,651 0,758 0,708 0,971 0,866 0,480 1,031 0,826 0,756 0,165 0,480 1,031 DAP 0,824 0,706 0,91 0,546 0,700 0,838 0,717 1,015 0,896 0,528 1,059 0,896 0,803 0,168 0,528 1,059
Tabela 5: Coeficientes de Regresso e de Determinao, Erro Padro de Estimativa dos Modelos Estatsticos para Estimar a Biomassa (Peso total) de rvores em p. b1 B2 r2 Modelo b0 1 -1,497 2,548 0,97 1a -1,754 2,665 0,92 1b -0,151 2,170 0,90 2 -2,694 2,038 0,902 0,98 2a -2,668 2,081 0,852 0,95 2b -2,088 1,837 0,939 0,91 3 0,077 0,492 0,90 3a 0,0056 0,621 0,94 3b 0,393 0,473 0,86 4 0,001 1,579 2,621 0,94 4a 0,0336 2,171 1,038 0,94 4b 0,0009 1,585 2,651 0,92 b0, b1 e b2 = estimadores dos parmetros 0, 1 e 2, respectivamente. r 2 = coeficiente de determinao ajustado ry.x = erro padro de estimativa. sy.x 1729 43 2035 812 35 197 716 34 1508 540 31 1159
- modelo 1: ln Pi = b0 + b1 ln Di; sendo (1) para DAP5 cm e i = 1,..., 315; (1a) para 5DAP<20 cm e i = 1,..., 244; e (1b) para DAP20 cm e i = 1,..., 71. - modelo 2: ln Pi = b0 + b1 ln Di + b2 ln Hi; sendo (2) para DAP5 cm e i = 1,..., 315; (2a) para 5DAP<20 cm e i = 1,..., 244; e (2b) para DAP20 cm e i = 1,..., 71. - modelo 3: Pi = b0 + b1 Di2Hi; sendo (3) para DAP0,05 m e i = 1,..., 315; (3a) para 0,05DAP<0,20 m e i = 1,..., 244; e (3b) para DAP 0,20 m e i = 1,..., 71. - modelo 4: Pi = b0 D b1 H b2; sendo (1) para DAP5 cm e i = 1,..., 315; (1a) para 5DAP<20 cm e i = 1,..., 244; e (1b) para DAP20 cm e i = 1,..., 71.
Tabela 6: Resumo das simulaes utilizando diferentes intensidades de amostragem (tomadas aleatoriamente do banco de dados). Biomassa (observada e estimada) observada banco de dados modelo 1 modelo 2 (n = 315) modelo 3 modelo 4 observada amostra com n = 300 modelo 1 modelo 2 (5 repeties) modelo 3 modelo 4 observada amostra com n = 200 modelo 1 modelo 2 (5 repeties) modelo 3 modelo 4 observada amostra com n = 100 modelo 1 modelo 2 (10 repeties) modelo 3 modelo 4 observada amostra com n = 50 modelo 1 modelo 2 (15 repeties) modelo 3 modelo 4 Observada equaes a & b equao nica 782,7 768,2 [ -1,9 ] 907,7 [+16,0 ] 754,6 [ -3,6 ] 805,2 [ +2,9 ] 792,1 [ +1,2 ] 783,3 [ +0,1 ] 746,9 [ -4,6 ] 725,3 [ -7,3 ] 794,1 779,1 [ -1,9 ] 924,1 [ +16,4 ] 765,5 [ -3,6 ] 817,0 [ +2,9 ] 803,3 [ +1,2 ] 794,7 [ +0,1 ] 760,2 [ -4,3 ] 738,9 [ -7,0 ] 784,2 788,3 [ +0,5 ] 944,2 [ +20,4 ] 770,0 [ -1,8 ] 826,4 [ +5,4 ] 808,1 [ +3,1 ] 801,3 [ +2,2 ] 786,3 [ +0,3 ] 740,2 [ -5,6 ] 844,8 866,9 [ +2,6 ] 1052,4 [ +24,6 ] 835,4 [ -1,1 ] 900,5 [ +6,6 ] 876,6 [+3,8 ] 865,1 [ +2,4 ] 811,3 [ -4,0 ] 790,8 [ -6,4 ] 836,2 750,8 [ -10,2 ] 859,3 [ +2,8 ] 757,2 [ -9,4 ] 799,8 [ -4,4 ] 795,8 [ -4,8 ] 779,1 [ -6,8 ] 771,8 [ -7,7 ] 750,8 [ -10,2 ]
Bibliografia
Arajo, T.M. 1995. Investigao das Taxas de Dixido de Carbono Gerado em Queimadas na Regio Amaznica. Tese de Doutorado, Universidade Estadual Paulista, Faculdade de Engenharia de Guaratinguet, 212 p.. Brown, S., A.J.R. Gillespie e A.E. Lugo. 1989. Biomass Estimation Methods for Tropical Forests with Applications to Forest Inventory Data. Forest Science, 35(4):881-902. Carvalho Jr., J.A., J.M. Santos, J.C. Santos, M.M. Leito e N. Higuchi. 1995. A Tropical Rainforest Clearing Experiment by Biomass Burning in the Manaus Region. Atmospheric Environment 29(17):2301-2309. Fearnside, P.M., N. Leal Filho e F.M Fernandes. 1993. Rainforest Burning and the Global Budget: Biomass, Combustion Efficiency, and Charcoal Formation in the Brazilian Amazon. J. of Geophysical Research, 98(D9):16733-16743. Fearnside, P.M. 1996. Amazonian Deforestation and Global Warming: Carbon Stocks in Vegetation Replacing Brazils Amazon Forest. Forest Ecology and Management 80:2134. Foster Brown, I., D.C. Nepstad, I.O. Pires, L.M. Luz e A.S. Alechandre. 1992. Carbon Storage and Land-use in Extractive Reserves, Acre, Brazil. Environmental Conservation 19(4):307-315. Foster Brown, I., L.A. Martinelli, W. Wayt Thomas, M.Z. Moreira, C.A. Cid Ferreira e R.A. Victoria. 1995. Uncertainty in the Biomass of Amazonian Forests: an Example from Rondnia, Brazil. Forest Ecology and Management, 75:175-189. Higuchi, N. e J.A. Carvalho Jr. 1994. Fitomassa e Contedo de Carbono de Espcies Arbreas da Amaznia. Em: Anais do Seminrio Emisso x Seqestro de CO2 - Uma Nova Oportunidade de Negcios para o Brasil:127-153. Higuchi, N., J.M. dos Santos, M. Imanaga e S. Yoshida. 1994. Aboveground Biomass Estimate for Amazonian Dense Tropical Moist Forests. Memoirs of the Faculty of Agriculture, Kagoshima, 30(39):43-54. Overman, J.P.M., H.J.L. Witte e J.G. Saldarriaga. 1994. Evaluation of Regression Models for Above-ground Biomass Determination in Amazonia Rainforest. Forest Ecology and Management, 10:207-218. Saldarriaga, J.G., D.C. West, M.L. Tharp e C. Uhl. 1988. Long-term Chronosequence of Forest Sucession in the Upper Rio Negro of Colombia and Venezuela. Journal of Ecology 76:938-958. Salomo, R.P., D.C. Nepstad e I.C.G. Vieira. 1996. Como a Biomassa de Florestas Tropicais Influi no Efeito Estufa. Cincia Hoje, 21(122):38-47. Santos, J. dos. 1996. Anlise de Modelos de Regresso para Estimar a Fitomassa da Floresta Tropical mida de Terra-firme da Amaznia Brasileira. Tese de Doutorado, Universidade Federal de Viosa, 121 p.. Schroeder, P.E. e J.K. Winjum. 1995. Assessing Brazils Carbon Budget: II. Biotic Fluxes and Net Carbon Balance. Forest Ecology and Management, 75(87-99). Skole, D.L., W.H. Chomentowski, W.A. Salas e A.D. Nobre. 1994. Physical and Human Dimensions of Deforestation in Amazonia. BioScience, 44(5):31-321.
Captulo 17 Cadeia de Markov para predizer a dinmica da floresta amaznica

17.1. Introduo:
Estudar a dinmica da floresta tropical mida amaznica, manejada ou no, um grande desafio para os florestais. Os modelos clssicos de produo florestal foram desenvolvidos para florestas temperadas e tm como principais variveis, o ndice de stio e idade da rvore ou do povoamento (Sullivan e Clutter, 1972; Ferguson e Leech, 1978; Alder, 1980; Smith, 1983 e Clutter et al., 1983). Essas duas variveis so limitantes para o desenvolvimento de modelos de produo para as florestas da Amaznia porque so praticamente indisponveis para o setor florestal, num curto prazo. Apesar de inmeras tentativas, por meio da dendrocronologia ou da datao com 1C, a determinao das idades das inmeras espcies que ocorrem numa determinada rea, continua sendo um grande obstculo para a cincia florestal. Sem a idade da rvore ou do povoamento ou com muita dificuldade para obte-la, a alternativa prognosticar a dinmica da floresta com o uso de parcelas permanentes. Na Amaznia, entretanto, as parcelas instaladas e devidamente monitoradas so poucas, mal distribudas e recentes (as mais antigas esto na Flona de Tapajs, desde 1978). Considerando que as idades de rvores com DAP > 50 cm, na regio de Manaus, podem variar de 200 a 100 anos, segundo Chambers et al. (1998), 20-30 anos de observaes podem parecer insuficientes para descrever, com confiana, a dinmica de uma floresta da Amaznia. Apesar de todas essas dificuldades, aproximadamente 1 milho de hectares de floresta amaznica so manejados, anualmente, para produo madeireira sob algum tipo de manejo em regime de rendimento sustentvel. difcil imaginar como os empresrios florestais vo planejar os ciclos de corte subseqentes, sem um modelo de produo. Se nada for feito, o manejo florestal tomar a mesma forma da agricultura itinerante. A melhor sada para esta situao usar modelos de curto prazo que dependem exclusivamente da situao imediatamente anterior ao atual, tendo como objetivo a projeo apenas para uma situao imediatamente posterior. Dentre os vrios modelos disponveis, o que melhor se ajusta s caractersticas das florestas da Amaznia, a cadeia de Markov.
17.2. Cadeia de Markov:

A cadeia de Markov de primeira ordem um processo estocstico no qual as probabilidades de transio durante o intervalo de tempo (t e t+1) dependem apenas no estado do indivduo no tempo t ou no conhecimento do passado imediato no tempo t+1 e no em qualquer outro estado prvio (Horn, 1975; Chiang, 1980 e Bruner e Moser, 1973). Shugart (1984) enfatiza que a natureza invarivel em tempo de cada uma das probabilidades de transio uma importante caracterstica da cadeia de Markov, tendo muita afinidade com o comportamento dos ecossistemas florestais. De acordo com Bierzychudek (1982), um modelo de matriz de transio um modelo classificado em tamanho ou uma forma da matriz de Leslie. A nica exigncia deste modelo divisibilidade da populao em grupo de estados e que existam probabilidades de movimento de um estado para outro, com o passar do tempo (Enright e Ogden, 1979). Shugart e West (1981) apontam que a importncia do entendimento dos ecossistemas florestais no baseada nas idades, mas sim nas mudanas conhecidas no presente. Os modelos determinsticos consistindo de uma simples funo matemtica (linear, polinomial ou
exponencial) no demonstraram ainda que so comprovadamente adequados, quando sries de tempo so envolvidas (Morrison, 1976). Segundo Enright e Ogden (1979), nas florestas tropicais, o atributo tamanho pode ser mais importante do que a idade. Uma razo para isso que o tamanho pode ser mais ecologicamente informativo do que a idade, quando esta difcil de ser obtida com preciso. Alm disso, segundo ainda os mesmos autores, a diviso de ciclos de vida em estgios de desenvolvimento pode permitir a predio do comportamento futuro mais precisamente do que a diviso em puras classes de idade. Usher (1966) usou o atributo tamanho no lugar da idade para desenvolver um modelo para o manejo de recursos renovveis. Ele afirma que um organismo que est na i-sima classe no tempo t, pode permanecer na mesma classe, mudar para a classe seguinte (mais de uma classe tambm) ou morrer, no tempo t+1. Os modelos que usam matriz de transio so apropriados para anlise de muitos problemas biolgicos, principalmente em estudos relacionados com a dinmica da floresta (Enright e Ogden, 1979). Esses modelos tm sido usados intensivamente em estudos de dinmica de populaes de plantas ou animais em vrias regies do mundo. Alguns exemplos so: a demografia do jack-in-the-pulpit em Nova York (Bierzychudek, 1982); dinmica florestal de uma populao de Araucaria numa floresta tropical mida de Papua Nova Guinea e Nothofagus em floresta montana temperada da Nova Zelndia (Enright e Ogden, 1979); sucesso de trmitas em Gana (Usher, 1979); sucesso florestal na Nova Jersey (Horn, 1975); aplicao da Cadeia de Markov em estudos de dinmica florestal em florestas tropicais (Acevedo, 1981) e a aplicao de Markov para predizer o desenvolvimento de um povoamento florestal (Usher, 1966; Usher, 1969, Bruner e Moser, 1973; Peden et al., 1973 e Buogiorno e Michie, 1980). Alder (1980) tambm descreve a matriz de transio como uma possvel ferramenta para anlise de dados de crescimento e incremento de povoamentos multianos de florestas tropicais mistas. Na regio de Manaus, Higuchi (1987) usou Markov para estudar a dinmica das parcelas testemunhas do projeto de manejo florestal (Projeto Bionte) e Rocha (2001) nos transectos do projeto Jacaranda. A maioria dos trabalhos citados anteriormente inclui revises razoveis da teoria do mtodo de Markov. H tambm outras leituras teis sobre o assunto, como Grossman e Turner (1974), Chiang (1980) e Anderson e Goodman (1957). 3. Aplicao de Markov aos dados das parcelas permanentes da ZF-2: Primeiro vamos considerar: (i) estados i e j = 1, 2, ..., m; (ii) tempos de observao t = 0, 1, .., T; (iii) p ij (t+1) (i, j = 1, 2, ..., m) = probabilidade do estado j no tempo t+1, dado o estado i no tempo t. Um processo Markov considerado homogneo em relao ao tempo ou tempo homogneo, se a probabilidade de transio p ij (t, t+1) = Pr [x(t+1) = j | x(t) = i], para i, j = 1, 2, ...., m. depender apenas da diferena entre t e t+1, mas no de t e t+1 separadamente (Chiang, 1980). A montagem da matriz comea com o clculo de p ij = n ij / n j onde: n ij = nmero de indivduos na classe j no tempo t+1, dada a classe i no tempo t e n j = nmero total de indivduos na classe i no tempo t. A matriz de transio probabilstica de uma cadeia de Markov para um processo de n estados pode ser montada da seguinte maneira:
P = (p ij) =
i=1 i=2 i =3 . . i=m
j=1 p11 p21 p31 . . pm1

ij
j=2 p12 p22 p32 . . pm2
j=3 p1 p23 p33 . . pm3
...... ...... ...... ...... . . ......
j=m p1m p2m p3m . . pmm
sendo que as probabilidades p igual a 1.
so no-negativos e a soma de pi1 + pi2 + ... + pim deve ser
A probabilidade de transio p ij pode ser de n passos, tomando a forma de p ij (n) onde n indica o nmero de tentativas, ou seja, a probabilidade que a populao vai de um estado i de uma tentativa para o estado j, n tentativas depois.
Exemplo didtico: Projees da dinmica de Parcelas Permanentes usando Markov (transectos Leste-Oeste e Norte-Sul)
No caso dos dados da parcela permanente do exemplo, vamos considerar 17 estados (i, j = 1, 2, ...17), onde:
estado 1 = recrutamento (R) estados de 2 a 16 = classes de dimetro. As classes de DAP so de 5-5 cm e vo de 10, passando pela classe truncada DAP 75 at classe prxima depois de DAP 75. A movimentao de uma classe para outra, no caso da classe DAP 75, pode ser uma rvore com DAP = 78, em 2000, que passou para a classe seguinte (podendo ser DAP = 80 ou DAP = 81), em 2004 ou tambm uma com DAP = 119, em 2000, que passou para a classe seguinte, em 2004. estado 17 = mortalidade (M)
so considerados: t = 2000 e t+1 = 2004.

Passos para o clculo matricial:
1. Matriz A (Quadro 1) => transio entre a 1 ocasio (2000) e 2 ocasio (2004) => tabelas dinmicas do Excel (V. Box). Daqui uns 10 anos, bem provvel que algum no veja nenhuma importncia nas instrues contidas no Box por achar completamente obsoleta. Hoje, em 2007, apesar deste recurso ser pouco conhecido pelos florestais, um poderoso e prtico instrumento para organizar os dados. Quando se trabalha com parcelas permanentes, re-medidas em vrias ocasies sucessivas, a tabela dinmica serve tambm para conferir o arquivo de dados. A matriz A simtrica; portanto, h 19 colunas e 19 linhas. 1.1. => total 1 ocasio = (total, freqncia da linha 19 e coluna 19 ou f19,19 =6251) menos recrutas (R, linha 3 e coluna 19 ou f3,19 = 396) = 5623 1.2. => total 2 ocasio = (total, f19,19 = 6251) menos mortas (M, f19,18 = 264) = 5987 2. Matriz B1 e B2 (Quadro 2) => probabilidades de mudanas de um estado (i) para outro (j). A matriz de probabilidade repetida pra facilitar a multiplicao de matrizes no Excel. Portanto B1 = B2. 2.1. Recrutas (R) => das 396 rvores recrutadas em 2004 => 385, 7 e 4, respectivamente, foram recrutadas para a 1 classe (10<15), 2 (15<20) e 3 (20<25). 2.2. Probabilidades de 2.1. => 385/396, 7/396 e 4/396.
2.3. 1 classe (10<15) => das 2167 rvores que estavam na 1 classe na 1 ocasio (2000) => na 2 ocasio (2004), 1869 permaneceram na 1 classe, 205 mudaram para a 2 classe, 2 passaram para a 3 classe e 91 morreram. 2.4. Probabilidades de 2.3. => 1869/2167, 205/2167, 2/2167 e 91/2167. 2.5. 2 classe (15<20) => das 1319 rvores que estavam na 2 classe na 1 ocasio (2000) => na 2 ocasio (2004), 1126 permaneceram na 2 classe, 144 mudaram para a 3 classe, 1 passou para a 4 classe e 48 morreram. 2.6. Probabilidades de 2.5. => 1126/1319, 144/1319, 1/1319 e 48/1319. 3. Matriz de probabilidade 2 passos adiante (at 2004) => matriz de transio probabilstica (Matriz B) elevada ao quadrado que resultar na Matriz C (Quadro 3). Se quiser 3 passos adiante, a matriz de transio probabilstica ser elevada ao cubo. 3.1. Multiplicao de matrizes (B1*B2) => No Excel: - blocar (passando o cursor em toda a sua extenso) um espao igual matriz que ser multiplicada (Matriz B), ou seja, mesmo nmero de linhas e mesmo nmero de colunas; - ir ao menu Inserir, selecionar a opo Funo e escolher Matriz.Mult; - definir matriz 1 (B1), blocando a matriz B; - definir matriz 2 (B2), blocando novamente a matriz B e OK; - truque pra ver o resultado (matriz C) => segurar juntos Ctrl, Shift e Enter mantendo o cursor dentro da barra de funo (fx) que fica acima da planilha. - Obs.: a matriz B no deve estar como frmula e sim como Somente Valores. 4. Projeo para 2008 => Matriz D (Quadro 4) => 4.1. A multiplicao de matrizes (B1 e B2) no inclui a coluna TOTAL, portanto, necessrio copi-la da Matriz A e col-la na Matriz C para facilitar o clculo da freqncia esperada por classe (Matriz D); 4.2. A Matriz D calculada multiplicando a probabilidade de ocorrncia de rvores em uma classe dois passos a diante (Matriz C) pelo nmero total de rvores daquela classe. Ex.: - classe 10<15 => C2*T2 = 0,8395 * 396 = 332,05 C3*T3 = 0,7439 * 2167 = 1612 - classe 15 < 20 => D2*T2 = 0,1071 * 396 = 42,39 D3*T3 = 0,1624 * 2167 = 351,81 D4*T4 = 0,7288 * 1319 = 961,24 e assim por diante para todas as classes. 4.3. O total da freqncia esperada por classe ou estado (que a projeo para 2008) calculado da seguinte forma (dados da Matriz D): - classe 10<15 => C2 + C3 = 332,05 + 1612 = 1944. - classe 15<20 => D2 + D3 + D4 = 42,39 + 351,81 + 961,24 = 1355,5 e assim por diante para todas as classes.
4.4. Classe PRX. => esta classe criada apenas para descrever a dinmica das rvores truncadas ao DAP 75 cm. No quadro com as freqncias esperadas (E) (5b) a freqncia da classe PRX deve ser acrescentada classe DAP 75 cm. Portanto, a freqncia esperada da classe DAP 75 cm deve ser somada da classe PROX: - classe DAP 75 cm => Q19 + R19 = 11,56 + 4,407 = 15,963 (Quadro 5a) 5. Ajustes necessrios => a cadeia de Markov no faz projees do recrutamento. Portanto, h necessidade de fazer ajustes para que a probabilidade de recrutamento das rvores em 2004 possa ser includa na projeo de 2008. Enquanto no tiver uma srie histrica de recrutamento, o nico recurso usar o n de indivduos recrutados de uma ocasio para outra. 5.1. O ajuste feito com os dados do Quadro 5a: (prob do n de arv da 1 classe prob da mortalidade da 1 classe) + (Total de recrutas de 2004 * projeo da 1 classe para 2008). Ex.: - classe 10<15 => (1944 86) + (396 * 0,9722) 2242,3 - classe 15<20 => (1355,5 47) + (396 * 0,0177) 1316 - classe 20<25 => (865,8 33) + (396 * 0,0101) 837 5.2. Para as classes onde no houve recrutamento em 2004, basta diminuir a prob do n de arv da classe sem recrutamento prob da mortalidade dessa mesma classe. Ex.: - classe 25<30 => 543,4 24 519 ... - classe DAP 75 cm => 15,96 - 3 13 6. Se 3 ocasies esto disponveis, o certo usar a mdia [ R = (R1+R2)/2 ], sendo que R1 o n indivduos recrutados entre a 1 e 2 ocasio e R2 o n entre a 2 e 3 ocasio, ou seja, seriam necessrios 3 inventrios. 7. Comparao entre freqncias esperadas (E), para 2008, fornecida pela Cadeia de Markov e as freqncias observadas de fato em 2004 (Quadro 6) => teste qui-quadrado ( 2 ). Neste exemplo, como o 2 tabelado com 13 graus de liberdade e p = 0,05 igual a 22,36, isso significa dizer que h fracas evidncias para afirmar que E seja diferente de O. Usando p = 0,01, o valor de 2 igual a 27,69 e, do ponto de vista de estatstica, pode-se afirmar que o teste no significante. O certo seria usar um intervalo de tempo maior para fazer projees para um perodo imediatamente posterior, para confirmar a eficincia de Markov. O exemplo foi usado para comprovar que Markov eficiente para fazer projees da dinmica de uma floresta manejada. Essa comprovao j tinha sido realizada em florestas no perturbadas (Rocha, 2001).
Bibliografia:
Acevedo, M.F. 1981. On Horns Markovian Model of Forest Dynamics with Particular Reference to Tropical Forests. Theoretical Population Biology 19:230-250.
Alder, D. 1980. Forest Volume Estimation and Yield Prediction. V.2 Yield Prediction. FAO Forestry Paper 22/2. 194 p. Anderson, T.W. e L.A. Goodman. 1957. Statistical Inference about Markov Chains. Annals of Mathematical Statistics 28:89-110. Bierzychudek, P. 1982. The Demography of Jack-in-the-pulpit, a Forest Perennial that Changes Sex. Ecol. Monographs 52(4):333-351. Bruner, H.D. e J.W. Moser Jr.. 1973. A Markov Chain Approach to the Prediction of Diameter Distributions in Uneven-aged Forest Stands. Can.J.For.Res. 3:409-417. Buogiorno, J. e B.C. Michie. 1980. A Matrix Model of Unever-aged Forest Management. Forest Science 26:609-625. Chambers, J.Q., N. Higuchi e J.P. Schimel. 1998. Ancient Trees in Amazonia. Nature, 391:15-16. Chiang, C.L. 1980. An Introduction to Stochastic Processes and their Applications. Robert E. Krieger Publ. Co., Huntington, New York. Clutter, J.L., J.C. Fortson, L.V. Pienaar, G.H. Brister e R.L. Bailey. 1983. Timber Management: A Quantitative Approach. John Wiley and Sons, Inc. New York. 333p. Enright, N. e J. Ogden. 1979. Applications of Transition Matrix Models in Forest Dynamics: Araucaria in Papua New Guinea and Nothofagus in New Zealand. Australian J. of Ecology 4:3-23. Ferguson, I.S. e J.W. Leech. 1978. Generalized Least Squares Estimation of Yield Functions. Forest Science 24:27-42. Grossman, S.I. e J.E. Turner. 1974. Mathematics for the Biological Sciences. Macmillan Publ. Co., Inc. New York. 512p. Higuchi. N. 1987. Short-term Growth of an Undisturbed Tropical Moist Forest in the Brazilian Amazon. Tese de Doutor. MSU. 129p. Horn, H.S. 1975. Markovian Properties of Forest Succession. In: Ecology and Evolution of Communities (M. Cody e J. Diamond, editores), pp.196-211. Harvard University Press. Cambridge, Mass. Morrison, D.F. 1976. Multivariate Statistical Methods. McGraw-Hill Inc.. 415p. Peden, L.M., J.S. Williams e W.E. Frayer. 1973. A Markov Model for Stand Projection. Forest Science 19:303-31. Rocha, R.M. 2001. Taxas de recrutamento e mortalidade da floresta de terra-firme da bacia do rio Cueiras na regio de Manaus-AM. Dissertao de mestrado CFT-INPA. 49p. Shugart, H.H. 1984. A Theory of Forest Dynamics: The Ecological Forest Succession Models. Springer-Verlag Inc. New York. 278p. Shugart, H.H. e D.C. West. 1981. Long-term Dynamics of Forest Ecosystems. Am. Scientist 69:647-652.
Smith, V.G. 1983. Compatible Basal Area Growth and Yield Models Consistent with Forest Growth Theory. Forest Science 29:279-288. Sullivan, A.D. e J.L. Clutter. 1972. A Simultaneous Growth and Yield Model for Loblolly Pine. Forest Science 18:76-86. Usher, M.B. 1966. A Matrix Approach to the Management of Renewable Resources, with Special Reference to Selection Forests. J. of Applied Ecology 3(2):355-367. Usher, M.B. 1969. A Matrix Model for Forest Management. Biometrics, June:309-315. Usher, M.B. 1979. Markovian Approaches to Ecological Succession. J. of Animal Ecology 48:41-426.
Box 1
Tabela dinmica do Excel usando o mesmo arquivo de dados do T2-B2SB4.

Passos necessrios:
1. Neste arquivo h as seguintes colunas: nome comum da espcie, DAP90, DAP97 e DAP04 2. Inserir trs novas colunas entre DAP90 e DAP97, entre DAP97 e DAP04 e depois de DAP04 e nomear como CD1, CD2 e CD3, respectivamente. 3. Clicar em DADOS => FILTRAR => AUTO-FILTRO => apenas para a transio entre 1990 e 1997. Para a transio entre 1997e 2004, o procedimento o mesmo. 4. Identificar as recrutas => so clulas que aparecem em branco ou zero na coluna do DAP90 em DAPs registrados na coluna DAP97 => clicar em DAP90 e procurar branco e zero e nomear com R na prpria coluna DAP90 e na coluna CD1 atribuir o cdigo 1 => para todas as rvores nessas condies. 5. Calcular as freqncias das classes 10<15, 15<20 ... at 65 => continuar com o FILTRAR nas colunas DAP90 e DAP97. Comear com 1990 clicando em DAP90 e ir para PERSONALIZAR. Lembrar que a primeira classe (10<15) o segundo estado. Em PERSONALIZAR, a primeira condio maior ou igual a 10 (digitando) e a segunda menor do que 15 (digitando). Depois de OK, digitar em CD1 o nmero da classe (2, neste caso). Repetir isso at a ltima classe ( 65), que ser a classe nmero 1. 6. Identificar as mortas => so clulas que aparecem em branco ou zero na coluna do DAP97 e tinham DAPs na coluna DAP90 => clicar em DAP97 e nomear com M na prpria coluna DAP97 e na coluna CD2 atribuir o cdigo 15 => para todas as rvores nessas condies. 7. Repetir passo 5 para DAP97. Em DAP97 tem que incluir a classe 1 (PRX). Neste caso, o trabalho tem que ser feito manualmente (no olho), ou seja, tem que olhar para as colunas DAP90 e DAP97 e verificar quais rvores que estavam na classe 1 em 1990 e mudaram de classe em 1997. 8. Ir pra DADOS, clicar em FILTRAR e retirar o AUTO-FILTRO. 9. Em DADOS, clicar em RELATRIOS DE TABELA E GRFICOS DINMICOS e seguir as instrues lgicas. 10. Pra ter a tabela dinmica: - arrastar CD1 at a coluna onde est escrito solte campos de linha aqui - arrastar CD2 at a linha onde est escrito solte campos de coluna aqui - arrastar DAP97 em cima de solte itens de dados aqui
Quadro 1: Matriz (A) => transio do estado i para o estado j durante o perodo de 2000 a 2004.
A 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 estados R 10 < 15 15 < 20 20 < 25 25 < 30 30 < 35 35 < 40 40 < 45 45 < 50 50 < 55 55 < 60 60 < 65 65 < 70 70 < 75 >=75 PROX M Total B R 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 C 10 < 15 385 1869 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 2254 D 15 < 20 7 205 1126 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1338 E 20 < 25 4 2 144 711 0 0 0 0 0 0 0 0 0 0 0 0 0 861 F 25 < 30 0 0 1 104 419 0 0 0 0 0 0 0 0 0 0 0 0 524 G 30 < 35 0 0 0 4 59 276 0 0 0 0 0 0 0 0 0 0 0 339 H 35 < 40 0 0 0 0 0 59 195 0 0 0 0 0 0 0 0 0 0 254 I 40 < 45 0 0 0 1 0 0 23 119 0 0 0 0 0 0 0 0 0 143 J 45 < 50 0 0 0 0 0 0 0 27 72 0 0 0 0 0 0 0 0 99 L 50 < 55 0 0 0 0 0 0 0 1 14 36 0 0 0 0 0 0 0 51 M 55 < 60 0 0 0 0 0 0 0 0 0 7 28 0 0 0 0 0 0 35 N 60 < 65 0 0 0 0 0 0 0 0 0 0 6 19 0 0 0 0 0 25 O 65 < 70 0 0 0 0 0 0 0 0 0 0 1 8 12 0 0 0 0 21 P 70 < 75 0 0 0 0 0 0 0 0 0 0 0 0 4 15 0 0 0 19 Q >=75 0 0 0 0 0 0 0 0 0 0 0 0 0 2 15 0 0 17 R PROX 0 0 0 0 0 0 0 0 0 0 0 0 0 0 7 0 0 7 S M 0 91 48 33 24 26 10 8 7 3 6 1 1 1 5 0 0 264 T Total 396 2167 1319 853 502 361 228 155 93 46 41 28 17 18 27 0 0 6251
Quadro 2: Matriz B (B1 e B2) transio probabilstica do estado i para o estado j durante o perodo de 2000 a 2004.
A 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 estados R 10 < 15 15 < 20 20 < 25 25 < 30 30 < 35 35 < 40 40 < 45 45 < 50 50 < 55 55 < 60 60 < 65 65 < 70 70 < 75 >=75 PROX M Total B R 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 C 10 < 15 0,9722 0,8625 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 D 15 < 20 0,0177 0,0946 0,8537 0 0 0 0 0 0 0 0 0 0 0 0 0 0 E 20 < 25 0,0101 0,0009 0,1092 0,8335 0 0 0 0 0 0 0 0 0 0 0 0 0 F 25 < 30 0 0 0,0008 0,1219 0,8347 0 0 0 0 0 0 0 0 0 0 0 0 G 30 < 35 0 0 0 0,0047 0,1175 0,7645 0 0 0 0 0 0 0 0 0 0 0 H 35 < 40 0 0 0 0 0 0,1634 0,8553 0 0 0 0 0 0 0 0 0 0 I 40 < 45 0 0 0 0,0012 0 0 0,1009 0,7677 0 0 0 0 0 0 0 0 0 J 45 < 50 0 0 0 0 0 0 0 0,1742 0,7742 0 0 0 0 0 0 0 0 L 50 < 55 0 0 0 0 0 0 0 0,0065 0,1505 0,7826 0 0 0 0 0 0 0 M 55 < 60 0 0 0 0 0 0 0 0 0 0,1522 0,6829 0 0 0 0 0 0 N 60 < 65 0 0 0 0 0 0 0 0 0 0 0,1463 0,6786 0 0 0 0 0 O 65 < 70 0 0 0 0 0 0 0 0 0 0 0,0244 0,2857 0,7059 0 0 0 0 P 70 < 75 0 0 0 0 0 0 0 0 0 0 0 0 0,2353 0,8333 0 0 0 Q >=75 0 0 0 0 0 0 0 0 0 0 0 0 0 0,11 0,56 0 0 R PROX 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0,259 0 0 S M 0 0 0 0 0 0,1 0 0,1 0,1 0,1 0,1 0 0,1 0,1 0,2 0 0 T Total
Quadro 3: Matriz C ou [B]2 - Matriz de transio probabilstica dois passos adiante (at 2008)
A 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 estados R 10<15 15<20 20<25 25<30 30<35 35<40 40<45 45<50 50<55 55<60 60<65 65<70 70<75 >=75 PROX M Total B R 0,0000 0,0000 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 C 10<15 0,8385 0,7439 0,0000 0 0 0 0 0 0 0 0 0 0 0 0 0 0 D 15<20 0,1071 0,1624 0,7288 0,0000 0 0 0 0 0 0 0 0 0 0 0 0 0 E 20<25 0,0112 0,0119 0,1842 0,6948 0,0000 0 0 0 0 0 0 0 0 0 0 0 0 F 25<30 0,0012 0,0002 0,0146 0,2034 0,6967 0,0000 0 0 0 0 0 0 0 0 0 0 0 G 30<35 5E-05 4E-06 0,0006 0,0218 0,188 0,5845 0,0000 0 0 0 0 0 0 0 0 0 0 H 35<40 0 0 0 0,0008 0,0192 0,2647 0,7315 0,0000 0 0 0 0 0 0 0 0 0 I 40<45 1E-05 1E-06 0,0001 0,0019 0 0,0165 0,1637 0,5894 0,0000 0 0 0 0 0 0 0 0 J 45<50 0 0 0 0,0002 0 0 0,0176 0,2686 0,5994 0,0000 0 0 0 0 0 0 0 L 50<55 0 0 0 8E-06 0 0 0,0007 0,0362 0,2344 0,6125 0,0000 0 0 0 0 0 0 M 55<60 0 0 0 0 0 0 0 0,001 0,0229 0,223 0,4664 0,0000 0 0 0 0 0 N 60<65 0 0 0 0 0 0 0 0 0 0,0223 0,1992 0,4605 0,0000 0 0 0 0 O 65<70 0 0 0 0 0 0 0 0 0 0,0037 0,0757 0,3956 0,4983 0,0000 0 0 0 P 70<75 0 0 0 0 0 0 0 0 0 0 0,0057 0,0672 0,3622 0,6944 0,0000 0 0 Q >=75 0 0 0 0 0 0 0 0 0 0 0 0 0,026 0,154 0,3086 0 0 R PROX 0 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0288 0,1440 0 0 S M 0,042 0,04 0,035 0,038 0,048 0,062 0,043 0,053 0,068 0,073 0,107 0,041 0,055 0,067 0,103 0 0 T Total 396 2167 1319 853 502 361 228 155 93 46 41 28 17 18 27 0 0
Quadro 4: Matriz D - Clculo das freqncias esperadas de cada classe ou estado

A 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 estados R 10 < 15 15 < 20 20 < 25 25 < 30 30 < 35 35 < 40 40 < 45 45 < 50 50 < 55 55 < 60 60 < 65 65 < 70 70 < 75 >=75 PROX M Total B R 0,000 0,000 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 C 10 < 15 332,056 1611,980 0,000 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1944,036 D 15 < 20 42,397 351,813 961,240 0,000 0 0 0 0 0 0 0 0 0 0 0 0 0 1355,450 E 20 < 25 4,454 25,773 242,958 592,639 0,000 0 0 0 0 0 0 0 0 0 0 0 0 865,823 F 25 < 30 0,493 0,399 19,245 173,492 349,723 0,000 0 0 0 0 0 0 0 0 0 0 0 543,352 G 30 < 35 0,019 0,009 0,793 18,615 94,353 211,014 0,000 0 0 0 0 0 0 0 0 0 0 324,803 H 35 < 40 0 0 0 0,654 9,643 95,569 166,776 0,000 0 0 0 0 0 0 0 0 0 272,641 I 40 < 45 0,005 0,002 0,169 1,601 0 5,952 37,329 91,361 0,000 0 0 0 0 0 0 0 0 136,419 J 45 < 50 0 0 0 0,174 0 0 4,006 41,632 55,742 0,000 0 0 0 0 0 0 0 101,555 L 50 < 55 0 0 0 0,006 0 0 0,148 5,615 21,795 28,174 0,000 0 0 0 0 0 0 55,739 M 55 < 60 0 0 0 0 0 0 0 0,152 2,130 10,259 19,122 0,000 0 0 0 0 0 31,663 N 60 < 65 0 0 0 0 0 0 0 0 0 1,024 8,169 12,893 0,000 0 0 0 0 22,086 O 65 < 70 0 0 0 0 0 0 0 0 0 0,171 3,103 11,076 8,471 0,000 0 0 0 22,820 P 70 < 75 0 0 0 0 0 0 0 0 0 0 0,235 1,882 6,157 12,500 0,000 0 0 20,775 Q >=75 0 0 0 0 0 0 0 0 0 0 0 0 0,444 2,778 8,333 0 0 11,556 R PROX 0 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,519 3,889 0 0 4,407 S M 16,577 86,023 46,595 32,818 24,281 22,466 9,740 8,239 6,332 3,372 4,371 1,149 0,928 1,204 2,778 0 0 266,874 T Total
Quadro 5a: Dados para calcular 2008 (E).

CD 10 < 15 15 < 20 20 < 25 25 < 30 30 < 35 35 < 40 40 < 45 45 < 50 50 < 55 55 < 60 60 < 65 65 < 70 70 < 75 >=75 Prob Arv 1944,04 1355,45 865,82 543,35 324,80 272,64 136,42 101,55 55,74 31,66 22,09 22,82 20,77 15,96 Prob Mort 86,02 46,60 32,82 24,28 22,47 9,74 8,24 6,33 3,37 4,37 1,15 0,93 1,20 2,78 proj 0,97 0,02 0,01
Quadro 5b: Freqncias esperadas (E) para 2008 incluindo ajustes feitos para o recrutamento (R)
Estado CD 10 < 15 15 < 20 20 < 25 25 < 30 30 < 35 35 < 40 40 < 45 45 < 50 50 < 55 55 < 60 60 < 65 65 < 70 70 < 75 >=75 Prxima Total 2000 2167 1319 853 502 361 228 155 93 46 41 28 17 18 27 5855 rvores 2004 (O) 2254 1338 861 524 339 254 143 99 51 35 25 21 19 17 7 5987 2008 (E) 2243,0 1315,9 837,0 519,1 302,3 262,9 128,2 95,2 52,4 27,3 20,9 21,9 19,6 13,2 5857,6 Mortalidade 2004 2008 (O) (E) 91 86,02 48 46,60 33 32,82 24 24,28 26 22,47 10 9,74 8 8,24 7 6,33 3 3,37 6 4,37 1 1,15 1 0,93 1 1,20 5 2,78 264 250
Quadro 6: Comparao entre freqncias observadas (O) e esperadas (E) em 2008.
estado 10 < 15 15 < 20 20 < 25 25 < 30 30 < 35 35 < 40 40 < 45 45 < 50 50 < 55 55 < 60 60 < 65 65 < 70 70 < 75 >=75 Total
P P
O 2254 1338 861 524 339 254 143 99 51 35 25 21 19 24 5987
E 2243 1316 837 519 302 263 128 95 52 27 21 22 20 13 5859
2 0,05 0,37 0,69 0,05 4,45 0,30 1,71 0,15 0,04 2,18 0,79 0,04 0,02 2,08 20,13
P P
2tab 0,05;13gl = 22,36 2tab 0,01;13gl = 27,69

P P

ESTÀTISTICA. (Biometria Florestal)

Diunggah oleh

Informasi Dokumen

Deskripsi Asli:

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

ESTÀTISTICA. (Biometria Florestal)

Diunggah oleh

Hak Cipta:

Format Tersedia

INSTITUTO NACIONAL DE PESQUISAS DA AMAZNIA

COORDENAO DE PESQUISAS EM SILVICULTURA TROPICAL

LABORATRIO DE MANEJO FLORESTAL - LMF

Niro Higuchi Joaquim dos Santos Adriano Jos Nogueira Lima

Captulo 1 Introduo - Conceitos gerais

1.1. A Natureza da Estatstica:

1.2. Conceitos Bsicos:

Figura 1.1: Pesquisa cientfica do pensamento inferncia.

fonte: www.tse.gov.br => consultas: 1 turno em 21/10/02 e 2 turno em 29/10/02

04/05 03/04 02/03 01/02 00/01

rea desmatada em km2

sem origem 63%

d autorizado 20% PMFS 17%

relao A:D (%)

50 45 inteno de voto (%) 40 35 30 25 20 15 10 5 0 6 a 9/9

inteno de votos (%)

50 40 30 20 10 0 11 out 6 4 4 3 18/out 6 4 23/out 7 3 26/out

IC(95%) = 18.689 2.372

rea desmatada (km2)

24.000 22.000 20.000 18.000 16.000 14.000

21.060 18.689 16.317

Figura 1.8: Diferena entre preciso e exatido.

Captulo 2 Organizao dos dados

2.2. Dados grupados:

Figura 2.1: Histograma de freqncia para os mesmos dados do quadro 2.1.

2.3. Grficos e figuras:

Captulo 3 Medidas descritivas

3.1 Medidas de tendncia central:

3.2. Medidas de disperso:

ou, mais simples : s =

Por que o denominador (n-1) em vez (n)?

Porque os n desvios, (xi x ), so

necessariamente conectados pela relao linear ( xi x ) = 0. Se voc especifica o valor da

3.3. Medidas de relacionamento:

Exemplo: dados do quadro 2.1 em ordem crescente.

Terceiro quarto Quarto quarto

3.5. Consideraes finais:

SPCxy SQC X SQCY

3 (3) (2) (1) 3! = = = 3 2 2! 1! (2) (1) (1)

4.2. Definies de probabilidade:

a coleo de todos os possveis resultados de um

(ii) Ponto no espao amostral - um resultado possvel de um experimento.

P (A | B) = [ P (AB) ] / [ P (B) ] onde P (B) > 0, caso contrrio, indefinido.

(vi) Eventos independentes: Dois eventos A e B so independentes se

P (AB) = P (A) P (B)

Outras consideraes: Conceito de probabilidade usando distribuies de

Quadro 4.1: Distribuio de nmero de crianas por famlia.

4.3. Variveis aleatrias:

tal que a probabilidade condicional

6 8 3 4 P(X = 3 | Y = 7) = 14 7 6! 8! 3! (6 - 3)! 4! (8 - 4)! = = 0.408 14! 7! (14 - 7)!

onde o somatrio se estende a todos os valores de x entre, no incluindo os nmeros a e b,

onde o somatrio se estende a todos os valores de t que no forem superiores a x.

n f(x) = P(X = x) = p x q n -x para x = 0,1, .., n x

n P (X = x) = p x q n -x x para x inteiro de 0 a n. Desta maneira, o experimento tem a distribuio binominal.

f(x) = 1/N para x = 1,2, ... , N

f(x1, x2, .. xn ) = P (X1 = x1, X2 = x2, ... , Xn = xn )

F(x1, x2, .. xn ) = P (X1 x1, X2 x2, ... , Xn xn )

(12) e (13) onde

onde f(x, y) a funo de probabilidade conjunta de X e Y e f(y) a funo de probabilidade de Y em si.

F(3 | 7) = P(X = 3 | Y = 7) = 0.408 da equao (4)

6 f1 (x) = P (X = x) = p x (1 - p ) 6 - x x e a funo de probabilidade de Y dada por (18) (19) 14 f 2 (y) = P (Y = y) = p y (1 - p)14 - y y

CAPTULO 5 DISTRIBUIO NORMAL