rta do Brasil UAB Programa Nacional de Formao em Administrao Pblica PNAP Bacharelado em Administrao Pblica
Marcelo Tavares
2011
2011. Universidade Federal de Santa Catarina UFSC. Todos os direitos reservados. A responsabilidade pelo contedo e imagens desta obra do(s) respectivo(s) autor(es). O contedo desta obra foi licenciado temporria e gratuitamente para utilizao no mbito do Sistema Universidade Aberta do Brasil, atravs da UFSC. O leitor se compromete a utilizar o contedo desta obra para aprendizado pessoal, sendo que a reproduo e distribuio ficaro limitadas ao mbito interno dos cursos. A citao desta obra em trabalhos acadmicos e/ou profissionais poder ser feita com indicao da fonte. A cpia desta obra sem autorizao expressa ou com intuito de lucro constitui crime contra a propriedade intelectual, com sanes previstas no Cdigo Penal, artigo 184, Pargrafos 1 ao 3, sem prejuzo das sanes cveis cabveis espcie.
T231e
Tavares, Marcelo Estatstica aplicada administrao / Marcelo Tavares. Florianpolis : Departamento de Cincias da Administrao / UFSC; [Braslia] : CAPES : UAB, 2011. 222p. : il. Inclui bibliografia Bacharelado em Administrao Pblica ISBN: 978-85-7988-099-5 1. Administrao Mtodos estatsticos. 2. Estatstica. 3. Probabilidades. 4. Educao a distncia. I. Coordenao de Aperfeioamento de Pessoal de Nvel Superior (Brasil). II. Universidade Aberta do Brasil. III. Ttulo. CDU: 519.2:65
PRESIDENTA DA REPBLICA Dilma Vana Rousseff MINISTRO DA EDUCAO Fernando Haddad PRESIDENTE DA CAPES Jorge Almeida Guimares UNIVERSIDADE FEDERAL DE SANTA CATARINA REITOR Alvaro Toubes Prata VICE-REITOR Carlos Alberto Justo da Silva CENTRO SCIO-ECONMICO DIRETOR Ricardo Jos de Arajo Oliveira VICE-DIRETOR Alexandre Marino Costa DEPARTAMENTO DE CINCIAS DA ADMINISTRAO CHEFE DO DEPARTAMENTO Gilberto de Oliveira Moritz SUBCHEFE DO DEPARTAMENTO Marcos Baptista Lopez Dalmau DIRETORIA DE EDUCAO A DISTNCIA DIRETORIA DE EDUCAO A DISTNCIA COORDENAO GERAL DE ARTICULAO ACADMICA Liliane Carneiro dos Santos Ferreira COORDENAO GERAL DE SUPERVISO E FOMENTO Grace Tavares Vieira COORDENAO GERAL DE INFRAESTRUTURA DE POLOS Joselino Goulart Junior COORDENAO GERAL DE POLTICAS DE INFORMAO Adi Balbinot Junior COMISSO DE AVALIAO E ACOMPANHAMENTO PNAP Alexandre Marino Costa Claudin Jordo de Carvalho
Eliane Moreira S de Souza Marcos Tanure Sanabio Maria Aparecida da Silva Marina Isabel de Almeida Oreste Preti Tatiane Michelon Teresa Cristina Janes Carneiro METODOLOGIA PARA EDUCAO A DISTNCIA Universidade Federal de Mato Grosso COORDENAO TCNICA DED Tatiane Michelon Tatiane Pacanaro Trinca Soraya Matos de Vasconcelos AUTOR DO CONTEDO Marcelo Tavares EQUIPE DE DESENVOLVIMENTO DE RECURSOS DIDTICOS CAD/UFSC Coordenador do Projeto Alexandre Marino Costa Coordenao de Produo de Recursos Didticos Denise Aparecida Bunn Superviso de Produo de Recursos Didticos rika Alessandra Salmeron Silva Designer Instrucional Adriana Novelli Andreza Regina Lopes da Silva Denise Aparecida Bunn Auxiliar Administrativo Stephany Kaori Yoshida Capa Alexandre Noronha Projeto Grfico e Finalizao Annye Cristiny Tessaro Diagramao Rita Castelan Minatto Ilustrao Livia Remor Pereira Reviso Textual Claudia Leal Estevo Brites Ramos Mara Aparecida Andrade R. Siqueira
Crditos da imagem da capa: extrada do banco de imagens Stock.xchng sob direitos livres para uso de imagem.
PREFCIO
Os dois principais desafios da atualidade na rea educacional do Pas so a qualificao dos professores que atuam nas escolas de educao bsica e a qualificao do quadro funcional atuante na gesto do Estado brasileiro, nas vrias instncias administrativas. O Ministrio da Educao (MEC) est enfrentando o primeiro desafio com o Plano Nacional de Formao de Professores, que tem como objetivo qualificar mais de 300.000 professores em exerccio nas escolas de Ensino Fundamental e Mdio, sendo metade desse esforo realizado pelo Sistema Universidade Aberta do Brasil (UAB). Em relao ao segundo desafio, o MEC, por meio da UAB/CAPES, lana o Programa Nacional de Formao em Administrao Pblica (PNAP). Esse Programa engloba um curso de bacharelado e trs especializaes (Gesto Pblica, Gesto Pblica Municipal e Gesto em Sade) e visa a colaborar com o esforo de qualificao dos gestores pblicos brasileiros, com especial ateno no atendimento ao interior do Pas, por meio dos Polos da UAB. O PNAP um Programa com caractersticas especiais. Em primeiro lugar, surgiu do esforo e da reflexo de uma rede composta pela Escola Nacional de Administrao Pblica (ENAP), pelo Ministrio do Planejamento, pelo Ministrio da Sade, pelo Conselho Federal de Administrao, pela Secretaria de Educao a Distncia (SEED) e por mais de 20 instituies pblicas de Ensino Superior (IPES), vinculadas UAB, que colaboraram na elaborao do Projeto Poltico Pedaggico dos cursos. Em segundo lugar, esse Projeto ser aplicado por todas as instituies e pretende manter um padro de qualidade em todo o Pas, mas abrindo margem para
que cada IPES, que ofertar os cursos, possa incluir assuntos em atendimento s diversidades econmicas e culturais de sua regio. Outro elemento importante a construo coletiva do material didtico. A UAB colocar disposio das IPES um material didtico mnimo de referncia para todas as disciplinas obrigatrias e para algumas optativas. Esse material est sendo elaborado por profissionais experientes da rea da Administrao Pblica de mais de 30 diferentes instituies, com o apoio de equipe multidisciplinar. Por ltimo, a produo coletiva antecipada dos materiais didticos libera o corpo docente IPES para uma dedicao maior ao processo de gesto acadmica dos cursos; uniformiza um elevado patamar de qualidade para o material didtico e garante o desenvolvimento ininterrupto dos cursos, sem paralisaes que sempre comprometem o entusiasmo dos estudantes. Por tudo isso, estamos seguros de que mais um importante passo em direo democratizao do Ensino Superior pblico e de qualidade est sendo dado, desta vez contribuindo tambm para a melhoria da gesto pblica brasileira.
Celso Jos da Costa Diretor de Educao a Distncia Coordenador Nacional da UAB CAPES-MEC
SUMRIO
Apresentao.................................................................................................... 11 Unidade 1 Fases do Mtodo Estatstico, Populao e Amostra
Fases do Mtodo Estatstico....................................................................... 17 Definio do Problema...................................................................... 18 Planejamento........................................................................................ 19 Coleta de Dados................................................................................ 19 Organizao de Dados......................................................................... 20 Apresentao de Dados......................................................................... 21 Anlise e Interpretao de Dados................................................................ 22 Populao e Amostras................................................................................. 25 Amostragens Probabilsticas............................................................... 31 Amostragens no Probabilsticas.......................................................... 40
Unidade 4 Probabilidade
Introduo.......................................................................................... 101 Experimento Aleatrio....................................................................... 103 Espao Amostral............................................................................... 105 Evento......................................................................................... 106 Definies de Probabilidades........................................................................ 107 Probabilidade Condicional........................................................................ 113 Regra do Produto e Eventos Independentes.................................................. 116 Algumas Regras Bsicas de Probabilidades...................................................... 122
Distribuies Contnuas...................................................................... 140 Distribuio Normal........................................................................ 140 Distribuies Amostrais..................................................................... 148 Distribuio t de Student............................................................. 149 Distribuio de Qui-Quadrado............................................................. 153 Distribuio de F......................................................................... 156 Noes de Estimao...................................................................... 159 Estimao por Intervalos................................................................... 161 Dimensionamento de Amostras........................................................ 164
10
Apresentao
APRESENTAO
Seja bem-vindo ao estudo da Estatstica! Esperamos que esta disciplina seja uma experincia interessante e enriquecedora. Pensando nisso, elaboramos o material com cuidado para que voc aprenda os principais conceitos associados Estatstica, que vem se tornando cada vez mais importante no competitivo ambiente de negcios e de gesto. Juntos, iremos viajar pelo mundo dos nmeros associados estatstica e suas relaes no dia a dia do gestor pblico. O principal objetivo que voc tenha a oportunidade de ampliar seu conhecimento sobre o universo da estatstica. Dessa forma, no sero feitas neste material dedues e demonstraes matemticas de expresses. Ser tentado um entendimento mais abstrato das expresses a serem utilizadas. Voc j deve estar acostumado a utilizar a estatstica, ou ferramentas estatsticas, no seu dia a dia, sem saber que a esta utilizando. Se voc acha que a estatstica se resume apenas a nmeros e a grficos, est redondamente enganado. Dessa forma, estaremos, a partir de agora, entrando em um mundo no qual os nmeros iro sempre lhe falar ou lhe contar alguma coisa. O seu trabalho usando a estatstica passar a ser o de ajudar a planejar a obteno de dados, a interpretar e a analisar os dados obtidos e a apresentar os resultados de maneira a facilitar a sua tomada de decises como gestor na rea pblica. Para gerar tabelas, grficos e utilizar tcnicas estatsticas, temos uma infinidade de softwares que fazem isso automaticamente. Entretanto, para podermos descobrir quais as respostas que os dados podem nos dar para determinados questionamentos, necessrio
Mdulo 4
11
que voc saiba a teoria estatstica e treine suas aplicaes por meio de estudos de casos, ou situaes. Sempre surgem, ento, perguntas do tipo: quais variveis devem ser medidas? Como retirar amostras da populao que se deseja estudar? Que tipo de anlise realizar? Como interpretar os resultados? Espero que no final da leitura deste material voc tenha condies de responder de forma clara a essas perguntas e a outras que podem ser feitas. necessrio termos em mente que a estatstica uma ferramenta para o gestor ou para o executivo, nas respostas aos porqus de seus problemas. Contudo, para que ela seja bem utilizada, necessrio conhecer os seus fundamentos e os seus princpios e, acima de tudo, que o gestor desenvolva um esprito crtico e de anlise; pois fcil mentir usando a estatstica, difcil falar a verdade sem usar a estatstica. Atualmente, as empresas tm procurado admitir como gestores os profissionais que tenham um nvel de conhecimento de estatstica alto, pois esse conhecimento tem resultado em diferena significativa nos processos decisrios. Para estudar na modalidade a distncia o contedo da disciplina Estatstica Aplicada Administrao preciso que voc tenha disciplina intelectual que, para desenvolver, somente praticando e, ainda, uma postura crtica, sistemtica. Ou seja, ao invs de voc atuar como passivo e concordar com tudo o que diz o texto, voc deve duvidar, contestar, criticar, comentar e descobrir o que o autor quer dizer. O ato de estudar exige que voc faa exerccios e entenda o que est fazendo, no sendo apenas um mero executor de frmulas. Isso implica o entendimento dos conceitos apresentados neste material. Uma vez que a leitura uma atividade, voc deve ser ativo. Tenha certeza de que um estudante consegue aprender mais do que o outro medida que se aplica mais e capaz de uma atividade maior de leitura. E aprende melhor se exigir mais de si mesmo e do texto que tem diante de si.
12
Apresentao
Para tanto, dividimos o livro em seis Unidades. Na Unidade 1, iremos ver as fases do mtodo estatstico e os conceitos de populaes, de amostras e de mtodos de amostragem. Nas Unidades 2 e 3, vamos aprender a descrever um conjunto de dados por meio de distribuies de frequncias, de medidas de posio e de disperso. J nas Unidades 4 e 5, estaremos aprendendo conceitos relacionados a probabilidades, a distribuies discretas e contnuas, alm de noes de estimao. E, por fim, na ltima Unidade, voc ir aprender como tomar decises baseadas nos chamados testes de hipteses. Desejo a voc bons estudos! Professor Marcelo Tavares
Mdulo 4
13
UNIDADE 1
FASES DO MTODO ESTATSTICO, POPULAO E AMOSTRA
Entender as relaes entre as fases do mtodo estatstico e apliclas no desenvolvimento de seus projetos; Compreender conceitos bsicos relacionados estatstica, como variveis, estimadores, estimativas, parmetros, populao, amostras; e Entender os diversos tipos de amostragem e saber como apliclos quando for desenvolver qualquer tipo de projeto em que se utilize planos amostrais.
16
Para realizarmos um estudo estatstico, normalmente, existem vrias etapas a serem realizadas. Essas etapas so chamadas de fases do mtodo estatstico. Quando voc tiver bem definido essas fases, e tiver condies de realiz-las de forma adequada, a chance de sucesso em um trabalho estatstico ou que envolva estatstica ser muito maior. Para isso, ento, voc ir conhecer essas fases ou etapas de forma mais detalhada. As fases do mtodo estatstico so:
definio do problema; planejamento do processo de resoluo; coleta dos dados; organizao de dados; apresentao de dados; e anlise e interpretao dos resultados.
Mdulo 4
17
Agora, voc ver de forma detalhada cada uma dessas fases. Ao longo da apresentao, iremos detalhando cada uma delas, inserindo-as passo a passo, para que no final voc tenha uma ideia das relaes entre essas fases.
DEFINIO
DO
PROBLEMA
A primeira fase consiste na definio e na formulao correta do problema a ser estudado. Para isso, voc deve procurar outros estudos realizados sobre o tema escolhido, pois, desse modo, voc evitar cometer erros que j tenham sido cometidos por outros.
Sendo assim, essa primeira fase pode responder definio de um problema ou, simplesmente, dar resposta a um interesse de profissionais. Em alguns casos, podem estar envolvidas variveis qualitativas e quantitativas, por exemplo:
18
PLANEJAMENTO
Aps voc definir o problema, preciso determinar um processo para resolv-lo e, em especial, a forma de como obter informaes sobre a varivel ou as variveis em estudo. nessa fase que devemos decidir pela observao da populao ou de uma amostra. Portanto, voc precisa:
Planejamento da pesquisa
Mdulo 4
19
estatsticas inadequadas ou que no refletem a situao que voc deseja estudar. Os dados podem ser coletados, por exemplo, por meio de:
Planejamento da pesquisa
ORGANIZAO DE DADOS
*Atributo estatstico toda medida estatstica, por exemplo, mdia. Fonte: Elaborado pelo autor. *Tratamento estatstico implica analisar os dados utilizando tcnicas estatsticas. Fonte: Elaborado pelo autor.
Agora que temos os dados precisamos organiz-los, pois somente coletar os dados no suficiente. Essa organizao consiste em resumir os dados atravs da sua contagem e agrupamento. Desse modo, obtemos um conjunto de informaes que ir conduzir ao estudo do atributo estatstico*. Geralmente, essa organizao feita em planilhas eletrnicas (tipo Excel) para posterior tratamento estatstico*.
20
Definio do problema
Planejamento da pesquisa
APRESENTAO
DE
DADOS
Agora que temos os dados organizados, precisamos apresent-los e, para tanto, existem duas formas de apresentao que voc poder utilizar, que no se excluem mutuamente, a saber:
Mdulo 4
21
Definio do problema
Planejamento da pesquisa
Na Unidade 2, ampliaremos nossa discusso quanto forma de apresentao dos dados, ou seja, detalharemos como montar essas tabelas de distribuio de frequncias, quais os tipos de grficos mais adequados para cada situao que voc venha a ter.
*Mdias so os resultados obtidos por meio da soma de todos os valores, divididos pela quantidade de nmeros que voc somou. Fonte: Elaborado pelo autor.
ir aprender na Unidade 5.
22
por exempo, mdia e moda* e ao porqu de as utilizarmos. Para verificar as relaes entre essas medidas, voc deve estar de mente aberta. E, para tanto, necessrio que voc conhea a estrutura e o clculo dessas medidas. Imagine que voc esteja envolvido em um estabelecimento de conjecturas e na comunicao da informao de uma forma convincente atravs da elaborao de relatrios, de textos e de artigos que incluam, por exemplo, grficos e tabelas. As pessoas que se utilizam da estatstica como ferramenta devem ser sensibilizadas para a influncia que poder ter o modo de apresentao da informao na comunicao de resultados, a utilizao de diferentes grficos e/ou de diferentes escalas. Para compreender essa nossa conversa, analise a Figura 1, que apresenta um resumo de todas essas fases:
Definio do problema
*Moda valor que mais se repete em um conjunto de observaes. Fonte: Elaborado pelo autor.
Planejamento da pesquisa
Concluses
Mdulo 4
23
Por fim, importante destacarmos que para a realizao dessa fase de anlise faz-se necessrio que voc tenha o domnio da utilizao de planilhas tipo Excel e de softwares estatsticos.
24
POPULAO E AMOSTRAS
Antes, precisamos entender o que uma populao e o que uma amostra. Se considerarmos somente os habitantes de uma cidade que contribuem com o pagamento do IPTU, podemos considerar essas pessoas como sendo a populao, pois apresentam caractersticas em comum; sendo, nesse caso, o fato de que elas esto na mesma cidade e contribuem, todas, com o imposto do IPTU. Suponha, todavia, que voc queira trabalhar com apenas uma par te dessa populao, a qual apresente as mesmas caractersticas da populao da qual voc ter uma amostra, ou seja, uma poro ou frao da populao que preserva todas as caractersticas importantes dos elementos que a integram. Nessa populao, geralmente, voc poder medir uma varivel, por exemplo, a renda dessas pessoas. Assim, voc poder querer calcular a renda mdia dessa populao de pessoas que contribuem com o IPTU (mdia populacional () que corresponde, geralmente, a um valor desconhecido chamado de parmetro). Como voc no vai medir toda a populao, podemos obter uma amostra que represente essa populao e, estudando a amostra, voc ter condies de calcular a mdia amostral (x) que corresponde ao estimador, e o resultado obtido (valor numrico) corresponder estimativa. Para entender melhor essa relao, observe a Figura 2, a seguir.
Mdulo 4
25
Amostragem
Amostra 0 = R$587,00
Figura 2: Relaes entre estimadores, parmetros e estimativa Fonte: Elaborada pelo autor
Para voc entender melhor a figura anterior, verifique que (mdia populacional) e (desvio padro populacional) correspondem aos parmetros (populao), e x corresponde ao estimador (amostra) e R$ 587,00 corresponde estimativa da renda mdia populacional (aproximao numrica do valor da populao). Portanto, quando voc est estudando uma populao inteira (censo) ou realizando uma amostragem, a classificao da varivel que est trabalhando ser muito importante. Ento, vamos ver a classificao das variveis em relao a sua natureza; as quais podem ser: qualitativas (ordinais ou nominais) e quantitativas (discretas ou contnuas). Essa classificao permitir, por exemplo, que voc defina, posteriormente, o tipo de teste de hiptese a ser utilizado ou o tipo de distribuio de probabilidade que necessitar aplicar para a varivel em questo. Sendo assim, precisamos entender a classificao das variveis. Ento, mos obra! A classificao:
26
Mdulo 4
27
Para melhor visualizar essa classificao das variveis, observe a Figura 3, apresentada a seguir.
Agora que voc j conhece e compreendeu a classificao das variveis, vamos voltar relao entre amostragens e populaes. A amostragem o estudo das relaes existentes entre a amostra e a populao de onde ela a amostra foi extrada e a forma como ocorreu essa extrao.
*Amostras representativas so as amostras que mantm as caractersticas da populao de onde ela foi retirada. Fonte: Elaborado pelo autor. *Censo avaliao de toda a populao. Fonte: Elaborado pelo autor.
As principais vantagens da utilizao do estudo por amostras representativas* em relao ao censo* so:
28
Mdulo 4
29
Antes de darmos continuidade, reflita: como voc faria para retirar uma amostra de 300 pessoas que esto em um cadastro de prefeitura que tem 60.000 pessoas? Essa amostra seria representativa da populao?
*Plano de amostragem plano de como ser feita a retirada da amostra da populao. Fonte: Elaborado pelo autor. *Unidades amostrais correspondem s unidades selecionadas. Fonte: Elaborado pelo autor.
Uma vez que voc tenha decidido realizar a pesquisa selecionando uma amostra da populao, preciso elaborar o plano de amostragem*. O plano de amostragem consiste em definir as unidades amostrais*, maneira pela qual a amostra ser retirada (o tipo de amostragem), e o prprio tamanho da amostra. Essas unidades amostrais podem corresponder aos prprios elementos da populao, quando h acesso direto a eles, ou qualquer outra unidade que possibilite chegar at eles. Voc pode considerar como populao os domiclios de uma cidade da qual se deseja avaliar o perfil scioeconmico. A unidade amostral ser cada um dos domiclios, que corresponder aos elementos da populao. Caso a unidade amostral seja definida como os quarteires, a unidade amostral no corresponder aos elementos populacionais. Temos dois tipos principais de amostragem as probabilsticas e as no probabilsticas. Observe a descrio a seguir:
30
Voc pode notar que a utilizao de uma amostra probabilstica melhor para garantir a representatividade da amostra, pois o acaso ser o nico responsvel por eventuais discrepncias entre populao e amostra. Essas discrepncias so levadas em considerao nas inferncias estatsticas. Vamos, ento, detalhar os tipos de amostragens probabilsticas.
AMOSTRAGENS PROBABILSTICAS
Como j mencionamos, essa amostragem caracterizada pela chance conhecida de mensurarmos uma amostra. Os principais mtodos de amostragem so: aleatria (casual) simples, sistemtica, estratificada e conglomerado. Veja a seguir a descrio de cada uma delas.
Mdulo 4
31
elementos que iro compor a amostra so selecionados. Todos os elementos da populao tm a mesma probabilidade de pertencer amostra. Imagine que voc queira amostrar um nmero de pessoas que esto fazendo um determinado concurso com N = 10.000 inscritos. Como a populao finita, devemos enumerar cada um dos N candidatos e sortear n = 1.000 deles.
Amostragem Sistemtica
Em algumas situaes como amostrar pessoas que ficam em uma fila, conveniente retirar da populao os elementos que iro compor a amostra de forma cclica (em perodos), por exemplo, quando os elementos da populao se apresentam ordenados. Porm, de fundamental importncia que a varivel de interesse no apresente ciclos de variao coincidente com os ciclos de retirada, pois esse fato tornar a amostragem no representativa. Essa tcnica de amostragem o que denominamos de amostragem sistemtica. Para entender melhor, vamos imaginar que voc queira retirar uma amostra dos currculos apresentados pelos candidatos em um processo seletivo, e a varivel de interesse corresponde idade deles. Pode ocorrer que pessoas de uma determinada faixa etria deixem para entregar o currculo no ltimo dia. Ento, se pegssemos de forma aleatria, poderamos estar subestimando ou superestimando a idade mdia. Nessa situao, foram recebidos 500 currculos ordenados por ordem de entrega. Considerando que amostrar 50 currculos o suficiente para estimar a idade mdia dos candidatos, utilizamos a tcnica de amostragem sistemtica, pois pode ocorrer que um grupo de pessoas da mesma faixa etria tenha feito a inscrio em grupo e,
32
assim, na ordem de inscrio, teremos diversas pessoas com a mesma idade. Devemos considerar ento que as idades estejam aleatoriamente distribudas na populao, ou seja, sem qualquer ciclo de repetio. Para tanto, necessrio, antes, que enumeremos a populao de 1 a 500 e calcularemos uma constante (K) que servir como fator de ciclo para retirada dos currculos amostrados. Assim, podemos dividir os 500 currculos pelo tamanho da amostra (50) que desejamos trabalhar e, ento, teremos uma constante igual a 10 e os elementos sero amostrados a cada 10 elementos. Generalizando, teremos que a constante (K) ser dada por K= N/n, em que N o tamanho da populao e n o tamanho da amostra. Aps a definio do valor de K, fazemos o sorteio de um ponto inicial da amostragem (PIA), ou seja, um dos elementos do primeiro intervalo constitudo pelos elementos populacionais numerados de 1 at 10. Na sequncia, devemos escolher o prximo que ser o elemento de ordem (i + K) e assim por diante, sempre somando K ordem do elemento anterior at completar a escolha dos n elementos que iro compor a amostra. Um esquema apresentado na Figura 3 no caso em que K = 5.
Para fixar os conceitos de amostragem sistemtica, vamos fazer, juntos, um esquema de amostragem para saber a opinio dos usurios de um banco, em relao ao tempo de atendimento.
Imagine um Banco X com uma listagem de 33.400 clientes em uma determinada cidade. A pesquisa ser feita por telefone, utilizando uma estrutura de call center. Desejando que seja trabalhado com uma amostra de 300 clientes. Como seria organizada a amostragem sistemtica?
Mdulo 4
33
Antes, voc deve dividir o nmero total de clientes, 33.400, por 300, que o tamanho da amostra.
Como encontramos um valor com casas decimais, ento, voc ir utilizar um K de aproximadamente 111. Agora, do primeiro cliente da lista at o de numero 111, voc ir sortear um nmero. Vamos considerar que sorteamos o cliente nmero 10. Logo, esse ser o primeiro elemento da amostra. O prximo elemento da amostra ser dado pela soma do primeiro sorteado (10 cliente) ao valor de K (111). Ento, o prximo cliente sorteado ser o 121 cliente (10 + 111). Para o sorteio do prximo cliente que ir compor a amostra, teremos o 121 cliente mais o valor de K = 111, ou seja, o 232 cliente. E, desse modo, voc continua at que obtenha todos os elementos da amostra (n = 300 clientes).
Amostragem Estratificada
Quando a varivel de interesse apresenta uma heterogeneidade na populao e essa heterogeneidade permite a identificao de grupos homogneos, voc pode dividir a populao em grupos (estratos) e fazer uma amostragem dentro de cada estrato, garantindo, assim, a representatividade de cada estrato na amostra. Podemos verificar que pesquisas eleitorais apresentam uma grande heterogeneidade em relao inteno de votos quando
34
consideramos, por exemplo, a faixa salarial ou o nvel de escolaridade. Ento, se fizssemos uma AAS, poderamos incluir na amostra maior quantidade de elementos de um grupo, embora, proporcionalmente, esse grupo seja pequeno em relao populao. Dessa forma, no teramos uma amostra representativa da populao a ser estudada. Portanto, podemos dividir a populao em grupos (estratos) que so homogneos para a caracterstica que estamos avaliando, ou seja, nesse caso a inteno de votos. Como estamos dividindo a populao em estratos (grupos) que so homogneos dentro de si, podemos caracterizar a amostragem estratificada. Para efetuar mos a amostragem estratificada de forma proporcional, precisamos, primeiramente, definir a proporo do estrato em relao populao.
A proporo do estrato h ser igual ao nmero de elementos presentes nesse estrato (Nh) dividido pelo tamanho da populao (N) (Nh/N).
Aps voc obter essa proporo do estrato em relao populao, deve multiplicar o tamanho total da amostra (n) pela proporo de cada estrato na populao (Nh/N). Dessa maneira, teremos um tamanho de amostra em cada estrato proporcional ao tamanho do estrato em relao populao. A Figura 4 mostra uma populao dividida em estratos (grupos) e como feita a escolha dos elementos de cada estrato (A, B, C, D). Logo, dentro de cada um dos estratos, voc pode fazer amostragem usando AAS devido aos estratos serem homogneos individualmente, considerando a varivel de interesse.
Mdulo 4
35
Perceba que a quantidade de elementos que iremos sortear dentro de cada estrato proporcional ao tamanho de cada estrato na populao, pois o desenho da amostra o mesmo da populao, porm menor, j que voc ir pegar somente uma parte de cada estrato para compor a amostra final. Para voc fixar melhor os conceitos de amostragem estratificada, vamos resolver juntos a seguinte situao: imagine que o governo federal deseja fazer uma pesquisa de satisfao das pessoas em relao a servios prestados por prefeituras. Estudos anteriores mostram uma relao entre a satisfao das pessoas e o tamanho da cidade. A populao a ser considerada diz respeito s cidades de um determinado Estado. Essas cidades foram divididas em trs grupos (estratos) levando em conta o tamanho da cidade (pequena, mdia e de grande porte). Considere que vamos trabalhar com uma amostra de tamanho n = 200 cidades e, com as informaes a seguir, faa o esquema de uma amostragem estratificada.
ESTRATOS
Pequeno porte Mdio porte Grande porte
Calcule, antes, a proporo de cada estrato na populao, dividindo o tamanho do estrato pelo tamanho da populao (700+100+27 = 827).
36
ESTRATOS
Pequeno porte
N DE CIDADES
PROPORO
N1 = 700 N2 = 100 N3 = 27
Mdio porte
Grande porte
A obteno da quantidade de cidades que ser amostrada na populao ser dada por meio da proporo de cada estrato multiplicado pelo tamanho total da amostra (n=200), como mostrado a seguir:
ESTRATOS
Pequeno porte Mdio porte Grande porte
N DE CIDADES
PROPORO
N1 = 700 N2 = 100 N3 = 27
Ento, na nossa amostra, teremos 170 cidades de porte pequeno, 24 cidades de porte mdio e 6 cidades de grande porte.
Mdulo 4
37
Para poder contornar esse problema, podemos trabalhar com o esquema de amostragem chamado amostragem por conglomerados. Os conglomerados so definidos em razo da experincia do gestor ou do pesquisador. Geralmente, podemos definir os conglomerados por fatores geogrficos, como bairros e quarteires. A utilizao da amostragem por conglomerados possibilita uma reduo significativa do custo no processo de amostragem. Portanto, um conglomerado um subgrupo da populao que, individualmente, reproduz a populao. Esse tipo de amostragem muito til quando a populao grande, por exemplo, no caso de uma pesquisa em nvel nacional.
Voc pode estar se perguntando como: realizar uma amostragem por conglomerados?
Apesar de a amostragem por conglomerados, nesse tipo de amostragem, ser utilizada para uma populao grande, simples de calcul-la. Primeiramente, definimos o conglomerado e, assim, dividimos a populao nele. Sorteamos os conglomerados por meio de um processo aleatrio e avaliamos todos os indivduos presentes neles, isso chamado de amostragem por conglomerados em um estgio. Caso faamos um sorteio de elementos dentro de cada conglomerado, teremos uma amostragem por conglomerados em dois estgios. Para entender melhor esse clculo, observe a Figura 5, que mostra uma amostragem por conglomerados em um nico estgio. Cada quadrado corresponde a uma residncia. Analise.
38
Um exemplo prtico de utilizao dessa amostra a Pesquisa Nacional por Amostra de Domiclios (PNAD) do Instituto Brasileiro de Geografia e Estatstica (IBGE), feita por conglomerados em trs estgios.
O clculo do tamanho amostral ser visto em conjunto com a parte de intervalos de confiana na Unidade 5.
Mdulo 4
39
AMOSTRAGEM
NO
PROBABILSTICA
Quando trabalhamos com a amostragem no probabilstica, no conhecemos a priori a probabilidade que um elemento da populao tem de pertencer amostra. Nesse caso, no possvel calcular o erro decorrente da generalizao dos resultados das anlises estatsticas da amostra para a populao de onde a amostra foi retirada. Ento, utilizamos geralmente a amostragem no probabilstica, por simplicidade ou por impossibilidade de se obter uma amostra probabilstica como seria desejvel. Os principais tipos de amostragem no probabilstica que temos so: amostragem sem norma, ou a esmo; intencional; e por cotas.
Amostragem a Esmo
Imagine uma caixa com 1.000 parafusos. A enumerao desses parafusos ficaria muito difcil e a AAS tornar-se-ia invivel. Ento, em situaes desse tipo, supondo que a populao de parafusos seja homognea, escolhemos a esmo a quantidade relativa ao tamanho da amostra. Quanto mais homognea for a populao, mais podemos supor a equivalncia com uma AAS. Dessa forma, os parafusos sero escolhidos para compor a amostra de um determinado tamanho sem nenhuma norma ou a esmo. Da vem o nome desse tipo de amostragem.
40
Amostragem Intencional
A amostragem intencional corresponde quela em que o amostrador deliberadamente escolhe certos elementos para pertencer amostra por julgar tais elementos bem representativos da populao. Um exemplo desse tipo de amostragem corresponde situao em que desejamos saber a aceitao de uma nova marca de whisky a ser inserida no mercado de uma cidade. Somente entraro para compor a amostra pessoas que faam uso da bebida e que tenham condies financeiras de comprar essa nova marca (classe social de maior poder aquisitivo).
Encontramos esse tipo de amostra em pesquisas eleitorais quando a diviso de uma populao ocorre em grupos; considerando, por exemplo, o sexo, o nvel de escolaridade, a faixa etria e a renda, que podem servir de base para a definio dos grupos, partindo da suposio de que essas variveis definem grupos com comportamentos diferenciados no processo eleitoral.
feitas anteriormente
Mdulo 4
41
Juntando todos os desenhos dos vrios tipos de amostragem que fizemos, teremos, ento, a Figura 6:
Complementando...
Lembre-se de que a construo do conhecimento um processo que deve ser cclico e renovado a cada dia; para tanto, procure descobrir mais acerca desse mundo estatstico seguindo esta orientao:
Programa
mamiraua.org.br/download/Default.aspx?dirpath=e:\home\mamiraua\ Web\download\BioEstat 5 Portugues&tipo=diretorio>. Acesso em: 18 nov. 2010. Esse programa permite que voc realize os mtodos de amostragem, apresentados aqui, computacionalmente.
42
Resumindo
Nesta Unidade, voc conheceu conceitos bsicos relacionados estatstica e aprendeu a retirar amostras de populaes. Esses conceitos sero importantes para a compreenso de novas informaes contidas nas Unidades posteriores.
Mdulo 4
43
Atividades de aprendizagem
Depois de ter visto todos os conceitos das fases do mtodo estatstico, a classificao de variveis e os diferentes planos amostrais, resolva as atividades a seguir. Lembre-se de que as respostas de todas as atividades de aprendizagem esto no final do livro. Em caso de dvidas, voc deve consultar seu tutor.
1. Imagine a situao de um pesquisador que deseje estudar o uso semanal da internet por estudantes de uma escola do Ensino Fundamental. Diferentes perguntas poderiam ser feitas, leia os exemplos e classifique-os em qualitativa nominal ou ordinal e quantitativa discreta ou contnua. a) Voc usa internet durante a semana? (sim ou no). b) Qual a intensidade de uso da internet durante a semana? (nenhuma, pequena, mdia ou grande). c) Quantas vezes voc usa a internet durante a semana? d) Por quantas horas voc usa a internet durante a semana? 2. Identifique o tipo de amostragem utilizada nas situaes a seguir: a) Uma empresa seleciona uma a cada 300 pilhas produzidas em sua linha de produo para a realizao de testes de qualidade a fim de conseguir vencer uma licitao pblica.
44
b) Um pesquisador de empresa area seleciona aleatoriamente dez voos para entrevistar todos os passageiros desses voos. c) Uma prefeitura testa uma nova estratgia de cobrana selecionando aleatoriamente 250 consumidores com renda inferior a R$ 300,00 e 250 consumidores com renda de ao menos R$ 300,00. d) Um eleitor indeciso resolve escolher seu candidato da seguinte forma: escreve o nome de cada um deles em cartes separados, mistura-os e extrai um nome, no qual ir votar. e) Um pesquisador ficou em um ponto de checagem da polcia (esquina), onde, a cada cinco carros que passavam, era feito um teste de bafmetro para checar a sobriedade do motorista. f) Em uma pesquisa com 1.000 pessoas, estas foram selecionadas usando-se um computador para gerar nmeros de telefones para os quais eram, ento, discados. g) Uma prefeitura, para no perder uma fbrica de montagem de carros, auxiliou em uma pesquisa na qual a empresa dividiu seus carros em cinco categorias: subcompacto, compacto, mdio, intermedirio e grande; e est entrevistando 200 proprietrios de cada categoria para saber da satisfao deses clientes e, assim, ajudar a melhorar as vendas. h) Motivada pelo fato de um estudante ter morrido por excesso de bebida, uma universidade fez um estudo sobre o hbito de beber dos estudantes e, para isso, selecionou dez salas de aula e entrevistou os estudantes que l estavam.
Mdulo 4
45
UNIDADE 2
DISTRIBUIES DE FREQUNCIAS E REPRESENTAO GRFICA
Descrever e apresentar os resultados de um conjunto de observaes a partir de uma distribuio de frequncias; Compreender os tipos de grficos existentes; Utilizar os grficos de forma adequada; e Interpretar os resultados apresentados em um grfico de forma clara, objetiva e passando o mximo de informaes possveis.
48
DISTRIBUIES DE FFREQUNCIAS
Caro estudante, Vamos dar incio a segunda Unidade de nossa disciplina e, nela, voc encontrar conceitos relacionados distribuio de frequncias e representao grfica que lhe permitiro sintetizar uma grande quantidade de dados em tabelas e em grficos representativos. Quando coletamos informaes, sejam de populaes ou de amostras, como vimos na Unidade anterior, geralmente trabalhamos com uma quantidade grande de observaes. Mas, como vamos apresentar esses resultados? Precisamos, ento, aprender como sintetizar esses dados e coloc-los de forma que as pessoas possam entender as informaes obtidas. Uma forma de fazermos isso utilizando distribuies de frequncias e anlises grficas, as quais aprenderemos a partir de agora, j que entraremos no mundo da estatstica, que se preocupa com a forma de apresentao dos dados. Vamos comear? Quando coletamos os dados para uma pesquisa, as observaes realizadas so chamadas de dados brutos*. Um exemplo de dados brutos corresponde ao percentual dos trabalhadores que contribuem com o Instituto Nacional de Seguro Social (INSS) em 20 cidades de uma determinada regio do Brasil no ano de 2008 (dados simulados pelo autor a partir de um caso real). Os dados so apresentados na Tabela 1 na forma em que foram coletados, por esse motivo so denominados dados brutos. Geralmente, esse tipo de dado traz pouca ou nenhuma informao ao leitor, sendo necessrio organiz-lo, com o intuito de aumentar sua capacidade de informao.
*Dados brutos dados na forma em que foram coletados, sem nenhum tratamento. Fonte: Elaborado pelo autor.
Mdulo 4
49
Tabela 1: Percentual dos trabalhadores que contribuem com o INSS em 20 cidades de uma determinada regio do Brasil no ano de 2008 45 50 42 41 52 51 44 41 50 46 50 46 60 54 52 58 57 58 60 51
Se fizermos uma ordenao desse conjunto de dados brutos (do menor para o maior), teremos dados elaborados como mostra a Tabela 2.
Tabela 2: Percentual ordenado dos trabalhadores que contribuem com o INSS em 20 cidades de uma determinada regio do Brasil, no ano de 2008 41 41 42 44 45 46 46 50 50 50 51 51 52 52 54 57 58 58 60 60
*Rol dados classificados em forma crescente ou decrescente. Fonte: Elaborado pelo autor. *Amplitude total diferena entre o maior e o menor valor observado. Fonte: Elaborado pelo autor.
Com base nessa tabela, podemos observar que a simples organizao dos dados em um rol*aumenta muito o nvel de informao destes. Na Tabela 2, voc pode verificar ainda que o menor percentual foi 41% e o maior 60%, o que nos fornece uma amplitude total* da ordem de 19%. Outra informao que podemos obter dos dados por meio da Tabela 2 (organizada em rol crescente) que nas cidades avaliadas, o valor 50, correspondente percentagem de trabalhadores que contribuem para o INSS, ocorre com maior frequncia, ou seja, o que mais se repete.
50
Com base nessa nossa discusso, reflita: como organizar os dados de uma varivel quantitativa contnua de forma mais eficiente, na qual se possa apresentar uma quantidade maior de informaes?
A resposta a essa pergunta ser apresentada na prxima seo. Fique atento e, em caso de dvidas, lembre-se de que voc no est sozinho, basta solicitar o auxilio de seu tutor.
Mdulo 4
51
Vimos, no incio do curso, os tipos de intervalos na Unidade 1 da disciplina Matemtica Bsica. Vamos relembrar rapidamente como essa classificao dos intervalos:
| 48,5
(o 43,5 est includo e o 48,5 no est includo no intervalo) Esses valores de 43,5 e 48,5 foram escolhidos aleatoriamente, somente para demonstrar o formato do intervalo. Para voc entender melhor, acompanhe o exemplo a seguir, a partir dos dados da porcentagem de trabalhadores que contribuem com o INSS. Com esses dados iremos construir uma distribuio de frequncia e, ao longo desse exemplo, identificar, tambm, os conceitos presentes nessa distribuio. Para darmos incio a esse entendimento, importante, antes, considerarmos que existem diversos critrios para a construo das classes das distribuies de frequncias apresentados na literatura. No nosso caso, utilizaremos os critrios apresentados a seguir. Para elaborar uma distribuio de frequncia, necessrio, inicialmente, determinar o nmero de classes (k) em que os dados sero agrupados. Por questes de ordem prtica e esttica, sugerimos utilizar de 5 a 20 classes. O nmero de classes (k) a ser utilizado, pode ser calculado em funo do nmero de observaes (n), conforme mostrado para voc a seguir:
52
k = n, para n 100 k = 5 log n, para n> 100 Considerando que nessa pesquisa n = 20 consumidores; temos, ento, o nmero de classes definido por k = n = 20 = 4,47; e, como o nmero de classes inteiro, usaremos 5 classes. O arredondamento utilizado nesse material o padro de algarismos significativos (como foi aprendido no segundo grau). O nmero de classes pode tambm ser definido de uma forma arbitrria, sem o uso dessa regra. Aps determinarmos o nmero de classes (k) em que os dados sero agrupados, determinamos a amplitude do intervalo de classe (c). E, para calcularmos a amplitude do intervalo de classe, vamos, primeiramente, calcular a amplitude total dos dados (A), que corresponde diferena entre o maior valor observado e o menor valor observado. No nosso caso (usando dados da Tabela 2), teremos A = 60 41 =19%. Com base nesse valor da amplitude total (A) calculado, iremos obter a amplitude do intervalo de classe (c), como mostrado a seguir:
Onde: c = amplitude de classe; A= amplitude total; e k = nmero de classes. Substituindo os valores j encontrados nessa expresso e considerando o caso do exemplo que estamos resolvendo, teremos:
Mas ateno: existem outros procedimentos paraa determinao da amplitude do intervalo de classe que podem ser encontrados na literatura.
Mdulo 4
53
Conhecida a amplitude de classes, voc deve determinar os intervalos de classe. O limite inferior e superior das classes deve ser escolhido de modo que o menor valor observado esteja localizado no ponto mdio (PM) da primeira classe. O ponto mdio da classe corresponde soma dos limites inferior e superior dividido por dois. Partindo desse raciocnio, o limite inferior da primeira classe ser:
Definindo, ento, o limite inferior da primeira classe basta, para voc obter as classes da nossa distribuio, somar a amplitude do intervalo de classe (c = 5) a cada limite inferior. Assim, voc ter: 38,5
43,5 primeira classe 48,5 segunda classe 53,5 terceira classe 58,5 quarta classe 63,5 quinta classe
Com base nesse clculo, voc pode obter uma organizao dos dados conforme mostra a Tabela 3, a seguir:
Tabela 3: Distribuio de frequncias do percentual dos trabalhadores que contribuem com o INSS em 20 cidades de uma determinada regio do Brasil no ano de 2008
CLASSES (%)
38,5 43,5
FREQUNCIA
? ? ? ? ?
54
Na Tabela 3 aparece uma nova denominao chamada frequncia, em que abaixo dela h uma coluna repleta de interrogaes (?). Vamos aprender a calcular valores no lugar dessas interrogaes. Podemos obter frequncias chamadas de frequncia absoluta (fa), frequncia relativa (fr) e frequncia acumulada.
A frequncia absoluta (fa) corresponde ao nmero de observaes que temos em uma determinada classe ou em um determinado atributo de uma varivel qualitativa. A frequncia relativa (fr) corresponde proporo do nmero de observaes em uma determinada classe em relao ao total de observaes que temos. Essa frequncia pode ser expressa em termos porcentuais. Para isso, basta multiplicar a frequncia relativa obtida por 100.
Sendo: fai= frequncia absoluta da classe i. : somatrio das frequncias absolutas para i variando de 1 at n classes, ou seja, somar as frequncias de cada uma das classes (fa1+fa 2+fa3+......+fan). Apresentando os dados na forma de distribuio de frequncia, voc consegue sintetizar as informaes contidas neles, alm de facilitar sua visualizao. Considerando essa discusso, elaboramos a Tabela 4, que traz as frequncias (fa e fr) relacionadas varivel analisada.
Mdulo 4
55
Tabela 4: Distribuio de frequncias do percentual dos trabalhadores que contribuem com o INSS em 20 cidades de uma determinada regio do Brasil, no ano de 2008
CLASSES (%)
38,5 43,5
FA ( CIDADES)
FR (PROPORO DE CIDADES )
Para calcularmos a primeira proporo de 0,15, precisamos dividir a frequncia da primeira classe (3) pelo total de observaes (20). De forma similar, calculada as propores das outras classes.
Se considerarmos ainda a Tabela 4, podemos dizer que a porcentagem de trabalhadores que contribuem com o INSS entre 43,5% e 58,5%, dos 20 municpios avaliados em questo, est concentrada nas classes segunda, terceira e quarta, decrescendo em direo s classes do incio e fim da tabela. A apresentao dos dados em forma de distribuio de frequncia facilita o clculo manual de vrias medidas estatsticas de interesse e facilita, tambm, a apresentao grfica dos dados. Alm das frequncias absolutas e relativas, muitas vezes podemos estar interessados na quantidade de observaes que existe acima ou abaixo de um determinado ponto na distribuio. Dessa forma, voc poder trabalhar com a frequncia acumulada, como sugere a Tabela 5, que apresenta as frequncias
56
acumuladas da percentagem de trabalhadores que contribuem com o INSS nas 20 cidades avaliadas.
A frequncia acumulada corresponde soma da frequncia de uma classe s frequncias de todas as classes abaixo dela.
A frequncia acumulada apresentada na Tabela 5 pode ser obtida da seguinte forma: abaixo do limite superior da primeira classe (43,5), temos trs pessoas presentes nela, como vimos na Tabela 3 da distribuio de frequncias absoluta. Quando consideramos a segunda classe (43,5 | 48,5), a frequncia acumulada corresponde ao nmero de pessoas que temos abaixo do limite superior dessa classe (48,5), ou seja, as quatro cidades da segunda classe mais as trs cidades da primeira classe, totalizando sete cidades abaixo de 48,5%. Para as outras classes, o raciocnio semelhante.
Tabela 5: Distribuio de frequncia acumulada dos trabalhadores que contribuem com o INSS em 20 cidades de uma determinada regio do Brasil no ano de 2008
CLASSES (%)
38,5 43,5
FREQ. ACUMULADA
3 7 14 18 20
J o valor da frequncia acumulada relativa da segunda classe (0,35) dado pela soma da frequncia relativa da primeira classe (0,15) e da frequncia relativa da segunda classe (0,20), dando um valor acumulado para a segunda classe de 0,35.
Mdulo 4
na Tabela 3, em caso de
57
GNERO
Masculino Feminino Total
FA
FR
Tomando-se como exemplo o caso de uma varivel aleatria discreta (v.a), realizou-se uma pesquisa durante 30 dias em um determinado ms com relao ao nmero de reclamaes (N.R.) no setor de tributos de uma prefeitura considerada como modelo de gesto em tributos. Os resultados encontrados voc pode acompanhar na Tabela 7, a seguir:
58
Tabela 7: Dados referentes ao nmero de reclamaes (NR) por dia no setor de tributos de uma prefeitura ao longo de 30 dias
DIA
1 2 3 4 5 6
N.R.
0 2 1 5 3 2
DIA
7 8 9 10 11 12
N.R.
1 2 2 3 0 3
DIA
13 14 15 16 17 18
N.R.
0 0 1 2 3 5
DIA
19 20 21 22 23 24
N.R.
1 0 0 2 0 4
DIA
25 26 27 28 29 30
N.R.
0 3 4 0 2 1
Dispondo esses dados em um rol (crescente) temos: 000000000111112222222333334455 Podemos apresentar, a seguir, esses dados em uma distribuio de frequncias. Nesse caso, no necessrio definir intervalos de classes porque a variao dos valores pequena (varia de 0 a 5) e a varivel discreta. Quando a varivel discreta, mas voc tem uma quantidade muito grande de valores que ocorrem na amostra, ento, voc ir trabalhar com uma distribuio de frequncias em classes. Na Tabela 8, voc pode visualizar a distribuio de frequncias do nmero de reclamaes. Os clculos das frequncias absoluta e relativa so obtidos de forma semelhantes ao que foi visto anteriormente.
Tabela 8: Nmero de reclamaes ocorridas diariamente durante certo ms
FREQ. RELATIVA
0.3 0.17 0.23 0.17 0.07 0.07 1
Mdulo 4
59
Observe que esses valores da varivel discreta correspondem a cada uma das classes.
Voc pode estar se perguntando: as tabelas de distribuio de frequncias so a nica forma que voc tem de apresentar um conjunto de dados?
Para descobrir a resposta a sua curiosidade, continue lendo o livro que a responderemos na seo seguinte.
60
REPRESENTAO GRFICA
Na tentativa de responder ao seu questionamento anterior, vamos falar um pouco sobre algumas formas de representao grfica de tabelas de frequncia. Logicamente, dependendo do tipo de varivel, temos um grfico mais adequado. Os diferentes tipos de grficos (histogramas, polgonos de frequncia, ogivas, grficos de setores, pictogramas e outros) permitem melhor visualizao de resultados. Esses grficos podem ser obtidos utilizando planilhas eletrnicas, como o Excel ou a planilha CALC do OpenOffice.
Bioestat que, alm de ser gratuito, traz um livro na opo ajuda. Para isso, visite o site: <http:// www.mamiraua.org.br/ download/Default.aspx? Web\download\BioEstat 5 Portugues&tipo= nov. 2010.
Os histogramas so grficos constitudos de um conjunto de retngulos com as bases assentadas sobre um eixo horizontal, tendo o centro delas no ponto mdio da classe que as representa e cuja altura proporcional frequncia da classe. Esses grficos so utilizados para representar tabelas intervalares.
v v
dirpath=e:\home\mamiraua\
frequncias e de
Na Figura 7, temos o histograma da porcentagem de trabalhadores que contribuem com o INSS em cada uma das 20 cidades analisadas. Os dados utilizados, nesse grfico, foram os da distribuio de frequncias apresentados na Tabela 5, que indica o percentual de trabalhadores que contribuem com o INSS em 20 cidades de uma determinada regio do Brasil em 2008.
Mdulo 4
61
Figura 7: Histograma representativo da distribuio de frequncias do percentual dos trabalhadores que contriburam com o INSS em 2008 Fonte: Elaborada pelo autor
Quanto ao polgono de frequncia, voc pode obt-lo pela simples unio dos pontos mdios dos topos dos retngulos de um histograma. Para completar o polgono necessrio unir as extremidades da linha, que une os pontos representativos das frequncias de classe, aos pontos mdios das classes imediatamente anteriores e posteriores s classes extremas, que tm frequncia nula. A Figura 8 mostra o polgono de frequncias do percentual dos trabalhadores que contriburam com o INSS em 20 cidades de uma determinada regio do Brasil em 2008.
62
Figura 8: Polgono de frequncias do percentual dos trabalhadores que contriburam com o INSS em 2008 Fonte: Elaborada pelo autor
Quando voc tem uma tabela que trabalhada com uma varivel qualitativa, o tipo de grfico adequado para apresentar os resultados corresponde ao grfico de setores, tambm popularmente conhecido como grfico tipo pizza, como demonstra a Figura 9. Sua construo simples: sabemos que o angulo de 360 equivale a 100% da rea da circunferncia; assim, para obtermos o ngulo do setor cuja rea representa uma determinada frequncia, basta resolvermos uma regra de trs simples, como a apresentada a seguir:
360 ____________ 100% x ____________ Frequncia relativa (percentual)
Figura 9: Grfico do gnero de pessoas que consideram os servios da prefeitura satisfatrios Fonte: Elaborada pelo autor
Com respeito aos grficos chamados de ogivas, estes correspondem a um polgono de frequncias acumuladas, no qual as frequncias acumuladas so localizadas sobre perpendiculares
Mdulo 4
63
levantadas nos limites superiores das classes, sendo os pontos unidos para formar o polgono que representa as frequncias acumuladas. Observe o modelo apresentado na Figura 10.
Figura 10: Ogiva abaixo de do percentual dos trabalhadores que contribuem com o INSS em 20 cidades de uma determinada regio do Brasil em 2008 Fonte: Elaborada pelo autor
Aps o estudo da construo de distribuies de frequncias e grficos, voc deve ser capaz de organizar um conjunto de dados, por meio de uma distribuio de frequncias (absoluta, relativa, e acumuladas), e represent-lo graficamente. Para tanto, propomos a voc um exemplo comentado para melhor fixar os conhecimentos adquiridos. Exemplo
Uma amostra de valores de IPTU de uma determinada regio da cidade de Arapongas, no ano passado, revelou valores iguais a: {68,98; 72,92; 89,19; 98,57; 123,34; 134,80; 141,34; 153,59; 158,59; 165,92; 169,21; 175,76; 177,79; 178,07; 180,38; 181,99; 185,95; 188,83; 194,88; 208,09; 214,66; 251,94; 265,70; 271,90; 276,59; 280,56; 303,99; 318,33}. Com base nos dados fornecidos, vamos construir a tabela de distribuio de frequncia. Bem, para construirmos uma tabela de frequncia, primeiro precisamos encontrar: o nmero de classes, a amplitude total, a amplitude de classe e o limite inferior da primeira classe.
64
O nmero de classes dado por: k= n , pois o tamanho da amostra menor ou igual a 100. Como n = 28, temos: k= 28 6 Nesse caso, aproximamos para seis classes e no para cinco, pois com cinco teremos valores superiores que podem ficar sem classe. Amplitude total (A) a diferena entre o maior valor observado e o menor valor observado. Substituindo os valores, encontraremos: A = 318,33 68,98 = 249,35 Sendo assim, a amplitude de classe ser: e, substituindo os valores correspondentes, teremos:
(esse o primeiro valor a ser colocado na tabela). Agora, a partir desse limite inferior, podemos construir a tabela de distribuio de frequncia. Para preencher a coluna classes, comeamos com o limite inferior da primeira classe, lembrando que para encontrar o limite superior das classes basta somar a amplitude de classe (c) ao limite inferior. Agora com voc. Termine de calcular os limites de cada uma das classes. 44.04 + 49,87 = 93,91 93,91 + 49,87 = 143,78 293,39 + 49,87 = 343,26
Mdulo 4
65
Aps esse clculo, vamos encontrar os valores da coluna frequncia absoluta (Fa) e, para tanto, temos que contar quantos elementos da amostra pertencem a cada classe que acabamos de construir, vamos l:
Voc deve proceder da mesma forma at a ltima classe e, aps todos os clculos, deve terminar de completar os valores para a montagem final da distribuio de frequncias. Lembre-se de que o preenchimento da coluna frequncia acumulada (Fac) corresponde soma da frequncia daquela classe s frequncias de todas as classes anteriores a ela. Observe a Tabela 9.
66
Tabela 9: Distribuio de frequncias de valores de IPTU de uma determinada regio da cidade de Arapongas
CLASSES
FA
3 4 28
FRI
0,11 0,14 1,0
FAC
3 7 -
Exemplo Imagine que a rea de superviso de atendimento de controle de uma prefeitura verificou a quantidade de materiais que foram rejeitados em quilograma (kg) da fbrica Manda Brasa S.A., que havia vencido uma licitao conforme os resultados apresentados na Tabela 10.
Tabela 10: Frequncia dos materiais rejeitados pela fbrica Manda Brasa S.A.
FI
3 7 18 15 4 3 50
| | | | | |
8 14 20 26 32 38
Com base nos dados, vamos construir o histograma para as frequncias apresentadas. Para tanto, basta colocar no eixo x os intervalos de classe e no eixo y as frequncias, como mostra a Figura 11.
Mdulo 4
67
Figura 11: Histograma da frequncia de materiais rejeitados na fbrica Manda Brasa S.A. Fonte: Elaborada pelo autor
68
Resumindo
Nesta Unidade, voc aprendeu a representar um conjunto de observaes e resumi-lo em tabelas e grficos. Esses conceitos sero importantes na compreenso e no entendimento de um conjunto de dados.
Mdulo 4
69
Atividades de aprendizagem
Agora que voc j viu os conceitos relacionados a distribuies de frequncias e a representao grfica de um conjunto de observaes, faa a atividade proposta a seguir. Em caso de dvida, lembre-se de que voc tem um tutor pronto a lhe auxiliar.
1. Dado o tempo, em minutos, de reunies em um setor de uma prefeitura, conforme mostra a tabela, responda as questes a seguir:
60 40 40 25 50 55 28 30 55 55 42 44 55 40 40 57 28 35 38 60
a) Construa a distribuio de frequncias absoluta, relativa e acumuladas. b) Faa o histograma e o polgono de frequncia da distribuio.
70
UNIDADE 3
MEDIDAS DE POSIO E DISPERSO
Calcular e interpretar as medidas de posio mdia, moda, mediana; Entender como as medidas de posio influenciam na forma da distribuio dos dados; Calcular e interpretar as medidas de disperso amplitude total, varincia, desvio padro e coeficiente de variao; Entender as propriedades da mdia e o desvio padro; e Calcular e interpretar resultados de medidas separatrizes.
Mdulo 4
71
72
MEDIDAS DE POSIO
Caro estudante, A partir de agora, iremos conhecer uma nova forma de caracterizar um conjunto de observaes. Para isso, voc ir aprender novos conceitos de medidas de posio e de disperso. Para o entendimento dessas medidas de posio e de disperso, sero utilizadas as duas situaes apresentadas a seguir. Sempre que mencionarmos as situaes, voc deve vir at esta pgina para entender como esto sendo realizados os clculos. Preparado para mais esse desafio? Ento, vamos l!
Vamos iniciar nossa discusso pelas duas situaes que utilizaremos como base.
Mdulo 4
73
Tabela 11: Distribuio de frequncias do nmero de casas por rua de certa regio de uma cidade
FREQUNCIA ABSOLUTA
5 7 11 16 8 5
de medidas de posio e
importante destacarmos ainda que as medidas de posio ou de tendncia central constituem uma forma mais sinttica de apresentar os resultados contidos nos dados observados, pois representam um valor central, em torno do qual os dados se concentram. As medidas de tendncia central mais empregadas so a mdia, a mediana e a moda. A seguir, veremos cada uma delas.
MDIA
Das trs medidas de posio mencionadas, a mdia aritmtica a mais usada por ser a mais comum e compreensvel delas e pela relativa simplicidade do seu clculo, alm de prestar-se bem ao tratamento algbrico.
74
importante termos claro que a mdia aritmtica ou simplesmente mdia de um conjunto de n observaes, x1, x2, ..., xn, definida por:
Onde o somatrio () corresponde soma de todos os valores obtidos. Por exemplo, considerando o caso da taxa de efetivao (%) da cobrana de um determinado tributo que est atrasado em uma prefeitura (ver Tabela 12), se voc somar todos os valores do nmero das taxas e dividi-los pelo total de dias avaliados, voc ter, ento, a mdia aritmtica (x), a taxa de efetivaes de cobrana por dia. Logo, o valor obtido ser: x = 56,67%.
Podemos interpretar o resultado da mdia como sendo o nmero de efetivaes dirias que de 56,67%, podendo ocorrer taxas maiores, menores ou at iguais ao valor mdio encontrado. Portanto, de uma forma mais geral, podemos interpretar a mdia como sendo um valor tpico do conjunto de dados que pode assumir um valor que no pertence ao conjunto de dados, pois como nos dados utilizados para clculo (exemplo anterior) no existe um taxa de efetivao diria de 56,67%. Todavia, se os dados estiverem agrupados na forma de uma distribuio de frequncia em classes, lana-se mo da Hiptese Tabular Bsica* para o clculo da mdia. Ento, voc ir calcular a mdia por meio da seguinte expresso:
*Hiptese Tabular Bsica todas as observaes contidas em uma classe so consideradas iguais ao ponto mdio da classe. Fonte: Elaborado pelo autor.
Mdulo 4
75
Onde: xi o ponto mdio da classe i; fai representa frequncia absoluta da classe i; e fr i a frequncia relativa da classe i. Considerando a situao do nmero de casas na rua (Tabela 11), a mdia ser dada por:
O valor de 1, apresentado na expresso, corresponde ao ponto mdio da primeira classe, que foi obtido pela soma dos limites superior e inferior (0 + 2) divididos por dois, ou seja, a mdia aritmtica. Os pontos mdios das outras classes so obtidos de forma similar. Antes de darmos continuidade, muito importante voc saber que, em relao notao matemtica, quando calculamos a mdia a partir dos dados de uma populao, devemos utilizar a letra para designar a mdia populacional e para mdia amostral a notao a ser utilizada . Na grande maioria dos casos, iremos trabalhar com amostras. A forma de clculo a mesma nas duas situaes, mas as notaes so diferentes, ou seja: Mdia populacional Mdia amostral As mdias so comumente utilizadas e apresentam propriedades especficas. As principais propriedades so:
relao a sua mdia nula, ou seja, igual a zero. Para entender essa propriedade, tomemos como exemplo a quantidade consumida de arroz do tipo A em um refeitrio de uma prefeitura: 10, 14, 13, 15, 16, 18,
76
12 quilos, no qual o consumo mdio dirio encontrado foi de 14 quilogramas (Kg). A soma desvios ser: (10 14) + (14 14) + (13 14) + (15 14) + (16 14) + (18 14) + (12 14) = 0
Mdulo 4
77
Para entender melhor, imagine um processo de avaliao de funcionrios pblicos que foi divido em trs etapas. Nessa avaliao, suponha que um dos colaboradores apresentou as seguintes notas durante a avaliao: 1 etapa = 90; 2 etapa = 70; 3 etapa = 85; e os pesos de cada etapa so: 1, 1 e 3, respectivamente. Qual o escore mdio final do funcionrio pblico?
Este tipo de mdia voc ir utilizar na disciplina Matemtica Financeira que trabalharemos no prximo mdulo.
Outro tipo de mdia corresponde geomtrica (Mg), calculada pela raiz n-sima do produto de um conjunto de n observaes, X1, X 2, ... , X n, associadas s frequncias absolutas f 1 ,f 2 ,..., f n (nmero de vezes que aquele valor acontece) e respectivamente dada por:
Sendo assim, considerando o caso da taxa de efetivao para pagamento do tributo atrasado (exemplo apresentado anteriormente), teremos:
MODA
Em algumas situaes, voc ver que necessria a informao do nmero de observaes que mais ocorre em um conjunto de dados. No caso da taxa de efetivao da cobrana, verificamos que a taxa que mais ocorre 56 e 61. Assim, podemos definir a moda (Mo) como sendo o valor em um conjunto
78
de dados que ocorre com maior frequncia. Um conjunto de dados pode ser em relao moda:
unimodal possui apenas uma moda; amodal no possuir moda, pois no existe nenhum
valor que ocorre com maior frequncia; e
Onde: Li : limite inferior da classe modal; d1 : diferena entre a frequncia da classe modal e a imediatamente anterior; d2 : diferena entre a frequncia da classe modal e a imediatamente posterior; e c : amplitude da classe modal. No caso em que, para facilitar um projeto de aplicao da rede de esgoto de certa regio de uma cidade, os engenheiros da Prefeitura Municipal tomaram uma amostra de 52 ruas, contando o nmero de casas (Tabela 11), teremos que a classe modal a quarta, pois apresenta maior frequncia (valor igual a 16). Utilizando a expresso mostrada anteriormente, teremos:
Mdulo 4
79
Uma caracterstica importante da moda que ela no afetada pelos valores extremos da distribuio, desde que esses valores no constituam a classe modal. Dessa forma, a moda deve ser utilizada quando desejamos obter uma medida rpida e aproximada de posio ou quando a medida deva ser o valor mais frequente da distribuio.
MEDIANA
Outra medida de posio que voc pode utilizar a mediana (Md), que consiste em um conjunto de valores dispostos segundo uma ordem (crescente ou decrescente). A mediana o valor situado de tal forma no conjunto ordenado que o separa em dois subconjuntos de mesmo nmero de elementos, ou seja, 50% dos dados so superiores mediana e 50% so inferiores. O smbolo da mediana dado por Md ou , e a sua posio dada por meio do da expresso: E (elemento central) = (n+1) / 2 Considerando um conjunto de dados com nmero mpar de elementos (1, 2, 5, 9, 10, 12, 13), a posio da mediana ser dada por (7 + 1)/2 = 4 posio. Portanto, a partir dos dados ordenados, o nmero que se encontra na 4 posio o 9 e, assim, a mediana ser igual a 9 (temos trs valores abaixo e trs valores acima, ou 50% acima da mediana e 50% abaixo). E, caso o nmero de elementos do conjunto de dados seja par, por exemplo, (1, 2, 6, 8, 9, 12, 11, 13) a posio da mediana ser: E = ( 8 + 1)/2 = 4,5 posio
80
Como a posio 4,5 est entre a 4 e a 5 posio, calculamos a mdia entre os valores que ocupam essas posies. O valor encontrado de 8,5, (vem de (8 + 9) / 2), corresponde mediana. Quando os dados esto agrupados na mediana, devemos encontrar a classe mediana. Se os dados esto agrupados em intervalos de classe, como no caso do nmero de casa por rua, utilizaremos a seguinte expresso:
Onde: li : limite inferior da classe mediana; n : nmero total de elementos; fantac : frequncia acumulada anterior classe mediana; fmed : frequncia absoluta da classe mediana; e c: amplitude da classe mediana. Portanto, resolvendo o caso em que, para facilitar um projeto de aplicao da rede de esgoto de certa regio de uma cidade, os engenheiros da Prefeitura Municipal tomaram uma amostra de 52 ruas, contando o nmero de casas por rua; voc ver que a posio da mediana ser dada por: (8
E = (52+1)/2 = 26,5 elemento, o qual est na quarta classe 12), que corresponde classe mediana.
Em um conjunto de dados, a mediana, a moda e a mdia no necessariamente devem apresentar o mesmo valor. Uma informao importante que a mediana no influenciada pelos valores extremos. Comparando os resultados encontrados para uma amostra em relao s medidas de posio estudadas e verificando a inter-relao entre elas, voc pode concluir que seus valores podem
Mdulo 4
81
nos dar um indicativo da natureza da distribuio dos dados, em funo das regras definidas pela Figura 12:
> Md > Mo ento a distribuio assimtrica a direita (positiva), ou seja, dados esto mais concentrados direita
< Md < Mo ento a distribuio assimtrica a esquerda (negativa), ou seja, dados esto mais concentrados direita
SEPARATRIZES
A principal caracterstica das medidas separatrizes consiste na separao da srie de dados ordenados em partes iguais que apresentam o mesmo nmero de valores. As principais so os quartis, os decis e os percentis. Os quartis so valores que dividem um conjunto de dados ordenados em quatro partes iguais. So necessrios, portanto, trs quartis (Q1, Q2 e Q3) para dividir um conjunto de dados ordenados em quatro partes iguais. Q1 :deixa 25% dos elementos abaixo dele. Q2 :deixa 50% dos elementos abaixo dele e coincide com a mediana. Q3 :deixa 75% dos elementos abaixo dele. A Figura 13 mostra bem a diviso dos quartis, observe.
82
Se considerarmos a situao da taxa de efetivao da cobrana de um determinado tributo, que estava atrasado em uma prefeitura, aps uma campanha realizada para que ele fosse saldado, teremos, de forma semelhante Figura 13, a Figura 14:
Figura 14: Quartis da taxa de efetivao da cobrana de um determinado tributo Fonte: Elaborada pelo autor
Sendo assim, temos o clculo da posio do elemento quartil dado por: EQi = in/4 (i = 1, 2, 3) A regra para obteno dos valores dos quartis, a partir da posio encontrada, ser dada por:
Mdulo 4
83
Sendo assim, obtemos a posio e, olhando no conjunto ordenado de dados, encontramos os valores dos quartis, conforme voc pode observar a seguir. EQ1 = 1.7/4 = 1,75 2 posio Q1 = 5 EQ2 = 2.7/4 = 3,5 4 posio Q2 = 9 EQ3 = 3.7/4 = 5,25 6 posio Q3 = 13 Agora, vamos a outro exemplo, para tanto, considere um conjunto de dados com uma quantidade par de observaes, a saber: (1, 1, 2, 3, 5, 5, 6, 7, 9, 9, 10, 13) j ordenados. Ento, temos: EQ1 = 1.12/4 = 3 posio Q1 = (2 + 3) / 2 = 2,5 EQ2 = 2.12/4 = 6 posio Q2 = (5 + 6) / 2 = 5,5 EQ3 = 3.12/4 = 9 posio Q3 = (9 + 9) / 2 = 9 Os decis so valores que dividem um conjunto de dados ordenados em dez partes iguais. O clculo de cada decil ser obtido de forma semelhante aos quartis, sendo diferente apenas a expresso de sua obteno, que ser dada por: Posio do elemento decil EDi = in/10 (i = 1, 2, ... , 9)
Os percentis so valores que dividem um conjunto de dados ordenados em 100 partes iguais. A posio de cada percentil ser dada pela expresso a seguir que semelhante aos quartis e aos decis: Posio do elemento percentil EPi = in/100 (i = 1, 2, ... , 99) Essas medidas separatrizes so importantes quando queremos dividir um conjunto de dados em parte iguais; por exemplo, em quatro partes; e, assim, voc ter os quartis. Essa separao permite uma formao de grupos que podem apresentar um mesmo padro, quando, ento, poderemos identificar perfis importantes para serem utilizados em diversas reas da Administrao.
84
MEDIDAS DE DISPERSO
Como vimos anteriormente, possvel sintetizar um conjunto de observaes em alguns valores representativos, como mdia, mediana, moda e separatrizes. Em vrias situaes, necessrio visualizar como os dados esto dispersos.
Tomando como exemplo algumas funes da rea de Administrao Pblica que apresentem salrios mdios iguais, podemos concluir que sua contribuio social (% do salrio) ser a mesma?
A resposta sim somente com base no salrio mdio; mas estaramos chegando a uma concluso errada, pois a variao em termos de faixas salariais pode ser diferente, apesar de apresentarem a mesma mdia. Suponhamos trs cidades: A, B e C, que foram avaliadas durante cinco anos quanto ao nmero de declarantes na distribuio de patrimnio na faixa de renda mensal de 8 a 10 mil reais. Esses valores esto em milhares de pessoas. A = {120, 122, 118, 124, 121} B = {121, 121, 121, 121, 121} C = {116, 125, 124, 120, 120}
Mdulo 4
85
Se ns calcularmos a mdia de cada cidade, teremos: A B C = 121 mil pessoas = 121 mil pessoas = 121mil pessoas
Note que as trs cidades (A, B, C) apresentam mdias iguais, apesar de elas serem bem diferentes entre si, pois enquanto na cidade B os dados so todos iguais, os das demais cidades apresentam certa variao, que maior no conjunto C. Portanto, devemos associar medidas de posio e de disperso para obtermos informaes mais precisas de um conjunto de dados, ou seja, observar como esses dados se comportam em torno da medida de posio em questo.
AMPLITUDE TOTAL
A amplitude total a diferena entre o maior e o menor valor observado, como vimos na Unidade 2. Sendo assim, retomando nossos exemplos das cidades A, B e C, temos: AA = 124 118 = 6 mil pessoas AB = 121 121 = 0 mil pessoas AC = 125 116 = 9 mil pessoas Desse modo, podemos identificar que a amplitude do conjunto C bem maior do que nos demais e o conjunto B apresenta amplitude igual a zero. Essa medida apresenta a vantagem de ser facilmente calculada. Entretanto, o seu inconveniente que ela muito afetada pelos valores extremos, pois no seu clculo no so consideradas todas as observaes.
86
VARINCIA
Uma boa medida de disperso deve ter as seguintes caractersticas:
estar baseada em todos os dados; ser facilmente calculada; ser compreensvel; e servir bem ao tratamento algbrico.
Portanto, podemos afirmar que uma medida de disperso deve utilizar todas as observaes considerando os desvios de cada observao em relao mdia (chamados erros): ei = xi x Para obter um nico nmero que represente a disperso dos dados, pensamos, inicialmente, em obter a mdia desses desvios, mas devemos lembrar de que a soma dos desvios de um conjunto de dados em relao a sua mdia nula. Para resolver esse problema, utilizamos a soma dos quadrados dos desvios, pois, ao elevarmos cada desvio ao quadrado, eliminamos o sinal negativo que estava trazendo complicaes. Posteriormente, dividimos a soma dos quadrados dos desvios pelo nmero de observaes para obtermos a varincia populacional, chamada de 2, que uma medida quantitativa da disperso de um conjunto de dados entorno da sua mdia, alm do fato de essa soma de quadrados de desvios ser mnima. Sendo assim, temos a expresso para clculo da varincia populacional, conforme mostrada a seguir:
Mdulo 4
87
E no para por a! Na maioria das vezes, trabalhamos com amostras e, nesse caso, a varincia amostral (s 2) ser obtida pela expresso:
*Grau de liberdade o nmero de determinaes independentes (dimenso da amostra) menos o nmero de parmetros estatsticos a serem avaliados na populao. Fonte: Elaborado pelo autor.
Veja que nesse caso a soma do quadrado dos desvios dividida por n 1, onde n corresponde ao tamanho da amostra. Esse valor n 1 ( nmero de observaes menos um) denominado de grau de liberdade*. Ento, o grau de liberdade um estimador do nmero de categorias independentes em um teste particular ou experincia estatstica. Assim, no caso das cidades teremos:
Para que voc entenda melhor, veja a seguir algumas das principais propriedades da varincia:
88
DESVIO PADRO
Um inconveniente da varincia que ela expressa em unidades ao quadrado, ou seja, caso esteja trabalhando com milhares de reais, o resultado ser expresso em milhares de reais2, o que causa algumas dificuldades de interpretao. Para resolver esse problema, podemos nos utilizar do desvio padro que definido como a raiz quadrada positiva da varincia, sendo expresso na mesma unidade em que os dados foram coletados.
Interpretando, temos que: o desvio padro de 3,60 mil pessoas nos indica a variao dos dados em torno da mdia, que de 121 mil pessoas. Quanto menor for o desvio padro, menor ser a variabilidade, ou a variao. No caso de dados agrupados em classes, a expresso utilizada para clculo do desvio padro ser:
Para entender melhor, vamos imaginar uma situao em que, para facilitar um projeto de aplicao da rede de esgoto de certa regio de uma cidade, os engenheiros da Prefeitura Municipal
Mdulo 4
89
tomaram uma amostra de 52 ruas (Tabela 11), contando o nmero de casas por rua, na qual os dados esto agrupados em classes, iremos calcular o desvio padro da seguinte maneira:
Com base nessa resoluo, os nmeros 1, 3 e 18 correspondem aos pontos mdios das classes primeira, segunda e ltima, respectivamente. J os valores de 5 e 7 correspondem s frequncias absolutas das classes. E o nmero 52 corresponde ao tamanho da amostra. Existem algumas propriedades que precisamos saber sobre desvio padro. So elas:
COEFICIENTE DE VARIAO
A varincia e o desvio padro so medidas de disperso absolutas, desse modo, apenas podem ser utilizados para comparar a variabilidade de dois ou mais conjuntos de dados quando estes apresentarem:
90
mesma mdia; mesmo nmero de observaes; e estiverem expressos nas mesmas unidades.
Ento, para voc comparar qualquer conjunto de dados quanto sua variabilidade quando, pelo menos, uma dessas condies no satisfeita, necessrio lanar mo de uma medida de disperso relativa como o coeficiente de variao (CV), que expressa a variabilidade dos dados em relao a sua mdia de forma percentual. Sua expresso ser dada por:
Exemplo Imagine uma situao referente ao nmero de documentos falsificados que aparecem em um determinado setor da prefeitura e o valor arrecadado por hora de um tipo de multa em reais. Em qual das duas variveis ocorre maior variabilidade, ou variao?
DOCUMENTOS FALSIFICADOS (N)
Mdia Desvio padro 22 5
MULTA (REAIS)
800 100
Utilizando o desvio padro para comparar a variabilidade, voc pode, a princpio, considerar que a multa apresenta maior variabilidade, j que tem maior desvio padro. Entretanto, se verificarmos as condies de se utilizar o desvio padro para comparar a variabilidade entre amostras, voc vai perceber que as mdias so diferentes e as unidades tambm so diferentes.
Mdulo 4
91
Perceba, ento, que estvamos concluindo erroneamente que a multa mais varivel do que o nmero de documentos falsificados, alm de termos cometido o disparate de comparar numericamente duas variveis expressas em unidades diferentes. Portanto, o nmero de documentos falsificados apresentou maior disperso do que a multa, j que seu coeficiente de variao foi maior, mudando assim a concluso anterior. Vamos ver agora outros exemplos de situaes com a resoluo comentada para voc fixar melhor os conceitos desta Unidade. Exemplo 1 Considere as idades dos funcionrios do programa Jovens que aprendem uma profisso de duas prefeituras, apresentadas a seguir. Prefeitura A: {16; 15; 18; 15; 16; 16; 17; 18; 19; 17; 16} Prefeitura B: {15; 17; 19; 19; 17; 18; 19; 18; 18; 17; 16} Encontre a mdia, moda e mediana de cada prefeitura e identifique qual das prefeituras apresenta maior variabilidade na idade de seus jovens aprendizes. Prefeitura A
92
Prefeitura A
Varincia:
Varincia:
Mdulo 4
93
Sendo assim, como os coeficientes apresentam valores muito prximos, podemos concluir que a variabilidade na idade das duas prefeituras praticamente a mesma. Exemplo 2 Considerando os dados apresentados a seguir, que so referentes ao percentual de gastos com planejamento e com administrao em cidades de diferentes portes, identifique as medidas de posio e de disperso dos dados.
Gasto Frequncia (F i ) 2 7 20 5 4 2 40
| 15 15 | 25 25 | 35 35 | 45 45 | 55 55 | 65
5 Soma
Primeiramente, temos de encontrar os valores de xi (ponto mdio), pois ele indispensvel no clculo da mdia, varincia etc. Logo, temos: Xi = 10; 20; 30; 40; 50; 60 (soma: limite inferior + limite superior dividido por 2). Feita essa conta, vamos calcular a frequncia acumulada, como voc pode acompanhar a seguir: Fac = 2; 9; 29; 34; 38; 40 E, na sequncia, com os valores do ponto mdio, podemos calcular a mdia:
94
Para encontrar a mediana, primeiramente temos de encontrar a classe mediana. Como n par: xn/2 = x 40/2 = x20, a qual classe pertence o elemento de posio 20 (3 classe)?
Vamos, agora, calcular a moda e, para tanto, precisamos encontrar a classe modal, aquela com maior frequncia absoluta (3 classe).
E, por fim, devemos fazer o clculo das medidas de disperso, como voc pode acompanhar a seguir:
Observe que, com as medidas de disperso calculadas, podemos verificar que a disperso obtida foi mdia (36,22% em torno da mdia), ou seja, tanto para cima quanto para baixo. Se esse valor fosse bem menor, poderamos considerar que os gastos com planejamento e com transportes seriam mais uniformes. Exemplo 3 Considerando as sries de dados apresentadas pelos gastos com transportes em relao ao total gasto em vrias prefeituras, conforme descrio a seguir, faa o seguinte: imagine que voc precise efetuar uma estimativa com base nesses dados. Sobre qual srie mais fcil fazer estimativas precisas? Por qu?
Mdulo 4
95
Srie A: {3,96; 3,17; 3,55; 3,61; 4,11; 4,57; 4,97; 5,91; 5,99; 5,74} Srie B: {1,46; 2,09; 3,04; 5,12; 7,80; 8,25; 9,95; 15,24; 17,40; 21,74}
Srie A
Mdia: Varincia:
Mdia: Varincia:
96
Resumindo
Nesta Unidade, voc aprendeu conceitos bsicos sobre as medidas de posio e de disperso e, desse modo, sabe, agora, caracterizar um conjunto de observaes. Esses conceitos so de extrema importncia para as inferncias estatsticas, para os testes de hipteses e para as informaes contidas nas Unidades posteriores dessa disciplina.
Mdulo 4
97
Atividades de aprendizagem
Agora que voc j sabe como calcular e como utilizar as principais medidas de posio e de disperso, exercite-as fazendo as atividades, a seguir, que sero importantes na consolidao dos conhecimentos adquiridos. Em caso de dvida, lembre-se de consultar seu tutor por meio do AVEA.
1. Considere a sequncia numrica apresentada, a seguir, que mostra as idades de motociclistas e de seus caronas na poca em que morreram em acidentes fatais de trnsito.
7 42 37 25 38 28 21 23 27 24 30 19 14 40 25 51 18 20 17 18 34 23 28 29 16 31 33
Calcule a mdia moda, a mediana, a varincia, o desvio padro e o coeficiente de variabilidade para os dados no agrupados. 2. Image um determinado setor de uma prefeitura que vem apresentando problemas com o afastamento de funcionrios por motivos de sade, por perodo muito longo. Uma amostra de dez apresentou os seguintes nmeros de dias afastados em um semestre: 23, 21, 10, 14, 16, 12, 39, 45, 10 e 20 Calcule as medidas de posio e de disperso em relao ao nmero de dias em que eles ficaram afastados.
98
UNIDADE 4
PROBABILIDADE
Definir o termo probabilidade; Descrever as abordagens clssicas das frequncias relativa e subjetiva da probabilidade; Entender os termos experimento, espao amostral e evento; Definir os termos probabilidade condicional e probabilidade conjunta; e Calcular probabilidades aplicando as regras da adio e da multiplicao.
100
Unidade 4 Probabilidade
INTRODUO
Caro estudante, Vamos iniciar mais uma Unidade e nela veremos os conceitos de probabilidade. importante que voc esteja atento aos exerccios resolvidos e, medida que for avanando, relembre os conceitos aprendidos anteriormente. Preparado para mais esse desafio? Ento, vamos juntos!
A origem da Teoria das Probabilidades est relacionada aos jogos de azar desde o sculo XVII, pois surgiu da necessidade de um mtodo racional para calcular os riscos dos jogadores em jogos de cartas, de dados etc. Posteriormente, passou a auxiliar governos, empresas e organizaes profissionais em seus processos de decises, ajudando a desenvolver estratgias. Na rea da Gesto, passou a ser uma ferramenta para tomada de decises e para anlise de chances e de riscos. Para decidir por um ou por outro procedimento, essencial conhecermos as chances de cada um dar certo e, tambm, decidirmos sobre um sistema de gesto. Tambm, para sabermos os riscos de uma exposio poder afetar a imagem de um administrador, temos de conhecer a probabilidade de ela causar dano ou no.
Mdulo 4
101
Para que voc possa entender melhor os principais conceitos de probabilidade, destacamos a seguir dois tipos de fenmenos:
Fe n m e n o s d e t e r m i n s t i c o s: aqueles que
invariavelmente do o mesmo resultado se repetidos sob condies especficas. Um exemplo a acelerao da gravidade na ausncia de ar (vcuo). Nesse caso, o resultado sempre ser o mesmo, pois no temos variaes que venham a influenciar o resultado.
Uma situao que exemplifica esse fato est associada seguinte pergunta: um funcionrio pblico poder cumprir sua meta de trabalho na semana que vem?
Para responder a essa e a outras perguntas, voc poder aplicar alguns conceitos apresentados, a seguir.
102
Unidade 4 Probabilidade
EXPERIMENTO ALEATRIO
Para voc calcular uma probabilidade, necessrio ter um experimento aleatrio, ou seja, qualquer processo que venha a gerar um resultado incerto ou casual. Para que um processo possa ser considerado um experimento aleatrio, ele deve ter as seguintes caractersticas:
relativa) da ocorrncia de um particular resultado, em que r corresponde ao nmero de vezes que um determinado resultado aconteceu. Sendo assim, podemos considerar que um processo aleatrio corresponde, para ilustrar, ao lanamento de uma moeda jogada inmeras vezes, j que pode ser repetido indefinidamente. No conhecemos o resultado, mas podemos descrever os possveis resultados (cara ou coroa). Alm disso, quando voc lana a moeda trs mil vezes, por exemplo, ocorre uma estabilizao da frequncia relativa ou probabilidade em 0,5. A Figura 14 nos mostra que no incio a frequncia relativa no to prxima de 0,5, como acontece aps 1.000 jogadas.
Mdulo 4
103
associada chance de
atribumos ao resultado
Perceba, com base nos experimentos e nas situaes mencionadas, que a incerteza sempre est presente, o que quer dizer que, se esses experimentos forem repetidos em idnticas condies, no se pode determinar qual resultado ocorrer.
Para entender melhor esse conceito, vamos considerar como exemplo o setor de atendimento de uma determinada prefeitura que conta com seis funcionrios. Um experimento ao acaso seria a escolha aleatria de um dos funcionrios. Podemos considerar o gnero do funcionrio escolhido como o que queremos avaliar. Voc, ento, vai aplicar os conceitos vistos de experimento aleatrio. Veja que este corresponde a um experimento aleatrio, pois sabemos quais resultados podem ocorrer, ou seja, um dos seis funcionrios ser o avaliado. Entretanto, no podemos dizer que resultado (pessoa) sair nesse sorteio.
Agora que voc entendeu o que experimento aleatrio, voc ir compreender outro conceito importante: o de espao amostral.
104
Unidade 4 Probabilidade
ESPAO AMOSTRAL ()
Vamos considerar a situao em que um funcionrio pblico consegue ou no atingir sua meta de produtividade.
O funcionrio poder atingir ou no a meta. Ento, temos apenas dois resultados possveis. O conjunto desses resultados possveis, que poderiam ser mais de dois tambm, no caso de outras situaes, definido como espao amostral* e pode ser simbolizado por S ou (omega). No nosso caso, teremos = {atinge; no atinge} Lembrando do Diagrama de Venn, que voc estudou na disciplina Matemtica para Administradores, podemos representar o espao amostral conforme indica a Figura 15:
*Espao amostral conjunto de todos os resultados possveis. Fonte: Elaborado pelo autor.
A definio do espao amostral de fundamental importncia, pois, muitas vezes, a partir dele, voc pode calcular probabilidades. Veremos isso um pouco mais a frente.
Nesse caso, se todos os resultados possveis constituem o nosso espao amostral, o que ser cada resultado em particular?
Mdulo 4
105
Com intuito de responder a essa proposio, daremos continuidade ao nosso estudo. Vamos prxima seo.
EVENTO
Qualquer subconjunto do espao amostral () associado ao experimento aleatrio chamado de evento, ou seja, um determinado resultado que ocorra dentro do espao amostral. Ento, em nosso exemplo, teremos que o funcionrio pblico que cumprir a meta ser considerado como um dos eventos que compem o espao amostral. Nesse caso, o nosso espao amostral apresenta dois eventos apenas (cumprir ou no cumprir a meta). Geralmente, calculamos as chamadas probabilidades desses eventos associados ao nosso espao amostral. Por isso a importncia de voc ter esse conceito bem definido em sua mente! Imagine que algumas secretarias municipais oferecem, por cortesia, cadeiras suficientes em determinado setor para que os contribuintes possam esperar confortavelmente; e, outras secretarias, no oferecem essa cortesia. Vamos ver como esse problema pode ser formulado dentro do contexto de experimento aleatrio, espao amostral e eventos. O experimento a seleo de uma secretaria e a observao do fato dessa secretaria oferecer ou no a cortesia. H dois pontos amostrais no espao correspondente a esse experimento: S:{a secretaria oferece a cortesia} N:{a cortesia de cadeira no oferecida pela secretaria} Um ponto importante a ser considerado o de que nem sempre as chances de ocorrncia dos eventos so iguais a 50%, como no caso do lanamento de uma moeda. Nessa situao, provavelmente a chance da secretaria oferecer a cortesia de assentos (S) poder ser bem maior do que a de no oferecer (N).
106
Unidade 4 Probabilidade
DEFINIES DE PROBABILIDADES
Saiba mais Pierre Fermat (1601-1665)
At agora vimos diferentes e importantes conceitos relacionados estatstica. Vamos agora definir o que vem a ser probabilidade. Para o bom entendimento desse conceito, imagine as seguintes situaes:
Matemtico francs que passou parte de sua vida como conselheiro do parlamento de Toulouse. Seu campo predileto de estudos foi o da teoria dos nmeros, na qual se consagra. Fermat d considervel impulso aritmtica superior moderna, exercendo grande influncia sobre o desenvolvimento da lgebra. Fermat se sobressai, ainda, no terreno do clculo de probabilidades. Fonte: <http:// ecalculo.if.usp.br/historia/fermat.htm>. Acesso em: 24 nov. 2010. Blaise Pascal (1623-1662) Com apenas trs anos, perdeu a me. O pai encarregou-se diretamente da sua educao, desenvolvendo um mtodo singular de educao com exerccios e jogos de disciplinas, como Geografia, Histria e Filosofia. Contudo, seu pai acreditava que a Matemtica somente deveria ser ensinada ao filho quando este fosse mais velho. Porm, Pascal descobriu as maravilhas da cincia dos nmeros. Aos 12 anos, mesmo sem professor, ele descobre que a soma dos ngulos de um tringulo igual a dois n-
A Probabilidade Objetiva nasceu no sculo XVII por interesse comum de Fermat e Pascal.
Mdulo 4
107
*Mutuamente
exclu-
dentes a ocorrncia de um evento exclui a ocorrncia do outro. Fonte: Elaborado pelo autor. *Igualmente provveis ocorrem com a mesma probabilidade. Fonte: Elaborado pelo autor.
Se um evento pode ocorrer em n maneiras mutuamente excludentes* e igualmente provveis*, e, se m dessas ocorrncias tem uma caracterstica E, ento, a probabilidade de ocorrncia de E :
P (E) =
Onde:
m N
m: nmero de eventos favorveis probabilidade E que se deseja calcular, ou seja, o nmero de vezes que E acontece; e N: nmero total de ocorrncias dentro do espao amostral.
Um dado homogneo tem probabilidade 1/6 de cair com a face 2 para cima. Em um conjunto de cartas (sem os coringas) bem embaralhadas, a probabilidade de sortearmos uma carta de copas de 13/52.
* Reprodutibilidade ocorrncia de diversas vezes de um mesmo evento. Fonte: Elaborado pelo autor.
A viso da frequncia relativa depende da reprodutibilidade* do mesmo processo e da habilidade de contarmos o nmero de repeties. Sendo assim, se algum processo repetido um grande nmero de vezes, n, e se algum evento com caracterstica E ocorre m vezes, a frequncia relativa m/n aproximadamente igual probabilidade de E: P(E) m/n Contudo, observe que m/n apenas uma estimativa de P(E). A viso da probabilidade subjetiva uma medida da confiana que temos sobre a verdade de certa proposio, apesar de no termos clculos precisos sobre esse valor. Imagine
108
Unidade 4 Probabilidade
proposies sobre a probabilidade de que em trs anos teremos um modelo eficiente de gesto pblica ou que as capacidades do processamento computacional se igualaro capacidade do crebro humano em 30 anos. Ambas so apenas estimativas que no se baseiam em clculos.
Para que voc entenda melhor algumas das definies de probabilidade, veja a descrio que preparamos ao longo de uma situao.
Imagine que em um determinado setor de uma prefeitura temos os seguintes funcionrios: Carlos, Jackeline, Giulyana, Girlene, Cludio e Larissa. Ento, voc pode verificar que temos seis funcionrios. Vamos pensar agora: qual a probabilidade de se escolher um funcionrio ao acaso e ele ser do gnero masculino? Para obtermos as respostas, vamos definir o espao amostral e o evento desejado. Consideremos espao amostral ou conjunto de possibilidades todos os funcionrios pblicos do setor. S = {Carlos, Jackeline, Giulyana, Girlene, Cludio, Larissa}
Carlos
Jackeline
Giulyana
Girlene
Cludio
Larissa
E, para definir o evento favorvel, precisamos considerar este o conjunto de possibilidades favorveis que nos interessa, ou seja, os funcionrios do gnero masculino.
Mdulo 4
109
Carlos
Cludio
Ento, a probabilidade que estamos procurando, ou seja, a de escolher um funcionrio ao acaso e ele ser do gnero masculino, pode ser apresentada conforme descrio, a seguir:
P ( funcionrio pblico gnero masculino ) = 2 = 6 nmero de f uncionrios do sex o masculino nmero total de funcionrios
Logo, considerando trs eventos relativos aos funcionrios da prefeitura, conforme descrevemos anteriormente, temos:
A (funcionrio ser do sexo feminino). B (seu nome comear com a letra G). C (seu nome comear com a letra C).
Ento, poderemos definir os eventos mencionados anteriormente como:
P() = 0 (probabilidade de vazio igual a zero). P() = 1 (probabilidade de acontecer todo o espao
amostral igual a um).
110
Unidade 4 Probabilidade
* Eventos mutuamente exclusivos so aqueles que no podem acontecer simultaneamente. Fonte: Elaborado pelo autor.
J no caso a seguir, em que os eventos no so mutuamente exclusivos e podem ocorrer simultaneamente, na regra da soma, devemos considerar que a interseco (rea) ser contada duas vezes.
A AB B
+
S
A A B B
Nesse caso, devemos retirar uma vez a rea de (A B) na regra da soma, pois, como voc pode ver nos desenhos anteriores, a interseo (A B) contada duas vezes. P(A B) = P(A) + P(B) P(A B)
Mdulo 4
111
Ac
S
Figura 16: Espao amostral Fonte: Elaborada pelo autor
A ou Ac o evento em que A no ocorre (complementar de A). Em nosso exemplo, consideramos que o completar de A (funcionrio ser do gnero feminino) corresponde a todas as pessoas do gnero masculino, ou seja: A ou Ac = {Carlos, Claudio}
112
Unidade 4 Probabilidade
PROBABILIDADE CONDICIONAL
A partir de agora veremos outros conceitos de probabilidade e para tanto voc deve considerar os dados, a seguir, referentes a uma prefeitura, em que foram selecionados, a partir de uma amostragem estratificada (vista anteriormente), 101.850 contribuintes das classes mdia-baixa e alta. Posteriormente, foi feita a verificao do nmero de contribuintes, de cada classe social, que pagaram um determinado tributo em dia (evento: pagaram) e tambm o nmero de contribuintes das classes estudadas que no pagaram em dia o tributo (evento: no pagaram). Para compreender essa descrio, observe os resultados descritos na Tabela 13:
Tabela 13: Contribuintes pagantes e no pagantes
MDIA-BAIXA
Pagaram (P) No Pagaram (NP) Total 39.577 46.304 85.881
ALTA
8.672 7.297 15.969
TOTAL
48.249 53.601 101.850
De acordo com os dados apresentados, podemos considerar ento que o nosso espao amostral () corresponder ao conjunto de 101.850 contribuintes. Agora, para ampliarmos essa discusso juntos, voc vai considerar os eventos apresentados, a seguir, para que possamos trabalhar com eles.
P = contribuintes que pagaram o tributo em dia. NP = contribuintes que no pagaram o tributo em dia.
Mdulo 4
113
Considerando os contribuintes que pagam e os que no pagam em dia, temos apenas estes dois resultados possveis. E, para obtermos a probabilidade de contribuintes que no pagaram em dia, teremos a probabilidade de todo o espao amostral (101.850), que igual a 1 menos a probabilidade de contribuintes que pagaram em dia (P). Nesse caso, estamos usando o conceito de eventos complementares. Este clculo mostrado para voc a seguir:
NP = P (no pagaram (NP ou P ) o complementar dos que pagaram (P)) ou seja, P(NP) = P(P ) = 1- P( P ) = 1 - 0,473 = 0,527
Com base nesse conhecimento, podemos calcular a probabilidade de escolher um contribuinte aleatoriamente e este ser da classe mdia-baixa ou ser quem paga em dia o tributo. Veja que, nesse caso, os eventos no so mutuamente exclusivos, ou seja, existem contribuintes que so comuns nas duas situaes ao mesmo tempo. Assim, a probabilidade procurada ser dada por:
114
Unidade 4 Probabilidade
P(P MB) = P(P) + P(MB) P(P MB) P(P MB) = 0,473 + 0,843 0,388 P(P MB) = 0,928
Vamos considerar ainda o exemplo anterior. Se voc souber que um contribuinte sorteado paga em dia o tributo, qual a probabilidade de que ele seja da classe mdia-baixa?
Agora, temos uma informao parcial e importante: o contribuinte selecionado paga em dia. Vamos ento designar a probabilidade de P quando se sabe que o contribuinte selecionado paga em dia o tributo e MB quando o contribuinte da classe social mdia-baixa. Assim, a probabilidade que chamaremos de P(MB/P) denominada de probabilidade (condicional) de MB dado P (lembre-se que o smbolo / no corresponde a uma diviso e sim a uma condio de que outro evento j aconteceu). Ento, nesse caso, temos o que chamamos de probabilidade condicionada, ou seja, a probabilidade de um evento acontecer dado que, sabendo que, outro evento j aconteceu. Sendo assim, natural atribuirmos:
Veja que, nesse caso, ocorreu uma reduo no espao amostral, j que tnhamos a informao anterior de que o
Mdulo 4
115
contribuinte selecionado pagava em dia. Dessa forma, do espao amostral total que tnhamos (101.850), ele foi reduzido para 48.249 e, destes, interessavam-nos os que eram da classe social mdiabaixa. Sendo assim:
Portanto, voc pode generalizar para dois eventos A e B quaisquer de um experimento aleatrio. Dessa forma, podemos dizer que a probabilidade condicional de A dado B (nota-se por P (A / B)) definida como:
P( A / B) =
P( A B ) P( B )
De posse desse conhecimento, podemos definir, a partir de agora, a regra do produto; conforme discutiremos na prxima seo.
116
Unidade 4 Probabilidade
Passe a probabilidade de ocorrncia de B na probabilidade condicionada e multiplique pela probabilidade de ocorrncia de A sabendo que B j aconteceu. P(A B) = P (A/B) P(B) Logo, se dois eventos A e B so independentes, ento P{A / B) = P{A} ou P{B / A) = P(B), j que um evento no interfere no outro, ou seja, eles so independentes. Desse modo, se A e B forem independentes, voc pode verificar que:
P( A / B) = P( A B) => P( A B ) = P ( A / B ) P( B ) => P( A B ) = P( A )P ( B ) P( B )
Ento, para que dois eventos A e B quaisquer sejam considerados independentes necessrio fazer a seguinte relao: P(A B) = P(A) P(B) Para compreender melhor essa nossa discusso, analise outra situao na qual utilizaremos os conceitos aprendidos de probabilidade. Para tanto, considere os dados a seguir, representativos da distribuio da renda anual de funcionrios pblicos de dois setores (A e B), apresentados na Tabela 14.
Tabela 14: Distribuio de renda anual do funcionrio pblico
SETOR A
70 15 10 20 115
B
40 15 20 10 85
TOTAL
110 30 30 30 200
Mdulo 4
117
Observando os dados descritos na Tabela 14, podemos identificar claramente que a probabilidade de um funcionrio aleatoriamente escolhido ser: a) do setor A P(A) = 115/200 = 0,575 (temos 115 funcionrios do setor A em um total de 200 funcionrios); b) do setor B P(B) = 85/200 = 0,425 (temos 115 funcionrios do setor A em um total de 200 funcionrios); c) de ter renda entre R$ 15.000,00 e R$ 20.000,00 P(R1) = 110/200 =0,550 (110 funcionrios correspondem aos que tm a faixa de renda solicitada); d) do setor B e ter renda entre R$ 15.000,00 e R$ 20.000,00 (interseco), ou seja, P(B R1) = 40/200 = 0,20 (temos 40 funcionrios que correspondem aos que tm a faixa de renda solicitada e ao mesmo tempo so do setor B); e e) ter renda entre R$ 15.000,00 e R$ 20.000,00, dado que do setor B
P ( R1 / B) =
Sabendo que o funcionrio do setor B (temos 85 funcionrios agora), houve uma reduo no espao amostral de 200 para 85 que ser utilizado no denominador. Logo, perguntamos: qual a chance de estar na faixa de renda solicitada?
independentes, a
independncia deve ser vlida para todas as na Tabela 14. interseces presentes
Como P(R1) P(R1/B), podemos concluir que os eventos setor e renda so dependentes. Podemos visualizar um exemplo de aplicao dos conceitos de independncia de eventos por meio do lanamento de uma moeda no viciada (no existe preferncia para cara ou coroa) trs vezes. Considere os seguintes eventos: A = no primeiro lanamento da moeda sai cara; e B = no segundo lanamento da moeda sai cara.
118
Unidade 4 Probabilidade
Considere C = cara e R = coroa Verifique se verdadeira a hiptese de que os eventos A e B so independentes. O espao amostral e os eventos so apresentados, a seguir: = {CCC, CCR, CRC, CRR, RCC, RCR, RRC, RRR} (A) = {CCC, CCR, CRC, CRR} (B) = {CCC, CCR, RCC, RCR} P(A B) = 2/8 = P (A) = 4/8 = P (B) = 4/8 = Portanto, P(A B) = P(A) P(B) => = ou
1 P( A B) 2 1 = 4 = = => P (A / B) = P (A) => = 1 4 2 P(B) 2
Os resultados que esto em negrito ocorrem no espao amostral (8) somente duas vezes.
P( A / B) =
Sendo assim, perceba que os eventos so independentes, pois P(A B) = P (A) P(B) ou P (A / B) = P (A).
Vamos ver outros exemplos relacionados a probabilidades para compreendermos melhor o que vimos.
Exemplo Um estudante chega atrasado em 40% das aulas e esquece o material didtico em 18% das aulas. Supondo eventos independentes, calcule a probabilidade de: a) O estudante chegar na hora e com material. b) No chegar na hora e ainda sem material. Como o exerccio afirma que o estudante chega atrasado em 40% das aulas, entendemos que 40% = 0,40, ou seja, ele no chegar atrasado = 60% = 0,6. O exerccio afirma tambm que ele esquece
Mdulo 4
119
o material didtico em 18% da aula, isto , ele esquece o material = 18% = 0,18 e ele no esquecer o material =82% = 0,82. Logo, para resolver a alternativa do exemplo, probabilidade de o estudante chegar na hora e com material, considerando que os eventos so independentes, temos: P(chegar na hora e com material) = P(chegar na hora c/ material) = P(chegar na hora) P(c/ material) = 0,60 0,82 = 0,492 ou 49,2% J para resolvermos a alternativa b, vamos considerar que: P(no chegar na hora e sem material) = P( chegar na hora s/ material) = P( chegar na hora) P(s/ material) = 0,40 0,18 = 0,072 ou 7,2% Exemplo: Vamos considerar um pesquisador que estudou o comportamento de consumo de bebidas lcteas no Brasil. Aps anlise da classe econmica do consumidor e o principal aspecto determinante da escolha da marca, o pesquisador tabulou os dados conforme disposto a seguir.
CLASSE/ASPECTO
Alta Mdia Baixa Total
PREO
42 37 13 92
QUALIDADE
56 21 97 174
SOMA
98 58 110 266
Considerando esses dados, qual a probabilidade de um consumidor escolhido: a) Priorizar o preo, dado que da classe alta. b) Priorizar a qualidade, dado que da classe mdia. c) Ser da classe baixa, dado que atribui maior importncia ao fator qualidade.
120
Unidade 4 Probabilidade
Com base nos dados da tabela desse exemplo, para priorizar o preo, dado que da classe alta, temos uma probabilidade condicional igual:
P ( preo /classe alta ) = P ( preo classe alta) 42 = = 0,4286 ou 42,86% 98 P (classe alta )
J para priorizar a qualidade, dado que da classe mdia, temos uma probabilidade condicional dada por:
P (qualidade /classe mdia ) = P (qualidade classe mdia) 21 = = 0,3621 ou 36,21% P (classe mdia ) 58
Por fim, para ser da classe baixa, dado que atribuiu maior importncia ao fator qualidade, o clculo feito por:
P (classe baixa / qualidade ) = P (classe baixa qualidade ) 97 = 0,5575 ou 55,75% = P (qualidade ) 174
Mdulo 4
121
AB
P ( A B ) = P ( A) + P ( B )
P ( A B) = P( A).P ( B / A) = P ( B).P ( A / B )
122
B
P( A B) = P( A).P (B )
eventos independentes
P ( A ) = 1 - P (A)
Unidade 4 Probabilidade
Outra questo que merece destaque quando falamos de probabilidade que a probabilidade condicional de A dado B definida por:
P( A / B) =
P( A B) P( B)
Mdulo 4
123
Resumindo
Nesta Unidade, voc ampliou o seu conhecimento quanto ao termo probabilidade. Descrevemos as abordagens clssicas das frequncias relativa e subjetiva da probabilidade e entendemos os termos experimento, espao amostral e evento. Vimos a definio dos termos probabilidade condicional e probabilidade conjunta, alm de aprendermos a calcular as probabilidades aplicando as regras da adio e da multiplicao. Para intensificar nosso estudo, vimos esses conceitos aplicados a partir da apresentao de exemplos. Caso algum conceito no tenha ficado claro, retome a leitura, pois eles sero importantes para a compreenso de novas informaes contidas nas Unidades posteriores.
124
Unidade 4 Probabilidade
Atividades de aprendizagem
Agora que voc j entendeu todos os conceitos relacionados aos clculos de probabilidade apresentados, resolva as atividades apresentadas, a seguir, e, em caso de dvidas, no hesite em consultar o seu tutor.
1. Considerando as probabilidades de trs fiscais A, B e C, que trabalham independentemente, efetivarem uma autuao quando abordam uma obra so 2/3, 4/5 e 7/10, respectivamente. Se cada um abordar uma obra, qual a probabilidade de que pelo menos um efetive a multa? 2. Sendo A e B dois mestres que j esto suficientemente treinados em partidas de xadrez e jogam 120 partidas, das quais A ganha 60, B ganha 40 e 20 terminam empatadas; A e B concordam em jogar trs partidas. Determine a probabilidade de: a) A ganhar todas as partidas. b) Duas partidas terminarem empatadas. c) A e B ganharem alternadamente. 3. Em um perodo de um ms, 100 funcionrios de uma prefeitura que trabalham com resduos txicos, sofrendo de determinada doena, foram tratados. As informaes sobre o mtodo de tratamento aplicado a cada funcionrio e o resultado final obtido esto na tabela a seguir:
Mdulo 4
125
TRATAMENTO A
Cura Total Resultado Cura Parcial Morte 24 24 12
B
16 16 8
Sorteando-se aleatoriamente um desses funcionrios, determine a probabilidade de o funcionrio escolhido ter sido: a) Submetido ao tratamento A. b) Totalmente curado. c) Submetido ao tratamento A e ter sido parcialmente curado. d) Submetido ao tratamento A ou ter sido parcialmente curado.
126
Unidade 4 Probabilidade
UNIDADE 5
DISTRIBUIO DE PROBABILIDADES DISCRETAS E CONTNUAS
Identificar e aplicar modelos probabilsticos discretos; Identificar e aplicar modelos probabilsticos contnuos (distribuio normal); Saber quando e como utilizar as distribuies amostrais; Calcular e interpretar intervalos de confiana; e Dimensionar amostras para serem utilizadas em pesquisas e projetos.
Mdulo 4
127
128
INTRODUO
Caro estudante, Como voc progrediu nos conhecimentos bsicos de probabilidade, agora iremos trabalhar com as chamadas distribuies de probabilidades. Essas distribuies auxiliam no clculo de probabilidades e, ainda, nos processos de estimao e de deciso, conforme veremos na prxima Unidade. Estudaremos as distribuies de amostragem e dimensionamento de amostras que, tambm, sero vistas nesta Unidade. Bons estudos e conte conosco para auxili-lo sempre que necessrio. Vamos comear com alguns conceitos preliminares. Para que voc tenha condies de entender as distribuies, necessrio conhecer bem o que uma varivel aleatria*, que pode ser discreta ou contnua. Um exemplo de uma varivel aleatria discreta (v.a.) a quantidade de aes que tiveram queda em um determinado dia, em uma carteira composta por cinco aes diferentes. A funo ser dada por: X = quantidade de aes que tiveram queda em um determinado dia define uma varivel aleatria discreta, que pode assumir os valores 0, 1, 2, 3, 4, 5. Vamos considerar agora uma situao na qual se verificou o tempo gasto por um funcionrio pblico para atender um contribuinte. A funo ser: Y= tempo gasto por um funcionrio pblico para atender um contribuinte define uma varivel aleatria contnua, que pode assumir infinitos valores.
* Varivel aleatria funo que associa valores reais aos eventos de um espao amostral. Fonte: Elaborado pelo autor.
Mdulo 4
129
Vamos trabalhar aqui principalmente com as variveis aleatrias discretas. Se uma varivel aleatria X pode assumir os valores x1, x2,..., xn com probabilidades respectivamente iguais a p1, p2,..., pn, e de probabilidade*. , temos ento definida uma distribuio
* Distribuio de probabilidade um tipo de distribuio que descreve a chance que uma varivel pode assumir ao longo de um espao de valores. Fonte: Elaborado pelo autor.
importante ressaltarmos que a varivel aleatria tem notao de letra maiscula e seus possveis valores minsculos, como utilizamos anteriormente.
Se a varivel X em questo for discreta, sua distribuio caracterizada por uma funo de probabilidade (P(X=x)), que associa probabilidades no nulas aos possveis valores da varivel aleatria.
130
DISTRIBUIES DISCRETAS
Imagine uma situao na qual somente podem ocorrer dois possveis resultados, sucesso e fracasso. Veja alguns exemplos:
um contribuinte pode ser adimplente ou inadimplente; uma guia recolhida pode ter seu preenchimento
ocorrido de forma correta ou incorreta; e
Neste momento, voc deve saber que quando estamos falando de sucesso, devemos relacion-lo com o objetivo do exerccio ou do problema a ser resolvido, que, muitas vezes, pode no ser algo bom.
Mdulo 4
131
Ampliando nossa discusso, importante mencionarmos ainda que a funo de probabilidade da Distribuio de Bernoulli dada por:
DISTRIBUIO BINOMIAL
Para que uma situao possa se enquadrar em uma distribuio binomial, deve atender as seguintes condies:
so realizadas n repeties (tentativas) independentes; cada tentativa uma prova de Bernoulli (somente
podem ocorrer dois possveis resultados); e
132
Agora voc deve parar a sua leitura e lanar uma moeda 30 vezes para cima. Aps fazer isso e anotar os resultados, veja se o experimento que acabou de fazer se encaixa em uma distribuio binomial (condies apresentadas anteriormente).
A varivel aleatria X tem distribuio binomial (B) com n ensaios e uma probabilidade p de sucesso (em cada ensaio).
A funo de probabilidade utilizada para clculo de probabilidades, quando a situao se enquadra na distribuio binomial, ser dada por meio da seguinte expresso:
onde: p probabilidade de sucesso em cada ensaio; q = 1-p a probabilidade de fracasso em cada ensaio; , onde n! o fatorial de n, combinao de n valores tomados x a x
Mdulo 4
133
Exemplo Vamos considerar que algumas pessoas entram em uma loja no perodo prximo ao dia das mes. Sabemos que a probabilidade de uma pessoa do gnero masculino comprar um presente de 1/3. Se entrarem quatro pessoas do gnero masculino na tal loja, qual a probabilidade de que duas venham a comprar presentes? Se essas quatro pessoas entram na loja e duas delas compram, podemos colocar as possibilidades da seguinte forma (C compra e no-C no compra). O espao amostral associado ao experimento : C, C, no-C, no-C ou C, no-C, no-C, C ou C, no-C, C, no-C ou no-C, no-C, C, C ou no-C, C, no-C, C ou no-C, C, C, no-C Logo, calculando as probabilidades usando as regras do e (multiplicao, pois so independentes) e do ou (soma), a probabilidade de 2 clientes do gnero masculino comprarem presentes :
1 1 2 2 1 2 2 1 1 2 1 2 2 2 1 1 2 1 2 1 2 1 1 2 p= + + + + + 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 1 1 2 2 p = 6 3 3 3 3 1 2 p = 6 3 3 p= 24 81
2 2
@ 29 ,63 %
Agora, vamos calcular utilizando a funo de probabilidade apresentada anteriormente e verificar que o resultado ser o mesmo.
1 4 4.3.2.1 4 24 4! 2 2 1 P ( X = 2) = C4 . = . . = . = @ 0,2963 ou 29,63% 2!.(4 - 2)! 9 9 2.1.2.1 81 81 3 3
2 2
134
Os valores da mdia e da varincia da distribuio binomial so: Mdia = n.p Varincia = n.p.q Exemplo
Em uma determinada repartio pblica, 10% das guias preenchidas esto incorretas. Essas guias correspondem a uma liberao na qual cinco guias devem estar preenchidas conjuntamente. Considere que cada guia tem a mesma probabilidade de ser preenchida incorretamente (como se houvesse repetio no experimento de retirar guias). a) Qual a probabilidade de haver exatamente trs guias incorretas nas cinco guias para liberao? O sucesso a ocorrncia de guias preenchidas incorretamente. p = 0,1 n = 5
Como na binomial so n distribuio tem mdia p, a mdia da binomial ser n.p. Raciocnio a varincia.
ensaios de Bernoulli e a
b) Qual a probabilidade de haver duas ou mais guias incorretas nas cinco guias para liberao? P(X 2) = P(X=2) + P(X=3) + P(X=4) + P(X=5) = 1 [P(X=0) + P(X=1)] = 0,0815 c) Qual a probabilidade de um conjunto de cinco guias no apresentar nenhuma guia incorreta?
Antes de prosseguir, desta vez com o estudo da Distribuio de Poisson, voc deve realizar as Atividades 1 e 2, ao final desta Unidade, para aplicar os conhecimentos j adquiridos sobre a distribuio binomial. Lembre-se de que as respostas se encontram no final do livro.
Mdulo 4
135
DISTRIBUIO
DE
POISSON
Voc pode empregar a Distribuio de Poisson em situaes nas quais no se est interessado no nmero de sucessos obtidos em n tentativas, como ocorre no caso da distribuio binomial, entretanto, esse nmero de sucessos deve estar dentro de um intervalo contnuo, ou seja, o nmero de sucessos ocorridos durante um intervalo contnuo, que pode ser um intervalo de tempo, espao etc. Imagine que voc queira estudar o nmero de suicdios ocorridos em uma cidade durante um ano ou o nmero de acidentes automobilsticos ocorridos em uma rodovia em um ms ou o nmero de defeitos encontrados em um rolo de arame ovalado de 500m. Essas situaes so exemplos daquelas que se enquadram na Distribuio de Poisson. Note que nos exemplos anteiores no h como voc determinar a probabilidade de ocorrncia de um sucesso, mas sim a frequncia mdia de sua ocorrncia, como dois suicdios por ano, que denominaremos . Em uma situao com essas caractersticas, a varivel aleatria X = nmero de sucessos em um intervalo contnuo, ter uma Distribuio Poisson, com (frequncia mdia de sucesso). Simbolicamente, podemos utilizar a notao X ~ P().
A varivel aleatria X tem uma Distribuio de Poisson (P) com uma frequncia mdia de sucesso .
A funo de probabilidade da Distribuio de Poisson ser dada por meio da seguinte expresso:
lx P( X = x) = e . x!
-l
136
Onde: e =2,7182 (base dos logartmos neperianos); e corresponde a frequncia mdia de sucesso no intervalo contnuo que se deseja calcular a probabilidade. Exemplo A anlise dos dados dos ltimos anos de uma empresa de energia eltrica forneceu o valor mdio de um blecaute por ano. Pense na probabilidade de isso ocorrer no prximo ano: a) Nenhum blecaute. b) De 2 a 4 blecautes. c) No mximo 2 blecautes. Note que o exemplo afirma que a cada ano acontece em mdia um blecaute, ou seja, o nmero de sucesso ocorrido em um inter valo contnuo. Verificamos que a varivel tem Distribuio Poisson:
lx P( X = x) = e . x!
-l
Veja que aqui no necessrio fazer regra de trs, pois as perguntas so no intervalo de um ano. Ento: = 1: a) P ( x = 0) = b)
e -1 .10 0,3679.1 = = 0,3679 ou 36,79% 0! 1
Mdulo 4
137
Vejamos uma aplicao da Distribuio de Poisson considerando que o Corpo de Bombeiros de uma determinada cidade recebe, em mdia, trs chamadas por dia. Queremos saber, ento, qual a probabilidade do Corpo de Bombeiros receber:
probabilidade um dia, o
a) 4 chamadas em um dia: verificamos que a varivel tem Distribuio Poisson, pois temos nmero de chamadas (varivel discreta) por dia (intervalo contnuo). A probabilidade ser calculada por meio da expresso:
P( X = x) = e .
-l
lx x!
Como no necessrio fazer regra de trs, pois as perguntas so no intervalo de um dia, ento: = 3. Substituindo na expresso, teremos:
P(X = 4) = e
-3
34 = 0,1680 4!
b) Nenhuma chamada em um dia: nesse caso, o intervalo continua sendo um dia. Logo, o lambda () continua sendo o mesmo, ou seja, = 3. Substituindo ento na expresso, teremos:
P ( X = 0 ) = e- 3 30 = 0 ,0498 0!
c) 20 chamadas em uma semana: nesse caso o intervalo em que se deseja calcular a probabilidade de uma semana, ou seja, sete dias. Ento, em uma semana, a frequncia mdia de chamadas ser de 7 dias vezes 3 chamadas/dia: = 21 chamadas por semana Substituindo os valores, teremos a seguinte probabilidade:
P ( X = 20) = e -21
138
Uma caracterstica da Distribuio de Poisson que as estatsticas da distribuio (mdia e varincia) apresentam o mesmo valor, ou seja, so iguais a . Ento, teremos:
Mdia = Varincia =
Antes de discutir as distribuies contnuas, vamos aplicar os conhecimentos relacionados Distribuio de Poisson realizando a Atividade 3 ao final desta Unidade. importante salientarmos que nesta Unidade a resoluo das atividades de aprendizagem sero solicitadas ao longo do texto para facilitar a sua compreenso dos conceitos e de como utiliz-los.
Mdulo 4
139
DISTRIBUIES CONTNUAS
Dentre as vrias distribuies de probabilidade contnuas, abordaremos aqui apenas a distribuio normal, pois ela apresenta grande aplicao em pesquisas cientficas e tecnolgicas. Grande parte das variveis contnuas de interesse prtico segue essa distribuio, aliada ao Teorema do Limite Central (TLC), que a base das estimativas e dos testes de hipteses realizados sobre a mdia de uma populao qualquer, e garante que a distribuio amostral das mdias segue uma distribuio normal, independentemente da distribuio da varivel em estudo, como ser visto mais adiante.
DISTRIBUIO NORMAL
A funo densidade de probabilidade da distribuio normal dada por:
f ( x) = 1 s 2 p exp
1 x- m - 2 s
2
, x R.
Onde: e so a mdia e o desvio padro, respectivamente, da distribuio de probabilidade. corresponde a 3,1415 e exp a uma funo exponencial.
140
O grfico da distribuio normal, utilizando a funo mostrada anteriormente e os conceitos vistos nas disciplinas Matemtica Bsica e Matemtica para Administradores, dado por:
Mdulo 4
141
Desse modo, voc pode associar que, no caso das distribuies contnuas, a rea do grfico corresponde a probabilidades.
A varivel x tem
Para calcularmos as probabilidades via distribuio normal, necessrio o conhecimento de clculo integral. Assim, procuramos tabelar os valores de probabilidade que seriam obtidos por meio da integrao da funo densidade de probabilidade normal em um determinado intervalo. A dificuldade para se processar esse tabelamento se prendeu na infinidade de valores que (mdia) e (desvio padro) poderiam assumir. Nessas condies, teramos que dispor de uma tabela para cada uma das infinitas combinaes de e , ou seja, em cada situao que se quisesse calcular uma probabilidade.
Para resolver esse problema, podemos obter uma nova forma para a distribuio normal, que no seja influenciada por e . O problema foi solucionado mediante emprego de uma nova varivel definida por:
z=
x- m s
142
Essa varivel transforma todas as distribuies normais em uma distribuio normal reduzida ou padronizada, de mdia zero e desvio padro um. Ento, temos: Z ~ N(0,1). Assim, utilizamos apenas uma tabela para o clculo de probabilidades para qualquer que seja a curva correspondente a uma distribuio normal. Portanto, para um valor de x = em uma distribuio normal qualquer, corresponde o valor:
z=
Para x = + temos:
z=
Na Tabela 15, que apresenta a distribuio nor mal padronizada, as reas ou probabilidades fornecidas esto entre zero e o valor de Z, como vemos a seguir.
Mdulo 4
143
Tabela 15: rea sob a curva normal padronizada compreendida entre os valores 0 e Z
Veja que na Tabela 15 os valores apresentados na primeira coluna correspondem a parte inteira e decimal do valor de Z (por exemplo 1,5), enquanto os valores da primeira linha correspondem a parte centesimal (por exemplo 8). Assim, teremos o valor de Z = 1,58. J os valores encontrados no meio da tabela correspondem s probabilidades dos respectivos valores compreendidos entre zero e Z.
144
Para que voc possa entender a utilizao da distribuio normal, vamos considerar a arrecadao como um tributo de uma pequena cidade. Verificamos que essa arrecadao seguia uma distribuio normal com durao mdia de R$ 60.000,00 e desvio padro de R$ 10.000,00. Procuramos, ento, responder os seguintes questionamentos: a) Qual a probabilidade de uma arrecadao ser maior do que R$ 75.000,00? Como a varivel arrecadao apresenta distribuio aproximadamente normal com mdia 60000 e varincia de 100002 [X~ N(60000;100002)] e procurase calcular a P(X > 75000) = ? Primeiramente, precisamos transformar a varivel X em Z e, depois, substituindo na expresso, teremos:
z=
Olhando esse valor na Tabela 15, z = 1,50 (1,5 na primeira coluna e o zero na primeira linha), encontraremos no meio da tabela o valor de 0,4332 que corresponde probabilidade de z estar entre zero e 1,5, como voc pode observar a seguir.
= 0,5 0,4332
1,5
1,5
A rea escura da figura corresponde a P(X>75000), que a mesma coisa que: P(z > 1,50). Ento: P(z > 1,50) [Figura 1] = P(0<z<+)[Figura 2] P(0 < z < 1,50) [Figura 3] = 0,5 0,4332 = 0,0668.
Mdulo 4
145
Retirou-se a probabilidade encontrada de 0,5, pois esse valor corresponde probabilidade de zero at o infinito. b) Qual a probabilidade da arrecadao estar entre R$ 50.000,00 e R$ 70.000,00? P(50000 < X < 70000) = ? Primeiramente, precisamos transformar a varivel X em Z e, depois, substituindo na expresso de Z, teremos valores de Z1 e Z2, relacionados aos valores de X1=50000 e X2=70000:
0,3413
0,3414
-1,00
1,00
Podemos verificar que: P(50000 < X < 70000) = P( 1,00 < z < 1,00) = 0,3413 + 0,3413 = 0,6826 c) Qual a probabilidade da arrecadao estar entre R$ 63.000,00 e R$ 70.000,00? P(63000 < X < 70000) = ?
146
0,3413
0,1179
0 0,3 1,00
1,00
0,3
P(63000 < X < 70000) = P( 0,30 < z < 1,00) = 0,3413 - 0,1179 = 0,2234 Destacamos que existem outras distribuies tanto discretas quanto contnuas que no foram abordadas neste livro. Portanto, recomendamos que voc procure outras fontes de conhecimento, a comear por fazer uma pesquisa na internet sobre essas distribuies.
Antes de prosseguir, voc deve realizar as Atividades 4 e 5 ao final desta Unidade, na qual voc ter a oportunidade de verificar o seu grau de compreenso sobre a distribuio normal.
Mdulo 4
147
DISTRIBUIES AMOSTRAIS
Com as distribuies amostrais, voc pode inferir propriedades de um agregado maior (a populao) a partir de um conjunto menor (a amostra), ou seja, inferir sobre parmetros populacionais, dispondo apenas de estatsticas amostrais. Portanto, torna-se necessrio um estudo detalhado das distribuies amostrais, que so base para intervalos de confiana e testes de hipteses. Para que voc tenha condies de fazer afirmaes sobre um determinado parmetro populacional (ex: ), baseados na estimativa x, obtida a partir dos dados amostrais, necessrio conhecer a relao existente entre x e isto , o comportamento de x, quando se extraem todas as amostras possveis da populao, ou seja, sua distribuio amostral. Para obtermos a distribuio amostral de um estimador, necessrio conhecer o processo pelo qual as amostras foram retiradas, isto , se amostras foram retiradas com reposio ou sem reposio. Neste material, iremos considerar apenas as situaes de amostragens com reposio. Dessa forma, a partir do comportamento da estatstica amostral, podemos aplicar um teorema muito conhecido na estatstica como Teorema do Limite Central (TLC). Esse teorema prope que, se retirarmos todas as possveis amostras de tamanho n de uma populao, independente de sua distribuio, e verificarmos como as estatsticas amostrais obtidas se distribuem, teremos uma distribuio aproximadamente normal, com x (mdia das medias amostrais igual mdia populacional)
2 e varincia das mdias s x =
148
mostrais igual varincia da populao dividida pelo tamanho da amostra), independentemente da distribuio da varivel em questo. Portanto, considerando a distribuio amostral de mdias, quando se conhece a varincia populacional ou a amostra grande (n > 30), utilizamos a estatstica z da distribuio normal vista anteriormente, independentemente da distribuio da populao.
DISTRIBUIO t DE STUDENT
Na prtica, muitas vezes no se conhece 2 e trabalha-se com amostras pequenas, ou seja, menor ou igual a 30. Assim, voc conhece apenas sua estimativa s (desvio padro amostral). Substituindo por seu estimador s, na expresso da varivel padronizada, obtemos a seguinte varivel:
t=
Essa varivel segue uma distribuio t de Student com (n 1) graus de liberdade*. O n 1 corresponde ao divisor do clculo da varincia amostral, ou seja, o nmero de variveis na amostra que variam livremente na definio da estatstica. A distribuio t de Student apresenta as seguintes caractersticas:
* Graus de liberdade (GL) o nmero de determinaes independentes (dimenso da amostra) menos o nmero de parmetros estatsticos a serem avaliados na populao. Fonte: Elaborado pelo autor.
simtrica em relao mdia, que zero; tem forma campanular (semelhante a normal);
Mdulo 4
149
ta
Observe que na Tabela 16, a seguir, temos, na primeira coluna, os graus de liberdade (GL) e, no centro da tabela, os valores da estatstica t de Student. Na primeira linha, temos os valores de .
150
Para exemplificar o uso da tabela, considere que desejamos encontrar a probabilidade ser maior do que um valor de t igual a 2,764 trabalhando com uma amostra de tamanho n = 11. Portanto, teremos 10 graus de liberdade e, nessa linha, procuremos o valor que desejamos encontrar: 2,764. Subindo na tabela em direo
Mdulo 4
151
ao , encontraremos um valor de 0,01 na primeira linha, ou seja, essa a probabilidade de ser maior do que 2,764 com 10 graus de liberdade.
a = 0,01 0 2,764
Vamos resolver outro exemplo: Encontre o valor de t tal que a probabilidade de t (distribuio) esteja entre -t e t e seja igual a 0,95 com 20 graus de liberdade. Isso pode ser representado da forma a seguir: t / P (t < t < t ) = 0,95 com 20 gl A rea do meio corresponde a uma probabilidade de 0,95. Ento, como a probabilidade total igual a 1, sobrou 0,05 de probabilidade para ser dividida pelas reas do lado direito e esquerdo. Observando o valor de =0,025 (rea direita do valor tabelado) na tabela de t de Student e com 20 graus de liberdade, encontraremos o valor de 2,086. Do outro lado, teremos um valor negativo, pois ele est esquerda da mdia igual a zero, como voc pode ver a seguir.
a 2 = 0,025
0,95 0
a 2 = 0,025
-2,086
2,086
152
DISTRIBUIO
DE
QUI-QUADRADO
Retirando uma amostra de n elementos de uma populao normal com mdia e varincia 2, podemos demonstrar que a distribuio amostral da varincia amostral segue uma distribuio de 2 (qui-quadrado) com n-1 graus de liberdade. A varivel da estatstica de qui-quadrado ser dada por:
c2 =
Essa distribuio sempre positiva, o que pode ser comprovado pela prpria definio da varivel. , ainda, assimtrica direita, como voc pode ver no grfico da distribuio, a seguir.
Por meio da Tabela 17, voc pode ver como feita a utilizao da distribuio de qui-quadrado com graus de liberdade (GL).
Mdulo 4
153
Para obter probabilidades ou o valor da estatstica de quiquadrado, voc ir proceder do mesmo modo que na tabela da distribuio t de Student. Na primeira linha, temos os valores de , na primeira coluna temos os graus de liberdade e no meio da tabela temos os valores da estatstica de qui-quadrado.
Encontre a probabilidade de o valor de qui-quadrado ser maior do que 3,25 com 10 graus de liberdade, ou seja, P(x2 > 3,25)=?
154
0,025 a = 0,975
3,25
Para 10 graus de liberdade e um valor de 3,25 (valor aproximado) na tabela, encontraremos na parte superior um valor de = 0,975, que corresponde probabilidade procurada. Agora, sabemos que a probabilidade de ser maior que um determinado valor de qui-quadrado igual a 0,90 (P(x2 > ?) = 0,9 com 15 graus de liberdade. Ento, o valor da interrogao (?) ser obtido na tabela de qui-quadrado.
0,10 a = 0,90
Observando a tabela de qui-quadrado com 15 graus de liberdade e um valor de = 0,90, encontraremos no meio da tabela um valor de 8,55, que ser o valor de qui-quadrado, cuja probabilidade de ser maior do que ele de 0,90 ().
Mdulo 4
155
DISTRIBUIO
DE
A distribuio de F de Fischer-Snedecor corresponde distribuio da razo de duas varincias. Temos, ento, duas populaes que apresentam varincias populacionais e delas so retiradas amostras nas quais so calculadas varincias amostrais. A relao entre essas varincias que nos d a distribuio de F. A estatstica da distribuio apresentada a seguir:
s2 A F= s2 B
s2 A s2 B
Segue uma distribuio F com v1 = n1 -1 e v2 = n2 -1 graus de liberdade para o numerador e o denominador, respectivamente. Uma das tabelas de F de Snedecor apresentada a seguir:
156
Note que, no caso da tabela de F, o valor de que corresponde rea extrema direita da curva apresentado no ttulo da tabela, pois, para cada valor de , temos uma tabela diferente. Encontramos uma aplicao prtica da distribuio de F na verificao da homogeneidade das varincias provenientes de duas populaes normais e independentes. Ento, encontre o valor de F1 cuja probabilidade de ser maior do que ele 0,10 com 5 e 25 graus de liberdade, ou seja, P(F > F1) = 0,10 com v1 = 5 e v2 = 25 gl. Como temos a probabilidade do resultado ser maior do que um valor de F, esse valor corresponde ao valor de . Precisaremos, ento, trabalhar com a tabela que apresenta 10% de probabilidade no ttulo, como a Tabela 18.
Mdulo 4
157
1 - a = 0,90 2,092
a = 0,10
158
NOES DE ESTIMAO
Um dos principais objetivos da estatstica inferencial consiste em estimar os valores de parmetros populacionais desconhecidos (estimao de parmetros) utilizando dados amostrais. Ento, qualquer caracterstica de uma populao pode ser estimada a partir de uma amostra aleatria, desde que esta amostra represente bem a populao.
A estatstica inferencial apresenta uma relevncia alta, j que a utilizao de dados amostrais est associada maioria das decises que um gestor ou um pesquisador deve tomar. Consiste em tirar concluses de uma populao a partir de amostra representativa dessa populao, tendo isso grande importncia em muitas reas do conhecimento. A partir de uma amostra de 800 clientes (escolhidos aleatoriamente entre todos os clientes que abasteceram na primeira quinzena de um determinado ms) de um posto de gasolina que possuem carros populares, verificou-se que o consumo mdio de gasolina foi de R$ 200,00 por quinzena.
Os parmetros
Podemos inferir que o consumo mdio da populao de clientes da primeira quinzena do ms em estudo, proprietrios de carros populares que abastecem nesse posto de gasolina, de R$ 200,00.
Mdulo 4
159
Esta uma estimativa que chamamos de pontual, ou seja, inferimos sobre a populao considerando apenas o valor da estimativa. Essas estimativas por ponto no nos do uma ideia sobre confiana e sobre as margens de erro que deveriam ser aplicadas ao resultado. Tudo que ns sabemos, por exemplo, que o consumo mdio de gasolina foi estimado em R$ 200,00 por quinzena, independentemente do tamanho da amostra e da variabilidade inerente aos dados. Se fosse usado um tamanho grande de amostra e houvesse pouca variabilidade, teramos grandes razes para acreditar no resultado; mas no sabemos nada quando temos apenas uma estimativa por ponto. Entretanto, podemos estimar ou fazer inferncias sobre os valores da populao usando uma segunda abordagem chamada de estimativas por intervalos ou intervalos de confiana, que do o intervalo dentro do qual se espera que esteja o valor da populao, com uma dada probabilidade ou um nvel de confiana. Nesse caso, poderamos inferir, por exemplo, que o consumo de carros populares que abastecem no posto de gasolina est no intervalo de R$180,00 a R$ 220,00 e, ainda, afirmaramos isso com, por exemplo, 95% de certeza. Como a estimativa por intervalos nos fornece uma informao mais precisa em relao ao parmetro, esta a melhor forma de se estimar o parmetro populacional. Ento, para voc estimar parmetros populacionais por meio de dados amostrais, necessrio o conhecimento da distribuio amostral da estatstica que est sendo usada como estimador.
Na seo Distribuies Amostrais, abordamos esse assunto. Se julgar necessrio, retome o contedo.
Em resumo, podemos dizer que a estimativa pontual fornece uma estimativa nica de um parmetro e que a estimativa intervalar nos d um intervalo de valores possveis, no qual se admite que esteja o parmetro populacional com uma probabilidade conhecida.
160
ESTIMAO
POR INTERVALOS
Voc ir ver agora que um intervalo de confiana d um intervalo de valores, centrado na estatstica amostral, no qual julgamos, com um risco conhecido de erro, estar o parmetro da populao. o nvel de significncia que nos d a medida da incerteza dessa inferncia. O geralmente assume valores entre 1 e 10%.
Ento, a partir de informaes de amostras, devemos calcular os limites de um intervalo, valores crticos, que em (1-)% dos casos inclua o valor do parmetro a estimar e em % dos casos no inclua o valor do parmetro, como podemos ver no desenho abaixo.
O nvel de confiana 1 a probabilidade de o intervalo de confiana conter o parmetro estimado. Em termos de varivel normal padro Z, isso representa a rea central sob a curva normal entre os pontos Z e Z.
Mdulo 4
161
Voc pode observar que a rea total sob a curva normal unitria. Se a rea central 1 , o ponto z representa o valor de Z, que deixa sua esquerda a rea /2, e o ponto z representa o valor de Z, que deixa sua direita a rea /2.
Vamos aprender agora a construir o intervalo de confiana para uma mdia quando o desvio padro populacional conhecido ou a amostra grande.
Vamos imaginar a seguinte situao: o Departamento de Recursos Humanos de uma prefeitura informa que o tempo de execuo de tarefas que envolvem participao manual varia de tarefa para tarefa, mas que o desvio padro permanece aproximadamente constante, em 3 minutos. Novas tarefas esto sendo implantadas na prefeitura. Uma amostra aleatria do tempo de execuo de 50 das novas tarefas forneceu o valor mdio de 15 minutos. Determine um intervalo de confiana de 95% para o tempo mdio de execuo de uma dessas novas tarefas. Primeiramente, voc precisa identificar que o desvio padro populacional conhecido e tambm a amostra considerada grande (n > 30). Ento, a construo do intervalo de confiana ser feita utilizando a mdia amostral. Utilizaremos, para a obteno dos limites de confiana, a curva normal padro Z. Como os limites so dados por meio da estatstica calculada a partir dos dados amostrais e da margem de erro (fornecido pela estatstica da distribuio multiplicada pelo desvio padro da
162
distribuio amostral), teremos, nessa situao, os limites calculados por meio da seguinte expresso:
Logo, o intervalo de confiana tem centro na mdia amostral: Calculando, teremos: 1- = 0,95 = 0,05 /2 = 0,025 Olhando na tabela de Z, voc encontrar Z/2 = 1,96
Interpretao do resultado: em cada grupo de 100 amostras retiradas de 50 pessoas, espera-se que, em 95 delas, a mdia esteja dentro do intervalo de 14,168 a 15,831.
Antes de continuar a leitura, voc deve realizar, ao final desta Unidade, a Atividade 6, na qual ir aplicar os conhecimentos relacionados amostra e ao intervalo de confiana. Em caso de dvida, faa contato com seu tutor.
Mdulo 4
163
DIMENSIONAMENTO
DE
AMOSTRAS
Desenvolvendo a expresso de erro mostrada anteriormente, obteremos o tamanho de amostra para estimao da mdia populacional quando o desvio padro populacional for conhecido, como mostramos a seguir:
s e = za 2 n s n = za 2 e za . s n= 2 e
2
n=
( za )2 . s 2
2
e2
Imagine a seguinte situao: que tamanho de amostra ser necessrio para produzir um intervalo de 95% de confiana para a verdadeira mdia populacional, com erro de 1,0, se o desvio padro da populao 10,0? Substituindo esses valores na expresso, teremos:
2 Za 2 .s 2 1,96 2 .102 = = 384,16 @ 385 no = 12 e2
Voc pode alterar a confiana que teremos um diferente valor de Z e tambm o erro. Isso ir depender da preciso que voc ir desejar nas suas estimativas. Quando trabalhamos com proporo de sucesso, podemos substituir a varincia por p.q (proporo de sucesso vezes a proporo de fracasso) da Distribuio de Bernoulli.
Onde e correspondem s estimativas de sucesso e de fracasso, respectivamente, obtidos a partir de resultados amostrais.
164
Um setor da prefeitura que cuida da documentao de imveis est interessado em estimar a proporo de pessoas que compram novos imveis na cidade para melhor dimensionar o setor de atendimento. Para isso, amostrou 80 pessoas do seu cadastro, verificando que 30 delas teriam comprado imvel no ltimo ano. Determine o tamanho da amostra necessrio para estimar com 95% de confiana essa proporo e com erro mximo de 4%. Substituindo os valores, teremos:
Complementando...
Atravs do link que apresentamos a seguir, voc poder fazer clculos das distribuies de probabilidade discretas ou contnuas, de dimensionamento de amostras e de intervalos de confiana.
Programa
estatstico
Bioestat.
Disponvel
em:
<http://
Mdulo 4
165
Resumindo
Nesta Unidade, voc aprendeu sobre as principais distribuies de probabilidade, sejam elas discretas ou contnuas, e como utiliz-las. Tambm conheceu as distribuies de amostragem e, quando utiliz-las, e noes bsicas de estimao (intervalos de confiana) e dimensionamento de amostras. Essas informaes sero muito importantes para a compreenso da prxima Unidade.
166
Atividades de aprendizagem
Para verificar se voc est acompanhando o que apresentamos nesta Unidade, procure responder s atividades propostas, a seguir. Se tiver dificuldades para resolv-las, consulte seu tutor.
1. No Brasil, a proporo de microempresas que fecham em at um ano de atividade de 10%. Em uma amostra aleatria de 20 microempresas, qual a probabilidade de 5 terem fechado em at um ano de sua criao? 2. Entre 2.000 famlias de baixa renda e com quatro crianas, considerando-se que a chance de nascer uma criana do sexo masculino igual a do sexo feminino, em quantas famlia se esperaria que tivessem: a) Dois filhos do sexo masculino. b) Um ou dois filhos do sexo masculino. c) Nenhum filho do sexo feminino. 3. A ouvidoria de uma prefeitura recebe em mdia 2,8 reclamaes/ hora, segundo uma Distribuio de Poisson. Determine a probabilidade de chegarem duas ou mais reclamaes em um perodo de: a) 30 minutos. b) 1 hora. c) 2 horas.
Mdulo 4
167
4. As rendas mensais de funcionrios do setor de arrecadao de uma prefeitura so normalmente distribudas com uma mdia de R$ 2.000,00 e um desvio padro de R$ 200,00. Qual o valor de Z para uma renda X de R$ 2.200,00 e de R$ 1.700,00? 5. O uso dirio de gua por pessoa em uma determinada cidade normalmente distribudo com mdia igual a 20 litros e desvio padro igual a 5 litros. a) Que percentagem da populao usa entre 20 e 24 litros por dia? b) Que percentagem usa entre 16 e 20 litros? c) Qual a probabilidade de que uma pessoa selecionada ao acaso use mais do que 28 litros? 6. Considere que as despesas mensais com alimentao em restaurantes de comida a quilo para um casal so normalmente distribudas com desvio padro de R$ 3,00. Uma amostra de 100 casais revelou uma despesa mdia de R$ 27,00. Determine o intervalo de confiana de 95% para a despesa com alimentao de casais.
168
UNIDADE 6
TESTES
DE
HIPTESES
Mdulo 4
169
170
INTRODUO
Caro estudante, Vamos conhecer agora os principais testes de hipteses utilizados na inferncia estatstica. Voc, como gestor, muitas vezes ter de tomar decises baseadas na anlise de dados a partir de um teste de hiptese. Portanto, esteja atento ao contedo que iremos apresentar a voc nesta ltima Unidade, pois ao longo da leitura voc certamente perceber a importncia desse assunto quando tratamos de Estatstica Aplicada Administrao. Bom estudo!
Na teoria de deciso estatstica, os testes de hipteses assumem uma importncia fundamental, j que nos permitem dizer, por exemplo, se duas populaes so, de fato, iguais ou diferentes utilizando, para isso, amostras dessas populaes. Sendo assim, a tomada de deciso de um gestor pblico deve estar baseada na anlise de dados a partir de um teste de hiptese.
Voc pode definir as hipteses a serem testadas, retirar as amostras das populaes a serem estudadas, calcular as estatsticas delas e, por fim, determinar o grau de aceitao de hipteses baseadas na teoria de deciso, ou seja, se uma determinada hiptese ser validada ou no.
Mdulo 4
171
Para voc decidir se uma hiptese verdadeira ou falsa, ou seja, se ela deve ser aceita ou rejeitada, considerando-se uma determinada amostra, precisamos seguir uma srie de passos que so: 1. Definir a hiptese de igualdade (H 0) e a hiptese alternativa (H1) para tentar rejeitar H0 (possveis erros associados tomada de deciso). 2. Definir o nvel de significncia (). 3. Definir a distribuio amostral a ser utilizada. 4. Definir os limites da regio de rejeio e de aceitao. 5. Calcular a estatstica da distribuio escolhida a partir dos valores amostrais obtidos e tomar a deciso. Voc deve tomar a deciso baseado na seguinte regra: se o valor da estatstica da distribuio calculado estiver na regio de rejeio, rejeite a hiptese nula. Caso contrrio, se o valor da estatstica calculado caiu na regio de aceitao, a deciso ser que a hiptese nula no poder ser rejeitada ao nvel de significncia determinado.
Agora, voc ter o detalhamento dos passos na formulao de um teste de hiptese. Esteja bem atento!
172
Mdulo 4
173
Surge uma dvida. Qual hiptese alternativa voc utilizar? A resposta bem simples.
A hiptese alternativa ser definida por voc em razo do tipo de deciso que deseja tomar. Veja o seguinte exemplo: voc inspeciona uma amostra, relativa a uma grande remessa que chega a uma prefeitura, e constata que 8% dela est defeituosa. O fornecedor garante que no haver mais de 6% de peas defeituosas em cada remessa. O que devemos responder, com auxlio dos testes de significncia, se a afirmao do fornecedor verdadeira. As hipteses que voc vai formular so:
importante ressaltar que o sinal de igual para a hiptese H0 corresponde a um sinal de menor ou igual (nesse exemplo), pois o teste unilateral direita (p > 0,06). Portanto, sempre que o teste for unilateral, deve ser feita essa considerao. 2) Definir o nvel de significncia.
O nvel de significncia de um teste dado pela probabilidade de se cometer erro do tipo I (ocorre quando voc rejeita a hiptese H0 e essa hiptese verdadeira). Com o valor dessa
174
probabilidade fixada, voc pode determinar o chamado valor crtico, que separa a chamada regio de rejeio da hiptese H0, da regio de aceitao da hiptese H0. No desenho, a seguir, as reas escuras correspondem significncia do teste, ou seja, a probabilidade de se cometer o chamado erro tipo I (rejeitar H 0 quando ela verdadeira). Essa probabilidade chamada de e geralmente os valores mais utilizados so 0,01 e 0,05. O complementar do nvel de significncia chamado de nvel de confiana (rea clara dos grficos) e dado por 1 .
3) Definir a distribuio amostral a ser utilizada. Voc definir a estatstica a ser utilizada no teste em razo da distribuio amostral a qual os dados seguem. Se voc fizer um teste de hiptese para uma mdia ou diferena entre mdias, utilize a distribuio de Z ou t de Student.
muito importante. Caso ainda tenha alguma dvida, volte e relembre os conceitos das distribuies de t, quiquadrado e F, e como utilizar as tabelas.
Mdulo 4
175
Outro exemplo se voc quiser comparar a varincia de duas populaes; para tal, dever trabalhar ento com a distribuio F, ou seja, da razo de duas varincias. 4) Definir os limites da regio de rejeio. Os limites entre as regies de rejeio e de aceitao da hiptese H0 voc definir em razo do tipo de hiptese H1, do valor de (nvel de significncia) e da distribuio amostral utilizada. Considerando um teste bilateral, voc ter a regio de aceitao (no rejeio) com uma probabilidade de 1 e uma regio de rejeio com probabilidade (/2 + /2).
a/2 Regio de no - rejeio a/2
Por meio da amostra obtida, voc deve calcular a estimativa que servir para aceitar ou para rejeitar a hiptese nula. Neste momento, voc deve estar se perguntando: como irei calcular a estimativa, ou seja, o valor da estatstica a partir dos dados amostrais? A resposta ser dada no prximo item. 5) Tomar a deciso Para tomar a deciso, voc deve calcular a estimativa do teste estatstico que ser utilizada para rejeitar ou no a hiptese H0. A estrutura desse clculo para a mdia de forma generalista dada por:
176
Zcal =
(x - m ) (s / n)
Se o valor da estatstica estiver na regio crtica (de rejeio), voc vai rejeitar H0, caso contrrio, aceite H0. O esquema a seguir mostra bem a situao de deciso.
Mdulo 4
177
Onde: x : mdia amostral; : mdia populacional; : desvio padro populacional; e n: tamanho da amostra. Imagine a seguinte situao: um gestor pblico sabe que, para montar um determinado negcio em um bairro de Curitiba, necessrio que nele circulem, no mnimo, 1.500 pessoas por dia. Para o tipo de bairro em questo, possvel supor o desvio padro como sendo igual a 200 pessoas. Uma amostra aleatria formada por 12 observaes revelou que passariam pelo local
178
escolhido 1.400 pessoas por dia, em mdia. O negcio pode ser montado ou no? Assuma = 5% e suponha populao normalmente distribuda. Resoluo: Sempre, em um exerccio de tomada de deciso, precisamos da formulao de um teste de hiptese, seguindo os passos apresentados: 1. Formular as hipteses. 2. Definir o nvel de significncia. 3. Definir a distribuio amostral a ser utilizada. 4. Definir os limites da regio de rejeio (grfico). 5. Tomar a deciso. Vamos primeiramente retirar os dados do problema: n = 12; x = 1400 e = 200 Vamos estabelecer as hipteses com base no exerccio: Ho: = 1500 H1: < 1500
Caso tenhamos uma mdia igual a 1.500 pessoas, podemos montar o negcio. Mas se aceitarmos a hiptese H1, no devemos indicar a montagem do negcio. = 0,05
v v
Mdulo 4
179
O valor Z t = 1,64, que divide a RRH 0 e RAH 0 , foi encontrado na tabela Z procurando em seu interior o valor 0,4495. Como Z calculado menor que Z tabelado, ou seja, 1,73 pertence a RRH0, podemos afirmar com 95% de certeza que transitam menos de 1.500 pessoas por dia no bairro e, assim, verificamos que no vivel montar o negcio no bairro.
Agora, antes de prosseguir, voc deve resolver a Atividade 1, ao final desta Unidade. Caso tenha alguma dvida, retorne a situao anterior, aquela que resolvemos juntos.
Segunda situao: se voc no conhecer o desvio padro populacional e a amostra for pequena (n 30), a distribuio amostral a ser utilizada ser a t de Student e a estatstica teste ser:
Onde: x : mdia amostral; : mdia populacional; s : desvio padro amostral; e n: tamanho da amostra.
180
Uma observao importante: quando trabalhamos com amostras grandes, ou seja, n 30, a distribuio de Z e t de Student apresentam comportamentos e valores da estatstica prximos.
Neste momento, releia os passos anteriores para que no fique nenhuma dvida em relao estrutura de um teste de hiptese, pois iremos trabalhar juntos em situaes nas quais iremos aplicar os diferentes testes de hipteses para uma mdia.
Veja, abaixo, a primeira situao em que utilizaremos o teste de hiptese para uma mdia usando a estatstica de Z (amostras grandes ou varincia populacional conhecida). Para resolver essa situao, utilizaremos o teste de hiptese para uma mdia usando a estatstica de t de Student (amostra pequena e varincia populacional desconhecida). A Construtora Estrada Forte Ltda. alega ser capaz de produzir concreto com, no mximo, 15 kg de impurezas para cada tonelada fabricada. Mas, segundo a legislao municipal, caso essa quantidade seja maior do que 15 kg, a obra deve ser embargada pela prefeitura. Dezenove amostras de uma tonelada cada uma revelaram possuir impurezas com mdia amostral igual a 23 kg e desvio padro igual a 9 kg. Assumindo = 5% e populao normalmente distribuda, a obra deve ser embargada ou no? Resoluo: Retirando os dados do problema: n = 19; x = 23; s = 9; = 0,05. Vamos estabelecer as hipteses baseando-nos na afirmao do exerccio:
Mdulo 4
181
Caso a hiptese H0 seja aceita, a obra no ser embargada, pois ela est de acordo com a lei. Caso contrrio, a prefeitura embarga a obra.
tc =
x - m 23 - 15 8 = = = 3,87 s 9 2,06 n 19
distribuio t de Student.
O valor tt = 1,734 que divide a RRH 0 e RAH0 foi encontrado na tabela t procurando grau de liberdade 18 (gl = n 1 = 19 = 1) e = 0,05. Como t calculado maior do que t tabelado, ou seja, 1,734 pertence a RRH0, podemos afirmar com 95% de certeza que a alegao da construtora no verdadeira. Eles no so capazes de produzir concreto com, no mximo, 15 kg de impurezas para cada tonelada fabricada. Ento, conclumos que a obra deve ser embargada pela prefeitura.
182
Como estamos utilizando um teste unilateral direita, por questes didticas, ento, no clculo da estatstica de F, teremos a maior varincia dividida pela menor varincia.
A maior varincia amostral encontrada ser chamada de (proveniente de uma amostra de tamanho n1) e a menor varincia amostral ser chamada (proveniente de amostra de tamanho n2). Vamos considerar duas amostras provenientes de duas populaes. Desejamos saber se as varincias das populaes so estatisticamente iguais ou se uma maior do que a outra. Considere uma significncia de 2,5%. Os resultados amostrais so apresentados a seguir:
Mdulo 4
183
Como em H 0 estamos considerando que as varincias populacionais so iguais, ento, na expresso acima, as duas varincias populacionais iro se cancelar. No nosso exemplo, teremos:
F =
s1
s 22
O valor tabelado (crtico) da distribuio de F ser obtido na tabela da distribuio com uma significncia de 2,5%. Considerando como graus de liberdade iguais a 13 (n1 1) para o numerador (v1) e 20 (n2 1) para o denominador (v2), chegaremos ao seguinte resultado: valor tabelado igual a 2,637.
O valor calculado da estatstica (2,56) foi menor do que o tabelado (2,637), ento, o valor calculado caiu na regio de aceitao de H 0. Assim, aceitamos H 0 e consideramos que a varincia da populao 1 estatisticamente igual varincia da populao 2, ou seja, no ocorre uma diferena entre elas. Esse teste servir de base para a escolha do prximo teste (diferena entre mdias para amostras independentes), ou seja, escolher o tipo de teste a ser utilizado.
184
Vamos analisar cada uma dessas situaes. Lembre-se de que as consideraes anteriores em relao aos passos para formulao dos testes de hipteses permanecem os mesmos.
Mdulo 4
185
A grande diferena, como voc ver, ocorrer somente na determinao das hipteses a serem testadas. A hiptese H0 ser: H 0: 1 2 = d 0 Onde: 1: mdia da populao 1; 2: mdia da populao 2; e d0 corresponde a uma diferena qualquer que voc deseja testar. Geralmente, quando queremos saber se as mdias das duas populaes so estatisticamente iguais, utilizamos o valor de d0 igual a zero. As hipteses alternativas seguem a mesma linha de raciocnio, como voc pode visualizar a seguir.
H0 H1
1 2 < d 0 1 2 = d0 1 2 > d 0 1 2 d0 importante ressaltar que, se as hipteses alternativas forem unilaterais, o sinal da hiptese H0 ser menor ou igual ou maior ou igual dependendo da hiptese alternativa, apesar de utilizarmos a notao de igual (conforme comentado anteriormente). Todas as outras consideraes em relao aos testes de hiptese permanecem as mesmas. Vamos, ento, procurar entender cada situao para os testes de hipteses para diferena entre mdias. 1 caso: amostras independentes e grandes (n > 30) ou varincias populacionais conhecidas: como estamos trabalhando aqui com amostras grandes ou com desvios padro populacionais conhecidos, devemos trabalhar com a distribuio amostral de Z (raciocnio semelhante ao utilizado no teste de hiptese para uma mdia). Portanto, a estatstica do teste ser dada por:
186
Z =
( X 1 - X 2 ) - (m 1 - m 2)
2 1
/ n1 + s 2 / n2
Onde: X1: mdia da amostra 1; X2: mdia da amostra 2; : mdia da populao 1; :mdia da populao 2; : varincia da populao 1; : varincia da populao 2; n1: tamanho da amostra 1 e n2 tamanho da amostra 2.
Se trabalharmos com amostras grandes, poderemos substituir as varincias populacionais pelas varincias amostrais sem nenhum problema.
Vamos, ento, ver como podemos aplicar o teste de hiptese para a diferena entre mdias nesta situao: Foram retiradas amostras do valor recebido em milhares de reais de um determinado imposto de duas prefeituras (A e B) de mesmo porte. Os resultados so apresentados no quadro, a seguir. Verifique se as duas prefeituras tm o mesmo recebimento ou se so diferentes, com uma significncia de 0,05.
MARCAS
Mdia Desvio padro Tamanho amostra
A
1160 90 100
B
1140 80 100
Como fazer: Vamos retirar os dados apresentados em nossa situao: Amostra A: n = 100; x = 1160; s = 90 Amostra B: n = 100; x = 1140; s = 80
Mdulo 4
187
ab a b ab
O teste t deve ser bilateral, j que a preocupao est na verificao do fato da mdia da prefeitura A ser diferente da mdia da prefeitura B. = 0,05 A estatstica usada ser Z, pois as amostras so grandes (n > 30), apesar de no termos os desvios padro populacionais. Sendo assim, nessa situao, ainda utilizamos a estatstica de Z. Substituindo os valores na estatstica, teremos:
Zc =
= 1,67
Como o valor calculado Zc = 1,67 est entre os valores de 1,96 e 1,96, valores que dividem a RRH0 da RAH0, verificamos que o valor calculado Zc = 1,67 pertence a RAH0 e podemos afirmar, com 95% de certeza, que os valores recebidos pelas duas prefeituras so estatisticamente iguais, ou seja, aquela diferena encontrada entre as amostras foi fruto do acaso. 2 caso: amostras independentes e pequenas, mas que apresentam varincias populacionais estatisticamente iguais e desconhecidas: voc deve trabalhar com a distribuio t de Student, uma vez que as amostras que estamos trabalhando so pequenas, e as varincias populacionais desconhecidas.
188
Aqui, estaremos considerando que as varincias populacionais so estatisticamente iguais, pois essa situao influenciar nos clculos e, consequentemente, no processo decisrio.
Para saber se as varincias podem ser consideradas iguais, voc deve fazer um teste da razo de duas varincias (teste F), apresentado anteriormente.
t=
( X 1 - X 2 ) - ( m1 - m2 ) s p1 / n1 + 1 / n 2
Aqui, aparece um termo novo (Sp). Ele corresponde ao desvio padro ponderado pelos graus de liberdade, ou seja, calculamos um novo desvio padro cujo fator de ponderao corresponde ao grau de liberdade de cada amostra. Veja a seguir:
( n 1 - 1 )s 1 2 + (n 2 - 1 )s 2 2 n1 + n2 - 2
Sp =
Para voc encontrar o valor tabelado que limita as regies de aceitao e de rejeio na tabela t de Student, o nmero de graus de liberdade (v) a ser usado na tabela ser dado por: v = n1 + n2 2 Onde:
Vamos resolver, agora, uma situao na qual temos a comparao entre mdias de amostras pequenas e varincias populacionais desconhecidas e estatisticamente iguais.
Mdulo 4
189
Situao: em uma comparao de aprovao no vestibular de uma importante universidade, seis estudantes do sexo masculino de colgios da rede pblica (amostra A) preencheram o gabarito no tempo mdio de 6,4 minutos e desvio padro de 60 segundos. Outra amostra foi formada por cinco estudantes do sexo feminino selecionados aleatoriamente do mesmo universo (amostra B), com os resultados de tempo de preenchimento do gabarito, de um tempo mdio de 5,9 minutos e com desvio padro de 60 segundos (assuma varincias populacionais iguais). A Secretaria Municipal de Educao deseja saber se existe diferena ou no entre o sexo dos estudantes para definir se h necessidade de se fazer treinamentos especficos para cada sexo ou um mesmo treinamento para os dois sexos; para, assim, poder reduzir esse tempo e melhorar a performance dos estudantes da rede pblica no vestibular. Resoluo: Retirando os dados do nosso exemplo, teremos: Amostra A: n = 6; x = 6,4; s = 1 Amostra B: n = 5; x = 5,9; s = 1 As hipteses a serem formuladas so:
ab a b ab
O teste t deve ser bilateral, j que a ateno est voltada para a preocupao em se constatar se, de fato, ocorre diferena entre os estudantes do sexo masculino ou feminino. = 0,05 A estatstica usada ser t, pois as amostras so menores ou iguais a 30 (n 30) e a varincia populacional desconhecida. Alm disso, consideramos que as varincias populacionais so estatisticamente iguais, informao que dada no problema analisado.
Caso isso no seja informado no problema, voc deve fazer um teste de hiptese para comparar as varincias populacionais com base como vimos nas varincias amostrais, anteriormente.
190
Sp =
5.12 + 4.1 2 =1 6 + 5- 2
= 0,5 = 0,82 0,6055
tc =
v = na + nb 2 = 6 + 5 2 = 9 (grau de liberdade)
O valor tt = 2,262 que divide a RRH 0 e RAH 0 foi encontrado na tabela t procurando grau de liberdade 9 e = 0,025. Como t calculado est entre os valores que dividem a regio de aceitao de H0, ou seja, 0,82 pertence a RAH 0, podemos afirmar com 95% de certeza que o tempo de preenchimento dos estudantes e das estudantes a mesmo. Ento, a prefeitura deve fazer o treinamento independentemente do sexo dos estudantes, ou seja, o mesmo treinamento para todos os estudantes.
3 caso: amostras independentes e pequenas, mas que apresentam varincias populacionais estatisticamente desiguais e desconhecidas: a diferena dessa situao para a anterior que voc agora considera que as populaes apresentam varincias estatisticamente desiguais. Para saber se elas so estatisticamente
Mdulo 4
191
desiguais ou diferentes, voc deve fazer um teste de hiptese para a razo de duas varincias, visto anteriormente nesta Unidade. Tambm utilizaremos a estatstica do teste a partir da distribuio t de Student. A estatstica do teste ser dada por:
t=
( X 1 - X 2 ) - (m1 - m 2 )
2 1
/ n1 + s 2 / n 2
Outra diferena est no clculo do nmero de graus de liberdade, pois, nessa situao, utilizaremos uma aproximao que dada pela expresso a seguir:
Se esse valor calculado apresentar valores decimais, voc deve fazer o arredondamento para um nmero inteiro.
Situao: uma prefeitura deseja reduzir seus custos com combustveis. Para isso, deseja saber se duas marcas de carro apresentam o mesmo consumo ou se um dos fabricantes apresenta menor consumo. No confiando nas especificaes do fabricante, j que as condies de uso dos veculos pela prefeitura no so ideais. Para tomar a deciso acerca de qual comprar, foi analisada uma amostra de 22 automveis das duas marcas, obtendo o resultado apresentado, a seguir. Seria possvel afirmar que o carro Andaluz mais econmico, isto , que apresenta uma mdia populacional inferior que a do Reluzente? Assuma = 5% e populao normalmente distribuda.
192
AUTOMVEL
Andaluz Reluzente
TAMANHO DA AMOSTRA
12 unidades 10 unidades
MDIA DE CONSUMO
14 km/l 15 km/l
DESVIO PADRO
2 km/l 4 km/l
Resoluo: Nessa situao, faremos um teste de hiptese para diferena entre mdias populacionais. Como as amostras so pequenas, precisamos saber se as varincias so estatisticamente iguais ou no. Para isso, vamos testar se as varincias populacionais so estatisticamente iguais ou no por meio de teste de F. As hipteses so:
Como estabelecemos utilizar o teste unilateral no clculo de F, teremos, ento, a maior varincia dividida pela menor varincia. As varincias populacionais no esto presentes na frmula, devida, na hiptese H 0, serem consideradas iguais e, assim, elas se cancelam.
O valor 2,896 foi encontrado na tabela F de 5% com grau de liberdade 9 para o numerador e 11 para o denominador. Como Fc > 2,896, rejeita-se H0 e, portanto, as varincias populacionais so estatisticamente desiguais, ou seja, uma maior do que a outra.
Mdulo 4
193
Agora, vamos testar as mdias populacionais: H 0: andaluz = reluzente andaluz reluzente = 0 H 1: andaluz < reluzente Como as amostras so independentes, pequenas e com varincias populacionais estatisticamente desiguais, usaremos a estatstica t. Vamos encontrar o grau de liberdade:
2 2 sA sR n +n A R 2 A 2 2 R 2
V=
s s n n A + R n A - 1 nR - 1
4 + 16 12 10 4 12 11
2
16 10 + 9
t=
(xA
- xR ) - (m andaluz - m reluzente )
2 2 s A sR + nA nR
-1 = -0,72 1,39
O valor t t = 1,771, que divide a RRH 0 e RAH 0 , foi encontrado na tabela t procurando grau de liberdade 13 e = 0,05. Como t calculado (t = 0,72) pertence a RAH0, podemos afirmar, com 95% de certeza, que o consumo dos carros Andaluz e Reluzente o mesmo, ou seja, tanto faz a prefeitura comprar uma marca ou outra que o consumo ser o mesmo.
194
Antes de passarmos ao estudo do quarto caso, resolva a Atividade 3, ao final desta Unidade. Dessa forma, voc poder aplicar os conhecimentos sobre a diferena entre mdias.
4 caso: amostras dependentes: sabemos que amostras dependentes ocorrem quando fazemos uma interveno e desejamos saber se os resultados antes da interveno so iguais aos resultados depois da interveno. Um ponto importante, nessa situao, que so calculadas, primeiramente, as diferenas de antes e de depois. Essa diferena chamada de di. Ento, voc pode ver que:
D=
d
i =1
n 2 di n d i2 - i =1 n S D = i =1 n -1
Veja que essas frmulas so iguais s de clculo da mdia e do desvio padro apresentados anteriormente. Nesse caso, no lugar da varivel x so utilizados os valores de di (diferenas). Com esses valores, a estatstica teste ser dada por:
t =
D - dO . SD / n
O valor de n corresponde ao nmero de diferenas calculadas e o grau de liberdade para ser olhado na tabela t de Student ser dado por n 1.
Mdulo 4
195
Vamos resolver uma situao em que trabalharemos com o caso de amostras dependentes.
Situao: em um estudo procurou-se investigar se a reduo em uma gratificao no salrio iria diminuir a produtividade dos funcionrios de uma prefeitura, considerando uma escala de produtividade de 0 a 12. A tabela a seguir d os resultados de pessoas selecionadas anteriormente. No nvel de 5% de significncia, teste a afirmao de que a reduo da gratificao reduziu a produtividade, ou seja, que a diferena entre antes e depois deve ser maior do que zero.
PESSOA
Antes Depois
A
6,6 6,8
B
6,5 2,4
C
9,0 7,4
D
10,3 8,5
E
11,3 8,1
F
8,1 6,1
G
6,3 3,4
H
11,6 2,0
Primeiramente, vamos montar as nossas hipteses: H 0: D = 0 H 1: D < 0 Veja que as escolhas dessas hipteses esto associadas ao que queremos testar. No caso da hiptese H 0: D = 0, estamos testando que as mdias das diferenas de antes menos depois so iguais a zero, ou seja, que a reduo na gratificao no interferiu na produtividade (a produtividade foi a mesma), j que estamos avaliando os mesmos indivduos. No caso da hiptese H 1: D > 0, estamos testando que os valores de antes eram maiores do que os valores de depois da reduo da gratificao, ou seja, se esta diferena de antes menos de depois for maior do que zero, indica que antes da interveno os funcionrios tinham uma produtividade maior antes do que depois. Poderamos testar tambm, dependendo do caso, as hipteses H1: D < 0 ou H 1: D 0. Consideramos um = 0,05.
196
Para calcular mos os valores de D e S D , devemos, primeiramente, calcular as diferenas entre os valores de antes menos de depois de cada indivduo e com essas diferenas calcular a mdia das diferenas (D) e o desvio padro das diferenas (SD) para utiliz-las na expresso de t para amostras dependentes. Os resultados das diferenas so apresentados a seguir:
PESSOA
Antes Depois Diferena (antes depois)
A
6,6 6,8 -0,2
B
6,5 2,4 4,1
C
9 7,4 1,6
D
10,3 8,5 1,8
E
11,3 8,1 3,2
F
8,1 6,1 2
G
6,3 3,4 2,9
H
11,6 2 9,6
t=
0,95 (RAH0)
0
a = 0,05 (RRH0)
1,895
O valor tt = 1,895, que divide a RRH0 e RAH0, foi encontrado na tabela t quando procurvamos o grau de liberdade, 7 graus de liberdade (n 1, onde n o nmero de indivduos avaliados) e = 0,05. Como t calculado (t = 3,03) pertence a RRH 0, podemos considerar que os valores de produtividade eram maiores antes e, assim, a reduo na gratificao influenciou na produtividade dos funcionrios da prefeitura.
Mdulo 4
197
Vimos sobre a
v v
( p1 - p2 ) - ( p1 - p2) p1q1 p2 q2
n1 + n2
p1
Voc deve se lembrar de que a proporo de fracasso (q) dada por de sucesso.
um menos a proporo
Situao: uma empresa de pesquisa de opinio pblica selecionou, aleatoriamente, 500 eleitores da Bahia e 600 de Pernambuco, e perguntou a cada um se votaria ou no no candidato Honesto Certo nas prximas eleies presidenciais. Responderam afirmativamente 80 eleitores da Bahia e 150 eleitores de
198
Pernambuco. Existe alguma diferena significativa entre as propores de eleitores a favor do candidato nos dois Estados? Use nvel de significncia igual a 6%. Como fazer:
Bahia: n = 500; p =
Pernambuco: n = 600; p =
Vamos estabelecer as hipteses: H0: p B = pp p B p p = 0 H1: p B p P p B pp 0 Aqui, seguem as mesmas consideraes vistas anteriormente para a formulao das hipteses. = 0,06 A estatstica usada ser Z.
Mdulo 4
199
Como Z calculado est na regio de rejeio de H0 (menor que 1,88), rejeitamos H0 e, portanto, podemos afirmar com 94% de certeza que existe diferena significativa entre as propores de eleitores a favor do candidato nos dois Estados.
200
RUIM
157 206 363
MDIO
27 0 27
BOM
74 10 84
TOTAL
258 216 474
Podemos determinar o grau de associao entre essas duas variveis, ou seja, determinar se o grau de aceitao do governo depende do sexo ou se existe uma relao de dependncia.
Mdulo 4
201
As hipteses a serem testadas so: H0: varivel linha independe da varivel coluna (no exemplo anterior, o grau de aceitao independe do sexo das pessoas). H1: varivel linha est associada varivel coluna (no exemplo anterior, o grau de aceitao depende do sexo das pessoas). A estatstica de qui-quadrado ser dada por meio da seguinte expresso:
Onde: k corresponde ao nmero de classes (frequncias encontradas). Voc pode verificar que fo corresponde frequncia observada, ou seja, ao valor encontrado na tabela de contingncia. J fe corresponde frequncia esperada caso as variveis no tenham nenhuma relao de dependncia, ou seja, caso as duas variveis sejam independentes. Por causa dessa definio, o clculo da frequncia esperada (fe) ser obtido por:
Nesse caso, os graus de liberdade (v), para que possamos olhar a tabela de qui-quadrado, so dados por: v = (h1) (k1) nas tabelas com h linhas e k colunas (no exemplo anterior: v = (21) x (31) = 2 graus de liberdade) Ento, para cada clula da tabela de contingncias, voc ir calcular a diferena entre fe e fo. Essa diferena elevada ao quadrado para evitar que as diferenas positivas e negativas se anulem. A diviso pela frequncia esperada feita para obtermos diferenas em termos relativos.
202
Vamos entender melhor o teste de qui-quadrado do tipo independncia por meio da anlise de outra situao.
Situao: o gestor de uma prefeitura deseja saber como seus funcionrios atuam no uso do MSN durante o trabalho. Para realizar um programa de conscientizao, os gestores pblicos precisam saber se o fato de os funcionrios usarem pouco ou muito o MSN durante o trabalho depende do sexo das pessoas. Mediante essa informao, a gesto pode definir se far programas de conscientizao para homens e mulheres de forma separada ou em conjunto (um nico programa). Para testar essa hiptese, foram selecionados, ao acaso, 96 funcionrios de ambos os sexos que usavam pouco ou muito o MSN em razo dessas caractersticas na populao. Verifique, com uma significncia de 5%, a hiptese do gestor pblico.
USO DO MSN SEXO POUCO
Homem Mulher 8 16
MUITO
32 40
Resoluo: Definindo primeiro as hipteses H0 e H 1. H0: uso do MSN independe do sexo. H1: uso do MSN depende do sexo. Agora, iremos calcular as frequncias esperadas, que so os valores que esto entre parnteses. Confira os clculos das outras frequncias esperadas cujos valores (fe) aparecem entre parnteses.
USO DO MSN SEXO
Homem Mulher
POUCO
8 (10)
MUITO
32 (30)
40
24
72
96
Mdulo 4
16 (14)
40 (42)
56
203
Agora, basta substituir os valores das frequncias esperadas e observadas de todas as classes.
O valor do grau de liberdade apresentado a seguir: v = (2 1) . (21) = 1 gl Considerando um = 0,05 e olhando na tabela de quiquadrado para 1 grau de liberdade, teremos:
Como o valor calculado (0,914) foi menor do que o tabelado (3,841), ento o calculado caiu na regio de aceitao de H 0. Portanto, no temos indcios para rejeitar a hiptese H0, ou seja, o uso do MSN independe do sexo dos funcionrios. Dessa forma, o gestor pode fazer um nico programa de conscientizao tanto para homens quanto para mulheres.
204
As estimativas correlao podem ser positivas ( medida que a varivel x aumenta a varivel y tambm aumenta) ou negativas ( medida que a varivel x aumenta a varivel y diminui), como voc pode ver a partir dos dados e dos grficos a seguir:
Mdulo 4
205
trazer mais adiante, voc encontrar a explicao dos somatrios dessa expresso. No se preocupe!
O coeficiente de correlao de Pearson (r) nos d uma ideia da variao conjunta das variveis analisadas e pode assumir valores de 1 a +1. Veja a expresso por meio da qual podemos obter o coeficiente de correlao de Pearson:
A ocorrncia de um valor de r = 0 ou prximo de zero indica apenas que no h correlao linear entre as variveis, porque pode existir uma forte relao no linear entre as variveis, como no grfico de disperso do peso do pacote e o tempo de entrega, na qual temos uma relao no linear. Vejamos as caractersticas que o coeficiente de correlao de Pearson pode apresentar:
seus valores esto compreendidos entre -1 e 1; se o coeficiente for positivo, as duas caractersticas
estudadas tendem a variar no mesmo sentido.
206
onde: n : nmero total de pares; r2 : coeficiente de correlao ao quadrado; e : parmetro da correlao populacional (considerado igual a zero). A hiptese H0 ser de que (rho) = 0 e a hiptese H1, que iremos utilizar, ser de que (rho) 0.
Situao: Vamos determinar o coeficiente de correlao entre a porcentagem de aplicao do total de recursos com Educao em uma prefeitura (x) e o grau de conhecimento mdio da populao da cidade (y). Para isso, foram avaliadas dez cidades.
Mdulo 4
207
5 10 20 30 40 50 60 70 80 90
70 40 27 22 18 16 15 14 13 12
Para obtermos a estimativa de correlao, precisamos calcular todos os somatrios presentes na expresso:
x = x
i
2 i
y = y
i
Somatrio de todos os valores obtidos por meio do produto dos valores de x e y de cada cidade:
208
O valor de r = -0,7877 indica que existe uma associao inversa (negativa) e de mdia magnitude entre a variao da porcentagem de aplicao do total de recursos com educao em uma prefeitura e o grau de conhecimento mdio da populao da cidade, ou seja, nesta populao de cidades, provavelmente os recursos da educao no esto sendo bem empregados, j que a relao foi negativa quando se esperava uma relao positiva. Para verificarmos se esse resultado significativo, vamos fazer o seguinte teste de hiptese: H0: (rho) = 0 H1: (rho) 0. Iremos calcular a estatstica por meio da expresso:
Olhando na tabela de t para 8 graus de liberdade (10-2) e um =0,025, j que estamos considerando uma significncia de 0,05 e o nosso teste bilateral, teremos um valor tabelado de 2,306. Verificamos que o valor calculado de 3,525 est na regio de rejeio da hiptese H 0 e, portanto, iremos aceitar a hiptese
Mdulo 4
209
H 1, ou seja, de que (rho) 0. Ento, o resultado encontrado na amostra (r) no foi fruto do acaso, considerando uma significncia de 5%. Devemos ter cuidado na interpretao do coeficiente de correlao, pois este no implica necessariamente uma medida de causa e efeito. mais seguro interpretar o coeficiente de correlao como uma medida de associao. Por exemplo, podemos encontrar uma correlao muito alta entre o aumento dos salrios dos professores e o consumo de bebidas alcolicas atravs de uma srie de anos em uma regio. Esse valor de r encontrado foi alto apenas porque pode ser que ambas as variveis tenham sido afetadas por uma causa comum, ou seja, a elevao do padro de vida de uma regio.
Complementando...
Atravs do link que apresentamos a seguir, voc poder fazer os testes de hipteses e de estimativas de correlao de Pearson.
210
Resumindo
Nesta Unidade, conhecemos os principais testes de hipteses e vimos suas aplicaes no dia a dia da gesto de empresas pblicas. Apresentamos a estrutura de um teste de hiptese, de testes de hipteses para mdias, de diferena entre mdias e de diferena entre propores. Verificamos que o teste de qui-quadrado pode ser utilizado para medir a dependncia entre variveis qualitativas. Dessa forma, voc ter plenas condies de aplicar e de interpretar um teste estatstico de maneira correta.
Mdulo 4
211
Atividades de aprendizagem
Chegou o momento de analisarmos se voc entendeu o que estudamos at aqui! Para saber, procure, resolver as atividades propostas a seguir. Lembre-se: voc pode contar com o auxilio de seu tutor.
1. Um fabricante afirma que seus pneus radiais suportam em mdia uma quilometragem superior a 40.000 km. Uma prefeitura compra os pneus desse fabricante. Existe uma dvida no setor de compras da prefeitura: A afirmao do fabricante est correta?. Para testar essa afirmao, a prefeitura selecionou uma amostra de 49 pneus. Os testes, nessa amostra, forneceram uma mdia de 43.000 km. Sabe-se que a quilometragem de todos os pneus tem desvio padro de 6.500 km. Se o comprador (gestor pblico) testar essa afirmao ao nvel de significncia de 5%, qual ser sua concluso? 2. Duas tcnicas de cobrana de impostos so aplicadas em dois grupos de funcionrios do setor de cobrana de uma prefeitura. A tcnica A foi aplicada em um grupo de 12 funcionrios, resultando em uma efetivao mdia de pagamento de 76% e uma varincia de 50%. J a tcnica B foi aplicada em um grupo de 15 funcionrios, resultando em uma efetivao mdia de 68% e uma varincia de 75%. Considerando as varincias estatisticamente iguais e com uma significncia de 0,05, verifique se as efetivaes de pagamento so estatisticamente iguais.
212
3. Um secretrio da Educao de uma prefeitura deseja saber se h, no futuro, profissionais promissores em escolas de regies pobres e de regies ricas. Uma amostra de 16 estudantes de uma zona pobre resultou, em um teste especfico, uma mdia de 107 pontos e um desvio padro de 10 pontos. J 14 estudantes de uma regio rica apresentaram uma mdia de 112 pontos e um desvio padro de 8 pontos. Voc deve verificar se a mdia dos pontos dos dois grupos diferente ou igual a fim de que o empresrio possa saber se ele deve investir em qualquer uma das reas ou se uma delas mais promissora (primeiro verifique se as varincias so estatisticamente iguais ou diferentes).
Mdulo 4
213
FREQUNCIAS ABSOLUTAS
3 3 6 5 3 20
214
CLASSES
20,625 29,375 29,375 38,125 38,125 46,875 46,875 55,625 55,625 64,375
FREQUNCIAS ACUMULADA
3 6 12 17 20
b)
Unidade 3 1.
Md =
Mo = 18,23,25 e 28, todos esses valores tem frequncia 2 (multimodal) Varincia: Desvio Padro: Coeficiente de Variabilidade:
Mdulo 4
215
Coeficiente de Variao 57.3 Unidade 4 1. R: 1-(1/3 * 1/5 * 3/10) = 0,98. 2. a) R: 0,125. b) R: 0,0694. c) R: 0,1388. 3. a) R: 60/100. b) R: 40/100. c) R: 24/100. d) R: 76/100. Unidade 5 1. 2. Distribuio binomial com n = 4 e p = a) R: P(x=2) . 2000 = 0,3750 . 2000 = 750 famlias. b) R: [P(1) + P(2)] . 2000 = (0,25 + 0,375) . 2000 = 1250 famlias. c) R: P(0) . 2000 = 0,0625 . 2000 = 125 famlias. 3. R: 1- [P(0)+P(1)], em que a distribuio de probabilidade uma Poisson com parmetro lambda. a) = 1,4 b) = 2,8 c) = 5,6 R= 0,40817 R=0,76892 R=0,97559
216
P(20 < X < 24) = P(0 < Z < 0,8) = 0,2881 (28,81 %). b) X = 16 X = 20 Z = 0 P(16 < X < 20) = P (-0,8 < Z < 0) = P(0 < Z < 0,8) = 0,2881 = 28,81 c) X = 28 Z = (28 - 20 )/ 5 = 1,6 P(X > 28) = P (Z > 1,6) = 0,5 - 0,4452 = 0,0548 6. 1 = 0,95 = 0,05 /2 = 0,025
P(26,412 < < 27,588) = 0,95 Unidade 6 1. Sugesto: siga os passos para realizar um teste de hiptese:
ZZ
Concluso: como o valor calculado foi maior do que o tabelado (1,64), ele caiu na regio de rejeio de H0.
Mdulo 4
217
2. HA B H1 2
t0,025 = 2,060 Concluso: como o valor calculado foi maior do que o tabelado (2,060), ele caiu na regio de rejeio de H 0. 3. H1 2 H 1 2
v = 29,7425 = 30 (graus de liberdade obtido pela aproximao). t0,025 = 2,042 (com 30 gl) Concluso: como o valor calculado caiu na regio de aceitao, as mdias so estatisticamente iguais, o que indica que as duas regies apresentam o mesmo potencial.
218
CONSIDERAES FINAIS
Com os conhecimentos de estatstica adquiridos ao longo deste livro, voc agora j pode imaginar quantas anlises estatsticas podem ser feitas. A anlise de dados est presente at em uma simples ligao telefnica que uma empresa de crdito faz para voc. A empresa cruza informaes como sexo, renda mensal e hbitos de consumo para oferecer um produto na medida certa. Para fazer tudo isso, necessrio, entretanto, conhecimento bsico de estatstica para que empresas de Gesto Pblica ou no venham a descobrir como transformar quantidades de nmeros e de grficos em informaes que serviro para reduzir os custos e aumentar os lucros. O problema que falta gente qualificada e com conhecimento de mercado para realizar as anlises de dados. Para voc trabalhar com conceitos estatsticos em qualquer setor, necessrio desenvolver um raciocnio lgico e, tambm, administrar informaes, alm de procurar entender como e por que as coisas acontecem. Para decidir algo importante, necessrio avaliar os riscos e as oportunidades. Para que isso seja feito com muita preciso, necessria a estatstica! Assim, voc poder aplicar os conhecimentos de estatstica aprendidos em reas, como a de Recursos Humanos, de Produo, Financeira e muitas outras que voc ir identificar medida que seus conhecimentos na rea de Administrao forem aumentando. Espero que voc tenha gostado de trabalhar com Estatstica e que ela seja uma importante ferramenta a ser utilizada em seu dia a dia. Um grande abrao e sucesso em sua vida profissional, com bastante estatstica, o que desejamos a voc. Professor Marcelo Tavares
Mdulo 4
219
Referncias
ARANGO, Hector G. Bioestatstica: terica e computacional. Rio de Janeiro: Guanabara Koogan, 2001. BARBETTA, Pedro Alberto. Estatstica Aplicada s Cincias Sociais. 4. ed. Florianpolis: Editora da UFSC, 2002. BEIGUELMAN, Bernardo. Curso Prtico de bioestatstica. Ribeiro Preto: Revista Brasileira de Gentica, 1996. BRAULE, Ricardo. Estatstica Aplicada com Excel: para cursos de administrao e economia. Rio de Janeiro: Campus, 2001. BUSSAB, Wilton O.; MORETTIN, Pedro. Estatstica Bsica. So Paulo: Atual, 2002. COSTA NETO, Pedro Luiz de Oliveira. Estatstica. So Paulo: Edgard Blucher, 2002. DOWNING, D.; CLARK, J. Estatstica Aplicada. So Paulo: Saraiva, 2000. FONSECA, Jairo Simon da; MARTINS, Gilberto de Andrade. Curso de Estatstica. Rio de Janeiro: LTC, 1982. FREUD, Jonh E.; SIMON, Gary A. Estatstica aplicada. Bookman, 2000. HOUAISS, Instituto Antnio Houaiss. Dicionrio eletrnico Houaiss da Lngua Portuguesa. Verso monousurio, 3.0. Objetiva: junho de 2009. CD-ROM. LEVINE, David M.; BERENSON, Mark L.; STEPHAN, David F. Estatstica: teoria e aplicaes usando o Microsoft Excel em portugus. Rio de Janeiro: LTC, 2000. MORETTIN, Luiz Gonzaga. Estatstica Bsica Probabilidade. So Paulo: Makron Books, 1999. 1 v.
220
Referncias Bibliogrficas
______. Estatstica Bsica Inferncia. So Paulo: Makron Books, 1999. 2 v. SOARES, Jos F.; FARIAS, Alfredo A.; CESAR, Cibele C. Introduo Estatstica. Rio de Janeiro: LTC, 1991. SPIEGEL, Murray R. Probabilidade e Estatstica. So Paulo: Mc Graw Hill, 1993. STEVENSON, William J. Estatstica Aplicada Administrao. So Paulo: Harper, 1981. TRIOLA, Mrio F. Introduo Estatstica. Rio de Janeiro: LTC, 1999. WONNACOTT, T. H., WONNACOTT, R. J. Estatstica Aplicada Economia e Administrao. Rio de Janeiro: LTC, 1981.
Mdulo 4
221
M INICURRCULO
Marcelo Tavares
Possui Graduao (1989) e Mestrado (1993) pela Universidade Federal de Lavras, e Doutorado pela Escola Superior de Agricultura Luiz de Queiroz/USP (1998). Atualmente, professor Associado II da Universidade Federal de Uberlndia (UFU). Tem experincia na rea de Estatstica Aplicada e atua, principalmente, nos seguintes temas: modelagem estatstica, estatstica, amostragem, controle de qualidade e estatstica multivariada. Tambm foi coordenador do Curso de Especializao em Estatstica Empresarial do Ncleo de Estudos Estatsticos e Biomtricos da Faculdade de Matemtica e, atualmente, Coordenador da Universidade Federal de Uberlndia na Universidade Aberta do Brasil (UAB) e ministro das disciplinas de Estatstica para o Curso de Administrao da UFU.
222