Anda di halaman 1dari 21

Introdu c ao ` a Estat stica Descritiva Unidimensional

Manuela Neves

Instituto Superior de Agronomia


- 2007 -

Nota Introdut oria

Este texto foi adaptado dos apontamentos Introdu c ao ` a Estat stica e ` a Probabilidade de Manuela Neves, que t em sido utilizados como apoio ` as aulas da disciplina Estat stica das licenciaturas em Engenharia Agron omica, Engenharia Florestal, Engenharia Alimentar, Arquitectura Paisagista, Engenharia do Ambiente e Biologia do Instituto Superior de Agronomia.

Manuela Neves Maio de 2007

INTRODUC AO

Historicamente, o termo estat stica deriva da palavra latina status que signica estado. De facto, a estat stica surgiu na segunda metade do s eculo XVII, segundo parece como um auxiliar da arte de governa c ao, associada a problemas de economia, demograa, problemas pol ticos, etc. Actualmente ocupa um papel cada vez mais importante nas mais variadas disciplinas: qu mica, biologia, economia, medicina, psicologia, meteorologia, agricultura, ci encias sociais e pol ticas e em muitos outros campos da ci encia e engenharia. A estat stica dedica-se fundamentalmente ao estudo da teoria e ` a aplica c ao de m etodos de coleccionar, analisar dados e ainda obter conclus oes e tomar decis oes em situa v alidas, a partir desses dados. E c oes de incerteza na predi c ao de resultados e na obten c ao de conclus oes, que a estat stica est a presente. Podemos ent ao dizer que a Estat stica e um conjunto de conceitos e m etodos utilizados na recolha e interpreta c ao de dados respeitantes a uma determinada area de investiga c ao, permitindo ainda descrever e predizer situa c oes em que a variabilidade e a incerteza est ao presentes. A Estat stica pode ser dividida em dois grandes grupos: A estat stica descritiva, cujo objectivo e sumarizar e descrever os aspectos relevantes num conjunto de dados; A infer encia estat stica, que se preocupa em tirar conclus oes a partir de um conjunto de observa c oes (amostra) pela interpreta c ao dos resultados da estat stica descritiva. Ela permite fundamentalmente tomar decis oes quanto ao(s) valor(es) de caracter sticas importantes da popula c ao ou popula c oes, de que foi retirada a amostra. Para isto e necess ario o recurso ` a teoria das probabilidades na qual a infer encia estat stica se baseia fortemente.

ESTATISTICA DESCRITIVA

A estat stica descritiva tem como objectivo apresentar os dados observados sob a forma de tabelas e gr acos, que tornem mais f acil uma primeira an alise desses dados e ainda a obten c ao de valores num ericos que os caracterizem globalmente. Dois conceitos b asicos em estat stica s ao o conceito de popula c ao ou universo e amostra. Popula c ao e o conjunto de elementos com alguma caracter stica em comum a qual se pretende estudar. Esses elementos podem ser pessoas, animais, plantas, explora c oes agr colas, resultados experimentais, etc. Aos elementos da popula c ao ` caracter chamamos unidades estat sticas. A stica em comum, que toma valores diferentes de elemento para elemento, chamamos vari avel. Uma popula c ao pode ser nita ou innita. Uma popula c ao nita pode ter um n umero muito elevado de elementos, por exemplo, a popula c ao de todos os parafusos produzidos por uma f abrica num dado dia e nita, embora de dimens ao muito elevada, enquanto a popula c ao das altitudes de todos os locais do territ orio portugu es e innita. Nos casos anteriores a observa c ao de todos os elementos da popula c ao ou e muito dif cil ou e mesmo imposs vel. Sendo assim o estudo e feito sobre alguns elementos retirados da popula c ao, constituindo aquilo a que se chama uma amostra, i.e, e o conjunto de todas as observa c oes da caracter stica em estudo, efectivamente recolhidas . A estas observa c oes a partir do estudo dos dados da amostra que pretendemos tirar chamamos dados. E conclus oes, i.e., fazer infer encias sobre quantidades num ericas associadas ` a popula c ao, quantidades essas a que se chama par ametros. Atenda-se ainda que os dados podem ser de natureza qualitativa - representam a informa c ao que identica uma qualidade ou categoria, que n ao e poss vel ser medida. Por exemplo, dados referentes ` as cores das faces de um dado, cor dos olhos, sexo de uma pessoa, naipes de um baralho de cartas, etc., ou de natureza quantitativa - referentes a informa c ao suscep vel de ser medida. Destes h a a considerar o caso de cas de gado dados de natureza discreta, ou contagens, por exemplo o n o de cabe por explora c ao, o n o onicas recebidas durante um certo per odo de chamadas telef 3

arvores por herdade, etc., e dados de natureza de tempo num escrit orio, o n o de cont nua ou medi c oes, como, por exemplo, peso e altura dos portugueses num certo intervalo de idades, altura de uma arvore, extens ao de uma propriedade agr cola, etc. O estudo de observa c oes referentes apenas a uma caracter stica e objectivo da estat stica descritiva a uma dimens ao e, da descri c ao e do estudo de observa c oes de duas vari aveis trata a estat stica descritiva a duas dimens oes, com a an alise das poss veis rela c oes existentes entre essas vari aveis. A generaliza c ao ao caso de v arias vari aveis e do dom nio da estat stica descritiva multidimensional.

ESTATISTICA DESCRITIVA A UMA DIMENSAO Objectivos A Estat stica Descritiva tem como objectivo fazer a sumariza c ao e a exposi c ao dos aspectos importantes de um conjunto de dados, utilizando m etodos adequados para: condensar os dados em tabelas; represent a-los gracamente; calcular indicadores num ericos de localiza c ao e variabilidade. Os aspectos importantes para descrever um conjunto de dados s ao: a apresenta c ao de gr acos e tabelas; o exame da forma geral do gr aco para tentar descobrir aspectos particulares, como por exemplo simetria e achatamento; o exame do gr aco para tentar descobrir observa c oes estranhas, outliers; o c alculo de medidas num ericas para um valor representativo da localiza c ao dos dados, um valor representativo da dispers ao dos dados, um valor representativo da forma de distribui c ao dos dados.

Descri c ao dos dados por gr acos e tabelas

De entre os m etodos gr acos usados para representar um conjunto de dados, dois dos principais s ao o diagrama de barras e o histograma. O diagrama de barras Suponhamos que temos o seguinte conjunto de dados relativos ` as classica c oes obtidas por 20 alunos numa dada disciplina: 5

12 13 8 7

15 17 4 8 10 12 10 11 11 14

11 9 10 7 9 13

Vericando-se que as classica c oes obtidas pelos alunos se situam entre 4 e 17 podemos organizar a seguinte tabela de frequ encias:
Notas obtidas 4 7 8 9 10 11 12 13 14 15 17 Frequ encias absolutas 1 2 2 2 3 3 2 2 1 1 1 Frequ encias relativas 0.05 0.10 0.10 0.10 0.15 0.15 0.10 0.10 0.05 0.05 0.05

O exame desta tabela mostra-nos que as classica c oes mais frequentes s ao 10 e 11. Verica-se ainda que h a uma percentagem maior de notas positivas do que negativas, sendo ainda as notas mais raras 4, 14, 15 e 17. Uma tabela de frequ encias permite portanto uma an alise r apida e sum aria dos dados. Designemos por n o n umero de observa c oes recolhidas, i.e. a dimens ao da amostra. A frequ encia absoluta, que habitualmente se representa por ni , e o n umero de vezes que o elemento i e observado e a frequ encia relativa da observa c ao i, que designaremos por fi , e denida como: frequ encia relativa= frequ encia absoluta . dimens ao da amostra

O procedimento gr aco usado no caso de dados de natureza discreta, quando o n umero de valores distintos e pequeno, e o diagrama de barras. Consiste em desenhar um sistema de eixos coordenados, marcar no eixo dos xx os diferentes valores observados e sobre cada um desenhar uma barra vertical de altura igual ` a frequ encia absoluta ou ` a frequ encia relativa, ver Figura 1. O histograma Quando o n umero de observa c oes distintas e elevado ou os dados s ao de natureza cont nua (recorde-se que s ao dados de natureza cont nua os que se referem a 6

Freq. absoluta

2 1 0 10 12 14 16 4 6 8

notas

Figure 1: Diagrama de barras das frequ encias absolutas. pesos, alturas, tempos, dura c oes, velocidades, temperaturas, etc, enquanto dados referentes a contagens, s ao de natureza discreta), dever-se- a fazer a condensa c ao dos dados, agrupando as observa c oes pr oximas por forma a evidenciar as caracter sticas subjacentes aos dados. Esta sumariza c ao inicia-se construindo uma tabela de frequ encias, cuja representa c ao gr aca e feita agora por meio de histogramas e pol gonos de frequ encias. Dada uma s erie de n observa c oes, vejamos os passos que e necess ario seguir para elaborar uma tabela de frequ encias nestas circunst ancias: Determinar o m aximo e o m nimo valor do conjunto das observa c oes, max(xi ) e min(xi ), respectivamente. A max(xi ) min(xi ) chama-se amplitude total. Escolher um n umero de subintervalos (regra geral, com a mesma amplitude), cuja reuni ao (sem sobreposi c ao) cubra a amplitude total. A estes intervalos e costume chamar classes e os seus extremos limites de classes. Iremos considerar as classes abertas ` a esquerda e fechadas ` a direita
(1)

, i.e., intervalos da forma ]

].

Para cada classe calcula-se a frequ encia absoluta, ni que designa o n umero de observa c oes que pertencem a essa classe, e a frequ encia relativa, que designaremos por fi : frequ encia relativa= frequ encia absoluta da classe . n umero total de observa c oes

1 Alguns autores consideram intervalos da forma [ [ e outros intervalos [ ], neste caso com escolha conveniente dos limites das classes por forma a n ao haver sobreposi co es, regra geral adiciona-se 1/2 aos valores observados.

A escolha do n umero e posi c ao das classes e um problema de experi encia, sendo, regra geral de 5 a 15 o n umero de classes que se deve considerar. Na pr atica, existem regras emp ricas para fazer esta escolha, sendo a mais usada a regra de Sturges: toma-se como n umero de classes o inteiro m mais pr oximo de 1 + (log2 n) (alguns autores aconselham o maior inteiro inferior ou igual ` aquela quantidade). A amplitude h de cada classe, obt em-se agora fazendo o quociente (max(xi ) min(xi ))/m. Para a constru c ao das classes pode iniciar-se o processo considerando a classe ]x h/2, x + h/2]
(2)

. A partir desta, formar-se- ao as classes subtraindo h e somando

h ao extremo inferior e superior, respectivamente, para ir determinando as classes inferiores e superiores ` aquela classe. Para que todo o suporte da amostra que coberto s ao necess arias m + 1 classes. Esta t ecnica apresenta bons resultados no caso de distribui c oes sim etricas ou aproximadamente sim etricas. Caso tal n ao se verique, dever-se- a considerar outro modo de elaborar as tabelas. Um outro procedimento consiste em come car a constru c ao das classes pelo m nimo (ou pelo m aximo). A primeira classe dever a ser ent ao escolhida por forma a conter min(xi ) (ou max(xi )) e a u ltima a formar-se dever a conter o max(xi ) (ou min(xi )). Constru da a tabela de frequ encias, os dados podem ser agora representados num histograma. Constru c ao do histograma de frequ encias relativas Num eixo horizontal marcam-se as classes denidas e, sobre elas, desenham-se rect angulos verticais tendo como base h e altura dada pelo quociente entre a frequ encia relativa e a amplitude da classe. A area de cada rect angulo e igual ` a frequ encia relativa, representando ent ao a propor c ao das observa c oes que ocorrem na classe correspondente. Como e imediato vericar, a area total do histograma vem ent ao igual a 1. Unindo por segmentos de recta os pontos m edios dos topos dos rect angulos de
2 x, m edia do conjunto das observa co es, e uma caracter stica num erica de um conjunto de dados cujas propriedades s ao estudadas nas p aginas 10 e 11; e assim denida x = xi /n.

um histograma obtemos o pol gono de frequ encias relativas. Exemplo 2. Os dados seguintes referem-se ao peso (em kg) de 57 animais de idade e hist oria gen etica semelhantes, no nal de uma experi encia de nutri c ao animal, durante a qual lhes foi administrada uma mesma dieta em condi c oes controladas.
68 45 46 27 63 12 30 28 42 57 43 27 27 51 49 49 30 12 12 22 36 32 28 31 51 22 36 31 38 79 42 28 25 21 38 23 44 16 19 65 24 28 43 69 50 25 47 23 74 23 24 49 32 25 43 42 27

Tem-se ent ao

min(xi ) = 12

max(xi ) = 79

x = 36.72

Dado que o valor obtido pela regra de Sturges e 6.83, iremos considerar m = 6, o que daria como um valor a usar para a amplitude das classes h = 11. Construamos ent ao a seguinte tabela de frequ encias (onde Fi designa a frequ encia relativa acumulada):

Classes ]10 21] ]21 32] ]32 43] ]43 54] ]54 65] ]65 76] ]76 87] Total

ni fi 6 .105 24 .421 10 .175 10 .175 3 .053 3 .053 1 .018 57 1.000

Fi .105 .526 .702 .877 .930 .982 1

Na Figura 2. representa-se o histograma de frequ encias absolutas. Caracter sticas num ericas de um conjunto de dados. Os m etodos gr acos referidos permitem-nos visualizar o modelo subjacente a um conjunto de dados. Para podermos ter uma descri c ao mais objectiva, necessitamos de medidas quantitativas referentes a localiza c ao dos dados; grau de varia c ao ou dispers ao dos dados; 9

20

15

10

0 10 21 32 43 54 65 76 87

Figure 2: Histograma de frequ encias absolutas. forma de distribui c ao dos dados. Indicadores de localiza c ao. Consideremos um conjunto de n observa c oes, x1 , x2 , ...xn . Chama-se medida de localiza c ao a toda a grandeza num erica cujo valor referencie a posi c ao de um conjunto de dados. As medidas de localiza c ao mais usadas s ao a m edia, a mediana e ainda os quartis e a moda. A m edia aritm etica, m edia emp rica ou simplesmente m edia e o ponto de equil brio de um conjunto de dados. Representa-se por x e dene-se como 1 n xi . x= n i=1 Chama-se desvio de uma observa c ao relativamente ` a m edia a xi x. Exerc cio 1. Vericar que a soma dos desvios relativamente ` a m edia e nula,
n

(1.1)

i.e.,
i=1

(xi x) = 0.

10

Propriedades da m edia ca de 1. Dadas as observa c oes x1 , x2 , ..., xn com m edia x, consideremos uma mudan origem nos dados, i.e., yi = xi + a, i = 1, ..., n. Os novos dados t em como m edia y = x + a. Dem: De facto y =
n i=1

yi

n i=1 (xi

+ a)

n i=1 (xi )

+ na

= x + a.

2. Efectuando uma mudan ca de escala nos dados , i.e., yi = b xi (b = 0) i = 1, ..., n, c ao imediata. temos y = b x , de dedu Nota: as duas propriedades anteriores podem ser resumidas numa u nica. 3. Dadas as observa c oes x1 , x2 , ..., xn com m edia x, se yi = a + bxi , i = 1, ..., n. tem-se y = a + b x. erie de m 4. Seja x1 , ..., xn uma s erie de n observa c oes de m edia x e y1 , ..., ym outra s observa c oes de m edia y . A m edia do conjunto das n + m observa c oes e dada por n x+m y . n+m Dem: Designando por zi as n + m observa c oes, tem-se ent ao z=
m+n i=1 zi

n+m

n i=1

xi + m n x+m y i=1 yi = . n+m n+m

Outros tipos de m edias como, por exemplo, a m edia geom etrica e a m edia harm onica n ao ser ao consideradas aqui, podendo encontrar-se refer encias sobre eles na bibliograa indicada. A m edia aritm etica, apesar se f acil e r apida de calcular, apresenta a desvantagem de ser muito sens vel a valores muito pequenos ou muito grandes no conjunto dos dados. Os valores existentes numa amostra que se distinguem muito dos restantes por serem demasiado grandes ou demasiado pequenos, s ao valores que se apresentam como candidatos a outliers. Mais adiante daremos uma regra emp rica que permitir a classicar um valor como outlier. Uma medida robusta relativamente ao valor das observa c oes extremas, no sentido de n ao ser afectada por esse valor, e a mediana. 11

A mediana de um conjunto de n observa c oes e o valor do meio, depois de dispostos os dados por ordem crescente de grandeza. Trata-se portanto de uma medida de posi c ao; e costume representar-se por x ou ainda me. Na escolha do valor do meio h a que ter em conta o seguinte: se n e mpar h a um u nico valor no meio; se n e par existem dois valores no meio, sendo a mediana dada pela m edia aritm etica desses dois valores. Tendo n observa c oes x1 , ..., xn designe-se por x(1) , ..., x(n) , as observa c oes depois de ordenadas, i.e., x(1) ... x(n) . A mediana e ent ao denida como

x( n+1 )
2

n mpar n par (1.2)

x = x(n/2) + x(n/2+1) 2

A interpreta c ao geom etrica da mediana para dados agrupados em classes e muito simples: e o valor do eixo das abcissas tal que a ordenada levantada nesse ponto divide a area do histograma em duas areas iguais. Se a mediana e o valor que divide um conjunto ordenado de dados em duas partes iguais, podemos generalizar este conceito, considerando a amostra ordenada dividida em quatro partes iguais. Aos pontos da divis ao chamamos quartis e representaremos por Q1 , Q2 , Q3 , o primeiro, segundo e terceiro quartis, respectivamente. Sendo assim, por exemplo, o primeiro quartil, Q1 , ser a o ponto tal que pelo menos 25% das observa c oes s ao menores ou iguais a ele e pelo menos 75% das observa c oes s ao maiores ou iguais. Repare-se que Q2 coincide com a mediana. De forma semelhante se podem denir os decis, valores que dividem as observa c oes em 10 partes iguais e os centis ou percentis, como sendo os pontos resultantes da divis ao da amostra ordenada em 100 partes iguais. A todas estas medidas, quartis, decis e percentis d a-se a designa c ao gen erica de quantis. Dado um n umero 0 1, chama-se quantil de ordem ao valor do conjunto das observa c oes depois de ordenadas, tal que, pelo menos 100% delas s ao 12

inferiores ou iguais a esse valor e pelo menos (1 ) 100% das observa c oes s ao maiores ou iguais a esse valor. Consideraremos a seguinte f ormula de c alculo do quantil de ordem , Q :

x(n x([n

+ x(n 2

+1)

n inteiro n n ao inteiro

(1.3)

]+1)

onde [n ] designa o maior inteiro contido em n . Tem-se, por exemplo, [3.25] = 3 e [8.95] = 8. O primeiro e terceiro quartis permitem denir uma regra emp rica para identicar um valor estranho como outlier. Assim, chama-se barreira inferior que designaremos por BI , a

Q1 1.5(Q3 Q1 ) e barreira superior que designaremos por BS , a

Q3 + 1.5(Q3 Q1 ) Um valor observado xi diz-se que e um outlier se xi < BI ou xi > BS

As caracter sticas num ericas calculadas ap os a ordena c ao dos valores da amostra chamam-se par ametros de ordem. Uma outra medida de localiza c ao, embora menos usual e a moda, mo, denida, no caso discreto, como o valor que ocorre com mais frequ encia, ou como o intervalo de classe com maior frequ encia se os dados s ao de natureza cont nua. Um conjunto de observa c oes pode n ao ter moda ou apresentar mais do que uma moda. Uma distribui c ao com uma u nica moda diz-se unimodal. Esta medida e particularmente u til quando temos dados de natureza qualitativa, para os quais n ao e poss vel calcular a m edia ou mesmo a mediana (por n ao ser poss vel estabelecer uma ordena c ao entre eles, para a determina c ao deste indicador). 13

Indicadores de dispers ao Uma m edia ou qualquer outra medida de localiza c ao, n ao s ao sucientes para dar uma ideia clara da distribui c ao das observa c oes. De facto, podemos considerar dois conjuntos de dados diferentes mas tendo, por exemplo, a mesma m edia e mediana. Vejamos: 1, 2, 5, 8 2, 3, 4, 11 x=4 x=4 x = 3.5 x = 3.5 .

O primeiro conjunto apresenta maior concentra c ao dos dados do que o segundo. portanto necess E aria uma medida que nos d e alguma informa c ao sobre a dispers ao das observa c oes. Vejamos ent ao quais os indicadores de dispers ao mais usados: Amplitude Total e a amplitude do intervalo de varia c ao dos dados, assim denida Atot = max(xi ) min(xi ). (1.4)

uma medida que se baseia apenas na maior e na menor observa E c ao, ignorando a informa c ao presente nas observa c oes interm edias, sendo por isso muito sens vel aos extremos. Uma outra medida an aloga, mas mais informativa e menos afectada pelos valores extremos ea Amplitude inter-quartil denida como Q = Q3 Q1 . (1.5)

x ) cont Nas distribui c oes sim etricas o intervalo ( x Q, +Q em 50% das ob = (Q3 Q1 )/2 se designa por amplitude semi-quartil. serva c oes, onde Q Mas tamb em Q ignora a informa c ao contida na zona central e nas zonas extremas das observa c oes. 14

Interessa ent ao considerar medidas que tenham em conta a posi c ao de todos os valores observados, relativamente a um ponto de refer encia. Sendo a m edia a medida de localiza c ao mais usada, regra geral toma-se esta para referenciar a dispers ao. Usar como indicador desvio m edio, denido como 1 n |xi x|. n i=1 (xi x) e evidente que n ao serve, pois como vimos atr as este valor e sempre nulo. Uma medida de dispers ao que pareceria ent ao l ogica era o

d=

(1.6)

claro que, quanto menos dispersos estiverem os valores observados relativaE mente ` a m edia, menor ser a o desvio m edio. Apesar de simples de calcular, o desvio m edio n ao e muito usado, porque a exist encia de m odulos torna o seu tratamento matem atico pouco acess vel. Uma medida denida com um crit erio an alogo mas baseada na soma dos quadrados dos desvios ea
2 Vari ancia, que habitualmente se representa por s2 x ou mais simplesmente s

e se dene como s2 =
n 1 (xi x)2 . n 1 i=1

(1.7)

Observa c ao: O uso de (n 1) em vez de n como parecia l ogico, ser a justicado mais tarde na Infer encia Estat stica, sendo no entanto indiferente o uso de um ou outro quando se trate de amostras de grande dimens ao. Uma outra f ormula de c alculo da vari ancia pode ser obtida fazendo o desenvolvimento do quadrado da diferen ca, resultando ent ao s2 = n
n i=1 n 2 x2 i ( i=1 xi ) . n(n 1)

(1.8)

(f ormula esta que tem interesse pr atico principalmente quando os valores xi n ao s ao muito grandes, mas o uso da qual requer cuidados especiais para a hip otese de ocorrerem no numerador dois n umeros muito pr oximos, o que poder a conduzir ` a perda de d gitos.) A raiz quadrada da vari ancia fornece-nos uma medida de concep c ao an aloga ` a do desvio m edio, que se representa por s e se designa por desvio padr ao. 15

Propriedades da vari ancia 1. A vari ancia e n ao negativa, i.e., s2 0, o que e imediato a partir da deni c ao. 2. Sejam x1 , ..., xn , n observa c oes com vari ancia s2 x e yi = a + bxi , Tem-se ent ao como vari ancia das novas observa c oes, i = 1, ..., n.

2 2 s2 y = b sx .

Dem: s2 y =
n i=1 (yi

y )2 = n1

n i=1 (a

+ bxi a bx)2 = n1

n 2 i=1 b (xi

x )2 = b2 s2 x. n1

Esta propriedade mostra-nos que a vari ancia n ao e afectada por uma mudan ca de origem, mas e afectada por uma mudan ca de escala. Para o desvio padr ao tem-se sy = |b|sx .

Exerc cio 2. Provar que o desvio padr ao e o menor dos desvios quadr aticos m edios, o que e equivalente a provar que
n n 2

(xi x)
i=1 i=1

(xi a)2

a I R.

As medidas de dispers ao acabadas de estudar dizem-se absolutas porque dependem das unidades adoptadas, i.e., qualquer altera c ao da unidade provoca uma de todo o interesse a exist modica c ao no valor do indicador calculado. E encia de medidas independentes das unidades, permitindo assim o estudo comparativo de dois ou mais conjuntos de dados. S ao as medidas de dispers ao relativas. Uma medida de dispers ao relativa , usada apenas quando a vari avel toma valores de um sinal, i.e., todos positivos ou todos negativos, e o coeciente de varia c ao denido como s 100%. x 16

C.V. =

(1.9)

Esta medida e independente das unidades consideradas, permitindo por isso comparar distribui c oes cujas unidades podem ser diferentes ou que diram consideravelmente em grandeza. No entanto s o pode ser usado quando a vari avel toma valores s o positivos ou s o negativos. Outro processo para comparar conjuntos de dados consiste em trabalhar com as vari aveis estandardizadas ou reduzidas, i.e., s ao as vari aveis da forma zi = xi x . sx

Como facilmente se verica (recorrendo a propriedades da m edia e da vari ancia, o que deixamos como exerc cio), as vari aveis reduzidas t em m edia nula e vari ancia unit aria. Os valores zi s ao obviamente quantidades independentes das unidades usadas e, portanto, as distribui c oes referentes a essas vari aveis directamente compar aveis. Um modo muito f acil de interpretar a localiza c ao, dispers ao e afastamento da simetria de um conjunto de dados efectuando em simult aneo a sua s ntese pode ser feito sob uma forma gr aca muito sugestiva o diagrama de extremos e quartis. Este procedimento consiste em marcar num eixo os extremos (m aximo e m nimo),
o aco como o da Figura 3, a mediana, o 1 o e 3 quartis. Desenha-se depois um gr correspondente aos dados do exemplo 2.

Figure 3: Diagrama de extremos e quartis. Este procedimento tem ainda a vantagem de permitir a compara c ao r apida entre conjuntos de dados, como se pode ver no seguinte exemplo. 17

Exemplo 3.(Murteira e Black, 1983) Baseados em dados das Estat sticas Agr colas (INE, 1979), t em-se os seguintes valores dos extremos e quartis, das taxas de arboriza c ao nos concelhos dos distritos de Aveiro, Beja, Bragan ca e Faro. min max me Q1 Q3 Aveiro (n=19) 15.9 60.6 47.8 29.1 56.3 Beja (n=14) Bragan ca (n=12) 7.7 3.5 60.3 28.9 30.3 7.5 23.1 6.3 31.2 12.95 Faro (n=16) 0.7 44.0 10.1 1.75 14.55

O diagrama de extremos e quartis correspondente ` aqueles valores e:

Figure 4: Diagrama de extremos e quartis para as taxas de arboriza c ao nos concelhos dos distritos de Aveiro, Beja, Bragan ca e Faro. Uma an alise r apida do diagrama da Figura 4 permite-nos a visualiza c ao da intensidade da arboriza c ao nos quatro distritos. Vejamos algumas observa c oes: a amplitude total e maior em Beja e menor em Bragan ca; o valor central mais elevado e em Aveiro; as observa c oes centrais (50%) est ao muito mais concentradas em Beja e Bragan ca, sendo grande a concentra c ao acima da mediana em Beja e abaixo da mediana em Bragan ca, etc. Quando num conjunto de dados se detectar a presen ca de outliers, o diagrama de extremos e quartis dever a ser modicado de modo a incluir esta informa c ao. Assim, devem marcar-se as barreiras inferior e superior e indicar no esquema gr aco os chamados 18

valor adjacente inferior que e o menor valor do conjunto dos dados (podendo ser o m nimo) maior ou igual ` a barreira inferior; e valor adjacente superior que e o maior valor do conjunto dos dados (podendo ser o m aximo) menor ou igual ` a barreira superior. Neste caso a representa c ao do diagrama ser a diferente da que foi atr as referida e design a-la-emos genericamente por caixa de bigodes. Considerando novamente os dados do exemplo 2, o valor 79 e superior ` a barreira superior (para o exemplo referido a barreira superior e 77.5). Sendo assim, a representa c ao para a caixa de bigodes pode ver-se na Figura 5.

10

20

30

40

50

60

70

80

Figure 5: Caixa de bigodes com outliers. Observa c oes nais O agrupamento dos dados permite ter uma perspectiva melhor das caracter sticas amostrais subjacentes ` a amostra, desde que h n ao tenha sido mal escolhido. O uso de m etodos gr acos permite uma an alise r apida e global das caracter sticas dos dados, embora n ao permita fazer arma c oes objectivas sobre eles. O ideal e combinar m etodos gr acos e m etodos anal ticos.

Bibliograa Murteira, B. (1993), An alise Explorat oria de Dados. Estat stica Descritiva, McGrawHill. 19

Murteira, B. e Black, G. (1983), Estat stica Descritiva, McGraw-Hill. Pestana, D.D. e Velosa, S.F. (2002), Introdu c ao ` a Probabilidade e ` a Estat stica . Funda c ao Calouste Gulbenkian.

20

Anda mungkin juga menyukai