Anda di halaman 1dari 20

Apuntes de Estadstica Descriptiva. Prof.

Neftali Faundez

Estadstica Descriptiva Univariada


El trmino estadstica tiene tres acepciones gramaticales perfectamente definidas: a) Estadstica, en su acepcin ms comn, no es ms que una coleccin de datos numricos ordenados y clasificados segn un determinado criterio. Nos referimos a este significado cuando hablamos de estadsticas de cotizaciones burstiles, estadstica demogrficas, etc. Viene a ser sinnimo del trmino serie estadstica, utilizadas como informacin. b) Estadstica, en una segunda acepcin, es la ciencia que, utilizando como instrumento a las matemticas y el clculo de probabilidades, estudia las leyes de comportamiento de aquellos fenmenos que, no estando sometidos a leyes fsicas, dependen del azar. En una segunda fase generaliza dichas leyes y basndose en ellas predice e infiere resultados. El trmino Estadstica Matemtica viene a ser el nombre propio de esta acepcin. c) Estadstica, finalmente, significa en su ltima acepcin la tcnica o el mtodo que se sigue para recoger, organizar, resumir, presentar, analizar, generalizar y contrastar los resultados de las observaciones de los fenmenos reales. En todo caso, la estadstica tiene por objeto el estudio de los colectivos y de las relaciones que existen entre ellos, entendiendo por colectivo, poblacin o universo un conjunto grande de elementos personas o cosas. As, pues, la estadstica necesita de una masa de elementos para poder ser aplicada, puesto que trata de hallar leyes de comportamiento del conjunto en general y no de cada uno de los elementos en particular. La poblacin puede ser, segn su tamao, finita o infinita. Es poblacin finita aquella que tiene un nmero determinado, por grande que sea, de elementos, mientras que una poblacin infinita es aquella que tiene un nmero infinitos de elementos. Esta distincin tan slo existe en teora, pues, en la prctica, no nos encontraremos nunca con poblaciones de infinitos elementos, sino, en todo caso con poblaciones de un nmero grande de elementos. Cuando la poblacin es muy grande, se har difcil la observacin de los caracteres a estudiar en cada uno de los elementos, debido al enorme costo que acarreara la observacin de toda la poblacin y debido tambin a la enorme capacidad de trabajo y al tiempo necesario para llevar a cabo dicha observacin exhaustiva. Estos inconvenientes pueden ser superados mediante la eleccin de una muestra lo suficientemente representativa de la poblacin, entendiendo por muestra una parte del conjunto total de elementos que componen la poblacin. Dado un conjunto de observaciones de una variable X (poblacin), la Estadstica Descriptiva estudia procedimientos para sintetizar la informacin que contienen. Los tipos de variables a estudiar son: a) Variable cualitativa, es aquella que no toma valores numricos y describen cualidades, las observaciones no se pueden ordenar, solo se pueden clasificar y/o enumerar. b) Variable cuantitativa discreta, es aquella que toma generalmente valores enteros, pues provienen de conteos. c) Variable cuantitativa continua, es aquella que toma valores dentro de un intervalo de la recta real. En resumen se tiene:

Continua Cuantitativa Discreta Variable Cualitativa

Ejemplos:

Apuntes de Estadstica Descriptiva. Prof.Neftali Faundez 1. El nmero de accidentes que ocurren diariamente en una industria. 2. Litros de bencina para un automvil. 3. Temperatura registrada cada media hora en una estacin meteorolgica.

Las variables suelen denotarse por letras maysculas tales como: X, Y , Z,..etc., mientras que los valores observados de estas por letras minsculas, tales como: x, y, z,...etc.

Distribucin de frecuencia
La toma de datos es la obtencin de una coleccin de los mismos que no han sido ordenados numricamente. Una ordenacin es la colocacin de los datos numricos tomados, en orden creciente o decreciente de magnitud. La diferencia entre el mayor y el menor de los nmeros se llama recorrido o rango de los datos, es decir:

R = X(mxima) - X(mnima)
Una distribucin de frecuencias o tabla de frecuencias es el agrupamiento u ordenacin de los datos en clases o categoras con las frecuencias correspondientes a cada una; donde la frecuencia de cada clase es el nmero de observaciones que sta contiene. Los datos ordenados y resumidos en una tabla de frecuencias, se llaman datos agrupados.

Ejemplo 1. Los resultados obtenidos al observar el estado de 80 artculos producidos una determinada mquina, dio origen a la siguiente distribucin de frecuencias: Clases Piezas Aceptables Piezas Rechazadas Piezas Dudosas Total Frecuencias (fi) 60 15 5 80

Es claro que en este caso la variable observada es : X = estado de la pieza, la que es una variable cualitativa. Por otra parte, fi se conoce con el nombre de frecuencia absoluta. Ejemplo 2. Para estimar la cantidad de madera disponible en una regin boscosa, un propietario decide contar el nmero de rboles con dimetro mayor que 30 centmetros en reas cuadradas de 15 x 15 metros seleccionados al azar; para ello, se seleccionaron al azar 25 cuadrados de 15 x 15 en la regin, observndose el nmero de rboles (con dimetros mayores que 30 cm.) en cada uno de ellos. Los datos son los siguientes: 7 9 3 10 7 10 9 9 4 8 8 9 8 5 7 6 8 7 10 8 8 6 9 2 6

En este caso, la distribucin de frecuencias es :

Clases Xi 2 3

fi 1 1

Fi 1 2

fri 0.04 0.04

Fri 0.04 0.08

Apuntes de Estadstica Descriptiva. Prof.Neftali Faundez 4 1 3 5 1 4 6 3 7 7 4 11 8 6 17 9 5 22 10 3 25 Total 25

3 0.04 0.04 0.12 0.16 0.24 0.20 0.12 1.00 0.12 0.16 0.28 0.44 0.68 0.88 1.00

Nota: Fi , se llama frecuencia acumulada a la i-sima clase; fri =

i-sima clase y se suele representar en porcentaje. As, por ejemplo la frecuencia relativa de la quinta clase es 0.12 lo que indica que el 12% de los 25 cuadrados seleccionados tienen 6 rboles con un dimetro mayor de 30 cm; Fri , se llama frecuencia relativa acumulada a la i-sima clase. Por otra parte, cuando el nmero de valores posibles de una variable discreta o continua sea grande, conviene agrupar los datos en Intervalos de Clases. Para ilustrar como se realiza este tipo de agrupamiento consideramos el siguiente ejemplo: Ejemplo. Los siguientes datos son los lapsos, en minutos, necesarios para que 50 clientes de un Banco Comercial lleven a cabo una transaccin bancaria: 2.3 2.4 3.3 1.8 7.8 3.1 0.2 4.4 9.7 4.7 0.8 3.7 2.9 5.8 2.5 0.7 0.9 7.2 0.4 2.8 5.6 6.2 0.4 1.6 2.8 3.3 9.5 1.2 1.3 1.9 2.4 0.4 4.2 6.3 2.7 4.6 1.3 1.2 7.6 3.4 3.8 1.1 0.5 1.4 5.5 1.5 5.5 6.8 0.5 1.4

fi n

, se llama la frecuencia relativa de la

1. Se debe determinar el rango de la variable, que est dado por: R = X(n) - X(1) = 9.7 - 0.2 = 9.5 2. Se determina el nmero de clases a ser utilizados. Una forma de determinarlo, es usando la Regla de Sturge, es decir, K = 1 + 3.3 log(n). En este caso se tiene que K = 6.6, es decir, podramos elegir 6 7 clases. Tomemos k = 6 clases. Nota. Lo descrito en el punto 2, es un criterio para la determinacin del nmero de clases, sin embargo, podra tambin ser considerado k=7. 3. Una vez determinado el nmero de clases, se debe determinar la amplitud que debe tener cada intervalo o clase.

R A = K = 1583 . 16 .

4. Se seleccionan ahora los lmites de clases que definen los intervalos, de manera que los intervalos tengan la misma amplitud. Intervalos de clases 0.2 - 1.7 1.8 - 3.3 3.4 - 4.9 Fronteras 0.15 - 1.75 1.75 - 3.35 3.35 - 4.95 fi 18 13 7 mi 0.95 2.55 4.15

Apuntes de Estadstica Descriptiva. Prof.Neftali Faundez 5.0 - 6.5 4.95 - 6.55 6 6.6 - 8.1 6.65 - 8.15 4 8.2 - 9.7 8.15 - 9.75 2 Total 50

4 5.75 7.35 8.95

Obs. : mi se conoce con el nombre de marca de clase y se obtiene sumando las fronteras y dividiendo por 2. Los intervalos de clase se conocen con el nombre de lmites aparentes y las fronteras con el nombre de lmites reales.

Construccin de Grficos
" Con frecuencia se dice que una imagen equivale a mil palabras. Ciertamente, los especialistas en estadstica han utilizado tcnicas grficas para describir en forma ms vvida conjuntos de datos. De hecho los histogramas y los polgonos se utilizan para describir datos cuantitativos que se han agrupado en distribuciones de frecuencia, de frecuencia relativa o porcentajes ". Cuando se trata de variables cualitativas generalmente se usa el grfico de barras y el grfico circular (averiguar como se construye); cuando se trabaja con variables cuantitativas discretas se utiliza el grfico de lneas (averiguar como se construye), y, cuano se est con variables cuantitativas continuas se trabaja con el histograma, el polgono de frecuencia y la ojiva, los que se describen a continuacin: HISTOGRAMA El histograma nos permite representar datos de mediciones que corresponden a variables aleatorias. Los datos se dividen en intervalos de clases y la longitud de cada intervalo se considera como el ancho de un rectngulo cuya altura es proporcional a la frecuencia del intervalo. Para qu sirve? Permite determinar si los datos tienen una distribucin simtrica o asimtrica, y, en algunos, si son unimodales, bimodales o multimodales. Los extremos del intervalo se conocen con el nombre de colas que pueden ser cortas, medianas o largas. Construccin Consideremos el ejemplo desarrollado en clases: Una vez agrupados los datos en una tabla de frecuencia, se ubica sobre el eje horizontal los valores correspondientes a los lmites reales de cada clase, a continuacin, sobre el eje vertical se ubican las frecuencias como se muestra en la siguiente figura.

18 13 7 6 4

Apuntes de Estadstica Descriptiva. Prof.Neftali Faundez 2 0.15 1.75 3.35 4.95 6.55 8.15 9.75

Notas 1. Una alternativa para obtener histogramas es ubicar sobre el eje vertical en lugar de la frecuencia absoluta, a la frecuencia relativa el que recibe el nombre de histograma de frecuencia relativa, o bien las frecuencias acumuladas el cual recibe el nombre de histograma de frecuencia acumulada; al mismo tiempo es posible obtener histogramas de frecuencias relativas porcentuales e histogramas de frecuencias acumuladas porcentuales. 2. Otra alternativa es utilizar las marcas de clase sobre el eje horizontal en lugar de los lmites reales o fronteras. Ejercicio: Considerando el ejemplo visto en clases graficar: 1.- El histograma de frecuencia relativa. 2.- El histograma de frecuencia acumulada considerando en el eje horizontal a las marcas de clase. POLIGONO DE FRECUENCIA El polgono de frecuencia est formado por los segmentos que unen las frecuencias asociadas a las marcas de clase de los rectngulos del histograma. Para el ejemplo anterior , el polgono de frecuencia correspondiente es :

18 13 7 6 4 2 -0.65 0.15 1.75 3.35 4.95 6.55 8.15 9.75 10.55

donde * es la frecuencia asociada a la respectiva marca de clase. Puesto que el rea encerrada bajo la curva debe representar el 100 % de la informacin, es necesario conectar los puntos medios primero y ltimo con el eje horizontal, para abarcar el rea total de la distribucin observada.

Esto se logra conectando el primer punto medio observado con el punto medio de una clase llamada "primera clase ficticia" que tiene 0 observaciones y conectando el ltimo punto medio observado con el punto medio de una clase llamada "segunda clase ficticia" que tiene 0 observaciones. Estas marcas de clase siempre deben ser mostradas en el polgono de frecuencias. Para qu sirve ? Los polgonos de frecuencias proporcionan una til ayuda visual para comparar dos o ms conjuntos de datos (comparables entre s). OJIVA

6 Apuntes de Estadstica Descriptiva. Prof.Neftali Faundez Para construir una ojiva, se grafican sobre el eje horizontal nica y exclusivamente los lmites reales de las clases o fronteras y sobre el eje vertical las frecuencias acumuladas (o bien las frecuencias relativas porcentuales acumuladas cuyo nombre es ojiva porcentual).

50 48 44 38 31

* * * * * *
0.15 1.75 3.35 4.95 6.55 8.15 9.75 Lmites Reales

18

En este caso podemos interpretar la ojiva de la siguiente forma: Cuotas anuales Nmero de personas Menor que 0.15 0 Menor que 1.75 18 Menor que 3.35 31 Menor que 4.95 38 Menor que 6.55 44 Menor que 8.15 48 Menor que 9.75 50 El nmero de personas que demoran a lo ms 4.95 minutos en sus transacciones comerciales es de 18.

Apuntes de Estadstica Descriptiva. Prof.Neftali Faundez

Estadgrafos de Tendencia Central y Variabilidad


Hasta aqu nos hemos preocupado de la distribucin de un conjunto de datos, ya sea grficamente o por medio de una distribucin de frecuencias. Existen dos medidas de inters para cualquier conjunto de datos: La localizacin de su centro y su variabilidad. La tendencia central de un conjunto de datos es la disposicin de estos valores para agruparse ya sea al rededor del centro o de ciertos valores numricos. La variabilidad de un conjunto por otro lado, es la dispersin de las observaciones en el conjunto de datos.

Medidas de Tendencia Central


Existen principalmente tres medidas de tendencia central: La Media, La Moda y La Mediana. a) La Media Aritmtica de un conjunto de n-observaciones se obtiene sumando todos los valores del conjunto y dividiendo por n. Esta cantidad se suele llamar simplemente la media y se designa por x . Esto es:
1 x = i =n

xi

Si los datos estn agrupados en una distribucin de frecuencias se tiene que el promedio o media se calcula de la siguiente manera:

x=

i =1

f i mi n

donde fi corresponde a la frecuencia absoluta de la i-sima clase y mi su respectiva marca de clase. b) La Mediana de un conjunto de datos, es el valor para el cual todas las observaciones se ordenan de manera creciente, la mitad de stas es menor que este valor y la otra mitad es mayor. Si el nmero de observaciones en el conjunto es impar, la mediana es el valor de la observacin que se encuentra en la mitad del conjunto ordenado. Si el nmero es par se considera la mediana como el promedio aritmtico de los valores de las dos observaciones centrales previa ordenacin de los datos. Puesto que la Mediana es un valor que se basa en la secuencia ordenada de las observaciones en un conjunto de datos, es necesario saber que la existencia de algunos valores extremos no afectar su valor. Por lo tanto, si un conjunto de datos contiene unos cuantos valores extremos y un nmero muy alto de observaciones, la mediana puede ser una medida de tendencia central mucho ms adecuada que la media. Generalmente los conjuntos de datos que describen informacin acerca de ingresos caen en esta categora. Para datos agrupados, la mediana es aquel valor que divide en dos partes iguales la distribucin de frecuencia relativa y se calcula de la siguiente forma:
n 2 Fk 1 Med = LRI k + * A fk

donde: LRIk : Lmite real inferior de la clase mediana ( la clase que contiene a la mediana). n : Nmero total de observaciones.

Apuntes de Estadstica Descriptiva. Prof.Neftali Faundez fk : Frecuencia absoluta de la clase que contiene a la mediana. Fk-1 : Frecuencia acumulada a la clase anterior a la clase que contiene a la mediana. A : Amplitud de la clase que contiene a la mediana.

c) La moda de un conjunto de observaciones es el valor de la observacin que ocurre con mayor frecuencia en el conjunto. La moda muestra hacia que valor tienden los datos a agruparse. En conjuntos relativamente pequeos, puede ocurrir que no exista un par de observaciones cuyo valor sea el mismo. En esta situacin no es clara la definicin de moda. Tambin puede suceder que la frecuencia ms alta se encuentre compartida por dos o ms observaciones. En estos casos la moda tiene una utilidad limitada como medida de tendencia central. Para datos agrupados la moda se calcula de la siguiente forma:

a Mod = LRIk + a + b * A
donde: LRIk : Lmite real inferior de la clase modal (clase que contiene a la moda). a : Exceso de la frecuencia modal sobre la frecuencia de la clase contigua inferior. b : Exceso de la frecuencia modal sobre la frecuencia de la clase contigua superior. A : Amplitud de la clase que contiene a la moda.

Medidas de Dispersin
Dentro de las medidas de dispersin ms utilizadas estn: el rango (descrito anteriormente), la varianza, la desviacin estndar y el coeficiente de variacin, las que se describen a continuacin:

La Varianza
La varianza de las observaciones x1, x2, x3, ..., xn es, en esencia, el promedio del cuadrado de las distancias entre cada observacin y la media del conjunto de observaciones. La varianza se denota por s y est dada por: a) Para datos no agrupados.
n

s2 = i =1 n
b) Para datos agrupados.
k

(xi x)2

s2 = i = 1

fi (mi x)2 n

Sin embargo, existe una forma alternativa que da una medicin an ms precisa de la estimacin de la varianza poblacional tanto para los datos agrupados como para los no agrupados, llamada varianza de Cochran.

a) Para datos no agrupados.

s2 = i =1 n 1
b) Para datos agrupados.

(xi x)2

Apuntes de Estadstica Descriptiva. Prof.Neftali Faundez

s2 = i = 1 n 1

fi (mi x)2

La varianza es una medida razonablemente buena de la variabilidad debido a que si muchas de las diferencias son grandes (o pequeas) entonces el valor de la varianza s ser grande (o pequeo). El valor de la varianza puede sufrir un cambio muy desproporcionado, an ms que la media, por la existencia de algunos valores extremos del conjunto. La raz cuadrada de la varianza recibe el nombre de desviacin estndar y la denotamos por s. La varianza y la desviacin estndar no son medidas de variabilidad distintas, debido a que esta ltima no puede determinarse a menos que se conozca la primera. A menudo se prefiere la desviacin estndar en relacin a la varianza, porque se expresa en las mismas unidades fsicas que las observaciones (es decir, puede ser interpretada en trminos fsicos). Es importante destacar que existen otras medidas de variabilidad que estn basadas en el valor absoluto de las diferencias entre las observaciones x1, x2,..., xn y la media o la mediana, dependiendo de cual de las dos se emplee como medida de tendencia central, en estas otras medidas se encuentra el llamado coeficiente de variacin (CV) que se describe a continuacin.

Apuntes de Estadstica Descriptiva. Prof.Neftali Faundez

10

Coeficiente de Variacin
Es otra medida de variabilidad y permite comparar el grado de dispersin entre dos o ms distribuciones expresadas en distintas unidades de medida. El coeficiente de variacin se denota por CV y se obtiene de la siguiente forma:

CV =

s x

Nota. Esta definicin es vlida tanto para los datos agrupados como para los no agrupados. El CV es independiente de las unidades de medidas utilizadas y es expresado generalmente en porcentaje. Un inconveniente de este coeficiente, es que deja de ser til cuando la media (o promedio) tiende a cero. Observaciones 1. En general, es difcil dar una interpretacin precisa de los valores de la varianza y de la desviacin estndar, puesto que la variabilidad depende mucho de la unidad de medida. En todos los casos, cuando crece la dispersin de una poblacin, tambin crece el valor de s y s. Por otra parte, si s=s=0, significa que no existe variabilidad entre los datos, todos los valores de la variable son iguales entre s, es decir, x es una constante.

2. Una regla prctica que a menudo proporciona una buena aproximacin al grado de dispersin de un conjunto de observaciones, establece que: "Alrededor de un 68% de todos los valores caern dentro de una desviacin estndar a ambos lados de la media, aproximadamente un 95% de todos los valores caern dentro de dos desviaciones estndar a ambos lados de la media y un 99% caern dentro de tres desviaciones estndar a ambos lados de la media." Esta regla prctica se basa en la suposicin de que la poblacin tiene una distribucin simtrica o aproximadamente simtrica de forma acampanada conocida como la distribucin normal. 3. Si la mayor parte de los valores estn a la derecha (izquierda) de la moda, se dice que la distribucin est sesgada a la derecha (izquierda) o que tiene sesgo positivo (negativo), y en tal caso se tiene que:

Mod < Med < x , (sesgo positivo) Mod > Med > x , (sesgo negativo)
4.- Si el objetivo es recomendar una medida de centralizacin para describir adecuadamente a un conjunto de datos, el criterio es el siguiente:
Si x > s2 , entonces x es la mejor medida. Si x < s2 , entonces la mediana es la mejor medida.

Otras Medidas Descriptivas (de Posicin)


Cada una de las medidas descritas hasta aqu, consisten en un nmero que describe cierta caracterstica de una variable X. Sin embargo, en algunas circunstancias puede ser ms til utilizar ms de un nmero para exponer un conjunto de datos. Por ejemplo, Suponga que una persona est encargada de conseguir personal para una compaa y est de visita en cierta Universidad, esta persona est no slo interesada en el promedio o mediana de los alumnos de ltimo ao, sino que adems le interesa el promedio de los alumnos de ltimo ao que estn en el 10% o en el 20% superior de su clase, y as sucesivamente.

11 Apuntes de Estadstica Descriptiva. Prof.Neftali Faundez Para una clasificacin an mucho ms precisa es que se utilizan los llamados cuartiles, deciles y percentiles, que se describen a continuacin:

Cuartiles
Los cuartiles de un conjunto de datos ordenados son aquellos nmeros que dividen a ste, en cuatro partes porcentualmente iguales. El primer cuartil Q1, es el valor en el cual o por debajo del cual queda un 25% de todos los valores de los datos, el segundo cuartil Q 2, es precisamente la mediana, pues es el valor que deja a su izquierda el 50% de los datos y a su derecha el otro 50% y, el tercer cuartil Q 3, es el valor en el cual o por debajo del cual queda un 75% de los datos. Para los datos agrupados los cuartiles se obtienen de la siguiente forma:
n Fk 1 k 4 Qk = LRI k + * A, k = 1, 2, 3 fk

donde LRIk : Lmite real inferior (o frontera inferior) de la clase que contiene al k- simo cuartil. N : Nmero de datos. Fk-1 fk A : Frecuencia acumulada hasta la clase anterior a la clase que contiene al k-simo cuartil. : Frecuencia absoluta de la clase del k-simo cuartil. : Tamao o amplitud de la clase del k-simo cuartil.

Deciles
Los deciles son ciertos nmeros que dividen al conjunto de datos ordenados en diez partes porcentualmente iguales. Los deciles se denotan por D1, D2, ..., D9 y se leen primer decil, segundo decil, etc. Para los datos agrupados los deciles se obtienen de la siguiente forma:
n Fk 1 k 10 Dk = LRI k + * A, k = 1,...,9 fk

donde LRIk n Fk-1 fk A

: Lmite real inferior (o frontera inferior) de la clase que contiene al k- simo decil. : Nmero de datos. : Frecuencia acumulada hasta la clase anterior a la clase que contiene al k-simo decil. : Frecuencia absoluta de la clase del k-simo decil. : Tamao o amplitud de la clase del k-simo decil.

Percentiles
Los percentiles son, tal vez, las medidas ms utilizadas para proporcionar sitios de ubicacin o clasificacin de personas cuando se atienden caractersticas tales como: peso, estatura, etc. Los percentiles dividen al conjunto de datos en cien partes porcentualmente iguales. Para los datos agrupados los percentiles se obtienen de la siguiente forma:

Apuntes de Estadstica Descriptiva. Prof.Neftali Faundez


n Fk 1 k 100 Pk = LRI k + * A, k = 1,..,99 fk

12

donde LRIk n Fk-1 fk A : Lmite real inferior (o frontera inferior) de la clase que contiene al k- simo percentil. : Nmero de datos. : Frecuencia acumulada hasta la clase anterior a la clase que contiene al k-simo percentil. : Frecuencia absoluta de la clase del k-simo percentil. : Tamao o amplitud de la clase del k-simo percentil.

Medidas de Asimetra
A continuacin se presentan algunas medidas de asimetra o de deformacin. La deformacin consiste, en analizar la simetra (o asimetra) de las distribuciones respecto de la Distribucin Normal. 1.- Una distribucin unimodal es simtrica si y slo si: f1 = fk, f2 = fk-1, f3 = fk-2, ..., etc. 2.- En el caso de una distribucin simtrica y unimodal se cumple la siguiente relacin: Media = Mediana = Moda 3.- Una distribucin se dice asimtrica, si no es simtrica. Algunos estadsticos de Asimetra o coeficientes de asimetra ms usados son: 1.- Primer coeficiente de asimetra, AS1 y se obtiene de la siguiente manera:

AS1 =

x Mod s

2.- Segundo coeficiente de asimetra, AS2 y se obtiene de la siguiente manera:

AS2 =
3.- Coeficiente cuartil de deformacin, As.

3(x Med ) s

As =

Q3 2Q2 + Q1 Q3 Q1

Los dos primeros coeficientes fueron propuestos por Karl Pearson y el tercero por A. Boeley. Segn el valor que se obtenga para estos coeficientes, podemos obtener: 1.- No existencia de Asimetra si Media = Mediana = Moda (los coeficientes sumen el valor cero). 2.- Existencia de asimetra positiva (los coeficientes son mayores que cero), lo que indica que la distribucin de la variable tiende hacia los valores ms grandes que ella puede asumir. 3.- Existencia de asimetra negativa (los coeficientes son menores que cero), lo que indica que la distribucin de la variable tiende hacia los valores ms pequeos que esta puede asumir.

Apuntes de Estadstica Descriptiva. Prof.Neftali Faundez

13

Ejemplo. De acuerdo con la revista Informacin al Consumidor en su nmero de febrero de 1999, las cuotas anuales de 40 compaas para un seguro de 3 millones de pesos para hombres de 35 aos de edad son las siguientes (en miles de pesos): 82 92 99 105 85 93 99 105 86 94 100 106 87 95 100 107 87 95 101 107 89 95 101 107 89 95 103 109 90 95 103 110 91 97 103 110 91 98 104 111

Realice un estudio completo de la informacin anterior. El estudio debe contener los siguientes puntos. 1. 2. 3. 4. 5. 6. 7. 8. Reconocimiento, clasificacin de la variable en estudio y unidad observable. Tabla de distribucin de frecuencia. Justifique. Clculo de las medidas de tendencia central y su correspondiente interpretacin. Clculo de las medidas de dispersin. Estudio de simetra de los datos y comente el sesgo de ellos (si existe). Eleccin de la mejor medida de tendencia central. Determinar Q1 , Q3 , D9 y P45 e interprtelos de manera adecuada. Histograma, polgono de frecuencia y ojiva.

Desarrollo. 1. La variable en estudio es : X= Valor de una cuota anual que debe pagar un hombre de 35 aos para un seguro de 3 millones de pesos. X es una variable cuantitativa discreta. La unidad observable es pesos. 2. a) El rango de la variable, est dado por R = X(n) - X(1) =111 - 82 = 29. b) El nmero de clases es K=1 + 3.3log(40) = 6.28, es decir, K= 6. c) La amplitud es A = d) Finalmente la tabla de distribucin de frecuencia es: Lmites de Lmites Reales clase o Fronteras 82 - 86 81.5 - 86.5 87 - 91 86.5 - 91.5 92 - 96 91.5 - 96.5 97 - 101 96.5 - 101.5 101 - 106 101.5 - 106.5 107 - 111 106.5 - 111.5 Total 3. a) La media es x = fi 3 7 8 8 7 7 40 mi 84 89 94 99 104 109 Fi 3 10 18 26 33 40 fri 3/40 7/40 8/40 8/40 7/40 7/40 1.00 Fri 3/40 10/40 18/40 26/40 33/40 1.00 fi*mi 252 623 752 792 728 763 3910

29 . 5.0. 6 = 483

promedio las 40 compaas es de $97750 ( o bien las cuarenta compaas pagan en promedio $97750 al ao) b) La clase mediana se obtiene observando la columna de F i , y ser aquella clase que contenga hasta n / 2 observaciones. En el ejemplo, la mediana se encuentra en la cuarta clase, luego se tiene que

84 * 3+...+109 * 7 = 97.75, es decir, las cuotas anuales que cancelan en 40

Med = 965 . +

20 18 8 *5 = 97.75

As, se tiene que el 50% de las compaas paga menos de $97750 como cuota anual del seguro y el otro 50%, paga ms de $97750.

Apuntes de Estadstica Descriptiva. Prof.Neftali Faundez

14

c) La clase modal se obtiene observando la columna de fi , y ser aquella que alcance el valor de fi ms alto. En el ejemplo se tienen dos clases con las frecuencias ms altas (la tercera y cuarta clase) por lo que el clculo se debe realizar dos veces.

1 Mod1 = 915 . + 1 + 0 * 5 = 965 . 0 Mod2 = 965 . + 0 + 1 * 5 = 965 .


Como es posible observar a partir del clculo de las dos clases anteriores, existe un nico valor para la moda por lo que se dice que el conjunto es unimodal. Este valor indica que las cuarenta compaas coinciden en el pago anual de la cuota que alcanza un valor de $96500. 4. a) El valor de las varianza es dado por s2 y el de la desviacin estndar es 7.824 . = 612179 .

b) El coeficiente de variacin es en este caso CV = 8%.

8. fi 8 7 6 5 4 3

a) Histograma

81.5

86.5

91.5

96.5

101.5

106.5

111.5

Lmites Reales

b) Polgono de Frecuencia

fi

Apuntes de Estadstica Descriptiva. Prof.Neftali Faundez 8 7 6 5 4 3 a 81.5 86.5


91.5 96.5 101.5 106.5 111.5 b Lmites Reales

15

donde a = 84 - 5 = 79 y b = 109 + 5 = 114. c) Ojiva

Fi 40 33 26 18 10

* * * *
3 81.5

*
86.5 91.5 96.5 101.5 106.5 111.5 Lmites Reales

Apuntes de Estadstica Descriptiva. Prof.Neftali Faundez

16

Ejercicios
1.- Suponga que Ud. tiene un mapa de todos los pases del mundo que entregan informacin detallada de los aspectos que se mencionan a continuacin: a) Nmero de habitantes de cada pas. b) Area de cada pas. c) Continente en que se encuentra cada pas. d) Tamao de la ciudad: menos de medio milln, entre medio milln y un milln de habitantes, entre un milln y cinco millones, ms de cinco millones de habitantes. e) Nombre de la capital. Reconozca y clasifique cada variable en estudio. 2.- Indicar en cada caso la variable y el tipo de escala: a) Estudiantes matriculados en un Instituto Profesional en un nmero de aos. b) Estado civil. c) Estatura de nios de Kinder. d) Nivel Socio-Econmico. e) Nmero de pulsaciones por minuto. 3.- En un da determinado nacieron 22 bebs en el Hospital Regional de Concepcin. Sus pesos en kilos fueron: 3.5 4.0 4.0 3.0 3.0 4.0 2.5 2.5 5.5 4.5 4.0 2.0 2.3 2.7 3.3 4.3 3.7 3.8 3.2 3.1 3.0 3.8 a) b) c) d) Indique la variable en estudio. Construya una tabla de distribucin de frecuencia para estos datos. Determine e interprete: media, desviacin estndar, Q1, Q3, D9 y P50. Grafique el histograma, el polgono de frecuencia y la ojiva.

4.- Los siguientes datos son los lapsos, en minutos, necesarios para que 50 clientes de un Banco Comercial lleven a cabo una transaccin bancaria: 2.3 2.4 3.3 1.8 7.8 3.1 2.4 0.4 4.2 6.3 0.2 4.4 9.7 4.7 0.8 3.7 4.6 1.3 1.2 7.6 2.9 5.8 2.5 0.7 0.9 7.2 3.8 1.1 0.5 1.4 0.4 2.8 5.6 6.2 0.4 1.6 1.5 5.5 6.8 0.5 2.8 3.3 9.5 1.2 1.3 1.9 2.7 3.4 5.5 1.4

a) Determine la media, mediana, moda, desviacin estndar y coeficiente de variacin para el conjunto de datos no agrupados. b) Establezca un esquema de agrupamiento adecuado para este conjunto de datos. c) Repita (a) pero considerando los datos agrupados. d) Interprete la media y desviacin estndar para los datos agrupados. e) Qu medida de centralizacin recomendara Ud. para este conjunto de datos? Justifique su respuesta. f) Considerando los datos agrupados. Qu porcentaje de datos est dentro de 2s con respecto a la media?

5.- A continuacin se presentan 3 conjuntos de datos:

Apuntes de Estadstica Descriptiva. Prof.Neftali Faundez i) 1, 2, 3, 4, 5, 6; ii) 1, 1, 1, 6, 6, 6; Calcule la media y varianza para cada conjunto. resultados?

17 iii) -13, 2, 3, 4, 5, 20. Qu puede concluir respecto de estos

6.- Se ha efectuado la siguiente informacin de una tabla de frecuencia con seis intervalos de amplitud constante:
i 1 2 3 4 5 6 Fronteras Marca de clase frec. abs. 0.5 - 19.5 7 29 35 89/100 - 114.5 frec. Acumulada f. rel. 9/100 36 f. rel. Acum.

a) Complete la tabla justificando cada paso. b) Construya el histograma y la ojiva. c) Calcule e interprete Q1, Q2, Q3, D1 y D9 y P90. 7.- Suponga que se est investigando la rapidez para efectuar una maniobra y su relacin con el sexo de la persona en cierta compaa. Los datos recopilados fueron resumidos en la siguiente tabla: Tiempo (en Minutos) 1 5 8 12 5 8 12 20 Frecuencia de Mujeres 15 15 7 3 Frecuencias de Hombres 15 20 10 15

Cul de los dos grupos tiene un comportamiento ms homogneo con respecto a la rapidez? Justifique usando medidas adecuadas. 8.- El Jefe de Departamento de Personal de cierta empresa, resumi en la grfica adjunta, los sueldos lquidos de sus 120 funcionarios administrativos: Grfico
Sueldo lquido (por $ 10.000)

10

12

Sueldo lquido

a) Reconozca y clasifique la variable en estudio y la unidad observable.

b) c) d) e) f)

Construya una tabla de distribucin de frecuencias a partir del grfico. Calcule Media, Mediana, Moda y desviacin estndar e interprtelos. Construya una ojiva. Qu porcentaje de funcionarios recibieron un sueldo lquido inferior a 45 ($ 45.000) Qu porcentaje de la informacin est dentro de 2s con respecto a la media?

18 Apuntes de Estadstica Descriptiva. Prof.Neftali Faundez 9.- Considere la siguiente informacin relacionada con el nmero de personas que ganan cierto sueldo bruto mensual (en miles de pesos). Lmites reales 10 x 10 2x 10 9 12 13 18 + 3x 55 fi Mi Mi fi Fi Fi / N fi / n

80 Totales

La persona encargada de tomar los datos, sufri un accidente en su hoja de registros, por lo cual se le pide a Ud. que complete la tabla anterior sabiendo que x = 53.75, para que responda las siguientes preguntas: a) b) c) d) e) Grfique el histograma y el polgono de frecuencia. Cul es el sueldo promedio que reciben las personas mensualmente? Qu porcentaje de personas reciben ms de $ 75.000.- pero menos de $85.000.-? Determine el valor del tercer cuartil e interprete de manera adecuada. Qu medida de centralizacin recomendara Ud. para este conjunto de datos? Justifique su respuesta. f) Es este conjunto de datos unimodal? 10.- Los siguientes datos representan el nmero de interrupciones por da de trabajo, debido a fallas mecnicas en una planta procesadora de alimentos: 5, 7, 1, 2, 4. a) Defina y clasifique la variable en estudio. b) Obtenga la mediana e interprtela. c) Cul es la moda? d) Calcule la media aritmtica. e) Calcule la varianza y desviacin estndar. Interprete. 11.- Las siguientes mediciones del peso (en gramos) han sido registradas para 70 ratas de 31 das de raza comn. a) Establezca un esquema de agrupamiento adecuado a los datos. b) Grafique el histograma. Qu puede decir de la simetra de los datos? c) Qu medida de centralizacin recomendara Ud.? d) Estn los datos sesgados a la derecha? e) Es el conjunto de datos no agrupados bimodal? f) Obtenga Q2, D5 y P50 Cmo son estos valores? g) Reconozca y clasifique la variable en estudio. Cul es la unidad observable? 102 122 120 130 110 104 98 118 104 120 116 106 106 108 122 108 112 112 116 98 122 102 110 112 110 110 120 94 116 124 140 116 116 102 84 106 120 114 112 102 118 110 110 110 116 112 120 118 122 118 112 120 106 100 112 124 128 112 108 118 126 112 106 112 108 110 102 98 114 114

12.- La distribucin de frecuencia del nmero de vidas perdidas anualmente en los principales tornados en los Estados Unidos entre 1900 y 1973 aparecen a continuacin (ver tabla en la siguiente hoja). a) Grafique el histograma de frecuencia relativa. b) Comente sobre la forma de la distribucin.

Apuntes de Estadstica Descriptiva. Prof.Neftali Faundez c) Qu medida de centralizacin recomendara Ud. para esta informacin? d) Obtenga D3, D5 y D9 e interprtelos. Nmero de Muertes 24 25 - 49 50 - 74 75 - 99 100 - 149 150 - 199 200 - 249 250 Frec. Absoluta 8 16 16 11 6 2 4 1

19

13.-En el centro de Computacin de la universidad, se registr el nmero diario de detenciones del computador debido a errores de la mquina, por un perodo de 62 das y se obtuvieron los siguientes datos: 0 0 1 0 2 0 0 1 8 3 2 1 3 0 2 5 1 0 6 1 2 0 0 1 0 4 2 0 0 0 0 0 3 2 0 0 4 1 1 3 0 4 3 3 0 2 1 0 4 0 6 1 2 4 0 2 0 2 0 0 0 1 2

a) Reconozca y clasifique la variable de inters. b) Construya una tabla de distribucin de frecuencia adecuada para los datos. c) Obtenga el histograma, polgono de frecuencia y una ojiva porcentual. Comente acerca de la simetra. d) Qu puede decir de la variabilidad de los datos? e) Compare las medidas de tendencia central de los datos agrupados y no agrupados. f) Existe sesgo alguno en los datos? Comente. g) Obtenga P25, P50, P75 e interprtelos. h) Qu porcentaje de los datos se encuentran dentro de 2s? Considere los datos agrupados. 14.- La siguiente tabla de distribucin de frecuencia representa los pagos por almacenamiento para los 50 ms grandes detallistas durante el ao 1995. Lmite de clase 1.10 1.86 1.87 2.63 2.64 3.40 3.41 4.17 4.18 4.94 4.95 5.71 5.72 6.48 6.49 7.25 a) b) c) d) fi 4 14 11 9 7 1 2 2

Analice la variabilidad en el conjunto de datos. Construya la ojiva e interprete su significado para el ltimo intervalo de clase. Construya un histograma de frecuencia porcentual. Observe el histograma obtenido anteriormente, Qu puede deducir acerca del comportamiento de estos datos?

15.- A partir de un estudio epidemiolgico del total de cloro orgnico presente en muestras de leche se registran las mediciones de 40 donantes, las que se muestran a continuacin.

Apuntes de Estadstica Descriptiva. Prof.Neftali Faundez 27 68 110 153 a) b) c) d) e) 43 70 115 182 52 82 115 190 53 75 115 197 53 83 115 197 53 95 126 282 61 96 127 322 63 97 134 322 63 101 145 342 65 105 152 521

20

Obtenga las medidas de tendencias central y medidas de dispersin para los datos no agrupados. Establezca un esquema de agrupamiento. Obtenga las medidas de tendencia central y las medidas de dispersin para los datos agrupados . Comente los resultado obtenidos en a) y c). Qu medida de centralizacin recomendara Ud. para este conjunto de datos? Justifique su respuesta. f) Observando el histograma de frecuencia, comente la simetra de los datos y diga si los datos ests sesgados. g) Si su respuesta es si diga justificadamente de que tipo de sesgo se trata. h) Obtenga Q1, Q2 y Q3 e interprtelos. 16.- Considere la siguiente distribucin de frecuencias: Fronteras -4 - -2 -2 0 0 2 2 4 4 6 fi 4 3 2 4 1

a) Grafique el histograma. b) Grafique. La ojiva. 17.- Los varones que entre los 20 y 60 aos contrajeron matrimonio durante el ao 1991 en Espaa, presentan la siguiente distribucin por edades. Edades 20 25 30 35 40 50 25 30 35 40 50 60 Varones (miles) 41 123 44 13 7 3

a) Represente grficamente la distribucin utilizando el histograma. b) Calcular el coeficiente de asimetra de Pearson. Comente. c) Qu porcentaje de la informacin est dentro de 2 s?

18.- Una muestra de 8000 familias ha presentado la siguiente distribucin con respecto al nmero de hijos: N de hijos Frec. Absoluta 0 149 1 2 2622 1735 3 812 4 640 5 315 6 224 7 163 8 68 9 12

Determine el signo de su asimetra.

Anda mungkin juga menyukai