Anda di halaman 1dari 33

1

APUNTES ESTADISTICA UNIVARIADA



Asignatura: Matemtica II; Inacap Sede Apoquindo; Docente: Ismael Valdivia Z.

ESTADSTICA DESCRIPTIVA


Inicialmente entendamos en su contexto etimolgico el trmino estadstica, este proviene de la palaba
latina status que significa estado. En una poca reciente los primeros usos de la estadstica
implicaron la recopilacin de datos y construccin de grficas, para describir diversos aspectos de un
lugar o pas. Jhon Graunt 1662 public informacin estadstica de los nacimientos y decesos, al trabajo
de Graunt siguieron otros relacionados con la demografa.

Ahora bien, podemos definir Estadstica como la ciencia de los datos. La palabra ciencia viene del latn
scientia que significa conocimiento. El mtodo cientfico es un conjunto de principios y
procedimientos para la bsqueda sistemtica del conocimiento.

Diremos que la Estadstica es una ciencia relacionada con el Mtodo Cientfico en la coleccin y
anlisis de datos, muchas veces con el objeto de deducir o inferir conclusiones y tomar decisiones ante
condiciones de incertidumbre.

Es frecuente que la Estadstica se identifique con una tabla o coleccin de datos. De hecho, eso es una
estadstica. Pero qu duda cabe que la Estadstica no debe entenderse como una mera coleccin de
datos, aunque los mismos se presenten de forma ordenada y sistemtica.

La gran aportacin de la estadstica es, precisamente, ese arsenal de instrumentos y tcnicas que
permiten tratar y sintetizar esa gran cantidad de informacin, en un intento de buscar las posibles
regularidades que la misma esconde detrs de la enorme variabilidad con la que se presenta. El objetivo
ltimo de ese tratamiento estadstico de la informacin es reducir, en la medida que ello sea posible, la
incertidumbre inherente a la variabilidad de la informacin, para que la toma de decisiones, de
cualquier agente (econmico o de otra naturaleza), se lleve a cabo con el menor grado de incertidumbre
posible. Intuitivamente la estadstica se puede diferenciar en dos grandes temas:

Estadstica Descriptiva:

Se ocupa de la organizacin y presentacin de los datos en forma convenientemente til y de fcil
comunicacin adems de hacer mediciones con esta informacin.

La estadstica descriptiva trata dos aspectos: el obtener informacin de los datos tambin conocido
como anlisis exploratorio de datos
*
y por otro lado se preocupa de la presentacin de resultados.

Inferencia Estadstica:

Se orienta a lograr generalizaciones, es decir, a partir de los datos de la muestra obtener informacin
sobre una poblacin.

*
El padre del anlisis exploratorio de datos es John W. Tukey (1915-2000) Estados Unidos

2
Trminos estadsticos bsicos.

Poblacin: es el conjunto de todos los datos de una caracterstica medida en cada individuo del
universo.
Muestra: es un subconjunto seleccionado de la poblacin de inters. El elegir una muestra
representativa es un problema importante en las investigaciones estadsticas.
Parmetro: es cualquier valor caracterstico de una poblacin, este valor es siempre fijo.
Estadgrafo o Estadstico: es un valor caracterstico obtenido a partir de una muestra.
Unidad: es un objeto individual o persona en la poblacin.
Variable: es una caracterstica de inters medida en cada unidad de la muestra

Ejemplo 1:

1. Suponga que usted est a encargado de recibir un embarque de 1000 ampolletas. Para decidir si
acepta la carga revisa 20 ampolletas y cuenta el nmero de ampolletas que estn falladas.

Poblacin?
Unidades?
Muestra?
Variable?
Parmetro?
Estadstico?

2. En un canal de televisin desea conocer las edades de los televidentes que ven una telenovela. Para
esto se lleva a cabo un estudio y se seleccionan al azar 350 adultos de familias de cinco municipios de
Santiago. Cul sera un dato de estudio? Cul sera la poblacin y la muestra?


Mtodo estadstico

El mtodo cientfico es un procedimiento que se aplica al ciclo completo de una investigacin, desde el
enunciado del problema hasta la evaluacin de los resultados obtenidos.

En forma esquemtica y con las limitaciones que esto supone, podemos distinguir diversas etapas en el
mtodo cientfico:

1) Eleccin y enunciado del problema.
2) Formulacin de una hiptesis.
3) Deduccin de consecuencias verificables de la hiptesis.
4) Verificacin de la hiptesis.
5) Interpretacin de los resultados.


Es el mtodo estadstico el que nos proporciona las tcnicas necesarias para recolectar y analizar la
informacin requerida. Los pasos a seguir en una investigacin se clasifican en dos grandes etapas: la
3
planificacin y la ejecucin. Para cada una se sealan subetapas que no necesariamente deben
cumplirse en la secuencia anotada. El listado no es exhaustivo y hay algunas subetapas no aplicables en
determinados diseos de investigacin:

Planificacin: Mientras mejor planeada este una investigacin, ms se facilitar su realizacin. Es
conveniente considerar los siguientes aspectos en la planificacin o diseo de una investigacin. En
esta fase debemos considerar:

a.- Definicin de los objetivos: Debe ser el primer paso de toda investigacin. Consiste en sealar
detalladamente lo que se pretende investigar, el qu, cmo, dnde, cundo y por qu. Los objetivos
podrn modificarse en las etapas siguientes si se ve que por alguna circunstancia no ser factible
cumplirlos. Idealmente, toda modificacin debera hacerse en la etapa de planificacin para que la
ejecucin se realice con objetivos definidos.

Formalmente, los objetivos pueden corresponder a la descripcin del problema que da origen a la
investigacin o a las preguntas que la investigacin pretende contestar.

d- Definicin de la poblacin: Se debe definir el grupo del cual se extraer la informacin y al cual se
generalizarn las conclusiones que se obtengan de la investigacin.

Por ejemplo, Si desea describir el problema de las drogas en la juventud chilena ser importante definir
qu se entender por juventud chilena y si no es posible abarcar a toda la juventud, delimitar a qu
parte de ella se refiere el estudio.

c- Diseo de la Muestra: Con frecuencia es imposible, innecesario, o poco prctico, el estudio de toda
la poblacin. En estos casos se estudiar una muestra que, si se disea de acuerdo con ciertos principios
probabilsticos, permitir la generalizacin de los resultados al universo de origen.

Ejecucin: Consiste en llevar a la prctica lo que se planific. Pueden mencionarse algunas subetapas:

a.- Recoleccin de la informacin: Deber hacerse siguiendo criterios e instrucciones uniformes, sobre
todo cuando hay varios investigadores.

b.- Elaboracin de la informacin: La informacin se revisar respecto de su integridad y de la
existencia de errores. Luego se clasificarn las unidades de observacin de acuerdo con las escalas
elaboradas previamente y se har el recuento de unidades en cada categora. La presentacin tabular y
grfica facilitar la descripcin y anlisis. El resumen de los datos mediante medidas adecuadas
permitir la descripcin y comparacin de los grupos de estudio.

c.- Anlisis de los resultados: Cuando un estudio es solo descriptivo, esta etapa consiste en la
presentacin de los hechos encontrados. Cuando existe una hiptesis, se evala el cumplimiento de los
supuestos tericos a la luz de la inferencia estadstica.

Los resultados nos llevarn a rechazar o no la hiptesis en estudio con probabilidades de error
conocidas y aceptadas, siempre que el diseo de la investigacin permita este anlisis.




4
Tipos de variables

Es muy importante en un estudio estadstico la naturaleza de las variables consideradas.













Variables cualitativas son aquellas que clasifican las unidades en categoras. Las categoras pueden
tener un orden natural (ordinales) o no (nominales). Las variables cualitativas tambin se llaman
variables categricas. Con estas variables podemos contar nmero de casos, comparar entre categoras,
pero no podemos realizar operaciones numricas.

Variables cuantitativas tienen valores numricos que representan medidas (largo, peso, etc.) o
frecuencias (nmero de). Tiene sentido realizar operaciones numricas con estas variables. Adems
distinguimos dentro de las variables cuantitativas las discretas y las continuas. Una variable discreta es
aquella en la cual se puede contar el nmero posible de valores. Una variable continua puede tomar
cualquier valor en un intervalo dado.


Ejemplo 2:

Nominal: est asociada a nombres. Marca de auto, Sexo, Religin

Ordinal: tiene asociado un orden. Nivel educacional, Estado nutricional, Nivel Socioeconmico

Discreta: slo puede tomar un nmero finito (o contable) de posible valores. Considerando como
ejemplo: el nmero de respuestas correctas en una prueba de 5 preguntas de V o F.

0 1 2 3 4 5


Continua: puede tomar cualquier valor en un intervalo(s). Como por ejemplo de agua en un vaso de 50
ml.

Ejercicios 1:

1. Determine qu tipo son las siguientes variables. Si son variables cualitativas (nominal u ordinal) o
cuantitativas (discretas o continuas).


Nominales Ordinales
Cualitativas
Discretas Continuas
Cuantitativas
Tipos de variables
5
a. Marca, color y modelo de un automvil
b. Duracin de un DVD (segundos)
c. Nmero de temas de un lbum de Soda Stereo.
d. Nivel educacional (bsica, media, universitaria)
e. Temperatura al medioda en Santiago (grados Celsius)
f. Estado civil (soltero, casado, divorciado, viudo)
g. Cantidad de lluvia en un ao en Santiago (mm
3
)
h. Nmero de acciones vendidas cada da en un mercado de valores.
i. Periodo de duracin de luces LED producidas por una compaa.
j. Longitud de 1.000 cerrojos producidos en una fbrica.

2. Conocimientos estadsticos y pensamiento crtico

a. Parmetro y estadstico. Cul es la diferencia entre un parmetro y un estadstico?
b. Datos cualitativos y cuantitativos. Cul es la diferencia entre los datos cualitativos y los datos
cuantitativos?
c. Datos discretos y continuos. Cul es la diferencia entre los datos discretos y los datos
continuos?
d. Datos continuos y cuantitativos. Si un experimento produce datos que son de naturaleza
continua, los datos tambin deben ser cuantitativos o pueden ser cualitativos?


3. Determine si el valor dado es un estadstico o un parmetro.

a. En la ciudad de Santiago hay 3250 botones para caminar, que los peatones emplean en las
intersecciones de trnsito. Se descubri que el 77% de dichos botones no funciona.

b. Con base en una muestra de 877 ejecutivos encuestador, se encontr que el 45% de ellos no
contratara a alguien con un error ortogrfico en su solicitud de empleo.

c. Tamao de la familia. Se selecciona una muestra de hogares y el nmero promedio (media) de
personas por familia es de 2,58 (segn datos del INE).

d. Titanic. En un estudio de los 2223 pasajeros del Titanic, se encontr que 706 sobrevivieron
cuando se hundi.

e. Audiencia televisiva. Se selecciona una muestra de Chilenos y se descubre que la cantidad de
tiempo promedio (media) que ven la televisin es de 4,6 horas al da.

4. Identifique la muestra y la poblacin. Adems, determine si la muestra parece ser representativa de
la poblacin.

a. Un cientfico poltico selecciona al azar a 25 de los 100 senadores que actualmente conforman
e1 Congreso, y luego calcula la cantidad de tiempo que han prestado servicio.

b. Durante la final del torneo de apertura de la primera A, una encuesta de 5.101 hogares elegidos
al azar revela que el 44% de ellos tienen sus televisores sintonizados en el partido.

6
c. En una encuesta en la ciudad de Santiago de 1.059 adultos seleccionados al azar el 39%
respondi que s cuando se les pregunt tiene un arma en su casa?

d. Una estudiante de postgrado de la Universidad de Chile realiza un proyecto de investigacin
sobre la comunicacin. Ella enva por correo una encuesta a los 500 adultos que conoce, y les
pide que respondan y regresen por correo la siguiente pregunta: prefiere utilizar el correo
electrnico o el correo ordinario?. Ella recibe 65 respuestas, y 42 de ellas indican una
preferencia por e1 correo ordinario.



Mtodos para describir variables cualitativas

Definicin:
La distribucin de una variable nos da los valores posibles de la variable y cuantas veces ocurren. La
distribucin de una variable nos muestra la forma en que vara la variable.

Tablas de distribucin de frecuencias
Lo primero que hacemos al querer describir variables cualitativas es contar cuantas unidades caen en
cada categora de la variable. Esto lo presentamos en una tabla de distribucin de frecuencias de la
forma:
Valor o
categora de la variable

Frecuencia

Porcentaje
...
Total n 100

Ejemplo: Estado Civil de las personas que trabajan en la Empresa INACAP.

Estado Civil Frecuencia
Absoluta
Frecuencia
Relativa
Soltero 85
Casado 36
Divorciado 05
Viudo 03
Total 129

Grficos para variables cualitativas

Una vez que conocemos la distribucin de la variable, nos interesa presentarla de alguna manera
grfica, uno de los grficos o diagramas ms usados en variables cualitativas son los diagramas
sectoriales o de torta y los grficos de barra.

Un grfico sectorial (o de torta) muestra la distribucin de una variable cualitativa dividiendo un
crculo en partes que corresponden a las categoras de la variable, tal que el tamao (ngulo) de cada
pedazo es proporcional al porcentaje de tems en cada categora.

7
Un grfico de barras muestra la distribucin de una variable cualitativa listando las categoras o
valores de la variable en el eje x y dibujando una barra sobre cada categora. La altura de la barra es
igual al porcentaje de tems en esa categora. Las barras deben tener el mismo ancho.

Grfico sectorial

Figura 1 (a): Figura 1 (b):
Diagrama sectorial con 1/4 de los tems que
comparten alguna propiedad.
Diagrama sectorial con 7/8 de los tems que
comparten alguna propiedad

75.0%
25.0%

87.5%
12.5%



Grfico de barras
Compare los siguientes grficos. Cules son las diferencias?


Ejemplo 3: Grfico de barras: Cul de los grficos presenta mayor utilidad?




Tablas estadsticas

Los datos que deben manejarse para ser sometidos a un anlisis estadstico son, en general,
suficientemente numerosos como para justificar la bsqueda de estructuras de presentacin ordenada y
resumida. Que brinda una tabla estadstica o de frecuencias, que como su nombre claramente est
compuesta por diferentes tipos de frecuencias detalladas en las siguientes lneas.

Sexo
M F
P
o
r
c
e
n
t
a
j
e
60
50
40
30
20
10
0
Sexo
M F
F
r
e
c
u
e
n
c
i
a
21
20
19
18
17
16
15
14
13
12
11
10
9
8
7
6
5
4
3
2
1
8
Tipos de frecuencias

a.- Frecuencia o Frecuencia Absoluta: Es el nmero de veces que se presenta un valor o una categora
de la variable. Se representa por n
i
.

b.- Frecuencia Relativa: La frecuencia relativa se puede expresar en trminos de porcentaje o de
proporcin y se representa por p
i
.
En general, es ms claro e informativo indicar que proporcin del total de los datos representa cada
frecuencia n
i
. As, si hay n datos en total, una frecuencia n
i
representa una proporcin p
i
= n
i
/n del
total.

c.- Frecuencia Absoluta Acumulada: Se representa por N
i
.

Donde N
1
= n
1

N
2
= n
1
+ n
2

N
3
= n
1
+ n
2
+ n
3

.
N
k
= n
1
+ n
2
+ n
3
+ + n
k
= n

d.- Frecuencia Relativa Acumulada: Se representa por P
i
y corresponde a la proporcin P
i
= N
i
/n del
total.

Ejemplo 4: La siguiente informacin corresponde a los montos de los prstamos de consumo que la
entidad Fast-Bank otorg a sus clientes el ao 2012. Completar la informacin de la tabla

Monto de
los
Prestamos
(miles de $)
Frecuencia
Absoluta
(n
i
)
Frecuencia
Relativa
(p
i
)
Frecuencia
Absoluta
Acumulada
(N
i
)
Frecuencia
Relativa
Acumulada
(P
i
)
Marca de
Clase
(Xi)
150-400 3
400-600 15
600-900 18
900-1200 35
1200-1800 20
1800-2500 20
2500-3500 11
3500-7000 8
Total


a) Cul es el nmero total de prstamos otorgados?
b) Realice una grfica de barras de las frecuencias absolutas.
c) Realice una grfica de barras de las frecuencias relativas.
9
d) Realice una grfica de las frecuencias absolutas acumuladas.
e) Cul es la cantidad de monto de los prstamos ms frecuente?
f) Cul es el valor de prstamo que supera al 27,7% de las observaciones?
g) Cul es el intervalo que presenta un 15,4% del total de observaciones?


Ejemplo 5: Cmo decidir educadamente

Se anima a tomar una decisin? le voy a proponer una situacin en la que alguien tiene que decidir
qu hacer y se supone que usted ser el encargado de opinar qu camino conviene tomar.

Hay dos escuelas que estn en una misma ciudad. Todos los nios de la zona se distribuyen entre las
dos. Son muchos los parmetros que tendrn en cuenta, pero lo que ms les importa a los padres es
limitar lo ms posible el nivel de desercin de los alumnos. Pero, justamente, quieren tomar una
decisin educada, basada en la mayor cantidad de datos que puedan conseguir y no dejarse llevar por el
impulso emocional. Ac es donde interviene usted. Haga de cuenta de que la/lo citan a usted como
consultor(a) y le piden que d su opinin para saber a qu escuela preferira.

La situacin es la siguiente. Las dos escuelas (llammoslas A y B, respectivamente) estuvieron abiertas
durante muchos aos. A continuacin, los datos, todo lo que reflejan es la cantidad total de alumnos y
de abandonos que se presentan.

A la escuela A concurrieron en total 10.500 nios. De ese total, 315 abandonaron antes de graduarse.
Por su parte, a la escuela B, que es un poco ms chica en tamao, asistieron 4.000 nios, de los cuales
abandonaron 80.
Con esta informacin, parece que est todo claro, no?

Cuando ya estaba todo preparado para comunicar la decisin, apareci una nueva informacin que no
haba sido considerada y que tiene a disposicin de usted para saber si lo que usted estaba pensando
hasta ac sigue en pie.

Los nuevos datos dicen lo siguiente:

En la escuela A, los 10.500 alumnos se dividieron entre 3.000 varones y 7.500 mujeres. De los 3.000
varones, solamente 30 no terminaron el colegio. De las 7.500 mujeres, 285 no se graduaron.

Y en la escuela B, los 4.000 alumnos se dividieron entre 3.000 varones y 1.000 mujeres. De los
varones, solamente 40 no terminaron sus estudios y las mujeres que abandonaron fueron tambin 40.

Y ahora?


10
Metodologa para confeccionar una tabla de frecuencias


Una metodologa que es posible aplicar en la construccin de una tabla de frecuencias para una variable
continua, a partir de datos no agrupados, incluye los siguientes pasos:

Paso 1: Encontrar el valor mnimo Xmin, y el valor mximo Xmox, y calcular el rango: R =
Xmox Xmin

Paso 2: Elegir el nmero de intervalos de clase (k) de igual longitud que cubre el recorrido de los
datos. El nmero de intervalos de clase se debe verificar que S k 1S. Tambin se puede utilizar
la regla: k = 1 + S.S log(n), con n nmero muestral, aproximando el valor de k al entero ms
cercano.

Paso 3: Determinar la amplitud de clase (C), donde: C =
R
k
, que debe tener la misma precisin de los
datos

Paso 4: Verificar que efectivamente se cubre el recorrido de todas las observaciones, calculando el
excedente E = Xmin + k C Xmox u. El excedente debe ser no negativo, en caso contrario, la
amplitud de clase (C) debe ser aumentada en una unidad de precisin (u) y recalculando el excedente.
Estos ltimos valores corregidos son los que se utilizan en los clculos posteriores.

Paso 5: Calcular el primer lmite inferior: I
1
= Xmin
L
2


Paso 6: Calcular los lmites inferiores siguientes sumndole la amplitud al anterior
I

= I
-1
+ C

Paso 7: Calcular los lmites superiores restando una unidad de precisin al lmite inferior de la clase
siguiente: S

= I
+1
u, o sumando la amplitud al lmite superior anterior: S

= S
-1
+ C

Paso 8: Contar el nmero de observaciones en los datos que pertenecen a cada intervalo de clase, para
obtener la frecuencia absoluta (n

). Determinar los otros tipos de frecuencias.



Ejemplo 6: Los siguientes datos corresponden, a los datos obtenidos en una empresa en el turno
vespertino, compuesto por trabajadores que prestan servicios a la empresa. Los datos se presentan en
horas trabajadas en la semana.


14,0 8,0 18,4 16,6 20,0 10,0 22,4 9,4 13,0 17,4
15,6 18,4 17,6 26,0 12,2 16,0 16,8 12,6 18,0 10,5
17,6 19,4 19,8 21,6 24,0 18,0 17,0 19,0 16,6 15,5
15,6 15,8 15,0 12,2 20,0 11,2 21,8 19,6 12,8 18,0





11

a) Identifique y defina la poblacin y la muestra.
b) Identifique la unidad y la variable.
c) Construya una tabla de distribucin de frecuencias.
d) Cuntos intervalos de clases son?
e) Cul de las clases contiene el 15% de las observaciones?
f) Cul es la cantidad de horas ms frecuente de trabajo?
g) Qu valor acumula el 87,5% de las horas trabajadas?
h) Qu proporcin de las observaciones se encuentra por sobre 23,2 horas trabajadas?
i) Qu porcentaje se observa entre 10,9 y 20,1 horas trabajadas?
j) Determine el promedio de horas trabajadas en la clase 4.
k) Mediante una grfica adecuada, caracterice la forma de la distribucin.
l) Represente mediante una grfica adecuada las frecuencias acumuladas.

12
MEDIDAS DE RESUMEN

Mtodos numricos para describir variables cuantitativas
Especficamente medidas de resumen o medidas descriptivas numricas que son de tres tipos. Entre las
medidas que permiten resumir informacin proveniente de una poblacin, podemos considerar las
medidas de posicin, medidas de dispersin y medidas de forma.

las que ayudan a encontrar el centro de la distribucin, llamadas medidas de tendencia central.
las que miden la dispersin, llamadas medidas de dispersin.
las que describen la posicin relativa de una observacin dentro del conjunto de datos,
llamadas medidas de posicin relativa.

Medidas de Tendencia Central
Las medidas de tendencia central son valores numricos que quieren mostrar el centro de un conjunto
de datos, nos interesan especialmente tres medidas: la media, la mediana y la moda.

Si los datos son una muestra, se llamarn estadsticas. Si los datos son una poblacin entonces estas
medidas de tendencia central se llamarn parmetros.

Una estadstica o estadgrafo es una medida descriptiva numrica calculada a partir de datos de una
muestra.
Un parmetro es una medida descriptiva numrica que usa la totalidad de las unidades de una
poblacin.

Promedio o Media

El promedio de un conjunto de n observaciones es simplemente la suma de las observaciones dividida
por el nmero de observaciones, n.

Es una de las medidas de tendencia central de mayor uso. La media muestral se simboliza por x y la
media poblacional de denota por .

Notacin: Si x
1
, x
2
, . . . , x
2
denota una muestra de n observaciones, entonces el promedio de la muestra
se llama x-barra y se denota por:
x =
x

n
=1
n


Si se tiene todos los valores de una poblacin, el promedio de la poblacin es la suma de todos los
valores dividida por cuntos son.
El promedio de la poblacin se denota por la letra Griega (mu): p =
x
i
N
i=1
N


Ejemplo 1: Nmero promedio de acciones con variacin. Los datos siguientes son el nmero acciones
con variacin positiva en una muestra aleatoria de 10 das:

2, 3, 0, 2, 1, 0, 3, 0, 1, 4
13
El promedio de estas 10 observaciones es:
Supongamos que una observacin en el ltimo da se anot como 40 en vez de 4. Qu le pasar al
promedio?

Notar que 9 de las 10 observaciones son menores que el promedio. El promedio es sensible a
las observaciones extremas. La mayora de los mtodos grficos nos ayudarn de detectar
observaciones extremas.


Media para datos tabulados: Si los datos estn tabulados en una tabla de distribucin de frecuencias,
entonces la media se debe calcular como:
x =
n

k
=1
n


Siendo x
i
el valor de la variable en el intervalo i-simo si esta es cuantitativa discreta, y resulta ser la
marca de clase si la variable esta tabulada en intervalos.

Ejemplo 2: Calcular el promedio para el ejemplo de las horas trabajadas por semana.

Media Aritmtica Ponderada: En la definicin de media aritmtica, el peso o ponderacin de cada
observacin es la misma (1n), pero hay casos en que esta ponderacin es distinta. En tal caso el
promedio se estima a partir de la siguiente frmula:

x
p
=
w

k
=1
w

k
=1


Ejemplo 3: Un alumno saca un 4,0 - 5,1 - 2,8 en sus pruebas parciales, un 5,9 en controles y un 2,1 en
su examen final. Las notas tienen una ponderacin de 10%, 15%, 30%, 25% y 20% respectivamente.
Cul es la calificacin final del alumno?

Ejemplo 4: Si el examen final de un curso cuenta 3 veces ms que una evaluacin parcial, y un
estudiante tiene calificaciones de 85 en el examen y parciales de 70 y 90, su calificacin media es:

Ejemplo 5: Combinando Promedios el promedio de 3 estudiantes es 5,4 y el promedio de otros 4
estudiantes es 6,7. Cul es el promedio de los 7 estudiantes?


Media geomtrica: La media geomtrica puede utilizarse para mostrar los cambios porcentuales en una
serie de nmeros positivos. Como tal, tiene una amplia aplicacin en los negocios y en la economa,
debido a que con frecuencia se est interesado en establecer el cambio porcentual en las ventas, en el
producto nacional bruto o en cualquier serie econmica. La media geomtrica proporciona una medida
precisa de un cambio porcentual promedio en una serie de nmeros.

La media geomtrica (MG) se halla tomando la raz ensima del producto de n nmeros. As,

H0 = x
1
x
2
x
n
n


14
La media geomtrica se utiliza con ms frecuencia para calcular la tasa de crecimiento porcentual
promedio de algunas series dadas, a travs del tiempo.

Ejemplo 6: El director ejecutivo de White Airlines desea determinar la tasa de crecimiento promedio en
los ingresos con base en las cifras dadas en la tabla. Si la tasa de crecimiento promedio es menor que el
promedio industrial del 10%, se asumir una nueva campaa publicitaria.


Ao Ingreso (US$)
2006 55.000
2007 55.000
2008 66.000
2009 60.000
2010 78.000

Observaciones:

Un promedio NO es siempre representativo


El promedio tambin se define como el punto de equilibrio, el
punto donde distribucin se balancea.

Si la distribucin es simtrica, el promedio ser exactamente el
centro de la distribucin.




Si la observacin ms grande se mueve a la derecha, el promedio
se mueve con la observacin extrema





Si la distribucin es sesgada, vamos a querer usar
una medida que sea ms resistentepara mostrar el
centro. La medida de tendencia central que es ms
resistente a los valores extremos es la mediana.





Mean =2
1 2 3

Mean =2.5
1 2 5

Mean =4
1 2 11
15
Mediana

Definicin:
La mediana de un conjunto de n observaciones, ordenadas de menor a mayor, es un valor tal que la
mitad de las observaciones son menores o iguales que tal valor y la mitad de las observaciones son
mayores o iguales que ese valor.

Pasos para encontrar la mediana de datos NO agrupados:

1. Ordenar los datos de menor a mayor;
2. Calcular la posicin de la mediana: (n+1)/2, donde n es el nmero de observaciones
3. a) Si el nmero de observaciones es impar, la mediana es la observacin del medio.
b) Si el nmero de observaciones es par, la mediana es el promedio de las dos observaciones del
medio.

Ejemplo 7:

a) El conjunto de nmeros 3, 4, 4, 5, 6, 8, 8, 8, 10 tiene mediana
b) El conjunto de nmeros 5, 5, 7, 9, 11, 12, 15, 18 tiene mediana


Ejemplo 8: El nmero de ventas en una confitera en 20 das son:

32 37 39 40 41 41 41 42 42 43 44 45 45 45 46 47 47 49 50 51


Ejemplo 9: Encuentre la mediana del nmero de cuotas impagas en la muestra de 10 clientes de una
tienda de retail.

Cliente 1 2 3 4 5 6 7 8 9 10
Nmero de cuentas impagas 2 3 0 1 4 0 3 0 1 2

a) Ordenar las observaciones de menor a mayor
b) Calcular (n+1)/2
c) Obtener la Mediana
d) Qu le pasa a la mediana si la quinta observacin en la lista se anota incorrectamente como 40 en
vez de 4?
e) Qu le pasa a la mediana si la tercera observacin en la lista se anota incorrectamente como 20 en
vez de 0?

Nota: La mediana es resistente (robusta), es decir, no cambia o cambia muy poco con
observaciones extremas.

Mediana para datos agrupados: la mediana obtenida por interpolacin viene dada por la siguiente
expresin: Primero se debe hallar la clase mediana de la distribucin de frecuencias; La clase mediana
es la clase cuya frecuencia acumulada es mayor o igual que
n
2
, entonces:

16
Hc = I
md
+_
n
2
N

n
md
_ C
Donde:

I
md
= Lmite inferior de la clase del intervalo mediano.
n = nmero de datos (frecuencia total)
N

= frecuencia absoluta acumulada anterior al intervalo mediano.


n
md
= frecuencia absoluta del intervalo mediano
C = amplitud de clase del intervalo mediano

Moda

Como su nombre lo indica es aquel valor de la variable que tiene una mayor frecuencia. Si una variable
es nominal, la moda es la nica Medida de Posicin que se puede calcular

Definicin: La moda de un conjunto de observaciones es el valor ms frecuente.

Ejemplo 10: La moda de los valores: {0, 0, 0, 0, 1, 1, 2, 2, 3, 4} es:

Ejemplo 11: {0, 0, 0, 1, 1, 2, 2, 2, 3, 4} la moda es:

Ejemplo 12: Cul sera la moda del siguiente conjunto de valores? {0, 1, 2, 4, 5, 8}

La Moda no se usa a menudo como medida de tendencia central para datos cuantitativos. Sin embargo
la Moda es LA medida de tendencia central que puede ser calculada en datos cualitativos.

En el caso de datos agrupados donde se haya construido una curva de frecuencias para ajustar los datos,
la moda ser el valor (o valores) de X correspondiente al mximo (o mximos) de la curva.

La moda puede deducirse de una distribucin de frecuencias o de un histograma a partir de la frmula
que se describe a continuacin.

Ya que por definicin la moda es la observacin que ocurre con mayor frecuencia, se hallar en la clase
que tenga la frecuencia ms alta, llamada la clase modal. Para estimar la moda en el caso de datos
agrupados, se utiliza la frmula.

Ho = I
mo
+_

u

b
+
u
_ C

Donde:

I
mo
= Lmite inferior de la clase modal.

u
= es la diferencia entre la frecuencia de la clase modal y la clase que antecede

b
= es la diferencia entre la frecuencia de la clase modal y la clase que sigue
C = amplitud de clase del intervalo modal


17
Ejemplo 13: Calcular el promedio, la mediana y la moda de los datos de la tabla de frecuencia de
pasajeros para New Airlines.

Clases n
i

50 59 3
60 69 7
70 79 18
80 89 12
90 99 8
100-109 2


Observaciones sobre la Media, Mediana y Moda

Si la distribucin de frecuencias de la variable es simtrica estas tres medidas coinciden.

Ejemplo 14: La siguiente tabla muestra la distribucin de frecuencia de los sueldos (en miles de pesos)
que reciben 150 empleados en una empresa.

Clases n
i

120 160 20
160 200 30
200 240 50
240 280 30
280 320 20

Calcule el promedio, la mediana y la moda de los sueldos de los trabajadores de esta empresa.

Nota: La media es muy influenciable por los valores extremos, por lo cual se recomienda que
cuando una distribucin es demasiado asimtrica se utilice la mediana, como medida de
tendencia central.

Diferentes medidas pueden dar diferentes impresiones

El promedio, la mediana y la moda representan tres mtodos diferentes para encontrar EL valor del
centro. Estos tres valores pueden ser un mismo valor pero a menudo son distintos. Cuando son
distintos, pueden servir para diferentes interpretaciones de los datos que queremos resumir.

Ejemplo 15: Considere el ingreso mensual de cinco familias en un barrio:

$120.000 $120.000 $300.000 $900.000 $1.000.000

a) Cul es el ingreso tpico de este grupo?
b) El ingreso mensual promedio es:
c) La mediana del ingreso mensual es:
d) La moda del ingreso mensual es:
e) Si usted est tratando de promover el barrio qu medida usara?
f) Si usted est tratando que bajen las contribuciones qu medida usara?
18
Ejemplo 16: Pensamiento crtico y medidas de tendencia central

Para cada uno de los siguientes ejercicios podemos calcular medidas de tendencia central como la
media y la mediana. Identifique una razn importante por la que, en estos casos, la media y la mediana
no son estadsticos que puedan servir de manera precisa y efectiva como medidas de tendencia central.

Cdigos postales: 12601; 90210; 02116; 76177; 19102
Clasificaciones de los niveles de estrs de distintos empleos: 1; 2; 3; 7; 9
Los sujetos encuestados se codifican de la siguiente manera segn la preferencia de club: 1 ( U.
de Chile), 2 (U. Catlica), 3 (Colo-colo), 4 (Palestino) o 5 (U. Espaola).

Ejemplo 17: Su firma est introduciendo un nuevo chip de computador del cual se promociona que
realiza clculos estadsticos mucho ms rpidamente que los que actualmente se encuentran en el
mercado. Se hacen veinte clculos diferentes, produciendo los tiempos en segundos que se ven ms
adelante. Aunque usted no puede tergiversar su producto, usted desea presentar los resultados de la
manera ms favorable para su empresa. Determine la media, la mediana y la moda. Comente los
beneficios relativos de utilizar cada estadstico.

3,2 4,1 6,3 1,9 0,6
5,4 5,2 3,2 4,9 6,2
1,8 1,7 3,6 1,5 2,6
4,3 6,1 2,4 2,2 3,3


Ejemplo 18: Una empresa grande de equipos deportivos est probando el efecto de dos planes
publicitarios sobre las ventas de los ltimos 4 meses. Dadas las ventas que se ven aqu, cul programa
de publicidad parece producir el crecimiento promedio ms alto en ventas mensuales?

Mes Plan 1 Plan 2
Enero 1.657.000 4.735.000
Febrero 1.998.000 5.012.000
Marzo 2.267.000 5.479.000
Abril 3.432.000 5.589.000

Los trminos usados para describir la forma de una distribucin son:

Simtrica: La distribucin puede ser dividida en dos partes alrededor de un valor central y cada
parte es el reflejo de la otra.
Sesgada: Un lado de la distribucin se alarga ms que el otro. La direccin del sesgo es la
direccin del lado ms largo.
Unimodal: La distribucin tiene un nico mximo que muestra el o los valores ms comunes en
los datos.
Bimodal: La distribucin tiene dos mximos. Esto resulta a menudo cuando la muestra proviene
de dos poblaciones.
Uniforme: Los valores posibles tienen la misma frecuencia.
19
Medidas de dispersin (variacin)

Las medidas de posicin por si solas, no son suficientes para describir las distribuciones, ya que ellas
no consideran la variabilidad de estas. Al comparar dos o ms distribuciones puede suceder que estas
tengan el mismo promedio, pero que la dispersin de los valores observados no sea la misma.

Las medidas de tendencia central son tiles pero nos dan una interpretacin parcial de los datos.


Ejemplo19: Analizaremos los tiempos de espera de los clientes en tres bancos diferentes. En el primer
banco, el gerente controla de forma muy cuidadosa los tiempos de espera modificando el nmero de
cajeros segn sea necesario. En el segundo banco, todos los clientes esperan en una sola fila y son
atendidos por los cajeros disponibles. En el tercer banco hay una fila para cada ventanilla. A
continuacin se muestran los tiempos de espera (en minutos) especficos de los clientes,



Construya un grfico para la situacin de cada banco y analice.


Ejemplo 20: Considere los dos siguientes conjuntos de datos, del nmero de unidades producidas por
dos operarios, a Ud. la gerencia le solicitar realizar una recomendacin para un ascenso A quin
recomienda Ud.?

Operario 1: 55, 56, 57, 58, 59, 60, 60, 60, 61, 62, 63, 64, 65
Operario 2: 35, 40, 45, 50, 55, 60, 60, 60, 65, 70, 75, 80, 85


Las medidas de dispersin son las siguientes:

Rango o Amplitud

Si la variable no est tabulada en intervalos el rango se define como la diferencia entre el valor mximo
y el valor mnimo, de los valores observados.
R = x
mux
x
mn


Rango o Amplitud para datos tabulados en intervalos

X
X X X X X X X
X X X X X X X X X X X
X X X X X X X X X X X X X X X X X X X X X X
20 21 22 23 24 25 26 27 28 29 30 20 21 22 23 24 25 26 27 28 29 30

Cliente
1 2 3
Banco 1 6 6 6
Banco 2 4 7 7
Banco 3 4 1 13
20
Analice cuales podran ser las ventajas y desventajas del rango como medida de variabilidad.

Si la variable est tabulada en intervalos el rango o amplitud se define de la siguiente forma:

1
I S Rango
k
=

Nota: Aunque el rango es la medida de dispersin ms fcil de calcular, casi nunca se usa como la
nica medida de dispersin. La razn es que se basa slo en dos de las observaciones y, por
consiguiente est muy influido por los valores extremos de los datos.


Varianza (Var(X))

La varianza es una medida de la dispersin que emplea todos los datos. Se basa en la diferencia entre el
valor de cada observacin (x
i
) y la media. La diferencia entre cada x
i
y la media, se llama desviacin
respecto al promedio. Para calcular la varianza, las desviaciones respecto al promedio se elevan al
cuadrado.

Si x
1
, x
2
, . . . , x
2
denota una muestra de n observaciones, la varianza muestral se denota por:

s
2
=
(x

x )
2
n 1


La desviacin estndar muestral, denotada por s , es la raz cuadrada de la varianza: s = s
2


La desviacin estndar poblacional, se denota por la letra Griega (sigma), es la raz cuadrada de la
varianza poblacional y se calcula como:

o =

o
2
=
_
(x

p)
2
N


Sea X una variable cuantitativa y sea x
1
, x
2
,..., x
n
una muestra de tamao n de observaciones de la
variable.

Ejemplo 21: El siguiente conjunto de datos entrega en nmero de ausentes durante 20 das en cierta
empresa, obtenga la varianza:

0, 2, 1, 1, 0, 0, 1, 1, 2, 3, 0, 1, 3, 2, 1, 1, 0, 0, 1, 2

Varianza para datos tabulados: Si los datos estn tabulados, la varianza muestral se define como sigue:

s
2
=
n

(x

x )
2
n 1


Y la varianza poblacional
o
2
=
n

(x

p)
2
N

21


Y para desarrollar de forma ms prctica el clculo se utiliza la expresin, para la varianza muestral:

s
2
=
n

2
n 1
(x )
2


Y la varianza poblacional
o
2
=
n

2
N
(p)
2



Ejemplo 22: Calcular la varianza para los ejercicios anteriores.


Desviacin Estndar

Es una medida de la dispersin de las observaciones a la media. Es un promedio de la distancia de las
observaciones a la media









Ejemplo 23: Recordemos los datos de cuotas impagas en la muestra de 10 clientes de una tienda de
retail:

Cliente 1 2 3 4 5 6 7 8 9 10
Nmero de cuentas impagas 2 3 0 1 4 0 3 0 1 2

La desviacin estndar muestral es entonces:

Interpretacin
Pensemos la desviacin estndar como aproximadamente un promedio de las distancias de las
observaciones a la media.

Si todas las observaciones son iguales, entonces la desviacin estndar es cero.

La desviacin estndar es positiva y mientras ms alejados estn los valores del promedio, mayor ser
la desviacin estndar.




0 1 2 3 4 5 6 7
mean=4
deviation = -4
deviation =1
deviation = 3
22
Notas:

La varianza y la desviacin estndar no son medidas de variabilidad distintas, debido a que la
ltima no puede determinarse a menos que se conozca la primera.

A menudo se prefiere la desviacin estndar en relacin con la varianza, porque se expresa en
las mismas unidades fsicas de las observaciones.

Una aproximacin (referencial) al valor de la desviacin estndar es el Rango dividido en 4.
S
R
4


As como el promedio es una medida de tendencia central que no es resistente a las
observaciones extremas, la desviacin estndar, que usa el promedio en su definicin, tampoco
es una medida de dispersin resistente a valores extremos.

Tenemos argumentos estadsticos para demostrar porque dividimos por n 1 en vez de n en el
denominador de la desviacin estndar muestral.


Coeficiente de Variacin (CV(X)):

En algunos casos nos puede interesar una medida estadstica descriptiva que indique lo grande que es la
desviacin estndar en comparacin con la media. El coeficiente de variacin es una medida relativa de
variabilidad, porque evala la desviacin estndar en relacin con la media, y se calcula como sigue:

C. I. (x) =
s
x


Aplicaciones del Coeficiente de Variacin, comparar la variabilidad de dos distribuciones de una
misma variable con unidades distintas.

Ejemplo 24: En un curso de 20 alumnos se midi la estatura (en cm.) y el peso (en kg.), obtenindose la
siguiente informacin:
Estatura Peso
Promedio 135 24,8
Desviacin
estndar
30 8,3

Qu distribucin tiene mayor variabilidad?, o bien, se puede preguntar: Qu distribucin es ms
heterognea?


Regla Emprica:

Una regla til para interpretar los valores de una desviacin estndar es la regla emprica. Esta regla
establece que las siguientes propiedades se aplican a conjuntos de datos con una distribucin
aproximadamente normal.

23
Entonces, para cualquier distribucin Normal se cumple que:

68,3% de las observaciones se encontrarn a una desviacin estndar de la media
95,4% de las observaciones se encontrarn a dos desviaciones estndar de la media
99,7% de las observaciones se encontrarn a tres desviaciones estndar de la media

Teorema de Chebyshev

Otro indicador es el teorema de Chebyshev que calcula la proporcin (o fraccin) de cualquier conjunto
de datos que est dentro de K desviaciones estndar a partir de la media siempre es al menos 1 1
K
2
, donde K es cualquier nmero positivo mayor que 1.

Para K= 2 y K= 3 tenemos las siguientes aseveraciones, respectivamente:

Al menos 3/4 (o el 75%) de todos los valores estn dentro de 2 desviaciones estndar de la
media.

Al menos 8/9 (o el 89%) de todos los valores estn dentro de 3 desviaciones estndar de la
media.

El teorema de Chebyshev, en vez de limitarse a conjuntos de datos con distribuciones normales, se
aplica a cualquier conjunto de datos, pero sus resultados son muy aproximados. Como los resultados
son lmites inferiores (al menos), este teorema tiene una utilidad limitada.


Ejercicios 2: Conocimientos estadsticos y pensamiento crtico


1. Variacin. Por qu la desviacin estndar se considera una medida de variacin? Describa con
sus propias palabras las caractersticas de un conjunto de datos medido con la desviacin
estndar.

2. Comparacin de la variacin. Cules datos cree usted que tengan mayor variacin: las
puntuaciones de CI de 30 estudiantes de un curso de estadstica o las puntuaciones de CI de 30
individuos que ven una pelcula? Por qu?

3. Valor infrecuente? Un profesor de estadstica aplica un examen que tiene una media de 4,5 y
una desviacin estndar de 0,8. Un estudiante obtiene una calificacin de 6,5 en el examen. En
este contexto, la calificacin de 6,5 es poco comn? Por qu?

4. Enunciado correcto? En el libro How to Lie with Charts, Gerald E. Dones escribe que la
desviacin estndar suele definirse como ms o menos la diferencia entre la puntuacin ms alta
y la media, y la puntuacin ms baja y la media. Por ejemplo, si la media es 1, el valor ms alto
es 3 y el valor ms bajo es 1. La desviacin estndar es 2. Es correcto este enunciado?
Por qu?



24
5. Percepcin del tiempo. Algunos estudiantes de estadstica participaron en un experimento que
intentaba probar su capacidad para determinar el transcurso de 1 minuto (o 60 segundos). A
continuacin se presentan los resultados en segundos. Identifique al menos una buena razn por
la que la desviacin estndar de esta muestra no sera un buen estimado de la desviacin
estndar de la poblacin de adultos.

53 52 75 62 68 58 49 49

6. Giser del Tatio. Abajo se indican los intervalos (en minutos) entre las erupciones del giser del
Tatio en la regin de Antofagasta. Con base en los resultados, es poco comn un intervalo de
100 minutos?

98 92 95 87 96 90 65 92 95 93 98 94

7. Exactitud del pronstico del clima. En un anlisis de la exactitud del pronstico del clima se
comparan las temperaturas mximas reales con las temperaturas mximas pronosticadas un da
anterior y con las temperaturas mximas pronosticadas cinco das antes. Ms abajo se sealan
los errores entre las temperaturas pronosticadas y las temperaturas mximas reales para das
consecutivos en Santiago. La desviacin estndar sugiere que las temperaturas pronosticadas
un da antes son ms exactas que las pronosticadas cinco das antes, como se esperara?

(real) (pronosticada un da antes) 2 2 0 0 -3 -3 1 -2 8 1 0 -1 0 1
(real) (pronosticada cinco das antes) 0 -3 2 5 -6 -9 4 -1 6 -2 -2 -1 6 -4

8. Regla emprica. Las estaturas de un grupo de hombres tienen una distribucin normal, con una
media de 176 cm y una desviacin estndar de 7 cm. Por medio de la regla emprica,

a. cul es el porcentaje aproximado de hombres entre 169 cm y 183 cm?
b. cul es el porcentaje aproximado de hombres entre 155 cm y 197 cm?


25
Medidas de posicin relativa

Aunque la varianza y la desviacin estndar son las medidas de dispersin ms tiles en anlisis
estadstico, existen otras tcnicas con las cuales puede medirse la dispersin de un conjunto de datos.
Estas medidas adicionales de dispersin o posicin relativa son los cuartiles, los deciles y los
percentiles.


Definicin: Las medidas de posicin relativa son medidas que describen la posicin que tiene un
valor especfico en relacin con el resto de los datos.

Cada conjunto de datos tiene tres cuartiles que lo dividen en cuatro partes iguales. El primer cuartil es
ese valor debajo del cual clasifica el 25% de las observaciones, y sobre el cual puede encontrarse el
75% restante.

El segundo cuartil es justo la mitad. La mitad de las observaciones estn por debajo y la mitad por
encima; en este sentido, es lo mismo que la mediana.

El tercer cuartil es el valor debajo del cual est el 75% de las observaciones y encima del cual puede
encontrarse el 25% restante. La determinacin de cuartiles con frecuencia es de utilidad.

Los deciles separan un conjunto de datos en 10 subconjuntos iguales, y los percentiles en 100 partes.

Ejemplo 25: Si su nota estuvo en el percentil 84, entonces el 84% de las notas fueron inferiores a la
suya y el 16% superiores.

Vale la pena destacar que los datos han sido puestos en una serie ordenada. El lugar del P-simo
percentil se halla. Ubicacin del percentil:

I
p
= (n +1)
P
1uu

Donde:
I
p
= lugar del percentil en la serie ordenada de los datos
n = nmero de observaciones
P = Percentil a calcular


Ejemplo 26: Para ilustrar el clculo de percentiles, se asume que se tienen observaciones para el
nmero de acciones correspondientes a 50 acciones transadas en la Bolsa de Valores de Santiago, como
se muestra en la tabla. Se desea calcular el percentil 25, para las acciones; se debe hallar primero su
ubicacin en la serie ordenada.

3 10 19 27 34 38 48 56 67 74
4 12 20 29 34 39 48 59 67 74
7 14 21 31 36 43 52 62 69 76
9 15 25 31 37 45 53 63 72 79
10 17 27 34 38 47 56 64 73 80
26
El valor resultante de 12,75 dice que el percentil 25 est ubicado al 75% del trayecto comprendido
entre la doceava observacin, que es 20 y la treceava observacin que es 21. Por lo tanto el Percentil 25
es P2S =
20+21
2
= 2u,S 21, por criterio de aproximacin.

Ejemplo 27: Calcular para el nmero de acciones transadas (tabla anterior): el cuartil 3, el sexto decil y
el percentil 35.

Rango entre cuartiles

Una medida nica de dispersin es el rango o recorrido intercuartlico. El RQ es la diferencia entre
el tercer cuartil y el primer cuartil. La mitad de las observaciones se clasifican dentro de este rango.
Consta del 50% de la mitad de las observaciones y corta el 25% inferior y el 25% superior de los
puntos de datos. Como resultado, el RQ proporciona una medida de dispersin que no est muy
influenciada por unas cuantas observaciones extremas.

Por definicin, la diferencia entre el tercer cuartil y el primer cuartil se llama rango entre cuartiles,
denotado por:
R =
3

1
.

El rango entre cuartiles mide la variabilidad de la mitad central de los datos.

Notas:
Cuando el nmero de observaciones es impar, la observacin del medio es la mediana. Esta
observacin no se incluye luego en los clculos de Q
1
y Q
3
.
Pueden encontrar diferentes frmulas en libros, calculadoras o computadores, pero todas estas
frmulas se basan en el mismo concepto.
Si la distribucin es simtrica, los cuartiles deben estar a la misma distancia de la mediana.


Ejemplo 28: Los datos presentados son el nmero de ventas en una confitera en 20 das son:

32 37 39 40 41 41 41 42 42 43 44 45 45 45 46 47 47 49 50 51

Determine el Rango entre cuartiles (RQ) y analice su resultado.

Percentiles para datos agrupados: Corresponden a medidas de orden, que dividen a la muestra en
forma ordenada en grupos de igual tamao. Su frmula para datos tabulados es la siguiente:
Denotemos por P

el percentil i-simo con i=1, 2, 3,...,100



P

= I

+_
n i
1uu
N

n
md
_ C
Donde:
I
p
= Lmite inferior de la clase del intervalo que contiene el percentil i
n = nmero de datos (frecuencia total)
N

= frecuencia absoluta acumulada anterior al intervalo que contiene el percentil i.


n

= frecuencia absoluta del intervalo que contiene el percentil i


C = amplitud de clase del intervalo que contiene el percentil i
27
Qu es Variabilidad?


Considere los 4 conjuntos de datos
siguientes y sus histogramas:

Datos I:
2 3 3 3 4 4 4 4 5 5 5 5 5

Datos II:
3 3 3 3 3 4 4 4 4 5 5 5 6

Datos III:
2 3 3 4 4 4 4 4 4 4 5 5 6

Datos IV:
3 3 3 3 3 3 4 5 5 5 5 5 5



Ejemplo 29: Calculemos las siguientes medidas de variabilidad para los datos anteriores

Medidas de variabilidad I II III IV
Rango
Rango entre cuartiles
Desviacin Estndar

Nota:

El recorrido intercuartlico es particularmente til cuando la variable es ordinal, como en el
ejemplo siguiente:


Ejemplo 30: La tabla siguiente muestra la experiencia laboral (en aos) de un grupo de personas que
postulan a un empleo.

Experiencia Laboral
(en aos)
n
i

0 - 3 30
3 - 5 23
5 - 6 20
6 - 8 15
8 - 9 8
9 - 10 27

a.- Clasificacin de la variable segn nivel de medicin y tamao de recorrido.
2 3 4 5 1 6
2
4
6
Distribution I
2 3 4 5 1 6
2
4
6
Distribution II

2 3 4 5 1 6
2
4
6
Distribution III
2 3 4 5 1 6
2
4
6
Distribution IV
28
b.- Medida de posicin ms adecuada.
c.- Graficar adecuadamente esta informacin.
d.- Calcular e interpretar el percentil 5.
d.- Calcular e interpretar el percentil 78.
e.- Calcular e interpretar el rango intercuartlico.


Diagramas de caja (boxplot):

El diagrama de caja se construye de la siguiente manera:

1. Dibujar la caja que empieza en el primer y termina en el tercer cuartil.
2. Dibujar la mediana con una lnea dentro de la caja.
3. Por ltimo se extienden las lneas, llamadas bigotes, saliendo de la caja hasta el mnimo y el
mximo.

Los grficos de caja son muy tiles para comparar distribuciones de dos o ms grupos. En la presencia
de valores extremos, los bigotes se extienden hasta el valor observado anterior al valor extremo.

Valores extremos: son valores que se alejan del conjunto de datos


Regla para identificar valores o datos extremos:

Vamos a definir una observacin xi como extrema, si:

xi < 1 1,SR o xi > S + 1,SR

Donde el xi

sern las primeras y ltimas observaciones en la serie ordenada de los datos.

Ejemplo 31: Construyamos el Box-plot para los datos del nmero de ventas en la confitera. Tiene
valores extremos, la variable nmero de ventas en una confitera en 20 das son?

32 37 39 40 41 41 41 42 42 43 44 45 45 45 46 47 47 49 50 51


Sntesis general


En resumen, cuando queremos describir una variable usamos alguna medida de posicin central y una
medida de dispersin. El par de medidas ms comnmente usado es el promedio y la desviacin
estndar. Pero vimos que cuando la distribucin de las observaciones es sesgada, el promedio no es una
buena medida de posicin central y preferimos la mediana. La mediana en general va acompaada del
rango como medida de dispersin. Pero cuando observamos valores extraos (extremos) el rango se ve
muy afectado, por lo que preferimos usar el rango entre cuartiles.



29
Medida de
tendencia
central
Medida de
dispersin
Uso en
distribuciones
Ventajas Desventajas
Promedio
Desviacin
estndar
Simtricas
Buenas propiedades, muy
usados.
Sensible a valores
extremos.
Mediana Rango
Sesgadas, sin
valores extremos
Mediana robusta a valores
extremos. Rango muy
conocido, fcil de entender.
Rango sensible a
valores extremos.
Mediana
Rango entre
cuartiles
Sesgadas con
valores extremos
Medidas robustas a valores
extremos.
El rango entre
cuartiles no es muy
conocido.




EJERCICIOS

1.- Consideremos algunas caractersticas de un grupo de doce personas.

Edad ( aos): 22, 24, 25, 26, 27, 28, 28, 29, 30, 31, 33, 34

Ingreso diario: $8000 ; $8200; $9000; $10.000; $11.000; $12.000; $12.300 ; $12.500;
$13.000; $13.500; $88.000; $100.000

Nmero de zapatos: 30; 35 ; 35; 35; 35; 35; 40; 40; 42; 46; 48; 48

Selecciona la medida de tendencia central ms apropiada para cada una de las variables


2.- La siguiente tabla muestra la distribucin de las edades segn sexo, de los trabajadores de una
empresa.
Edad (aos) Hombres Mujeres
21 - 25 2 3
25 - 35 53 60
35 - 45 60 37
45 - 60 25 18



Qu distribucin tiene menor variabilidad? o Qu distribucin es ms homognea?


30
3.- Consideremos la distribucin de frecuencias de los 210 dispositivos en el control de calidad,
distribuidos como lo muestra la siguiente tabla:


Intervalo
Marcas de
clase
Frecuencia
Absoluta
Frecuencia
Absoluta
Acumulada
Frecuencia
Relativa
Frecuencia
Relativa
Acumulada
350 400
400 450
450 500
500 550
550 600
600 650
650 700
700 750
750 800
800 - 850
4
6
9
20
31
80
42
10
8
2


Determine:
a) Dibuje en un solo grfico, el histograma y el polgono de frecuencias.
b) Calcule la media aritmtica, la mediana y la moda.
c) Qu % de estos dispositivos se encuentran entre 550 y 750?

4.- En una industria dos operarios en siete das de trabajo, son capaces de producir, por da, y en forma
individual las siguientes cantidades de rboles para fresa de 250 mm de longitud por 300 mm de
dimetro.
Operario A 105 106 104 102 103 100 101
Operario B 103 102 107 101 105 102 103

Determine:
a) Produccin media de cada operario
b) Moda del operario A.
c) Mediana del operario B.
d) Rango del operario A y del operario B.
e) Varianza del operario A.
f) Desviacin estndar de ambos operarios.
g) Son las muestras homogneas?


5.- Una distribucin de datos se dice que es simtrica si Media=Mediana=Moda. Demuestre que la
siguiente distribucin de datos es simtrica. Adems compare la variabilidad utilizando: la deviacin
estndar y el RQ.

Intervalos 160 162 163 165 166 168 169 171 172 174 175 177 178 - 180
n
i
3 5 7 10 7 5 3

31
6.- A cada persona que se presenta como candidato para un trabajo de ensamble es una empresa de
muebles, se le aplica una prueba de aptitudes mecnicas. Una parte de la prueba consiste en ensamblar
un armario con base e instrucciones numeradas. En la siguiente distribucin de frecuencias se tiene una
muestra de los tiempos que necesitaron 42 personas para ensamblar el armario.


Tiempo (minutos) n
i
N
i
p
i
P
i
X
i

1 4 4
5 7 8
8 10 14
11 13 9
14 16 5
17 - 19 2


a) Cul es la amplitud total?
b) Cul es el tiempo medio de la 5ta clase?
c) Cuntas personas ensamblaron el armario en menos de 10 minutos?
d) Qu porcentaje de las personas a lo ms tard 16 minutos en ensamblar el armario?
e) Cuntas personas tardaron, en promedio, 5 minutos y medio?
f) Interprete n
2,
, N
4
, P
3

g) Defina mediante estadstico adecuado si existe sesgo.
h) En base a la distribucin Normal, cmo podemos caracterizar la muestra?

7.- La siguiente informacin nos proporciona el nmero de causas que ingresan en un da determinado
a la corte de apelaciones, presentadas por 50 abogados de diferentes empresas:


5 12 8 25 4 10 15 23 2 0
8 3 15 18 14 9 6 7 6 21
4 11 7 9 12 14 10 11 14 4
10 15 4 8 5 12 11 14 8 9
20 17 14 11 3 4 1 18 12 10


Con la informacin anterior construya una tabla de distribucin de frecuencias. Cul es el valor tpico
de tendencia central adecuado para representar el nmero de causas? Formule un anlisis detallado.
Observacin: Calcule la Media, Moda, Mediana y Varianza, adems, construya un histograma.


8.- En una empresa que presta servicios computacionales, donde trabajan 350 empleados, se ha
estudiado el ingreso mensual, obtenindose los siguientes datos separados por sexo.





32
Ingreso
(miles de pesos)
Hombres Mujeres
220 240 40 40
240 260 85 10
260 280 85 10
280 - 300 40 40

En cul grupo de empleados, es ingreso est distribuido en forma ms homognea? Compare.

9.- Los siguientes datos representan una lista de puntajes en un examen de estadstica de 40 alumnos,
que tena un total de 100 puntos.

a) Construya la tabla de frecuencias.
b) Determine mediante el uso de estadgrafos si existe sesgo en la muestra.
c) Cul es el intervalo de puntajes comunes o esperados segn la variabilidad?
d) Calcular Q3, P30 y P75.
e) Grafique la informacin entregada (histograma y box-plot), realice una comparacin con los datos
obtenidos en la pegunta c).

63 88 79 92 86 87 83 78 41 67
68 76 46 81 92 77 84 76 70 66
77 75 98 81 82 81 87 78 70 60
94 79 52 82 77 81 77 70 74 61

10.- En una clnica veterinaria se examin a 35 perros de la comuna, encontrndose la siguiente
informacin respecto de la cantidad de parsitos que tena cada uno, en los meses estivales. La
autoridad sanitaria indica que si los estadsticos indican que los valores estimados son mayores a 3
parsitos, es necesario implementar un plan de sanitizacin canina. Ocurre esta situacin?

6 5 3 3 4 0 2
4 3 1 7 2 3 5
1 1 3 2 5 0 1
2 2 4 6 3 1 6
3 1 2 0 2 1 3

a) Clasifique la informacin en una tabla de frecuencias.
b) Cul es el rango de parsitos esperados y cul es el lmite?
c) Qu porcentaje de perros no tena parsitos?
d) Cuntos perros tenan menos de 4 parsitos?
e) Cuntos perros tenan ms de 3parsitos?
f) Grafique los datos en una ojiva de porcentajes.
g) Construya un box-plot y de informacin de la prevalencia de los parsitos

11.- Los datos financieros con frecuencia estn contenidos en un grfico de mximos - mnimos y al
cierre. Como su nombre lo indica, muestra el valor ms alto, el valor ms bajo y el valor al cierre de los
instrumentos financieros como por ejemplo las acciones. Confeccione un grfico basado en los datos
tomados de The Wall Street Journal para el ndice Dow Jones respecto a 15 acciones durante un
33
perodo de cinco das con base en los siguientes datos, compare los valores mximos mnimos y de
cierre utilizando elementos estadsticos.

Da Mximos Mnimos Cierre
1 181,07 178,17 178,88
2 180,65 178,28 179,11
3 180,24 178,17 179,35
4 182,79 179,82 181,37
5 182,14 179,53 181,31