APLICADA
Estadstica Aplicada
Introduccin
Cualquiera que sea la actividad que realiza una persona, siempre se enfrentar al reto de
tomar decisiones. Cada da, iniciamos un juego en decisiones que va de la mano con
nuestro trabajo diario. Del mismo modo, para la gestin diaria de una empresa, de un
sector, de un pas, etc. se requiere tomar continuamente decisiones; por ejemplo, para
dar una medida econmica sobre modificacin de aranceles a los productos importados
se pueden tener algunas interrogantes como: De qu manera afectaran las medidas a
otros sectores productivos? Generarn condiciones favorables para una mejora en la
tecnologa? Permitirn generar una mayor oferta de trabajo?, etc. Para tomar una
decisin al respecto es necesario tener informacin sobre el comportamiento de los
diferentes sectores econmicos y de la forma como se relacionan entre s. Obviamente,
para esto se requiere disponer de datos apropiados (suficientes, oportunos y de buena
calidad), de metodologas y procesos que permitan alcanzar el conocimiento deseado de
la realidad sobre la cual se tomaran decisiones. La estadstica tambin brinda apoyo a
otras ciencias mediante el desarrollo de procesos dirigidos a la aceptacin y anlisis de
datos; de esta manera, se pueden asociar ciertos niveles de confiabilidad con los
procesos de toma de decisiones.
Estadstica Aplicada
PRINCIPALES DEFINICIONES
1. ESTADSTICA
Ciencia que proporciona un conjunto de mtodos y tcnicas que se utilizan para
recolectar, organizar, presentar, analizar e interpretar el comportamiento de
los datos con respecto a una caracterstica materia de estudio e investigacin.
En primer lugar se encarga de obtener informacin, describirla y luego en base a
esta informacin, realizar predicciones y una ptima toma de decisiones frente a la
incertidumbre.
El objeto de estudio de la Estadstica ES EL ESTUDIO DE LOS DATOS: Hacer
una inferencia ptima a partir de los datos, para la toma de decisiones.
1.1. QUIN UTILIZA LA ESTADSTICA?
Las tcnicas estadsticas se aplican de manera muy general en mercadotecnia,
contabilidad, control de calidad, estudio de consumidores, administradores de
instituciones, en la educacin, rganos polticos, en la medicina y por
diferentes profesionales que intervienen en la toma de decisiones.
1.2. DIVISIN DE LA ESTADSTICA: El campo de la estadstica generalmente
est divido en dos grandes reas: Estadstica Descriptiva o Deductiva y
Estadstica Inferencial o Inductiva.
1.2.1. ESTADSTICA DESCRIPTIVA:
Es el conjunto de mtodos que implican la recoleccin, presentacin y
caracterizacin de un conjunto de datos a fin de describir en forma
apropiada las diversas caractersticas de estas. Es decir, un estudio
estadstico se considera descriptivo cuando slo se analiza y
describe un conjunto datos de una muestra o de una poblacin sin
sacar conclusiones de tipo general.
1.2.2. ESTADSTICA INFERENCIAL:
La inferencia estadstica es un conjunto de mtodos o tcnicas que
posibilitan la generalizacin o toma de decisiones en base a una
informacin parcial obtenida mediante tcnicas descriptivas.
En este aspecto es inferir o predecir conclusiones que ataen a toda
fuente de informacin de donde provienen los datos. Ahora bien esta
prediccin se hace con un cierto grado de confianza; este grado de
confianza se mide por la probabilidad.
2. OBJETIVOS GENERALES DE LA ESTADSTICA:
La estadstica tiene tres objetivos:
2.1 Describir colecciones de datos empricos
2.2 Inferir las propiedades de una poblacin.
2.3 Realizar predicciones sobre el comportamiento de fenmenos.
2
Estadstica Aplicada
El muestreo estadstico.
La estimacin estadstica.
El clculo de probabilidades.
Las pruebas estadsticas.
Estadstica Aplicada
POBLACIN
(N)
POBLACIN
OBJETIVO
MUESTRA (n)
UNIDAD
ANLISIS
CENSO
CARACTERES
Estadstica Aplicada
VARIABLE
ESTADSTICA
OBSERVACIO
NES
PARMETROS.
ESTADGRA
FOS.
Estadstica Aplicada
Estadstica Aplicada
Estadstica Aplicada
Estadstica Aplicada
4.10. EL ANLISIS
La tcnica estadstica ofrece mtodos y procedimientos objetivos que
convierten las especulaciones de primera mano en aseveraciones cuya
confiabilidad puede ser evaluada y ofrecer una premisa medible en la toma de
una decisin.
Es el anlisis donde se cristaliza la investigacin. Esta es la fase de la
determinacin de los parmetros y estadsticos muestrales para las
estimaciones e inferencias respecto a la poblacin, el ajuste de modelos y las
pruebas de las hiptesis planteadas, con el fin de establecer y redactar las
conclusiones definitivas.
4.11. PUBLICACIN
Toda conclusin es digna de ser comunicada a un auditorio. Es ms, hay otros
estudiosos del mismo problema a quienes se les puede aportar informacin,
conocimientos y otros puntos de vista acerca de l.
Ejemplo:
reportes financieros
Reportes de operaciones, que estn dadas por la informacin de la
produccin, compras, ventas, estados de prdida y ganancias.
Reportes especiales, es la informacin adicional para el anlisis
estadstico.
Estadstica Aplicada
PROCEDIMIENTOS
PARA
RECOLECTAR
Estadstica Aplicada
11
Estadstica Aplicada
Ejemplo.
Las horas extras trabajadas por los trabajadores de una empresa y los valores de esta
variable vendran dadas por las diferentes horas trabajados por cada trabajador fuera
de la jornada normal: ninguna, una, dos, tres, .
Notacin. Las variables se denotaran por X, Y, etc.
Las variables se clasifican en: cualitativas y cuantitativas.
VARIABLE CUALITATIVA.
Se llama as, cuando la variable est asociada a una caracterstica cualitativa. Es
decir, son variables cuyos valores son cualidades que presenta la poblacin.
Ejemplos.
La variable profesin puede adoptar las modalidades: Ingeniero, Mdico,
Bilogo, Contador, Economista, etc.
Calidad de servicio del supermercado (Malo, Bueno, Muy Bueno, Excelente)
Estado civil o conyugal (Soltero, Casado, Viudo, Divorciado, Conviviente)
Rgimen de tenencia de la vivienda (Propia, Alquilada)
Estos datos a su vez se clasifican en: Nominales y ordinales
VARIABLE CUALITATIVA NOMINAL: Son aquellos que establecen distincin
de los elementos en las categoras sin implicar orden entre ellos.
Ejemplo:
Clasificar un grupo de individuos por sexo: masculino, femenino.
Por estado civil: soltero, casado, viudo. Etc.
VARIABLE CUALITATIVA ORDINAL.
Son aquellos datos que agrupan a los objetos, individuos, en categoras ordenadas,
para establecer relaciones comparativas. Es decir, se puede establecer un orden entre
sus atributos.
Ejemplo.
Calidad de servicio del supermercado (Malo, Bueno, Muy Bueno, Excelente)
Nivel de educacin (primaria, secundaria, superior).
VARIABLE CUANTITATIVA: Es el resultado de un proceso que cuantifica, es
decir, estas surgen cuando se puede establecer cuanto o en que cantidad se posee
una determinada caracterstica.
Ejemplo:
Ingreso por familia
Nmero de ventas diarias de cierto establecimiento.
Nmero total de habitaciones que tiene la vivienda.
Longitud, tiempo, etc.
Las variables cuantitativas se dividen en discretas y continuas.
12
Estadstica Aplicada
Estadstica Aplicada
Estadstica Aplicada
MTODOS DE MUESTREO.
Ya hemos hecho referencia a la importancia de la correcta eleccin de la muestra para
que sea representativa para nuestra poblacin pero cmo clasificamos las diferentes
formas de elegir una muestra? Podemos decir que hay dos tipos de muestreo:
Muestreo probabilstico: Es aquel en el que cada muestra tiene la misma
probabilidad de ser elegida de la poblacin en estudio.
Muestreo no probabilstico: Corresponden a las muestras en las cuales no hay
forma de conocer la probabilidad de los elementos de la poblacin y ser
incluidos como parte de la muestra.
Fortalezas y debilidades de los mtodos de muestreo:
MUESTREO PROBABILSTICO
FORTALEZAS
DEBILIDADES
Es aceptado con facilidad
Requiere de costos, marcos de muestreo
Asegura representatividad
Requiere de trabajos de campo costosos
Asegura muestras insesgadas
Requiere de supervisin rigurosa
Los resultados son generalizables
Permite calcular el error de muestreo
Permite hacer inferencias estadsticas
Probabilidad conocida de elegir a la
unidad como parte de la muestra
MUESTREO NO PROBABILSTICO
FORTALEZAS
Bajo costo y requiere menor tiempo
Elige solo a las unidades queridas
Permite entrar informacin inesperada
Diseo y cobertura flexible e informal
DEBILIDADES
No permite calcular errores de muestreo
Sus resultados no son generalizables
Pueden ser rechazadas por los usuarios
Puede haber sesgo en la seleccin
No permite hacer inferencia estadstica
Requiere de personal muy especializado
La supervisin es difcil de realizar
Probabilidad no conocida de elegir a la
unidad como parte de la muestra.
Estadstica Aplicada
16
Estadstica Aplicada
Ejemplo.
Poblacin de alumnos matriculados en 5to. Ao de secundaria (N). N = 7 154
alumnos1.
Conociendo la poblacin de alumnos matriculados en 5to. Ao de secundaria.
La muestra inicial estara dado por:
Muestra inicial:
Donde:
N = tamao de la poblacin.
( 1) +
Entonces: N = 7 154
17
Estadstica Aplicada
=
=
365
1+
1+
= 347
Estadstica Aplicada
19
Estadstica Aplicada
Debe realizarse un estudio piloto antes que el formulario sea impreso de manera
definitiva, con el fin de probarlo y ver la operatividad del formulario y para darse cuenta
de las fallas que pueda tener y hacer las correcciones necesarias.
Se debe redactar las instrucciones de como anotar las respuestas.
Ver la validez y confiabilidad del instrumento de medicin (Encuesta).
CASO PRCTICO DE DISEO DE ENCUESTA
Proyecto Gimnasio Sport Time
Un grupo de inversionistas ha formado una mediana empresa llamada Sport Time, cuyo
negocio es el servicio de preparacin y mantenimiento fsico de las personas. De
acuerdo con sus experiencias empresariales, este gimnasio ser dirigido a los integrantes
del nivel socio econmico A y B de la ciudad de Tingo Mara, teniendo como rea de
influencia a la ciudad. Sin embargo les gustara poder contar con mayor informacin del
mercado con la finalidad de crear y ofrecer un centro deportivo de calidad, incorporando
los gustos y preferencia del futuro cliente.
Frente a esta necesidad, uno de los socios propuso realizar una investigacin de
mercado, propuesta que fue aceptada por todos para tal efecto se procedi a determinar
los parmetros que definen correctivamente las caractersticas de la poblacin que
conforma su mercado:
1.- El segmento estar compuesto por hombres y mujeres con edades entre 18 y 60 aos.
2.- El gimnasio estar orientado al segmento A y B de la ciudad de Tingo Mara.
Una vez determinado estos parmetros se considero que los ms convenientes para
realizar esta investigacin era aplicar una encuesta cuyo proceso de elaboracin implica
seguir los siguientes pasos:
A.- Definir el propsito y los objetivos especficos.
B.- Disear la encuesta.
20
Estadstica Aplicada
Solucin
OBJETIVOS ESPECIFICOS
CONSUMIDOR
Identificacin de hbitos
Intencin de compra
SERVICIO
COMPETENCIA
Identificacin de competidores
PRECIO
PREGUNTAS DE INVESTIGACIN
PREGUNTAS DE INVESTIGACIN
Acudes al gimnasio?
Por qu acudes al gimnasio?
Con que frecuencia vas al gimnasio?
Qu instalaciones utilizas con ms
frecuencia en el gimnasio?
A qu gimnasio acudes?
Desde cundo acude al gimnasio?
Asistiras a un gimnasio ubicado en
el centro de la ciudad?
PREGUNTAS DE INVESTIGACIN
Qu servicio te gustara encontrar
en el gimnasio?
Qu tipo de decoracin te
gustara encontrar?
PREGUNTAS DE INVESTIGACIN
Qu gimnasios conoces?
PREGUNTAS DE INVESTIGACIN
Cunto estara dispuesto a pagar
mensualmente por el servicio?
21
Estadstica Aplicada
6 : 00 am a 8 : 00 am
8 : 00 am a 10 : 00 am
10 : 00 am a 12 : 00 am
12 : 00 am a 2 : 00m
12 : 00 m a 4 : 00 pm
4 : 00 pm a 6 : 00 pm
6 : 00 pm a 8 : 00 pm
8 : 00 pm a 10 : 00 pm.
22
Estadstica Aplicada
LA
CONFIABILIDAD
DE
UN
Baja
Regular
Aceptada
0
0%
Elevada
1
100%
=
Donde:
)(
n = Nmero de parejas.
Xi : valores obtenidos en el momento 1
Yi : valores obtenidos en el momento 2
23
Estadstica Aplicada
Alumnos
Items
II
5
4
4
5
2
3
I
3
5
4
4
1
4
Campos (1)
Gmez (2)
Linares (3)
Rodas (4)
Saavedra (5)
Tafur (6)
III
5
5
5
3
2
3
=
)(
Impar Par
Xi
Yi Xi*Yi Xi2
8
5
40
64
10
4
40 100
9
4
36
81
7
5
35
49
3
2
6
9
7
3
21
49
44
23 178 352
Yi2
25
16
16
25
4
9
95
Reemplazando:
= 0.66
Coeficiente de fiabilidad
24
Estadstica Aplicada
1
Donde:
K
: Es el nmero de tems.
EJEMPLO:
Se tienen los resultados referidos a la opinin de 06 alumnos respecto a los tems
formulados en un cuestionario
Alumnos
Items
II
5
4
4
5
2
3
I
3
5
4
4
1
4
Campos (1)
Gmez (2)
Linares (3)
Rodas (4)
Saavedra (5)
Tafur (6)
III
5
5
5
3
2
3
PROCEDIMIENTO:
Paso 1: Calcular las varianzas de cada uno de los tems; en el cuadro de clculo.
Alumnos
Campos (1)
Gmez (2)
Linares (3)
Rodas (4)
Saavedra (5)
Tafur (6)
VAR. ( )
I
3
5
4
4
1
4
1.90
Items
II
5
4
4
5
2
3
1.37
III
5
5
5
3
2
3
1.77
Suma de Items
13
14
13
12
5
10
= 10.97
5.03
Estadstica Aplicada
Ejercicio 1. Con el fin de medir los niveles de actitud adversa hacia la fauna silvestre en
una comunidad rural, se propone aplicar la escala de medicin siguiente:
Asignando los puntajes de medicin a cada tem de ponderaciones iguales y partiendo
de 1 tenemos:
[1 = Nunca (N), 2 = Pocas Veces (PV), 3 = A veces (AV), 4 = Muchas Veces (MV), 5 =
Siempre (S)]
I3
I4
1
1
1
1
2
1
2
1
3
3
3
3
4
3
4
3
4
5
5
5
1.878
2.489
12.833
I5
2
2
2
2
3
3
5
5
5
5
2.044
I6
1
1
2
3
3
4
4
4
5
4
1.878
Total
8
7
10
12
18
18
24
24
29
29
= 70.54
= 0.982
Donde:
n: Es el nmero items incluidos en la escala de medicin =6
S2j: Variancia del j-simo item de la escala =12.833
S2x: Variancia del puntaje total obtenido a travs de la escala de medicin = 70.54
Comentario:
De 10 agricultores entrevistados la fiabilidad de las respuestas de los 6 items segn el
coeficiente alfa de Cronbach ( = 0.982), indica que las respuestas o resultados de los
individuos entrevistados son muy consistentes, es decir presenta una confiabilidad
aceptable.
Salida de SPSS vs 20.0:
[1 = Nunca (N), 2 = Pocas Veces (PV), 3 = A veces (AV), 4 = Muchas Veces (MV), 5 = Siempre (S)]
26
Estadstica Aplicada
Estadsticos de fiabilidad
Alfa de Cronbach
,982
N de elementos
6
I1
I1
I2
I3
I4
I5
I6
1,000
,929
,899
,906
,938
,803
,929
1,000
,979
,945
,938
,925
,899
,979
1,000
,905
,930
,893
,906
,945
,905
1,000
,867
,843
I6
,938
,938
,930
,867
1,000
,828
,803
,925
,893
,843
,828
1,000
2,139
1,878
2,489
,611
1,325
N de
elementos
,062
( .
= 0.974
27
Estadstica Aplicada
Comentario: se registra un alto ndice de fiabilidad para la alta consistencia interna que
se registra entre los tems pares e impares del instrumento.
Ejercicio 3. Encuentre los ndices de homogeneidad corregidos para cada tem.
Cuadro N 02: Distribucin de Agricultores entrevistados segn los niveles de actitud
adversa hacia la fauna silvestre en una comunidad rural Junio de 2012.
Encuesta
I1
I2
I3
I4
I5
I6
6
7
7
7
6
7
E1
6
6
6
6
5
6
E2
9
8
8
9
8
8
E3
10
10
10
11
10
9
E4
15
15
15
15
15
15
E5
16
15
15
15
15
14
E6
20
20
20
21
19
20
E7
20
20
20
21
19
20
E8
24
24
25
24
24
24
E9
24
24
24
24
24
25
E10
ndices de homogeneidad
0.932
0.991
0.963
0.929
0.938
0.885
corregidos para cada tem
Fuente: Elaboracin propia.
Interpretacin: El tem 6 es el menos relacionado con la prueba general.
Ejercicio 4. Un ndice de validez del cuestionario previsto.
En base la valoracin global efectuada por los entrevistados, estime:
Entrevista
1
2
3
4
5
6
7
8
9
10
Puntaje Calificativo
Total
Global
8
5
7
7
10
7
12
7
18
14
18
14
24
17
24
17
29
20
29
20
28
Estadstica Aplicada
Encuesta
E1
E2
E3
E4
E5
E6
E7
E8
E9
E10
I1
2
4
4
4
1
3
2
4
4
4
Cuestionario B
I2 I3 I4 I5 I6 I7
1 2 2 3 1 1
5 5 3 4 3 1
3 4 4 3 4 3
4 4 4 4 4 5
1 2 2 3 2 2
3 4 4 4 5 5
2 2 2 1 1 1
4 5 4 3 5 3
3 1 3 3 3 2
5 4 5 4 4 3
I8 Total
3 15
2 27
3 28
4 33
1 14
4 32
1 12
1 29
1 20
2 31
29
Estadstica Aplicada
CARACTERES CUALITATIVOS
FRECUENCIA
ABSOLUTA
SIMPLE
FRECUENCIA
RELATIVA
SIMPLE
fi
; 0
= 1, 2, 3, .
hi
=1; 0
Modalidadesde carcter A
Total.
fi
f1
f2
fk
hi
h1
h2
..
ak
= 1, 2, 3, .
..
..
a1
a2
1;
hk
=1
30
Estadstica Aplicada
CARACTERES CUANTITATIVOS
Tamao de la
muestra
Frecuencia
Absoluta
Frecuencia
Absoluta
Acumulada
fi
Fi
; 0
= 1, 2, 3, .
Frecuencia
Relativa
Frecuencia
Relativa
Acumulada
Hi
=1; 0
1.
=1
31
Estadstica Aplicada
Total.
hk
Hi
H1
H2
Fk=n
..
Fk
Fi
F1
F2
..
hi
h1
h2
..
xk
fi
f1
f2
..
..
En el primer caso no es
Xi
necesario agrupar los datos, y
x1
la tabla de distribucin presenta
x2
el siguiente aspecto (ordenando
los datos de menor a mayor) :
Hk=1
=1
En el segundo caso por tratarse de variable continua o discreta pero con un nmero de
datos muy grande, es aconsejable AGRUPAR LOS DATOS EN CLASES.
Rango (R).
=
Tabla de frecuencias de
una variable estadstica
agrupada en intervalos.
Intervalos
de clase
Hi
f1
f2
h1
h2
F1
F2
H1
H2
fk
hk
Fk=n
..
Fi
..
hi
..
Total.
xk
fi
..
[ak ak+1]
Xi
x1
x2
..
..
[a0 a1)
[a1 a2)
Marcas
de clase
Hk=1
=1
32
Estadstica Aplicada
Amplitud o rango.
Varianza.
Desviacin estndar.
Coeficiente de variabilidad.
MEDIDAS DE FORMA
33
Estadstica Aplicada
1. LA MEDIA ARITMTICA.
Para Datos no Agrupados.
1+ 2+ 3+
n
Ejemplo:
Durante los ltimos 32 das el valor de las compras (soles) en peridicos fue:
5.2 10.2 7.0 7.1 10.2 8.3 9.4 9.2 6.5 7.1 8.2
6.6 7.8 6.8 7.2 8.4 9.6 8.5 5.7 6.4 10.1 9.1
9.0 7.8 8.2 5.3 6.2 8.6 7.0 7.7 8.3 7.5
El promedio aritmtico del valor de las compras en peridicos es:
250.2
= 7.82
32
Rango (R).
=
= 10.2 5.2 = 5
Nmero de clases (m).
Determinamos atreves de la regla de sturges.
(32) = 5.97 6
= 1 + 3.3 Log( ) = 1 + 3.3
Amplitud de clases (C).
5
= = = 0.83
6
fi
3
5
6
8
5
5
32
hi
0.09
0.16
0.19
0.25
0.16
0.16
1
Fi
3
8
14
22
27
32
Hi
0.09
0.25
0.44
0.69
0.84
1.00
10
8
6
4
2
0
fi
Intervalo
[5.2 - 6.0)
[6.0 - 6.9)
[6.9 - 7.7)
[7.7 - 8.5)
[8.5 - 9.4)
[9.4 - 10.2]
Total
34
Estadstica Aplicada
5.62 3 + 6.45 5 +
32
+ 9.78 5
251.40
= .
32
Durante los 32 das el hotel tuvo un gasto promedio en peridicos de 7.86 soles
2. LA MEDIANA.
= 5.5
a mediana es:
= 7.7 +
0.83 = 7.9
El 50% de los das el hotel gast menos de 7.9 soles en la compra de peridicos.
35
Estadstica Aplicada
3. LA MODA.
Es el valor; clase o categora que ocurre con mayor frecuencia y sus caractersticas son:
Donde:
=(
Mo = 7 y 9 Serie bimodal
Mo = 6
Serie Unimodal
No tiene Moda o se dice que
)
=(
fi= valor de mayor frecuencia.
Ejemplo.
El gasto diario en peridicos del hotel *** agrupados en una tabla de
frecuencias.
Intervalo
[5.2 - 6.0)
[6.0 - 6.9)
[6.9 - 7.7)
[7.7 - 8.5)
[8.5 - 9.4)
[9.4 - 10.2]
Total
Donde:
= 7.7
= (8 6) = 2
= (8 5) = 3
Xi
5.62
6.45
7.28
8.12
8.95
9.78
fi
3
5
6
8
5
5
32
= 7.7 +
hi
0.09
0.16
0.19
0.25
0.16
0.16
1
Fi
3
8
14
22
27
32
Hi
0.09
0.25
0.44
0.69
0.84
1.00
2
0.83 = 8.03
2+3
Estadstica Aplicada
4. MEDIA GEOMTRICA.
La media geomtrica simple
de n observaciones X1, X2, X3,..,Xn positivos, esta
dado por la raz ensima del producto de los n valores observados. El promedio
geomtrico de los valores: (X1, X2, X3,..,Xn) es :
Para Datos no Agrupados.
=
Ejemplo.
Hallar la media geomtrica de los nmeros 3, 5, 8, 3, 5, 2.
Solucin.
En este caso n = 6, entonces la media geomtrica es:
=
= 3.915
) (
) (
Donde: =
, Xi = Marca de clase, fi = Frecuencia absoluta simple,
m = nmero de clases.
Aplicando logaritmo a ambos lados miembros de la ecuacin anterior se tiene:
Log
Ejemplo.
=1
Intervalo
[5.2 - 6.0)
[6.0 - 6.9)
[6.9 - 7.7)
[7.7 - 8.5)
[8.5 - 9.4)
[9.4 - 10.2]
Total ( ):
28.46
Xi
5.62
6.45
7.28
8.12
8.95
9.78
fi
3
5
6
8
5
5
32
+, , +
; Luego.
log (Xi)
0.749
0.81
0.862
0.909
0.952
0.99
fi * log(Xi)
2.248
4.048
5.174
7.275
4.759
4.952
28.46
= 7.749
37
Estadstica Aplicada
Est limitado para valores positivos para que pueda ser interpretado.
Si algn valor de la variable es cero, la media geomtrica ser cero.
Si aparece algn valor negativo, el estadgrafo toma un valor imaginario.
5. PROMEDIO PONDERADO
Cuando se desea encontrar el promedio de valores (X1, X2, X3,..,Xn) que ocurren con
frecuencias (f1,f2,.fn)diferentes se debern ponderar los valores observados con pesos
diferentes:
=
Ponderacin
Wi
0.30
0.50
0.20
1
Xi*Wi
3.60
7.00
3.20
= 13.8
6. PROMEDIO TOTAL
Corresponde al valor promedio representativo de grupos de observaciones separadas o
diferentes y que podran estar consolidadas en tablas de frecuencia independientes, por
tanto:
+
+
.+
38
Estadstica Aplicada
Ejemplo.
GUPO A
Nota
Xi
5 10 7.5
10 15 12.5
15 20 17.5
Total
GUPO B
Nota
Xi
fi
0 5 2.5 8
5 10 2.5 10
10 15 12.5 16
15 20 17.5 6
Total
40
Promedio del grupo B:
fi
4
16
5
25
Grupo
A
B
Total
Promedio
Total
X =
fi
25
40
65
12.7
10
X =
25(12.7) + 40(10)
= 11.04
65
7. MEDIA ARMNICA.
La media armnica Mh o X de n trminos no nulos X1, X2, X3,..,Xn, es el reciproco
.+
X =
3
.
A
50
B
62.4
C
77.6
3
Km
= 61.334
0.0489121
galn
Verificacin.
Auto Km Rendimiento Total de galones
A
500
50
10
1500
B
500
62.4
8.0128
X =
= 61.334
24.4561
C
500
77.6
6.4433
Total 1500
24.4561
Estadstica Aplicada
X = Mh =
Donde:
m = nmero de clases, Xi = marca de clase, fi = frecuencia absoluta de cada clase.
MEDIDAS DE POSICIN.
Las medidas de posicin equivalen a los valores que puede tomar una variable
caracterizados por agrupar a cierto porcentaje de observaciones en la muestra o
poblacin.
Las medidas de posicin son ideales para obtener informacin adicional a partir de
datos resumidos, es decir, que presentan perdida de informacin por agrupamiento en
intervalos de clase.
PERCENTILES.
Son 99 valores que dividen a un conjunto de datos en 100 partes iguales.
Para Datos Agrupados.
=
C
k
Ejemplo.
El percentil 80% de los gastos diarios en peridicos es.
1. Se determina 80*n/100.
2. De la tabla, la frecuencia absoluta acumulada inmediatamente superior a 80*n/100 = 25.6 es
F5 = 27, luego F5-1 = 22. Por tanto en intervalo de clase que contienen a
es [8.5 9.4)
40
Estadstica Aplicada
= 8.5 +
. 22)
0.83 = 9.09
5
El 80% de los datos analizados sern menores de 9.09 y el 20% restante sern superiores.
CUARTILES.
Son tres valores Q1, Q2, Q3 que dividen a los datos en cuatro partes iguales.
25% Q1 25%
=
Q2
+
25%
Q3
25%
=
Ejemplo.
Calcular el tercer cuartil (Percentil 75%) de los gastos diarios en peridicos de la tabla
anterior.
Solucin.
1. Se determina n/4.
2. De la tabla, la frecuencia absoluta acumulada inmediatamente superior a 3n/4 = 24 es F5 = 27,
luego F5-1 = 22. Por tanto en intervalo de clase que contienen a es [8.5 9.4)
=
= 8.5 +
22)
0.83 = 8.8
5
El 75% de los datos analizados sern menores a 8.8 y el 25% restante sern superiores.
DECILES.
Son nueve valores D1, D2, D3, D4, D5, D6, D7, D8, y D9, que dividen a un conjunto de
datos en 10 partes iguales.
1. Se construye la tabla de frecuencias absolutas acumuladas.
2. Se determina k*n/10.
3. Se identifica a la clase que contiene a Dk, identificado a la frecuencia absoluta
acumulada Fi inmediatamente superior a k*n/10.
41
Estadstica Aplicada
Ejemplo.
Calcular el decil siete (Percentil 70%) de los gastos diarios en peridicos de la tabla de
frecuencia anterior.
=
= 8.5 +
. 17)
0.83 = 9.396
5
70% de los datos sern menores a 9.396 y el 30% restante sern superiores a 9.396.
Q1 = P25%
25(n + 1)
100
Q2 = P50%
50(n + 1)
100
Q3 = P75%
75(n + 1)
100
Supngase que los siguientes datos representan los salarios por da de 12 trabajadores
de una compaa muy grande seleccionados aleatoriamente (en soles)
9 10 12 3 5 7 15 10 9 11 13 11
Determinar el primer cuartil de la muestra.
Solucin.
1. Los datos ordenados en forma ascendente son:
3 5 7 9 9 10 10 11 11 12 13 15
X1 X2 X3 X4 X5 X6 X7 X8 X9 X10 X11 X12
2. Como n = 12,
=
= 3.25. Esto significa que el valor de Q1 es el tercer
dato ms 25% de la diferencia entre los valores de las observaciones tercero y
cuarto. As, el valor de la tercera observacin es 7 y el del cuarto es 9, entonces
Q1 = 7 + (9-7)*0.25 =7.5 soles.
Ejemplo:
Determine los cuartiles y decil 8 de los 13 datos ordenados siguientes:
10 11 11 12 12 13 13 13 14 15 17 18 20
X1 X2 X3 X4 X5 X6 X7 X8 X9 X10 X11 X12 X13
42
Posicin
0.25(13+1) = 3.5
0.50(13+1) = 7
0.75(13+1) = 10.5
0.80(13+1) = 11.2
Estadstica Aplicada
Incremento %
50%
0%
50%
20%
MEDIDAS DE VARIABILIDAD.
1. AMPLITUD O RANGO
Sean los valores:x1, x2, x3,..,xnla amplitudo rango de estos datos es
R = (Xmax - Xmin).
2. VARIANZA Y DESVIACIN TPICA.
Estas medidas son las ms utilizadas en el estudio de la dispersin. La varianza
mide la dispersin de los datos con respecto a su media aritmtica y la
desviacin tpica o desviacin estndar es simplemente la raz cuadrada positiva
de la varianza.
2 =
(x
i =1
)2
s2 =
( xi X ) 2
i =1
(xi x) = xi2 nx
2
i =1
i =1
Por lo tanto,
n
s2 =
x
i =1
2
i
43
Estadstica Aplicada
)
La diferencia entre
es grande para muestras pequeas, y
es mnima para muestras grande, prcticamente son iguales. Entonces, para
muestras grandes 60 , puede usarse cualquiera de las formulas. Para
=
1
1
Ejemplo.
Calcular la varianza de los cuatro datos siguientes: (Xi: 3, 4, 6 y 7)
3 + 4 + 6 + 7 20
=
=5
4
4
3 +4 +6 +7
10
=
= 3.333
41
3
=
n
s2 =
Ejemplo.
)
1
(x
i =1
X )2 * fi
n
)
1
( Xi - )2*fi
15.10
9.94
2.00
0.53
5.94
18.50
= 52.00
52
= 1.68
31
44
Estadstica Aplicada
3. DESVIACIN ESTNDAR.
Es una medida de variabilidad que corresponde a la raz cuadrada de la varianza.
Este indicador tiene la misma unidad de medida en la que se expresa el
promedio.
Entonces,
)
1
4. COEFICIENTE DE VARIACIN.
Es una medida de variabilidad de los datos que se expresa en porcentaje, igual a la
desviacin estndar dividida entre la media aritmtica. Debido a que se trata de un
nmero sin dimensiones, es til para comparar la dispersin de poblaciones con medias
significativamente diferentes.
. .=
Coeficiente de variabilidad
Menos de 10%
De 10% a 30%
Ms de 30%
45
Estadstica Aplicada
Recipiente pequeo
CV %= 100 * 0.08 tazas / 1 taza = 8
MEDIDAS DE FORMA.
1. ASIMETRA O SEGO.
Evala el grado de distorsin o inclinacin que adopta la distribucin de los
datos respecto a su valor promedio tomando como centro de gravedad. El
coeficiente de asimetra de pearson es:
3( )
=
Grado de asimetra
Simetra perfecta
Sesgo positivo
Sesgo negativo
Asimetra Positiva
(Promedio > Mediana)
Simtrica
Promedio = Mediana
Asimetra Negativa
Promedio < Mediana
46
Estadstica Aplicada
CURTOSIS.
Evala el grado de apuntamiento de la distribucin, el coeficiente es:
=
(
Grado de Apuntamiento
Mesocrtica (distribucin normal)
Leptocrtica (Elevada)
Platicrtica (Aplanada)
Ku =0.263
Valor de Curtosis
0.263
Mayor a 0.263 se aproxima a 0.5
Menor a 0.263 se aproxima a 0.
47
Estadstica Aplicada
REPRESENTACIN GRFICA.
GRFICOS DE CAJAS.
Existe una gran variedad de graficas estadsticas para extraer informacin acerca de las
propiedades de un conjunto de datos.
Una grafica til para reflejar propiedades de los datos es la grafica de caja (box
plots) que se basa en la medida(o en la media), los cuartiles y valores extremos. La
caja representa el rango intercuartil que encierra el 50% de los valores y tiene la
mediana (Me) dibujada dentro. El rango intercuartil tiene como extremos el percentil
75, P75 (cuartil superior) y el percentil 25, P25 (cuartil inferior).
Adems de la caja se incluya la extensin de los datos mediante segmentos que se
extienden de la caja hacia el valor mximo (U) y hacia el valor mnimo (L) de los datos.
Es te recuadro se dibuja con el eje de la variable en forma horizontal o vertical como se
indica en la figura que sigue.
48
Estadstica Aplicada
Diagrama de Causa-Efecto
1.- El espesor de recubrimiento de un material de acero es evaluado en una sesin de
tormenta de ideas. El problema de variacin del espesor (la cual es del 10%) que se seala
es por una serie de causas, que fueron clasificadas en: equipos sin calibracin, personal sin
entrenamiento, especificaciones mal estructuradas, mal diseo de la maquina, variacin del
material, antigedad de la maquina, personal mal seleccionado, sin procedimientos,
velocidad sin control, alta temperatura, ambiente de trabajo contaminado, material
defectuoso, personal sin experiencia, sin instrumentos de control.
Las causas fueron clasificadas segn se muestra en el cuadro 1:
CUADRO 1
Material
Maquinaria
Antigedad de la maquinaria
Mal diseo de la maquina
Equipos sin calibracin
Sin procedimientos
Especificaciones mal estructuradas
Alta temperatura
Ambiente de trabajo contaminado
Personal sin entrenamiento
Personal sin experiencia
Personal mal seleccionado
Sin instrumentos de control
Velocidad sin control
Mtodo
Medio Ambiente
Mano de Obra
Medicin
M aterial
Pr
er
at
pr
d
ee
ov
ia
no
de
es
or
im
e
ad
a
al
Va r ia cin de l
m a te r ia l
P erso n al
s
do
a
id
a
cu
l
ca
Pe r sona l m a l se le cciona do
Variacio n d el
esp eso r en
10%
Ma te r ia l de fe ctuoso
Alta te m pe r a tur a
E n to rn o
M to d o s
M q u in as
49
Estadstica Aplicada
Diagrama de Pareto
1.- En la empresa Las Malvinas el ensamblaje de mangueras ha sido criticado debido a que
presenta muchos defectos. De 14993 ensamblajes inspeccionados en un ao, un total de
1509, el 10.1% estaban defectuosos. El reporte de inspeccin se muestra en el cuadro 2:
CUADRO 2
Defectos
Muy corto
Muy largo
Sin roscas
Fugas
Daadas
Retrabajado
Total
Turno 1
30
44
70
330
8
22
504
Turno 2
35
44
69
321
11
20
500
Turno 3
26
44
70
347
5
13
505
Total
91
132
209
998
24
55
1509
La gerencia expres su preocupacin por que los tres turnos no cuentan con igual supervisin,
lo que puede contribuir al problema. Desarrolle un Diagrama de Pareto para el total de
defectos en los tres turnos y un Diagrama de Pareto para cada turno.
Diagrama de Pareto para el total de defectos en los tres turnos.
100
1400
Total
1000
60
800
600
40
400
20
200
0
Defectos
Total
Porcentaje
% acumulado
Porcentaje
80
1200
Fugas
998
66.1
66.1
Sin roscas
209
13.9
80.0
Muy largo
132
8.7
88.7
Otro
24
1.6
100.0
50
Estadstica Aplicada
500
100
400
80
300
60
200
40
100
20
Defectos
Turno 1
Porcentaje
% acumulado
Fugas
330
65.5
65.5
Sin roscas
70
13.9
79.4
Muy largo
44
8.7
88.1
Otro
8
1.6
100.0
Porcentaje
Turno 1
Diagrama de Dispersin
1.- En un equipo de mejora se obtienen los siguientes datos, que recogen el nmero de
defectos por lote e conjuntos de 10 000 piezas en funcin del tiempo de
tratamiento al que se someten:
Obs
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
#
Defectos
48
52
54
50
48
51
52
59
54
54
44
54
48
47
58
57
54
Tiempo
(Seg)
809
834
838
854
822
842
851
868
841
844
811
819
830
836
850
857
863
Materia
Prima
B
B
B
A
A
A
A
B
B
B
A
B
A
A
B
B
A
Obs
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
#
Defectos
47
53
58
54
43
54
52
56
55
55
58
57
52
58
57
51
51
Tiempo Materia
(seg)
Prima
837
A
840
A
850
B
843
A
819
A
856
A
862
A
835
B
844
B
852
A
858
B
843
B
825
B
867
B
851
B
812
B
821
B
51
49
49
48
52
50
49
54
56
Estadstica Aplicada
811
820
826
832
837
839
839
842
B
A
A
B
A
A
B
B
43
44
45
46
47
48
49
50
50
56
50
49
52
50
46
49
831
841
843
850
841
855
829
838
B
B
A
A
B
A
A
A
Diagrama de dispersin.
a) Realice un diagrama de dispersin entre la variable nmero de defectos por lote y la
variable tiempo de tratamiento al que se someten. Que comentarios puede hacer al
respecto.
60
y = 0.164x - 85.576
R = 0.3991
58
56
54
52
50
48
46
44
42
40
800
810
820
830
840
850
860
870
880
2.- Fiber Borrad fabrica forros interiores de techo para la industria automotriz. La
gerente de manufactura est preocupada por la calidad de este producto. Sospecha
que un defecto en particular, las rasgaduras de la tela, est relacionado con el
tamao de las actuales partidas de produccin. Un asistente ha recopilado los datos
que se encuentran en la tabla, basndose en los registros de produccin:
Partida
1
2
3
4
5
6
7
8
9
10
Tamao
1000
4100
2000
6000
6800
3000
2000
1200
5000
3800
Defecto (%)
3.5
3.8
5.5
1.9
2.0
3.2
3.8
4.2
3.8
3.0
Partida
1
2
3
4
5
6
7
8
9
10
Tamao
6500
1000
7000
3000
2200
1800
5400
5800
1000
1500
Defecto (%)
1.5
5.5
1.0
4.5
4.2
6.0
2.0
2.0
6.2
7.0
52
Estadstica Aplicada
Defecto (%)
6
5
4
3
2
1
1000
2000
3000
4000
Tamao
5000
6000
7000
GRFICO DE BARRAS
Marca de Clase
(Xi)
Grupos
Frecuencia
(fi)
(Fi)
(hi)
(Hi)
(hi%)
(Hi%)
18.0
22.0
26.0
30.0
16
20
24
28
17.0
21.0
25.0
29.0
29
24
27
30
29
53
80
110
0.121
0.100
0.113
0.125
0.121
0.221
0.333
0.458
12.1%
10.0%
11.3%
12.5%
12.1%
22.1%
33.3%
45.8%
5 30.0 34.0
32
33.0
34
36
40
44
48
37.0
41.0
45.0
50.0
24
24
26
22
240
168
192
218
240
mi
Li
14
2 18.0
3 22.0
4 26.0
1
6
7
8
9
34.0
38.0
42.0
46.0
38.0
42.0
46.0
50.0
Total
0.100
0.100
0.108
0.092
1.000
0.700
0.800
0.908
1.000
10.0%
10.0%
10.8%
9.2%
100%
70.0%
80.0%
90.8%
100.0%
53
Estadstica Aplicada
12.1%
14.0%
12.0%
10.0%
11.3%
12.5%
14.2%
10.0% 10.0%
10.8%
10.0%
9.2%
8.0%
6.0%
4.0%
2.0%
0.0%
[14 - 18> [18- 22> [22 - 26> [26 - 30> [30 - 34> [34 - 38> [38 - 42> [42 - 46> [46 - 50]
Regular
Bueno
Regular
Regular
Malo
Malo
Regular
Excelente
Malo
Bueno
Malo
Bueno
Bueno
Bueno
Bueno
Malo
Excelente Malo
Regular
Malo
Malo
Malo
Excelente Malo
Malo
Bueno
Bueno
Malo
Regular
Malo
Malo
Malo
Malo
Excelente Bueno
Malo
Regular
Malo
Regular
Bueno
Regular
Bueno
Malo
Excelente Malo
Regular
Excelente Malo
Malo
Malo
Malo
Malo
Excelente Bueno
Malo
Regular
Malo
Malo
Excelente
Solucin
Cuadro N 02: Distribucin de personas segn su opinin sobre
nueva conserva que se desea introducir en el mercado. Tingo Mara.
2012.
Opinin sobre la conserva
fi
Fi
hi
Hi
Bueno
13
13
0.15
0.15
Regular
14
27
0.17
0.32
Malo
33
60
0.39
0.71
Excelente
24
84
0.29
1.00
Total
84
1.00
Fuente: Elaboracin Propia
la calidad de una
Julio Agosto del
hi%
15%
17%
39%
29%
100%
Hi%
15%
32%
71%
100%
54
Estadstica Aplicada
Excelente
29%
Regular
17%
Malo
39%
1. La Biomasa de los recursos hidrobiolgicos del Per en los aos de 2004 a 2009
se da en la siguiente tabla:
Recurso
2004
2005
2006
2007
2008
2009
Jurel
5300
5000
4330
7000
2800
4303
Caballa
1511
450
1700
1900
1300
1052
Sardina
4200
2500
2700
1750
4500
3680
Anchoveta 1500
6500
6000
4500
5900
3060
a) Construya su grafico correspondiente para los recursos hidrobiolgicos del Per
en los aos 2005, 2008 y 2009 e interprete. (2 pts)
Grafico N 03. Biomasa de los recursos hidrobilogicos: 2005 2009.
7000
6000
5000
4000
3000
2000
1000
0
2005
JUREL
2008
ANCHOVETA
2009
SARDINA
CABALLA
Estadstica Aplicada
GRFICO DE LINEAS.
PROBLEMAS RESUELTOS.
1. Los siguientes datos corresponden a un muestra aleatoria de la altura en milmetros
(mm) de plantulas de tornillo (cedrelingacatenaeformis) perteneciente a la familia de
las Fabaceae en una parcela de 50x10 mts2, realizada en el Brunas-UNAS de la
ciudad de Tingo Mara en mayo 2011.
32 26 26 44 32 15 48 22 22 39 15 26 21 45 16 23
46 26 44 42 36 43 19 29 35 42 37 44 32 41 33 21
17 29 32 29 50 14 24 14 49 35 17 32 33 26 30 16
32 32 26 35 32 41 20 32 47 18 28 17 29 50 26 28
21 28 44 14 39 27 17 15 28 14 37 32 34 27 40 32
17 45 28 31 17 33 41 18 36 26 17 31 38 31 44 36
22 26 33 39 19 49 50 33 22 33 50 31 42 27 21 23
38 48 34 22 48 36 29 23 33 41 32 17 20 18 24 25
43 15 17 31 27 22 39 28 31 19 23 37 32 19 39 43
33 40 22 44 23 15 14 44 23 25 14 35 41 50 21 20
35 41 38 30 29 40 22 39 41 18 42 37 34 46 39 30
50 46 35 44 42 27 18 15 37 39 16 50 20 50 34 29
41 20 36 25 42 19 36 39 21 17 43 44 36 23 30 23
41 23 45 15 37 27 18 23 14 22 35 33 15 30 49 49
33 45 45 22 15 46 49 45 29 24 19 25 45 27 49 21
La informacin fue obtenida de la Facultad de Recursos de la UNAS.
a)
b)
c)
d)
Solucin
PASOS PARA AGRUPAR DATOS
Funcin en Excel
Tamao de muestra: ( n ) =
CONTAR(Seleccionar BD3)
Valor Mximo =
MAX()
Valor Mnimo =
MIN()
Rango (R)=
Valor Mximo - Valor Mnimo
Aplicando la regla de STURGES:
N de intervalos (m) =
1+3.3*log (n)
m redondeado =
REDONDEAR()
Amplitud (C ) =
R/[m = redondeado]
Del
Ejemplo
240
50
14
36
8.855
9
4
56
Estadstica Aplicada
Li
Ls
Marca de Clase
(Xi)
Grupos
Frecuencia
(fi)
14
18.0
16
17.0
29
2 18.0 22.0
3 22.0 26.0
4 26.0 30.0
20
24
21.0
25.0
28
29.0
24
27
30
5 30.0 34.0
32
33.0
34
6 34.0
7 38.0
8 42.0
9 46.0
38.0
36
37.0
24
42.0
46.0
50.0
40
44
48
41.0
45.0
50.0
24
26
22
Total
(Fi)
240
(hi)
(Hi)
(hi%)
(Hi%)
29 464
24 480
27 648
30 840
34 1088
24 864
24 960
26 1144
22 1056
) = 7544
6907.446
3137.307
1491.870
353.633
10.918
500.507
1761.307
4105.949
6037.998
= 24306.933
+
Donde:
=(
=(
Varianza muestral (
)
)
)
1
57
Estadstica Aplicada
12.1%
14.0%
12.0%
10.0%
11.3%
12.5%
14.2%
10.0% 10.0%
10.8%
10.0%
9.2%
8.0%
6.0%
4.0%
2.0%
0.0%
[14 - 18> [18- 22> [22 - 26> [26 - 30> [30 - 34> [34 - 38> [38 - 42> [42 - 46> [46 - 50]
18
26
14
29
16
26
9
15
25
40
36
21
8
38
27
8
8
29
18
20
33
11
37
34
14
32
20
23
31
28
18
14
17
35
40
37
31
14
10
11
17
29
32
17
33
39
10
8
9
15
18
37
15
12
21
19
12
25
19
16
33
36
25
28
31
20
34
33
18
36
38
21
31
39
24
37
30
13
33
31
19
10
37
30
19
27
30
18
32
19
18
26
26
14
29
20
20
17
14
10
34
18
58
Estadstica Aplicada
Solucin:
Del
Ejemplo
Tamao de muestra: ( n ) =
CONTAR(Seleccionar BD4)
108
Valor Mximo =
MAX()
40
Valor Mnimo =
MIN()
8
Rango (R)=
Valor Mximo - Valor Mnimo
32
Aplicando la regla de STURGES:
N de intervalos (m) =
1+3.3*log (n)
7.71029
m redondeado =
REDONDEAR()
8
Amplitud (C ) =
R/[m = redondeado]
4
Cuadro N 01: Distribucin de turistas, segn sus gastos semanales (dlares).
hotel Sheraton Lima. Julio de 2013.
N clases
[ Li
o intervalos
1
[8
2
[12
3
[16
4
[20
5
[24
6
[28
7
[32
8
[36
Total
- Ls > Xi
-
12>
16>
20>
24>
28>
32>
36>
40]
10
14
18
22
26
30
34
38
fi
Fi
hi
Hi
hi%
Hi%
12
12
20
10
13
14
12
15
108
12
24
44
54
67
81
93
108
0.11
0.11
0.19
0.09
0.12
0.13
0.11
0.14
1.00
0.11
0.22
0.41
0.50
0.62
0.75
0.86
1.00
11%
11%
19%
9%
12%
13%
11%
14%
100%
11%
22%
41%
50%
62%
75%
86%
100%
59
Estadstica Aplicada
El conteo de la base de datos se realiza
dentro de los intervalos cerrados
N de
intervalos
1
2
3
4
5
6
7
8
N de
intervalos
1
2
3
4
5
6
7
8
[ Li - Ls >
[8
[12
[16
[20
[24
[28
[32
[36
12>
16>
20>
24>
28>
32>
36>
40]
[ Li - Ls ]
[8 [12 [16 [20 [24 [28 [32 [36 -
11]
15]
19]
23]
27]
31]
35]
40]
20
15
12
10
12
13
10
14
15
12
5
0
Interpretacin:
Del grfico se puede observar que existen 20 turistas que gastan de 16 dlares a ms y a
menos de 20 dlares semanales y 10 turistas que gastan de 20 dlares a ms y a menos
de 24 dlares semanales en hospedaje en la ciudad de Lima.
La tendencia de los gastos semanales de los turistas en es inestable.
60
Estadstica Aplicada
Interpretacin:
El 50% de los turistas gastaron
como mximo 24 dlares
semanales en hotel Sheraton
Lima y el otro 50% superaron
dicho monto.
= 22.21
):
Interpretacin:
El gasto promedio geomtrico
semanal de los turistas es de 22.21
dlares.
5) Media armnica muestral (Mh):
Mh = 20.24
Interpretacin:
El gasto promedio armnico
semanal de los turistas es de 20.24
dlares.
= 21.68
):
Interpretacin:
El gasto promedio geomtrico
semanal de los turistas es de
21.68dlares.
5) Media armonica muestral (Mh):
Mh = 19.55
Interpretacin:
El gasto promedio armnico
semanal de los turistas es de 19.55
dlares.
61
Estadstica Aplicada
MEDIDAS DE DISPERSIN
PARA DATOS AGRUPADOS
PARA DATOS SIN AGRUPAR
1) Varianza muestral ( ):
= .
dlares2
1) Varianza muestral (
= .
Interpretacin:
La variabilidad promedio de los
gastos es de 84.17 dlares2.
3) Coeficiente de variacin
porcentual (C.V%):
C.V.% = 38.05
Interpretacin:
Los datos de la muestra de gastos
semanales de los turistas son
heterogneos,
por
lo
tanto
presentan un alto grado de
variabilidad.
):
Interpretacin:
La variabilidad promedio de los
gastos es de 85.87dlares2.
S = 9.27
Interpretacin:
Los gastos semanales de los turistas
varan con respecto a su valor
central en 9.27 dlares.
3) Coeficiente de variacin
porcentual (C.V%):
CV% = 39.14%
Interpretacin:
Los datos de la muestra de gastos
semanales de los turistas son
heterogneos, por lo tanto presentan
un alto grado de variabilidad.
ACTIVIDAD DE APRENDIZAJE I
1. Identifique las siguientes variables segn su clasificacin, ya sea cuantitativa
(discreta o continua) y cualitativa (nominal u ordinal).
a) Tipos de crdito: Cualitativa Ordinal
b) Nmero de das no laborados: Cuantitativa Discreta
c) Nivel de acuerdo: Cualitativa Nominal
d) Ganancias en dlares: Cuantitativa Continua
2. Los siguientes datos corresponden a una muestra aleatoria de 20 trabajadores del
banco de crdito del Per segn sus retenciones al sistema privado de pensiones en
febrero del 2011.
100 200 150 160 179 130 135 150 155 158
180 190 170 175 120 115 140 139 145 144
Los datos fueron brindados por el departamento de personal de dicha institucin.
Se pide:
a) Identificar la unidad de anlisis y la variable en estudio.
b) Construya una distribucin de frecuencias absolutas
c) Construya un cuadro de distribucin de frecuencias ampliada. Utilice la
regla de Sturges.
d) Interprete f3, h3%, F3 y H3%.
62
Estadstica Aplicada
63
Estadstica Aplicada
d) Interpretacin:
f3 = 7: Existen 7 trabajadores que sus retenciones al Sistema Privado de Pensiones se
encuentra de 140 soles a ms y a menos de 160 nuevos soles.
h3% = 35%: Existe un 35% de los trabajadores que sus retenciones al Sistema Privado
de Pensiones se encuentra de 140 soles a ms y a menos de 160 soles.
F3 = 13: Existen 13 trabajadores que sus retenciones al Sistema Privado de Pensiones se
encuentra de 100 soles a ms y a menos de 160 soles.
H3% = 65%: Existe un 65% de los trabajadores que sus retenciones al Sistema Privado
de Pensiones se encuentra de 100 soles a ms y a menos de 160 soles.
e) [ 140 180>: Entonces el porcentaje de trabajadores = 35% + 20% = 55%.
f) [ 160 200]: Entonces el N de trabajadores = 4 + 3 = 7 Trabajadores.
g) Histograma.
Grafico N 01: Distribucin porcentual de los trabajadores segn sus Retenciones al
Sistema Privado de Pensiones (SPP). Banco de Crdito del Per. Febrero de 2006.
35%
40%
20%
20%
20%
30%
15%
10%
10%
0%
[100 120>
[120 140>
[140 160>
[160 180>
[180 200]
64
Estadstica Aplicada
Ventas
Grafico N02: Evolucin del comercio electrnico de empresas tursticas por ventas al
consumidor final en millones de pesetas. Espaa: 1997 2001.
35
30
25
20
15
10
5
0
1997
1998
1999
Aos
2000
2001
65
Estadstica Aplicada
b)
Distribucin de cibernautas segn el modo de conexin al chat a travs de internet.
Ciudad de Chimbote. Enero de 2007.
Modo de conexin N de cibernautas
hi
hi%
(Xi)
fi
Casa (C)
7
0.23
23%
Trabajo (T)
6
0.20
20%
Cibercaf (Cl)
12
0.40
40%
Otros (O)
5
0.17
17%
Total:
30
1.0
100%
Fuente: Encuesta Comunidad Virtual Profesional de Marketing
c) Interpretacin:
f3 = 12: Existen 12 de cibernautas de la ciudad de Chimbote que acceden al internet por
el modo de conexin a travs de un Cibercaf.
h4% = 17%: Existe un 17% de los cibernautas de la ciudad de Chimbote que acceden al
internet por el modo de conexin a travs de otras modalidades.
d)
Grafico N03: Distribucin de cibernautas segn el modo de conexin al chat a travs
de internet. Ciudad de Chimbote. Enero de 2007.
14
12
12
10
8
4
2
0
Casa (C)
Trabajo (T)
Cibercaf (Cl)
Otros (O)
Cibercaf
Trabajo
(Cl)
(T)
40%
20%
Fuente: Encuesta Comunidad Virtual Profesional de Marketing.
66
Estadstica Aplicada
Comentario:
Del grfico se puede observar que existe un 40% de los cibernautas que acceden por el
modo de conexin al chat a travs de internet desde un cibercaf y un 17% a travs de
Otros medios en la Ciudad de Chimbote.
ACTIVIDAD DE APRENDIZAJE II
1. Los siguientes datos corresponden a 10 cibernautas segn el tiempo en minutos que
pasan navegando en internet:
Xi: 35, 45, 50, 55, 35, 40, 55, 60, 42, 45.
Calcular e interpretar:
a) La media
b) La mediana
c) La moda
d) La desviacin estndar
e) El coeficiente de variacin.
f) El coeficiente de asimetra.
Solucin:
a) Media = media aritmtica = promedio, (muestral).
=
35 + 45 + 50 + 55 + 35 + 40 + 55 + 60 + 42 + 45 462
=
= 46.2
10
10
n
Interpretacin:
El tiempo promedio que pasan navegando en internet los cibernautas es de 46 minutos
aproximadamente.
b) Mediana muestral (cuando n es par).
La ubicacin de la mediana de n datos ordenados en forma ascendente, se determina
por: (n+1)/2 = (10+1)/2 =5.5
Xi: 35 35 40 42 45 45 50 55 55 60
Luego la mediana se encuentra en el 5to y 6ta lugar de los datos ordenados, entonces:
Mediana = (45+45)/2 = 45.
Interpretacin:
El 50% de los cibernautas pasan navegando en internet como mximo 45 minutos,
mientras que el otro 50% supera dicho tiempo.
c) La Moda.
Observamos el valor que se repite con mayor frecuencia, que son 35, 45, 55.
Por lo tanto existen tres modas (trimodal). Entonces:
Md1 = 35, Md2 = 45, Md3 = 55
Interpretacin:
El mayor tiempo de cibernautas pasan navegando en internet so de 35, 45 y 55 minutos.
67
. )
. )
. )
669
= 74.4
9
(
(
Estadstica Aplicada
. )
. )
(
(
. )
. )
. )
. )
. )
f) Coeficiente de asimetra.
3(
=
=
)
= .
3(46.2 45)
= 0.42
8.6
Interpretacin:
Este valor indica que la distribucin es asimtrica positiva.
Estadstica Aplicada
= 0.1179.
= 0.0821.
Xi Xi*fi
7.5
12.5
17.5
22.5
27.5
300
750
1750
2070
220
5090
69
Estadstica Aplicada
Promedio:
( )
5090
=
=
= 16.967
n
300
Interpretacin:
El Tiempo de servicio promedio de los trabajadores de una empresa X es de
16.967 aos.
b)
Determinamos la Mediana (Me).
Como la variable es continua y los datos estn agrupados en intervalos, la frmula a
utilizar ser:
=
Procedimiento.
Determinamos las frecuencias absolutas acumuladas Fi.
Luego buscamos en que intervalo se encuentra ubicado la mediana a travs
de n/2.
(i = subndice y es la ubicacin del intervalo).
Como n = 300, entonces: n/2 = 300/2 = 150, luego buscamos en la frecuencia absoluta
acumulada (Fi) el dato 150, como no se encuentra, buscamos el valor superior a este
dato. (Observamos que se encuentra comprendido entre 100 y 200 de Fi). Por lo tanto el
valor superior a 150 es 200, luego el intervalo donde se encuentra la mediana es [15
20> que es el tercer intervalo, es decir i = 3.
tiempo de servicio
Frecuencia
N de trabajadores
(en aos)
absoluta
fi
[Li Ls>
acumulada. Fi
[5 10>
40
40
[10 15>
60
100
[15 20>
100
200
[20 25>
92
292
[25 30]
8
300
Total:
300
Reemplazando en la Formula:
100
= 15 +
5 = 17.5 .
100
Interpretacin:
El 50% de los trabajadores de la empresa X tiene un tiempo de servicio mximo de
17.5 aos, mientras que el otro 50% de los trabajadores de la empresa X supera
dichos aos de tiempo de servicio.
c) Moda
Como la variable es continua y los datos estn agrupados en intervalos, la frmula a
utilizar ser:
=
Donde:
=(
=(
)
)
70
Estadstica Aplicada
Procedimiento.
Determinamos las frecuencias absolutas simples fi.
Posteriormente buscamos el valor ms frecuente en fi, que es 100, entonces
el intervalos que contiene a la moda es [15 20>, es el tercer intervalo, es
decir i = 3.
Reemplazamos en la Formula.
= 15 +
= 100 60 = 40
= 100 92 = 8
40
5 = 19.167
(40 + 8)
Interpretacin:
El tiempo de servicio ms frecuente de los trabajadores de la empresa X es de 19.167
aos.
5. El dueo de una fbrica considera que si la produccin de una mquina que tiene
muchos aos de vida tiene una produccin heterognea por lo que en estos ltimos 5
das tendr que darle de baja. Los resultados se muestran a continuacin, en nmero
de unidades.
Xi: 140, 127, 125, 148, 146.
Qu decisin tomar el dueo?
Solucin.
Desviacin estndar: S = 10.663 unidades.
Promedio: = 137.2
Coeficiente de variacin: . . =
= .
71
Estadstica Aplicada
Problemas Propuestos
5. Identifique las siguientes variables segn su clasificacin, ya sea cuantitativa (discreta o
continua) y cualitativa (nominal u ordinal).
a)
b)
su tipo.
a) Desde hace dos aos las compaas gastan en proteccin de la informacin. Estos
gastos incluyen los costos de personal, hardware, software, servicios externos y
seguridad fsica. Se eligieron dos empresas transnacionales y se registraron sus
gatos mensuales, en miles de dlares, correspondientes a la proteccin de la
informacin de los ltimos seis meses.
b) La oficina de gestin de calidad de la UNAS est realizando un estudio para
conocer, segn el criterio de los profesores, que tan importante es la aplicacin de
un modelo de planeamiento de largo plazo en la mejora de la calidad en las
instituciones de educacin superior. De los 200 profesores consultados, el 30% lo
consider poco importante, el 50% importante y el 20% muy importante.
8. Los siguientes datos corresponden a una muestra aleatoria de 20 trabajadores del banco
de crdito del Per segn sus retenciones al sistema privado de pensiones en febrero del
2011.
72
Estadstica Aplicada
100 200 150 160 179 130 135 150 155 158
180 190 170 175 120 115 140 139 145 144
Los datos fueron brindados por el departamento de personal de dicha institucin.
Se pide:
a) Identificar la unidad de anlisis y la variable en estudio.
b) Construya un cuadro de distribucin de frecuencias en intervalos de clase o
datos agrupados. Utilice la regla de Sturges.
c) Interprete f3, h3%, F3 y H3%.
d) Determinar qu porcentaje de trabajadores tienen una retencin de 140 soles
o ms, pero menos de 180 soles.
e) Determinar cuntos trabajadores tienen una retencin de 160 a 200 soles.
f) Construir un histograma de frecuencias porcentuales y comente.
9. La siguiente tabla muestra la cantidad de clientes que entran en el horario de 14 a 15
horas en 60 importantes locales de ventas de automviles de cierta ciudad:
0 2 5 0 1 4 1 0 2 1 5 0 1 3 0 0 2 1 3 1
1 4 0 2 4 1 2 4 0 4 3 5 0 1 3 6 4 2 0 2
0 2 3 0 4 2 5 1 1 2 2 1 6 5 0 3 3 0 0 4
a) Determinar la variable a analizar e indicar cul es su tipo.
b) Construir una distribucin de frecuencias absolutas y representarla mediante
un diagrama de lneas.
c) Construir una distribucin de frecuencias relativas y relativas porcentuales e
interpretar el significado de la cuarta frecuencia.
d) Construir una distribucin de frecuencias acumuladas crecientes y
decrecientes, representarlas grficamente e interpretar el significado de la
segunda y quinta frecuencia.
e) Si en el 80% o ms de los locales entran como mximo 4 personas, se
decidir no atender al pblico en ese horario (de 14 a 15 horas) y comenzar
a atender a partir de las 15 horas. En base a los datos, qu decisin se
tomar? Justificar.
10. A fin de decidir cuntos mostradores de servicio se necesitarn en tiendas que sern
construidas en el futuro, una cadena de supermercados quiso obtener informacin acerca
del tiempo (en minutos) requerido para atender a los clientes. Se registr la duracin de
60 casos:
3,6 1,9 2,1 0,3 0,8 0,2 1,0 1,4 1,8 1,6
1,1 1,8 0,3 1,1 0,5 1,2 0,6 1,1 0,8 1,7
1,4 0,2 1,3 3,1 0,4 2,3 1,8 4,5 0,9 0,7
0,6 2,8 2,5 1,1 0,4 1,2 0,4 1,3 0,8 1,3
1,1 1,2 0,8 1,0 0,9 0,7 3,1 1,7 1,1 2,2
1,6 1,9 5,2 0,5 1,8 0,3 1,1 0,6 0,7 0,6
a) Cul es la variable a analizar? Es cuantitativa o cualitativa?
b) Elaborar un diagrama de tallos y hojas con esos datos.
c) Organizarlos de la manera que le resulte ms conveniente (de forma simple
o en intervalos) y justificar la organizacin elegida.
d) Construir una distribucin de frecuencias absolutas y relativas.
73
Estadstica Aplicada
11. Una empresa consultora ha entrevistado un grupo de 50 personas a las cuales les han
preguntado la edad. Se obtuvieron los siguientes datos:
23
19
23
26
27
34
31
32
36
26
21
39
40
38
24
41
38
34
21
32
42
41
25
39
37
35
26
28
22
39
32
24
29
33
32
36
27
30
35
24
27
30
22
32
35
20
33
24
28
26
Estadstica Aplicada
0.2
0.65
50
Total
0.95
60
Estadstica Aplicada
76
Estadstica Aplicada
24. En base a la siguiente informacin que corresponden a la inversin real anual en miles
de dlares de un grupo de pequeas empresas. Construir la tabla de distribucin de
frecuencia.
X2=550; X5=850; h6 =2/50 = H1; m=6; h2=0.14; H4 = 0.76; h5=0.20; H3-h2 =0.26 y c =
constante
a) Interpretar el f4 y el h4%.
25. De las edades de cuatro personas, se sabe que la media es igual a 24 aos, la mediana es
23, y la moda es 22. Encuentre las edades de las cuatro personas.
26. La inversin real en miles de dlares anual de un grupo de pequeas empresas en el
banco de Crdito de la ciudad de Tingo Mara fueron:
807 811 620 650 817 732 747
900 753 1050 918 857 867 675
500 872 869 841 847 833 829
766 787 923 792 803 933 947
1056 1076 958 970 776 828 831
La informacin fue obtenida por el Instituto nacional de Estadstica e
Informtica en mayo de 2010.
Se pide:
a) Construir una tabla de distribucin de frecuencias, con intervalos (datos agrupados)
y hacer grfico correspondiente e interpretar.
b) Calcular e interpretar: La media, desviacin estndar, mediana y la moda.
27. A continuacin se muestra una tabla con los datos acerca de la distribucin de
exportaciones e importaciones de diferentes pases (en millones de euros).
Pas
Exportaciones
Importaciones
EEUU
512
690
Alemania
425
380
Japn
390
275
Francia
235
230
Reino Unido
205
220
Italia
190
170
Canad
160
150
Holanda
155
140
Hong Kong
150
165
Blgica-Luxem
140
130
China
120
115
Singapur
95
100
Corea Sur
95
105
Taiwn
90
85
Espaa
75
90
a) Cules son las variables que intervienen en este anlisis? Cul es el tipo de las
mismas?
b) Realizar un diagrama de dispersin considerando las exportaciones como variable
dependiente. Puede observarse algn tipo de relacin entre ambas variables? En tal
caso, qu tipo de relacin se observa?
77
Estadstica Aplicada
CN
CN
CN
CN
CN
CN
CN
CN
CN
CN
CN
V
V
V
V
V
V
V
V
V
V
V
V
V
T
T
T
T
T
T
T
T
T
DC
CR
CR
DC
DI
DI
CR
CR
CR
CR
CR
CR
CR
CR
CR
CR
CR
CR
CC
CR
CC
CR
CR
CR
CC
CC
CC
CC
CC
CC
CC
CR
CC
0,54
0,74
0,96
0,12
0,48
0,36
0,74
0,70
0,97
0,80
0,78
0,53
0,83
0,73
0,51
0,46
0,44
0,73
0,34
0,53
0,23
0,92
0,55
0,94
0,15
0,20
0,13
0,14
0,16
0,15
0,18
0,87
0,28
Estadstica Aplicada
110
105
110
70
105
65
120
80
80
125
95
125
110
120
105
75
75
140
60
110
90
55
90
90
90
90
100
100
80
100
100
75
90
2
3
4
2
3
1
4
2
1
4
2
3
2
3
1
2
1
3
2
1
2
1
1
1
2
2
1
1
0
1
1
1
0
16
26
33
26
26
14
30
23
11
29
19
22
16
23
9
24
12
19
30
8
20
6
10
10
20
20
9
9
0
9
9
12
0
800
860
800
900
1190
890
810
470
180
65
580
670
680
800
600
940
680
540
880
640
830
280
480
160
670
410
710
630
700
630
710
300
740
Donde:
Producto: CN = Pollo. - V = Vegetales. - T = Tomate.
Tipo: CC = enlatada / condensada. - CR = enlatada / lista para servirse.
DC = deshidratada / cocinada. - DI = deshidratada / instantnea.
Costo en centavos.
Caloras por racin de 8 onzas.
Grasa en gramos por racin de 8 onzas.
Caloras de grasa como porcentaje de grasa por racin de 8 onzas.
Nivel de sodio en miligramos por racin de 8 onzas.
Se pide:
1.- En base a los datos de la tabla, indicar cules fueron las variables relevadas. Para
cada una de ellas indicar si es cualitativa o cuantitativa y especificar las categoras o
valores.
79
Estadstica Aplicada
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
Zona
Norte
Norte
Norte
Norte
Norte
Norte
Norte
Norte
Norte
Norte
Este
Este
Este
Este
Este
Sur
Sur
Oeste
Oeste
Oeste
Edad del
productor
25
27
29
35
36
39
38
45
56
68
25
24
30
35
38
25
30
32
40
45
N parcelas
de la UA
1
1
1
1
2
2
2
2
2
3
2
2
2
2
2
3
3
3
3
3
N de cultivos rea de la
de la UA
UA (has)
Nivel tecnolgico
de la UA
De 1 a 2
De 1 a 2
De 1 a 2
De 1 a 2
De 5 a 6
De 5 a 6
De 5 a 6
De 5 a 6
De 5 a 6
De 5 a 6
De 1 a 2
De 1 a 2
De 7 a 8
De 7 a 8
De 7 a 8
De 7 a 8
De 5 a 6
De 7 a 8
De 7 a 8
De 7 a 8
Baja
Baja
Baja
Baja
Baja
Media
Media
Media
Media
Media
Baja
Baja
Media
Alta
Alta
Alta
Media
Alta
Alta
Alta
2.01
2.51
3.88
4.01
4.17
4.84
4.59
4.84
5.18
6.7
2.8
3.05
7.49
6.79
6.95
7.5
5.8
8.75
9.48
7.8
80
Estadstica Aplicada
81
Estadstica Aplicada
Escenario
Cuantitativa
1. Se requieren verificar 20 hiptesis sobre los
cambios ocurridos en la produccin de maz
2. Se requiere describir al sistema de produccin de y
la cadena productiva del maz
3. Se dispone de un cuestionario estructurado de
50 preguntas para la encuesta
4. Se requiere conocer en qu oportunidades y bajo
qu condiciones los hogares precisan de recurrir a
prstamos informales en la zona
5. Se debe evaluar los cambios registrados en la
produccin de maz
6. Se deben lograr mediciones objetivas sobre los
rendimientos obtenidos con el maz
7. Se requieren conocer todos los problemas que se
ocasionarn al prohibir el cultivo de tomate en el
valle
Cualitativa
Fi
hi
Hi
Xi
Xi*fi
82
Estadstica Aplicada
CASO 1
Caso: Banco Pacfico.
Banco Pacfico es una entidad financiera que ha ingresado con fuerza al sistema
financiero peruano. Debido a su rpido crecimiento el Gerente de Operaciones desea
hacer un estudio descriptivo e Inferencial entre los clientes que cuentan con tarjeta de
crdito. Para cumplir con su objetivo se seleccionaron al azar muestras aleatorias e
independientes de tres tipos de clientes segn el tipo de tarjeta de crdito otorgada. Las
variables de inters analizadas fueron las siguientes:
Tipo de Tarjeta de Crdito: Clsica, Platino y Dorada.
Gnero del cliente: Masculino, Femenino.
Monto de crdito adeudado (en miles de soles) en enero del 2009.
Monto de crdito adeudado (en miles de soles) en mayo del 2009.
Nmero de retiros por cajero el da del cierre de cobro del mes de mayo.
Nmero de pagos en establecimientos comerciales el da del cierre de cobro
del mes de mayo.
Categora del cliente: A1 y A2.
Edad del cliente (en aos)
Ingreso mensual del cliente (en soles)
Nmero de hijos
Principal uso de crdito: vivienda, auto, otros.
83
Estadstica Aplicada
Formulario:
Medidas de tendencia central muestral:
Para datos sin agrupar:
Promedio aritmtico o media.
X=
Xi
X=
i =1
Mediana (Me).
Es el valor central de un conjunto de
datos ordenados de menor a mayor.
La ubicacin de la mediana de n
datos
ordenados
en
forma
ascendente, se determina por: (n)/2
Moda (Mo).
Es valor ms frecuente en el conjunto
de datos.
( Xi fi )
i =1
n
Mediana (Me).
n
Fi 1
2
C
Me = Li +
fi
Moda (Mo).
d1
Mo = Li +
C
d1 + d 2
donde :
d1 = ( fi f i 1 )
Media armnica ( X h ):
n
Xh =
1 1
1
+ + .... +
x1 x2
xn
Media geomtrica ( X G ):
La media geomtrica simple
de n
observaciones
X1,
X2,
X3,..,Xn
positivos, est dado por la raz ensima
del producto de los n valores
observados. El promedio geomtrico de
los valores: (X1, X2, X3,..,Xn) es :
X G = n x1 x2 .... xn
d 2 = ( fi f i +1 )
Media armnica ( X h ):
n
n
Xh =
= m
f
f1 f 2
+ + .... + m f i
x1 x2
xm
i =1 xi
Media geomtrica ( X G ):
X G = n ( x1 ) 1 ( x 2 ) 2 .... ( x m ) m
f
Donde:
n = tamao de muestra.
Xi = marca de clase.
fi = frecuencia absoluta simple.
m = nmero de intervalos.
84
Estadstica Aplicada
Varianza ( S 2 ).
Varianza ( S 2 ).
(X
n
S2 =
i =1
X)
(X
n
S2 =
i =1
n 1
Desviacin estndar (S):
n 1
Desviacin estndar (S):
S = S2
S = S2
CV % =
X ) fi
2
S
*100
X
CV % =
S
*100
X
Distribuciones bidimensionales
Supongamos que en una poblacin, y para un conjunto de n individuos, se miden dos
caracteres X e Y:
( x1 , y1 ), ( x 2 , y 2 ), . . . , ( x n , y n )
En este caso tenemos una variable estadstica bidimensional o distribucin
bidimensional de frecuencias, la cual representaremos por (X, Y). Cuando se cuenta con
una gran cantidad de datos, un modo de presentar la distribucin bidimensional es a
travs de una tabla de doble entrada de la forma:
Tabla de doble entrada
X/Y
x1
1 1
1 2
x2
.
.
.
xi
.
.
.
xl
Total
2 1
2 2
.
.
.
n
.
.
.
n
n
. . .
. . .
. . . n
1 j
. . .
1k
. . . n
2 j
. . .
2 k
.
.
.
n
i1
.
.
.
i 2
. . . n
.
.
.
l1
+ 1
n
n
l 2
+ 2
.
.
.
ij
. . .
.
.
.
. . . n
. . . n
ik
.
.
.
lj
. . .
lk
+ j
. . .
+ k
Total
n1+
n2+
.
.
.
ni +
.
.
.
nl +
n
Donde los valores de X e Y pueden venir dados en intervalos, al igual que en el caso de
una dimensin. En el caso de que las dos variables sean atributos, la tabla anterior
recibe el nombre de tabla de contingencia.
85
Estadstica Aplicada
x1
n1+
x2
.
.
.
xl
n2+
.
.
.
y1
y2
.
.
.
n+1
n+ 2
.
.
.
n+ k
yk
nl +
Las distribuciones condicionadas permiten estudiar el comportamiento de una de las
variables cuando la otra permanece constante. Vienen dadas por:
X/Y= y j
ni/
x1
n1 j
x2
.
.
.
n2 j
xl
.
.
.
n lj
Distribuciones condicionadas de X e Y.
n j/i
Y/X= xi
y1
y2
.
.
.
yk
ni1
ni 2
.
.
.
nik
Ejemplo:
Se desea investigar el ganado caprino (cabras) y el ganado ovino (ovejas) de un pas. En
la tabla de doble entrada adjunta se presentan los resultados de un estudio de 100
explotaciones ganaderas, seleccionadas aleatoriamente del censo agropecuario. Se
proporcionan las frecuencias conjuntas del nmero de cabezas (en miles) de cabras (X)
y ovejas (Y) que poseen las explotaciones.
X\Y
0
1
2
3
4
0
4
6
9
4
1
1
5
10
7
4
2
2
7
8
5
3
1
3
5
5
3
2
1
4
2
3
2
1
0
a) Hallar las medias, varianzas y desviaciones tpicas marginales.
86
Estadstica Aplicada
0
1
2
3
4
n+ j
4
5
7
5
2
23
6
10
8
5
3
32
9
7
5
3
2
26
4
4
3
2
1
14
1
2
1
1
0
5
ni +
24
28
24
16
8
100
a) La media de X es:
X=
La varianza de X es:
S2X =
S X = S X 2 =1.2355
Observe que la media muestral es un buen representante de los datos, ya que la
desviacin estndar no es demasiado alta.
Para completar el literal a) debe obtenerse la media, varianza y desviacin estndar para
la variable Y.
+ 3*3 + 4*2
= 1.3077
( X / Y = 2) = 0*9 + 1*7 + 2*5
26
c) De forma anloga al literal b) (la media de Y es 1.46)
87
Estadstica Aplicada
Xi
1
1
2
3
3
4
4
4
Yi
2
6
2
2
4
2
4
6
n ij
1
1
2
1
1
1
2
1
Distribuciones marginales de X e Y.
Distribucin de Y condicionado a X=3
Covarianza
Solucin.
La tabla de correlacin pedida y sus distribuciones marginales estn dadas en la
siguiente tabla:
Y/X 1
2
3
4
n. j
La distribucin de Y/X=3
2
1
2
1
1
5
Y/X=3 2
4
6
4
0
0
1
2
3
1
1
0
n j /i =3
6
1
0
0
1
2
2
2
2
4
10=N
ni.
Hay que introducir el concepto de covarianza:
Cuando se observa el comportamiento conjunto de dos variables, el objetivo principal es
determinar si existe o no algn tipo de variacin conjunta o covariacin entre ellas. La
covarianza, ayuda a cuantificar la covariacin entre dos variables; as:
C ov ( X , Y ) = S X Y =
(x
l
i =1
)( y
Y n ij
88
Estadstica Aplicada
89