ESTADSTICA
GENERAL
La competencia que como estudiante debes lograr al finalizar esta asignatura es:
Aplica e interpreta instrumentos estadsticos en la construccin de nuevos
conocimientos y toma de decisiones generando la construccin del
pensamiento crtico en el entendimiento del desarrollo de la sociedad, el
individuo y la naturaleza que lo rodea.
INTRODUCCIN A LA ESTADSTICA
COMPETENCIA:
a) Presentacin y contextualizacin
c) Capacidades
TEMA
La Estadstica
ESTADSTICA GENERAL
campus.utelesup.com Pgina 6
UNIVERSIDAD PRIVADA TELESUP
1. DESARROLLO DE CONTENIDOS
La estadstica es una ciencia auxiliar para todas las ramas del saber; su
utilidad se entiende mejor si tenemos en cuenta que los quehaceres y
decisiones diarias embargan cierto grado de incertidumbre... y la Estadstica
ayuda en la incertidumbre, trabaja con ella y nos orienta para tomar las
decisiones con un determinado grado de confianza.
1. DEFINICIN
Definir la estadstica es una tarea difcil porque tendramos que definir cada
una de las tcnicas que se emplean en los diferentes campos en los que
interviene. Sin embargo, diremos, en forma general, que la estadstica es un
conjunto de tcnicas que, partiendo de la observacin de fenmenos,
permiten al investigador obtener conclusiones tiles sobre ellos.
2. DIVISIN
A) LOS CENSOS:
Durante los mil aos siguientes a la cada del Imperio romano, se realizaron muy
pocas operaciones Estadsticas y aunque Carlomagno, en Francia; y Guillermo,
el Conquistador, en Inglaterra, trataron de revivir la tcnica romana, los mtodos
estadsticos permanecieron casi olvidados durante la Edad Media.
Durante los siglos XV, XVI y XVII, hombres como Leonardo da Vine,
Nicols Coprnico, Galileo, Neper, William Harvey, Sir Francis Bacon y
Ren Descartes hicieron grandes aportes al mtodo cientfico, de tal forma
que cuando se crearon los Estados Nacionales y surgi como fuerza el
comercio internacional exista ya un mtodo capaz de aplicarse a los datos
econmicos.
Sexo Peso
Edad Altura
Nivel de estudios Color de pelo, Etc.
Profesin
TEMA
Etapas del
Mtodo
Estadstico
1. IMPORTANCIA
Una hiptesis es ante todo, una explicacin provisional de los hechos objeto de
estudio, y su formulacin depende del conocimiento que el investigador posea sobre la
poblacin investigada. Una hiptesis estadstica debe ser susceptible de docimar, esto
es, debe poderse probar para su aceptacin o rechazo.
En la prctica, estudiar todos y cada uno de los elementos que conforman la poblacin
no es aconsejable, ya sea por la poca disponibilidad de recursos, por la homogeneidad
de sus elementos, porque a veces es necesario destruir lo que se est midiendo, por
ser demasiado grande el nmero de sus
componentes o no se pueden controlar; por eso se
recurre al anlisis de los elementos de una muestra
con el fin de hacer inferencias respecto al total de la
poblacin. Existen diversos mtodos para calcular el
tamao de la muestra y tambin para tomar los
elementos que la conforman, pero no es el objetivo
de este curso estudiarlos. Diremos solamente que la
muestra debe ser representativa de la poblacin y
sus elementos escogidos al azar para asegurar la
objetividad de la investigacin.
7. LA RECOLECCIN
9. LA TABULACIN
11. EL ANLISIS
12. PUBLICACIN
TEMA
Tabla de
Distribucin de
Frecuencias
Para una mayor sencillez, en la exposicin del tema, nos valemos del siguiente
ejemplo: Supongamos que en la fbrica de confecciones La Hilacha, ha estallado un
conflicto laboral y sus cincuenta operarias solicitan un aumento en el salario diario de
lo contrario se paralizar la fbrica.
Tabla No.1
Salario Diario de 50 Operarias en la Fbrica de Confecciones La Hilacha
(datos en nuevos soles)
Obrera Miles Obrera Miles Obrera Miles Obrera Miles Obrera Miles
N S/. da N S/. da N S/. da N S/. da N S/. da
1 52 11 54 21 55 31 56 41 52
2 54 12 51 22 55 32 53 42 57
3 55 13 54 23 52 33 57 43 56
4 54 14 55 24 55 34 54 44 51
5 53 15 54 25 53 35 53 45 58
6 56 16 56 26 57 36 50 46 55
7 54 17 52 27 54 37 55 47 53
8 58 18 54 28 55 38 52 48 54
9 51 19 53 29 53 39 53 49 53
10 54 20 55 30 55 40 54 50 56
Tabla No. 2
Salario Diario de 50 Operarias en la Fbrica de Confecciones
La Hilacha
(datos en nuevos soles)
Miles Miles Miles Miles Miles
S/. da S/. da S/. da S/. da S/. da
52 54 55 56 52
54 51 55 53 57
55 54 52 57 56
54 55 55 54 51
53 54 53 53 58
56 56 57 50 55
54 52 54 55 53
58 54 55 52 54
51 53 53 53 53
54 55 55 54 56
Tabla No. 3
Salario Diario de 50 Operarias en la Fbrica de Confecciones La Hilacha
(datos en nuevos soles)
S/. da S/. da S/. da S/. da S/. da
50 53 54 55 56
51 53 54 55 56
51 53 54 55 56
51 53 54 55 56
52 53 54 55 56
52 53 54 55 57
52 53 54 55 57
52 53 54 55 57
52 54 54 55 58
53 54 54 55 58
Tabla No. 4
Distribucin Miles /SA de Frecuencias del Salario de 50 personas operarias
Nuevo soles / da Conteo Repeticin
50 l 1
51 lll 3
52 lllll 5
53 lllllllll 9
54 llllllllllll 12
55 lllllllll 10
56 lllll 5
57 lll 3
58 ll 2
Como se puede observar, hay una gran diferencia entre los datos brutos de la tabla
No.1 y el ordenamiento y agrupamiento de la tabla No. 4.
Tabla No. 5
Distribucin de Frecuencias del Salario Diario de 50 Obreras
Salario S/. Frecuencia Frecuencia Frecuencia Frecuencia relativa
da acumulada relativa acumulada
xi fi fa fr fra
50 1 1 1/50=0.02 1/50=0.02
51 3 4 3/50=0.06 4/50=0.08
52 5 9 5/50=0.10 9/50=0.18
53 9 18 9/50=0.18 18/50=0.36
54 12 30 12/50=0.24 30/50=0.60
55 10 40 10/50=0.20 40/50=0.80
56 5 45 5/50=0.10 45/50=0.90
57 3 48 3/50=0.06 48/50=0.96
58 2 50 2/50=0.04 50/50=1.00
Sumas 50 1.00
Analizando las columnas porcentuales fr y fra se obtienen, entre otras las siguientes
conclusiones:
Tabla No. 7
Resistencia en Kg/Cm2 de 100 Baldosas de La Fbrica De Las Casas
478 458 683 780 736 448 591 555
La amplitud debe ser igual para todos los intervalos y, en lo posible, no se debe
trabajar con clases abiertas.
+ = ( )
2
Construir los intervalos, calcular los puntos medios o marcas de clase y hacer el
agrupamiento de frecuencias.
Observaciones
Acumulada
Acumulada
Frecuencia
Frecuencia
Frecuencia
Frecuencia
Intervalos
Marca de
Relativa
Relativa
Clase
fra
fa
fr
X
fi
n: Nmero de observaciones
LIPI: Lmite inferior del primer intervalo
LSUI: Lmite superior del ltimo intervalo
Xi: Punto medio del intervalo, o marca de
clase
* Con el fin de prever dobles conteos, quien clasifica deber especificar si los
intervalos son abiertos a la derecha o abiertos a la izquierda, en estas notas,
trabajaremos con intervalos abiertos a la derecha; es decir, del tipo , <
donde el lmite superior no est incluido dentro de la clase.
=
<<
Rango
=
. = 780 122 = 658
.
Nmero de intervalos
= 1 + 3.3 log ,
= 1 + 3.3 log 100
= 1 + 3.3 2 = 7.6
658
> , > 7
= ; 122 22 = 100 =
2
= ; 780 + 20 = 800 =
2
Tabla No. 8
Construccin de los Intervalos para la Resistencia de las Baldosas
Tabla No. 9
Distribucin de Frecuencias por Intervalos de la Resistencia de 100 Baldosas de la
Fbrica de las Casas.
Kg/Cm2 X f1 fa fr fra
100 Menos de 200 150 4 4 0.04 0.04
200 Menos de 300 250 10 14 0.10 0.14
300 Menos de 400 350 21 35 0.21 0.35
400 Menos de 500 450 33 68 0.33 0.68
5000 Menos de 600 550 18 86 0.18 0.86
6000 Menos de 700 650 9 95 0.09 0.95
700 Menos de 800 750 5 100 0.05 1.00
SUMAS 100 1.00
Conclusiones:
El 72% de las baldosas tiene una resistencia entre 300 y 600 Kg/Cm 2.
El 86% de las baldosas resiste menos de 600 Kg/Cm2.
Slo el 5% resiste 700 o ms Kg/Cm2.
TEMA
Representacin
Grfica
1. DEFINICIN
Una grfica, al igual que un cuadro o una tabla, debe constar de:
1) Ttulo adecuado: El cual debe ser claro y conciso, que responda a las
preguntas: Qu relaciona, cundo y dnde se hicieron las observaciones.
Grfico N1
25
20
15
10
0
1995 1996 1997 1998 1999 2000
Grfico N2
25
20
15
10
0
1995 1996 1997 1998 1999 2000
Grfico N3
25
20
15
10
0
1995 1996 1997 1998 1999 2000
Los dos dibujos son incorrectos debido a que no conservan una proporcin
adecuada entre sus ejes. Sin embargo, el grfico No. 3 tiene una buena
proporcin entre los ejes. Pero, la distorsin se debe a la mala numeracin en el
eje Y pues, el punto de origen O ha sido eliminado y asignado un valor
arbitrario, la escala es inadecuada para resaltar el decrecimiento inflacionario de
los dos ltimos periodos.
= =
La longitud del eje vertical es igual a tres cuartos de la longitud del eje
horizontal.
Grfico N1
25
20
15
10
0
1995 1996 1997 1998 1999 2000
25
20
15
Inflacin
10 Salario
0
1995 1996 1997 1998 1999 2000
c) Grfico de Barras:
N de hijos 0 1 2 3 4
Frecuencia 11 12 17 8 2
Nmero de hijos
18
16
14
12
10
8
6
4
2
0
0 1 2 3 4
35
30
25
20
Hombres
15 Mujeres
Total
10
0
Apra PPC Accin Popular Izquierda Unida
Estado Civil
Estado Civil de 50
Operarias de "La Hilacha" 4%
8%
Casada
34%
Conviviente
Soltera
32% Viuda
Divorciada
22%
f) Histograma de Frecuencias:
Histograma
25
20
Frecuencia
15
10
0
100 200 300 400 500 600 700 800 900
Resistencia Kg/cm2
g) Polgono de Frecuencias
Polgono de frecuencia
25
20
Frecuencia
15
10
0
100 200 300 400 500 600 700 800 900
Resistencia Kg/cm2
Histograma de frecuencia
acumulada
120
100
Frecuencia
80
60
40
20
0
100 200 300 400 500 600 700 800 900
Resistencia Kg/cm2
Ojiva
120
100
80
Frecuencia
60
40
20
0
100 200 300 400 500 600 700 800 900
Resistencia Kg/cm2
http://www.cortland.edu/flteach/stats/stat-sp.html
http://www.uam.es/personal_pdi/economicas/rmc/redes/pdf/intro2.pdf
4. ACTIVIDADES Y EJERCICIOS
2.- Ingresa a la actividad: fbrica La hilacha lee atentamente las instrucciones para
descargar la tabla, realizar la actividad y para enviarlo.
1 0 2 1 3 1 4 3 2 5
3 2 4 2 0 3 1 2 0 2
1 1 0 1 0 0 1 2 1 3
4 0 2 3 2 0 0 2 5 2
2 4 2 1 3 1 2 1 0 2
1. Qu es la unidad de observacin?
a) Es la definicin previa de los individuos agrupados en un criterio de
evaluacin.
b) Cada uno de los elementos constituyentes de la poblacin estudiada
c) Es la asociacin entre criterios de medicin
d) Es el criterio sobre la unidad de medicin
e) Es el anlisis mediante las herramientas de medicin
6. La frecuencia acumulada?
a) La suma de todos los valores.
b) El total de datos
c) La suma de todas las frecuencias iguales y anteriores al valor analizado
d) El porcentaje de todas las frecuencias acumuladas
a) 50%
b) 70%
c) 60%
d) 80%
e) 75%
6. RESUMEN
La estadstica es una ciencia auxiliar para todas las ramas del saber. La
estadstica ayuda en la incertidumbre, trabaja con ella y nos orienta para tomar las
decisiones con un determinado grado de confianza. La estadstica parte de la
observacin de fenmenos, permitiendo al investigador obtener conclusiones
tiles sobre ellos. Se divide en: La estadstica Descriptiva y la estadstica
Matemtica e Inferencial. Estas dos ramas son complementarias, ambas dan la
suficiente ilustracin sobre una posible realidad futura, con el fin de que quien
tenga poder de decisin, tome las medidas necesarias para transformar ese
futuro.
UNIDAD DE
APRENDIZAJE
COMPETENCIA:
1. INTRODUCCIN
a. Presentacin y contextualizacin
Los retratos resultantes de las distribuciones de frecuencia ilustran tendencias y
patrones de los datos, sin embargo tenemos necesidad de medidas exactas, en
esos casos los nmeros que constituyen las estadsticas sumarias para describir las
caractersticas del conjunto de datos.
b. Competencia
Identifica y hace uso de medidas estadsticas para describir una realidad dentro del
entorno de las ciencias sociales y biolgicas.
c. Capacidades
1. Utiliza la media, mediana y la moda para describir cmo se aglutinan los
datos
2. Utiliza los percentiles para entender la distribucin en proporcional de los
datos.
3. Utiliza el rango, la varianza y la desviacin estndar para describir cmo se
dispersan los datos.
4. Identifica la forma de distribucin de los datos a partir del uso de la asimetra
y la curtosis.
d. Actitudes
1. Valora la ciencia de la estadstica
2. Mejora la redaccin de documento cientficos
3. Muestra rigurosidad para representar relaciones, plantear argumentos y
comunicar resultados
TEMA
Medidas de
Tendencia Central
Media aritmtica.
Mediana
Moda.
1. MEDIA ARITMTICA
1 + 2 +. + +. + 1
= =
: Valores de la variable X.
: Nmero de observaciones.
Lunes: 18
Martes: 21
Ejemplo:
Mircoles: 22
Cantidad de cigarrillos Jueves: 21
consumidos por un fumador en Viernes: 20
una semana. Sbado: 19
Domingo: 19
Entonces la media aritmtica es.
1 + 2 +. + +. + 1
= =
7
1
= 7
18 + 21 + 22 + 21 + 20 + 19 + 19
= = 20
7
1 1 + 2 2 +. + +. + 1
= =
Ejemplo:
Cantidad Frecuencia
1
=
Xi fi
18 1 18 1 + 19 2 + 20 1 + 21 2 + 22(2)
=
19 2 7
20 1 = 20
21 2
= 20 /
22 1
Sumas 7
Ejemplo:
Ejemplo:
Resistencia X fi Xifi
Kg/cm2
Hemos visto que la Media Aritmtica se calcula con base a la magnitud de los
datos, otorgndole igual importancia a cada uno de ellos. Sin embargo en
muchas ocasiones la magnitud del dato esta ponderada con un determinado
peso que lo afecta relativamente.
Ejemplo:
Un examen cuyo valor es 40% en el cual obtuvo una nota de 4.5, un trabajo de
consulta con ponderacin del 10% y calificacin de 1.0, una exposicin
equivalente al 15% con nota de 2.0, y por ltimo una investigacin con valor del
35% calificada con 3.5.
. + . . + . . + . .
=
. + . + . + .
. + . + . + .
= = .
.
3. LA MEDIANA
= , = , = ,
= , = ,
En el ejercicio de los cigarrillos,
consumidos por un fumador = , =
tenemos lunes 18, martes 21,
n, es impar, entonces
mircoles 22, jueves 21, viernes 20,
sbado 19, y domingo 19. = (+) = (+) = =
Ordenando ascendentemente:
Veamos cuando n es par:
= , = , = , = , = , = ,
= , = , = , = , = , =
() + (+) () + (+) + +
= = = = =
: Mediana
: Nmero de observaciones
() : Frecuencia acumulada anterior
al intervalo mediano
Resistencia X fi fa
Kg/cm2
100 y menos de 200 150 4 4
200 y menos de 300 250 10 14
300 y menos de 400 350 21 35
400 y menos de 500 450 33 68 Interv.
Mediano
500 y menos de 600 550 18 86
600 y menos de 700 650 9 95
700 y menos de 800 750 5 100
Sumas 100
100
= = 50
2 2
100
(1) 35
2 2
= + = 400 + 100 = 445.45 /2
33
Se concluye que el 50% de las baldosas resiste menos de 445.45 Kg/Cm 2 y el 50%
resiste mas de 445.45 Kg/Cm2
4. LA MODA
Soles por da
fi
(Xi)
50 1
51 3
52 5
53 9 El valor que ms veces se repite es 54
54 12
55 10 con una frecuencia de 12, entonces
56 5 decimos que la moda es Mo = 54 soles
57 3 diarios.
58 2
Cantidad Frecuencia
Xi fi
Cantidad de Cigarrillos Consumidos por 18 1
19 2
un Fumador en una semana Dada: 20 1
21 2
22 1
7
Los valores de mayor frecuencia corresponden a 19 y 21, por lo tanto se trata de una
distribucin bimodal con Mo1=19 y Mo2=21
Donde:
: Moda
: Lmite inferior del intervalo
() modal
= + : Frecuencia de la clase modal
() (+) ():Frecuencia de la clase
premodal
(+):Frecuencia de la clase
posmodal
: Amplitud de los intervalos
Ejemplo:
Resistencia X fi
Kg/cm2
= + = . /
5. MEDIA GEOMTRICA
= 1 2 3 .
Ejemplo
4
= 1 2 3 . = 3 2 4 6 = 3.4641
6. MEDIA ARMNICA
1
= 1 1 1 1 1
( + + ++ )
1 2 3
Ejemplo
Supngase que una familia realiza un viaje en automvil a un ciudad y cubre los
primeros 100 km a 60 km/h, los siguientes 100 km a 70 km/h y los ltimos 100 km a
80 km/h. Calcular, en esas condiciones, la velocidad media realizada.
1
= 1 1 1 1 = 69.041
( + + )
3 60 70 80
TEMA
Percentiles
1. CUARTILES
Grficamente:
Q1 Q2 Q3
: Nmero de observaciones
Ejemplo:
Resistencia X fi fa
Kg/cm2
100 y menos de 200 150 4 4
200 y menos de 300 250 10 14
300 y menos de 400 350 21 35 Contiene a Q1
400 y menos de 500 450 33 68 Contiene a Q2
500 y menos de 600 550 18 86 Contiene a Q3
600 y menos de 700 650 9 95
700 y menos de 800 750 5 100
Sumas 100
1(100 )
Primer cuartil: = 1 = = 25
4 4
Posicin que debe ser ubicada en la frecuencia acumulada, para determinar que
clase contiene este cuartil.
(1) 25 14
4
= + 1 = 300 + 100 = 352.38 /2
21
El 25% de las baldosas resiste menos de 352.38 Kg/Cm2 y el 75% tiene una
resistencia superior.
(1) 75 68
4
= + 3 = 500 + 100 = 538.88 /2
18
El 75% de las baldosas tiene una resistencia inferior a 538..88 Kg/Cm2 y el 25%
una resistencia superior.
2. QUINTILES
Grficamente:
Q Q Q Q
1 2 3 4
0 20 40 60 80 10
% % % % % 0%
(1)
= + 5
= 1, 2, 3, 4.
2(100 ) 4035
k=2; = = 40 2 = 400 + 100 = 415.15 /2
5 5 33
El 40% de las baldosas resiste menos de 415.15 kg/cm2 y el 60% resiste ms.
3. DECILES
(1)
= + 10
= 1, 2, 3, 4 ,9.
Q1 Q2 Q3 Q4 Q5 Q6 Q7 Q8 Q9
0 10 20 30 40 50 60 70 80 90 100
% % % % % % % % % % %
4. CENTILES
(1)
= + 100
= 1, 2, 3, 4 ,99.
TEMA
Medidas de
Dispersin
Rango o recorrido
Desviacin media
Coeficiente de variabilidad.
1. RANGO O RECORRIDO
2. DESVIACIN MEDIA
La desviacin media, mide la distancia absoluta promedio entre cada uno de los
datos, y el parmetro que caracteriza la informacin. Usualmente se considera la
desviacin media con respecto a la media aritmtica:
: Desviacin media
: Diferentes valores de la
variable X : Nmero de
veces que se repite la
observacin
=
Donde: : Media aritmtica de la
informacin
: Tamao de la muestra.
: Nmero de agrupamientos o
intervalos
Ejemplo:
Soles por da Xi fi
50 1 4.1 4.1
51 3 3.1 9.3
52 5 2.1 10.5
53 9 1.1 9.9
54 12 0.1 1.2 = = = .
55 10 0.9 9.0
56 5 1.9 9.5
57 3 2.9 8.7
58 2 3.9 7.8
Sumas 50 70
3. VARIANZA
: Varianza
: Valor de la variable X
: Media aritmtica de la
informacin
( )
: Frecuencia absoluta de la
= Donde: observacin xi
: Tamao de la muestra.
: Nmero de agrupamientos o
intervalos
Soles por da Xi fi
50 1 50 50-54.1=4.1 16.81 16.81
51 3 153 51-54.1=3.1 9.61 28.83
52 5 260 52-54.1=2.1 4.41 22.05
53 9 477 53-54.1=1.1 1.21 10.89
54 12 648 54-54.1=0.1 0.01 0.12
55 10 550 55-54.1=0.9 0.81 8.10
56 5 280 56-54.1=1.9 3.61 10.05
57 3 171 57-54.1=2.9 8.41 25.23
58 2 116 58-54.1=3.9 15.21 30.42
Sumas 50 160.50
( )2
= 2 = = 19596 = 140 /2
4. COEFICIENTE DE VARIABILIDAD
1.791
= 100 = = 0.033 = 3.3%
54.1
Para la resistencia
140 /2
= 100 = = 0.3125 = 31.25%
448 /2
TEMA
Medidas de
Formas
1. COEFICIENTE DE ASIMETRA
2. COEFICIENTE DE CURTOSIS
Observaciones:
5 3 3 3 3 3
3 4 3 2 3 3
1 4 3 4 3 2
5 5 2 4 4 2
4 4 1 3 2 2
3 2 3 3 4 3
1 5 5 3 4 1
3 1 2 3 2 3
SOLUCIN
NOTA:
3. LECTURAS RECOMENDADAS
http://www.cesma.usb.ve/~giselle/FC1621/guiateoricaestadisticaI.prn.pdf
http://optimierung.mathematik.uni-
kl.de/mamaeusch/veroeffentlichungen/ver_vortraege/tt_es_dec03_paula1.pdf
4. ACTIVIDADES Y EJERCICIOS
1.- Ingresa a la actividad Medidas de Tendencia, Dispersin y Forma lee atentamente las
instrucciones para descargar el archivo de Word, realizar la actividad y para enviarlo.
2.- Ingresa a la actividad la tripulacin de un avin lee atentamente las instrucciones para
descargar el archivo de Word, realizar la actividad y para enviarlo.
5. AUTOEVALUACIN
De la siguiente tabla:
3. La mediana es:
a) 126.30
b)162.21
c) 182.60
d) 120.23
e) 110.23
5. Qu simboliza () :
a) La Frecuencia acumulada hasta el intervalo anterior al que contiene el
quintil
b) Orden del cuartil k = 1,2,3Frecuencia del intervalo que contiene el cuartil
c) La Frecuencia acumulada hasta el intervalo anterior al que contiene el
cuartil.
d) Orden del cuartil k = 1,2,3Frecuencia del intervalo que contiene el quintil
e) Orden del cuartil k = 1,2 Frecuencia del intervalo que contiene el quintil
6. La varianza asciende a:
a) 8979.39
b) 7930.15
c) 7989.93
d) 9387.45
e) 7895.52
6. RESUMEN
La varianza S2: Es la media de los cuadrados de las diferencias entre cada valor de la
variable y la media aritmtica de la distribucin.
Los Percentiles
Son ciertos parmetros posicionales para la interpretacin porcentual de la informacin. Entre
ellos tenemos:
Medida de Dispersin:
Se llaman medidas de dispersin aquellas que permiten retratar la distancia de los valores
de la variable a un cierto valor central, o que permiten identificar la concentracin de los
datos en un cierto sector del recorrido de la variable. Se trata de coeficiente para variables
cuantitativas. Utilizando los siguientes indicadores: Rango o recorrido, Desviacin media,
Varianza y desviacin tpica o estandar, y Coeficiente de variabilidad.
Medidas de Forma:
Evala la forma que adopta la distribucin de frecuencias respecto al grado de distorsin
(inclinacin) que registra respecto a valor promedio tomado como centro de gravedad, el
grado de apuntamiento (elevamiento) de la distribucin de frecuencias. A mayor elevamiento
de la distribucin de frecuencia, a mayor concentracin de los datos en torno al promedio,
una menor dispersin de los datos. Estas son: Asimtrica o sesgo y Curtosis. La primera nos
permite identificar si los datos se distribuyen de forma uniforme alrededor del punto central
(Media aritmtica). La asimetra presenta tres estados diferentes: Curva de Asimetra
Negativa, Curva Asimtrica y curva de Asimetra Positiva. La segunda, determina el grado de
concentracin que presentan los valores en la regin central de la distribucin. Determinando
una concentracin de valores (Leptocrtica), una concentracin normal (Mesocrtica) una
baja concentracin (Platicrtica).
LA CORRELACIN Y LA REGRESIN
COMPETENCIA:
2. INTRODUCCIN
a. Presentacin y contextualizacin
b. Competencia (Logro)
c. Capacidades
d. Actitudes
TEMA
Tablas de
Doble Entrada
Hasta ahora hemos hecho la tabulacin y el anlisis para una sola variable.
Pero los investigadores, adems de analizar una informacin en forma
individual, generalmente se interesan en establecer cruces y buscar
relaciones entre diferentes variables.
Algunos trminos:
, : Frecuencia de la observacin ,
, : Frecuencia de la observacin ,
(, , )
X
X1 X2 xi xm fyj fayj fryj frayj
Y
Y1 F11 F21 fi1 fm1 Fy1 fay1 fry1 Fray1
Y2 F12 F22 fi2 fm2 Fy2 fay2 fry2 Fray2
: : : : : : : : : : :
yj F1j F2j fij fmj fyj fayj fryj frayj
: : : : : : : : : : :
yk f1k F2k fik fmk fyk n fryk 1.00
fxi Fx1 fx2 fxi fxm n 1.00
faxi fax1 fax2 faxi n
frxi Frx1 frx2 frxi frxm 1.00
fraxi frax1 frax2 fraxi 1.00
X
2 3 4 5 6 7 8 9 fyj fayj fryj frayj
Y
50 1 1 1 0.02 0.02
51 3 3 4 0.06 0.08
52 5 5 9 0.10 0.18
53 8 1 9 18 0.18 0.36
54 2 9 1 12 30 0.24 0.60
55 3 7 10 40 0.20 0.80
56 3 2 5 45 0.10 0.90
57 2 1 3 48 0.06 0.96
58 1 1 2 50 0.04 1.00
fxi 1 3 5 10 13 11 5 2 50 1.00
faxi 1 4 9 19 32 43 48 50
frxi 0.02 0.06 0.10 0.20 0.26 0.22 0.10 0.04 1.00
fraxi 0.02 0.08 0.18 0.38 0.64 0.86 0.96 1.00
Analizando los relativos para cada una de las variables podemos sacar, entre otras,
las siguientes conclusiones:
X
Casada Soltera Conviviente Viuda fi fa fr Fra
y
0 11 11 11 0.22 0.22
1 9 2 1 12 23 0.24 0.46
2 4 9 2 2 17 40 0.34 0.80
3 5 1 1 2 9 49 0.18 0.98
4 1 1 50 0.02 1.00
Total 10 30 5 5 50 1.00
TEMA
Correlacin
El sondeo del tipo y grado de la correlacin, parte desde la misma presuncin del
investigador, teniendo presente que la bsqueda de relaciones entre variables debe
ser lgica, es decir relacionar lo que sea razonable y no datos cuya asociacin sea
desde cualquier punto de vista absurda.
Escolaridad y Salario
A pesar de la ilustracin visual
Correlacin positiva
Salarioo en soles 60 que ofrecen las grficas, solo
50 podemos percibir la tendencia,
mas no el grado o fortaleza de la
40
relacin, entre la variable
30
independiente X y la variable
0 10 20
Aos de estudio dependiente Y.
Salarioo en soles
Salarioo en soles
50 50
40 40
30 30
0 20 40 60 0 2 4 6
Ausencias Ausencias
,
Para cuantificar la calidad de la dependencia, entre las dos =
variables, el indicador ms acostumbrado es el Coeficiente de
correlacin, definido como:
Donde:
: Desviacin tpica de X
: Desviacin tpica de Y
, : Covarianza entre X y Y
=
2 ( )2 2 ( )2
1 1 1 12 12
2 2 2 22 22
. . . . .
. . . . .
2 2
Soles /da 56 58 60 62 64 66 68 70 72 74 76
=
2 ( )2 2 ( )2
11 3850 55(726)
=
11 385 55 2 11(48356) (726)2
2420 2420
= = = 1
1210(4840) 2420
Sin embargo, no todas las relaciones son tan ideales, en el comn de los casos
1< r <1. Empricamente se afirma que:
1. Si = 1Correlacin perfecta
2. 0.9 1 1 0.9
3. 0.8 0.9 0.9 0.8 .
=
2 ( )2 2 ( )2
50 16039 294(2705)
= = 0.957
50(1850 (294)2 50(146501) (2705)2
TEMA
Regresin Lineal
con Ajuste
Rectilneo
ESTADSTICA GENERAL
campus.utelesup.com Pgina 91
UNIVERSIDAD PRIVADA TELESUP
Tema 03: REGRESIN LINEAL CON AJUSTE RECTILNEO
= +
Con:
X: Variable independiente
Y: Variable dependiente
b : Coeficiente de X
Debemos establecer los parmetros a y b de la ecuacin para poder
expresar los valores de la variable Y en funcin de los valores de la variable
X, esto es:
1 = + 1 , 2 = + 2 , 3 = + 3 , = +
= + = +
= + = +
= + = +
= + = +
Sumas = + () = + ()
De (1) tenemos:
= (3)
= , =
2 ( )2
50 16039 294(2705)
= 2 2
= = 1.1
( ) 50 1850 (294)2
2705 1.1(294)
= =
50
= + = 47.63 + 1.1
55
54
53
52
51
50
49
0 1 2 3 4 5 6 7 8 9 10
Experiencia en aos
2
2 = 1 , = , 2 = , 2 =
2
TEMA
Regresin Lineal
con Ajuste
Parablico
= + +
Es decir:
= + + , = + + , . . , = + +
= + + 2 2 = 2 + 22 + 23 22 2 = 22 + 23 + 24
. . .
. . .
. . .
= + + = + 2 + 3 2 = 2 + 3 + 4
= + + 2 (1)
De donde se pueden estimar los
= + 2 + 3 (2) parmetros de la parbola
", , .
2 2 3 4
= + + 3
Gramos 1 1 2 2 3 3 4 5 5 6 7 8 9 9 10
Frutos 10 15 30 25 40 43 50 55 54 53 51 47 41 35 30
579 = 15 + 75 + 505
Parbola ajustada
60
50
40
Frutos
30
20
y = - 5.426+ 20.26x-1.7x2
10
0
0 2 4 6 8 10 12
Gramos
a = -0,47
b = 0,51
c = 1,14
Y*= - 0,47 + 0,51X + 1,14X2
El coeficiente de Determinacin:
3. LECTURAS RECOMENDADAS
4. ACTIVIDADES Y EJERCICIOS
5. AUTOEVALUACIN
Se tiene informacin sobre nmero de operarios y el tiempo de produccin de
diferentes plantas de cierta empresa.
Gastos Generales 191 170 272 155 280 173 234 116 153 178
Unidades 40 37 30 48 39 56 35 53 42 40
1. La correlacin es:
a) Positiva
b) Negativa
c) Cero
d) Indeterminada
e) Nula
6. La correlacin es:
a) Positiva
b) Negativa
c) Cero
d) Indeterminada
e) Nula
6. RESUMEN
UNIDAD DE APRENDIZAJE iii
Si los puntos no muestran una grfica recta sino es bivariante se refiere a una
regresin lineal con ajuste parablico siendo las ecuaciones normales de grado 2,
de las cuales se obtiene las estimaciones de los parmetros de la parbola a, b, c.
UNIDAD DE
APRENDIZAJE
NMEROS E NDICES Y
SERIES DE TIEMPO
COMPETENCIA:
Al finalizar esta unidad usted ser capaz de
Reconocer y utilizar los nmeros ndices para
interpretar fenmenos administrativos y econmicos;
y a la vez analiza las series de tiempo con un manejo
cuantitativo para determinar patrones de los
ESTADSTICA GENERAL
datos
Pgina 105
recolectados a travs del tiempo.
UNIVERSIDAD PRIVADA TELESUP
1. INTRODUCCIN
a) Presentacin y contextualizacin
En algn momento, todo el mundo debe determinar qu tanto ha cambiado algo
en cierto periodo de tiempo, se necesita determinar y definir un grado de cambio,
por lo comn los nmeros ndices son los que nos permiten medir estas
diferencias.
Los pronsticos o predicciones son una herramienta esencial en cualquier proceso
de toma de decisiones, sus aplicaciones varan desde la determinacin de los
requerimientos de inventario hasta la estimacin de futuros comportamiento de
diversas variables.
b) Competencia (Logro)
c) Capacidades
d) Actitudes
Valora el uso de las tasa e indicies y el uso de las series de tiempo para la
toma decisiones.
Mejora la redaccin de documento cientficos
Muestra rigurosidad para representar relaciones, plantear argumentos y
comunicar resultados
TEMA
Tasas
Tema 1: TASAS
1. TASA
Por lo tanto: =
Ejemplos:
= 1000
D: Tasa de desercin escolar.
= 1000 TE: Tasa de empleo.
Valga anotar que a las tasas se les debe multiplicar por una
constante k, la cual generalmente es 100, 1000 o mltiplos de
ellos, con el fin de convertirlos en porcentajes, por millares etc.
En demografa, las tasas son de uso frecuente, entre otras, mencionaremos las
siguientes:
= 1000
TN : Tasa de natalidad
N: Nmero de nacidos vivos ocurridos en un periodo y rea dada
P: Poblacin total del rea a mitad del periodo.
= 1000
Donde:
TC : Tasa de nupcialidad.
M : Nmero de matrimonios efectuados en un periodo y rea dada.
= 1000
Donde:
TC : Tasa de crecimiento poblacional
M : Nmero de matrimonios efectuados en un periodo y rea dada.
TEMA
ndices
Tema 2: NDICES
1. NDICE SIMPLE
Un nmero ndice simple, es aquel que se
calcula para una sola variable, dividiendo
cada uno de los valores de la serie
cronolgica, por el valor correspondiente al
"periodo base" previamente definido.
= , si la variable se refiere a precios
= , si la variable se refiere a cantidades
: ndice de precios
Cuando hablamos por ejemplo de los ndices indicadores del costo de la canasta
familiar, se toman en cuenta muchos artculos cuyos consumos inciden en el costo
de vida, con una ponderacin o importancia diferente en cada caso.
Colectivamente no es lo mismo un cambio en el precio de la carne, huevos o
leche, que un cambio en el precio de los perfumes, joyas o cualquier otro artculo
suntuoso.
Este ndice asume como ponderaciones, en el clculo del ndice global, las
cantidades de los artculos en el periodo base.
Donde:
=
: ndice de precios global (Laspeyres).
q0 p0 p1 p2 p3 p0 p1 p2 p3
Art. Ao 1998 1998 1999 2000 2001 1998 1999 2000 2001
A 5 10 12 14 15 50 60 70 75
B 10 20 24 25 25 200 240 250 250
= =
Dado el deterioro del salario real en los dos ltimos aos debera
considerarse un generoso aumento.
TEMA
Series
Tema 3: SERIES
1. INTRODUCCIN:
Una de las motivaciones para el estudio del tema surge desde tiempos
remotos donde una de las principales inquietudes del hombre ha sido
estimar el futuro utilizando informacin del presente y del pasado. Esto se
llama predecir. Es evidente que las diversas instituciones requieren conocer
el comportamiento futuro de ciertos fenmenos con el fin de planificar,
proveer o prevenir.
14
12
10
8
6
4
2
0
1 2 3 4 5 6 7 8 9 10 11
Tiempo t
3.1 OUTLIERS:
Se refiere a puntos de la serie que se escapan de lo normal.
Si se sospecha que una observacin es un outliers, se
debe reunir informacin adicional sobre posibles factores
que afectaron el proceso.
12
10
4
outliers
2
0
1 2 3 4 5 6 7 8 9 10 11
Tiempo t
3.2 TENDENCIAS
14
12
10
8
6
4
2
0
1 2 3 4 5 6 7 8 9 10 11
Tiempo t
9
8
7
6
5
4
3
2
1
0
1 2 3 4 5 6 7 8 9 10 11
Tiempo t
Se suele hacer una distincin entre cclicas y estacionarias. Estas ltimas ocurren
con perodos identificables, como la estacionalidad del empleo, o de la venta
de ciertos productos, cuyo perodo es un ao.
Tabla de familiarizacin
Estacionalidad Tendencia Aleatoria
Alta
Media
Baja
Ejercicios:
t Xt t Xt
1 20636 21 52232
2 18708 22 58232
3 62944 23 45726
4 50272 24 24550
5 69375 25 30954
6 50056 26 34295
7 20604 27 63167
8 54947 28 42520
9 50576 29 50572
10 50425 30 53875
11 44202 31 27233
12 27604 32 57942
13 28791 33 47610
14 28183 34 61738
15 56632 35 51168
16 56641 36 26370
17 56555 37 42964
18 57185 38 42748
19 33906 39 62390
20 67261
TEMA
Manejo de los
Componentes
() = () + () + ()
() = () () ()
Donde:
T: Tendencia de la serie.
E: Variacin Estacional.
A: Variaciones aleatorias.
Hay varios mtodos para estimar la tendencia T(t), uno de ellos es utilizar un
modelo de regresin lineal. Se pueden utilizar otros tipos de regresiones, como
regresin cuadrtica, logstica, exponencial, entre otros.
200
150
Consumo
100
50
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
Ao
= + . + ()
= . + .
t Tiempo t Tiempo
1 -23 13 1
2 -21 14 3
3 -19 15 5
4 -17 16 7
5 -15 17 9
6 -13 18 11
7 -11 19 13
8 -9 20 15
9 -7 21 17
10 -5 22 19
11 -3 23 21
12 -1 24 23
= = 121.46 = 9757.2
2 = 4600
9757.2
= 121.46 = = = 2.12
2 4600
= 121.46 + 2.12
Se observa un ciclo
La serie con tendencia se de la siguiente manera:
que dura casi todo el
perodo observado, de
200
24 aos.
150
Consumo
100
50
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
Ao
Indicador Mensual
140
130
120
110
100
90
80
may-03
may-04
may-05
may-06
may-07
may-08
may-09
may-10
sep-03
sep-04
sep-05
sep-06
sep-07
sep-08
sep-09
ene-03
ene-06
ene-09
ene-04
ene-05
ene-07
ene-08
ene-10
Se estima la tendencia por
regresin lineal = + +
Indicador Mensual
140
130
120
110
100
90
80
ene-03
sep-03
ene-04
sep-04
ene-05
sep-05
ene-06
sep-06
ene-07
sep-07
ene-08
sep-08
ene-09
sep-09
ene-10
may-07
may-03
may-04
may-05
may-06
may-08
may-09
may-10
ene-10
ene-03
ene-04
ene-05
ene-07
ene-08
ene-09
may-03
may-07
may-04
may-05
may-06
may-08
may-09
may-10
sep-04
sep-08
sep-03
sep-05
sep-06
sep-07
sep-09
En las columnas 3 a 6, se
entregan los promedios
mviles de orden 3, 5, 7 y
9, respectivamente.
Cantidad de Produccin
760.0
750.0
740.0
730.0
720.0
710.0
700.0
690.0
680.0
670.0
660.0
Ene
Feb
May
Mar
Jun
Abr
Jul
Los grficos siguientes corresponden a las medias mviles. Se observa cmo a
medida que aumenta el orden, el efecto del suavizado es mayor. Pero tambin se
pierden ms datos en los extremos.
Feb
Mar
Jun
Abr
Jul
May
Mar
Ene
Abr
Jun
Jul
Feb
Jun
Abr
Ene
Jul
Feb
740
730
720
710
700
690
May
Mar
Abr
Jun
Ene
Jul
Feb
= + . ( )
= . + . 1 . 1 + . 1 2 . 2 +. 1 3 . 3 +
, . 1 , . 1 2 , . 1 3 , . 1 4 ,
+ = . + . . ()
Si se intentara hacer ms de una prediccin, dara el mismo valor, por eso que slo se
usa para predecir un valor a la vez. Sin embargo, en la prctica, cada vez que aparece
una nueva observacin real, se actualiza la frmula anterior, pera predecir la siguiente.
EJEMPLO
En el cuadro siguiente se muestra la produccin de minerales de una conocida
empresa peruana.
Junto a los datos se muestran tres suavizamientos exponenciales con a=0.3, a=0.5 y
a=0.7. Como no hay datos indefinidamente hacia el pasado, los primeros trminos de
la serie suavizada salen algo distorsionados, pues no consideran suficientes trminos
hacia atrs. La forma de calcular es la siguiente, partiendo del primer trimestre 1996,
que llamaremos t=1:
1 = 1
2 = . 2 + 1 . (1)
3 = . 3 + 1 . (2)
Como se ve, Z(1) no contiene toda la historia hacia atrs, Z(2) slo un trmino hacia el
pasado, Z(3) slo 2, etc.
En el caso de a=0.3,
= . + . =
se tiene:
Produccin real
10000000
9500000
9000000
8500000
8000000
7500000
7000000
2009
2003
2004
2005
2006
2007
2008
2010
9500000
9000000
8500000
8000000
7500000
7000000
2003 2004 2005 2006 2007 2008 2009 2010
9500000
9000000
8500000
8000000
7500000
7000000
2003 2004 2005 2006 2007 2008 2009 2010
9500000
9000000
8500000
8000000
7500000
7000000
2003 2004 2005 2006 2007 2008 2009 2010
3. LECTURAS RECOMENDADAS
4. ACTIVIDADES
a. Qu es una tasa?
-----------------------------------------------------------------------------------------------------
b. Qu es un ndice?
-----------------------------------------------------------------------------------------------------
-----------------------------------------------------------------------------------------------------
-------------------------------------------------------------------------------------------
-----------------------------------------------------------------------------------------------------
-------------------------------------------------------------------------------------------
-----------------------------------------------------------------------------------------------------
--------------------------------------------------------------------------------------------
---------------------------------------------------------------------------------------------
--------------------------------------------------------------------------------------------
--------------------------------------------------------------------------------------------
5. AUTOEVALUACIN
Parte 1: Se examina la tasa de crecimiento de ventas de cierta marca de cerveza,
para lo cual se tienen los siguientes datos, Considerando a 1993 como periodo base,
determine:
2. Cul es el ndice de crecimiento de las zonas Lima Este y Lima Sur del
ao 2006 al 2008?
a) 28.4%
b) 128.4%
c) 77.9%
d) 50.6%
e) 52.3%
6. La ordenada es igual a:
a) 29876
b) 139.25
c) -139.25
d) -29876
e) 139.76
7. La pendiente es igual a:
a) 15.07
b) -15.07
c) 7.536
d) -7.536
e) -7.15
6. RESUMEN
UNIDAD DE APRENDIZAJE IV
III. GLOSARIO
ALEATORIO
Son todos aquellos eventos fortuitos o productos de la suerte.
ALEATORIAMENTE
Actividades o mtodos producidos o llevados a cabo simulando un comportamiento al
azar.
CORRELACIN:
Cuando dos fenmenos sociales, fsicos o biolgicos crecen o decrecen de forma
simultnea y proporcional debido a factores externos, se dice que los fenmenos estn
positivamente correlacionados. Si uno crece en la misma proporcin que el otro
decrece, los dos fenmenos estn negativamente correlacionados. El grado de
correlacin se calcula aplicando un coeficiente de correlacin a los datos de ambos
fenmenos.
COEFICIENTE DE CORRELACIN
Raz cuadrada del coeficiente de determinacin. Su signo indica la direccin de la
relacin entre dos variables, directa o inversa.
DATOS:
Son los valores cualitativos o cuantitativos mediante los cuales se miden las
caractersticas de los objetos, sucesos o fenmenos a estudiar.
DISTRIBUCIN DE FRECUENCIAS:
Distribucin matemtica cuyo objetivo es obtener un conteo del nmero de
respuestas asociadas con los distintos valores de una variable y expresar estos conteos
en trminos de porcentajes.
DISTRIBUCIN DE JI CUADRADA:
Distribucin asimtrica cuya forma depende nicamente del nmero de grados de
libertad. Conforme se incrementa el nmero de grados de libertad, la distribucin de ji
cuadrada se hace ms simtrica.
FRECUENCIA:
Nmero de veces en que se repite un dato.
FRECUENCIA ACUMULADA:
Es el nmero de estudiantes con calificaciones iguales o menores que el rango de cada
intervalo sucesivo.
FRECUENCIA RELATIVA:
GRFICA LINEAL:
Presentacin grfica de magnitud en el conjunto de datos mostrado por la pendiente
de una lnea (o lneas) que ha sido situada con respecto a una escala horizontal o
vertical.
GRFICO CIRCULAR:
Crculo que divide en secciones de tal manera que el tamao de cada una de stas
corresponde a una proporcin del total.
GRFICO DE BARRAS:
Presentacin grfica de magnitud en el conjunto de datos, representada por la
longitud de diferentes barras trazadas con referencia a una escala horizontal o vertical.
MEDIDAS DE TENDENCIA.
Estadstica que describe una ubicacin dentro de un conjunto de datos. Las medidas
de la tendencia describen el centro de la distribucin.
POBLACIN:
Conjunto de todos los elementos que comparten un grupo comn de caractersticas, y
forman el universo para el propsito del problema de investigacin. Esta debe
definirse en trminos de: el contenido, las unidades, la extensin y el tiempo.
TENDENCIA:
Es el componente de largo plazo que representa el crecimiento o declinacin de la
serie de tiempo en un periodo amplio.
TEOREMA BAYES:
Frmula para el clculo de la probabilidad condicional bajo condiciones de
dependencia estadstica.
VARIANZA:
Desviacin cuadrada media de todos los valores de la media.
1. BIBLIOGRFICAS
2. ELECTRNICAS:
V. SOLUCIONARIO
1. b) 1. c)
2. a) 2. d)
3. a) 3. a)
4. a) 4. c)
5. d) 5. c)
6. c) 6. c)
7. c) 7. c)
8. d) 8. a)
9. a) 9. c)
10. a)) 10. a)
1. b) 1. c)
2. d) 2. b)
3. a) 3. b)
4. b) 4. d)
5. b) 5. a)
6. a) 6. b)
7. a) 7. c)
8. d) 8. d)
9. c) 9. b)
10. b) 10. a)