Manual de Estadistica

ESTADISTICA APLICADA JOSE LUIS GAVE CH.
ESTADISTICA
APLICADA
Jos Luis GAVE CHAGUA.
1
ESTADISTICA APLICADA
Se termin de imprimir en Mayo del 2012
----------------------------------------------------------------------------
JG SIGNOS
Editores
---------------------------------------------------------------------------
2
==================
A QUIENES SE ESFUERZAN POR
TRANSFORMAR Y CAMBIAR
LAS VIEJAS ESTRUCTURAS
==================
=============
CON APRECIO PARA:
GAYDY Y BEDY
=============
3
INTRODUCCION
El presente es unas sntesis de ejercicios y problemas, destinado a los estudiantes del

Clculo Integra, como parte del estudio del Anlisis Matemtico II. Mostrando la parte
terica en forma concisa, seguido d un gran nmero de ejercicios resueltos
sistemticamente de acuerdo al grado de dificultad para cada capitulo.
El objeto del presente, es que el estudiante tenga los conceptos fundamentales del
clculo integral, en forma resumida, comprenda el desarrollo de los ejercicios y
problemas que implica la integracin y entienda la importancia de su aplicacin en la
solucin de problemas en el campo de la ingeniera.
El primer capitulo esta referido al estudio de las integrales indefinidas, en las que se
desarrollan las principales tcnicas de integracin: Por sustitucin, por partes, por
sustitucin trigonomtrica, integracin de funciones racionales e irracionales.
El segundo capitulo, est referido al estudio de las integrales definidas, en ella el estudio
el calculo de reas y volmenes El tercer capitulo est referido al estudio de la aplicacin
de la integral en el campo de la ingeniera.
Debo expresar mi sincero reconocimiento y mi enorme gratitud a todas las personas que
hicieron posible la edicin de este sencillo y modesto trabajo.
Jos luis Gave
4
Contenido
Pag.
1. Sumatorias
1.1. Propiedades de las sumatorias
1.2. Aplicacin
2. Definicin e importancia de la Estadstica
2.1. Definicin
2.2. Importancia
3.Estadstica descriptiva e inferencial.
3.1. Descriptiva
3.2. Inferencial
4. Anlisis estadstico
5. Datos y variables estadsticas
5.1. Datos estadsticos cualitativos:
5.2. Datos estadsticos cuantitativos
6. Representacin de datos
6.1. Mtodos de representacin de datos cuantitativos
7. Distribucin de frecuencias
7.1 Frecuencia
7.2. Frecuencia Acumulada
7.3. Frecuencia Relativa
7.4. Frecuencia Acumulada Relativa
7.5. Cuadro de distribucin de frecuencias
7.6. Frecuencia relativa acumulada mayor que
7.7. Propiedades de las frecuencias
7.8. Distribucin de frecuencia contino
8. Reglas tiles usadas para determinar el numero de clase
9. Amplitud intervlica
10. Grficos de una Distribucin de Frecuencias
11. Medidas descriptivas
11.1. Medidas de dispersin
11.2. Medidas de tendencia central
12. Variable aleatoria
12.1. Induccin de la probabilidad a variables aleatorias
13. significara que la probabilidad
14.1. Medidas de posicin o tendencia
15. Representacin grafica
16. Probabilida
17. Definicin axiomtica de probabilidad
18. Sucesos independientes
19. Teorema de Bayes
20. Correlacin y modelos de regresin lineal
21. Funcin lineal
5
22. Independencia de dos variables aleatorias

23. Funcin lineal
24. Modelo de regresin lineal simple
25. Inferencias sobre la regresin
26. Anlisis de la varianza de la regresin
27. Modelo II de regresin lineal
28. Siendo el numerador la llamada covarianza
29. Propiedades del coeficiente de correlacin
30. Potencia de los contrastes en regresin
31. Estimacin y contrastes de hiptesis:
33. Interaccin y confusin en la regresin
6
MANUAL DE ESTADISTICA
1. Sumatorias.
La sumatoria se emplea para representar infinitos sumandos:
Se lee: sumatoria de xi donde i toma valores de 1 a n.

La operacin sumatoria se expresa con la letra griega sigma mayscula: , i es el
valor inicial, llamado lmite inferior , n es el valor final llamado limite superior; es de
uso frecuente en la estadstica.
La suma de las frecuencias simples:
,
se puede representar como:
Y el promedio aritmtico:
Como:
En general, se entiende por sumatoria la suma de un conjunto finito de nmeros,

que se denota por:
Donde:
S: magnitud resultante de la suma.
T: cantidad de valores a sumar.
k: ndice de la suma, que vara entre h y h+t
7
h: punto inicial de la sumatoria

h+t: punto final de la sumatoria
nk: valor de la magnitud objeto de suma en el punto k
Un tipo particular de sumatoria de gran importancia lo es el caso cuando t , que
se conoce como serie y se representa de la manera siguiente:
Considerando la amplitud que reviste el anlisis de las series, este tema no ser
abordado en este trabajo.
1.1. Propiedades de las sumatorias
La suma del producto de una constante por una variable, es igual a K veces la
sumatoria de una variable.
La sumatoria hasta N de una constante, es igual a N veces la constante.
La sumatoria de una suma es igual a la suma de las sumatorias de cada

trmino.
La suma de un producto no es igual al producto de las sumatorias de cada

trmino.
La sumatoria de los cuadrados de los valores de una variable no es igual a la

sumatoria de la variable elevado al cuadrado.
Tambin se verifica las siguientes propiedades:
Propiedad #1:
Propiedad #2:
8
Propiedad #3:
Propiedad #4:
Propiedad #5:
Propiedad #6:
Propiedad #7:
Propiedad #8:
Propiedad #9:
Propiedad #10:
Propiedad #11:
1.2. Aplicacin.
1.2.1. Considerando simetra en el recorrido del ndice de la suma
Una condicin que trata de utilizarse siempre que sea posible, ya que simplifica los
clculos en los modelos de fenmenos o procesos, es la simetra, la que en trminos
de las sumatorias esta caracterstica se corresponde con la variacin del ndice de la
suma en el intervalo como se indica a continuacin:
Bajo esta hiptesis de trabajo, es posible obtener el conjunto de propiedades que se

demuestran a continuacin.
Propiedad #1:
Demostracin:
9
Propiedad #2:
Demostracin:
Propiedad #3:
Propiedad #4:
Propiedad #5:
1.2.2. Solucin de Sistemas de Ecuaciones Lineales con variable

independiente de la forma x kD x
Una aplicacin en la cual las sumatorias simtricas adoptan un trmino interesante
es el caso de la obtencin de expresiones analticas por el clculo de las derivadas
de funciones de variable discreta, en el cual es comn trabajar con trminos de la
forma elevado a una cierta potencia. A continuacin se deducen cinco
propiedades de gran utilidad prctica.
Propiedad #1: Clculo de
10
11
2. Definicin e importancia de la Estadstica
2.1. Definicin
Es el conjunto de procedimientos y tcnicas empleadas para recolectar, organizar y

analizar datos, los cuales sirven de base para tomar decisiones en las situaciones de
incertidumbre que plantean las ciencias sociales o naturales.
A. Prez de Vargas, V. Abraira. Bioestadstica. Centro de Estudios Ramn Areces.

Madrid. 1996. Define como:
Conjunto de mtodos cientficos ligados a la toma, organizacin, recopilacin,
presentacin y anlisis de datos, tanto para la deduccin de conclusiones
como para tomar decisiones razonables de acuerdo con tales anlisis.
Arte de la decisin en presencia de incertidumbre.
Ciencia que sirve para demostrar que dos personas han comido pollo cada
una, cuando en realidad una ha comido uno y la otra ninguno.
2.2. Importancia.
Su aplicacin en la investigacin, es uno de los aspectos de mayor importancia de

la estadstica, cuyo fin es: el anlisis o experimentacin de situaciones para el
descubrimiento de nuevos hechos, la revisin o establecimiento de teoras y las
aplicaciones prcticas de las mismas, se basa en los principios de Observacin y
Razonamiento y necesita en su carcter cientfico el anlisis tcnico de Datos para
obtener de ellos informacin confiable y oportuna. Este anlisis de Datos requiere de
la Estadstica como una de sus principales herramientas, por lo que los
investigadores de profesin y las personas que de una y otra forma la realizan
requieren adems de los conocimientos especializados en su campo de actividades,
del manejo eficiente de los conceptos, tcnicas y procedimientos estadsticos.
12
3. Estadstica descriptiva e inferencial.

3.1. Descriptiva: se refiere a la recoleccin, presentacin, descripcin, anlisis e
interpretacin de una coleccin de datos, esencialmente consiste en resumir stos
con uno o dos elementos de informacin (medidas descriptivas) que caracterizan la
totalidad de los mismos. La estadstica Descriptiva es el mtodo de obtener de un
conjunto de datos conclusiones sobre si mismos y no sobrepasan el conocimiento
proporcionado por stos. Puede utilizarse para resumir o describir cualquier conjunto
ya sea que se trate de una poblacin o de una muestra, cuando en la etapa
preliminar de la Inferencia Estadstica se conocen los elementos de una muestra.
3.2. Inferencial: se refiere al proceso de lograr generalizaciones acerca de las

propiedades del todo, poblacin, partiendo de lo especfico, muestra. las cuales
llevan implcitos una serie de riesgos. Para que stas generalizaciones sean vlidas
la muestra deben ser representativa de la poblacin y la calidad de la informacin
debe ser controlada, adems puesto que las conclusiones as extradas estn
sujetas a errores, se tendr que especificar el riesgo o probabilidad que con que se
pueden cometer esos errores.
La estadstica inferencial es el conjunto de tcnicas que se utiliza para obtener

conclusiones que sobrepasan los lmites del conocimiento aportado por los datos,
busca obtener informacin de un colectivo mediante un metdico procedimiento del
manejo de datos de la muestra.
En sus particularidades la Inferencia distingue la Estimacin y la Contrastacin de

Hiptesis. Es estimacin cuando se usan las caractersticas de la muestra para
hacer inferencias sobre las caractersticas de la poblacin. Es contrastacin de
hiptesis cuando se usa la informacin de la muestra para responder a interrogantes
sobre la poblacin.
4. Anlisis estadstico
El anlisis estadstico es todo el proceso de organizacin, procesamiento, reduccin

e interpretacin de datos para realizar inferencias.
5. Datos y variables estadsticas
Dato estadstico: es toda informacin que puede relacionar y comparar para inferir
conclusiones.
Un ejemplo de dato estadstico son las edades de los alumnos del V Ciclo de la
E.A.P.M..
Un dato aislado no es un dato estadstico y se presenta en forma aislada.
Variables estadsticas: es toda caracterstica que vara de un elemento a otro de la
poblacin.
Las variables pueden clasificarse en: categricas o cualitativas (atributos), no tienen

ningn grado de comparacin numrica, ejemplo: sexo, estado civil; y numricas o
cuantitativas, son caractersticas factibles de expresar por medio de nmeros, estas
pueden ser Discretas, que solo pueden tomar ciertos valores aislados en un
intervalo, y Continuas, que pueden tomar cualquier valor en un intervalo.
13
5.1. Datos estadsticos cualitativos:

Cuando expresan una cualidad o atributo.
Ejemplo:
Grado de Instruccin :Primario, secundario o Superior
Estado civil : Soltero, casado, viudo. Divorciado.
Profesin : Mdico, ingeniero, enfermera. Profesor, etc.
Especialidad Mdica : Cardilogo, neurlogo, urlogo, pediatra, etc.
5.2. Datos estadsticos cuantitativos

Son aquellos que se expresan en cantidades numricas pueden ser discretas o
continuas.
a) Datos estadsticos Cuantitativos Discretos

Cuando estn determinados por nmeros enteros
Ejemplos:
El nmero de estudiantes universitarios de la U.N.H.
El nmero de hijos de 20 familias.
b) Datos estadsticos cuantitativos continuos
Cuando los valores que toman estn comprendidos en un intervalo. Estn dados
generalmente por nmeros decimales
Ejms.
La talla de los estudiantes del V Ciclo de la Escuela de Minas.
El tiempo logrado en una carrera de ciclismo.
El peso en toneladas de los lingotes de acero del alto horno
Los datos cuantitativos discretos dan origen a la variable de tipo discreto

Los datos continuos originan una variable de tipo continuo.
Las variables de tipo discreto constituyen una variable discreta.
Las variables de tipo continuo constituyen una distribucin continua
Tipo de variable
Tipo de Variable Representacin Grfica
Nominal Diagramas de barras, Diagramas de lneas,

Cualitativa Diagramas de torta.
Ordinal
Histogramas, Polgonos de Frecuencia,

Diagramas tallo-hoja, Diagramas de caja-
Continua
Cuantitativa bigotes.
Discreta Diagramas de caja-bigotes.
6. Representacin de datos
14
Los datos para que sean tiles se deben organizar de manera que faciliten su
anlisis, se puedan seleccionar tendencias, describir relaciones, determinar causas y
efectos y permitan llegar a conclusiones lgicas y tomar decisiones bien
fundamentadas; por, la finalidad de stos mtodos es permitir ver rpidamente todas
las caractersticas posibles de los datos que se han recolectado.
Los datos se pueden representar tabularmente, cuando se presenta a las variables

y las frecuencias con que los valores de stas se encuentran presentes en el
estudio, o se puede representar grficamente haciendo uso de los medios de
representacin que proporciona la geometra.
6.1. Mtodos de representacin de datos cuantitativos
Arreglo de Datos. Es una forma de presentar los datos en un arreglo ascendente o

descendente. Ofrece las ventajas siguientes: describe los valores mnimos y
mximos, en l se pueden dividir los datos fcilmente en secciones, permite darse
cuenta de los valores que aparecen ms de una vez, se puede observar la distancia
entre valores consecutivos.
Diagrama de Puntos. Muestra la frecuencia con que aparece cada uno de los
valores
Diagrama de Tallo y Hoja. Es til para realizar una exploracin preliminar del
conjunto, genera una imagen adecuada de ellos sin perder informacin.
Distribucin de Frecuencias. Es una forma de sintetizar los datos y consiste en

valerse de una tabla para clasificar los datos segn su magnitud, en ella se seala el
nmero de veces que aparece cada uno de los valores. Cuando se dispone de un
gran nmero de valores discretos o cuando las variables son continuas, tiene sentido
formar una tabla que presente la distribucin de frecuencias de los datos agrupados
en intervalos o clases, de igual tamao si es posible, sin embargo una tabla de este
tipo supone una concentracin de datos que produce prdida de informacin.
7. Distribucin de frecuencias
Una distribucin de frecuencia queda definida por el recorrido de las variables y los
valores asignados a cada punto dentro del recorrido de la variable.
yi ni Ni hi Hi
10.5 5 5 0,059 0,059
10.3 8 13 0,094 0,153
9.8 16 29 0,188 0,341
9.2 5 34 0,059 0,400
8.3 5 39 0,059 0,459
7.5 10 49 0,118 0,576
6.8 15 64 0,176 0,753
5.5 13 77 0,153 0,906
3.5 8 85 0,094 1,000
total 1,000
15
Yi = Porcentaje de slice
ni = Frecuencia
7.1 Frecuencia: es el nmero de veces que aparece un valor
7.2. Frecuencia Acumulada: Indica cuantos casos hay por debajo o arriba de un
determinado valor o lmite de clase.
7.3. Frecuencia Relativa: Indica la proporcin que representa la frecuencia de cada

intervalo de clase en relacin al total, es til para comparar varias distribuciones con
parmetros de referencia uniformes.
7.4. Frecuencia Acumulada Relativa: Indica la proporcin de datos que se

encuentra por arriba o debajo de cierto valor o lmite de clase.
7.5. Cuadro de distribucin de frecuencias

Los siguientes datos del cuadro siguiente estn referidos a los datos obtenidos en
una encuesta a 60 estudiantes de la Escuela Acadmico Profesional de Minas
respecto a la edad que tienen. Con la que se elaborara un cuadro de distribucin de
frecuencias.
Proceso
1.- Se determina el lmite inferior y superior del conjunto de datos.
Li = 0 , Ls = 8
2.- En la columna denotada por y i se coloca todos los valores de la variable,

empezado por el limite inferior en forma correlativa y ascendente, hasta el limite
superior.
3.- Por el sistema de tarjas se encuentra las veces en que se repite el valor de la
variable.
Yi ni Ni N i hi Hi H i hi x 100 Hi x 100 Hi x 100

16 15 15 60 0.25 0.25 1.00 25 25 100
17 10 25 45 0.17 0.42 0.75 17 42 75
18 14 39 35 0.23 0.65 0.56 23 65 56
19 8 47 21 0.13 0.78 0.35 13 78 35
20 5 52 13 0.08 0.86 0.22 08 86 22
21 4 56 08 0.07 0.93 0.14 07 93 14
22 3 59 04 0.05 0.98 0.07 05 98 07
23 1 60 01 0.02 1.00 0.02 02 100 02
60 100
4) Del valor de YI :
A) Frecuencia absoluta simple (ni)

Es el nmero de observaciones menores o iguales a Y i (xi Yi )
i
Ni = nj
J=1
16
Para el ejemplo:
1
N1 = nj = n1 = 15
J=1
2
N2 = nj = n1 + n2 = 15 + 10 = 25
J=1
3
N3 = nj = n 1 + n2 + n3 = 15 + 10 + 14 = 39
J=1
4
N4 = nj = n1 + n2 + n3 + n4 = 15 +10+14+8 = 47
J=1
5
N5 = nj = n1 + n2 + n3 + n4 + n5= 15 +10+14+8 + 5= 52
J=1
6
N6 = nj = n1 + n2 + n3 + n4 + n5 +n6= 15 +10+14+8 + 5+4 = 56
J=1
7
N7 = nj = n1 + n2 + n3 + n4 + n5 + n6+ n7= 15 +10+14+8 + 5+4+ 3 = 59
J=1
8
N8 = nj = n1 + n2 n3 + n4 + n5 +n6+ n7+ n8= 15 +10+14+8 + 5+4+ 3 + 1 = 60
J=1
A) Frecuencia absoluta acumulada Ni * mayor que

Es el nmero de observaciones mayores o iguales a yi (xi yi) . Denotado por Ni * o Ni
i
Ni * = nj Ni * = ni + ni+1 +.nm
J=1
Para el ejemplo
8
N1 * = nj = n1 + n2 + n3..n8 = 15 + 10 + 14 + 8 + 5 + 4 + 3 + 1 = 60
J=1
8
N2* = nj = n2 +n3 + n4+ n4+..n8 = 10 + 14 + 8 + 5 + 4 + 3 + 1 = 45
J=2
8
N3 * = nj = n3+ n4 + n5..n8 = 14 + 8 + 5 + 4 + 3 + 1 = 60
17
J=3
8
N4* = nj = n4 + n5 + n6..n8 = 8 + 5 + 4 + 3 + 1 = 21
J=4
8
N5* = nj = n5 + n6+ n7 + n8 = 5 + 4 + 3 + 1 = 21
J=5
8
N6* = nj = n6+ n7 + n8 = + 4 + 3 + 1 = 08
J=6
8
N7* = nj = n7 + n8 = 3 + 1 = 04
J=7
8
N8 * = n8 = 01
J=8
B) Frecuencia relativa simple (hi)
Hi = Frecuencia absoluta de yi hi = ni
nmero total de observaciones n
Para el ejemplo
H1 = 15 / 60 = 0.25 H 5 = 05 / 60 = 0.08
H2 = 10 / 60 = 0.17 H 6 = 04 / 60 = 0.07
H3 = 14 / 60 = 0.23 H 7 = 03/ 60 = 0.05
H4 = 08/ 60 = 0.13 H 8 = 01/ 60 = 0.02
Frecuencia relativa acumulada menor que

Es la frecuencia relativa total de las observaciones menores o iguales a y i . Se denota por Hi
o Hi
i
Ni = hj Hi = h1 + h2 + h3 + .+hi = ni + n2 n3 + n4 + +ni
J=1
n
Para el ejemplo:
i
Hi = hj = h1 = 0.25
J=1
2
H2 = hj = h 1 + h2 = 0.25 + 0.17 = 0.42
J=1
3
H3 = hj = h1 + h2 + h3 = 0.25 + 0.17 + 0.23 = 0.65
J=1
4
H4 = hj = h1 + h2 + h3 + h4 = 0.25 + 0.17 + 0.23 + ,0.13 = 0.78
J=1
18
5
H5 = hj = h1 + h2 + h3 + h4 + h5 = 0.25 + 0.17 + 0.23 + ,0.13 + 0.08 = 0.86
J=1
6
H6 = hj = h1 + h2++ h6 = 0.25 + 0.17 + 0.23 + ,0.13 + 0.08 +0.07 = 0.93
J=1
7
H7 = hj = h1 + h2++ h7 = 0.25 + 0.17 + 0.23 + ,0.13 + 0.08 +0.07+ 0.05 = 0.98
J=1
8
H8= hj = h1 + h2++ h8= 0.25 + 0.17 + 0.23 + ,0.13 + 0.08 +0.07 + 0.02 = 1.00
J=1
7.6. Frecuencia relativa acumulada mayor que ( Hi )
Es la frecuencia relativa total de las observaciones mayores o iguales a y i
denotamos por Hi o HI
m
Hi = hj = h1 + h2++ hm
J=1
Para el ejemplo:
8
H1 = hj = h1 + h2++ h8 = 1.00
J=1
8
H2 = hj = h2 + h3++ h8 = 0.17 + 0.23 + 0.13 + 0.08 + 0.07 + 0.05 + 0.02 = 0.75
J=2
8
H3 = hj = h3 + h4++ h8 = 0.23 + 0.13 + 0.08 + 0.07 + 0.05 + 0.02 = 0.56
J=3
8
H4 = hj = h4 + h5++ h8 = 0.13 + 0.08 + 0.07 + 0.05 + 0.02 = 0.35
J=4
8
H5 = hj = h5 + h6+ h7+ h8 = 0.08 + 0.07 + 0.05 + 0.02 = 0.22
J=5
8
H6 = hj = h6+ h7+ h8 = 0.07 + 0.05 + 0.02 = 0.14
J=6
8
H7 = hj = h7+ h8 = 0.05 + 0.02 = 0.07
J=7
8
H8 = hj = h8 = 0.02
J=8
19
Interpretacin de las frecuencias

N1 : De los 60 estudiantes de la E.A.P.M., 15 tienen 16 aos.
N2 = En la encuesta realizada se ha encontrado 25 estudiantes con a lo ms 17 aos.
N2 = 45, Significa que en la encuesta realizada 45 estudiantes tienen por lo menos 17

aos
aos
aos
aos
H1 = 0.25, Se interpreta como la proporcin de alumnos que tienen 16 aos.

H1 = 0.25, Se interpreta como la proporcin de familias en la muestra con a lo ms 16 aos

H1 = 1.00, es la proporcin de familias en la encuesta con por lo menos 16 aos

h1 x100 = 25%, Significa que el 25% de los estudiantes tiene 16 aos.

H2 x100 = 42%, es el porcentaje de estudiantes en la muestra con a lo mas 17 aos.

H2 x100 = 75%, , es el porcentaje de estudiantes en la muestra con por lo menos 17 aos.

H4 x100 = 35%, es el porcentaje de estudiantes en la muestra con por lo menos 19 aos.
H5 x100 = .22%, es el porcentaje de estudiantes en la muestra con por lo menos 20 aos.
H7 x100 = 07%, es el porcentaje de estudiantes en la muestra con por lo menos 22 aos.
7.7. Propiedades de las frecuencias

Pa 43 45 46 y 47
20
Ejemplo 2
Los siguientes datos muestran la duracin en kilmetros de 35 llantas:
36 42 38 36 42
39 40 37 39 36
42 39 41 40 39
38 37 39 40 38
38 36 40 39 37
37 41 38 36 41
41 39 41 37 39
Se pide:
a) Construir un cuadro de distribucin de frecuencias
b) Interpretar: n3, N4, H2 x 100, H5 x 100
Solucin
Cuadro de distribucin de frecuencias:
Yi Tarjas ni Ni N i hi Hi H i hi x 100 Hi x 100 Hi x 100
36 5
37 5
38 5
39 8
40 4
41 5
42 3
35

36 5 5 0.15 015 15 15
37 5 10 0.15 0.30 15 30
38 5 15 0.15 0.45 15 45
39 8 23 0.22 0.67 22 67
40 4 27 0.11 0.78 11 78
41 5 32 0.14 0.92 14 92
42 3 35 0.08 1.00 08 100
35 100 100
Interpretacin:
N3 = 5 , Significa que 5 llantas han tenido un recorrido de 38 x 10 3 Kms.
N4 23, Significa que 23 llantas han tenido un recorrido de 36 x 10 3 a 39 x 103 Kms.
h2 x 100 Significa que el 15 % de llantas han tenido un recorrido de 37 x 10 3 Kms.
H5 x 100 Significa que el 78% han tenido un recorrido de 36 x 103 Kms. a 40 x 10 3
Kms.
Ejemplo 3
Los datos siguientes estn referidos a la demanda diaria de camiones para
transporte de mineral, durante un periodo de 40 das.
1 4 3 5 2
5 1 2 0 4
4 6 0 1 5
1 4 4 2 8
3 2 4 3 1
5 3 5 1 4
21
1 4 2 4 2
2 6 1 5 6
Se pide:
a) Construir un cuadro de distribucin de frecuencias
b) Interpretar: n2, n8,
N6,
h3 x 100,
H5 x 100
Solucin
0 2 02 0.05 0.05 05 05
1 8 10 0.20 0.25 20 25
2 7 17 0.17 0.42 17 42
3 4 21 0.10 0.52 10 52
4 9 30 0.22 0.74 22 74
5 6 36 0.15 0.84 15 89
6 3 39 0.07 0.96 07 96
7 0 39 0.00. 0.96 00 96
8 1 40 0.02 0.98 02 98
40 0.098 98
Interpretacin:
n2 = 8 . Significa que durante 8 das se alquil 1 camin por da, para el transporte
de mineral.
n8 = 0 . Significa que en ningn da se alquil 7 camiones para el transporte de
mineral
h3 x 100 = 17 . Significa que el 17% de los das se alquilaron 2 camiones para el
transporte de mineral.
H5 x 100 = 74 , Significa que el 74% de das se alquilaron de 0 a 4 camiones para el
transporte de mineral.
Ejm 4
En la tabla de frecuencias que se presenta a continuacuin faltan algunos datos.
Compltalas:
yi ni Ni hi Hi
5 5
6 9
7 29
8 32 0.64
9 0.30
10
Solucin
1) Por la prop. 08 N1 = n1 n1 = 5
2) Por la prop. 12 : N2 = N1 + n2 n2 = N2 - N1
N2 = 9 - 5 = 4
N3 = 29 - 9 = 20
22
N4 = 32 - 29 = 3
3) Por la definicin de frecuencia relativa acumulada menor que

H4 = h1 + h2 + h3 + h4 = = n1 + n2 + n3 +n4 32
n 50
H4 = 0.64
4) H5 = H4 + h3 H5 = 0.64 + 0.30
H5 = 0.94
5) Por la def. de frecuencia relativa acumulada menor que:
N5 = 0.94 N5 = 47
50
6) Por propiedad:
n4 + n5 = N5
32 + n5 = 47
n5 = 15
7) n6 = 50 - (5 + 4 + 20 + 3 + 15)
n6 = 3
8) N6 = N5 + n6
N6 = 47 + 3 N6 = 50
9) h1 = 5 h1 =0.1
50
h2 = 4 h2 =0.08
50
h3 = 20 h3 = 0.40
50
h4 = 3 h4 =0.06
50
10) H1 = hi = 0.1
H2 = 0.1 + 0.08 = 0.18
H3 = 0.18 + 0.40 = 0.58
H6 = 0.94 + 0.06 = 1.00
Por consiguiente:
La tabla pedida ser:
yi ni hi Ni Hi
5 5 0.10 5 0.10
6 4 0.08 9 0.18
7 20 0.40 29 0.58
8 3 0.06 32 0.64
9 15 0.30 47 0.94
10 3 0.06 50 1.00
50
7.8. Distribucin de frecuencia contino
23
Definicin
Cuando los datos son de tipo contino. Cuando son demasiado numerosos es
conveniente agruparlos en sub conjuntos llamados intervalos de clase
Los intervalos de clase pueden ser :
Cerrados:
Cuando el conjunto de datos continuos incluye los lmites superior e inferiores, se
denota por:
[yI - 1 ; yI ]
Donde:
yI - 1 : Es el lmite inferior del intervalo
yI =Es el lmite superior del intervalo
Abierto
Cuando los datos que encierran no incluye los lmites inferior ni superior.
Se denota por : (yI - 1 ; yI )
Semi Abierto o Semi Cerrado
Cuando el conjunto de datos que contiene incluye solamente uno de sus lmites
Abierto por la derecha
Cuando los datos que encierra noincluye al lmite superior.
Se representa por : [yI - 1 ; yI )
Abierto por la izquierda

Cuando los datos que contiene no incluye el lmite inferior.
Se representa por : (yI - 1 ; yI ]
Rango o Recorrido
Es el conjunto de observaciones que incluye el lmite inferior y el lmite superior.
-----------I--------------------------I-------- R
li ls
Nmero de intervalos de clase (m)

Es el nmero de sub conjuntos en que se divide a la totalidad de los datos.
Parasu estimacin usualmente se usa la regla de Sturges.
Respecto al nmero de clase

Brad Hill seala que debe tomarse un nmero de clases comprendido entre 10 y 20 .
Camel, indica que el nmero apropiado es entre 8 y 15 y el sentido comn nos dice
que el nmero de clases si son pocas, la condensacin de la informacin sera
mucha y con ella habran prdidas de informacin, en relacin con la contenida en el
conjunto de datos originales.
Por otra parte el nmero excesivo de clases, si bien produce poca prdida de
informacin no reduce, el trabajo, siendo en ocasiones preferible el trabajo con los
propios datos originales.
En general se recomienda el nmero de clases en el intervalo : 5 m 20
Al efectuar la clasificacin de los datos, el lmite superior de una clase coincide con
el lmite inferior de la siguiente clase, surgiendo la disyuntiva a qu clase se asigna
ste valor ? para ello existe dos alternativas:
24
a) Definir los extremos de los intervalos de clase con, una cifra decimal mas que las
que contenga las observaciones.
b) Considerar los intervalos de clase como intervalos de nmeros reales abiertos por
la izquierda y cerrados por la derecha o viceversa, es decir considerar el intervalo:
( ] o[ )
8. Reglas tiles usadas para determinar el numero de clase

a) Tomar el nmero de clase (m) igual al entero mas prximo a 2n , siendo n el
nmero de datos.
b) m n , donde n, es el nmero de observaciiones.
c) Regla de Sturges, es la mas usada:
m = 1 + 3.3 log (n)
n es el nmero de observaciones.
9. Amplitud intervlica
Definida as al tamao del intervalo o a la distancia entre el lmite inferior y superior
del intervalo. Se denota por C.
Donde C = ls - li
M
La amplitud intervlica o amplitud de clase es constante para todos los intervalos.
10. Grficos de una Distribucin de Frecuencias
Los grficos son tiles porque ponen en relieve y aclaran las tendencias que no se
captan fcilmente en la tabla, ayudan a estimar valores con una simple ojeada y
brinda una verificacin grfica de la veracidad de las soluciones.
a) Histograma:
Esta formado por rectngulos cuya base es la amplitud del intervalo y tiene la
caracterstica que la superficie que corresponde a las barras es representativa de la
cantidad de casos o frecuencia de cada tramo de valores, puede construirse con
clases que tienen el mismo tamao o diferente ( intervalo variable). La utilizacin de
los intervalos de amplitud variable se recomienda cuando en alguno de los intervalos
, de amplitud constante, se presente la frecuencia cero o la frecuencia de alguno o
algunos de los intervalos sea mucho mayor que la de los dems, logrando as que
las observaciones se hallen mejor repartidas dentro del intervalo.
b) Polgono de Frecuencias
25
Se puede obtener uniendo cada punto medio (marca de clase) de los rectngulos del
histograma con lneas rectas, teniendo cuidado de agregar al inicio y al final marcas
de clase adicionales, con el objeto de asegurar la igualdad del reas.
c) Curvas de frecuencia
No es ms que la curva suavizada que se traza sobre el polgono y representa la

asimetra y la curtosis que tiene la distribucin, permite visualizar un esquema ms
claro del patrn de datos. Existen varios tipos de curva de frecuencia: Curvas J,
Simtricas o Asimtricas (sesgada a la derecha o a la izquierda), Unimodales,
Bimodales y Multimodales.
Ojivas: Cuando se trata de relacionar observaciones en un mismo aspecto para dos

colectivos diferentes no es posible ejecutar comparaciones sobre la base de la
frecuencia, es necesario tener una base estndar, la frecuencia relativa. La ojiva
representa grficamente la forma en que se acumulan los datos y permiten ver
cuantas observaciones se hallan por arriba o debajo de ciertos valores. Es til para
obtener una medida de los cuartiles, deciles , percentiles.
Para datos sin agrupar

X = x1 + x2 + x3 + ....... + xn = xi
n n
Con estas medidas se persigue reducir en pocas cifras significativas el conjunto de

observaciones de una variable y describir con ellas ciertas caractersticas de los
conjuntos, logrando una comparacin ms precisa de los datos que la que se puede
conseguir con tablas y grficas.
11.1. Medidas de tendencia central
Las medidas de tendencia central son medidas de posicin que dan una
descripcin compacta de cmo estn centrados los datos y una visualizacin ms
clara del nivel que alcanza la variable, pueden servir de base para medir o evaluar
valores extremos o raros y brinda mayor facilidad para efectuar comparaciones.
Media aritmtica
Es una medida matemtica, un nmero individual que representa razonablemente el

comportamiento de todos los datos.
Para datos no agrupados

X = x1 + x2 + x3 + ....... + xn = xi
n n
26
Para datos agrupados
X = xi . fi
Donde Xi es la marca de clase para cada intervalo y ni es la frecuencia de clase
Caractersticas de la Media:
1. En su clculo estn todos los valores del conjunto de datos por lo que cada uno
afecta la media.
2. La suma algebraica de las desviaciones de los valores individuales respecto a la

media es cero.
3. La suma del cuadrado de las desviaciones de una serie de datos a cualquier

nmero A es mnimo si A = X
4. Aunque es confiable porque refleja todos los valores del conjunto de datos puede
ser afectada por los valores extremos, y de esa forma llegar a ser una medida
menos representativa, por lo que si la distribucin es asimtrica, la media aritmtica
no constituye un valor tpico.
LA MODA
Es el valor de la variable a la que corresponde la mxima frecuencia.
Para datos agrupados se define como Clase Modal el intervalo que tiene ms
frecuencia.
La moda puede no existir o no ser nica, las distribuciones que presentan dos o ms
mximos relativos se designan de modo general como bimodales o multimodales.
Caractersticas de la Moda.
1. Representa ms elementos que cualquier otro valor
2. No est afectada por los valores extremos pero para datos continuos es dudoso
su clculo.
3. La moda para una distribucin de frecuencias de datos agrupados no puede ser

calculada exactamente, el valor de la moda puede ser afectado por el mtodo de
agrupacin de los intervalos de clase.
4. La moda no permite conocer la mayor parte de los datos
5. Algunas veces el azar interviene de manera importante y hace que un valor no

representativo se repita frecuentemente.
27
6. Puede usarse para datos cuantitativos como cualitativos
7. La moda como estadstico, vara mucho de una muestra a otra
8. Cuando se tienen dos o ms modas es difcil su interpretacin
9. Tiene la ventaja de que los datos desproporcionados con respecto al resto no la

distorsionan, pero no se presta para un tratamiento matemtico.
LA MEDIANA
Es el valor de la observacin que ocupa la posicin central de un conjunto de datos

ordenados segn su magnitud. Es el valor medio o la media aritmtica de los valores
medios. La mediana es un valor de la variable que deja por debajo de l un nmero
de casos igual al que deja por arriba.
Datos sin agrupar:
a) N de datos impares: Valor central
Ejm. Calculo de la mediana cuando los datos son impares
7,4,2,5,9 2,4,5,7,9 me= 5
b) N de datos pares: Media de los dos valores centrales:
7,4,2,5,9,6 2,4,5,6,7,9 me = 5 +6 = 5,5
Datos agrupados:
La mediana es el valor de la variable que tiene la propiedad de que los valores

menores que l son tan frecuentes como los mayores que l.
X = Li + N/2 fd
fc
donde: Li = Lmite inferior del intervalo crtico
N = N total de datos
fd = Frecuencia acumulada por debajo del intervalo crtico
fc = Frecuencia del intervalo crtico
i = Amplitud del intervalo
Para datos agrupados:
28

02
10
17
21
30
36
39
X = Li + N/2 fd . i = 193,5 + 30 /2 - 12 . 21 = 200,5
fc 9
Geomtricamente la mediana es el valor de la variable que corresponde a la vertical

que divide al histograma en dos reas iguales.
Cuando determinados valores de un conjunto de observaciones son muy grandes o

pequeos con respecto a los dems, entonces la media aritmtica se puede
distorsionar y perder su carcter representativo, en esos casos es conveniente
utilizar la mediana como medida de tendencia central.
Caractersticas de la mediana
1. Es un promedio de posicin no afectado por los valores extremos.
2. No est definida algebraicamente
3. Cuando la localizacin del elemento central puede ser determinada y los lmites
de clase mediana son conocidos, la mediana para la distribucin de frecuencias
puede ser calculada por interpolacin, no importando que sta contenga intervalos
abiertos, cerrados, iguales o diferentes.
4. La suma de los valores absolutos, sin considerar el signo, de las desviaciones

individuales respecto a la mediana es mnimo.
5 La mediana en caso de una distribucin asimtrica, no resulta desplazado del

punto de tendencia central.
6. Si el universo tiene curtosis excesiva la mediana como estadstico, vara menos

que cualquier otra medida.
7. Si la mediana se calcula por interpolacin y hay lagunas en los valores de la clase

mediana o los datos son irregulares, esta medida no es buena ya que su ubicacin
puede resultar falsa.
8. Si se desea ubicar las condiciones de un elemento en una clase, la mediana

resulta se indicada, ya que por comparacin pone en evidencia si un elemento est
en la mitad superior a ella o en la inferior.
29
Media aritmtica ponderada
En sta, para cada uno de los valores de xi se asigna un factor wi de peso, que
depende de la importancia que el investigador desee darle.
Xp = S ( xi wi) / S wi
Media geomtrica
til cuando la variable cambia a lo largo del tiempo, esto es, en el calculo del
promedio de tasas, razones, proporciones geomtricas y relaciones de variables. Se
utiliza en Matemticas Financieras y Finanzas para promediar nmeros ndices,
tasas de cambio, etc.
La media Geomtrica de una serie de nmeros es la raz n-sima del producto de

esos nmeros
M = n e (x 1 * x 2 * x 3 *.....*x n )
Se ve afectada por todos los nmeros y valores extremos pero en menor grado que
la Media Aritmtica, su valor siempre es menor que el de sta.
Media armnica
Se utiliza para el promedio de rendimientos y velocidades. La Media Armnica de

una serie de nmeros es el reciproco de la media aritmtica del recproco de esos
nmeros.
1 / MH = [ S 1 / xi ] / n
Media cuadrtica
Es la raz cuadrada de la media aritmtica de los cuadrados de los nmeros, se usa

eficientemente para promediar los errores o desviaciones porque es ms susceptible
a los mismos.
MC = 2 e S [ xi 2 ] / n
Los cuantiles
Son valores que dividen a la distribucin en n partes iguales
Cuartiles, cuatro partes iguales: Q1, Q2, Q3
Deciles, diez pares iguales : D1, D2..........D9
Percentiles o centiles, cien partes iguales: P1, P2.....P99
30
Los cuantiles permiten hacer un anlisis minucioso de la distribucin, se utilizan

generalmente cuando se quiere ubicar un dato dentro del conjunto. Por ejemplo.
Pertenece el dato x al 50% superior ?, al 10% inferior? , al 50 % central?, etc.
a) Rango: Si Xi estn ordenados Xn - X1

b) Varianza:
Aunque para el clculo se suele usar otra frmula ms cmoda
c) Desviacin tpica o estndar:
d) Coeficiente de variacin:
12. Variable aleatoria

Una funcin que asocia un nmero real, perfectamente definido, a cada punto
muestral.
A veces las variables aleatorias (v.a.) estn ya implcitas en los puntos muestrales.
Ejemplo 1: Experiencia consistente en medir la presin sistlica de 100 individuos.
Un punto muestral (resultado de un experimento) es ya un nmero (presin
sistlica). La variable aleatoria est implcita.
Los conjuntos pueden ser:

discretos: nmero finito o infinito numerable de elementos.
continuos: nmero infinito no numerable de elementos.
Las v.a. definidas sobre espacios muestrales discretos se llaman v.a. discretas y las
definidas sobre espacios muestrales continuos se llaman continuas.
Una v.a. puede ser continua, aunque nosotros slo podamos acceder a un
subconjunto finito de valores. P.e. la presin arterial es una v.a. continua pero slo
podemos acceder a un conjunto finito de valores por la limitacin de los aparatos de
medida.
En general, las medidas dan lugar a v.a. continuas y los conteos a v.a. discretas.
12.1. Induccin de la probabilidad a variables aleatorias
31
Las v.a permiten definir la probabilidad como una funcin numrica (de variable real)
en lugar de como una funcin de conjunto .
Ejemplo Tiramos una moneda 3 veces. Representamos cara por c y sello por z.
= {ccc, ccz, czc, zcc, czz, zcz, zzc, zzz}
La probabilidad de cada suceso elemental es 1/8. Por ejemplo p(ccc)=1/8, ya que la
probabilidad de sacar cara en una tirada es .
Definimos la v.a. X: nmero de caras, que puede tomar los valores {0, 1, 2, 3}. Se
buscan todos los puntos muestrales que dan lugar a cada valor de la variable y a
ese valor se le asigna la probabilidad del suceso correspondiente.
x Sucesos px
0 {sss} 1/8
1 {css, scs, ssc} 3/8
2 {ccs, csc, scc} 3/8
3 {ccc} 1/8
A esta funcin se le denomina funcin densidad de probabilidad (fdp), que

desgraciadamente funciona de distinta manera en las variables discreta que en las
continuas. En el caso de las variables discretas, como en el ejemplo, es una funcin
que para cada valor de la variable da su probabilidad.
Ejemplo 4: Supongamos la variable accidentes en un periodo de tiempo, con los

valores 1, 2, 3, 4. Si la fdp fuera
x f(x)
1 0,22
2 0,27
3 0,30
4 0,21
13. significara que la probabilidad

Para variables continuas la probabilidad de que una variable tome cualquier valor
concreto es 0, por lo tanto la fdp slo permite calcular la probabilidad para un
intervalo del tipo (a<X<b), mediante el rea bajo la curva de la fdp.
32
Para las variables aleatorias de inters hay tablas, y programas de ordenador, donde
buscar esos valores.
Distribucin acumulativa
Para el ejemplo 3
x f(x) F(x)
0 1/8 1/8
1 3/8 4/8
2 3/8 7/8
3 1/8 8/8
y para el ejemplo 4
x f(x) F(x)
1 0,22 0,22
2 0,27 0,49
3 0,30 0,79
4 0,21 1
33
Parmetros caractersticos de una fdp

Valor esperado o esperanza matemtica o media
si X es una v.a. cualquier funcin de ella, h(x), es tambin una v.a., en consecuencia
tambin se define este parmetro para una funcin de v.a.
Ejemplo 5: Se tira un dado. Se define como v.a. el nmero que sale Cul es su
media?
La variable X puede tomar los valores 1, 2, ..., 6 y para todos ellos f(x) = 1/6. En
consecuencia la media es
Observese que es un nmero que la v.a. no puede alcanzar. Qu significa? No

mucho.
Se define ahora una funcin sobre X: el premio: si sale 1 2 se gana 100 ptas, si
sale 3 se gana 500 y si sale 4, 5 6 no se gana nada
X h(x)
1 100
2 100
3 500
4 0
5 0
6 0
Cul es el valor medio de esta funcin?
qu significa? es el valor medio a la larga: si se juega un nmero grande de veces

la ganancia final es como si en cada jugada se hubiera ganado 116,6 pts. Si la
34
apuesta costara menos de eso el juego sera ventajoso para el jugador (as se
enriqueci Voltaire), si costara ms, para la banca. (llamar a sto honestidad del
juego le cost el puesto de ministro a Laplace).
Varianza:
aunque para el clculo se suele usar esta otra frmula equivalente:
Qu mide la varianza? Mide la dispersin de la variable alrededor de la media.
CONJUNTO DE EJERCICIOS RESUELTOS
1) Un juego consiste en tirar dos dados. Si la suma de sus caras es mayor o igual a
10 se ganan 300 soles, si est comprendida entre 7 y 9 se ganan 100 soles. y para
cualquier otro resultado no se gana nada. Cul debera ser el precio de la apuesta
para que la ganancia esperada de la banca sea de 50 soles?
Solucin
El espacio muestral para el problema es = {(1,1), (1,2), (1,3), ..., (6,6)} con 36
puntos muestrales. Todos los sucesos elementales tiene la misma probabilidad 1/36.
Se define la v.a. X: suma de las dos caras. Esta variable puede tomar los valores 2,
3, 4, ....,12. La tabla con la fdp inducida es
x Sucesos f(x)
2 {(1,1)} 1/36
3 {(1,2), (2,1)} 2/36
4 {(1,3), (2,2), (3,1)} 3/36
5 {(1,4), (2,3), (3,2), (4,1)} 4/36
6 {(1,5), (2,4), (3,3), (4,2), (5,1)} 5/36
7 {(1,6), (2,5), (3,4), (4,3), (5,2), (6,1)} 6/36
8 {(2,6), (3,5), (4,4), (5,3), (6,2)} 5/36
9 {(3,6), (4,5), (5,4), (6,3)} 4/36
35
10 {(4,6), (5,5), (6,4)} 3/36
11 {(5,6), (6,5)} 2/36
12 {(6,6)} 1/36
La tabla de la funcin premio es

x h(x)
2 0
3 0
4 0
5 0
6 0
7 100
8 100
9 100
10 300
11 300
12 300
Por lo tanto el valor esperado del premio es
en consecuencia, la apuesta debera costar 91,7 + 50 = 141,7 para que la ganancia

esperada de la banca sea 50 soles.
2) La siguiente tabla muestra la fdp para la variable X: nmero de personas por da

que solicitan un tratamiento innecesario en el servicio de urgencias de un pequeo
hospital.
x 0 1 2 3 4 5
36
f(x) 0,01 0,1 0,3 0,4 0,1 ?
a. Encontrar f(5)
b. Construir F(x)
c. Encontrar p(X=2)
d. Encontrar p(X<2)
e. Encontrar p(X>3)
f. Calcular la media y la varianza
Solucin
a. Aplicando la formula
.
Para que se cumpla esta condicin es necesario que f(5)=0,09
b.
x 0 1 2 3 4 5
f(x) 0,01 0,1 0,3 0,4 0,1 0,09
F(x) 0,01 0,11 0,41 0,81 0,91 1
c. p(X2) = F(2) = 0,41

d. p(X<2) = p(X1) = F(1)=0,11
e. p(X>3) = 1 - p(3) = 1- F(3) = 1 - 0,81 = 0,19
f.
3) Se desarrolla un compuesto para aliviar las migraas. El fabricante afirma que es

efectivo en un 90% de los casos. Se prueba sobre 4 pacientes. Sea X el nmero de
pacientes que obtiene alivio.
a. Encontrar la fdp para X, suponiendo que la afirmacin del fabricante sea correcta.
b. Encontrar p(X1)
37
c. Si el compuesto no alivia a ninguno de los pacientes es esa una razn para

poner en duda la eficacia afirmada por el fabricante? Razonar sobre la base de la
probabilidad implicada.
d. Calcular la media. Qu significa en este ejemplo?
Solucin
a. Representando por a que un paciente tenga alivio y por n que no lo tenga, el
espacio muestral para el problema es = {aaaa, naaa, anaa, aana, aaan, ..., nnnn},
Si es cierta la afirmacin del fabricante p(a)=0,9 y p(n)=0,1
La v.a. X: nmero de pacientes que tienen alivio puede tomar los valores 0, 1, 2, 3, 4.
La tabla con la fdp inducida es
x Sucesos f(x)
0 {nnnn} 0,14
1 {annn, nann, nnan, nnna} 4x0,9x0,13
2 {aann, anan, anna, naan, nana, nnaa 6x0,92x0,12

}
3 {aaan, aana, anaa, naaa} 4x0,93x0,1
4 {aaaa} 0,94
b. p(X1) = f(0) + f(1) = 0,14 + 4x0,9x0,13 = 0,0037

c. La probabilidad de que no alivie a ningn paciente es f(0)=0,0001. Es una
probabilidad tan baja que, efectivamente, si ese fuera el resultado hay suficientes
razones para poner en duda la afirmacin de que alivia al 90% de los pacientes.
d.
Si se repitiera un nmero suficientemente grande de veces la experiencia de

administrar el frmaco a 4 pacientes, el nmero promedio de pacientes que
experimentaran alivio sera 3,6.
4) Sea X el tiempo de supervivencia en aos despus de un diagnstico de leucemia

aguda. La fdp para X es f(x) = -x/2 + 1, para 0 < x < 2.
a. Comprobar que es una fdp.
b. Hallar p(X>1)
c. Hallar p(X=1)
d. Hallar p(X1)
Ayuda: hacerlo todo grficamente
e. Calcular la media y la varianza (Slo para iniciados).
38
Solucin
a. La grfica de la fdp es
La condicin equivalente a
para variables continuas es que el rea bajo la fdp

sea 1. De modo general ese rea se calcula
mediante clculo integral, pero en este caso se
puede calcular por la conocida frmula del rea de
un tringulo A = (bxh)/2, es decir A = (2x1)/2=1
b.
Grficamente, la probabilidad pedida es el rea
coloreada de verde, por lo tanto se puede calcular
tambin con la frmula del rea del tringulo. Ahora
b=1 y para calcular h hay que ver que valor toma la
fdp cuando x=1, y = -1/2 + 1 = . Por lo tanto, la
probabilidad es (1x1/2)/2 =
c. Como en toda variable continua la probabilidad de que tome un valor concreto es
0, por lo tanto p(X=1) = 0
d. Obviamente p(X1) = p(X >1) =
e. Media
varianza
39
14. MEDIDAS DESCRIPTIVAS

14.1. Medidas de posicin o tendencia
Media muestral: Si tenemos X1, X2, ... , Xn datos, se llama media muestral de los
mismos a su media aritmtica
Moda muestral: El valor que ms se repite (puede no existir y si existe puede no ser
nica).
Mediana muestral: Ordenando los Xi, el valor que est en el medio
Ejemplo: Sean los datos 3, 5, 7, 7, 8, 9

= 39/6 = 6,5; = 7; moda = 7

Rango: Si Xi estn ordenados Xn - X1
Varianza:
aunque para el clculo se suele usar otra frmula ms cmoda
Desviacin tpica o estndar:
Ojo!! no confundir con error tpico o estndar

Coeficiente de variacin:
Ejemplo 1
Los siguientes datos estn referidos al nmero de estudiantes del sexo masculino
por seccin de una muestra aleatoria de 50 secciones de la Facultad de Ingeniera
de la U.N.C.P.
16 10 23 30 35 37 40 44 10 17
24 30 35 37 40 45 11 17 25 31
36 38 43 46 12 15 18 19 20 20
40
26 31 36 27 32 27 33 28 28 33
29 29 34 38 35 39 35 35 46 46
Se pide hallar:
1) Un cuadro de distribucin de frecuencias.
2) Interpretar:
n1 ; n5
N1 , N5
N1 ; N5
h1 ; h5
H1 ; H5
h1 x 100 ; h5 x 100
H 1 x 100 ; H5 x 100
H1 x 100 ; H5 x 100
Solucin
1) Para la elaboracin del cuadro de distribucin de frecuencias consideraremos:
Estimacin del nmero de intervalos Por la regla de Sturges:
K = 1 + 3.3 log 50
K =6.60 k puede tomar K = 6 o k = 7
Para el problema consideraremos k = 6
Clculo de la amplitud intervlica

C = ls - li C = 46 - 10 C = 6
K 6
Clculo de la Marca de clase (yI )

Y1 = 10 + 16 = 13 Y4 = 28 + 34 = 31
2 2
Y2 = 16 + 22 = 19 Y5 = 34 + 40 = 37
2 2
Y3 = 22 + 28 = 25 Y6 = 40 + 46 = 43
2 2
Conteo
Por el sistema de tarjas se encuentra el nmero de datos para cada intervalo.
Considerando para el ejemplo un intervalo: abierto por la derecha y cerrado por la
izquierda . El lmite superior no pertenece al intervalo
Frecuencia acumulada menor que (Ni )
i
Nj = n1+ n2 + n3 .ni = nj
J=1
i
Nj = n1+ n2 + n3 .ni = nj
41
J=1
Para el ejemplo:
N1 = 5
N2 = 5 + 8 = 13
N3 = 13 + 5 =18
N4 = 18 + 12 = 30
N5 = 30 + 12 = 42
N6 = 42 + 8 = 50
Frecuencia absoluta acumulada mayor o igual que (N i)

m
Ni = ni + nI+1 + nI+2 ..+nm ; Ni = nj
J=1
Para el ejemplo
N1 = n1 + n2 + n3 + .+ n6 5+8+5+12+12+8 = 50
N2 = n2 + n3 + n4 + .+ n6 8+5+12+12+8 = 45
N3 = n3 + n4+ n5 + n6 5 +12 + 12 + 8 = 37
N4 = n4 + n5 + n6 12 + 12 + 8 = 32
N5 = n5 + n6 12 + 8 = 20
N6 = n6 + 08
Frecuencia relativa (hi)

hi ni
n
h1 = 5 = 0.10 h4 = 12 = 0.24
50 50
h2 = 8 = 0.16 h5 = 12 = 0.24
50 50
h3 = 5 = 0.10 h6 = 8 = 0.16
50 50
42
Frecuencia relativa acumulada menor que (H i)
i
Hi= h1 + h2 + h3 + hm ; = Hi = hj
J =1
Para el ejemplo:
H1= h1 = 0.10
H2= h1 + h2 = 0.10 + 0.16 = 0.26
H3= h1 + h2 + h3 = 0.10 + 0.16 + 0.10 = 0.36
H4= h1 + h2 + h3 + h4 = 0.10 + 0.16 + 0.10 + 0.24 = 00.60
H5= h1 + h2 + h3 + h4 + h5 = 0.10 + 0.16 + 0.10 + 0.24 + 0.24 = 0.84
H6= h1 + h2 + h3 + h4 + h5 + h6 = 0.10 + 0.16 + 0.10 + 0.24 + 0.24 + 0.16 = 1.00
Frecuencia relativa acumulada mayor o igual que (H i )
m
Hi = hI + hi +1 + hi +2.+ hm ; Hi = hj
J =1
Para el ejemplo:
H1 = h1 + h2 + h3.+ h6 = 0.16 + 0.16 + 0.10 + 0.24 + 0.24 + 0.16 = 1.00
H2 = h2 + h3 + h4.+ h6 = 0.16 + 0.10 + 0.24 + 0.24 + 0.16 = 0.90
H3 = h3 + h4 + h5+ h6 = 0.10 + 0.24 + 0.24 + 0.16 = 0.74
H4 = h4 + h5+ h6 = 0.24 + 0.24 + 0.16 = 0.64
H5 = h5+ h6 = 0.24 + 0.16 = 0.40
H6 = h6 = 0.16
Entonces el cuadro de distribucin de frecuencias ser:

[Yi-1 ; yi Tarjas ni Ni Ni hi Hi Hi hi x 100 Hi x 100 Hi x 100
yi)
10 16 13 5 5 50 0.1 0.10 1.00 10 10 100
0
43
16 22 19 8 13 45 0.1 0.26 0.90. 16 26 90

6
22 28 25 5 18 37 0.1 0.36 0.74 10 36 74
0
28 34 31 12 30 32 0.2 0.60 0.64 14 60 64
4
34 40 37 12 42 20 0.2 0.84 0.40 24 84 40
4
40 46 43 8 50 8 0.1 1.00 0.16 16 100 16
6
50 100
Interpretacin:
n1 = 5 ; Significa que en la muestra existen 5 secciones que tienen 10 estudiantes
del sexo masculino por seccin, o mas pero menos de 15 estudiantes del sexo
masculino por seccin en la Facultad de Ingeniera. De la U.N. C. P.
n5 = 12 ; Significa que en la muestra existen 12 secciones que tienen 28 estudiantes
del sexo masculino por seccin, o mas pero menos de 16 estudiantes del sexo
masculino por seccin en la Facultad de Ingeniera de la U.N.C.P.
N1 = 5, Significa que, 5 es el nmero de secciones que tienen menos de 16
estudiantes del sexo masculino por seccin, en la facultad de ingeniera de la
U.N.C.P.
N5 = 42; Significa que, 42 es el nmero de secciones que tienen menos de 40
estudiantes del sexo masculino por seccin, en la facultad de ingeniera de la
U.N.C.P.
N1 = 50; Significa que, 50 es el nmero de secciones que tiene por lo menos 10
estudiantes del sexo masculino por seccin, en la Facultad de Ingenierade la
U.N.C.P.
N5 = 20; Significa que, 20 es el nmero de secciones que tiene por lo menos 34 o
mas pero, menos de 16 estudiantes del sexo masculino por seccin, en la Facultad
de Ingenierade la U.N.C.P.
h1 = 0.10; es la proporcin del nmero de secciones que tiene menos de 16
estudiantes del sexo masculino por seccin en la Facultad de Ingeniera.de la
U.N.C.P.
h5 = 0.24; es la proporcin del nmero de secciones que tiene menos de 34
estudiantes o mas pero, menos de 40 estudiantes del sexo masculino en la Facultad
de Ingeniera. De la U.N.C.P.
H1 = 0.10, es la proporcin del nmero de secciones que tiene menos de 16
estudiantes del sexo masculino por seccin en la Facultad de Ciencias de Ingeniera
de la U.N.C.P.
H5 = 0.84, es la proporcin del nmero de secciones que tiene menos de 40
estudiantes del sexo masculino por seccin en la Facultad de Ciencias de Ingeniera
de la U.N.C.P.
44
H1 = 1.00, es la proporcin del nmero de secciones que tienen por lo menos 10

estudiantes del sexo masculino en la Facultad de Ciencias de Ingeniera de la
U.N.C.P.
H5 = 0.40, es la proporcin del nmero de secciones que tienen por lo menos 34
estudiantes del sexo masculino en la Facultad de Ciencias de Ingeniera de la
U.N.C.P.
h1 x 100 = 10%, es el porcentaje de secciones que tiene 10 estudiantes del sexo
masculino por seccin o mas pero menos de 16 estudiantes en la Facultad de
Ciencias de Ingeniera de la U.N.C.P.
h5 x 100 = 24%, es el porcentaje de secciones que tiene 34 estudiantes del sexo
masculino por seccin o mas pero menos de 40 estudiantes en la Facultad de
Ciencias de Ingeniera de la U.N.C.P.
H1 x 100 = 10%, es el porcentaje del nmero de secciones que tienen por lo menos
16 estudiantes del sexo masculino por seccin en la Facultad de Ingeniera de la
U.N.C.P. estudiantes
H5 x 100 = 84%, es el porcentaje del nmero de secciones que tienen por lo menos
40 estudiantes del sexo masculino por seccin en la Facultad de Ingeniera de la
U.N.C.P. estudiantes
H3x 100 = 74%, es el porcentaje del nmero de secciones que tiene por lo menos
22 estudiantes del sexo masculino por seccin en la Facultad de Ciencias de
Ingeniera de la U.N.C.P.
H5x 100 = 40%, es el porcentaje del nmero de secciones que tiene por lo menos
34 estudiantes del sexo masculino por seccin en la Facultad de Ciencias de
Ingeniera de la U.N.C.P.
Ejemplo 2
Los siguientes datos se refieren al nmero de granos de slice (Si) en muestras de
100 grs de fierro (Fe)
1.13 0.92 0.36 0.87 1.00 0.97
0.80 0.94 0.68 0.92 0.92 0.79
0.85 0.72 0.73 0.81 0.61 1.20
0.60 1.17 0.82 0.97 0.81 0.68
0.97 0.87 0.74 0.48 0.71 1.00
Se pide :
1) Construir un cuadro de distribucin de frecuencias, con una amplitud intervlica C
= 7 , e intervalo semi abierto :[ ; )
2) Interpretar:
Y3 ; y 5
n2 ; n6
N4 , N5
N4 ; N5
h4 ; h5
45
H4 ; H5
H5 ;H6
h3 x 100 ; h5 x 100
H5 x 100 ; H6 x 100
H5 x 100 ; H6 x 100
Solucin
1) Previamente consideraremos:
Determinamos el limite superior e inferior del conjunto de datos:
Li = 0.36 ; l s = 1.20
Para una amplitud intervlica igual a 7 se tiene:
C = l s - LI C= 1.20 - 0.36
7 7
C = 0.12
En el cuadro se colocan los intervalos de la siguiente manera:
lI ; (lI + C)
Es decir:
0.36 ; 0.36 + 0.12
0.48 ; 0.48 + 0.12
0.60 ; 0.60 + 0.12
0.72 ; 0.72 + 0.12
0.84 ; 0.84 + 0.12
0.96 ; 0.96 + 0.12
1.08 ; 1.08 + 0.12

Y1 = 0.36 + 0.48 = 0.42 Y5 = 0.84+ 0.96 = 0.90
2 2
Y2 = 0.48 + 0.60 = 0.54 Y6 = 0.96 + 1.08 = 1.02

2 2
Y3 = 0.60 + 0.72 = 0.66 Y7 = 1.08 + 1.20 = 1.14

2 2
Y1 = 0.72 + 0.84 = 0.78

2
Conteo
46

Considerando para el ejemplo un intervalo: abierto por la izquierda y cerrado por la
derecha .Por excepcin el lmite superior pertenece al intervalo.
Frecuencia acumulada menor que (Ni )
i
Nj = n1+ n2 + n3 .ni = nj
J=1
i
Nj = n1+ n2 + n3 .ni = nj
J=1
Para el ejemplo:
N1 = 1
N2 = 1 + 1 = 02
N3 = 02 + 05 =07
N4 = 07 + 08 = 15
N5 = 15 + 07 = 22
N6 = 22 + 05 = 27
N7 = 27 + 03 = 30

m
Ni = ni + nI+1 + nI+2 ..+nm ; Ni = nj
J=1
Para el ejemplo
N1 = n1 + n2 + n3 + .+ n7 1 + 1 + 5 +8 + 7 + 5 + 3 = 30
N2 = n2 + n3 + n4 + .+ n7 1 + 5 + 8 + 7 + 5 +3 = 29
N3 = n3 + n4+ n5 + n6 + n7 5+8+7+5+3 = 28
N4 = n4 + n5 + n6 + n7 8+7+5+3 = 23
N5 = n5 + n6 + n7 7+5+3 = 15
N6 = n6 + n7 5+3 = 8
N7 = n7 = 03
47

hi = ni
n
h1 = 1 = 0.03 h5 = 7 = 0.23
30 30
h2 = 1 = 0.03 h6 = 5 = 0.17
30 30
h3 = 5 = 0.0.17 h7 = 3 = 0.10
30 30
h4 = 8 = 0.0.27
30
i
Hi= h1 + h2 + h3 + hm ; = Hi = hj
J =1
Para el ejemplo:
H1= h1 = 0.03
H2= h1 + h2 = 0.03 + 0.03 = 0.06
H3= (h1 + h2) + h3 = 0.06 + 0.17 = 0.23
H4= ( h1 + h2 + h3) + h4 = 0.23 + 0.27 = 0.50
H5= (h1 + h2 + h3 + h4 ) + h5 = 0.50 + 0.23 = 0.73
H6= (h1 + h2 + h3 + h4 + h5 ) + h6 = 0.73 + 0.17 = 0.90
H7= (h1 + h2 + h3 + h4 + h5 + h6) + h7 = 0.90 + 0.10 = 1.00
m
Hi = hI + hi +1 + hi +2.+ hm ; Hi = hj
J =1
48
Para el ejemplo:
H1 = h1 + h2 + h3.+ h7 = 0.03 + 0.03 + 0.17 + 0.27 + 0.23 + 0.17 + 0.10 =
1.00
H2 = h2 + h3 + h4.+ h7 = 0.03 + 0.17 + 0.27 + 0.23 + 0.17 + 0.10 = 0.97
H3 = h3 + h4 + h5+ h6 + h7 = 0.17 + 0.27 + 0.23 + 0.17 + 0.10 = 0.94
H4 = h4 + h5+ h6 + h7 = 0.27 + 0.23 + 0.17 + 0.10 = 0.77
H5 = h5+ h6 + h7 = 0.23 + 0.17 + 0.10 = 0.50
H6 = h6 + h7 = 0.17 + 0.10 = 0.27
H7 = h7 = 0.10

[Yi-1 ; yi Tarjas ni Ni Ni hi Hi Hi hi x 100 Hi x 100 Hi x 100
yi)
0.36 - 0.42 1 1 30 0.0 0.03 1.00 3 3 1
0.48 3
0.48 - 0.54 1 2 29 0.0 0.06 0.97 3 6 97
0.60 3
0.60 - 0.66 5 7 28 0.1 0.23 0.94 17 23 94
0.72 7
0.72 - 0.78 8 15 23 0.2 0.50 0.77 27 50 77
0.84 7
0.84 - 0.90 7 22 15 0.2 0.73 0.50 23 73 50
0.96 3
0.96 - 1.02 5 27 08 0.1 0.90 0.27 17 90 27
1.08 7
1.08 - 1.14 3 30 03 0.1 1.00 0.10 10 100 10
1.20 0
30 1.0 100
0
Interpretacin:
y3 = 0.66 ; en 5 muestras de Fe se ha encontrado un promedio de 0.66 grs. de Si.
Y5 = 0.90 ; en 7 muestras de Fe se ha encontrado un promedio de 0.90 grs. de Si.
n2 = 1 significa que, en una muestra de Fe se ha encontrado 0.36 grs. De Si o mas

pero menos de 0.59 grs. De Si.
Tambin se puede decir:
Que en una muestra de Fe se ha encontrado de 0.48 a 0.59 grs. de Slice.
49
n6 = 5 significa que en 5 muestras de de Fe se ha encontrado 0.96 grs. De Si o mas

pero menos de 1.07 grs. De Si.
En 05 muestra de Fe se ha encontrado de 0.96 a 1.07 grs. de Slice.
N4 = 15; Significa que en 15 muestras de Fe se ha encontrado menos de 0.83 grs.

De Si.
N5 = 22; Significa que en 22 muestras de Fe se ha encontrado menos de 0.95 grs.
De Si.
N4 = 23, Significa que en 23 muestras de Fe, se ha encontrado por lo menos 0.72
grs. De Si.
N5 = 15, Significa que en 15 muestras de Fe, se ha encontrado por lo menos 0.84
grs. De Si.
h4 = 0.27, es la proporcin del nmero de muestras que tiene menos de 0.84 grs. de
Si.
h5 = 0.23, es la proporcin del nmero de muestras que tiene menos de 0.96 grs. de
Si.
H4 = 0.50 es la proporcin del nmero de muestras de Fe que tiene menos de 0.84

grs. de Si.
H5 = 0.73 es la proporcin del nmero de muestras de Fe que tiene menos de 0.96
grs. de Si.
H5 = 0.50 es la proporcin del nmero de muestras de Fe que tiene por lo menos

0.84 grs. de Si.
H6 = 0.27 es la propoecin del nmero de muestras de Fe que tiene por lo menos
0.96 grs. de Si.
h3 x 100 = 17% de las muestras de Fe tienen 0.60 grs. de Si. O mas pero menos de
0.72 grs. de Si.
El 17 % de las muestras de Fe contiene de 0.60 a 0.71 grs. de Si.
h5 x 100 = 23% de las muestras de Fe tienen 0.84 grs. de Si. O mas pero menos de
0.96 grs. de Si.
El 17 % de las muestras de Fe contiene de 0.84 a 0.95 grs. de Si.
H5 x 100 = 73 % de las muestras de Fe tienen menos de 0.96 grs. de Si.

H5 x 100 = 90 % de las muestras de Fe tienen menos de 1.08 grs. de Si.
50
H5x 100 = 50 % de las muestras de Fe tiene por lo menos 0.84 grs. de Si.
H6x 100 = 27 % de las muestras de Fe tiene por lo menos 0.96 grs. de Si.
Para el estudiante:
Los siguientes datos se refieren a los tiempos utilizados por 60 detonadores de
explosivos medidos en segundos.
64.00 73.00 64.75 65.25 67.00 67.0
63.50 63.00 64.50 63.50 63.75 68.50
61.75 63.00 62.75 69.00 59.00 65.50
65.25 68.00 63.00 68.00 65.50 62.25
63.75 63.25 66.00 61.50 61.00 64.00
62.75 65.00 68.00 60.75 61.25 63.50
65.75 65.00 65.00 65.00 62.25 64.50
68.50 66.50 66.00 64.00 65.25 60.00
63.00 67.00 64.50 67.50 65.50 63.75
65.00 63.00 61.50 66.25 61.50 64.75
Se pide:
1) Construir un cuadro e distribucin de frecuencias para un intervalo de la forma: (
]
2) Interpretar:
Y3 . y5
n1 ; n5
N1 , N5
N1 ; N5
h1 ; h5
H1 ; H5
h 1 x 100 ; h5 x 100
H1 x 100 ; H5 x 100
H1 x 100 ; H5 x 100
Solucin
1) Para la elaboracin del cuadro de distribucin de frecuencias consideraremos:
Estimacin del nmero de intervalos Por la regla de Sturges:
K = 1 + 3.3 log 60
K =6.86 k puede tomar: K = 6 o k = 7
Para el problema consideraremos k = 7
Clculo de la amplitud intervlica
C = ls - li C = 73.00 - 59.00 C = 2
K 7

Y1 = 59 + 61 = 60 Y4 = . + . =
51
2 2
Y2 = . + . = Y5 = . + . =
2 2
Y3 = . + . = Y6 = . + . =
2 2
Y7 = . + . =
2
Conteo
Considerando para el ejemplo un intervalo: abierto por la izquierda y cerrado por la
derecha. El limite inferior pertenece al intervalo
Frecuencia acumuladamenor que (Ni )
i
Nj = n1+ n2 + n3 .ni = nj
J=1
i
Nj = n1+ n2 + n3 .ni = nj
J=1
Para el ejemplo:
N1 =
N2 =
N3 =
N4 =
N5 =
N6 =
N7 =

m
Ni = ni + nI+1 + nI+2 ..+nm ; Ni = nj
J=1
Para el ejemplo
N1 = n1 + n2 + n3 + .+ n7
N2 = n2 + n3 + n4 + .+ n7
N3 = n3 + n4+ n5 + n6
N4 = n4 + n5 + n6 +n7
52
N5 = n5 + n6 + n7
N6 = n6 + n7
N7 = n7 +

hi ni
n
h1 = . . = h4 = . . =
60 60
h2 = . . = h5 =. . =
60 60
h3 = . . = h6 = . . =
60 60
h7 = . . =
60
i
Hi= h1 + h2 + h3 + hm ; = Hi = hj
J =1
Para el ejemplo:
H1= h1 =
H2= h1 + h2 =
H3= h1 + h2 + h3 =
H4= h1 + h2 + h3 + h4 =
H5= h1 + h2 + h3 + h4 + h5 =
H6= h1 + h2 + h3 + h4 + h5 + h6 =
H7= h1 + h2 + h3 + h4 + h5 + h6 + h7 =
m
Hi = hI + hi +1 + hi +2.+ hm ; Hi = hj
53
J =1
Para el ejemplo:
H1 = h1 + h2 + h3.+ h7 =
H2 = h2 + h3 + h4.+ h7 =
H3 = h3 + h4 + h5+ h6 + h7 =
H4 = h4 + h5+ h6 + h7 =
H5 = h5+ h6 + h7 =
H6 = h6 + h7 =
H7 = h7 =

(Yi-1 ; yI] yi Tarjas ni Ni Ni hi Hi Hi hi x Hi x Hi x 100
100 100
59.00 - 61.00 60 100
61.00 - 63.00
63.00 - 64
65.00 - 67.00
67.00 -
69.00 -
71.00 - 73.00 100

60 100
2) Interpretacin:
y3 =
y5 =
n1 =
n5 =
N1 =
N5 =
54
N1 =
N5 =
h1 =
h5 =
H1 =
H5 =
H1 =
H5 =
h1 x 100 =
h5 x 100 =
H1 x 100 =
H5 x 100 =
H3x 100 =
H5x 100 =
15. Representacin grafica

Una representacin grfica se usa cuando la informacin presentada en un cuadro
no es lo suficientemente clara, siendo necesario representarlo mediante diagramas o
grficos.
Los principales grficos son:
A) Grfico de Bastones
b) Grfico de barras
c) Histograma de frecuencias.
d) Polgono de frecuencias.
e) Diagrama de tallo.
A) Grfico de Bastones
Consiste en trazar un par de ejes coordenados haciendo coincidir con la variable.
55
Para su construccin se traza un par de ejes coordenados haciendo coincidir al eje

horizontal con la variable en estudio y al eje vertical con cualquiera de las
frecuencias .
Se marcan los pares ordenados y se trazan lneas perpendiculares desde el punto
considerado hasta la lnea horizontal.
Este tipo de grficos es adecuado para una distribucin discreta
Ejm.:
B) Grafico circular o de torta
Usado generalmente para datos cuanalitativos .

Ejm.
56
C) Grfico de Barras
Se traza un par de ejes coordenados haciendo coincidir el eje horizontal con la
variable en estudio, y el eje vertical con cualquiera de las frecuencias .
Se traza rectngulos de ancho arbitrario y de altura igual a la frecuencia.
Estos rectngulos son iguales y separados entre si.
Este tipo de grficos es apropiado para una distribucin de tipo discreto.
Ejemplo
d) Polgono de Frecuencias
Existen dos tipos de polgonos de frecuencias:
a) Sobre la bases de un histograma, se marca en la parte superior de los
rectngulos los puntos medios y se trazan lneas poligonales uniendo todos los
puntos medios .
La grfica poligonal total se une al eje horizontal a una distancia de C/2.
Ejemplo
57
b) Se traza un par de ejes coordenados haciendo coincidir al eje horizontal conlos

puntos medios o marcas de clase y al eje vertical con las frecuencias .
La lnea poligonal total se une al eje horizontal a una distancia de C/2.
Ejemplo
e) Gragfico Ojiva
A diferencia de los graficos anteriores solo se reemplaza la frecuencia simple por la
frecuencia acumulada.
Ejm.
58
Ejemplos de tipos de representaciones grficas

Histogramas: Se agrupan los datos en clases, y se cuenta cuntas observaciones
(frecuencia absoluta) hay en cada una de ellas. En algunas variables (variables
cualitativas) las clases estn definidas de modo natural, p.e sexo con dos clases:
mujer, varn o grupo sanguneo con cuatro: A, B, AB, O. En las variables
cuantitativas, las clases hay que definirlas explcitamente (intervalos de clase).
Se representan
los intervalos
de clase en el
eje de abcisas
(eje horizontal)
y las
frecuencias,
absolutas o
relativas, en el
de ordenadas
(eje vertical).
59
A veces es
ms til
representar las
frecuencias
acumuladas.
O representar
simultneament
e los
histogramas de
una variable en
dos situaciones
distintas.
Otra forma
muy frecuente,
de representar
dos
histogramas
de la misma
variable en
dos
situaciones
distintas.
60
Otra ms
En las
variables
cuantitativas o
en las
cualitativas
ordinales se
pueden
representar
polgonos de
frecuencia en
lugar de
histogramas,
cuando se
representa la
frecuencia
acumulativa,
se denomina
ojiva.
EJERCICIOS RESUELTOS
SOLUCIN DE LOS EJERCICIOS PROPUESTOS DE RUFINO MOYA
1.- Por que las frecuencias relativas son ms importantes que las absolutas?
Explique.
Respuesta:
61
Debido a que las frecuencias relativas (hi) nos indican los valores proporcionales, de
las que se puede inferir el porcentaje; mientras que las frecuencias absolutas (ni)
nos indican valores particulares de la poblacin.
2.- Cuando se constituye una distribucin de frecuencia, el nmero de clases que se
una depende de:
a.- Nmero de datos.
b.- Intervalo de los datos reunidos.
c.- Tamao de la poblacin
d.- Todas las anteriores.
e.- a y b pero no c
m est siempre en funcin de n, luego la respuesta es (a)
3.- Explique la diferencia entre distribucin de frecuencias relativas y de porcentajes.

La frecuencia relativa, establecer la proporcin en tanto por uno de muestra
respecto a la poblacin.
La frecuencia relativa porcentual establece una proporcin tomando como base
una poblacin de 100% con relacin a la muestra.
4.- A continuacin se describen las edades de 50 integrantes de un programa de
servicio social de gobierno.
81 53 67 60 80 64 56 64 91 61
66 88 67 65 52 72 74 65 73 69
43 54 76 70 97 68 82 75 79 60
39 87 76 97 86 45 60 45 65 76
92 72 82 80 70 65 50 58 70 50
Construya con siguientes datos las distribuciones de frecuencia relativa usando 7 y
13 intervalos iguales. Las polticas estatales de los programas de servicio social
exigen que aproximadamente 40% de los participantes del programa sean mayores
de 50 aos.
DISTRIBUCION DE FRECUENCIA USANDO 7 INTERVALOS DE CLASES:

Xmin = 39 Xmax = 97
97-39
c= ----- = 8.285714285
7
Para c = 9
39 97
I-------I------------I--------I -------- =
36.5 97 a
a = 2.5
Xmin = 39 - 2.5 = 36.5
62
Xmin = 97 + 2.5 = 99.5
TABLA DE DISTRIBUCION DE FRECUENCIAS

[yI-1 - yI) yi ni hi Ni Hi Ni Hi hi% 100 Hi% 100 hi%100
36.5 - 45.5 41 4 0.08 4 0.08 50 1.00 8 8 100

45.5 - 54.5 50 5 0.10 9 0.18 46 0.92 10 18 92
54.5 - 63.5 59 6 0.12 15 0.30 41 0.82 12 30 82
63.5 - 72.5 68 16 0.32 31 0.62 35 0.70 32 62 70
72.5 - 81.5 77 10 0.20 41 0.82 19 0.38 20 82 38
81.5 - 90.5 86 5 0.10 46 0.92 9 0.18 10 92 18
90.5 - 99.5 95 4 0.08 50 1.00 4 0.08 8 100 8
50 1.00 100
DISTRIBUCION DE FRECUENCIA USANDO 13 INTERVALOS DE CLASES:
Xmin = 39 Xmax = 97 97-39
c = ----- = 4.461538
39 97 13
I-------I------------I--------I
36.5 100.5
Para c = 5
97-39+2
-------- = 5
13
a = 3.5 Xmin = 35.5, Xmin = 100.5

35.5 - 40.5 38 1 0.02 1 0.02 50 1.00 2 2 100

40.5 - 45.5 43 3 0.06 4 0.08 49 0.98 6 8 98
45.5 - 50.5 48 1 0.02 5 0.10 46 0.92 2 10 92
50.0 - 55.5 53 4 0.08 9 0.18 45 0.90 8 18 90
55.5 - 60.5 58 6 0.12 15 0.30 41 0.82 12 30 82
60.5 - 65.5 63 6 0.12 21 0.42 35 0.70 12 42 70
65.5 - 70.5 68 9 0.18 30 0.60 29 0.58 18 60 58
63
70.5 - 75.5 73 5 0.10 35 0.70 20 0.40 10 70 40

75.5 - 80.5 78 5 0.10 40 0.80 15 0.30 10 80 30
80.5 - 85.5 83 3 0.06 43 0.86 10 0.20 6 86 20
85.5 - 90.5 88 3 0.06 46 0.92 7 0.14 6 92 14
90.5 - 95.5 93 2 0.04 48 0.96 4 0.08 4 96 8
95.5-100.5 98 2 0.04 50 1.00 2 0.04 4 100 4
50 1.00 1.00
a.- Se ajusta el programa a esa poltica? (40% sean > 50 aos)

Si se ajusta el programa porque alcanza el 90% las personas que tienen m s de 50
aos, en el mencionado programa de proyeccin social
b.- Cul de las distribuciones de frecuencia relativa le ayuda a contextuar mejor la
parte a.
La distribucin de frecuencias con 13 intervalos de clase.
c.- Suponga que el Director de los servicios sociales quiere conocer la proporcin de
participantes en el programa cuya edad flucta entre 45 y 80 aos Con cul de las
distribuciones podra estimar mejor la respuesta del director?
Se estima mejor con el segundo cuadro de distribucin de frecuencias.
5.- La compaa VELOZ, una empresa situada en Arequipa, muestreo sus registros
de embarque durante cierto da, obteniendo los siguientes resultados.
TIEMPO TRANSCURRIDO DESDE LA RECEPCION DE LA ORDEN HASTA LA
ENTREGA (EN DIAS)
4 12 8 14 11 6 7 13 13 11
20 5 9 10 15 24 7 29 6 11
Construya una distribucin de frecuencias para los datos anteriores, una distribucin
de frecuencia relativa. Use intervalos de 6 das.
Xmin = 4 ; Xmax = 29 ; Intervalo de 6 das

[yI-1 - yI) yi ni hi Ni Hi Ni Hi hi% 100 Hi% 100
4 - 10 7 7 0.35 7 0.35 20 1.00 35 35

10 - 16 13 9 0.45 16 0.80 13 0.65 45 80
16 - 22 19 2 0.10 18 0.90 4 0.20 10 90
22 - 28 25 1 0.05 19 0.95 2 0.10 5 95
28 - 34 31 1 0.05 20 1.00 1 0.05 5 100
64
20 1.00 100
a.- Que afirmacin puede hacer sobre la eficacia del procesamiento de pedidos a
partir de la distribucin de frecuencia?
Que la compaa VELOZ en un lapso de 4 a 15 das cumple con el 80% de entrega.
b.- Si la compaa quiere asegurarse de que la mitad de sus entregas se realicen en
10 o menos das Puede Ud. determinar mediante la distribucin de frecuencia si la
compaa ha alcanzado su meta?
La compaa VELOZ no alcanz su meta, porque al cabo de los 10 das slo
cumpli con el 35% de la entrega.
6.- Las marcas de clase de una distribucin de frecuencias con intervalos de igual
amplitud son 46, 55, 64, 73, 82, 91. Halle:
a.- El intervalo de clase
b.- El rango
c.- Los limites de clase
d.- Los limites reales de clase
a.- CALCULO DEL INTERVALO DE CLASE:

[Yi-1 - Yi) = Y2 - Y1
= 55 - 46 =====> 9
c=9
b.- CALCULO DEL RANGO:
r = Xmax - Xmin
Xmin = Y1 - c/2
Xmin = 46 - 4.5
= 41.5
Xmax = Y6 + c/2
= 91 + 4.5
= 95.5
L = 95.5 - 41.5
L = 54
c.- CALCULO DE LOS LIMITES DE CLASE:
[yI-1 - yI) yi
41.5 - 50.5 46
50.5 - 59.5 55
59.5 - 68.5 64
68.5 - 77.5 73
65
77.5 - 86.5 82
86.5 - 95.5 91
[Yi-1-Yi) Yi Yi-1 = Xmin = 41.5
Y2 = 41.5 + 9 = 50.5
Y6 =Xmax = 95.5
CALCULO DE LOS LIMITES REALES DE CLASE:
41 95
I------------I-----------I----------I
41.5 95.5
[yI-1 - yI) yi
41 - 50 54.75
50 - 59 54.5
59 - 68 63.5
68 - 77 72.5
77 - 86 81.5
86 - 95 90.5
m=6
c = 95 - 41
6
c=9
7.- Se tiene distribucin de frecuencias con cuatro intervalos de clase de igual

amplitud y los siguientes datos:
Y1 = 10 Y4 = 22 h1 = 0.30 h4 = 17.5%
H2 = 45 n = 120
Reconstruir la tabla:
[yI-1 - yI) yi ni hi Hi
10 0.30
0.45
66
22 0.175
120
Aplicando las propiedades:

H1 = h1 =====> H1 = 0.30
H2 = H1 + H2 =====> h2 = H2 - H1 ====> h2 = 0.45 - 0.30
h2 = 0.15
h3 = 1 - [h1 + h2 + h4] ====> h3 = 1 - 0.625
h3 = 0.375
H3 = H 2 + h 3 ====> H3 = 0.825
H4 = H 3 + h 4 ====> H4 = 1.00
n1
h1 = -------- ====> n1 = 0.30(120)
n
n1 = 36
n2 = 18 ......
Clculo de Xmin y Xmax:

Yo + Yo + c
Y1 = ----------------- ===> 20 = 2Yo + c .... (1)

2
Yo + 3c + Yo + 4c
22 = -------------------- ====> 22 = 2Yo + 7c ....(2)
2
de (1) y (2) c = 4
Yo = Y1 - 2 =====> Yo = 8; Y1 = 12

[yI-1 -I) yi ni hi Ni Hi Ni Hi hi% 100 Hi% 100 hi%100
8 12 10 36 0.30 0.30 1.00 36 120 30 30.2 100

12 - 14 18 0.15 0.45 0.700 54 84 15 45.8 70
16
67
16 - 18 45 0.375 0.82 0.550 99 66 37.5 82.5 55

20 5
20 - 22 21 0.175 1.00 0.125 120 21 17.5 100 17.5
24
120 1.00
8.- Los puntajes de 50 alumnos se clasifican en un cuadro de distribucin de

frecuencias de cuatro intervalos de amplitud constante. Sabiendo que Y 2 = 50, n1 =
4, N2 = 20, n3 = 25, c = 62. Reconstruir el cuadro.
[ ) yi ni Ni
04
50 20
25
50
N1 = ni ===> Ni = 4
n2 = N2 - N1 ===> n2 = 16
N3 = N2 + n3 ===> N3 = 45
n4 = n-(n1 + n2 + n3)==> n4 = 5
n4 = N3 + n4 ===> N4 = 50
Para c = 62 ====> Xmin = - 43 Luego consideramos para c = 6
CALCULO DEL LIMITE INFERIOR:
Yi + Y2 Y0 + CY0 + 2c
50 = Y2 = ------------ = --------------------
2 2
2Y0 + 3C
= -------------
2
2Y0 + 3(6)
50 = ------------- ====> Y0 = 41
2
Xmin = 41 ; Xmax = 65
CUADRO DE DISTRIBUCION DE FRECUENCIAS

N = 50 ; C=6
[yI-1 - yI) yi ni hi Ni Hi Ni Hi hi% 100 Hi% 100 Hi%100
68
41 - 47 44 4 0.80 4 0.08 50 1.00 8 8 100

47 - 53 50 16 0.32 20 0.40 46 0.92 32 40 92
53 - 59 56 25 0.50 45 0.90 30 0.60 50 90 60
59 - 65 62 5 0.10 50 1.00 5 0.10 10 100 10
50 1.00 100
9.- En cada uno de los siguientes casos, determine si son consistentes o no los
datos.
a.- m = numero de clase = 6
h1 = 0.2 , h4 = 0.2 , H2 = 0.6 , H3 + H4 = 1.9
H1 = h 1 ==> H1 = 0.2
h2 = H2 - H1 ==> h2 = 0.4
[ ) ni Hi
0.2
0.6
0.2
Clculo de H3 y H4
H3 + H4 = 1.9 .....(1)
H3 + h4 = H4 ==> H3 - H4 = -0.2 .....(2)
de (1) y (2)
H3 = 0.85 ; H4 = 1.05
Respuesta : Es inconsistente porque H4 > 1.0
b.- H4 = 0.30 , n = 10 , h3 = 0.31
Respuesta : es inconsistente porque h3 > H4

c.- h2 = 0.40 ; n = 50 ; n1 = 20
h1 = n1/n ====> h1 = 0.40
Respuesta: es consistente; si h1 = h2 es porque tienen la misma frecuencia.
d.- h1 = 4% , h3 = 12% , H4 = 15%
Respuesta : es inconsistente porque H4 < H3
Ni % Hi % Ni % Hi %
4 4 4
a 4+a
69
12 16 16 + 2
15 15
e.- H5 = 0.36 , N4 = 30 , h5 = 6 , n = 50
Respuesta : es inconsistente porque h5 > 1
10. Suponga que la siguiente tabla de distribucin representa los salarios diarios de
los trabajadores de construccin civil de Lima.
Salario diario en S/. Frecuencia hi Hi % Hi Hi %
8 a12 360 0.12 12 0.12 12
12 a 16 420 0.14 14 0.26 26
16 a 20 510 0.17 17 0.43 43
20 a24 660 0.22 22 0.65 65
24 a 28 570 0.19 19 0.84 84
28 a 32 480 0.16 16 1.00 100
a.- El sindicato de construccin civil solicita que en el nuevo pacto colectivo se

establezca un salario diario mnimo de S/. 14 Que porcentaje de trabajadores se
beneficiar con este pacto?.
Solucin:
. 14% .
I I
[-----------------) [------------------) [--------------)
8 12 14 16
I --------------------I
a
14 a
-------------- = ---------------- ==> a = 7.0%
16 - 12 14 - 12
% trabaja. que se beneficia es = 12.6% + 7% = 19%

b.- Los trabajadores que reciben ms de 30 soles diarios se supone son muy
calificados) maestros de obra Que porcentaje de trabajadores se supone muy
calificados?.
Solucin :
I. 16% .I
I-------------I------I------------I
24 28 30 32
b
16 b
------------- = ----------- ==> b = 8%
32 - 28 32 - 30
===> % maestro de obra (30, 32] = 8%

c.- Estime el numero de trabajadores que gana ente 15 y 27 soles diarios.
70
I. 420 I 510 660 . I 570..

I---------------------I-----------I--------------I-----------I-----------I-----------I
12 15 16 20 24 27 28
I------------I- I ---------I
a b
420 a
------------- = ------------- ==> a = 105 trabajadores.
16 - 12 16 - 15
570 b
----------- = ---------------- ==> b = 427.5 = 428 trabajadores.
28 - 24 27 - 24
Numero de trabajadores que

gana (15,27) = 105+510+660+428
= 1703 trabajadores.
11. Los siguientes datos indican el nmero de minutos que ocuparon sus asientes 50
clientes de un cafetera.
73 65 82 70 45 50 70 54 32 75
75 67 65 60 75 87 83 40 72 64
58 75 89 70 73 55 61 78 89 93
43 51 59 38 65 71 75 85 65 85
49 47 55 60 76 75 69 35 45 63
Construya un cuadro de distribucin de frecuencias escogiendo un nmero de clases

adecuado.
Solucin :
n = 50 ==> n >= 7.00
n = 1 + 3.3 log 50 ==> n = 6.60 = 7
Xmin = 32 ; Xmax = 93
93 - 32
c = ------------ ==> c = 8.714285
7
Para c = 9 ====> Xmin = 31 ; Xm2 = 94
32 93
I----------------I---------I
31 94
Xmin = 31; Xmax = 94; m = 7 ; c = 9
71
31 - 40 35.5 3 0.06 3 0.06 50 1.00 6 6 100

40 - 49 44.5 5 0.10 8 0.01 47 0.94 10 16 94
6
49 - 58 53.5 6 0.12 14 0.28 42 0.84 12 28 84
58 - 67 62.5 11 0.22 25 0.5 36 0.72 22 50 72
67 - 76 71.5 15 0.30 40 0.80 25 0.50 30 80 50
76 - 85 80.5 4 0.08 44 0.88 10 0.20 8 88 20
85 - 94 89.5 6 0.12 50 1.00 6 0.12 12 100 12
Total 50 1.00 100
a.- Cuntos clientes ocuparon entre 35 y 52 min. los asientos?
3 5 16
------------------------------------------------------------I----------------------------------------------
31 35 40 49 52 58
I-------------------------I I----------I
a b
3 a
------ = ------- ===> a = 1.666 = a =2
40 -31 40 - 35
16 b
------ = ------- ===> b = 5.33 = b = 5
58 -49 52 - 49
Los clientes que ocuparon [35;52) = 2 + 5 + 5

= 12 clientes b.- Cuntos clientes ocuparon ms de una hora el asiento?
.. 11 . 15 . . 4 . 6 .
I---------------------------------------------------------------------------------------------------I
58 60 67 76 84 94
. .
a
11 a
72
----------- = ------------ ===> a = 8.55 = 9

67 -58 67 - 60
Clientes que ocuparon [60,94) = 9 + 15 + 4 + 6

= 34 clientes
c.- Que porcentaje ocuparon los asientos menos de 92 min.?
6% 10% 12% 22% 30% 8% 12%

I------------I I--------------I I-------------I I-------------I I-----------I I-----------I I----------I
I-------------I
I----------------------------------------------------------------------------------------------------------------
I
31 40 49 58 67 76 85 92
94
I-----------I
b
12 b
----------- = --------------- ===> a = 9.333 = 9
94 -85 92 - 85
Clientes que ocuparon [31,92) = 6+10+12+22+30+8+9

= 97%
12. Condorito, que es un jefe de prcticas muy divertido, pierde los exmenes de
estadstica. Pero recuerda que las 120 notas tenan una distribucin simtrica con 7
intervalos de clase de amplitud constante. Adems en sus archivos encuentra la
siguiente informacin:
hi = 5% ; h3 = 15% ; H3* = 85% ; Y4 = 72 ;
7
Yi = 400
i=3
Donde: Yi = marca de clase
Hi*= Frecuencia relativa acumulada mayor o igual que
a.- Reconstruya la tabla de distribucin de frecuencia.
H1 = hi ===> Hi = 0.05
Hi*= 1.00
H2*= Hi* -h1 ===> H2*= 0,95
h2 = H2* - H3* ===> h2=0.10
H4*= H3*+ h3 ===> H4*= 0.70
[) yi hi Hi
0.05
73
0.15 0.85
72
Total 120
Clculo de las Frecuencias (ni)

ni hi = --- ===> ni = n(hi)
n
n1 = 120 (0.05) = 6 ; n7 = 6 por simetra
n2 = 120 (0.10) = 12 ; n6 = 12 por simetra
n3 = 120 (0.15) = 18 ; n5 = 8 por simetra
Clculo de las marcas de clases (Y1)
7
Yi = 400 ; Y4 = 72
i=3
Y3 = 72 - c , Y5 = 72 + c , Y6 = 72 +2c , Y7 = 72 +3c ,
72 - c + 72 + 72 + c + 72 + 2c + 72 + 3c= 400 ===> c = 8

[yI-1 - yI) yi ni hi Ni Hi Ni Hi hi% 100 Hi% Hi
100 %100
44 - 52 48 6 0.05 6 0.05 120 1.00 5 5 100
52 - 60 56 12 0.10 18 0.15 114 0.95 10 15 95
60 - 68 64 18 0.15 36 0.30 102 0.85 15 30 85
68 - 76 72 48 0.40 84 0.70 84 0.70 40 70 70
76 - 84 80 18 0.15 102 0.85 36 0.30 15 85 30
84 - 92 88 12 0.10 114 0.95 18 0.15 10 95 15
92 - 96 6 0.05 120 1.00 6 0.05 5 100 5
100
Total 120 1.00 100
b.- Si para aprobar el examen se necesita obtener por lo menos 70 ptos. Cuntos
desaprobaron dicho examen?
48% 10% 18% 22% 12% 30% 6% 12%

I------------------------------I I----------------I I----------------I I----------------I
68 70 76 84 92 100
74
I--------------I
.a
48 a
------------ = -------------------- ===> a = 36
76 -68 76 - 68
Aprobaron = 36 + 18 + 12 + 6 = 72 alumnos
Desaprobaron = 120 - 72 = 48 alumnos
13.- Es una investigacin agrcola en el Valle de Chancay se determino la produccin

(en Kg) de un cierto cultivo, el cual fue sembrado en 20 parcelas experimentales.
Los resultados obtenidos fueron.
PRODUCCION EN KGS.
40 35 38 40 41 37 41 40 38 20
33 27 25 28 44 22 20 29 36 25
------------------------------------------------------------------------------
a.- Construya una distribucin de frecuencias con 5 clases.
20 44
I------------------I-------------------I--------------------I-
19.5 44.5
44 + 20 + 2
----------------------- =5
4
a = 0.5

Xmin = 19.5 ; Xmax = 44.5 , m = 5 ; c = 5
[yI-1 - yI) yi ni hi Ni Hi Ni Hi hi% 100 Hi% 100 Hi

%100
19.5 - 24.5 22 3 0.15 3 0.15 20 1.00 5 15 100
24.5 - 29.5 27 5 0.25 8 0.40 17 0.85 25 40 85
29.5 - 34.5 32 1 0.05 9 0.45 12 0.60 5 45 60
34.5 - 39.5 37 5 0.25 14 0.70 11 0.55 25 70 55
39.5 - 44.5 42 6 0.30 20 1.00 6 0.30 30 100 30
Total 20 1.00 100
75
b.- Si el 80% de los pesos estn por arriba de 30 kg, se recomendar su cultivo en el
valle. A la vista de los resultados se, recomendar su cultivos?
5% 25% 30%
I---------------------------------I I--------------------I I--------------------I
29.5 30 34.5 39.5 44.5
I-----------------I
a
5 a
----------------- = ----------------- ===> a = 4.5 = 5
34.5 - 29.5 34.5 - 30
(de 30 Kg. a m s) = 5% + 25% + 30% = 60%

Rpta: No se recomienda su cultivo, en el valle debido a que solo el 60% de los pesos
est por encima de los 30 Kgs.
14.- Una compaa tiene 60 trabajadores. El suelo mnimo de un trabajador es 100

soles y el mximo 590 soles mensuales. El 80% de los trabajadores ganan por lo
menos 210 soles; 18 perciben haberes inferiores a 390 soles mensuales; 20% son
profesionales y reciben un haber de por lo menos 490 soles mensuales. Se pide.
a.- Construir la tabla de frecuencias relativas
Solucin:
80
H2* = ----- ===> H2* = 0.80
100
20
H4* = ----- ===> H4* = 0.20
100
100Hi*% = 100
100hi% = 100 - 80 = 20
ni = 60 (0.2) = 12
n2 = 18 - 12 = 6
[y i-1 - yi ) Yi 100Hi %
100 - 210
210 - 390 18 80
390 - 490
490 - 590
590 - 590 20
Total - 60
6
h2 = ---- = h2 = 0.1 ====> 100h2% = 10
76
60
100H3*% = 80 - 10 = 70; 100hi3% = 70 - 20 = 50

ni
100H4*% = 100hi% = 20 ; h1 = ---- ===> n3 = 30,
n
n4 = 12

[yI-1 - yI) yi ni hi Ni Hi Ni Hi hi% 100 Hi% Hi
100 %100
100 - 210 155 12 0.20 12 0.20 60 1.00 20 20 100
210 - 390 300 6 0.10 18 0.30 48 0.80 10 30 80
390 - 490 440 30 0.50 48 0.80 42 0.70 50 80 70
490 - 590 540 12 0.20 60 1.00 12 0.20 20 100 20
Total 60 1.00 100
b.- Cuntos ganan ms de 450 soles mensuales?
. 30 . . 12 .
I-----------------------------------------------------------------------I
390 450 490 590
I----------------------I
a
. 30 .
490 - 390
a
--------- = a = 12
490 - 450
a = 12
Personas que ganan ms de 450 soles mensuales = 12 + 12 = 24 personas
c.- Que porcentaje de trabajadores tiene un sueldo de 300 o m s pero menos de 500
soles mensuales.
10% . . 50% . . 20% .
210 300 390 490 500 590

I-----------I I-------------I
a b
10 a
77
--------------- = ---------------- = a = 5%
390 - 210 390 - 300
20 b
---------------- = ---------------- = b = 2%
590 - 490 500 - 490
Trabajadores que ganan [300,500) = 50% + 50% + 2%
= 57%
d.- Estime el valor bajo el cual se encuentra los haberes de las dos terceras partes
de todos los trabajadores.
. 12 . . 6 . . 30 .
100 210 390 X 490
30 22
---------------- = ------------------ = X = 463.33
490 - 390 X - 390
Rpta: El valor de las 2/5 partes de los trabajadores es S/. 463 mensual
15. En los ltimos 30 das se tomaron los siguiente datos que representan la
duracin en aos de 3 bombas.
2.0 3.0 0.3 3.3 1.3 0.4 0.2 6.0 5.5 6.5
0.2 2.3 1.5 4.0 5.9 1.8 4.7 0.7 4.5 0.3
1.5 0.5 2.5 5.0 1.0 6.0 5.6 6.0 1.2 0.2
a.- Construya un diagrama de hojas y tallos para las duraciones de combustible

utilizado el dgito que se encuentra a la requerida del punto decimal como el tallo
para cada observacin.
Solucin:
DIAGRAMA DE TALLOS Y HOJAS
Tallo Hoja Frecuencia
0 34227352 8
1 358502 6
2 .35 3
3 073 2
4 075 3
5 5906 4
6 0500 4
b.- Construya una distribucin de frecuencias relativas simples y acumuladas.
78

yI ni hi Ni Hi Ni Hi hi% 100 Hi% 100 Hi%100
0 8 0.2667 8 0.266 30 1.000 26.67 26.67 100.00

7 0
1 6 0.2000 14 0.466 22 0.733 20.00 46.67 73.33
7 3
2 3 0.1000 17 0.566 16 0.533 10.00 56.67 53.33
7 3
3 2 0.0666 19 0.633 13 0.433 6.67 63.34 43.33
4 3
4 3 0.1000 22 0.733 11 0.366 10.00 73.34 36.67
4 7
5 4 0.1333 26 0.866 8 0.266 13.33 86.67 26.67
7 7
6 4 0.1333 30 1.000 4 0.133 13.33 100.00 13.33
0 3
Total 30 1.0000
c.- Estime el valor bajo el cual se encuentra la tercera parte de todas las
observaciones.
1
--- (30) = 10 observaciones
3
I---------------------------------------------------------I
0 1 X 2
I-----------I I-------I I---------------------------------I
8 10 6
6 10
--------- = -----------
2-1 X-1
X = 0.66
El valor bajo el cual se encuentra 1/3 de las observaciones = 1 + 0.66
= 1.66
16. El contenido de nicotina en miligramos, para 40 cigarrilllos de cierta marca se

registran de la siguiente manera:
1.09 1.92 2.31 1.79 2.28 1.74 1.47 1.97 0.85 1.24
79
1.58 2.03 1.70 2.17 2.55 2.11 1.86 1.90 1.68 1.51
1.64 0.72 1.69 1.85 1.82 1.79 2.46 1.88 2.08 1.67
1.37 1.93 1.40 1.64 2.09 1.75 1.63 2.37 1.75 1.69
a.- Construya un diagrama de hojas y tallos para los datos, en la que los tallos sean
los dgitos que se encuentran a la izquierda del punto decimal, repetida cada uno de
ellos cinco veces, de manera que las hojas de doble dgito 00 a 19 estn, asociados
con los tallos codificados con la letra b; y as sucesivamente. De sta manera. un
numero como 1.29 tiene un valor de tallo de 16 y una hoja con equivalencia.
SOLUCION:
DIAGRAMA DE TALLO Y HOJAS

Tallo Hoja ni
0a ----- 0
0b ----- 0
0c ----- 0
0d 72 1
0e 87 1
1 09 1
1b 37, 34 2
1c 58, 40, 47, 51 4
1d 64, 70, 69, 79, 64, 74, 79, 75, 63, 68, 75, 6 7, 69 13
1e 92, 93, 85, 82, 86, 97, 90, 88 8
2 03, 17, 09, 11, 08 5
2b 31, 28, 37 3
2c 55, 46 2
2d ----- 0
2e ------ 0

yI ni hi Ni Hi ni Hi hi% 100 Hi% 100 Hi%100
0a 0 0.000 0 0.000 40 1.00 0 0 100.00

0b 0 0.000 0 0.000 40 1.00 0 0 100.00
0c 0 0.000 0 0.000 40 1.00 0 0 100.00
0d 1 0.025 1 0.025 40 1.00 2.5 2.5 100.00
0e 1 0.025 2 0.050 39 0.975 2.5 5.0 97.5
1 1 0.025 3 0.075 38 0.950 2.5 7.5 95.00
1b 2 0.050 5 0.125 37 0.925 5.0 12.5 92.5
1c 4 0.100 9 0.225 35 0.875 10.0 22.5 87.5
1d 13 0.325 22 0.550 31 0.775 32.5 55.0 77.5
80
1e 8 0.200 30 0.750 18 0.450 20.0 75.0 45.00

2 5 0.125 35 0.875 10 0.250 12.5 87.5 25.00
2b 3 0.075 38 0.950 5 0.125 7.5 95.5 12.5
2c 2 0.050 40 1.000 2 0.050 5.0 100.00 5.00
2d 0 0.000 40 1.000 0 0.00 0 100.00 0.000
2e 0 0.000 40 1.000 0 0.00 0 100.00 0.00
Total 40 1.000 100
EJERCICIOS
1. Identifique: Poblacin muestra, unidad elemental, variable (s) , tipo de variable(s)
y de un ejemplo de observacin para cada uno de las variable (s)del siguiente
enunciado:
Con la finalidad de lanzar al mercado limeo un nuevo producto lcteo, la empresa
MAYORASA S.A. encarga al dpto. de marketing realizar un estudio acerca del
consumo en Lima Metropolitana,. Con este fin se ha tomado al azar 35 hogares del
distrito de Comas, 40 hogares del distrito de Maranga y 15 hogares en el distrito de
Lince. Se va a consultar sobre la marca de leche que usa, que porcentaje de su
ingreso mensual dedica para el consumo de leche y el nmero de veces que
adquiere a la semana el producto lcteo.
Respuesta
Poblacin
Todos los hogares de Lima metropolitana.
Muestra
90 hogares (35 hogares de Comas, 40 hogares de maranga, 15 hogares de Lince)
Unidad elemental
Un hogar de Lima metropolitana.
Variables:
N Variables Tipo Observacin
01 La marca de la leche que usa V. Cualitativa nominal Laive
02 % de ingreso que dedica al V. Cualitativa 45%
consumo de leche Continua
03 Nmero de veces que adquiere el V. Cuantitativa 5
producto Lcteo discreta
2. Identifique en cada uno de los siguientes casos:
81
Poblacin, muestra, unidad elemntal, variable, tipo de variable, valor estadstico y d

un ejemplo de observacin.
a) El ministro de Agricultura y alimentacin para estudiar el tipo de leche que
consumen las familias de Lima metropolitana, seleccion al azar 100 familias
obteniendo los siguientes resultados:
Leche evaporada 35%
Leche constituida 45%
Leche fluida 20%
Respuesta
Poblacin
Todas las familias de Lima metropolitana.
Muestra
100 familias de Lima metropolitana
Variable
Tipo de leche que consumen las familias
Tipo de Variable
Variable continua nominal
Observacin
Leche fluida.
b) La alcalda de Lima ha encargado realizar un estudio del transporte urbano de

Lima metropolitana con el fin de solucionar los problemas del transporte y ofrecer un
mejor servicio a los usuarios. El estudio se realiz en el mes de abril de 1997 y se
seleccion una muestra de 351 unidades de transporte registrandose l nmero de
pasajeros que recoga cada unidad seleccionada desde su paradero inicial hasta el
paradero fina, en el horario de 6 p.m.a 8 p.m.
Respuesta
Poblacin
Todas las unidades de transporte de Lima metropolitana.
Muestra
351 unidades de transporte
Unidadelental
Una unidad de transporte
Variable
Nmero de pasajeros.
Tipo de variable
Variable cuantitativa discreta.
Observacin
32 pasajeros de la unidadde transporte.
3. Identifique en cada uno de los casos:

Poblacin, muestra, unidad elemental variable, tipo de variable. observacin y valor
estadstico.
a) En el hospital Guillermo Almenara se interrogo a ungrupo de 20 pasientes,
elegidos al azar por el tipo de enfermedad que padecian determinandose que 35%
padecia de enfermedades gastrointestinales y 30% de enfermedades respiratorias
82
Respuesta
Poblacin:
Todos los pacientes del Hospital
Muestra
20 pacientes del hospital
Unidad elemntal
Un paciente
Variable
Tipo de enfermedad
Tipo de variable
Variable cuantitativa Nominal
Valor estadstico
35 % padecen de enfermedades gastro intestinales.
Observacin
Enfermedad respiratoria
b) Con el fin de mejorar los servicios de la biblioteca, el colegio Guadalupe decide

realizar una investigacin referente al tiempo que los estudiantes usuarios de la
biblioteca dedican a la lectura en sala, as como tambin a la preferencia que stos
tienen por una determinada lectura (Literatura Universal o Literatura peruana). Para
tal efecto se seleccionaron aleatoriamente 55 estudiantes usuarios de la biblioteca.
Respuesta
Poblacin.
Todos los estudiantes usuarios de la biblioteca
Muestra
55 estudiantes usuarios de la biblioteca.
Unidad elemental
Un estudiante usuario
Variables
N Variable Tipo de variable Valor estadstico Observacin
01 Tiempo de lectura en la sala V. Cuantitativa continua No hay 45 minutos
02 Preferencia por un tipo de V. Cuantitativa nominal No hay Literat. peruana
lectura
c) Con la finalidad de conocer en que medida los propietarios de viviendas del

distrito de de Pueblo libre pagan el impuesto predial si. La municipalidad
correspondiente realiz un estudio mediante una muestra aleatoria de 300
propietarios de la cual se obtuvo los siguientes resultados preliminares:
El nmero de propietarios de plantas (pisos por propiedad) es de 1.5
El ingreso promedio mensual por propietario es de $ 325.50
Solo el 59 % opina que puede pagar el impuesto predial.
Respuesta.
83
Poblacin
Todos los propietarios de viviendas del distrito de Pueblo Libre.
Muestra
300 propietarios de viviendas.
Unidad elemental
Un propietario por vivienda.
Variables:
N Variable Tipo de Variable Valor estadstico Observacin
1 Nmero de pisos por Cuantitativa discreta 1.5 ------
propiedad
2 Ingreso mensual por Cuantitativa continua $. 325.50 -------
propietario
3 Opinin acerca del impuesto Cualitativa nominal 59 % -------
predial
4. Seale en cada uno de los casos el tipo de variable, la unidad elemental y de un

ejemplo de observacin
a) Coloracin de hojas
Tipo de variable Unidad elemental Observacin
a Cuantitativa nominal Una hoja Amarillo
b) Velocidad de tipeado de una secretaria en palabras por minuto

b Cuantitativa discreta Una secretaria 8 palabras por minuto.
c) Tiempo de atencin por cliente en un banco

c Cuantitativa continua Un cliente 12 minutos y 3 segundos.
d) Nmero de epleados por oficina en una agencia bancaria.

d Cuantitativa discreta Una oficina 8 empleados.
e) Cantidad de libros en un estante en una biblioteca

Tipo de variable Unidad Observacin
elemental
e Cuantitativa discreta Un libro 30 libros
f) Peso de las bolsas de detergente

f Cuantitativa discreta Una bolsa de detergente 250 gramos
g) Estado Civil
84
elemental
g Cuantitativa nominal Una persona soltera.
h) Calidad de men del comedor estudiantil

elemental
h Cuantitativa jerrquica Un estudiante regular.
5) En el siguiente enunciado identifique: Poblacin, muestra, parmetro y valor estadstico.

En una fabrica de aceite se desea conocer la variacin que existe en el llenado de cada una de
las botellas, para ello se escogen 29 botellas y se procede a medir el volumen de cada una,
obteniendo un volumen promedio de .97 litros.
Respuesta
Poblacin: Todas las botellas de aceite producidos por la fabrica.
Muestra: 29 botellas de aceite.
Parmetro: Volumen promedio de todas las botellas de aceite producidas en la fabrica.
Valor Estadstico: 0.97 litros.
6) Identificar en el siguiente enunciado :Poblacin, muestra, unidad elemental, variable(s),

tipo de variable(s), valor estadstico y de un ejemplo de observacin.
Para analizar la posibilidad de lanzar al mercado una nueva marca de cigarrillos, se efectu
una encuesta entre los fumadores que transitaron por la quinta cuadra de la Av. Canada de 5
p.m. a 8 p.m. el domingo 14 de Febrero; para ello se seleccion una muestra aleatoria de 80
fumadores, obtenindose los siguientes resultados:
El nmero promedio de cigarrillos que fuma un da cualquiera es de 6.1
El 65% prefiere los cigarrillos importados o los nacionales
El precio promedio que pagan al comprar una cajetilla es de S/. 3.00
Respuesta
Poblacin: Todos los que transitan por la quinta Av. Canad de 5 p.m. a 8 p.m.
Muestra: 80 fumadores que transitaron por la quinta cuadra de la Av. Canad de 5
p.m. a 8 p.m.
Unidad elemental: 1 fumador que transit por la quinta cuadra de la Av. Canad de 5
p.m. a 8 p.m.
Nro Variables Tipo de variable Valor Observacin

estadstic
o
01 Nmero de Cigarrillos que fuma V. cuantitativa Discreta 6.1 3
un da cualquiera
02 Preferencia por un tipo de V. cuantitativa nominal 65% Nacional
cigarrillo
03 Precio que pagan al comprar una V. Cuantitativa continua S/ 3.00 S/ 3.10
cajetilla
85
7) En cada uno de los siguientes casos identifique: poblacin, tipo de variable, parmetro o
valor estadstico y proporcione dos ejemplos de observacin.
i) Se entrevistaron a 500 universitarios acerca de sus opiniones sobre la legalizacin del

aborto, el 98% est en contra.
ii)Se llam por telfono a 123 hogares del distrito de Surco y se pregunt por el programa
informativo de preferencia. El 50 % respondi Primera Plana.
iii) Del 30% de empleados ms antiguos de una empresa se seleccion al 10% de ellos,
encontrndose que en promedio tiene 4. hijos.
iv) Se eligen al azar tres aerolineas que hacen buelo a Houston encontrandose que en
promedio el tiempo de vuelo es de 6 horas
Respuesta
N Tipo de variable Observacin
i V. cualitativa nominal Contra. A favor
ii V. Cuantitativa nominal 24 Horas. ATV
iii V. cuantitativa discreta 4.0
iv V. cuantitativa continua 3h. 20m. 7 seg. , 4 h 8 m. 15 seg.
8) Del siguiente enunciado, identifique: poblacin, muestra, unidad elemental,

variable(s), tipo de variable(s), parmetro y valor estadstico
En un estudio para implementar un seguro estudiantil a los alumnos de la
UNMSM(matriculados y no matriculados), se envi un formulario a los 4897
estudiantes que figuraban en el listado de alumnos matriculados en el ciclo 98 I de
la Oficina Acadmica de estudios. Parte de los resultados obtenidos indican que el
75 % de ellos desean contar con dicho seguro y que el promedio de ingreso familiar
es de S/. 780.00
Respuestas:
Poblacin: 4897 Estudiantes de la UNMSM.
Variables:
1.- Desea contar con algn seguro estudiantil
2..- Cul es su ingreso familiar?
9) Se seleccionaron al azar 4 estudiantes del curso de Estadstica General y se

formul las siguientes preguntas:
a) En que Facultad estudia?
b) Cmo calificara el servicio de atencin en la ventanilla de la oficina de Registro?
Las respuestas de los estudiantes fueron las siguientes:
Estudiante 1 a) Economa B) Bueno
Estudiante 2 a) Zootecnia b) Regular
Estudiante 3 a) Agronoma b) Bueno
Estudiante 4 a)Minas b) Excelente
Respuesta
Tipo de variable
86
a) Variable cuantitativa nominal

b) Variable jerrquica.
10) Una compaa de investigacin de mercado se interesa en el orden de

preferencia del consumidor limeo respecto a tres marcas de gaseosas que
compiten entre si : CocacCola, Pesi Cola, e Inca Cola, Tambin se desea estudiar el
nmero de unidades consumidas de stas gaseosas por persona en la ltima
semana y as mismo se desea conocer las diferentes formas en que es consumido
el producto (botella, lata, botella no retornable). Para llevar acabo este estudio se
selecciona una muestra aleatoria de 31 personas en la ciudad de Lima.
Identificar: poblacin, muestra, unidad elemental, variable(s), tipo de variable(s),
parmetro valor estadstico y de un ejemplo de observacin.
Respuesta
Muestra: 31 personas de la ciudad de Lima
Variables
N Variables Observacin
01 Orden de preferencia del consumidor Inca Cola
02 Nmero de unidades de gaseosa consumida 10 unidades
03 Formas de presentacin del producto Botella no retornable.
16. Probabilidad (A.Prez de Vargas, V.Abraira. Bioestadstica. Centro de Estudios

Ramn Areces. Madrid. 1996.)
Intuitivamente nmero, entre 0 y 1, asociado con la verosimilitud de que ocurra un

suceso, 0 cuando estamos seguros que el suceso no va a ocurrir y 1 cuando
estamos seguros que s va a ocurrir. El problema es cmo asignar ese nmero en
situaciones de incertidumbre?
a) A veces se estima por la frecuencia relativa. P.e. una manera de aproximarnos a la

probabilidad de que una intervencin quirrgica arriesgada tenga xito es consultar
el registro de las intervenciones quirrgicas realizadas sobre pacientes similares, si
de las ltimas 10, ha sido un xito en 8, la frecuencia relativa es 8/10=0,8 se
parecer a esa probabilidad.
La frecuencia relativa cambia, en el ejemplo anterior si el registro, en lugar de 10

pacientes, tuviera 11, la frecuencia relativa sera necesariamente distinta (8/11
9/11), pero hay una ley emprica que establece que cuando el nmero de ensayos
(pacientes, en el ejemplo) es suficientemente grande, la frecuencia relativa se
estabiliza. A veces, se define la probabilidad como el lmite de la frecuencia relativa.
Cmo saber, en cada caso, si el nmero de ensayos es suficientemente grande?
Una parte de la estadstica tiene que ver con este problema.
87
La grfica muestra la evolucin de la frecuencia relativa del resultado cara 1 en 4

series de 100 tiradas de un dado.
Se observa que la frecuencia relativa oscila, que la amplitud de las oscilaciones va

decreciendo a medida que aumenta el nmero de tiradas y que todas las series
tienden a estabilizarse a la misma altura, tambin que 100 no es un nmero
suficientemente grande para que la frecuencia relativa ya est estabilizada (los
valores finales de las 4 series varan entre 0,17 y 0,21).
b) Hay situaciones en que se puede calcular: si todos los resultados del experimento
son igualmente probables, entonces la probabilidad se define (definicin clsica o de
Laplace) como el cociente entre el nmero de casos favorables y el nmero de
casos totales.
La probabilidad de que el resultado de tirar un dado sea un uno, se calculara de

esta forma.
17. Formalizacin de la probabilidad

Experimento Aleatorio: experimento que puede ser repetido bajo las mismas
condiciones, del que puede establecerse el conjunto de sus posibles resultados,
pero no predecir un resultado concreto.
Espacio muestral: conjunto de posibles resultados.
Punto muestral: elemento del espacio muestral.
Suceso: cualquier subconjunto del espacio muestral.
17. Definicin axiomtica de probabilidad
88
Sea : espacio muestral, P() conjunto de las partes de o conjunto de

sucesos, o lgebra de sucesos. Se define probabilidad, o funcin de probabilidad, a
cualquier funcin p: P() (es decir, una regla bien definida por la que se asigna a
cada suceso un, y un solo un, nmero real) que cumpla los axiomas siguientes:
i) p(A) 0 A P()
ii) p(A1 A2 A3 ...) = p(A1) + p(A2) + p(A3) + ...
si Ai Aj = i j (sucesos mutuamente excluyentes)
iii) p() = 1
A la estructura (, P(), p) se le denomina espacio de probabilidad.
Establecer claramente el espacio de probabilidad ser el primer paso imprescindible

para estudiar una experiencia aleatoria. Muchas de las dificultades que surgen, en la
prctica, en el anlisis estadstico de investigaciones clnicas tienen que ver con el
establecimiento implcito y defectuoso de este espacio.
Obsrvese que es necesario asignar un nmero a todos los sucesos, no slo a los
sucesos elementales, pero si se ha asignado la probabilidad a los sucesos
elementales, a travs de la propiedad ii) se puede asignar a todos los dems.
Ejemplo:
Un 15% de los pacientes atendidos en un hospital son hipertensos, un 10% son

obesos y un 3% son hipertensos y obesos. Qu probabilidad hay de que elegido un
paciente al azar sea obeso o hipertenso?
A = {obeso} B = {hipertenso}
A B = {hipertenso y obeso}
A B = {obeso o hipertenso}
p(A) = 0,10; p(B) = 0,15; p(A B) = 0,03
p(A B) = 0,10 + 0,15 - 0,03 = 0,22
Probabilidad condicionada
Como la probabilidad est ligada a nuestra ignorancia sobre los resultados de la
experiencia, el hecho de que ocurra un suceso, puede cambiar la probabilidad de los
dems. El proceso de realizar la historia clnica, explorar y realizar pruebas
89
complementarias ilustra este principio.
La probabilidad de que ocurra el suceso A si ha ocurrido el suceso B se denomina

probabilidad condicionada y se define
Esta definicin es consistente, es decir cumple los axiomas de probabilidad.

Cuando ocurre un suceso cambia el espacio muestral, por eso cambia la
probabilidad. A veces es ms fcil calcular la probabilidad condicionada teniendo en
cuenta este cambio de espacio muestral.
Ejemplo
Se sabe que el 50% de la poblacin fuma y que el 10% fuma y es hipertensa. Cul
es la probabilidad de que un fumador sea hipertenso?
A = {ser hipertenso} B = {ser fumador}
A B = {ser hipertenso y fumador}
p(A|B) = 0,10/0,50 = 0,20
Obsrvese que los coeficientes falso-positivo y falso-negativo de las pruebas
diagnsticas son probabilidades condicionadas.
La frmula anterior se puede poner p(A B) = p(B) p(A|B) = p(A) p(B|A)
llamada regla de la multiplicacin, que se puede generalizar a ms sucesos
p(A1 A2 A3) = p((A1 A2) A3) = p(A1 A2) p(A3|A1 A2) = p(A1) p(A2|A1) p(A3|A1
A2)
En general p(A1 A2 A3 ...) = p(A1) p(A2|A1) p(A3|A1 A2) ...
llamado principio de las probabilidades compuestas y especialmente til para
aquellas situaciones en que las probabilidades condicionadas son ms fciles de
obtener que las probabilidades de las intersecciones.
Ejemplo
Se sabe por estudios previos que el 0,1% de la poblacin tiene problemas
vasculares. Un estudio sobre individuos con problemas vasculares revela que el
20% de ellos son placas de ateroma. Si el 10% de los individuos con placas de
ateroma estn expuestos a muerte sbita por desprendimiento de trombos qu
probabilidad tiene un individuo cualquiera de estar expuesto a muerte sbita por
desprendimiento de trombos de una placa de ateroma?
A1 = {problemas vasculares}; A2 = {placas de ateroma}; A3 = {expuesto a muerte
sbita por ....}
p(A1) = 0,001; p(A2|A1) = 0,20; p(A3|A1 A2) = 0,1
p(A1 A2 A3) = 0,001 x 0,20 x 0,1 = 0,000002
Ejemplo :
90
Una urna contiene 10 bolas, de las cuales 3 son rojas, 5 verdes y 2 azules. Se
extraen al azar 3 bolas. Calcular la probabilidad de que la primera sea azul, y las
otras dos verdes.
Definimos A1 = {la 1 bola es azul}; A2 = {la 2 bola es verde}; A3 = {la 3 bola es
verde}
p(A1) = 2/10 aplicando la definicin clsica de probabilidad, puesto que hay 10 bolas
y 2 son verdes.
p(A2|A1) = 5/9; si la primera bola extrada es azul, en la urna quedan 9 bolas, 5 de
ellas verdes.
p(A3|A1 A2) = 4/8; si la primera bola extrada es azul y la segunda verde en la urna
quedan 8 bolas, 4 de ellas verdes.
p(A1 A2 A3) = 2/10 x 5/9 x 4/8 = 1/18
18. Sucesos independientes

Dos sucesos son independientes si y slo si p(A B) = p(A) p(B).
Si dos sucesos son independientes
y del mismo modo p(B|A) = p(B).
Esta propiedad coincide ms con la idea intuitiva de independencia y algunos textos

la dan como definicin. Hay que notar, sin embargo, que ambas definiciones no son
estrictamente equivalentes.
Ejemplo:
Para un hijo de una mujer portadora de Duchenne, el sexo y la enfermedad son
independientes?
Segn vimos en el Ejemplo 3 el espacio muestral es = {xX, xY, XX, XY}
Definimos los sucesos A = {varn} = {xY, XY}; B = {enfermo} = {xY}
A B = {xY}
por lo tanto p(A) = 0,5; p(B) = 0,25; p(A B) = 0,25 p(A) p(B) NO son
independientes.
Regla de la probabilidad total

Se llama particin a conjunto de sucesos Ai tales que
A1 A2 ... An = y Ai Aj = i j
es decir un conjunto de sucesos mutuamente excluyentes y que cubren todo el
espacio muestral
91
Regla de la probabilidad total: Si un conjunto de sucesos A i forman una particin del

espacio muestral y p(Ai) 0 Ai, para cualquier otro suceso B se cumple
Ejemplo :
La prevalencia de infarto cardaco para hipertensos es del 0,3% y para no
hipertensos del 0,1%. Si la prevalencia de hipertensin en una cierta poblacin es
del 25% Cul es la prevalencia del infarto en esa poblacin?
A1 = {ser hipertenso} A2 = {no serlo} estos sucesos constituyen una particin
B = {padecer infarto}
datos: p(B|A1) = 0,003; p(B|A2) = 0,001; p(A1) = 0,25
evidentemente p(A2) =0,75 por la
p(B) = 0,003x0,25 + 0,001 x 0,75 = 0,0015
19. Teorema de Bayes

Si los sucesos Ai son una particin y B un suceso tal que p(B) 0
Si representamos por x el gen alterado y por X el gen normal, el espacio muestral

para el nacimiento de la mujer ={xX, XX}, cada suceso elemental con la misma
probabilidad (1 ley de Mendel). Por tanto, si A = {xX} = {la mujer es portadora}.
92
Segn la definicin clsica de probabilidad p(A) = .

Si la mujer fuera portadora, los posibles genotipos para sus hijos son xX, xY, XX, XY,
todos con la misma probabilidad. El espacio muestral para el nacimiento de un hijo
varn es ={xY, XY}, por tanto la probabilidad de que un hijo varn no tenga la
enfermedad es (tambin segn la definicin clsica). Cmo los genotipos de los
sucesivos hijos son independientes (2 ley de Mendel), y de acuerdo a la definicin
de independencia, la probabilidad de que los 3 hijos varones no tengan la
enfermedad es (1/2)x(1/2)x(1/2) = 1/8. Obviamente si la mujer no fuera portadora, la
probabilidad de que los 3 hijos varones no tengan la enfermedad es 1. Como el
suceso A = {la mujer es portadora} y su complementario A c = {la mujer no es
portadora} forman una particin, se puede aplicar el teorema de Bayes en relacin
con el suceso B = {los 3 hijos varones no tienen la enfermedad}
2 Una prueba diagnstica para el cncer uterino tiene un coeficiente falso-positivo

de 0,05 y falso-negativo de 0,10. Una mujer con una probabilidad pre-prueba de
padecer la enfermedad de 0,15 tiene un resultado negativo con la misma. Calcular la
probabilidad de que no est enferma.
Solucin
Sea NE = {la mujer no est enferma}, + = {el resultado de la prueba es positivo} y - =

{el resultado de la prueba es negativo}. La pregunta pide p(NE|-). Los datos que se
dan son p(+|NE)=0,05; p(-|E)=0,10 y p(E)=0,15. Del primero se deduce que p(-|
NE)=0,95 y del ltimo p(NE)=0,85, por lo tanto aplicando el teorema de Bayes
20. Correlacin y modelos de regresin lineal

Generalizacin del concepto de fdp a variables multidimensionales
(V.Abraira,A. Prez de Vargas 1996)
La funcin densidad de probabilidad (fdp) para una variable aleatoria es una funcin
a partir de la cual se puede calcular la probabilidad de los distintos valores de la
variable.
En el caso discreto:
en el caso continuo:
93
Esto se puede generalizar a ms de una variable. Para n variables aleatorias X1,

X2, ..., Xn se llama fdp conjunta a una funcin n-dimensional f(x 1,x2,...,xn) a partir de la
cual se puede calcular la probabilidad de los distintos valores de las variables.
En el caso discreto:
en el caso continuo:
Del mismo modo que en el caso unidimensional estas funciones estn sometidas a
las condiciones:
discreta
continua
Ejemplo 1: En una cierta poblacin se definen dos variables discretas: X1=

hipertensin arterial y X2= consumo excesivo de sal, ambas con los valores 0=no y
1=s. La fdp conjunta podra ser
X1
X2 0 1
0 0,4 0,1
1 0,3 0,2
f(0,0)=0,4 quiere decir que la probabilidad de que un individuo no sea hipertenso

(X1=0) y no tenga un consumo excesivo de sal (X 2=0) es 0,4. Obsrvese que la suma
de los valores de la fdp es 1.
A partir de esta fdp se puede calcular p.e. la probabilidad de que un individuo sea
hipertenso como 0,1+0,2=0,3.
En general dada una fdp conjunta (para simplificar la notacin consideremos slo
dos variables X e Y) se pueden calcular las denominadas fdp marginales como
Caso discreto
Caso continuo
y simtricamente para la variable Y.
En el ejemplo anterior:
X1
X1 0 1 f2(X2)
0 0,4 0,1 0,5
94
1 0,3 0,2 0,5

f1(X1) 0,7 0,3
Se definen tambin las fdp condicionadas
que permiten calcular las respectivas probabilidades condicionadas.

En el ejemplo anterior se puede construir, p.e., la fdp de la hipertensin (X1)
condicionada al consumo no excesivo de sal (X2=0).
X1
0 0,4/0,5=0,8
1 0,1/0,5=0,2
Obsrvese que como esto es una fdp, la suma de sus valores debe ser 1.
0,8 es la probabilidad de que un individuo no sea hipertenso dado que no tiene un
consumo excesivo de sal.
22. Independencia de dos variables aleatorias

Dos v.a. X e Y se dice que son estocsticamente independientes si y slo si
f(x,y)=f1(x).f2(y). En caso contrario se dice que estn correlacionadas.
Son independientes las variables del ejemplo anterior? Como f1(0)=0,7 y f2(0)=0,5
f1(0). f2(0)=0,35 no es igual a f(0,0)=0,4 no son independientes.
Segn la definicin de fdp condicionada, si X e Y son independientes
Que coincide ms con la idea intuitiva de independencia.

Cundo diramos que la hipertensin es independiente del consumo de sal?
Cuando la probabilidad de ser hipertenso es la misma en los consumidores de sal:
f(x1|X2=1), en los no consumidores: f(x1|X2=0) y en la poblacin general: f1(x1).
En el ejemplo, la probabilidad de ser hipertenso en la poblacin general f 1(1)=0,3 y
en los consumidores de sal f(X 1=1|X2=1)=0,2/0,5=0,4 por lo tanto tampoco son
independientes desde esta perspectiva (evidentemente, ya que ambas son
equivalentes).
Diramos que el consumo de sal y la hipertensin estn correlacionados o
asociados, o que la hipertensin depende del consumo de sal o, en terminologa
epidemiolgica, que el consumo de sal es un factor de riesgo para la hipertensin.
En cualquier caso, la correlacin no implica dependencia causal.
95
El problema, en la prctica, es que no se suelen conocer las fdps. A partir de una

muestra slo se puede obtener una estimacin de la misma, adems tambin se
desean obtener estimaciones de la fuerza de la asociacin.
Los modelos de regresin son modelos matemticos de dependencia entre variables
que permiten resolver ambos problemas. Hay tantos modelos como funciones
matemticas de dependencia se puedan concebir, los ms usados son lineal,
polinmico, logstico, de Poisson.
23. Funcin lineal

Se llama funcin lineal de una
variable, a una funcin de la forma
0: ordenada en el origen (valor de

Y cuando X=0)
1: pendiente (cambio de Y al
aumentar X en 1)
24. Modelo de regresin lineal simple

Es un modelo de regresin lineal entre dos variables
es un modelo probabilstico, que tambin se puede escribir
A la variable Y se la denomina variable dependiente y a X independiente.

Modelo I de regresin lineal se asume que
i) X no es una variable aleatoria.
ii) para cada valor xi de X existe

una v.a. Y|xi cuya media est dada
por el modelo.
iii) todas las variables Y|x i son

normales, independientes y con
igual varianza.
Ejemplo 2: Se quiere estudiar la asociacin entre consumo de sal y tensin arterial.

A una serie de voluntarios se les administra distintas dosis de sal en su dieta y se
mide su tensin arterial un tiempo despus.
96
Variable X: gr. de sal diarios (no aleatoria)

Variable Y: presin arterial en mm. de Hg
asumimos que para cada valor de X, Y no est determinada, sino que
0 presin arterial media de los que no toman nada de sal.

1 cambio de la media de presin arterial por aumentar 1 gr el consumo de sal,
asumiendo que es constante. Si fuera 0, quiere decir que la presin no cambia con
el consumo de sal, por tanto ambas variables son independientes, un valor distinto
de cero indica que estn correlacionadas y su magnitud mide la fuerza de la
asociacin.
A partir de una muestra aleatoria, la teora estadstica permite:
i) estimar los coeficientes i del modelo (hay dos procedimientos: mnimos
cuadrados y mxima verosimilitud que dan el mismo resultado).
ii) estimar la varianza de las variables Y|x i llamada cuadrados medios del error y
representada por s2 o MSE. A su raz cuadrada se le llama error estndar de la
estimacin.
iii) conocer la distribucin muestral de los coeficientes estimados, tanto su forma (t)
como su error estndar, que permite hacer estimacin por intervalos como
contrastes de hiptesis sobre ellos.
Ejemplo 3 : Para el diseo del ejemplo 2 una muestra produce los siguientes datos:
X (sal) Y (Presin)
1,8 100
2,2 98
3,5 110
4,0 110
4,3 112
5,0 120
La salida de un paquete estadstico es:
86,371 presin arterial media sin nada de sal.

6,335 aumento de presin por cada gr de sal; como es distinto de 0 indica
correlacin. La pregunta es podra ser 0 en la poblacin? En trminos de
contrastes de hiptesis
97
H0 : 1 = 0
H1 :1 0
segn iii)
aqu t=7,546 con un valor p=0,002
se rechaza H0.
Para hacer estimacin por intervalos de la fuerza de la asociacin o el efecto
en este ejemplo para 1 al 95%

6,335 2,776x0,840 = (4,004 8,666)
y del mismo modo se ha calculado en la salida anterior, aunque en general tiene
menos inters, para 0
Interpretacin del contraste 1 = 0
Si no se puede rechazar esta hiptesis, puede ocurrir que:
i) el modelo sea inapropiado, bien porque las variables son independientes, bien
porque la dependencia no sea lineal. Hay que investigar otros modelos.
ii) se cometa error tipo II, el modelo es adecuado, pero el tamao de la muestra es
insuficiente. Hay que calcular la potencia.
Si se rechaza la hiptesis puede ocurrir que:
i) el modelo es adecuado
ii) se cometa error tipo I
iii) exista una relacin no lineal, pero los datos son compatibles con un modelo lineal.
Anlisis de residuos.
25. Inferencias sobre la regresin

A veces interesa hacer inferencias sobre la propia regresin, es decir sobre Y|xi para
cualquier valor de xi. Si a los valores xi de la muestra se les aplica la ecuacin
estimada, se obtiene una estimacin de Y|xi
cuya distribucin muestral tambin es conocida. A veces se representan los

intervalos de confianza para la regresin en la denominada banda de confianza de
la regresin. En la figura se presenta la banda de confianza para los datos del
ejemplo 3
98

Es un modo alternativo de hacer contrastes sobre el coeficiente 1. Consiste en
descomponer la variacin de la variable Y de dos componentes: uno la variacin de
Y alrededor de los valores predichos por la regresin y otro con la variacin de los
valores predichos alrededor de la media. Si no existe correlacin ambos estimadores
estimaran la varianza de Y y si la hay, no. Comparando ambos estimadores con la
prueba de la F se contrasta la existencia de correlacin. Para el ejemplo 3
Observese que el valor de p es igual que antes (son contrastes equivalentes) y el

valor de F es el cuadrado del de t.
Ejemplo 4: Se quiere investigar el efecto de la ingestin masiva de vitamina C sobre

el hgado de las cobayas. Se eligen dos grupos de 4 cobayas, a uno se le administra
99
y al otro no. Se sacrifica a los animales y se mide la concentracin de lpidos en el

hgado.
Grupo controlTratado
(=0) (=1)
23,8 13,8
15,4 9,3
21,7 17,2
18,0 15,1
Hay diferencia entre ambos grupos?

Se podra plantear un contraste sobre medias con la t de Student.
Tambin se puede plantear un modelo de regresin entre la variable grupo (X=0

control y X=1 tratado) y la variable lpido (Y)
100
Interpretar los coeficientes Qu es mejor?
27. Modelo II de regresin lineal

Se asume que las variables X e Y son ambas variables aleatorias y que su fdp
conjunta es normal bivariante.
La normal bivariante es una
extensin a dos dimensiones
de la normal univariante. Su
representacin grfica es una
campana tridimensional.
Depende de 5 parmetros: x,
y, x, y y que son
respectivamente las medias,
las desviaciones tpicas de X e
Y, y su coeficiente de
correlacin. Dicho coeficiente
se define como
28. Siendo el numerador la llamada covarianza
Las propiedades de la normal bivariante son:

i) las fdps marginales son ambas normales con medias x, y y desviaciones tpicas
x, y respectivamente.
ii) las fdps condicionadas f(y|x) son tambin normales con medias y varianzas
101
obsrvese que la media depende linealmente de x, es decir, tambin se puede

escribir
iii) simtricamente las fdps f(x|y)

A partir de una muestra aleatoria se pueden estimar los coeficientes por los mismos
procedimientos que en el modelo I y se obtienen los mismos resultados!! Ahora, sin
embargo, tambin se obtiene un estimador para el coeficiente de correlacin (la
famosa r) que no tiene sentido en el modelo I.
29. Propiedades del coeficiente de correlacin

i) nmero sin dimensiones entre -1 y 1.
ii) si las variables son independientes =0. La inversa no es necesariamente cierta,
aunque si las variables son normales bivariantes s.
iii) si las variables estuvieran relacionadas linealmente =1
Un contraste que interesa realizar en un modelo II es H 0: =0. Como
este contraste es totalmente equivalente al realizado sobre dicho coeficiente, aunque

tambin hay tablas basadas en que una cierta transformacin (de Fisher) de r se
distribuye aproximadamente como una normal.
Qu mide r?
Se puede demostrar una relacin algebraica entre r y el anlisis de la varianza de la
regresin de tal modo que su cuadrado (coeficiente de determinacin) es la
proporcin de variacin de la variable Y debida a la regresin. En este sentido, r2
mide el poder explicatorio del modelo lineal.
Qu no mide r?
no mide la magnitud de la pendiente (fuerza de la asociacin)
102
tampoco mide lo apropiado del modelo lineal
30. Potencia de los contrastes en regresin

Los contrastes se realizan en base al conocimiento de la distribucin muestral del
estadstico usado. En el caso de la regresin, las distribuciones usadas son la
normal (para r) y la t de Student (para los coeficientes). Slo para la normal es fcil
el clculo de la potencia, pero sabemos que la t tiende asintticamenta (para
muestras grandes (>30 en la prctica) a la normal. Usaremos esto.
1- = p(rechazar Ho| Ho falsa)
Supongamos que
asumamos normalidad qu potencia tiene el contraste si 1 fuera 5 (recordar que

se necesita concretar H1)?
Cundo rechazamos H0 al 95%?
Cuando
en nuestro caso mayor que 4,92. Como no lo es, no rechazamos H 0. Hay que
calcular la probabilidad de encontrar
103
si 1 fuera 5. Calculamos
y lo miramos en la tabla de la normal 1- =0,512=51,2%
31. Modelo de regresin lineal mltiple

Las variables biolgicas suelen presentar multicorrelaciones. P.e. para estudiar el
efecto del consumo de grasas saturadas en el nivel del colesterol en sangre, se
puede plantear un modelo de RLS, sin embargo el nivel de colesterol puede
depender tambin de otras variables: consumo de otras substancias, ejercicio
realizado, edad, factores metablicos genticos, etc.
Si, para cada valor del consumo de grasas, las dems variables se distribuyen
aleatoriamente, la estimacin por RLS es adecuada y la variacin debida a las
otras variables estara incluida en la variacin aleatoria alrededor de la regresin,
pero en caso contrario la estimacin sera incorrecta, si p.e., las costumbres
dietticas variaran con la edad y sta influyera en el colesterol, una parte no
cuantificada de la variacin del colesterol que el modelo atribuye al consumo de
grasas sera debida a la edad.
La regresin lineal mltiple (RLM) es un modelo que permite estudiar estos efectos.
El modelo es
0: media de Y cuando todas las Xi son cero (cuando no tiene sentido Xi=0, p.e.
edad, se interpreta como la media de Y que no depende de las Xi).
i: cambio en la media de Y cuando Xi aumenta una unidad permaneciendo
constantes las dems.
Las asunciones del modelo son una generalizacin de las de RLS y dado el
resultado de RLS no vamos a distinguir entre modelo I y II.
La estimacin de los coeficientes tambin se hace por mnimos cuadrados o mxima
verosimilitud y se obtienen los mismos resultados. Estos resultados, usando
notacin matricial, son (incluyen como caso particular la RLS):
siendo la matriz columna de coeficientes estimados, Y la matriz columna de

observaciones de la variable dependiente y X la denominada matriz de diseo
es decir la matriz de datos con una primera columna de 1s. Estos coeficientes se
distribuyen como una normal multivariante cuya matriz de medias son los
verdaderos coeficientes y matriz de varianzas-covarianzas
104
un buen estimador de 2 es
que se distribuye como una 2 con n - (k+1) grados de libertad.

Estas frmulas ponen de manifiesto unas limitaciones al resolver estos modelos.
Para ello hay que invertir una matriz y no todas las matrices pueden invertirse
(singulares). En dos situaciones no se puede:
El nmero de observaciones (n), es menor o igual que el nmero de variables
independientes (k).
Una variable independiente es combinacin lineal de otra(s) o constante
(colinealidad ).
31. Estimacin y contrastes de hiptesis:
Usando la los intervalos de confianza para los coeficientes se construyen igual que
en RLS.
y los contrastes de hiptesis

H0: I = 0
H1: i 0
se realizan con el estadstico
Ejemplo 5
Dada una muestra hipottica de 20 pacientes en los que se ha recogido los
siguientes datos: nivel de colesterol en plasma sanguneo (en mg/100 ml), edad (en
aos), consumo de grasas saturadas (en gr/semana) y nivel de ejercicio
(cuantificado como 0: ningn ejercicio, 1: ejercicio moderado y 2: ejercicio intenso),
realizar el ajuste a un modelo lineal entre el nivel de colesterol y las dems variables.
Tabla de datos
Paciente Colesterol Edad Grasas Ejerci.
1 350 80 35 0
2 190 30 40 2
3 263 42 15 1
4 320 50 20 0
5 280 45 35 0
6 198 35 50 1
7 232 18 70 1
8 320 32 40 0
9 303 49 45 0
10 220 35 35 0
11 405 50 50 0
12 190 20 15 2
105
13 230 40 20 1
14 227 30 35 0
15 440 30 80 1
16 318 23 40 2
17 212 35 40 1
18 340 18 80 0
19 195 22 15 0
20 223 41 34 0
La salida del programa de ordenador es
Interpretemos esta salida

De un modo se puede descomponer la variacin de la variable Y de dos
componentes: uno la variacin de Y alrededor de los valores predichos por la
regresin y otro con la variacin de los valores predichos alrededor de la media. Si el
modelo lineal no es adecuado, ambos estimadores estimaran la varianza de Y y si
es adecuado no. Comparando ambos estimadores con la prueba de la F se
contrasta lo adecuado del modelo.
Obsrvese que, a diferencia de la RLS, este contraste no es equivalente al realizado

sobre los coeficientes.
106
Se define tambin el coeficiente de determinacin como el cociente entre la suma de

cuadrados de la regresin y la suma de cuadrados total (R2 = SSR/SST) y a su raz
cuadrada se le denomina coeficiente de correlacin mltiple.
Adems de esta prueba global del modelo basada en el anlisis de la varianza, se

pueden plantear pruebas parciales sobre si una variable, o un grupo de variables,
aadidas a un modelo previo lo mejoran.
Se tiene un modelo
y se aade una nueva variable X*, con el primer modelo se tiene una SSR(Y,X1,...,Xk)
y con el nuevo otra SSR(Y,X1,...,Xk,X*), la diferencia entre ambas ser lo que ha
mejorado la suma de cuadrados por aadir la variable X* y tendr 1 grado de
libertad.
SSR(Y,X*|X1,...,Xk) = SSR(Y,X1,...,Xk,X*) - SSR(Y,X1,...,Xk) = SSE(Y,X1,...,Xk) -
SSE(Y,X1,...,Xk,X*)
y el cociente
llamado F parcial, tendr una distribucin F con 1 y n-(k+2) grados de libertad en la

hiptesis nula de que la nueva variable X* no mejore el modelo. Evidentemente este
contraste es totalmente equivalente a contrastar que el coeficiente * de la nueva
variable es cero con la prueba basada en la t.
Del mismo modo, si al modelo original se le aaden p variables X1*,...,Xp*, se puede
definir
SSR(Y,X1*,...,Xp*|X1,...,Xk) = SSR(Y,X1,...,Xk,X1*,...,Xp*) - SSR(Y,X1,...,Xk) =
SSE(Y,X1,...,Xk) - SSE(Y,X1,...,Xk,X1*,...,Xp*)
que tiene p grados de libertad, y el cociente
se distribuye como una Fp,n-(k+p+1) en la hiptesis nula de que las nuevas p variables
X1*, ..., Xp* no mejoren el modelo con respecto a las k variables originales y permite
contrastar dicha hiptesis.
Ejemplo 6
Con los datos del ejemplo 5, realizar el contraste de la F parcial para aadir la
variable ejercicio a un modelo que slo contenga la edad y las grasas consumidas.
107
La tabla de anova correspondiente al modelo con EDAD y GRASAS es
Por lo tanto, comparando esta tabla con la del modelo completo

SSR(COLEST,EJERC|GRASAS,EDAD) =
SSR(COLEST,GRASAS,EDAD,EJERC) - SSR(COLEST,GRASAS,EDAD) =
49275,94 - 48940,18 = 335,76
por tanto Fpar=335,76/3381,83=0,099
que se distribuye como una F1,16. Como F0,05(1,16) = 4,49 no se puede rechazar la
hiptesis de que EJERC no mejora el modelo. Obsrvese que esta F par es
exactamente el cuadrado del valor de t correspondiente al coeficiente de EJERC en
el modelo con las tres variables independientes.
Variables indicadoras (dummy)

En los modelos de RLM la linealidad se asume. Esto, p.e. para la variable Ejercicio
del ejemplo anterior, quiere decir que el efecto sobre el colesterol de hacer ejercicio
intenso (EJERC=2) con respecto a no hacerlo (EJERC=0) es el doble que el del
ejercicio moderado (EJERC=1).
Es razonable esta asuncin? y para la variable FUMA codificada como 0: no
fuma, 1:fumador y 2:ex-fumador?
Una solucin podra ser crear tantas variables como categoras. No sirve porque
seran combinacin lineal y el modelo es irresoluble.
La solucin es crear tantas variables como categoras menos 1 (en los ejemplos
anteriores
108
2) denominadas variables indicadoras con el siguiente esquema

X1 X2
No-fumador 0 0
Fumador 1 0
Ex-fumador 0 1
Las variables X1 y X2 ya no son combinacin lineal y, por tanto, el modelo es

resoluble. El modelo quedara
0 es Y cuando X1 y X2 son ambas cero, es decir, para los no-fumadores; 0 + 1

es Y cuando X1 es 1 y X2 es 0, es decir fumadores, por lo tanto
1 es lo que cambia Y entre fumadores y no-fumadores y del mismo modo
2 es lo que cambia Y entre ex-fumadores y no-fumadores.
Con este esquema de codificacin los coeficientes tienen una clara interpretacin
cuando, como en este caso, una de las categoras (no-fumador) se quiere usar como
referencia para las dems.
A dicha categora se le asigna el valor cero para todas las variables indicadoras. Sin
embargo, para variables en las que no haya una categora que sea natural usarla
como referencia, por ejemplo genotipos, lugar de residencia, etc., es ms til otro
esquema de codificacin. Para discutirlo supngase la variable lugar de residencia
con cuatro lugares: A, B, C y D. Se crearn tres variables indicadoras (siempre una
menos que categoras) con el siguiente esquema
X1 X2 X3
A -1 -1 -1
B 1 0 0
C 0 1 0
D 0 0 1
El modelo quedar
y por lo tanto
Y = 0 - 1 - 2 - 3 = Y|A para los residentes en A
Y = 0 + 1 = Y|B para los residentes en B
Y = 0 + 2 = Y|C para los residentes en C
Y = 0 + 3 = Y|D para los residentes en D
si se suman las 4 ecuaciones:
0 = ( Y|A + Y|B + Y|C + Y|D)/4 por lo tanto
0 es la media de Y en los cuatro lugares de residencia
1 la diferencia de los residentes en B con respecto a la media
2 la diferencia de los residentes en C con respecto a la media y
3 la diferencia de los residentes en D con respecto a la media y, evidentemente, -
1 - 2 - 3 la diferencia de los residentes en A con respecto a la media. De modo
que a diferencia del esquema anterior, se usa como nivel de referencia la media en
todas las categoras en lugar de una de ellas.
109
Otro posible esquema de codificacin que a veces se usa en la literatura es

X1 X2 X3
A 1 1 1
B 0 1 1
C 0 0 1
D 0 0 0
y queda para el lector, a modo de ejercicio, la interpretacin de los coeficientes de
regresin en este caso.
Conviene destacar que estas variables indicadoras no tienen ningn sentido por s
solas y por, lo tanto, deben figurar en los modelos y se debe contrastar su inclusin
siempre en bloque, usando la F del modelo completo si slo estn dichas variables
en el modelo, o la F parcial correspondiente a las mismas si hay ms variables.
Ejercicio propuesto : Para los datos del Ejemplo 5, crear dummys para el ejercicio
(con qu esquema?) y contrastar (con la F parcial) si estas variables mejoran el
modelo que slo contiene edad y grasas. Interpretar los coeficientes.
Ejemplo 7: Considrense los siguientes datos, procedentes de una muestra
hipottica, sobre presin arterial en cm de Hg y status de fumador, codificado como
0: no-fumador, 1: fumador y 2: ex-fumador. Discutir el modelo de regresin entre
presin arterial y status de fumador y estimar por intervalos la presin arterial
media segn el status de fumador, a partir de los resultados del modelo ms
adecuado.
Paciente Presin arte. Fumador

1 15,0 0
2 19,0 2
3 16,3 1
4 22,0 1
5 18,0 2
6 19,8 0
7 23,2 1
8 14,4 0
9 20,3 2
10 22,0 1
11 20,5 2
12 19,0 2
13 12,7 0
14 14,0 0
15 11,8 0
16 11,2 2
17 14,0 0
18 19,5 1
19 22,3 1
20 15,0 0
21 12,6 2
110
22 16,4 0
23 13,5 2
24 13,7 1
Los resultados de un modelo entre presin arterial y status de fumador tal y como
est codificado en la tabla son:
En este caso de una nica variable independiente, el contraste sobre el modelo

global con la F es equivalente al realizado con la t sobre el coeficiente 1 y con
ninguno se puede rechazar la hiptesis nula (p=0,250) de no dependencia. Es decir,
analizado de este modo no hay dependencia entre ambas variables.
Si se crean dos variables indicadoras (FUMA y EX_FUMA) con el primer esquema
discutido antes la tabla de datos queda
PACIEN PRE_AR FUMADORFUMA EX_FUMA
1 15.0 0 0 0
2 19.0 2 0 1
3 16.3 1 1 0
4 22.0 1 1 0
5 18.0 2 0 1
6 19.8 0 0 0
7 23.2 1 1 0
8 14.4 0 0 0
9 20.3 2 0 1
10 22.0 1 1 0
11 20.5 2 0 1
12 19.0 2 0 1
13 12.7 0 0 0
14 14.0 0 0 0
15 11.8 0 0 0
16 11.2 2 0 1
17 14.0 0 0 0
18 19.5 1 1 0
19 22.3 1 1 0
111
20 15.0 0 0 0
21 12.6 2 0 1
22 16.4 0 0 0
23 13.5 2 0 1
24 13.7 1 1 0
y el modelo entre PRE_AR y FUMA y EX_FUMA
Para contrastar si la presin arterial depende del status de fumador, deber usarse
el contraste basado en la F (p=0,018) y por lo tanto al nivel de significacin habitual
=0,05 se rechaza la hiptesis nula de no dependencia. A pesar de que el
coeficiente para EX_FUMA no es significativamente distinto de 0 (p=0,220), se
mantiene en el modelo porque FUMA no tiene sentido por s sola.
Obsrvese que usando las variables indicadoras se ha encontrado una dependencia
que antes no se haba puesto de manifiesto, debido a la falta de linealidad para los
cdigos usados.
La estimacin puntual de la presin arterial media de los no-fumadores ( 0 en el
modelo) es 14,789 con un error estndar estimado de 1,07 y, como t 0,025(21) = 2,08, su
intervalo de confianza al 95% es 14,789 2,08x1,07 = (12,563 17,014).
La estimacin del aumento medio de la presin arterial en los fumadores ( 1) es
5,068 que es significativamente distinto de cero (p=0,005) y la estimacin del
aumento medio de la presin arterial en los ex-fumadores ( 2) es 1,974 pero no es
significativamente distinto de cero (p=0,220).
Para realizar la estimacin por intervalos de la presin media en fumadores ( 0+ 1)
y ex-fumadores (0 + 2) se necesita estimar sus respectivas varianzas
112
var(0 + 1) = var( 0) + var( 1) + 2cov( 0 , 1) = 1,145 + 2,618 - 2 x 1,145 = 1,473

EE(0 + 1) = 1,214
var(0 + 2) = var( 0) + var( 2) + 2cov( 0 , 2) = 1,145 + 2,434 - 2 x 1,145 = 1,289
EE(0 + 2) = 1,135
Por lo tanto los intervalos de confianza al 95% para la presin arterial media de
fumadores y ex-fumadores son fumadores: (14,789+5,068) 2,08x1,214 = (17,332
22,382)
ex-fumad : (14,789+1,974) 2,08x1,135 = (14,402 19,124) recordemos que para
no-fumadores se haba obtenido no fumadores : 14,789 2,08x1,07 = (12,563
17,015)
y que la diferencia entre no-fumadores y ex-fumadores no es significativa, mientras
que la diferencia entre no-fumadores y fumadores s lo es
33. Interaccin y confusin en la regresin

Los modelos de regresin pueden usarse con dos objetivos:
1) predictivo en el que el inters del investigador es predecir lo mejor posible la
variable dependiente, usando un conjunto de variables independientes y
2) estimativo en el que el inters se centra en estimar la relacin de una o ms
variables independientes con la variable dependiente. En el ejemplo desarrollado en
los apartados anteriores, el inters podra ser encontrar el modelo que mejor prediga
el nivel de colesterol en sangre, en funcin de las otras variables (objetivo 1) o
simplemente cuantificar la relacin entre el consumo de grasas y dicho nivel de
colesterol (objetivo 2).
El resultado de un modelo predictivo es el modelo mismo, mientras que en un
modelo estimativo es la estimacin del coeficiente de la variable de inters. El
segundo objetivo es el ms frecuente en estudios etiolgicos en los que se trata de
encontrar factores determinantes de una enfermedad o un proceso.
La interaccin y la confusin son dos conceptos importantes cuando se usan los
modelos de regresin con el segundo objetivo, que tienen que ver con la
interferencia que una o varias variables pueden realizar en la asociacin entre otras.
Existe confusin cuando la asociacin entre dos variables difiere significativamente
segn que se considere, o no, otra variable, a esta ltima variable se le denomina
variable de confusin para la asociacin.
Existe interaccin cuando la asociacin entre dos variables vara segn los
diferentes niveles de otra u otras variables. Aunque en una primera lectura pueden
parecer similares, conviene distinguir claramente entre ambos fenmenos. En el
ejemplo 5 la edad no presenta una correlacin significativa con el nivel de colesterol
113
si no se considera el consumo de grasas, mientras que si se considera dicho

consumo, s lo presenta, en este caso el consumo de grasas es una variable de
confusin para la asociacin entre colesterol y edad. Para que exista confusin no
es necesario que exista un cambio tan drstico (la correlacin es significativa en un
caso y no lo es en el otro), tambin puede ocurrir que, an siendo significativa en
ambos casos, cambie el coeficiente de regresin. Evidentemente la mejor estimacin
del coeficiente es la que se obtiene del modelo en que figura la variable de
confusin, en el ejemplo, la mejor estimacin del coeficiente correspondiente a la
edad es la del modelo con edad y consumo de grasas.
En el mismo ejemplo, si la asociacin entre la edad y el nivel de colesterol fuera
diferente para los individuos que realizan ejercicio que para los que no lo realizan, se
dira que, para el nivel de colesterol, existe interaccin entre la edad y el ejercicio
realizado. En este caso no existe una nica estimacin del coeficiente de la variable
de inters, sino que habra una estimacin para cada nivel de la otra variable, es
decir y en el ejemplo, una estimacin de la relacin entre el nivel de colesterol y la
edad para los individuos que realizan ejercicio y otra distinta para los que no lo
realizan.
Veamos estos conceptos sobre los modelos. El modelo ms sencillo para estudiar la
asociacin entre una variable Y y otra variable X1 es
Y = 0 + 1 X1
donde 1 cuantifica la asociacin: es el cambio en Y por unidad de cambio en X1.
Se dice que X2 es una variable de confusin para esta asociacin, si el modelo
Y = 0 + 1 X1 + 2 X2
produce una estimacin para 1 diferente del modelo anterior. Evidentemente esta
definicin se puede ampliar a un conjunto de variables, se dice que las variables
X2, ..., Xk son variables de confusin si la estimacin de 1 obtenida por el modelo
Y = 0 + 1 X1 + 2 X2 + ... + k Xk
es diferente de la obtenida en el modelo simple. En ambos casos se dice que la
estimacin de 1 obtenida en los modelos mltiples est controlada o ajustada por
X2 o por X2 ,..., Xk
Contrastar la existencia de confusin requiere, por lo tanto, comparar los
coeficientes de regresin obtenidos en dos modelos diferentes y si hay diferencia,
existe la confusin, en cuyo caso la mejor estimacin es la ajustada. Para dicha
comparacin no se precisa realizar un contraste de hiptesis estadstico ya que
aunque la diferencia encontrada sea debida al azar, representa una distorsin que la
estimacin ajustada corrige. Ser el investigador quin establezca el criterio para
decidir cuando hay diferencia. Ntese que se est hablando de diferencia en la
estimacin, que puede afectar tanto al propio coeficiente como a su error estndar
(lo habitual es considerar que existe confusin cuando el coeficiente o su error
estndar cambian en ms del 10%).
El modelo ms sencillo que hace explcita la interaccin entre dos variables X1 y X2
es
Y = 0 + 1 X1 + 2 X2 + 3 X1 X2
114
En este modelo, el valor de Y para unos valores determinados x1, x2 de X1, X2 es

Y = 0 + 1 x1+ 2 x2+ 3 x1x2
y para los valores x1 + 1 y x2
Y = 0 + 1(x1+ 1) + 2 x2+ 3 (x1+ 1) x2 = 0 + 1 x1+ 1 + 2 x2 + 3 x1x2 + 3 x2
restando ambas se encuentra el cambio en Y por una unidad de cambio en X1
manteniendo fijo X2
1 + 3 x2
que es diferente para cada valor x2 de X2. Del mismo modo, el cambio en Y por una
unidad de cambio en X2 manteniendo fijo X1 es
2 + 3 x1
Por lo tanto, contrastar la existencia de interaccin entre X1 y X2 es contrastar si el
coeficiente 3 es cero (no hay interaccin), o distinto de cero (existe interaccin).
En caso de que exista interaccin los coeficientes 1 y 2 por s solos no significan
nada y la asociacin de las variables X1 y X2 con Y estar cuantificada por las
expresiones anteriores.
Es obvio que primero debe contrastarse la interaccin y despus, en caso de que no
exista, la confusin.
Ejemplo 8
En un trabajo para estudiar la relacin de la presin arterial sistlica con el consumo
de tabaco y caf, codificadas ambas como 0: no y 1: s, se han obtenido los
siguientes datos de una muestra aleatoria hipottica
Paciente Presin arte. Tabaco Caf
1 15,0 0 1
2 11,0 1 1
3 26,3 1 0
4 13,0 1 1
5 18,0 0 1
6 19,8 1 1
7 23,2 1 0
8 14,4 0 0
9 13,3 1 1
10 12,0 1 1
11 22,5 1 0
12 23,5 1 0
13 12,7 0 1
14 14,0 0 1
15 11,8 0 0
16 21,2 1 0
17 14,0 0 0
18 15,5 1 1
19 12,3 1 1
20 15,0 0 0
21 22,6 1 0
22 16,4 0 1
23 23,5 1 0
24 13,7 1 1
115
Contrastar la existencia de interaccin y confusin y obtener la mejor estimacin por

intervalos para el efecto de ambos factores.
Para contrastar la existencia de interaccin se crea una nueva variable (TABXCA)
que sea el producto de la variables TABACO y CAFE y se hace un modelo de
regresin con las 3 variables. El resultado es
Segn la tabla de anova, el modelo completo es muy significativo (p=0,000). El

coeficiente de correlacin mltiple es muy alto, ya que la proporcin de suma de
cuadrados explicada por la regresin (R 2) es aproximadamente del 82%. El
coeficiente del trmino de interaccin es significativamente distinto de cero
(p=0,000), y aunque el del trmino del CAFE no lo sea (p=0,332) se mantiene en el
modelo en aplicacin del principio jerrquico.
Hay interaccin entre CAFE y TABACO y no puede hablarse, por lo tanto, de un
efecto del tabaco, sino que hay un efecto del tabaco para los consumidores de caf
y otro distinto para los no consumidores de caf y, del mismo modo, hay un efecto
116
del caf para los consumidores de tabaco y otro efecto para los no consumidores de
tabaco.
Vamos a estimar el efecto del tabaco.
La presin arterial media en la muestra es 16,86 y la estimacin de la presin arterial
de los no-fumadores y no consumidores de caf ( 0 ) es 13,8.
Segn vimos antes la estimacin del efecto del tabaco (cambio en la presin arterial
media por ser fumador) es para los no consumidores de caf 1 y para los
consumidores de caf1 + 3. La varianza estimada de esta ltima estimacin es
var( 1 + 3) = var(1) + var( 3) + 2cov( 1 , 3) = 1,779 + 3,251 + 2x(-1,779) =

1,472
por lo tanto EE(1 + 3) = 1,213. Como t0,025(20)= 2,086 los intervalos de confianza
estimados al 95% para el efecto del tabaco son
no consumidores de caf: 9,457 2,086x1,334 = ( 6,675 12,240)
consumidores: 9,457-10,852 2,086x1,213 = (-3,925 1,135)
para los no consumidores de caf, el tabaco aumenta la presin arterial media en
9,457 unidades y este aumento es significativamente distinto de cero, mientras que
para los consumidores de caf la disminuye en -1,395 unidades, si bien esta
disminucin no es significativamente distinta de cero (su intervalo de confianza
incluye el cero).
117
ESTADISTICA
APLICADA
PRACTICA
Jos Luis GAVE CHAGUA.
118
CONCEPTOS ESTADSTICOS IMPORTANTES
1.- Estadstica: Es la ciencia que nos proporciona un conjunto de mtodos y

procedimientos para recoleccin, clasificacin, anlisis e interpretacin de datos en
forma adecuada para tomar decisiones cuando prevalecen condiciones de
incertidumbre.
2.-Estadsticos. Termino usado para referirse al tamao de muestra, media, mnimo,

mximo, desviacin tpica, varianza, rango, suma, error tpico de la media, curtosis y
asimetra con sus errores tpicos.
La mayora de los estadsticos disponibles (incluyendo las puntuaciones z) se basan

en la teora normal y son adecuados para variables cuantitativas (medidas a nivel de
razn o de intervalo) con distribuciones simtricas (se deben evitar variables con
categoras no ordenadas o distribuciones asimtricas). La distribucin de
puntuaciones z tiene la misma forma que la de los datos originales; por tanto, el
clculo de puntuaciones z no es un remedio para los datos con problemas
3.- Estadstica Descriptiva.- Se encarga de la recoleccin, clasificacin,

presentacin y descripcin de los datos.
En el SPSS el procedimiento Descriptivo, muestra estadsticos de resumen
univariados para varias variables en una nica tabla y calcula valores tipificados
(puntuaciones z). Las variables se pueden ordenar por el tamao de sus medias (en
orden ascendente o descendente), alfabticamente o por el orden en el que se
seleccionen las variables (el valor por defecto).
Cuando se guardan las puntuaciones z, stas se aaden a los datos del Editor de
datos, quedando disponibles para los grficos, el listado de los datos y los anlisis.
Cuando las variables se registran en unidades diferentes, una transformacin de
puntuacin z pondr las variables en una escala comn para una comparacin visual
ms fcil.
4. Estadstica inferencial: Nos proporciona la teora necesaria para inferir o estimar

las leyes de una poblacin partiendo de los resultados o conclusiones del anlisis
de una muestra.
5. Poblacin: Se entiende por poblacin o universo la totalidad de individuos o

elementos en los cuales puede presentarse determinada caracterstica
susceptible de ser estudiada.
6. Muestra: Conjunto de medidas o conteos que se obtienen de alguna poblacin

con el propsito de obtener informacin acerca de ella. Al nmero de elementos
de la muestra se le denomina tamao de la muestra.
7. Dato Estadstico: Son nmeros o medidas que han sido recopilados como
resultado de observaciones, que pueden ser comparados, analizados e
interpretados. Un nmero aislado que no puede compararse o que no muestra
relacin significativa con otros nmeros no es un dato estadstico.
119
Se recomienda utilizar variables numricas despus de haberlas inspeccionado

grficamente para registrar errores, valores atpicos y anomalas de distribucin.
El procedimiento Descriptivos es muy eficaz para archivos grandes.
El SPSS tiene la opcin de determinar los valores atpicos.
8. Variable Estadstica: Es una caracterstica de la poblacin que interesa al

investigador y que puede tomar diferentes valores.
9. Escalas de Medida: La asignacin de nmeros a los elementos de una poblacin

se realiza siguiendo reglas determinadas y teniendo en cuenta los diferentes
niveles de medida de la variable en estudio. Estas escalas pueden ser:
a) Escala Nominal: cuando a todas las unidades estadsticas equivalentes
respecto de la propiedad o atributo en estudio se les hace corresponder
un mismo nmero real, que funciona slo como etiquetas. Ejemplo:
soltero (1 ), casado (2).
b) Escala Ordinal: cuando el orden de los nmeros asignados a las
unidades estadsticas refleja diferentes grados de la propiedad o atributo
en estudio. Ejemplo: orden de mrito de los alumnos de SPSS.
c) Escala Intervalar: cuando los valores asignados a las unidades
estadsticas no solo permiten que stas puedan ser ordenadas, sino que
adems, las diferencias iguales entre stos indican diferencias iguales en
la cuantificacin de las propiedades a medir. Ejemplo: las escalas de
Fahrenheit y de Celsius (centgrados) para medir la temperatura.
d) Escala de Razn: es tambin una escala intervalar, en donde adems del

cociente entre los nmeros asignados, tienen sentido el orden y las
diferencias que entre ellos se puedan establecer. Es decir, que toda
escala de razn es intervalar y ordinal. Ejemplo: sueldo, edad, etc..
10. Clasificacin de variables: las variables se pueden clasificar de la forma

siguiente:
Variable Cualitativa: se refieren a la cualidad que presenta la poblacin. Sus

valores consisten en categoras de clasificacin, no llevan clasificacin
numrica. Por ejemplo, la variable estado civil puede adoptar las
modalidades soltero, casado, divorciado, viudo o conviviente. Esta variable
puede a su vez clasificarse en nominal y ordinal.
Variable cualitativa Nominal: surgen cuando se definen categoras y

se cuenta el nmero de observaciones pertenecientes a cada
categora y no lleva ninguna ordenacin en las posibles modalidades.
Ejemplos: color de ojos (negro, pardo, azul, verde, etc.); partidos
polticos (conservador, socialista, liberal, etc.).
Variable cualitativa Ordinal: cuando se busca ordenar los casos en
trminos del grado que posee una determinada caracterstica.
Ejemplo: estudios primarios (1er grado, 2do grado, 3er grado, etc.)
120
Variable Cuantitativa: se obtienen como resultado de mediciones o conteos

y toman determinados valores numricos. Ejemplos: peso de las personas.
nmero de estudiantes de computacin. edad, etc. Esta variable se clasifica
a su vez en discreta y continua.
Variable Cuantitativa Discreta: toman valores numricos aislados.

Ejemplo: nmero de monedas que lleva una persona en su bolsillo,
nmero de alumnos matriculados en SPSS.
Variable Cuantitativa Continua: pueden tomar infinitos valores s
nmeros, por muy prximos que los fijemos. Ejemplo: estatura
estudiantes del aula; Nivel de colesterol de los pacientes de la San
Marcos.
e
11. Parmetro y Estadgrafo: Parmetro es una medida usada para describir
alguna caracterstica de la poblacin, y para determinar su valor es necesario
utilizar la informacin de la poblacin completa. (Ejemplo: media poblacional).
Estadgrafo es una medida usada para describir algunas caracterstica de la
muestra (Ejemplo: media muestra).
12. Censos y Encuestas: Ambos conceptos pueden cubrir a toda la poblacin o

slo a un segmento de ella. La diferencia esencia entre ellos radica en la
naturaleza de la informacin que se busca. En el censo habitualmente se
buscan datos generales de la poblacin, mientras que en una encuesta se
debe obtener informacin de un tema concreto.
Ejercicios:
Para cada una de las siguientes variables indique el tipo de variable correspondiente:
1) Nmero de barrenos de perforacin usados en la CIA Caudalosa durante el ao

2011.
2) Estudiantes que han ingresado a la UNH en los ltimos 10 aos.
3) Regiones del Per de acuerdo a su densidad poblacional
4) Sueldo de los empleados del ESALUD
5) Procedencia de los rectores que asistieron al ltimo CRICENTRO, llevado a cabo
en febrero del 2012 en Huancavelica.
6) Coeficiente de inteligencia de los estudiantes de la escuela de minas
7) Peso de los recin nacidos en MINSA
8) Procedencia de lugar de los estudiantes del II ciclo de minas en la UN
Postulantes a la carrera de Ing. Civil inscritos en Admisin 2012 a la UNH
Nmero diarios de accidentes fatales durante los 5 ultimos aos en la Unidad de
produccin Julcani.
Estatura de los estudiantes del V ciclo de la Escuela de Minas
Asignaturas que comprende el curriculum universitario de minas.
MEDIDAS DE TENDENCIA CENTRAL
121
Son nmeros que representan (describen) a un conjunto de datos. La eleccin de

este nmero depende de la caracterstica determinada que deseamos describir.
Las medidas que describen el centro o la mitad de un conjunto de datos se
denominan de tendencia central, siendo las ms conocidas la media o promedio. la
mediana y la moda.
La Media Aritmtica: conocida simplemente como media, caracteriza a los

grupos de datos cuyo polgono de frecuencias presenta simetra y poca
dispersin.
Se obtiene sumando todos los valores y dividiendo el resultado entre el
nmero de ellos. La media es muy sensible a los valores extremos no
representativos de los otros datos.
La Moda: para un grupo de datos, correspondiente a una variable, la moda es
el valor de la variable que ms se repite. (Es el dato ms frecuente).
Un grupo de datos puede tener una moda (unimodal), dos modas (bimodal), etc.
La moda se usa para cualquier tipo de escala.
La Mediana: es el valor que est al centro de los datos. Depende entonces

del orden de los nmeros y del nmero de los mismos. Se le usa para resumir
los grupos de datos en donde existen valores excepcionalmente grandes o
pequeos y cuya forma del polgono de frecuencias no sea simtrica.
Percentiles e Intercuartiles: Se utilizan para describir la posicin de un cierto

valor en un conjunto de datos.
Cuartlles: Se utilizan para describir la posicin de un cierto valor en un

conjunto de datos. Son valores que dividen a un conjunto de observaciones
ordenadas en forma ascendente o descendente en cuatro grupos de igual
tamao.
Percentlles: Se utilizan para describir la posicin de un cierto valor en un

conjunto de datos. Son valores que dividen a un conjunto de observaciones
ordenadas en forma ascendente o descendente en cien grupos de igual
tamao. (percentiles)
Ejercicio
Los siguientes datos corresponden a los resultados de anlisis de metales pesados
de muestras procedentes de agua de rio
122
ANALISIS DE METALES PESADOS DEL RIO HUAYTARA

PARAMETRO UNIDAD M1 M2 M3 METODO
Aceites y Grasas mg/L N.D. N.D. N.D. Gravimtrico
17 36
Solidos Totales mg/L 9,00 2,00 344,00 Gravimtrico
mg/ L Absorcin
Cobre Cu 0,009 0,008 0,006 Atmica
Absorcin
Cromo mg/ L Cr 0,003 0,001 0,001 Atmica
mg/ L Absorcin
Fierro Fe 0,167 0,091 0,088 Atmica
mg/ L Absorcin
Manganeso Mn 0,003 0,002 0,001 Atmica
mg/ L Absorcin
Plomo Pb 0,001 0,002 0,001 Atmica
mg/ L Absorcin
Zinc Zn 0,016 0,005 0,004 Atmica
mg/ L Absorcin
Cadmio Cd 0,0008 0,0008 0,0006 Atmica
Se pide hallar: para cada uno de los ros:

a)La media.
b) Moda Mediana
c) Cuartiles
d) Esbozar un grafico adecuado.
Solucin
123
Introducir la variable en el cuadro de dialogo
Marcar los estadgrafos solicitados
Continuar y aceptar
124
Estadsticos arrojados por el programa:

RIO RIO RIO RIO RIO
HUAYTARA: HUAYTAR HUAYTAR HUAYTR HUAYTR
FIERRO A: A: PLOMO A: ZINC A:
(mg/L Fe) MANGANE (mg/L Pb) (mg/L Zn) CADMIO
SO (mg/L (mg/L
Mn) Cd)
N Vlido
3 3 3 3 3
s
Perdid
0 0 0 0 0
os
Media ,11533 ,00200 ,00133 ,00833 ,000733
Mediana ,09100 ,00200 ,00100 ,00500 ,000800
Moda ,088(a) ,001(a) ,001 ,004(a) ,0008
Asimetra 1,723 ,000 1,732 1,688 -1,732
Error tp. de asimetra 1,225 1,225 1,225 1,225 1,225
Suma ,346 ,006 ,004 ,025 ,0022
Percentiles 25 ,08800 ,00100 ,00100 ,00400 ,000600
50 ,09100 ,00200 ,00100 ,00500 ,000800
75 ,16700 ,00300 ,00200 ,01600 ,000800
RIO RIO
HUAYTARA: HUAYTARA: RIO RIO
ACEITES Y SOLIDOS HUAYTARA: HUAYTARA:
GRASA TOTALES COBRE CROMO
(mg/L) (mg/L) (mg/L Cu) (mg/L Cr)
N Vlidos 3 3 3 3
Perdidos 0 0 0 0
Media 295,00000 ,00767 ,00167
Mediana 344,00000 ,00800 ,00100
Moda 179,000(a) ,006(a) ,001
Asimetra -1,670 -,935 1,732
Error tp. de asimetra 1,225 1,225 1,225
Suma 885,000 ,023 ,005
Percentiles 25 179,00000 ,00600 ,00100
50 344,00000 ,00800 ,00100
75 362,00000 ,00900 ,00300
125
Histograma
RIO HUAYTARA: SOLIDOS TOTALES (mg/L)
1,0
0,8
F re c u e n c ia
0,6
0,4
0,2
Media =295,000
Desviacin tpica =100,
861
N =3
0,0
150,000 200,000 250,000 300,000 350,000 400,000
RIO HUAYTARA: SOLIDOS TOTALES (mg/L)
__
RIO HUAYTARA: COBRE (mg/L Cu)
1,0
0,8
F re c u e n c ia
0,6
0,4
0,2
Media =0,008
Desviacin tpica =0,002
N =3
0,0
0,005 0,006 0,007 0,008 0,009 0,010
RIO HUAYTARA: COBRE (mg/L Cu)
_
_
126
RIO HUAYTARA: CROMO (mg/L Cr)
2,5
2,0
F r e c u e n c ia
1,5
1,0
0,5
Media =0,002
N =3
0,0
0,000E0 1,000E-3 2,000E-3 3,000E-3 4,000E-3
RIO HUAYTARA: CROMO (mg/L Cr)
_
_
RIO HUAYTARA: FIERRO (mg/L Fe)
2,0
F r e c u e n c ia
1,5
1,0
0,5
Media =0,115
N =3
0,0
0,080 0,100 0,120 0,140 0,160 0,180
RIO HUAYTARA: FIERRO (mg/L Fe)
_
_
RIO HUAYTARA: MANGANESO (mg/L Mn)
1,2
1,0
F r e c u e n c ia
0,8
0,6
0,4
0,2
Media =0,002
N =3
0,0
5,000E-4 1,000E-3 1,500E-3 2,000E-3 2,500E-3 3,000E-3 3,500E-3
RIO HUAYTARA: MANGANESO (mg/L Mn)
127
RIO HUAYTARA: PLOMO (mg/L Pb)
2,5
2,0
F r e c u e n c ia
1,5
1,0
0,5
Media =0,001
Desviacin tpica =5,
774E-4
N =3
0,0
5,000E-4 1,000E-3 1,500E-3 2,000E-3 2,500E-3
RIO HUAYTARA: PLOMO (mg/L Pb)
_
_
MEDIDAS DE DISPERSION
Se utilizan para lograr una mejor descripcin de los datos, dado que muchas veces
las medidas de tendencia central no son suficientes para ello. Dos grupos diferentes
de datos pueden tener iguales medidas dc tendencia central, pero sus
caractersticas de distribucin pueden ser diferentes.
Las medidas de dispersin nos ilustran sobre la manera como variara los datos
observados alrededor de una medida de tendencia central, indican como estn
concentrados los datos alrededor del parmetro de centralizacin, permiten
comparar una informacin con otra y ayudan a verificar si determinadas medidas de
tendencia central son o no significativas.
Mnimo: valor mnimo dentro de la variable
Mximo: valor mximo dentro de la variable.
El Recorrido o Rango: simplemente es la diferencia entre el dato mayor

(mximo) y el dato menor (mnimo).
La Varianza: es el promedio de las desviaciones al cuadrado de los datos,

con respecto de su media aritmtica. Indica como los datos estn dispersos
alrededor de la media. A mayor varianza corresponde mayor dispersin.
La Desviacin Estndar: numricamente representa la raz cuadrada

positiva de la varianza. Representa, aproximadamente, el promedio de las
desviaciones de cada uno de los datos respecto de su media aritmtica. Muy
pocos estarn mas all de dos o tres veces la desviacin estndar.
Coeficiente de Variacin: se define como el cociente de la desviacin

estndar y la media aritmtica. Se usa a menudo para comparar la
variabilidad de dos o ms conjuntos de datos que estn expresados en
diferentes unidades. El grupo de datos que tiene el mayor coeficiente de
128
variacin es el que tiene la mayor dispersin. (Si las medias de dos grupos
son iguales, entonces el grupo que tenga mayor desviacin estndar ser el
de mayor dispersin
Ejercicio
Los siguientes datos corresponden a los resultados de anlisis de metales pesados de muestras
procedentes de agua de rio
ANALISIS DE METALES PESADOS DEL RIO
PAMPAS
INFORME N 3265-
2011-LIA.FIA
393, 518,
Solidos Totales mg/L 00 00 496,00 Gravimtrico
Cobre mg/ L Cu 0,005 0,006 0,009 Absorcin Atmica
Cromo mg/ L Cr 0,001 0,001 0,001 Absorcin Atmica
Fierro mg/ L Fe 0,216 0,3115 0,191 Absorcin Atmica
Manganeso mg/ L Mn 0,013 0,019 0,009 Absorcin Atmica
Plomo mg/ L Pb 0,001 0,001 0,001 Absorcin Atmica
Zinc mg/ L Zn 0,004 0,005 0,004 Absorcin Atmica
Cadmio mg/ L Cd 0,0005 0,0001 0,0003 Absorcin Atmica
129
Continuar
aceptar
130
Resultados obtenidos en el programa:

Estadsticos
RIO PAMPAS:
RIO PAMPAS: SOLIDOS RIO PAMPAS: RIO PAMPAS:
ACEITES Y TOTALES COBRE (mg/L CROMO (mg/L
GRASA (mg/L) (mg/L) Cu) Cr)
N Vlidos 3 3 3 3
Perdidos 0 0 0 0
Error tp. de la media ,000000 38,527047 ,001202 ,000000
Desv. tp. ,000000 66,730802 ,002082 ,000000
Varianza ,000 4453,000 ,000 ,000
Rango ,000 125,000 ,004 ,000
Mnimo ,000 393,000 ,005 ,001
Mximo
,000 518,000 ,009 ,001
Coeficiente de variacin
RIO RIO
PAMPAS: RIO PAMPAS: PAMPAS: RIO PAMPAS:
FIERRO MANGANESO PLOMO RIO PAMPAS: Cadmio (mg/L
(mg/L Fe) (mg/L Mn) (mg/L Pb) ZINC (mg/L Zn) Cd)
N Vlidos 3 3 3 3 3
Perdidos 0 0 0 0 0
Error tp. de la media ,036716 ,002906 ,000000 ,000333 ,0001155
Desv. tp. ,063594 ,005033 ,000000 ,000577 ,0002000
Varianza ,004 ,000 ,000 ,000 ,000
Rango ,121 ,010 ,000 ,001 ,0004
Mnimo ,191 ,009 ,001 ,004 ,0001
Mximo
,312 ,019 ,001 ,005 ,0005
Coeficiente de variacin
Grafico
RIO PAMPAS: MANGANESO (mg/L Mn)
1,0
0,8
F r e c u e n c ia
0,6
0,4
0,2
Media =0,014
N =3
0,0
0,008 0,010 0,012 0,014 0,016 0,018 0,020
RIO PAMPAS: MANGANESO (mg/L Mn)
131
RIO PAMPAS: ZINC (mg/L Zn)
2,5
F r e c u e n c ia
2,0
1,5
1,0
0,5
Media =0,004
Desviacin tpica =5,
774E-4
N =3
0,0
0,0035 0,004 0,0045 0,005 0,0055
RIO PAMPAS: ZINC (mg/L Zn)
RIO PAMPAS: Cadmio (mg/L Cd)
1,2
1,0
F r e c u e n c ia
0,8
0,6
0,4
0,2
Media =3,00E-4
Desviacin tpica =2,
000E-4
N =3
0,0
0,0000E0 1,0000E-4 2,0000E-4 3,0000E-4 4,0000E-4 5,0000E-4 6,0000E-4
RIO PAMPAS: Cadmio (mg/L Cd)
MEDIDAS DE ASIMETRIA
Para el caso de distribuciones un modales se utiliza el SESGO DE PEARSON, el
cual se calcula teniendo en cuenta que en este tipo de curvas la media tiende a
situarse con respecto a la moda, al mismo lado de la cola ms larga. (Skewness).
El sesgo de Pearson se obtiene:
(Media Moda)/(Desviacin estandar)
MEDIDAS DE APUNTAMIENTO O AGUDEZA

Se realiza mediante el coeficiente de curtosis y nos indica al aplastamiento de un
polgono de frecuencias. As, las curvas pueden ser Ieptocrticas. platicrticas o
mesocrticas.
Curtosis (K): grado de deformacin vertical de un conjunto de datos
Si K=O.263, mesocrtica
132
Si K>O.263, platcrtca
Si K<O.263, leptocrtca
Tablas de Frecuencia: Cuando se dispone de gran nmero de datos, es til

distribuirlos en clases o categoras y determinar el nmero de individuos
pertenecientes a cada clase, qu es la Frecuencia de clase? Es una ordenacin
tabular de los datos en clases, reunidas las clases y con las frecuencias
correspondientes a cada una, se conoce como una distribucin de frecuencias o
tabla de frecuencias.
Ejercicio
Los siguientes datos corresponden a los resultados de anlisis de metales pesados de muestras
procedentes de agua de rio
ANALISIS DE METALES PESADOS DEL RIO TAMBO
INFORME N 326 -2011-
LIA.FIA
490, 768,
Solidos Totales mg/L 00 00 738,00 Gravimtrico
mg/ L
Cobre Cu 0,042 0,062 0,087 Absorcin Atmica
Cromo mg/ L Cr 0,001 0,009 0,013 Absorcin Atmica
mg/ L
Fierro Fe 23,741 37,315 44,942 Absorcin Atmica
mg/ L
Manganeso Mn 0,709 1,4 1,835 Absorcin Atmica
mg/ L
Plomo Pb 0,008 0,016 0,02 Absorcin Atmica
mg/ L
Zinc Zn 0,087 0,201 0,334 Absorcin Atmica
mg/ L
Cadmio Cd 0,0006 0,0006 0,0012 Absorcin Atmica
Hallar
a) La media
b) La mediana
c) Rango
c) La desviacin estndar
d) La varianza
e) El valor de asimetra
f) Grafico de Cu, Pb, Fe y Zn
Solucin.
133
Al completar El cuadro de dialogo:
Estadsticos
RIO TAMBO:
RIO TAMBO: SOLIDOS RIO TAMBO:
ACEITES Y TOTALES COBRE (mg/L RIO TAMBO:
GRASA (mg/L) (mg/L) Cu) CROMO (mg/L Cr)
N Vlidos 3 3 3 3
Perdidos 0 0 0 0
Media ,00000 665,33333 ,06367 ,00767
Mediana ,00000 738,00000 ,06200 ,00900
Desv. tp. ,000000 152,582218 ,022546 ,006110
Varianza ,000 23281,333 ,001 ,000
Error tp. de asimetra 1,225 1,225 1,225 1,225
Rango ,000 278,000 ,045 ,012
Asimetra -1,657 ,331 -,935
RIO TAMBO: RIO TAMBO: RIO TAMBO: RIO TAMBO:

FIERRO (mg/L MANGANESO PLOMO RIO TAMBO: CADMIO
Fe) (mg/L Mn) (mg/L Pb) ZINC (mg/L Zn) (mg/L Cd)
N Vlidos 3 3 3 3 3
Perdidos 0 0 0 0 0
Media 35,33267 1,31467 ,01467 ,20733 ,000800
Mediana 37,31500 1,40000 ,01600 ,20100 ,000600
Desv. tp. 10,738614 ,567829 ,006110 ,123622 ,0003464
Varianza 115,318 ,322 ,000 ,015 ,000
Error tp. de asimetra 1,225 1,225 1,225 1,225 1,225
Rango 21,201 1,126 ,012 ,247 ,0006
134
Asimetra -,802 -,661 -,935 ,230 1,732
Asimetra
RIO TAMBO: RIO RIO
SOLIDOS RIO TAMBO: TAMBO: TAMBO:
TOTALES COBRE CROMO FIERRO
(mg/L) (mg/L Cu) (mg/L Cr) (mg/L Fe)
N Vlidos 3 3 3 3
Perdidos 0 0 0 0
Asimetra -1,657 ,331 -,935 -,802
RIO RIO RIO

TAMBO: TAMBO TAMBO
MANGANE PLOMO : ZINC
SO (mg/L (mg/L (mg/L RIO TAMBO:
Mn) Pb) Zn) CADMIO (mg/L Cd)
N Vlidos 3 3 3 3
Perdidos 0 0 0 0
Asimetra -,661 -,935 ,230 1,732
RIO TAMBO: COBRE (mg/L Cu)
1,0
0,8
F r e c u e n c ia
0,6
0,4
0,2
Media =0,064
N =3
0,0
0,040 0,050 0,060 0,070 0,080 0,090
RIO TAMBO: COBRE (mg/L Cu)
_
_
135
RIO TAMBO: FIERRO (mg/L Fe)
1,0
0,8
F r e c u e n c ia
0,6
0,4
0,2
Media =35,333
Desviacin tpica =10,
739
N =3
0,0
20,000 25,000 30,000 35,000 40,000 45,000
RIO TAMBO: FIERRO (mg/L Fe)
RIO TAMBO: PLOMO (mg/L Pb)
1,0
0,8
F r e c u e n c ia
0,6
0,4
0,2
Media =0,015
N =3
0,0
0,005 0,010 0,015 0,020 0,025
RIO TAMBO: PLOMO (mg/L Pb)
RIO TAMBO: ZINC (mg/L Zn)
1,0
0,8
F r e c u e n c ia
0,6
0,4
0,2
Media =0,207
N =3
0,0
0,050 0,100 0,150 0,200 0,250 0,300 0,350
RIO TAMBO: ZINC (mg/L Zn)
Tablas de Frecuencia: Cuando se dispone de gran nmero de datos, es til
136
distribuirlos en clases o categoras y determinar el nmero de individuos

pertenecientes a cada clase, qu es la Frecuencia de clase? Es una ordenacin
tabular de los datos en clases, reunidas las clases y con las frecuencias
correspondientes a cada una, se conoce como una distribucin de frecuencias o
tabla de frecuencias.
Ejemplo
Los siguientes datos estn referidos al tiempo de perforacin, longitud de
perforacin en pies, la experiencia del trabajador el tipo de perforadora que
utiliza la velocidad de perforacin, el tipo de roca edad y grado de instruccin
de los trabajadores de una muestra de 20 trabajadores del crucero alfa.
N Tiemp Long. Exp. Equipo Velocidad Roca edad edcateg Estud.
1 2,5 8 1 1 2 1 18 1 2
2 3 14 2 2 8 2 25 1 2
3 5 13 1 3 14 3 40 3 2
4 4,5 15 2 3 15 4 43 4 1
5 5,5 15 2 3 14 4 42 4 2
6 5 12 1 1 5 1 23 1 3
7 4,5 12 1 1 6 2 28 2 3
8 3 11 1 2 4 1 22 1 2
9 3,5 10 1 2 4 3 19 1 1
10 6 8 2 1 20 4 20 1 2
11 5 10 1 1 5 1 22 1 1
12 5,5 12 1 2 5 4 24 1 2
13 6 14 2 2 6 3 30 2 3
14 3,5 12 2 2 10 2 35 3 3
15 4 11 2 3 8 3 18 1 1
16 5 12 2 3 9 2 22 1 1
17 3 13 2 1 4 1 24 1 2
18 5 10 2 2 8 1 39 3 3
19 5,5 15 2 2 10 4 38 3 3
20 4,5 15 2 2 12 1 19 1 1
Procedimiento en el SPSS
Analizar: Tablas de contingencia:
137
Resumen del procesamiento de los casos
Casos
Vlidos Perdidos Total
N Porcentaje N Porcentaje N Porcentaje
Edad categorizada del 20 100,0% 0 ,0% 20 100,0%

trabajador * Grado de
instruccion
Tabla de contingencia Edad categorizada del trabajador * Grado de instruccin
Recuento
Grado de instruccin
primaria secundaria superior Total
Edad categorizada del De 18 a 25 aos 5 6 1 12

trabajador de 26 a 33 aos 0 0 2 2
de 34 a 40 aos 0 1 3 4
de 41 a mas 1 1 0 2
Total 6 8 6 20
Tabla de contingencia Edad categorizada del trabajador * Grado de

instruccin
Recuento
Un grafico de tablas cruzadas con la ayuda del ecxel es:
138
DEFINICIN DE VARIABLES
VISTA VARIABLES
Empiece colocando el nombre de la variable en el recuadro de arriba, y proceda a cambiar las

especificaciones, Pulse en Tipo... para cambiar el tipo de datos de la variable.
Definicin de tipo variables numricas
139
Son aquellas que admiten cualquier nmero como valor vlido, pudiendo ir
precedido del signo ms o del menos. Su longitud mxima es de 40 caracteres, de
los cuales 16 pueden ser cifras decimales.
Si se deciden introducir los signos o la coma (o el punto decimal, luego aclararemos
este asunto), estos caracteres deben contabilizarse a la hora de definir la longitud de
la variable.
Variables con coma

Este formato de entrada de datos aade al anterior la coma Corno separador de los
miles y el punto corno separador de la parte entera y de la decimal.
Variables con punto
En este caso se emplea el punto Como separador de los miles y la coma como
Separador.
Variables numricas en notacin cientfica

En este caso, son valores aceptables todos los numricos ms las letras D o E
(en forma indistinta) y los signos ms o menos. Por ejemplo: 347D2 347E2
Variables tipo fecha
Mediante este formato es posible introducir las variables temporales. Si este tipo es
seleccionado en el cuadro de dilogo, se abre una ventana con a su vez todos los
formatos aceptables.
Variables con formato de dlar

En este caso. a un valor numrico dado, se le aade el smbolo del dlar en los
diferentes formatos que aparecen en la ventana que se despliega caso de elegir esta
opcin.
Variables con formato de moneda personalizada

Si a travs del men de preferencias se han creado formatos especficos para este
tipo de variables, mediante esta opcin se puede elegir uno de ellos. Una vez
seleccionado el formato, la entrada de datos es igual que el caso anterior con la
salvedad de que los caracteres empleados para simbolizar la moneda no deben
teclearse, sino que son introducidos por el sistema.
Variables alfanumricas
Admiten en su codificacin cualquier carcter. En su definicin debe especificarse
nicamente su longitud mxima.
Aqu hay que tener presente la diferenciacin entre lo que aparece en el editor de los
datos y el valor real de la variable caso de que no todos los valores tengan el mismo
nmero de caracteres.
Definicin de etiquetas
140
Adems de definir el tipo de datos, puede tambin definir etiquetas de valor

descriptivas para valores de datos. SPSS utiliza estas etiquetas descriptivas en los
informes y grficos estadsticos. Por ejemplo, puede asignar a las etiquetas bsico
y acido los valores numricos 1 y 2. Refirindose al pH de las aguas de rio.
En primer lugar aparece un cuadro de texto en el que se escribe la etiqueta de la

variable. Esta puede ser cualquier texto con una extensin mxima de 120
caracteres, aunque es recomendable limitar su longitud, pues en la mayora de los
listados de resultados el tamao mximo es excesivo y la etiqueta se trunca. Un
valor aconsejable puede estar entre 20 y 40 caracteres.
Si es necesario etiquetar valores alas variables, lo puede hacer, como se muestra en

el grafico, si cometi un error al etiquetar el valor de la variable, tiene las opciones
de cambiar (Cambie)o eliminar (suprima).
Definicin de cdigos para los valores ausentes o perdidos

Al introducir las caractersticas generales de las matrices de datos de SPSS ya hubo
oportunidad de realizar una primera aproximacin al asunto de los valores ausentes
o perdidos.
Con este trmino se entienden aquellos casos en que no se dispone de informacin

sobre el valor de una variable determinada.
SPSS distingue dos tipos de valores ausentes: los definidos por el propio sistema
(system-missing values), y los definidos por el usuario (user-missing values).
Los primeros son automticamente asignados a todas las casillas vacas que
aparezcan en una variable declarada como numrica y son representados por una
coma (o un punto si el sistema emplea la flotacin sajona).
Para las variables alfanumricas ya vimos que una casilla en blanco era considerada
como un valor vlido de la variable. Bien para tratar el caso de este ltimo tipo de
variables, bien porque para las numricas se quieran establecer distinciones entre
diferentes tipos de informacin ausente, es posible asignar cdigos especficos a los
valores ausentes, y en este caso se trata de valores ausentes definidos por el
usuario.
Esto es posible realizarlo con todo tipo de variables excepto con las alfanumricas
largas.
Para especificar este tipo de valores, debe pulsarse el botn correspondiente en el
cuadro principal.
141
En este cuadro vemos que hay opciones mutuamente excluyentes.
1. La primera, preseleccionada por el sistema, es la de la ausencia de valores

ausentes definidos por el usuario. Todos los valores, excepto los blancos, son
considerados como vlidos.
Las tres restantes se corresponden con las tres formas de asignar valores
ausentes de que dispone el sistema. En cualquiera de los tres hasta con teclear
los valores en los cuadros de texto correspondientes.
2. Valores perdidos discretos. Se pueden definir un mximo de tres valores

ausentes por cada variable.
3. Un rango y un valor pedido discreto adicional. Se consideran como ausentes

los valores pertenecientes al intervalo ms el valor discreto declarado.
Para definir el rango, si se ignora el valor concreto del lmite superior o del inferior,
puede sustituirse uno de ellos por el asterisco.
Estas dos ltimas posibilidades no estn disponibles para variables alfanumricas.
PRIMERA PRACTICA DIRIGIDA
EXSA, es una empresa exitosa que fabrica detonadores no elctricos EXSANEL

Se encontr un registro especificando los siguientes datos:
SERIE DE TIEMPO FRENTE CONTENIDO PESO PESO BRUTO

RETARDOS (ms) (rollos) NETO (Kg)
Exanel 1 25 rampa 60 10,5 11,8

Exanel 2 50 rampa 40 7,3 8,6
Exanel 3 75 rampa 50 7,8 9,1
Exanel 4 100 rampa 40 9,3 10,9
142
Exanel 5 100 galera 60 10 11,8

Exanel 6 125 galera 55 5,8 7,8
Exanel 8 150 crucero 50 5,7 9,5
Exanel 9 200 crucero 55 7,2 7
Exanel 10 250 rampa 50 10,5 8,5
Exanel 11 300 rampa 60 7,3 10,6
Exanel 12 100 rampa 40 7,8 10
Exanel 13 150 rampa 40 9,3 12
Exanel 14 25 rampa 55 10 11
Exanel 15 50 rampa 55 5,8 9,8
Exanel 17 100 galera 65 5,7 11,8
Exanel 18 100 galera 60 7,2 8,6
Exanel 21 150 rampa 40 9,3 11,8
Exanel 22 200 rampa 60 10 7,8
Exanel 23 250 rampa 55 5,8 9,8
Exanel 24 300 rampa 50 8,2 9,5
Exanel 25 100 rampa 50 5,7 7
Exanel 26 150 rampa 55 7,2 8,5
Exanel 27 200 galera 50 8,2 10,6
Exanel 28 250 galera 60 5,7 10
Exanel 29 300 galera 40 7,2 12
Exanel 30 100 crucero 40 7,3 11
.
Se pide Hallar:
a) construir una base de datos, considerando las 6 variables del cuadro dado.
b) Encontrar los estadgrafos de posicin para el tiempo de detonacin
c) Encontrar los estadgrafos de dispersin para el peso neto y peso bruto.
d) Construir un diagrama apropiado para la variable frente y otra para la
variable contenido
Barras de herramientas
Encontrar variables
Cuando el fichero contiene un nmero grande de variables y la localizacin de stas

en la matriz no responde a un criterio definido, puede ser difcil o costoso encontrar
una variable determinada.
Para localizar rpidamente una variable se puede usar el botn (Ir a) Variables que
aparece en el cuadro de dilogo de la opcin de Variables del men
143
Se pide Hallar:
b) construir una base de datos, considerando las 6 variables del cuadro dado.
b) Encontrar los estadgrafos de posicin para el tiempo de detonacin
c)Encontrar los estadgrafos de dispersin para el peso neto y peso bruto.
d) Construir un diagrama apropiado para la variable frente y otra para la variable
contenido
BARRAS DE HERRAMIENTAS
Encontrar variables
Cuando el fichero contiene un nmero grande de variables y la localizacin de stas

en la matriz no responde a un criterio definido, puede ser difcil o costoso encontrar
una variable determinada.
Para localizar rpidamente una variable se puede usar el botn (Ir a) Variables
que aparece en el cuadro de dilogo de la opcin de Variables del men Edicin
144
.Jos Luis Gave Chagua
Si en el cuadro de dilogo se selecciona la variable que queremos localizar en la

matriz a continuacin se pulsa el citado botn ir a en la ventana del editor de
datos tal variable aparece igualmente seleccionada.
Encontrar casos
Para localizar un caso determinado basta con seleccionar en el men Edicin
desplegndose la ventana siguiente, en la que se escoge ir a casos:
Aparece el siguiente cuadro de dialogo.
Aqu debe ingresar el numero de la fila o registro de la matriz de datos, luego clic
en aceptar y el cursor se ubicara en la fila correspondiente.
Encontrar un valor concreto
145
Para localizar un determinado valor de una variable cualquiera, en primer lugar

debe procederse a seleccionar Edicin en la lista desplegada se escoge buscar:
Aparece el cuadro de dialogo:
RECODIFICACION DE VALORES
Para recodificar los valores de una variable
Elija en los mens:

Transformar
Recodificar :En las mismas variables.
Seleccione las variables que desea recodificar. Si se seleccionan diversas
variables, debern ser del mismo tipo (numricas o de cadena).
Pulse en Valores antiguos y nuevos y especifique cmo deben recodificarse los
valores.
S se desea, puede definir un subconjunto de casos para recodificarlos.
Para recodificar los valores de una variable en una nueva variable

Elija en los mens:
Transformar: Recodificar
146
Recodificar en distintas variables en distintas variables:

Seleccione las variables que desee recodificar. Si selecciona mltiples variables,
debern ser del mismo tipo (numricas o de cadena).
Introduzca un nuevo nombre de variable de resultado para cada nueva variable y pulse
en Cambiar.
Pulse en Valores antiguos y nuevos y especifique cmo deben recodificarse los

valores.
Si lo desea, puede definir un subconjunto de casos para recodificarlos.
147
Ordenar variables
El archivo de datos se ordenar en funcin de los valores de las variables de
ordenacin. Si selecciona ms de una variable de ordenacin, los casos se
ordenarn por los valores de cada variable dentro de las categoras de la
variable anterior de la lista Ordenar por.
148
SELECCIN DE CASOS
Seleccin de casos basados en una expresin condicional
Elija en los mens: Dato Seleccionar casos:
149
TRANSPONER , a veces cuando importamos archivos, ocurre que las matrices

tienen un formato inverso, para solucionar este problema, se transpone la matriz .
Menu: Datos, Transponer...
150
SINTAXIS DE COMANDOS
Un archivo de sintaxis es simplemente un archivo de texto que contiene

comandos.
Aunque es posible abrir una ventana de sintaxis y escribir comandos, es ms
sencillo permitir que el programa le ayude a construir un archivo de sintaxis
mediante uno de los siguientes mtodos:
Pegando la sintaxis de comandos desde los cuadros de dilogo
Copiando la sintaxis desde las Anotaciones incluidas en los
resultados
Copiando la sintaxis desde el archivo diario
El lenguaje de comandos tambin permite guardar los trabajos en un archivo de

sintaxis, con lo que podr repetir los anlisis en otro momento.
En la ayuda especfica obtenerla en el cuadro de dilogo de un procedimiento

determinado, pulse en el botn Sintaxis para saber qu opciones del lenguaje de
comandos estn disponibles (si hay alguna) para ese procedimiento y para
acceder al diagrama de sintaxis del comando pertinente.
FUSION DE ARCHIVOS DE DATOS

AADIR CASOS
Aadir casos fusiona el archivo de datos de trabajo con otro archivo de datos que
contiene las mismas variables pero diferentes casos. Por ejemplo, podra registrar
la misma informacin de los clientes de dos zonas de venta diferentes y conservar
los datos de cada zona en archivos distintos.
151
Variables desemparejadas. Son las variables que se van a excluir del nuevo
archivo de datos fusionado. Las variables del archivo de trabajo se identifican
mediante un asterisco (*); las del archivo externo presentan un signo ms (+). Por
defecto, la lista contiene:
Las variables de cualquiera de los archivos de datos que no coincidan con
un nombre de variable del otro archivo. Puede crear pares a partir de
variables desemparejadas e incluirlos en el nuevo archivo fusionado.
Las variables definidas como datos numricos en un archivo y como datos
de cadena en el otro. Las variables numricas no pueden fusionarse con
variables de cadena.
Variables de cadena de longitud diferente. La longitud definida de una
variable de cadena debe ser la misma en ambos archivos de datos.
Variable en el nuevo archivo de datos de trabajo. Muestra las variables que se

van a incluir en el archivo de datos fusionados. Por defecto, la lista incluye todas
las variables que coinciden en el nombre y el tipo de dato (numricos y cadenas).
Puede eliminar de la lista las variables que no desee incluir en el archivo

fusionado.
Las variables desemparejadas incluidas en el archivo fusionado contendrn
los datos perdidos para los casos del archivo que no contiene esa variable.
Para fundir archivos con las mismas variables y casos diferentes
Abra uno de los archivos de datos. Los casos de este archivo aparecern
primero en el nuevo archivo de datos fusionado.
Elija en los mens:

Datos
Fundir archivos
Aadir casos...
Seleccione el archivo de datos que desee fusionar con el archivo de datos

abierto.
Elimine todas las variables que no desee incluir de la lista Variables en el

nuevo archivo de datos de trabajo.
152
Aada parejas de variables de la lista Variables desemparejadas que

representen la misma informacin registrada con nombres diferentes en
los dos archivos.
Para seleccionar una pareja de variables desemparejadas
Pulse en una de las variables en la lista Variables desemparejadas.
Mantenga pulsada la tecla Ctrl mientras selecciona la otra variable de la

lista con el ratn (pulse al mismo tiempo la tecla Ctrl y el botn izquierdo
del ratn).
Pulse en Casar para desplazar la pareja a la lista Variables en el nuevo

archivo de datos de trabajo; el nombre de variable del archivo de datos de
trabajo se emplear como el nombre de variable del archivo fusionado.
Aadir casos: Cambiar nombre
Puede cambiar los nombres de las variables del archivo de datos de

trabajo o los del archivo externo antes de desplazarlas desde la lista de
variables desemparejadas a la lista de variables que se van a incluir en el
archivo fusionado. El cambio de nombre de las variables le permitir:
Utilizar el nombre de variable del archivo externo y no del archivo de

trabajo para las parejas de variables.
Incluir dos variables con el mismo nombre pero de diferentes tipos o

longitudes de cadena. Por ejemplo, para incluir la variable numrica sexo
del archivo de datos de trabajo y la variable de cadena sexo del archivo
externo, se debe cambiar el nombre de una de ellas.
Aadir variables:
Aadir variables fusiona el archivo de datos de trabajo con un archivo de datos
externo que contiene los mismos casos pero variables diferentes. Por ejemplo, es
posible que desee fusionar un archivo de datos que contenga los resultados
previos de la prueba con otro que contenga los resultados posteriores.
Los casos debern tener el mismo orden en ambos archivos.
Si se utiliza una o ms variables clave para emparejar los casos, los dos
archivos deben estar ordenados por orden ascendente de la variable o
variables clave.
Los nombres de las variables del segundo archivo que duplican los del
archivo de trabajo se excluyen por defecto, ya que Aadir variables
153
supone que estas variables contienen informacin duplicada.
1
Variables excluidas. Muestra las variables que se van a excluir del nuevo archivo
de datos fusionado. Por defecto, la lista contiene los nombres de variable del
archivo externo que duplican los del archivo de trabajo. Las variables del archivo
de trabajo se identifican mediante un asterisco (*); las del archivo externo
presentan un signo ms (+). Si desea incluir en el archivo fusionado una variable
excluida con un nombre duplicado, cmbiele el nombre y adala a la lista de
variables que se van a incluir.
Nuevo archivo de datos de trabajo. Muestra las variables que se van a incluir
en el nuevo archivo de datos fusionado. Por defecto, se incluyen en la lista todos
los nombres de variable que sean nicos en ambos archivos de datos.
Variables clave. Si algunos casos de un archivo no se emparejan con los del otro
archivo (es decir, si faltan casos en un archivo), utilice las variables clave para
identificar y emparejar correctamente los casos de ambos archivos. Tambin
puede utilizar las variables clave segn tablas de claves.
Las variables clave deben tener los mismos nombres en ambos archivos.
Ambos archivos deben estar ordenados segn el orden ascendente de las

variables clave, y el orden de las variables en la lista Variables clave debe
ser el mismo que el de la secuencia de ordenacin.
Los casos que no se emparejan con las variables clave se incluyen en el
archivo fusionado, pero no se funden con los casos del otro archivo. Los
casos no emparejados slo contienen valores para las variables del archivo
de procedencia; las variables del otro archivo contienen el valor perdido por
el sistema.
El archivo externo o el archivo de trabajo es una tabla de claves. Una tabla de

claves, o tabla de referencia, es un archivo en el que los datos de cada caso se
pueden aplicar a vanos casos del otro archivo. Por ejemplo, si un archivo contiene
informacin sobre los diferentes miembros de la familia (como el sexo, la edad. la
formacin) y el otro contiene informacin global (como los ingresos totales, el
nmero de miembros o la ubicacin). se puede utilizar el archivo global como una
154
tabla de referencia y aplicar los datos comunes de la familia a cada uno de sus
miembros en el archivo fusionado.
Para fundir archivos con los mismos casos pero variables diferentes
Abra uno de los archivos de datos.
Elija en los mens:
Datos
Fundir archivos
Aadir variables...
Seleccione el archivo de datos que desee fundir con el archivo de datos

abierto.
Para seleccionar variables clave
Seleccione las variables entre las variables del archivo externo (marcadas
con el signo +) en la lista Variables excluidas.
Seleccione Emparejar los casos en las variables clave para los archivos
ordenados.
Aada las variables a la lista Variables clave.
Las variables clave deben existir tanto en el archivo de trabajo como en el

archivo externo. Ambos archivos deben estar ordenados segn el orden
ascendente de las variables clave, y el orden de las variables de la lista
Variables clave debe ser igual a su secuencia de ordenacin.
Aadir variables: Cambiar nombre
Puede cambiar los nombres de las variables del archivo de datos de trabajo o del
archivo de datos externo antes de desplazarlas a la lista de variables que se van a
incluir en el archivo de datos fusionado. Esta medida es especialmente til cuando
se desea incluir dos variables que tienen el mismo nombre pero informacin
diferente en los dos archivos.
Agregar datos
Agregar datos combina grupos de casos en casos de resumen nicos y crea un
nuevo archivo de datos agregado. Los casos se agregan en funcin del valor de
una o mas variables de agrupacin. El nuevo archivo de datos contiene un caso
para cada grupo. Por ejemplo, se pueden agregar datos de regiones por estado y
155
crear un nuevo archivo en el que el estado sea la unidad de anlisis.
Variables de segmentacin. Los casos se agrupan en funcin de los valores de

las variables de segmentacin. Cada combinacin nica de estos valores define
un grupo y genera un caso en el nuevo archivo agregado. Todas las variables de
segmentacin se guardan en el nuevo archivo con los nombres actuales y la
informacin del diccionario. Este tipo de variable puede ser tanto numrica como
de cadena.
Agregar variables. Muestra las variables que se van a utilizar con las funciones
de agregacin para crear las nuevas variables del archivo agregado. Por defecto,
Agregar datos crea nuevos nombres de variables agregadas usando los primeros
caracteres del nombre de la variable de origen seguidos de un carcter de
subrayado y un nmero secuencial de dos dgitos. El nombre de la variable
agregada viene seguido de una etiqueta de variable opcional entrecomillada, el
nombre de la funcin de agregacin y el nombre de la variable de origen entre
parntesis. Para las funciones de agregacin, las variables de origen deben ser
numricas.
Puede anular los nombres por defecto de las variables agregadas con nuevos
nombres de variable, proporcionar etiquetas de variable descriptivas y cambiar las
funciones empleadas para calcular los valores de los datos agregados. Tambin
puede crear una variable que contenga el nmero de casos en cada grupo de
segmentacin.
e
Para agregar un archivo de datos
Elija en los mens:

Datos: Agregar...
Seleccione una o ms variables de segmentacin que definan cmo deben

agruparse los casos para crear datos agregados.
Seleccione una o ms variables para incluirlas en el nuevo archivo de

datos.
Seleccione una funcin de agregacin para cada variable agregada.
Agregar datos: Funcin de agregacin
156
Este cuadro de dilogo permite especificar la funcin que se utilizar para calcular
los valores de los datos agregados para las variables seleccionadas en la lista
variables, en el cuadro de dilogo Agregar datos. Las funciones de agregacin
incluyen:
Funciones de resumen, incluyendo la media, la desviacin tpica y la suma.
Porcentaje o fraccin de los valores por encima o por debajo de un valor

especificado.
Porcentaje o fraccin de los valores dentro o fuera de un rango

especificado.
Segmentar archivo
Segmentar archivo divide el archivo de datos en distintos grupos para el anlisis
basndose en los valores de una o ms variables de agrupacin. Si selecciona
varias variables de agrupacin, los casos se agruparn por variable dentro de las
categoras de la variable anterior de la lista Grupos basados en. Por ejemplo, si
selecciona gnero como la primera variable de agrupacin y minora como la
segunda, los casos se agruparn por minoras dentro de cada categora de
gnero.
Es posible especificar hasta ocho variables de agrupacin.
Cada ocho caracteres de una variable de cadena larga (variables de

cadena que superan los ocho caracteres) cuenta como una variable hasta
llegar al lmite de ocho variables de agrupacin.
Los casos deben ordenarse segn los valores de las variables de

agrupacin, en el mismo orden en el que aparecen las variables en la lista
Grupos basados en. Si el archivo de datos todava no est ordenado,
seleccione Ordenar archivo variables de agrupacin.
157
Comparar los grupos. Los grupos de segmentacin del archivo se presentan

juntos para poder compararlos. Para las tablas pivote se crea una sola tabla y
cada variable de segmentacin del archivo puede desplazarse entre las
dimensiones de la tabla. En el caso de los grficos se crea un grfico diferente
para cada grupo y se muestran juntos en el visor.
Organizar los resultados por grupos. Los resultados de cada procedimiento se

muestran por separado para cada grupo de segmentacin del archivo.
Para segmentar un archivo de datos para el anlisis

e
Elija en los menus:
Datos: Segmentar archivo...
Seleccione Comparar los grupos u Organizar los resultados por grupos.
Seleccione una o ms variables de agrupacin.
FRECUENCIAS
El procedimiento Frecuencias proporciona estadsticos y representaciones
grficas que resultan tiles para describir muchos tipos de variables. Es un buen
procedimiento para una inspeccin inicial de los datos.
Para los informes de frecuencias y los grficos de barras, puede organizar los
diferentes valores en orden ascendente o descendente u ordenar las categoras
por sus frecuencias. Es posible suprimir el informe de frecuencias cuando una
158
variable posee muchos valores diferentes. Puede etiquetar los grficos con las
frecuencias (la opcin por defecto) o con los porcentajes.
Ejemplo. Cul es la distribucin de los clientes de una empresa por tipo de

industria? En los resultados podra observar que el 37,5% de sus clientes
pertenece a agencias gubernamentaies, el 24,9% a corporaciones, el 28,1 % a
instituciones acadmicas, y el 9,4% a la industria sanitaria. Con respecto a los
datos continuos, cuantitativos, como los ingresos por ventas, podra comprobar
que el promedio de ventas de productos es de 3.576 dlares con una desviacin
tpica de 1.078 dlares.
Estadsticos y grficos. Frecuencias, porcentajes, porcentajes acumulados,

media, mediana, moda, suma, desviacin tpica, varianza, amplitud, valores
mnimo y mximo, error tpico de la media, asimetna y curtosis (ambos con sus
errores tpicos), cuartiles, percentiles especificados por el usuario, grficos de
barras, grficos de sectores e histogramas.
Datos. Utilice cdigos numricos o cadenas cortas para codificar las variables
categricas (medidas de nivel nominal u ordinal).
Supuestos. Las tabulaciones y los porcentajes proporcionan una descripcin til

para los datos de cualquier distribucin, especialmente para las variables con
categoras ordenadas o desordenadas. Muchos de los estadsticos de resumen
optativos, tales como la media , la desviacin tpica, se basan en la teoria normal
y son apropiados para las variables cuantitativas con distribuciones simtricas.
Estadsticas
Valores percentiles. Los valores de una variable cuantitativa que dividen los
datos ordenados en 2rupos, de forma que un porcentaje de los casos se
encuentre por encima y otro porcentaje se encuentre por debajo. Los cuartiles (los
percentiles 25, 50 y 75) dividen las observaciones en cuatro grupos de igual
tamano. Si desea un numero igual de grupos que no sea cuatro, seleccione
Puntos de corte para n grupos iguales. percentil 95, el Tambin puede especificar
percentiles individuales (por ejemplo, el valor por debajo del cual se encuentran el
95% de las observaciones).
Tendencia central. Los estadsticos que describen la localizacin de la

distribucin, incluyen: Media, Mediana, Moda y Suma de todos los valores.
Dispersin. Los estadsticos que miden la cantidad de variacin o de dispersin

en los datos, incluyen: Desviacin tpica. Varianza, Rango, Mnimo, Mximo y
Error tpico de la media.
159
Distribucin. Asimetra y curtosis son estadsticos que describen la forma y la

simetra de la distribucin. Estos estadsticos se muestran con sus errores tpicos.
Los valores son puntos medios de grupos. Silos valores de los datos los
puntos medios de grupos (por ejemplo. si las edades de todas las personas entre
treinta y cuarenta anos se codifican como 35). seleccione esta opcin para
estimar la mediana y los percentiles para los datos originales no agrupados.
TABLAS PIVOTE
Muchos de los resultados del visor se presentan en tablas que se pueden pivotar
de forma interactiva. Es decir, puede reorganizar las filas, columnas y capas.
Gestin de una tabla pivote
Entre las opciones para manipular una tabla pivote se incluyen:
Transposicin de filas y columnas

Desplazamiento de filas y columnas
Creacin de capas multidimensionales
Agrupacin y separacin de filas y columnas
Presentacin y ocultacin de casillas
Rotacin de etiquetas de fila y de columna
Bsqueda de definiciones de trminos
Para editar una tabla pivote
Pulse dos veces en la tabla.
Al realizar esta accin se activar el Editor de tablas pivote.
Para editar dos o ms tablas pivote al mismo tiempo
Pulse en la tabla pivote con el botn derecho del ratn.
Elija en el men contextual: El objeto de tabla pivote Abrir
Repita los pasos para cada tabla pivote que desee editar.
Cada tabla pivote aparecer en una ventana independiente lista para ser editada.
Para pivotar una tabla utilizando iconos
Active la tabla pivote.

Elija en los mens de la tabla pivote:
Pivotar
160
Paneles de pivotado
Site el puntero del ratn sobre cada icono para obtener una pista emergente
que le indicar la dimensin de la tabla que representa el icono.
Arrastre un icono de un panel a otro.
Este procedimiento permite cambiar la disposicin de la tabla.Por ejemplo,

suponga que el icono representa una variable con las categoras S y No y
arrastra el icono desde el panel Fila hasta el panel Columna. Antes de arrastrarlo,
S y No eran etiquetas de fila; despus de moverlo son etiquets de columna.
Impresin de tablas pivote
Existen muchos factores que pueden afectar al aspecto que presentan los
grficos pivote impresos. Estos factores pueden controlarse cambiando los
atributos de las tablas pivote.
En las tablas pivote multidimensionales (tablas con capas), puede imprimir

todas las capas o slo la capa superior (la visible).
En las tablas pivote largas o anchas, puede cambiar automticamente el

tamao de la tabla para que quepa en la pgina o controlar la posicin de las
rupturas de tabla y de los saltos de pgina.
Utilice Presentacin preliminar, en el men Archivo, para ver cmo aparecern las
tablas pivote en la pgina impresa.
Para imprimir las capas ocultas de una tabla pivote
Active la tabla pivote (pulsando dos veces en cualquier punto de la tabla).
Elija en los mens:
Formato
Propiedades de tabla...
En la pestaa Impresin, seleccione Imprimir todas las capas.
Tambin puede imprimir cada capa de una tabla pivote en una hoja diferente.
Control de las rupturas de tabla para tablas anchas y largas
Las tablas pivote que son o demasiado anchas o largas para imprimirlas en el
tamao de pgina definido se dividen automticamente y se imprimen en varias
161
secciones. (en las tablas anchas, se imprimen vanas secciones en la misma

pgina si hay suficiente espacio). Tiene la posibilidad de:
Controlar la posicin de las filas y las columnas por donde se dividen las
tablas de gran tamao.
Especificar las filas y las columnas que deben permanecer unidas cuando
se dividen las tablas.
Ajustar las tablas de gran tamao para que quepan en el tamao de

pgina definido.
Afa de Cronbach
l mtodo de fiabilidad ms utilizado en psicometra es el Alfa de Cronbach
(desarrollado el ao 1951). Se trata de un ndice de consistencia interna que toma
valores entre 0 y 1 y que sirve para comprobar si el instrumento que se est
evaluando recopila informacin defectuosa y por tanto nos llevara a conclusiones
equivocadas o si se trata de un instrumento fiable que hace mediciones estables y
consistentes. Alfa es por tanto un coeficiente de correlacin al cuadrado que, a
grandes rasgos, mide la homogeneidad de las preguntas promediando todas las
correlaciones entre todos los tems para ver que, efectivamente, se parecen.
Interpretacin del alfa de Cronbach

Su interpretacin ser que, cuanto ms se acerque el ndice al extremo 1, mejor
es la fiabilidad, considerando una fiabilidad respetable a partir de 0,80.
Existen dos formas de estimarlo:
Requisitos para estimar la fiabilidad de un test:

1. Estar formado por un conjunto de tems que se combinan aditivamente
para hallar una puntuacin global (esto es, las puntuaciones se suman y
dan un total que es el que se interpreta).
2. Todos los tems miden la caracterstica deseada en la misma direccin. Es
decir, los tems de cada una de las escalas tienen el mismo sentido de
respuesta. Este ltimo no es necesario para el mtodo de la varianza de
los tems.
162
Ejemplo: los siguientes datos estn referidos a una encuesta tipo Liker
considerando 10 items, instrumento que se aplico a 30 muestra de 30
estudiantes , siendo los resultados:
Indique Ud. si el instrumento es confiable.
FICHA X1 X2 X3 X4 X5 X6 X7 X8 X9 X10
1 3 3 4 5 3 3 1 2 3 3
2 5 3 3 4 2 2 2 2 3 3
3 3 4 3 3 5 1 4 3 1 4
4 4 5 3 2 1 3 4 2 2 3
5 2 3 2 3 3 2 5 4 4 3
6 2 5 3 3 3 1 1 3 4 3
7 2 3 2 1 4 4 2 3 2 4
8 2 3 1 3 3 2 4 2 3 1
9 2 4 2 3 3 3 3 2 3 1
10 3 3 4 3 3 4 2 3 3 1
11 5 3 2 2 2 4 3 2 2 1
12 4 3 1 3 4 4 2 4 3 3
13 3 3 4 3 2 3 3 3 3 3
14 3 3 4 3 2 3 3 3 5 3
15 1 3 3 2 3 4 4 2 2 2
16 3 2 3 4 3 3 1 5 2 2
17 2 3 4 2 4 4 3 3 2 3
18 4 3 3 3 5 1 2 3 4 2
19 3 1 3 2 5 4 2 3 3 5
20 4 3 2 4 3 4 3 2 3 3
21 3 4 3 4 3 3 5 1 3 4
22 3 2 4 4 2 2 4 4 3 5
23 4 3 1 2 3 4 3 3 3 2
24 2 4 4 3 3 3 2 2 4 3
25 4 4 3 2 3 3 3 4 2 3
26 3 2 3 3 2 2 3 5 3 3
27 3 3 1 4 2 4 3 3 3 3
28 4 2 2 1 2 4 2 2 2 3
29 4 3 3 4 2 3 3 3 4 3
30 4 2 2 3 2 3 4 3 3 3
163
Solucin: a) Mediante la varianza de los tems.

Calculo en el excel de la varianza total y la suma de las varianzas de cada tem
X1
X2 X3 X4 X5 X6 X7 X8 X9 X10 tota
l
5,56
0,95 0,754 0,96 0,892 0,99 0,966 1,154 0,8782 0,71 1,04
K 10
Vi 9,2954
Vt 5,5644
-0,745
Interpretacin:
Segn Herrera(1998), respecto a la fiabilidad de los trabajos de investigacin

refiere la siguiente escala:
0,53 a menos Confiabilidad nula

0,54 a 0,59 Confiabilidad baja
0,60 a 0,65 Confiable
0,66 a 0,71 Muy Confiable
0,72 a 0,99 Excelente confiabilidad
1.0 Confiabilidad perfecta
164
Siendo el alfa de cronbach = -0,745, el instrumento tiene una exelente

confiabilidad.
b) Solucin mediante la matriz de correlacin: Para ello es necesario
calcular la matriz de correlacin en el SPSS, para ello:
En el cuadro de dialogo se consideran las 10 variables (tems)

Obtenindose como:
En el Ecxel calcularemos el promedio de las correlaciones de uno de los grupos:
165
- -0,18 0,085 -0,27 0,07 -0,1 -0 -0,1 -0,01

0,13
-0,13 0,06 0,006 -0,07 -0,28 0,12 -0,4 0,01 -0,18
-0,18 0,06 0,204 -0,03 -0,22 -0,2 0 0,13 0,264
0,085 0,01 0,2 -0,15 -0,33 -0 0 0,38 0,06
-0,27 - -0,03 -0,15 -0,11 -0,2 0,1 -0,1 0,153
0,07
0,072 - -0,22 -0,33 -0,11 -0,1 -0,2 -0,2 -0,1
0,28
-0,11 0,12 -0,17 -0,04 -0,21 -0,1 -0,2 -0,1 0,105
-0,02 - 0,04 0,029 0,096 -0,19 -0,2 0,03 0,156
0,37
-0,07 0,01 0,13 0,38 -0,14 -0,25 -0,1 0 -0,02
-0,01 - 0,26 0,06 0,153 -0,1 0,11 0,2 -0
0,18
p (promedio de las correlaciones) = - 0,042
=0,675
Siendo alfa igual a 0,675 y de acuerdo a la valoracin de Herrera(1998), se puede
decir que: el instrumento es muy confiable.
c) Calculo del alfa de Cronbach, en forma directa con el SPSS.
166
Al considerar en la ventana de dialogo todas las 10 variables ,seleccionar alfa:
Obtenindose:
El valor de alfa de Cronbach es de -0,745, valor que es el mismo hallado en la

solucin A, indicando finalmente que el instrumento de medicin en este caso que
la encuesta aplicada tiene una excelente confiabilidad.
167
Correlaciones con el SPSS:
El concepto de relacin o correlacin entre dos variables se refiere al grado

de parecido o variacin conjunta existente entre las mismas. En este apartado
vamos a estudiar un tipo particular de relacin llamada lineal y se limita a
considerar nicamente el caso de dos variables cuantitativas (correlacin
simple).
Una relacin lineal positiva entre dos variables X e Y significa que los
valores de las dos variables varan de forma parecida: los sujetos que puntan
alto en X tienden a puntuar alto en Y y los que puntan bajo en X tienden a
puntuar bajo en Y. Una relacin lineal negativa significa que los valores de
ambas variables varan justamente el revs.
La forma ms directa de formarse una primera idea sobre el tipo de relacin
existente entre dos variables cuantitativas es a travs de un Diagrama de
dispersin. Este tipo de diagramas puede obtenerse mediante: Grficos, en
las diferentes opciones que tiene: Generador de Grficos, Cuadros de dilogo
antiguos o en Grficos interactivos. sta ltima opcin muestra el cuadro de
dilogo de la figura 1:
168
Para poder cuantificar el grado de relacin lineal existente entre dos variables
cuantitativas, as como medir el grado de ajuste de la nube de puntos a una
recta, vamos a estudiar coeficientes de correlacin. En el procedimiento de
Tablas de Contingencia ya se puede obtener el coeficiente de correlacin de
Pearson, en este apartado estudiaremos el procedimiento Correlaciones que
incluye tres opciones (1) Bivariadas, para el estudio de la relacin entre dos
variables cuantitativas, (2) Parciales, para el estudio de la relacin entre
dos variables cuantitativas cuando se controla o elimina el efecto de
terceras variables y (3) Distancias, para el estudio de la relacin entre dos
variables cualesquiera que sea su nivel de medida.
Correlaciones Bivariadas
El procedimiento Correlaciones divariadas ofrece tres tipos de coeficientes:

rxy de Pearson, tau-b de Kendall y rho de Spearman. Para acceder a este
procedimiento, elegir:
Analizar
Correlaciones
Divariadas
Apareciendo el cuadro de dialogo siguiente:
169
La lista de variables slo muestra las variables que poseen formato numrico. Es
necesario trasladar al menos dos variables.
170
Coeficientes de Correlacin. Pueden seleccionarse uno o ms de los tres

siguientes coeficientes:
Peason: Es una medida de la asociacin lineal entre dos variables. Los valores
del coeficiente de correlacin van de -1 a 1. El signo del coeficiente indica la
direccin de la relacin y su valor absoluto indica la fuerza. Los valores mayores
indican que la relacin es ms estrecha.
Tau-b de Kendall: Es una medida no paramtrica de asociacin para variables
ordinales o de rangos que tiene en consideracin los empates. El signo del
coeficiente indica la direccin de la relacin y su valor absoluto indica la
magnitud de la misma, de tal modo que los mayores valores absolutos indican
relaciones ms fuertes. Los valores posibles van de -1 a 1, pero un valor de -1
o +1 slo se puede obtener a partir de tablas cuadradas.
Spearman: Versin no paramtrica del coeficiente de correlacin de Pearson,
que se basa en los rangos de los datos en lugar de hacerlo en los valores
reales. Resulta apropiada para datos ordinales, o los de intervalo que no
171
satisfagan el supuesto de normalidad. Los valores del coeficiente van de -1 a

+1. El signo del coeficiente indica la direccin de la relacin y el valor absoluto
del coeficiente de correlacin indica la fuerza de la relacin entre las variables.
Los valores absolutos mayores indican que la relacin es mayor.
Prueba de significacin. Junto con cada coeficiente de correlacin, el Visor

ofrece la informacin necesaria para contrastar la hiptesis nula de que el valor
poblacional del coeficiente es cero. El SPSS permite seleccionar el nivel crtico
deseado:
- Bilateral: Probabilidad de obtener resultados tan extremos como el

obtenido, y en cualquier direccin, cuando la hiptesis nula es cierta.
Un nivel de significacin bilateral (de dos colas) contrasta una hiptesis
nula en la que la direccin del efecto no se especifica de antemano.
- Unilateral: Probabilidad de obtener un resultado tan extremo como el
observado, y en la misma direccin, cuando la hiptesis nula es cierta.
Contrasta la hiptesis nula en la que se especifica con antelacin la
direccin del efecto.
Marcar las correlaciones significativas. Esta opcin, que se encuentra activa

por defecto, Marca con un asterisco los coeficientes de correlacin
significativos al nivel 0,05 y, con dos asteriscos, los significativos al nivel
0,01.
Opciones
El sub cuadro Opciones permite solicitar estadsticos adicionales y
determinar el tratamiento de los valores perdidos. Al pulsarlo nos aparece el
cuadro de dilogo:
Estadsticos. Si se ha elegido el coeficiente de Pearson, las opciones de

este recuadro permiten seleccionar una o ms de las siguientes opciones:
- Medias y desviaciones tpicas: Muestra, para cada variable, la

media, la desviacin tpica
(insesgada) y el nmero de casos vlidos.
- Productos cruzados y covarianzas: Muestra, para cada par de
variables, los productos cruzados de las desviaciones de cada
172
puntuacin respecto de su media y la covarianza
Valores perdidos. Las opciones de este recuadro permiten seleccionar el

tratamiento que se desea dar a los valores perdidos.
- Excluir casos segn pareja: Excluye del anlisis los casos que
tengan valores perdidos en cualquiera (o en ambas) de las variables de
una pareja implicada en el clculo de un estadstico especfico.
- Excluir casos segn pareja: Excluye los casos que tienen valores
perdidos en cualquiera de las variables utilizadas en cualquiera de los
anlisis.
3.-CORRELACIONES PARCIALES
El procedimiento de Correlaciones parciales permite estudiar la relacin

existente entre dos variables cuantitativas controlando el posible efecto de una o
ms variables cuantitativas extraas. Un coeficiente de correlacin parcial es
una tcnica de control estadstico que expresa el grado de relacin lineal
entre dos variables tras eliminar de ambas el efecto atribuible a terceras
variables.
Para acceder al procedimiento: Analizar correlaciones parciales:
Apareciendo el cuadro de dilogo:
En Variables se trasladan las variables numricas que se quieren

correlacionar y en Controlando para se trasladan las variables cuyo efecto se
173
desea controlar.
Se habla de correlacin de primer orden (r12.3), para indicar que se est
controlando el efecto de una variable; de segundo orden (r12.34 ), para indicar
que se est controlando el efecto de dos variables; etc.
Prueba de significacin. Es exactamente como en Bivariadas pero para los
coeficientes parciales, dando opcin a elegir el tipo de nivel crtico deseado.
Mostrar el nivel de significacin real. Se muestran la probabilidad y los
grados de libertad para cada coeficiente. Es una opcin activa por defecto,
cuando se desactiva el Visor muestra un asterisco al lado de los coeficientes de
correlacin significativos al nivel 0,05 y, con dos asteriscos, los significativos al
nivel 0,01.
El sub cuadro Opciones permite solicitar estadsticos adicionales y

determinar el tratamiento de los valores perdidos. Al pulsarlo nos aparece el
cuadro de dilogo:
Estadsticos. Las opciones de este recuadro permiten seleccionar una o ms

de las siguientes opciones:
- Medias y desviaciones tpicas: Muestra, para cada variable, la media,
la desviacin tpica y el nmero de casos vlidos.
- Correlaciones de orden cero: Coeficientes de correlacin ordinarios, sin
variables de control.
Los valores del coeficiente de correlacin van de -1 a 1. El signo del
coeficiente indica la direccin de la relacin, y su valor absoluto indica
la fuerza. Los valores mayores, en valor absoluto, indican que la fuerza
es mayor.
Valores perdidos es idntico al recuadro para bivariadas.
Los coeficientes de correlacin vistos son formas de cuantificar la distancia entre
dos variables, pero existen otras muchas formas de hacerlo. El procedimiento
Distancias incluye un gran nmero de medidas que se diferencian,
bsicamente, por el tipo de datos para el que han sido diseadas. Estas
medidas pueden utilizarse tanto para obtener distancias entre variables como
entre casos. Llamaremos elemento tanto a los casos como a las variables. Para
acceder al procedimiento:
Analizar,
Correlaciones,
174
Distancias
En Variables se trasladan las variables cuya distancia se desea calcular (o las

variables en las que debe basarse la distancia entre casos).
En Etiquetar los casos mediante: Por defecto, en los resultados los casos se
identifican mediante el nmero de caso. De manera opcional, puede utilizar
los valores de una variable de cadena para identificar los casos.
Calcular distancias. El procedimiento permite calcular distancias entre casos

y entre variables, en ambos opciones las distancias se calculan a partir de las
puntuaciones de los casos en el conjunto de variables seleccionadas.
Medida. Las medidas de distancias estn agrupadas en dos bloques:

Disimilaridad y Similaridad. El botn Medidas... de este recuadro conduce a un
subcuadro de dilogo que permite elegir la media de distancia que se desea
utilizar, tiene dos versiones (que se diferencian por el tipo de medida que
ofrecen) dependiendo de la opcin marcada en el recuadro:
- Disimilaridades: Medidas de diferencias o lejana. Los valores ms

altos indican que los elementos son muy distintos o que se encuentran
muy alejados.
- Similaridades: Medidas de parecido o cercana. Los valores ms
altos indican que los elementos son muy parecidos o que se
encuentran muy prximos.
175
176

Manual de Estadistica

Diunggah oleh

Informasi Dokumen

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Manual de Estadistica

Diunggah oleh

Hak Cipta:

Format Tersedia

ESTADISTICA APLICADA JOSE LUIS GAVE CH.

Jos Luis GAVE CHAGUA.

El presente es unas sntesis de ejercicios y problemas, destinado a los estudiantes del

Jos luis Gave

22. Independencia de dos variables aleatorias

Se lee: sumatoria de xi donde i toma valores de 1 a n.

En general, se entiende por sumatoria la suma de un conjunto finito de nmeros,

h: punto inicial de la sumatoria

La sumatoria hasta N de una constante, es igual a N veces la constante.

La sumatoria de una suma es igual a la suma de las sumatorias de cada

La suma de un producto no es igual al producto de las sumatorias de cada

La sumatoria de los cuadrados de los valores de una variable no es igual a la

Tambin se verifica las siguientes propiedades:

Bajo esta hiptesis de trabajo, es posible obtener el conjunto de propiedades que se

1.2.2. Solucin de Sistemas de Ecuaciones Lineales con variable

Propiedad #1: Clculo de

Propiedad #2: Clculo de

Propiedad #3: Clculo de

Propiedad #4: Clculo de

Propiedad #5: Clculo de

Propiedad #6: Clculo de

2. Definicin e importancia de la Estadstica

Es el conjunto de procedimientos y tcnicas empleadas para recolectar, organizar y

A. Prez de Vargas, V. Abraira. Bioestadstica. Centro de Estudios Ramn Areces.

Su aplicacin en la investigacin, es uno de los aspectos de mayor importancia de

3. Estadstica descriptiva e inferencial.

3.2. Inferencial: se refiere al proceso de lograr generalizaciones acerca de las

La estadstica inferencial es el conjunto de tcnicas que se utiliza para obtener

En sus particularidades la Inferencia distingue la Estimacin y la Contrastacin de

El anlisis estadstico es todo el proceso de organizacin, procesamiento, reduccin

5. Datos y variables estadsticas

Las variables pueden clasificarse en: categricas o cualitativas (atributos), no tienen

5.1. Datos estadsticos cualitativos:

5.2. Datos estadsticos cuantitativos

a) Datos estadsticos Cuantitativos Discretos

b) Datos estadsticos cuantitativos continuos

Los datos cuantitativos discretos dan origen a la variable de tipo discreto

Tipo de Variable Representacin Grfica

Nominal Diagramas de barras, Diagramas de lneas,

Histogramas, Polgonos de Frecuencia,

Discreta Diagramas de caja-bigotes.

Los datos se pueden representar tabularmente, cuando se presenta a las variables

6.1. Mtodos de representacin de datos cuantitativos

Arreglo de Datos. Es una forma de presentar los datos en un arreglo ascendente o

Distribucin de Frecuencias. Es una forma de sintetizar los datos y consiste en

7.1 Frecuencia: es el nmero de veces que aparece un valor

7.3. Frecuencia Relativa: Indica la proporcin que representa la frecuencia de cada

7.4. Frecuencia Acumulada Relativa: Indica la proporcin de datos que se

7.5. Cuadro de distribucin de frecuencias

2.- En la columna denotada por y i se coloca todos los valores de la variable,

Yi ni Ni N i hi Hi H i hi x 100 Hi x 100 Hi x 100

A) Frecuencia absoluta simple (ni)

A) Frecuencia absoluta acumulada Ni * mayor que

B) Frecuencia relativa simple (hi)

H3 = 14 / 60 = 0.23 H 7 = 03/ 60 = 0.05

H4 = 08/ 60 = 0.13 H 8 = 01/ 60 = 0.02

Frecuencia relativa acumulada menor que

Interpretacin de las frecuencias

N2 = 45, Significa que en la encuesta realizada 45 estudiantes tienen por lo menos 17

H1 = 0.25, Se interpreta como la proporcin de alumnos que tienen 16 aos.

H1 = 0.25, Se interpreta como la proporcin de familias en la muestra con a lo ms 16 aos

H1 = 1.00, es la proporcin de familias en la encuesta con por lo menos 16 aos

h1 x100 = 25%, Significa que el 25% de los estudiantes tiene 16 aos.

h3 x100 = 23%, Significa que el 23% de los estudiantes tiene 18 aos.