Anda di halaman 1dari 173

PRESENTACIN

La estadstica tiene su origen en la palabra Estado, pues este era el encargado de realizar la
cuantificacin y anlisis de la riqueza que tenan, los cuales estaban en funcin a fines
econmicos y militares, expresados en recursos econmicos, infraestructura y sobre los
cules tomaban decisiones.
Actualmente la estadstica es una ciencia y ya no es reservada al estado pues est
relacionada y aplicada a prcticamente todas las dems ciencias. La razn es evidente, es
necesario recolectar informacin y analizarla y eso es justamente lo que hace la estadstica,
proporciona tcnicas precisas de recoleccin de datos y proporciona mtodos especficos
para el anlisis de los mismos , su utilidad la entendemos mejor si tenemos en cuenta que
los quehaceres y decisiones diarias embargan cierto grado de incertidumbre, esta ciencia
trabaja con ella y nos orienta para tomar las decisiones con un determinado grado de
confianza, en este sentido la asignatura de Estadstica tiene la finalidad de incursionarlos
dentro de esta ciencia como herramienta para la toma de decisiones en su desarrollo
profesional.
La asignatura est dividida en tres Unidades Didcticas: en la Primera Unidad Didctica
ingresaremos a conocer a la Ciencia Estadstica tocando temas de Estadstica descriptiva
como conceptos bsicos, organizacin y presentacin de datos y medidas descriptivas. En la
Segunda Unidad Didctica desarrollaremos los temas de Estadstica Inferencial
empezaremos conociendo los mtodos de muestreo para realizar estimacin de parmetros y
pruebas de hiptesis; y en la Tercera Unidad Didctica los Mtodos de Pronstico aplicando
anlisis de regresin y de correlacin. En la parte final se hace entrega del manual del
programa estadstico SPSS el cul se desarrollar en las clases de laboratorio pero es
necesario que le dediquemos algunas horas adicionales en casa para poder reforzar su
aplicacin. Del mismo modo se presenta una gua rpida del Excel en comandos estadsticos,
sobre todo para la construccin de tableros de frecuencia y su representacin, para su
posterior anlisis e interpretacin.
Este material llega a sus manos con la intensin de guiarlos en su aprendizaje en esta
asignatura, pero as mismo debe ser complementada con la bibliografa propuesta en el
silabo del curso.

El Autor

UNIDAD DIDCTICA I

ESTADSTICA DESCRIPTVA

INTRODUCCIN
En esta primera unidad para poder entender a la Ciencia Estadstica empezaremos por una
de sus ramas principales como es la Estadstica Descriptiva.
La Estadstica Descriptiva se ocupa, como su nombre lo indica, de describir las caractersticas
de una muestra o de una poblacin a travs de recopilar, organizar, presentar y resumir datos que
facilite la interpretacin y as extraer conclusiones de su comportamiento.
En el Tema 01 iniciamos con conceptos bsicos para poder entendernos en un lenguaje
comn; en el Tema 02 conoceremos los diferentes mtodos de organizacin y presentacin de datos
mediante tablas de frecuencias y grficos estadsticos; para el Tema 03 aplicaremos medidas
descriptivas que nos permitan resumir un conjunto de datos.

APRENDIZAJES ESPERADOS
Conoce y aplica eficientemente mtodos y tcnicas de estadstica descriptiva como herramientas
para la toma de decisiones y valora reflexivamente su importancia en su quehacer profesional.

CONTENIDOS
Tema 1: Introduccin a la estadstica
Tema 2: Organizacin y presentacin de datos
Tema 3: Medidas descriptivas

TEMA 01
1.1 INTRODUCCIN A LA ESTADSTICA
1.1.1 DEFINICIN
El trmino estadstica se deriva de la palabra latina status, que significa estado. Los primeros
usos de la estadstica tienen que ver con la recopilacin de datos y la elaboracin de grficas
para describir diversos aspectos de un estado o un pas. En 1662, Jhon Graunt public
informacin estadstica acerca de los nacimientos y los decesos. Al trabajo de Graunt siguieron
estudios de tasas de mortalidad y de enfermedad, tamao de poblaciones, ingresos y tasas de
desempleo. En la actualidad los hogares, gobiernos y empresas se apoyan en la estadstica para
dirigir sus acciones.
Para muchas personas, estadstica significa descripciones numricas. Lo anterior puede
verificarse fcilmente al escuchar, un domingo cualquiera, a un comentarista de televisin narrar
un juego de ftbol. Sin embargo, en trminos ms precisos, la estadstica es el estudio de los
fenmenos aleatorios.
Uno de los aspectos ms importantes en estadstica es la posibilidad de obtener conclusiones
basadas en los datos observados. Este proceso se conoce como inferencia estadstica. Si una
conclusin obtenida para un indicador econmico importante, una posible concentracin de
cierto contaminante o si se pretende establecer una relacin entre la incidencia de cncer
pulmonar y el fumar, es muy probable que dicha conclusin est basada en la inferencia
estadstica.
1.1.2 RAMAS DE LA ESTADSTICA
La estadstica se divide en dos ramas que no son independientes; por el contrario, son
complementarias y entre ambas dan la suficiente ilustracin sobre una posible realidad futura,
con el fin de que quien tenga poder de decisin, tome las medidas necesarias para transformar
ese futuro o para mantener las condiciones existentes.
En atencin a su metodologa, por sus procedimientos y alcances bien definidos, la ciencia
estadstica se clasifica en:
1.1.2.1 ESTADSTICA DESCRIPTIVA O DEDUCTIVA:

Son mtodos y tcnicas de recoleccin,


caracterizacin, resumen y presentacin que permite
describir apropiadamente las caractersticas de un
conjunto de datos.

Comprende el uso de grficos, tablas,


diagramas y criterios para el anlisis.
Existen diversos tipos de grficos adecuados
a los distintos datos que se desean representar.

1.1.2.2 ESTADSTICA INFERENCIAL O INDUCTIVA


Son mtodos y tcnicas que hacen posible
estimar una o ms caractersticas de una
poblacin o tomar decisiones referentes a la
poblacin basados en el resultado de muestras
elegidas adecuadamente.
Estas conclusiones no tienen que ser
totalmente vlidas, pueden tener cierto margen
de error, por eso se dan con una
medida de confiabilidad o probabilidad.

1.1.3 OBJETIVOS
Los objetivos de la estadstica pueden ser clasificados en tres grandes captulos: descripcin,
anlisis y prediccin.
1.1.3.1 Descripcin de grandes colecciones de datos empricos reducindolos a un pequeo
nmero de caractersticas que concentra la parte ms importante y significativa de la
informacin proporcionada por los datos.
La descripcin supone que los datos que vienen expresados en su forma natural deben
ser clasificados y presentados sistemticamente en cuadros o tablas como una pequea
reduccin de datos, esto se obtiene cuando el comportamiento y caractersticas de los
datos se expresan por un conjunto de indicadores, medidas de resumen o estadgrafos.
La estadstica se inicia estudiando el problema, puesto que es un trabajo preliminar de
casi todas las investigaciones estadsticas; de este modo tanto como la reduccin como
la descripcin de la informacin se estudia en la Estadstica Descriptiva.
Es importante anotar que la descripcin estadstica de los fenmenos o hechos es el
primer aspecto al cual se redujo la ciencia estadstica durante mucho tiempo,
aplicndose especialmente a los datos demogrficos, sociales econmicos, etc.
1.1.3.2 Anlisis estadstico de datos experimentales y de los fenmenos observados, toda la
investigacin estadstica incluye un problema de anlisis, con el objeto de formarse un
concepto de la poblacin o universo y adoptar decisiones; en este caso no es necesario
observar toda a una poblacin sino que ser suficiente elegir una muestra
representativa. La preocupacin del anlisis estadstico es inferir propiedades para una
poblacin sobre la base de resultados muestrales conocidos. Aqu se presenta varios
problemas que presentan la Estadstica, la estimacin estadstica, el clculo de
probabilidades, las pruebas estadsticas, etc. stos son aspectos que corresponde
esencialmente a la Inferencia Estadstica.
Todo anlisis debe suponer la eleccin adecuada de una muestra representativa, la que
ser estudiada en detalle para obtener conclusiones o resultados, que dentro de ciertos
mrgenes de aceptacin sean vlidas a toda la poblacin de la cual fue elegida la
muestra.
1.1.3.3 Prediccin o comportamiento de los fenmenos en el futuro, lo cual constituye la
mxima aspiracin prctica de toda ciencia. Este objetivo de prediccin y previsin est
implcito tanto en la descripcin como en el anlisis estadstico, puesto que en general
interesa orientar la toma de decisiones con vigencia y afecto en el futuro.
Naturalmente que las estimaciones y proyecciones dependen del grado de conocimiento
del comportamiento del pasado y presente de las variables en estudio.
Para concretar estos objetivos, la Estadstica se vale por una parte del censo, que
recopila datos del todo, analiza la distribucin y variacin de las caractersticas de los
elementos que componen una poblacin claramente definida; por otra parte del
muestreo, que permite estimar o inferir caractersticas de un todo considerando una
parte representativa. Basndose en el anlisis de experiencias y evaluaciones pasadas y
actuales, hace estimaciones de fenmenos y caractersticas para un futuro, propone
valores esperados. La estadstica tambin se vale de una serie de artificios matemticos
y del clculo de probabilidades, para definir sobre la validez de supuestos, construir
modelos y mtodos estadsticos.

1.1.4 CONCEPTOS BSICOS


1.1.4.1 POBLACIN
Es el conjunto mayor o coleccin completa de todos los elementos (puntajes. personas,
mediciones, etc.) que posee al menos una caracterstica comn observable, cuyo estudio
nos interesa o acerca de los cuales se desea informacin.
La poblacin debe estar perfectamente definida en el tiempo y en el espacio, de modo que
ante la presencia de un potencial integrante de la misma, se pueda decidir si forma parte o no
de la poblacin bajo estudio. Por lo tanto, al definir una poblacin, se debe cuidar que el
conjunto de elementos que la integran quede perfectamente delimitado.
La poblacin puede ser segn su tamao de dos tipos:
a. Poblacin finita: cuando se tiene un nmero determinado de elementos.
b. Poblacin infinita: cuando el nmero de elementos es indeterminado, o tan grande que
pudiesen considerarse infinitos.
Tamao de la Poblacin: Es el nmero total de elementos que tiene la poblacin estudiada y
se denota con la letra N
1.1.4.2 MUESTRA
Es un subconjunto de la poblacin a la cual se le efecta la medicin con el fin de estudiar
las propiedades de la poblacin de la cual es obtenida.
Una muestra debe ser representativa, esto es, guarda las mismas caractersticas de la
poblacin de donde fue seleccionada y debe ser adecuada en cuanto a la cantidad de
elementos que debe tener con respecto a la poblacin.
Existen diversos mtodos para calcular el tamao de la muestra y tambin para seleccionar
los elementos que la conforman, pero es importante que sea representativa de la poblacin
y sus elementos escogidos al azar para asegurar la objetividad de la investigacin.
Tamao de muestra: El nmero de elementos de la muestra se denota con letra n.

1.1.4.3 PARMETROS ESTADSTICOS


Es un nmero que describe alguna caracterstica de la poblacin o medida de resumen de
una poblacin. Se considera como un valor verdadero de la caracterstica estudiada y
para determinar su valor es necesario utilizar la informacin poblacional completa, y por lo
tanto la decisin se toman con certidumbre total.
1.1.4.4 ESTADGRAFO O ESTADSTICO

Es un nmero que describe alguna caracterstica de la muestra o medida de resumen de


una muestra y la toma de decisin contiene un grado de incertidumbre.

1.1.4.5 DATO
Es el valor, respuesta o registro que adquiere una caracterstica o variable asociado a un
elemento de la poblacin o muestra, como resultado de la observacin, entrevista o
recopilacin en general. Puede ser un nmero, una palabra o un smbolo.
1.1.4.6 VARIABLE
Es una caracterstica estudiada de las unidades estadsticas. Podemos mencionar los
siguientes tipos:
a. Segn la Naturaleza de la Variable
a.1 Variables Cualitativas o Estadsticas de Atributos
Cuando expresan una cualidad, caracterstica o atributo, sus datos se expresan
mediante una palabra, no es numrico. Por ejemplo: estado civil, los colores, lugar
de nacimiento, profesiones, actividad econmica, causas de accidentes, etc.
a.2 Variables Cuantitativas
Cuando el valor de la variable se expresa por una cantidad. El dato o valor puede
resultar de la operacin de contar o medir; por ejemplo: edad, nmero de hijos por
familia, ingresos, viviendas por centro poblado, niveles de desempleo, produccin,
utilidades de empresas, etc.
Las variables cuantitativas pueden ser: Discreta y Continua.
a.1.1 Variable Discreta
Cuando el valor de la variable resulta de la operacin de contar, su valor est
representado slo por nmeros naturales (enteros positivos); Ejemplos: hijos por
familia, nmero de accidentes por da, trabajadores por empresa, poblacin por
distritos, habitaciones por vivienda, etc.
a.1.2 Variable Continua
Cuando la variable es susceptible de medirse, es toda variable cuyo valor se
obtiene por medicin o comparacin con una unidad o patrn de medida. Las
variables continuas pueden tener cualquier valor dentro de su rango o recorrido,
por tanto se expresa por cualquier nmero real; Ejemplos: rea de parcelas,
ingresos monetarios, produccin de maz, peso, tiempo de servicios, horas
trabajadas, niveles de empleo, etc.

b. Segn la Escala de Medicin


La medicin de una variable consiste en asignar un valor a la caracterstica
observada.
Por ejemplo, si la caracterstica observada es el gnero de las personas, al
clasificar a una persona como de sexo femenino, le asignamos un valor, y
hacemos una medicin de la caracterstica.
El proceso de medicin utiliza diversas escalas: nominal, ordinal, intervalo y razn
El cuadro siguiente resme las caractersticas de los niveles de medicin:

Ejemplo:
El diario nacional La Voz tiene 600 empleados, de los cuales el 35% son mujeres. Se realiza un
estudio a 100 de estos empleados. Se encontr que la edad promedio en el grupo analizado es
de 35 aos, que el 25% han estudiado en provincias, que 60 de estos trabajadores tienen a lo
ms 4 hijos y que 15 trabajadores ganan ms de $4000.
a. Identifique la poblacin, muestra y unidad elemental.
Poblacin:
Muestra:
Unidad de elemental o unidad de anlisis:
Informacin

b. Qu variables se estudian indique adems el tipo y escala de medicin?


Variable

Tipo

Escala

Edad
Lugar de estudio
Nmero de hijos por empleado
Sueldo
c.

Cules son los estadsticos y parmetros?


Estadstico

Parmetro

En cada uno de los siguientes casos determine usted si el resultado es: parmetro,
observacin, variable, dato, informacin, estadstico o resultado de una inferencia estadstica.
a. El gerente del diario nacional La Voz observ que el Sr. Juan Tenorio, uno de los 600
empleados elegidos al azar, es casado, tiene 3 hijos, cuenta con grado de instruccin
superior y su ingreso mensual es de $1 500.
b.
Grado de instruccin
Superior

c.

60 de estos trabajadores tienen a lo ms 4 hijos y que 15 trabajadores ganan ms de


$4000

Ejemplo:
La gerencia de relaciones pblicas de la empresa distribuidora de agua potable ha
realizado una campaa para promover el ahorro del agua potable de los hogares de Lima
Metropolitana y mejorar as la imagen de la empresa. Para determinar si la campaa ha dado
resultado, se realiz una encuesta a una muestra de hogares de Lima Metropolitana
obtenindose la siguiente informacin:
3

El consumo promedio mensual de agua potable por hogar es de 12,5 m


El 20% de los encuestados opina que la calidad de servicio que brinda la empresa
distribuidora de agua potable es deficiente.
El nmero promedio de personas por vivienda en Lima Metropolitana es de 4,6
Del enunciado anterior identifique: poblacin, muestra, unidad elemental y tres variables en
estudio con su respectivo tipo.

Poblacin
Muestra
Unidad
elemental

ACTIVIDAD N1
Presente de manera formal los siguiente:
PRIMERA PARTE: EJERCICIOS
1. Mediante un organizador de conocimientos resuma el contenido tratado en el Tema 01.
2. Los clientes que se suscriben al diario local La Voz deben llenar un formato con
informacin personal. Algunos de los datos solicitados se presentan a continuacin.
Clasifique cada una de ellos indicando el tipo de variable y su respectiva escala de medicin.
Profesin

Centro de labores

Direccin

Estado civil

Nacionalidad

Nmero de hijos

Fecha de nacimiento

Edad

Ingreso mensual
familiar

Grado de
instruccin

Nmero de telfono

Nmero de DNI

3. Clasifique las siguientes variables en cualitativas o cuantitativas (continua o discreta):

a.
b.
c.
d.
e.
f.

Tiempo de servicio de los empleados de un medio de comunicacin.


Nivel educacional y religin de los empleados de un medio de comunicacin.
Lugar de nacimiento de una persona de los empleados de un medio de comunicacin.
Orden de llegada de los reporteros a una entrevista.
Nmero de diarios defectuosos que salen de la lnea de produccin del diario Informa.
Ingreso mensual de los trabajadores de una empresa publicitaria.

4. Se quiere hacer un estudio sobre las caractersticas ms importantes que debe tener una
pagina Web de un diario local.

a. Defina el objetivo del estudio, la poblacin objetivo, la unidad elemental, la unidad de


muestreo y el marco muestral del estudio.

b. Elabore un cuestionario que podra ser utilizado en el estudio, precisando para cada una
de ellas el tipo de variable y escala de medicin.
5. Analistas y Consultores realiz un estudio de mercado en el distrito de El Tambo con la
finalidad de analizar las posibilidades de instalar cabinas de Internet en la zona. Seleccion
una muestra de 200 hogares, encuestndoles sobre lo siguiente:

a.
b.
c.
d.

Ingreso familiar
Nmero de miembros de la familia
Grado de instruccin del jefe de la familia
Si tienen Internet en el hogar.

Del estudio de la muestra se encontr que el promedio del ingreso familiar es de 2500 soles,
el 30 % de hogares tienen Internet. Responda lo siguiente:

a.
b.
c.
d.

Indique cul es la poblacin de estudio?


Quienes constituyen la muestra?
Cul es un estadstico?
Qu variables se estn analizando? de qu tipo son?

6. Un diario local desea analizar qu tanta gente que adquiere el diario, estara interesada por
que se ofrezcan recetas de comidas tpicas de diferentes regiones del pas. Para ello de un
total de 2000 personas suscritas al diario, de las cuales el 70% son hombres. Se selecciona
aleatoriamente a 300 de las personas suscritas y se les consulta al respecto. Se encontr
que al 60% tiene mucho inters en recetas de comida tpica, 5 personas tienen su
restaurante, la edad promedio de las personas entrevistadas es de 30 aos, 10 de ellas
proceden de la Selva.

a. Identifique la poblacin, muestra y unidad elemental.


b. Indique qu variables se estn estudiando. Adems, escriba el tipo de variable y la escala
en que est medida.

c. Cules son los estadsticos y parmetros?


d. Qu datos se estn mencionando?
SEGUNDA PARTE: PROPUESTA DE INVESTIGACIN
Presente en una hoja su propuesta de investigacin mencionando de acuerdo a lo explicado:
a. Fundamento
b. Planteamiento
c. Ttulo
d. Objetivos: 01 general y 03 especficos.

10

TEMA 02
1.2 ORGANIZACIN Y PRESENTACIN DE DATOS
La siguiente fase a la recoleccin de datos es la crtica de campo, lo que significa realizar la
validacin y consistencia de los datos obtenidos durante el trabajo de campo, con la finalidad que en
la fase de Organizacin y Clasificacin de los Datos sea consistente y veraz los datos a
procesarse, analizarse y con la cual se va tomar decisiones.
1.2.1 CONCEPTOS BSICOS
Para iniciar la organizacin de datos definiremos algunos conceptos:
1.2.1.1 Clase
Es una divisin de la variable. Se denota como subndice con la letra i y el nmero total de
clases con m.
1.2.1.2 Frecuencia
Es las veces que se repite una clase de la variable. stas son: Simples y Acumuladas
a. Frecuencia Simple: Es aquella frecuencia que slo correspondes a una clase de la
variable entre ellas tenemos:
a.1 Frecuencia Absoluta Simple
La frecuencia absoluta simple de la clase ci es el nmero fi, de observaciones que
presentan una modalidad perteneciente a esa clase.
m

Adems se cumple que:

f
i 1

a.2 Frecuencia Relativa Simple


Frecuencia Relativa Simple de la clase ci es el cociente hi, entre las frecuencias
absolutas de dicha clase y el nmero total de observaciones, es decir:

hi

fi
n

Obsrvese que fi es el tanto por uno de observaciones que estn en la clase ci.
m

Tambin cumple:

h
i 1

a.3 Frecuencia Porcentual Simple


Frecuencia Porcentual Simple de la clase ci es el producto de pi, entre las frecuencias
relativas de dicha clase por 100, es decir

pi hi *100
m

Cumple lo siguiente:

p
i 1

100

b. Frecuencias Acumuladas: Aquellas frecuencias que se obtienen por la suma de dos o


ms clases de la variable
b.1 Frecuencia Absoluta Acumulada
Fi, se calcula sobre variables cuantitativas, y es el nmero de elementos de la
poblacin cuya modalidad es inferior o equivalente a la modalidad ci:
i

Fi f1 f 2 .... f i f k
k 1

11

b.2 Frecuencia Relativa Acumulada


Hi, se calcula sobre variables cuantitativas, siendo el tanto por uno de los elementos
de la poblacin que estn en alguna de las clases y que presentan una modalidad
inferior o igual a la ci, es decir:

Hi

i
Fi
h1 h2 ... hi hk
n
k 1

b.3 Frecuencia Porcentual Acumulada


Pi, se calcula sobre variables cuantitativas, siendo el tanto por ciento de los elementos
de la poblacin que estn en alguna de las clases y que presentan una modalidad
inferior o igual a la ci, es decir :
i

Pi H i *100 p1 p2 ... pi pk
k 1

1.2.2 Distribucin de Frecuencias


Llamaremos distribucin de frecuencias o tabla de frecuencias al arreglo de filas y
columnas que contiene al conjunto de clases junto a las frecuencias correspondientes a cada
una de ellas. Una tabla estadstica sirve para clasificar y ordenar los datos estadsticos.
1.2.2.1 Tablas Univariantes o unidimensionales
Se denomina as a las tablas de frecuencias que presentan informacin de una sola
variable. Sus formas generales son las siguientes:
a. Variable cualitativa
CLASE

fi

hi

pi

X1
X2
..
.
Xm
Total

f1
f2
.
.
fm
N

h1=f1/n
h2=f2/n
.
.
hm =fm/n
1

p1 =h1*100
p2 =h2*100
.
.
pm=hm*100
100

b. Variable cuantitativa
b.1 Cuantitativa Discreta
Si los datos son discretos y no hay mucha variabilidad se presentarn directamente
cada valor de la variable y sus respectivas frecuencias. El procedimiento ms simple
es listar los n datos en forma ascendente y luego elaborar la tabla de distribucin de
frecuencias indicando para cada valor de la variable su respectiva frecuencia con la
que aparece en la serie.

CLASE
X1
X2
X3
.
Xm
Total

fi
f1
f2
f3
.
.
fm
N

Fi
F1 = f 1
F2 = F1 + f 2
F3= F2 + f3

Fm = n

hi
h1=f1/n
h2=f2/n
h3=f3/n
.
.
hm=fm/n
1

12

Hi
H1 = h1
H2 = H1 + h2
H3= H2 + h3

Hm = 1

pi
p1
p2
p3
.
.
Pm
100

Pi
P1 = p1
P2 = P1 + p2
P3= P2 + p3

Pm = 100

b.2 Cuantitativa Continua


Para agrupar n datos de una muestra, los pasos son los siguientes:
1. Determine el rango R:
R = Xmx - Xmn
2. Determine el nmero de intervalos k:

Tome alguna de las siguiente recomendaciones:


El valor k debe ser mayor que 5 y no mayor que 20.
Regla de Sturges: k = 1 + 3,322 log n.
Regla de la raz cuadrada: k n .
k
Regla de la potencia de 2: k es el menor valor entero tal que 2 > n.
Siempre es un nmero entero. Si la estimacin tiene decimales, se toma el entero
ms prximo.
-

3. Calcule el ancho o amplitud de intervalo w:


w=R/k

Se redondea al nmero inmediato superior de acuerdo a la cantidad de decimales


que tienen los datos o segn la precisin con que se desea trabajar.

Puede haber intervalos con distinta amplitud.

Puede haber intervalos con amplitud indefinida (intervalos abiertos).


4. Determine los lmites de cada intervalo.

Partiendo del dato de menor valor Xmin se determinan cada uno de los lmites de
intervalos sumando la amplitud de clase a cada valor obtenido.

Si los datos con cuantitativos continuos, el lmite superior de un intervalo es el lmite


inferior del siguiente intervalo. Se considera que el intervalo es abierto en el lmite
inferior y cerrado en el lmite superior, con excepcin en el primer intervalo en el que
los dos lmites son cerrados.

Si los datos son cuantitativos discretos se cumple el punto anterior, pero tambin se
puede tomar todos los lmites de intervalos cerrados si el valor del lmite superior de
un intervalo es una unidad menor que el lmite inferior del siguiente intervalo.
5. Calcule la marca de clase o centro de clase X:

Punto medio de cada clase. Es la semisuma de los lmites de cada clase.


Representa a todos los datos que estn contenidos en una clase,
6. Construya la tabla de distribucin de frecuencias realizando la agrupacin y conteo
de los datos segn la clase a la que corresponda.
[yi-1

yi>

xi
X1= Mn + Mn+a
Mn Mn +a
2
X2= Mn +a+ Mn+2a
Mn+a Mn+2a
2
X3= Mn +2a+ Mn+3a
Mn+2a Mn+3a
2
.
.
.
.
Xm= Mn +ka+ Mx
Mn+ka Mx
2
Total

fi

Fi

hi

Hi

pi

Pi

f1

F 1 = f1

h1=f1/n

H1 = h1

p1

P1 = p1

p2

P2 = p1 +
p2

f2

F2 = f1 + f2 h2=f2/n H2 = h1 + h2

f3

F3

h3=f3/n

H3

p3

P3

.
.

.
.

.
.

Hm = 1

pm

Pm = 100

.
.

.
.

fm

Fm = n

hm

100

Ejemplo: Los datos en el cuadro Interrupciones corresponden al nmero de


interrupciones semanales en el sistema de red de una prestigiosa universidad
registrado el ltimo ao. La tabla de distribucin de frecuencias para estos datos se
muestra continuacin.

13

INTERRUPCIONES
3 0 1 2 2 5

Luego de identificar los valores de la variable Nmero de interrupciones se ha


realizado el conteo de cada uno de dichos valores. Posteriormente se ha calculado
la frecuencia relativa hi dividiendo cada fi entre n y finalmente multiplicando este
valor por 100 para obtener el pi%.
El
tablero
de
Interrupciones
f
hi
pi%
distribucin
de
frecuencias
0
20
0.3846
38.46
obtenido es:

15

0.2885

28.85

0.1538

15.38

0.1154

11.54

0.0385

3.85

0.0192

1.92

Total

52

100

De donde podemos interpretar que es usual que se produzcan tres o menos interrupciones por
semana en el sistema de red de dicha universidad.

Ejemplo: El jefe de la Oficina de Rentas de una Municipalidad ha realizado un estudio sobre los
impuestos que pagan los vecinos del distrito. La tabla en Excel muestra los pagos de impuestos,
en nuevos soles de 48 viviendas elegidas al azar en el 2013.
145,1
151,0
159,0
195,6

216,3
225,9
227,1
231,2

252,5
257,1
259,2
262,5

303,6
305,8
315,4
315,5

196,9
202,6
204,9
206,1

234,8
238,4
239,9
241,1

265,2
271,0
286,7
288,1

317,2
320,2
324,8
331,1

206,5
208,0
208,0
209,3

242,9
244,0
247,7
249,5

289,1
291,0
291,9
294,5

331,7
344,6
346,7
351,1

La tabla de frecuencias para la variable pago por impuestos municipales ao 2013 sera:
Mximo

351,1

Mnimo

145,1

Rango

206

Cantidad de datos (n)

48

k (por regla de Sturges)

6,585
08
7

k (entero)
w (Amplitud)
N. de decimales de los datos
datos
w (redondeada)

14

29,42
86
1
29,5

A continuacin la tabla de distribucin de frecuencias:

Distribucin de frecuencias del pago de impuestos municipales del ao 2013


Pago de impuestos

[145,1
]174,6
]204,1
]233,6
]263,1
]292,6
]322,1

;
;
;
;
;
;
;

Marca de clase

174,6]
204,1]
233,6]
263,1]
292,6]
322,1]
351,6]

fi
3
3
10
12
7
7
6
48

159,8
5
189,3
5
218,8
5
248,3
5
277,8
5
307,3
5
336,8
5

Total

hi
0,0625
0,0625
0,2084
0,2500
0,1458
0,1458
0,1250

Fi
3
6
16
28
35
42
48

Hi
0,0625
0,1250
0,3334
0,5834
0,7292
0,8750
1,0000

De donde podemos interpretar que:

f2 = 3

En tres viviendas pagaron ms de 174,60 nuevos soles y hasta de


204,10 nuevos soles

F2 = 6

En seis viviendas pagaron hasta 204,10 nuevos soles

h3 = 0,2084

El 20,84% de las viviendas pagaron ms de 204,10 nuevos soles y hasta


233,6 nuevos soles

H3 = 0,3334

El 33,34% de las viviendas pagaron hasta 233,60 nuevos soles

Ejercicio

A continuacin, se muestra el tiempo de servicio, en meses, de los trabajadores del rea de servicios
de una gran empresa. Usando la regla de Sturges construya la tabla de distribucin de frecuencias,
10
16
21
21
23

24
25
31
31
33

38
39
39
40
40

40
40
40
43
43

43
43
43
44
44

44
46
46
47
48

Solucin
Clculo de los lmites de los intervalos
Mximo
Mnimo
Rango
Cantidad de datos (n)
k (por regla de Sturges)
k (entero)
w (Amplitud)
N. de decimales de los datos
w (redondeada)

15

51
51
52
53
53

53
53
53
54
54

55
55
55
55
55

57
57
58
62
65

Clculo de las frecuencias

Seleccione el rango en el cual aparecern las frecuencias respectivas.


Haga clic en el icono de Insertar funcin, seleccione Frecuencia y de Aceptar.
En la ventana de Frecuencia, ingrese en Datos el rango de los datos que se desea contar. En
Grupos, ingrese el rango de celdas de los lmites superiores de los intervalos.
Manteniendo presionado Ctrl + Shift, presione Enter, con lo cual aparecern las frecuencias
absolutas.
Calcule las dems frecuencias y las marcas de clase.

Distribucin del tiempo de servicio de los trabajadores de la empresa ptima


Tiempo de servicio

Marca de clase

fi

hi

Fi

Hi

Interprete:

1.2.2.2 Tablas bivariantes o bidimensionales


Se denominan as a las tablas que presentan informacin de dos variables en forma
conjunta. Sus formas generales son las siguientes:

Tablas bivariantes de frecuencias absolutas

[yi-1 yi>
[xi-1 xi>
[x1

x2>

[x2

x3>

[x3

x4>

[xm-1

[y1 y2> [y2 y3> [y3 y4> [y4 y5>

... ..

[yn-1 yn>

fi.

f11

f12

f13

f14

f1n

f1.

f21

f22

f23

f24

f2n

f2.

f31

f32

f33

f34

f3n

f3.

fm1

fm2

fm3

fm4

fmn

fm.

f.1

f.2

f.3

f.4

f.n

xm>
f.j

16

De igual manera se puede construir tablas bivariantes para frecuencias relativas o porcentuales
de acuerdo a las necesidades de presentacin de informacin.
Ejemplo:
Distribucin de individuos
por gnero
musical
y grado
identificacin
del candidato.
Tabla de contingencia
Identifi
ca al candi
dato * de
Gnero
musical

Identif ica al
candidat o

Plenamente

Medianamente

No ident if ica

Total

Recuent o
% de I dent if ica al
candidat o
% de Gnero musical
% del total
Recuent o
% de I dent if ica al
candidat o
% de Gnero musical
% del total
Recuent o
% de I dent if ica al
candidat o
% de Gnero musical
% del total
Recuent o
% de I dent if ica al
candidat o
% de Gnero musical
% del total

Gnero musical
Reggaet on
Vals
Cumbia
149
97
55

Total
301

49.5%

32.2%

18.3%

100.0%

84.2%
35.1%
12

63.0%
22.8%
30

58.5%
12.9%
35

70.8%
70.8%
77

15.6%

39.0%

45.5%

100.0%

6.8%
2.8%
16

19.5%
7.1%
27

37.2%
8.2%
4

18.1%
18.1%
47

34.0%

57.4%

8.5%

100.0%

9.0%
3.8%
177

17.5%
6.4%
154

4.3%
.9%
94

11.1%
11.1%
425

41.6%

36.2%

22.1%

100.0%

100.0%
41.6%

100.0%
36.2%

100.0%
22.1%

100.0%
100.0%

Los datos tambin pueden ser representados en barras apiladas de porcentajes donde la
cantidad para cada valor de la variable elegida para el eje horizontal representa el total parcial (o
el 100%) y las cantidades (o los porcentajes) de la segunda variable van a dar lugar a dicha
cantidad (o el 100%).

Distribucin de individuos por


gnero musical y grado de
identificacin

Distribucin de individuos
segn identificacin de un
candidato por gnero musical
100%
80%

9%
7%

4%

50%

37%

40%

18%
19%

6%
7%

30%

60%
40%

4%
3%

84%
63%

20%

20%

59%

35%

1%
8%

23%

10%

13%

0%

0%
Reggaeton
Plenamente

Vals

Reggaeton

Cumbia

Medianamente

Plenamente

Vals

Medianamente

Cumbia
No identifica

1.2.3. Cuadro Estadstico:


Se utiliza para presentar la informacin estadstica en forma ordenada y de fcil lectura para
cualquier usuario, se presenta en informes finales y tiene las siguientes partes:
1.2.3.1 Componentes de un cuadro:
Una grfica, cuadro o una tabla, debe constar de:
Ttulo adecuado: Claro y conciso, que responda a las preguntas: Qu relaciona?,
cmo?, cundo?, y dnde se hicieron las observaciones?.
El cuerpo: o cuadro en s, donde debe considerar el o los tipos de variables a
relacionar, el pblico a quien va dirigido y presentarse las frecuencias que sean ms
necesarias.

17

Notas Explicativas: En ella se presentan aclaraciones respecto a la informacin que


se est presentando. Este componente es opcional.
Fuente: Corresponde al rea de la empresa o institucin responsable de la elaboracin
de la informacin.
Una tabla de frecuencias o cuadro estadstico debe presentar los siguientes elementos
bsicos:

1.2.4 Grfico Estadstico


Una grfica o diagrama estadstico es un dibujo complementario a una tabla o cuadro, que
permite observar las tendencias de un fenmeno en estudio y facilita el anlisis estadstico de
las variables ah relacionadas.
1.2.4.1 Componentes de una grfica:
Una grfica, cuadro o una tabla, debe constar de:
Ttulo adecuado: Claro y conciso, que responda a las preguntas: Qu relaciona?,
cmo?, cundo?, y dnde se hicieron las observaciones?
El cuerpo: Es el grfico en s, cuya eleccin debe considerar el o los tipos de variables
a relacionar, el pblico a quien va dirigido y el diseo artstico del grfico.
Fuente: Corresponde al rea de la empresa o institucin responsable de la elaboracin
de la informacin

18

1.2.4.2 Principales tipos de grficos


Existe una gran cantidad de grficos para la representacin de datos estadsticos, entre
los principales tenemos:
a. Grfico de Barras:
El grfico de barras, como su nombre lo indica, est constituido por barras
rectangulares de igual ancho, conservando la misma distancia de separacin entre
s. Se utiliza bsicamente para mostrar y comparar frecuencias de variables
cualitativas o comportamientos en el tiempo, cuando el nmero de tems es
reducido.Se construye de la siguiente manera la base de las barra la conforman las
categoras de la variable y su altura se presenta con la frecuencias simples
(absoluta, relativa o porcentual).
Se clasifican por:
Barras Simples: Compara valores entre categoras de una variable
Barras Dobles: Compara valores entre categoras de dos variables
Barras Mltiples Compara valores entre categoras de dos variables
Barras Verticales: Las categoras de la variable deben ubicarse en el eje X
Barras Horizontales: Las categoras de la variable deben ubicarse en el eje Y
Barras Apiladas: Compara entre categoras el aporte de cada valor en el total

Fuente: DATUM

b. Grfico de Sectores Circulares (Pie):


Usualmente llamado grfico de pastel, debido a su forma caracterstica de una
circunferencia dividida en sectores, por medio de radios que dan la sensacin de un
pastel tajado en porciones.
Se usa para representar variables cualitativas en porcentajes o cifras absolutas
cuando el nmero de tems no es superior a 5 y se quiere resaltar uno de ellos.

19

Fuente: DATUM

c. Grfico de Lneas o Tendencia:


Usado bsicamente para mostrar el comportamiento de una variable cuantitativa a
travs del tiempo. El grfico de lneas consiste en segmentos rectilneos unidos
entre s, los cuales resaltan las variaciones de la variable por unidad de tiempo.
Cuando se tienen varias variables a representar, con el fin de establecer
comparaciones entre ellas (siempre que su unidad de medida sea la misma); se
utiliza plasmarlos en un slo grfico, el cual es el resultado de representar varias
variables en un mismo plano. A este tipo de grfico se le conoce como grfico de
lneas compuesto.

Fuente: DATUM

d. Histograma de Frecuencias:
Es un grfico de barra pero unidas. Se utiliza bsicamente para mostrar la
distribucin de frecuencias de variables cuantitativas. El histograma se construye
dibujando barras contiguas que tienen como base la amplitud de cada intervalo y
como alturas las frecuencias respectivas.

20

Edades de los participantes de la Olimpiada de Video Juegos 2013

Fuente: Excel Foro Blogspot.com

e. Polgono de Frecuencias:
Es un grfico poligonal cerrado. Se utiliza bsicamente para mostrar la distribucin
de frecuencias de variables cuantitativas. Para la construccin de un polgono de
frecuencias, se marcan los puntos medios (marcas de clase) de cada uno los
intervalos en la parte superior de cada barra del histograma de frecuencias, los
cuales se unen con segmentos de recta.
Frecuencia de Visitas externas a la Piscina de un Colegio Privado

f. Histograma de Frecuencias Acumuladas:


Se utiliza bsicamente para mostrar la distribucin de frecuencias acumulada de
variables cuantitativas. El histograma de frecuencias acumuladas tambin es
obtenido a partir de una distribucin de frecuencias, tomando en el eje horizontal las
clases de la variable, y en el eje vertical las frecuencias acumuladas
correspondientes a cada intervalo. Se construye de la misma manera que un
histograma, pero utilizando frecuencias acumuladas. Se puede mostrar mediante las
barras o bien mediante un polgono abierto. Para la construccin de un histograma
de frecuencias acumulado, se marcan los lmites superiores de cada uno los
intervalos en la parte superior de cada barra del histograma de frecuencias
acumulado, los cuales se unen con segmentos de recta. Este grfico se le conoce
tambin con el nombre de Ojiva de frecuencias.
Distribuidora Del Valle S.A.: Ventas Diarias en artculos de
primera necesidad

Venta diarias (miles de sles)

Distribuidora Del Valle S.A.: Ventas Diarias en


artculos de primera necesidad

Venta diarias (miles de sles)

21

g. Diagramas de dispersin o nubes de puntos:


Este tipo de grfico es til para representar la relacin existente entre dos variables
de tipo cuantitativo
La representacin grfica de este tipo de variables es en realidad semejante a la
representacin de puntos en el plano, usando unos ejes de coordenadas. Cada
pareja de valores da lugar a un punto en el plano y el conjunto de puntos que se
obtiene se denomina "diagrama de dispersin o nube de puntos".
Televisores: Relacin entre Unidades Vendidas y Precio
V
e
n
t
a

Precio (Dlares)

h. Pictograma:
Tiene la caracterstica de que las unidades de la variable se debe representar con
smbolos que lo identifique y su tamao va en relacin a la frecuencia de la
categora de la variable

i. Pirmide:
Se utiliza principalmente para presentar la distribucin de la poblacin por grupos
etreos y gnero

Varn

Mujer

+70
65-69
60-64

55-59
50-54
45-49
40-44
35-39
30-34
25-29
20-24

15%

10%

5%

0%

5%

10%

15%

Pirmide Poblacional construida en el Excel.

22

j. Mapa:
Se utiliza principalmente para presentar informacin estadstica por zonas geogrficas
de un pas, regin, etc.

k. Diagrama de Pareto
El diagrama de Pareto es una representacin grfica que permite identificar y
seleccionar los aspectos prioritarios que hay que tratar en un determinado problema.
Tambin se conoce como diagrama ABC o Ley de las prioridades 20-80, que dice: el
80% de los problemas que ocurren en cualquier actividad son ocasionados por el 20%
de los elementos que intervienen en producirlos. Sirve para conseguir el mayor nivel
de mejora con el menor esfuerzo posible. El objetivo de esta representacin es
clasificar dichos elementos es en dos grupos: los pocos vitales y los muchos triviales.
Los pasos para la elaboracin del diagrama de Pareto son:
Construya

una tabla de distribucin de frecuencias ordenando las categoras en forma


descendente respecto a la frecuencia.
La categora Otros deber ser colocada en la ltima posicin, no importa cuan grande
sea, porque est compuesta de un grupo de categoras cuyas frecuencias son menores
en relacin al valor de la variable con frecuencia ms pequea listado individualmente.
Agregue a la tabla de distribucin de frecuencias una columna para las frecuencias
acumuladas absolutas F.
Elabore el diagrama de Barras y agregue la lnea de frecuencias acumuladas relativas
H F n.
Ejemplo:
Para crear un diagrama de Pareto debemos preparar los datos.

23

Posteriormente insertar una grfica de columnas seleccionando toda la tabla de datos .

Ahora debemos convertir el grfico del porcentaje acumulado en un grfico de lnea.

Ahora debemos agregar el eje secundario. Para ello se selecciona la grfica de lnea y
en las opciones de Formato elige trazar el eje secundario.

24

Ahora que tenemos un diagrama de Pareto bsico podemos terminar dndole algn
formato especial y de manera opcional agregar una lnea que muestre una constante
del 80%

ACTIVIDAD N2
Resuelva los ejercicios propuestos a continuacin utilizando el archivo ACTIVIDAD N2 y presntelos
de manera formal, puedes realizar el trabajo en el Excel o de manera analtica. Para ambos casos
presenta el desarrollo paso por paso, tablero de frecuencia, grfico y tres interpretaciones por cada
caso.
1. Los sistemas de cmputo colapsan por muchas razones, entre ellas las fallas de hardware o
software, errores del operador, sobrecargas del sistema mismo y a otras causas. Los resultados
obtenidos en un estudio acerca de las causas de colapso en una muestra de 98 sistemas de
cmputo se encuentran en la hoja Colapso. Suponga que se debe priorizar entre las dos
principales causas de colapso de los sistemas de cmputo. Elaborar un grfico adecuado que
permita establecer una estrategia apropiada.
2. El tiempo de inactividad es la cantidad del tiempo en el que un sistema de computadora no opera
debido a una falla de hardware y software. Cuando el sistema se encuentra inactivo durante ms
de una hora todos los archivos de trabajo actuales se pierden. Los datos agrupados en la hoja
Inactividad corresponden a los tiempos de inactividad (en minutos) registrados en una muestra
de 30 y 28 sistemas de computadoras del turno maana y tarde respectivamente.
Turno maana
i
1
2
3
4
5
6

Lim Inf
20.5
25.5
30.5
35.5
40.5
45.5

Lim Sup
25.5
30.5
35.5
40.5
45.5
50.5

Marca
23
28
33
38
43
48

30

Turno tarde
f

28

a. Construir el polgono de frecuencias para los datos agrupados del turno maana y tarde en un
solo grfico.
b. Elaborar un informe sustentado en el grfico obtenido en el punto anterior.
3. Una distribuidora de circuitos integrados para computadoras vende su producto en lotes de 100
circuitos. Para la inspeccin de calidad se examinan 20 circuitos elegidos al azar de cada lote y
se rechaza en caso de encontrar ms de 4 circuitos defectuosos. Los datos en la hoja Circuitos
muestra el nmero de circuitos defectuosos luego de inspeccionar 52 lotes. Construir una tabla de
distribucin frecuencias para la variable en estudio.
4. Se quiere comparar los resultados obtenidos por tres operadores, en cuanto a los tiempos (en
minutos) utilizados en el restablecimiento de servicio de redes en el sistema de una importante
entidad bancaria. Los resultados obtenidos se encuentran en la hoja Operador.
a. Construir las tablas de distribucin de frecuencias para los tres operadores por separado. Use
la regla de Sturges.
b. Construir los histogramas respectivos. Use la frecuencia relativa simple para cada grfico.
c. Elaborar un informe sustentado en los grficos obtenidos en el punto anterior.
5. El jefe del rea de sistemas de una empresa realiz un estudio para analizar el tiempo que
demoran los empleados en detectar y resolver un problema informtico de software o hardware.

25

El estudio trata de estudiar las diferencias de tiempos en los turnos de trabajo A y B de una
empresa. La hoja Tiempo muestra los datos obtenidos para una muestra de 40 problemas
informticos presentados en el turno A y 100 problemas informticos presentados en el turno B.
a. Construir la tabla de distribucin de frecuencias para el turno A. Use la regla de Sturges.
b. Construir los histogramas respectivos. Use la frecuencia relativa simple para cada grfico.
c. Elaborar un informe sustentado en los grficos obtenidos en el punto anterior.
6. Se tiene informacin sobre los problemas de soporte tcnico encontrados durante la instalacin y
configuracin de Exchange 2000 Server y Exchange Server 2003. Construya un grfico apropiado
para poder identificar los problemas principales. Los datos se encuentran en la hoja Instalacin.
La descripcin de los problemas mencionados y la tabla de distribucin de frecuencias se
muestran a continuacin.
Problema
A
B
C
D
E
F
Otros

Descripcin
Error de actualizacin de Exchange Server 5.5
Permisos insuficientes
Problemas con el sistema de nombres de dominio (DNS)
Forestprep o Domainprep no finalizaron correctamente
Permisos de Active Directory insuficientes
Falta el contenedor de conexiones de Active Directory
Otros problemas

Problema
A
B
C
D
E
F
Otros

f
200
150
100
50
30
20
10
560

h
0.357
0.268
0.179
0.089
0.054
0.036
0.018

F
200
350
450
500
530
550
560

H
0.357
0.625
0.804
0.893
0.946
0.982
1.000

ACTIVIDAD ADICIONAL
1. Alpha Soft es una compaa dedicada a brindar servicios informticos a empresas que deseen
tener una presencia firme y contundente en la red. Esta compaa se dedica al tendido de redes
LAN, instalacin de equipos, servidores y toda una gama de productos tecnolgicos que puedan
resultar imprescindibles para una empresa. Como parte de un estudio realizado por Alpha Soft se
analiza la informacin correspondiente a las siguientes variables:
I.
II.
III.
IV.
V.

Tipos de lenguajes de programacin (Cobol, Java, Informixs-4gl, etc)


Cantidad de servidores por empresa.
Costo de las licencias de software (en dlares)
Sistema operativo instalado (Windows, UNIX, etc)
Fecha de mantenimiento del software.

Para la lista anterior identifique el tipo de variable y la escala de medicin correspondiente.


2. La empresa Beta Internet llev a cabo un estudio entre los usuarios de Internet en Lima para
poder analizar el mercado de posibles compradores a travs de este servicio. Como parte del
estudio realizado se analiz la informacin correspondiente a una muestra de 1500 usuarios con
relacin a las siguientes variables:
I. Edad del principal usuario.
II. Nmero de computadoras en casa con servicio de Internet.

26

III. Calidad del servicio de Internet (bueno, regular, deficiente).


IV. Tiempo diario de uso del servicio de Internet (en horas).
V. Marca de la computadora con mayor uso del servicio de Internet.
De acuerdo al enunciado anterior identificar la poblacin, muestra, el tipo de variable y la escala
de medicin correspondiente.
3. Los datos en la hoja Dominios tiene informacin para una muestra sobre los dominios de
segundo nivel registrados bajo la categora .pe. La tabla de distribucin de frecuencias para estos
datos se muestra a continuacin.
Dominio

com.pe
org.pe
edu.pe
gob.pe
net.pe
Otros

285
106
64
26
3
16

0.570
0.212
0.128
0.052
0.006
0.032

57.0
21.2
12.8
5.2
0.6
3.2

500

a. Construir un grfico de barras.


b. Construir un grfico circular.

4. Los datos en la hoja Interrupciones corresponden al nmero de interrupciones semanales en el


sistema de red de una prestigiosa universidad registrado el ltimo ao. La tabla de distribucin de
frecuencias para estos datos se muestra continuacin.
Interrupciones
0
1
2
3
4
5
Total

f
20
15
8
6
2
1
52

Construir un diagrama de barras y lneas.

5. Enigma Systems S.A. emprendi un estudio para determinar el comportamiento de un sistema de


grabacin de programas informticos. Para que el proceso funcione adecuadamente la seal
debe estar entre 9.2 y 10 voltios. Se instalaron los sistemas de grabacin y se tomaron lecturas
respectivas. Los datos registrados se encuentran en la hoja Lecturas.
a. Construir la tabla de distribucin de frecuencias usando la regla de Sturges.
b. Elaborar segn la tabla anterior el histograma, polgono y ojiva.

27

TEMA 03
1.3 MEDIDAS DESCRIPTIVAS
En los temas anteriores, se trat sobre la clasificacin, ordenacin y presentacin de datos
estadsticos en distribuciones de frecuencia, limitando el anlisis de la informacin a su interpretacin
porcentual.
Una distribucin de frecuencias presenta siempre varios valores. Si tratamos de saber cules de
estos valores por s solos definen mejor al conjunto, no es posible decidir por cual de ellos.
El anlisis estadstico propiamente dicho, parte de la bsqueda de parmetros sobre los cuales pueda
recaer la representacin de toda la informacin, realizndose esta representacin en las medidas
descriptivas o tambin denominadas medidas de resumen.
Las principales medidas descriptivas se clasifican en:
1.3.1 Medidas de Tendencia Central y Posicin1.3.3 Medidas de Asimetra
1.3.2 Medidas de Dispersin1.3.4 Medidas de Kurtosis

1.3.1 MEDIDAS DE TENDENCIA CENTRAL Y POSICIN


Las medidas de tendencia central, llamadas as porque tienden a localizarse en el centro de la
informacin.
De tendencia porque no necesariamente son valores que la distribucin presenta, sino valores hacia
los cuales tiende o aproxima.
Centrales porque, normalmente, en el grfico de frecuencias sern siempre valores medios
centrales.
Las medidas de tendencia central responden a la necesidad de describir una colectividad en funcin
de una sola medida que la caracterice y distinga, ya sea porque son los ms frecuentes (moda) o
porque alrededor de ellos se agrupa la mayor parte de la poblacin o muestra (media o mediana),
Las medidas de tendencia central, son tambin medidas de posicin ya que, de todas maneras
ocupan un lugar dentro de la informacin, los parmetros posicionales son muy tiles en la
interpretacin porcentual de la informacin.
Este tipo de medidas son de gran importancia en el manejo de las tcnicas estadsticas, sin embargo,
su interpretacin no debe hacerse aisladamente de las medidas de dispersin, ya que la
representatividad de ellas est asociada con el grado de concentracin de la informacin.
Las principales medidas de tendencia central y posicin son:
1.3.1.1 Media aritmtica.
1.3.1.2 Mediana
1.3.1.3 Moda.
1.3.1.4 Media Ponderada
1.3.1.5 Cuantiles (Medidas de localizacin)

1.3.1.1 MEDIA ARITMTICA


Definida matemticamente como el cociente entre la suma de todos los valores de la variable
y el nmero de observaciones.
a. Simbologa:

Si la media muestral es calculada de una poblacin se simboliza mediante


Si la media muestral es calculada de una muestra de una poblacin se simboliza mediante

x
b. Clculo de la Media
La media, media aritmtica o promedio de un conjunto de datos es la suma de dichos valores
dividida entre el nmero total de datos.
Datos no agrupados

28

Media poblacional:

1
N

xi Media muestral: x

1
N

i 1

1 n
xi
n i 1

Datos agrupados
Media poblacional:

i 1

/
i

f i Media muestral: x

1 k /
xi f i
n i 1

xi es el valor del dato individual., xi/ la marca


de clase, n es el tamao de la muestra y N es el tamao de la poblacin.
donde k es el nmero de intervalos,

Ejemplo :
La inversin anual (en miles de nuevos soles) de un grupo de pequeas empresas de
la ciudad fueron:
10 12 40 10 30 14 16 20 25 28 30 26 30 10 18 17
13 17 21 14 15 19 27 22 14 11 13 15 18 20 30 39
Calcule e interprete la media.
Solucin:
Obtenemos

10 12 40 10 30 ... 39
20.125
32

Interpretacin: En promedio las pequeas empresas invierten 20.125 nuevos soles al


ao.
b.2 Para datos agrupados

xi f i
n

X xi hi

Ejemplo 2: Variable Discreta


Se selecciona al azar 140 vendedores de una gran compaa de seguros. A
continuacin se muestra el nmero de plizas vendidas durante una semana. Calcule
e interprete la media
N de
Vendedores
Plizas
1

10

15

20

40

24

15

12

Solucin:
Completando la siguiente tabla para el clculo de la media aritmtica
N de Plizas
1
2
3
4
5
6
7
8
9
Total

Vendedores
2
10
15
20
40
24
15
12
2

29

Xi*fi
2
20
45
80
200
144
105
96
18
710

El promedio es:

fi

710
5.07
140

Interpretacin:
El nmero de plizas que se venden en promedio en dicha empresa es 5.
Ejemplo 3: Variable Continua
El siguiente cuadro muestra las ventas registradas en 388 facturas de la Empresa
Pasaly, calcule e interprete la venta promedio por factura.
Montos

Facturas

1 500 - 2 900

27

2 900 - 5 700

58

5 700 - 8 700

216

8 700 - 11 000

52

11 000 - 14 000

23

14 000 - 17 000

12

Solucin:
Completando la siguiente tabla para el clculo de la media aritmtica
Montos

Facturas

Xi

Xi*fi

1 500 - 2 900

27

2200

59400

2 900 - 5 700

58

4300

249400

5 700 - 8 700

216

7200

1555200

8 700 - 11 000

52

9850

512200

11 000 - 14 000

23

12500

287500

14 000 - 17 000

12

15500

Total

388

El promedio es:

186000
2849700

fi

2849700
7344.59
388

Interpretacin: El monto promedio de facturacin de dicha empresa es de 7344.59


c. Propiedades de la media aritmtica
- La suma de las diferencias de los datos con respecto a la media aritmtica es igual cero.

- La suma de las diferencias cuadrticas de los datos, con respecto a la Media Aritmtica,
es mnima.
- La media aritmtica de una constante es la misma constante.
- Si a cada uno de los resultados le sumamos o le restamos una constante k , la Media
Aritmtica queda alterada en esa constante.
- Si cada uno de los datos se multiplica por una constante k, entonces la media aritmtica
queda multiplicada por esa constante
- La media aritmtica de la suma o diferencia de dos variables es la suma o diferencia de
sus medias.

30

d. Ventajas de la media aritmtica


- Es fcil de entender y usar.
- Hace uso de todos los datos de la distribucin, por lo cual es una medida de tendencia
central eficiente.
- Es el ms conocido y popular de los promedios, el primero en el que piensan las
personas, aunque no sepan estadstica.
- El hecho de que su definicin no sea lgica sino matemtica hace que sea la medida de
tendencia central usada con preferencia en Inferencia Estadstica y en la mayora de
tests estadsticos.
e. Desventajas de la media aritmtica
- Puede ser influenciada por valores extremos, que la hagan perder su valor como medida
de tendencia central
- En ciertos casos puede no representar un valor observable, lo cual en el caso de
variables discretas resulta artificioso.
- No puede calcularse para series cualitativas.
- Resulta tedioso calcular la media debido a que utilizamos cada uno de los puntos de dato
de nuestro clculo.
- Somos incapaces de calcular la media para un conjunto de datos que tiene clases de
extremo abierto, ya sea en el inferior o en el superior de la escala.
1.3.1.2 MEDIANA
Su definicin no es matemtica sino lgica, entendemos por mediana aquel valor de la
variable que divide en dos partes iguales a un conjunto ordenado de datos.
a. Simbologa
Se simboliza con Me
b. Clculo de la Mediana
b.1 Para datos no agrupados
Para el clculo de la mediana los datos deben estar ordenados de menor a mayor, y
deja a su izquierda y derecha el mismo nmero de elementos, es decir, el valor que
ocupa el lugar central es la mediana.
Lo anterior tiene sentido en caso de que la serie tenga un nmero impar de
elementos, si por el contrario tuviera un nmero par habra dos valores centrales, y en
este caso se toma como mediana la media aritmtica de los dos valores centrales.
Ejemplo: Si el nmero de datos es par
La inversin anual (en miles de soles) de un grupo de pequeas empresas de la
ciudad fueron:
10 12 40 10 30 14 16 20 25 28 30 26 30 10 18
13 17 21 14 15 19 27 22 14 11 13 15 18 20 30
Calcule e interprete la mediana.
Solucin:
Primero debemos ordenar los datos en forma ascendente (de menor a mayor)
10 10 10 11 12 13 13 14 14 14 15 15 16 17 17
18 19 20 20 21 22 25 26 27 28 30 30 30 30 39
Luego el nmero de datos se divide en dos partes iguales

17
39

18
40

n 32

16
2 2

Se elige los valores centrales de la variable que tiene la posicin i=16 y i=17 que para
el ejercicio son 18 y 18

31

La mediana ser:

Me

18 18
Me 18
2

Interpretacin:
El 50% de las pequeas empresas han invertido como mximo 18 mil nuevos soles al
ao.
Ejemplo: Si el nmero de datos es impar
La inversin anual (en miles de nuevos soles) de un grupo de pequeas empresas de
la ciudad fueron:
10 12 40 10 30 14 16 20 25 28 30 26 30 10 18 17 18
13 17 21 14 15 19 27 22 14 11 13 15 18 20 30 39
Calcule e interprete la mediana.
Solucin:
Primero debemos ordenar los datos en forma ascendente (de menor a mayor)
10
18

10
19

10
20

11
20

12
21

13
22

13
25

14
26

14
27

14
28

15
30

Luego el nmero de datos se divide en dos partes iguales

15
30

16
30

17
30

17
39

18
40

18

n 33

16,5
2 2

Se elige el valor centrales de la variable que tiene la posicin i=17, X17=18


La mediana ser: Me 18
Interpretacin:
El 50% de las pequeas empresas han invertido como mximo 18 mil nuevos soles al
ao.
b.2 Para datos agrupados
El primer paso es identificar el intervalo en el que por primera vez la frecuencia
relativa acumulada es por lo menos 0.5. Dicho intervalo ser el que contenga el valor
de la mediana.
Mediana poblacional: Me

Mediana muestral: me

donde

Li

Li

wN

Fi 1
fi 2

w n

Fi 1
fi 2

L i es el limite inferior del intervalo que contiene a la mediana, w es el ancho

de clase, f i es la frecuencia absoluta simple del intervalo que contiene a la mediana,

Fi 1 es la frecuencia absoluta acumulada del intervalo anterior al que contiene a la


mediana, n es el tamao de la muestra y N es el tamao de la poblacin.
Ejemplo 2: Variable Discreta

Se selecciona al azar 140 vendedores de una gran compaa de seguros. A


continuacin se muestra el nmero de plizas vendidas durante una semana.

32

N de
Plizas

Vendedores

10

15

20

40

24

15

12

Calcule e interprete la mediana.


Solucin:
Como los datos tabulados ya estn ordenados, debemos encontrar el valor de la
variable que ocupa la posicin central, entonces dividimos al conjunto de datos n en
dos partes:

n 140

70
2
2

Entonces ubicamos en la tabla el valor que tenga la posicin 70, para eso calculamos
la frecuencia acumulada. Como regla prctica se busca el primer valor en el F
acumulado que contenga a al n/2, en este caso es el F5 cuyo valor es 87 siendo
mayor que 70 por primera vez en el acumulado.

N de
Plizas

Vendedores

Fi

10

12

15

27

20

47

40

87

24

111

15

126

12

138

140

Entonces la mediana es:

Me 5

Interpretacin:
El 50% de los vendedores vende 5 o ms plizas .

Ejemplo: Variable Continua


El siguiente cuadro muestra las ventas registradas en 388 facturas de la Empresa
Pasaly, calcule e interprete la venta mediana

33

Montos

Facturas

1 500 - 2 900

27

2 900 - 5 700

58

5 700 - 8 700

216

8 700 - 11 000

52

11 000 - 14 000

23

14 000 - 17 000

12

Calcule e interprete la mediana.


Solucin:
Para aplicar los valores en:

Me Li j w j

clase j denominada clase mediana

n / 2 F j 1

debemos encontrar la

fj

La clase mediana es aquella que contiene a la mitad de del conjunto de datos, esto es
el que contenga la posicin

n 388

194 , para eso calculamos la frecuencia


2
2

acumulada:
Montos

Facturas

Fi

27

27

1 500 - 2 900
2 900 - 5 700

58

85

5 700 - 8 700

216

301

8 700 - 11 000

52

353

11 000 - 14 000

23

376

14 000 - 17 000

12

388

Total

388

Entonces aplicando en la frmula:

194 85
Me 5700 3000(
) 7213.9
216

Interpretacin:
____________________________________________________________________
____________________________________________________________________

1.3.1.3 MODA
Entendemos por moda el valor de la variable que ms veces se repite, y en una distribucin
de frecuencias el valor con mayor frecuencia absoluta simple
Puede darse el caso de que no haya moda (amodal), slo una (unimodal), dos modas
(bimodal) o varias modas (multimodal).
a. Simbologa
Se simboliza con Mo
b. Clculo de la Moda
b.1 Para Datos no agrupados
En este caso la determinacin de la moda es inmediata por simple observacin. Aquel
valor de la variable con mayor frecuencia es la moda.

34

Ejemplo:
La inversin anual (en miles de nuevos soles) de un grupo de pequeas empresas de
la ciudad fueron:
10 12 40 10 30 14 16 20 25 28 30 26 30 10 18 17
13 17 21 14 15 19 27 22 14 11 13 15 18 20 30 39
Calcule e interprete la moda.
Solucin:
Buscamos el valor que ms se repita, en este caso es:

Mo 30

Interpretacin: Las pequeas empresas con mayor frecuencia han invertido 30 mil
nuevos soles al ao.
b.2 Para Datos Agrupados
El primer paso es identificar el intervalo con mayor frecuencia absoluta simple. Dicho
intervalo ser el que contenga el valor de la moda.

d1
w

d1 d 2
d1

Moda muestral: mo L i w
d

d
2
1
Moda poblacional: Mo Li

donde L i es el limite inferior del intervalo que contiene a la moda, w es el ancho de


clase, d1 f i f i 1 es la diferencia entre la frecuencia absoluta simple del intervalo
que contiene a la moda y la frecuencia absoluta simple del intervalo anterior,
d 2 f i f i 1 es la diferencia entre la frecuencia absoluta simple del intervalo que
contiene a la moda y la frecuencia absoluta simple del intervalo siguiente, n es el
tamao de la muestra y N es el tamao de la poblacin.
Ejemplo: Variable Discreta
Se selecciona al azar 140 vendedores de una gran compaa de seguros. A
continuacin se muestra el nmero de plizas vendidas durante una semana.
N de
Plizas

Vendedores

10

15

20

40

24

15

12

9
Calcular e interpretar la Moda.

Solucin:
El clculo es bastante sencillo, slo ubicamos el valor que tenga la mayor frecuencia,
que para el ejercicio es: Mo 5
Interpretacin:
En dicha empresa es usual vender 5 plizas por semana.

35

Ejemplo 3: Variable Continua


El siguiente cuadro muestra las ventas registradas en 388 facturas de la Empresa
Pasaly, calcule e interprete la venta modal
Montos

Facturas

1 500 - 2 900

27

2 900 - 5 700

58

5 700 - 8 700

216

8 700 - 11 000

52

11 000 - 14 000

23

14 000 - 17 000

12

Montos

Facturas

Solucin:

1 500 - 2 900

27

2 900 - 5 700

58

5 700 - 8 700

216

8 700 - 11 000

52

11 000 - 14 000

23

14 000 - 17 000

12

Para aplicar los valores en:

d1

mo L i w
d1 d 2

debemos encontrar la clase j denominada clase modal


La clase modal es aquella que tenga la mayor frecuencia, entonces para nosotros es
la clase que tiene la frecuencia 216
Entonces aplicando en la frmula:

216 58
7172.05
mo 5700 3000
(216 58) (216 52)
Interpretacin: El monto de facturacin que ms se repite es de 7172.05

Ejemplo: Las medidas de tendencia central se pueden obtener para los datos
agrupados del turno maana de una empresa respecto al tiempo de produccin de
cierto producto de la siguiente forma:

i Lim Inf Lim Sup Marca f


1 20.5
25.5
23
1
2 25.5
30.5
28
3
3 30.5
35.5
33
0
4 35.5
40.5
38
2
5 40.5
45.5
43
20
6 45.5
50.5
48
4

36

Turno maana
h
F
H
0.0333 1 0.0333
0.1000 4 0.1333
0.0000 4 0.1333
0.0667 6 0.2000
0.6667 26 0.8667
0.1333 30 1.0000

30

1 6 /
1
xi f i 1235 41.17 minutos

30 i 1
30
5 30

Mediana muestral: me 40.5


6 42.75 minutos
20 2

18
Moda muestral: mo 40.5 5
43.15 minutos
18 16
Media muestral:

CARACTERSTICAS DE LA MEDIA ARITMTICA


-

Es un promedio razonablemente estable, siendo la medida descriptiva ms conocida y usada


en Estadstica, debido a su estabilidad general ya que est bien definida.
Es nica, es decir, un conjunto de datos tiene solamente una media.
Se calcula tomando en cuenta a todos y cada uno de los datos.
Su significado es de fcil entendimiento.
Como la media localiza el medio fsico ( centro de gravedad) de una distribucin de datos, es
una medida de tendencia central muy sensible a los valores extremos y estos valores si son
desproporcionados desplazan el valor de la media hacia los extremos reduciendo su utilidad.
La media aritmtica depende de todos los datos observados, en consecuencia es afectada o
sesgada por valores extremos.
La media aritmtica puede ser calculada tambin en una distribucin de frecuencias por
intervalos de amplitud diferentes, siempre que se pueda determinar los puntos medios de los
intervalos.
CARACTERSTICAS DE LA MEDIANA

Como estadgrafo de posicin, la mediana le sigue en importancia y usos a la media.


Es una medida nica, es decir, una distribucin de datos tiene solamente una mediana.
La mediana depende slo del nmero de datos ordenados y no del valor de los datos, por lo
tanto no es sesgada por algn valor grande o pequeo.
El valor de la mediana depende nicamente del valor o valores centrales.
No cambia de valor si se agregan un mismo nmero de datos mayores o menores que ella.
En consecuencia no es sensible a valores extremos.
La mediana puede ser calculada para distribuciones de frecuencia con intervalos de diferente
amplitud, siempre que se pueda determinar el lmite inferior del intervalo de la mediana.
La mediana puede ser calculada para variables con valores en escala ordinal.
La mediana es ms recomendable que la media aritmtica cuando:
Existan valores extremos excepcionalmente grandes o muy pequeos que difieren
considerablemente del resto, ya que la mediana no est afectada por los valores extremos
como sucede con la media. En estos casos la mediana es ms representativa que la media
ya que localiza mejor el centro de la distribucin de datos.
Se trabaja con tablas de frecuencias con intervalos en donde no se indica el extremo inferior
del primer intervalo o no se indica el extremo superior del ltimo intervalo o ambos casos.
Esto no indica que no exista la media, la cual existe y siempre se puede calcular.
Se tiene datos cualitativos, susceptibles de ordenarse de acuerdo a rangos, calificaciones o
categoras.
CARACTERSTICAS DE LA MODA

Le sigue en importancia a la media y mediana.


Es un estadgrafo muy til cuando los datos son del tipo cualitativo.

37

Su fcil interpretacin y su clculo sencillo hacen de la moda una medida de localizacin ms


usual y prctica.
No es una medida nica como la media y la mediana.
Un conjunto de datos puede tener ms de una moda. Mediante una clasificacin adecuada
una multimodal se puede convertir en una unimodal.
El clculo de la moda es independiente del valor de los datos.
La moda puede permanecer igual variando los valores o incrementando el nmero de ellos.

1.3.1.4 MEDIA PONDERADA


Se utiliza cuando los datos a promediar no tienen la misma importancia, peso o ponderacin
dentro del conjunto total.
n

xw

xw
i 1
n

w
i 1

donde

xi es el dato original y wi es el peso o ponderacin asignado a cada dato.

Ejemplo: Una empresa tiene tres turnos de trabajo en sus dos locales. Los trabajadores en
cada uno de estos turnos participan de acuerdo a la siguiente tabla:

Turno
Maana
Tarde
Noche

Salario
por hora
(S/.)
12
15
18

Nmero de horas trabajadas


Local 1

Local 2

50
20
10

40
35
25

El salario promedio por hora en cada local es:

Local 1:

xw

Local 2:

xw

12 50 15 20 18 10
50 20 10
12 40 15 35 18 25
40 35 25

13.50 nuevos soles


14.55 nuevos soles

Luego, el local 2 tiene un mayor salario promedio por hora.


1.3.1.4 CUANTILES
Las medidas de posicin o cuantiles son los valores que determinan la posicin de un dato
respecto a todos los dems datos de una serie y que previamente ha sido ordenada de menor
a mayor. Los cuantiles ms importantes dividen a los datos ordenados de menor a mayor en
100, 10 y 4 cantidades iguales de datos, denominndose centiles, deciles y cuartiles
respectivamente.
CENTIL: Tambin conocido como percententil o porcentil. El centil k, Pk. es el valor numrico
tal que el k por ciento de los datos ordenados est por debajo de ese valor y el (100 k) por
ciento de los datos est por encima de ese valor.
DECIL: Se denomina as a cada uno de los nueve centiles: P10, P20, P30 P90 y se les denota
como D1, D2, D3, , D9 respectivamente.
CUARTIL: Se denomina as a cada uno de los tres centiles: P25, P50, P75 y se les denota
como Q1, Q2 y Q3 respectivamente.

38

Adems, se define el rango intercuartil (llamado tambin propagacin media) como la


diferencia entre el tercer cuartil y el primer cuartil en una serie de datos, es decir:
Rango intercuartil (RIC) = Q3 Q1
CUANTILES PARA DATOS NO AGRUPADOS
Los clculos se centrarn en encontrar los valores de los centiles. Para hallar valores de
deciles o cuartiles simplemente encontraremos el valor del centiles correspondientes.
Si tenemos n datos ordenados de menor a mayor y queremos determinar el valor del centil
Pk.
Localizacin:
La posicin que ocupa el centil Pk en la lista de datos ordenados est determinada por la
expresin:

n 1
.k
100

Identificacin:
Si la posicin del centil es un nmero entero, el centil buscado ser el dato que ocupa dicha
posicin en la serie ordenada.
Si la posicin del centil no es un valor entero, es decir, el centil est entre dos valores
ubicados consecutivamente, entonces el valor del centil se obtiene de la siguiente expresin:

dato menor (dato mayor dato menor).( parte decimal de posicin )


CUANTILES PARA DATOS AGRUPADOS EN INTERVALOS
Si tenemos n datos agrupados en clases y queremos determinar el valor del centil Pk.
Localizacin:
La posicin que ocupa el centil Pk en la lista de datos ordenados esta determinada por la
expresin:

n
.k
100
Identificacin:
Identificamos primero la clase en la que se encuentra el centil Pk. El valor del centil se
determina por al siguiente expresin:

Pk Li

w n.k
(
F)
f 100

donde:
Li : lmite inferior de la clase del centil.
f : frecuencia de la clase del centil.
F : frecuencia acumulada de la clase que precede a la clase del centil.
w : amplitud de clase.
n : nmero de datos.

Ejemplo
Como ejemplo efectuamos el clculo del primer cuartil Q1. En primer lugar tomemos los datos
no agrupados correspondientes a las edades de los 80 estudiantes entrevistados cuyos
resultados se encuentran en la siguiente tabla:

39

Estudiante

peso

estudiante

peso

estudiante

peso

estudiante

peso

1
2
3
4
5
6

9
10
11
12
13
14
15
16
1
1
19
20

45
4
51
51
52
52
53
53
54
54
55
55
56
56
5
5
5
5
5
59

21
22
23
24
25
26
2
2
29
30
31
32
33
34
35
36
3
3
39
40

59
59
60
60
60
60
61
61
61
61
62
62
62
62
63
63
63
63
64
64

41
42
43
44
45
46
4
4
49
50
51
52
53
54
55
56
5
5
59
60

64
64
65
65
65
65
66
66
66
66
6
6
6
6
6
6
6
6
6
69

61
62
63
64
65
66
6
6
69
0
1
2
3
4
5
6

9
0

69
0
0
1
2
3
4
5
5
6
6

9
0
1
4
5

Solucin:
El primer cuartil Q1 es equivalente al 25 centil P25,
Localizacin:

n +1
80 + 1
.k=
. 25 = 20,25a
100
100
Identificacin:
Est entre el dato 20 y el dato 21 , como ambos datos tienen un valor de 59, entonces el
valor del primer cuartil es 59.
Ahora consideremos los mismos datos pero agrupados en clases . El primer cuartil Q1 es:

Clase
45 51
51 57
57 63
63 69
69 75
75 81
81 87

Marca
de clase f F
x
48
4 4
54
13 17
60
21 38
66
23 61
72
8 69
78
8 77
84
3 80

Localizacin:

n
. 25 = 20o
100
El dato 20 se encuentra en la clase 57 63.
Identificacin:

Q1 P25 57

6 80 . 25
(
17) 58,86
20 100

40

Ejemplo para una Variable Discreta


Se selecciona al azar 140 vendedores de una gran compaa de seguros. A continuacin
se muestra el nmero de plizas vendidas durante una semana. Calcule e interprete:
1. Cuartil 1
5. Decil 9
2. Cuartil 2
6. Percentil 5
3. Cuartil 3
7. Percentil 78
4. Decil 3
8. Percentil 99
N de
Plizas

Vendedores

10

15

20

40

24

15

12

Total

140

Solucin: Clculo de Cuartil 1


Como los datos tabulados ya estn ordenados, debemos encontrar el valor de la variable
que contiene el i=25% de los datos, entonces calculamos el 25% de n: 25%(140) 35
Entonces ubicamos en la tabla el valor que tenga la posicin 35, para eso calculamos la
frecuencia acumulada
N de
Plizas

Vendedores

Fi

10

12

15

27

20

47

40

87

24

111

15

126

12

138

140

Entonces el cuartil 1 es:

Q1 P25 4

Interpretacin: Hay un 75% de vendedores que venden 4 o ms plizas por semana.

1. Q1=

5. D9=

41

2. Q2=

6. P5=

3. Q3=

7. P78=

4. D1=

8. P99=

Ejemplo 3: Variable Continua


El siguiente cuadro muestra las ventas registradas en 388 facturas de la Empresa Pasaly,
calcule e interprete:
1. Cuartil 1
5. Decil 9
2. Cuartil 2
6. Percentil 5
3. Cuartil 3
7. Percentil 78
4. Decil 3
8. Percentil 99
Montos

Facturas

1 500 - 2 900

27

2 900 - 5 700

58

5 700 - 8 700

216

8 700 - 11 000

52

11 000 - 14 000

23

14 000 - 17 000

12

Total

388

Solucin: Clculo del Cuartil 1 (Q1):


Para aplicar los valores en:

Pi Li j w j

i%n F j 1 debemos encontrar la clase j


fj

denominada clase del i-simo percentil.


La clase del i-simo percentil es aquella que contiene el i%=25% del conjunto de datos,
esto es el que contenga la posicin

i %n
25(388)

97 , para eso calculamos la


100
100

frecuencia acumulada:
Montos

Facturas

Fi

1 500 - 2 900

27

27

2 900 - 5 700

58

85

5 700 - 8 700

216

301

8 700 - 11 000

52

353

11 000 - 14 000

23

376

14 000 - 17 000

12

388

Total

388

Entonces aplicando en la frmula:

42

Q1 P25 P25 5700 3000(

97 85
) 5866.7
216

Interpretacin: Hay un 25% de facturas con montos menores o iguales que 5866.7.

1. Q1=

5. D9=

2. Q2=

6. P55=

3. Q3=

7. P78=

4. D1=

8. P99=

ACTIVIDAD N3
Resuelve formalmente los siguientes problemas con la ayuda del Excel o de manera analtica y
presntalos en el folder del curso.
1.
Los datos mostrados en la siguiente tabla corresponden a la vida (en aos) de 48 bateras
similares de automvil de la marca Enigma. El fabricante de las bateras garantiza que stas
duran tres aos.
2,2
3,4
2,5
3,3
4,7
1,7

4,1
1,6
4,3
3,1
3,8
2,3

3,5
3,1
3,4
3,7
3,2
2,6

4,5
3,3
3,6
4,4
2,6
3,2

3,2
3,8
2,9
3,2
3,9
3,5

3,7
3,1
3,3
4,1
3,0
4,3

3,0
4,7
3,9
2,0
4,2
4,8

2,6
3,7
3,1
3,4
3,5
4,0

De acuerdo a los datos mostrados se pide:

a. Determine la poblacin objetivo, la unidad de muestreo, la variable estudiada, su tipo y su


escala de medicin.

b. Elabore la tabla de distribucin de frecuencias tomando en cuenta que se desea que los
datos estn agrupados en intervalos, que el lmite inferior del primer intervalo sea 1,5
aos y que la amplitud de intervalo sea de medio ao.
c. Elabore el histograma y la ojiva correspondiente.
d. Con los datos ofrecidos, es posible saber qu porcentaje de la produccin de bateras
marca Enigma supera el periodo de garanta indicado por el fabricante?. Sustente su
respuesta.
e. Tomando en cuenta la tabla de distribucin de frecuencias, calcule las medidas de
tendencia central.
f. Elabore un breve informe con las conclusiones del anlisis de los resultados obtenidos.

43

2.

En una planta que fabrica 4 modelos de motos y se quiere resolver un problema de fallas
reportadas en las ltimas 12 semanas, para lo cual se recopil la siguiente informacin:
Falla de frenos
Falla de transmisin
Falla de encendido
Falla en las luces
Falla de ensamblaje
Falla en la suspensin
Falla en acabados

Modelo M18
3
6
3
2
8
4
3

Modelo M19
12
42
9
6
61
3
38

Modelo M20
4
1
2
1
9
4
2

Modelo M21
9
30
6
3
28
2
18

Utilizando el diagrama de Pareto, analice los datos presentados y decida cul es la estrategia
ms conveniente para enfrentar los problemas en la planta.
3.

Las notas que obtuvieron 120 alumnos en el examen parcial de Nivelacin de Matemticas
son presentadas parcialmente en la siguiente tabla:

Clase
6-

Marca
de clase
xi

frecuencia
absoluta
fi

frecuencia
relativa
hi
0,15

Frec. abs.
acumulada
Fi

Frec. rel.
acumulada
Hi
0,45
0,70

13,5
0,10

a. Si se desea analizar el rendimiento que han tenido los alumnos en dicho examen, defina
con precisin la poblacin objetivo, la unidad de anlisis, la variable, su tipo y su escala de
medicin.
b. Complete la tabla de distribucin de frecuencias y luego elabore la ojiva correspondiente
e indique qu porcentaje de las notas se encuentren aproximadamente en el intervalo [4, 14].

c.
4.

Enigma Systems S.A. emprendi un estudio para determinar el comportamiento de un


sistema de grabacin de programas informticos en el que para que el proceso funcione
adecuadamente la seal debe estar entre 9,2 y 10 voltios. Se instalaron sistemas de
grabacin tanto en una ubicacin antigua como en una nueva ubicacin y se tomaron
lecturas. Los datos registrados se muestran en la siguiente tabla:

8,05
8,72
8,72
8,80
9,55
9,70
9,73
9,80
9,80
9,84

Ubicacin antigua
9,84
9,87
9,87
9,95
9,97
9,98
9,98
10,00
10,01
10,02

10,03
10,05
10,05
10,12
10,15
10,15
10,26
10,26
10,29
10,55

8,51
8,65
8,68
8,72
8,78
8,80
8,82
8,82
8,83
9,14

Ubicacin nueva
9,19
9,55
9,27
9,60
9,35
9,63
9,36
9,64
9,37
9,70
9,39
9,75
9,43
9,85
9,48
9,87
9,49
9,95
9,54
9,98

10,01
10,03
10,05
10,05
10,09
10,10
10,12
10,12
10,15
10,15

a. Elabore las tablas de distribucin de frecuencias de los datos de ambas muestras de tal
manera que permita su comparacin apropiadamente.

b. Elabore los histogramas para su comparacin.


c. En un solo grfico elabore las ojivas respectivas.

44

d. Calcule el Rango intercuartil.


e. Elabore un informe sustentado de sus conclusiones.
5.

A continuacin se presentan los datos correspondientes a la duracin (en horas) de una


muestra de 40 focos de 100 watts producidos de la marca A y una muestra de 40 focos de
100 watts de la marca B.

Marca A
684
831
859
893
922
939
972
1 016

Marca B
697
835
860
899
924
943
977
1 041

720
848
868
905
926
946
984
1 052

773
852
870
909
926
954
1 005
1 080

821
852
876
911
938
971
1 014
1 093

819
907
952
994
1 016
1 038
1 096
1 153

836
912
959
1 004
1 018
1 072
1 100
1 154

888
918
962
1 005
1 020
1 077
1 113
1 174

897
942
986
1 007
1 022
1 077
1 113
1 188

903
943
992
1 015
1 034
1 082
1 116
1 230

a. Agrupe los datos de cada muestra en clases y elabore las respectivas tablas de
b.
c.
d.
e.

6.

distribucin de frecuencias.
Compare en un solo cuadro los polgonos de frecuencias de ambas muestras. Interprete.
Grafique las ojivas de cada muestra en una misma grfica.
Calcule la media, mediana y moda de cada marca.
Elabore un breve informe en el que presente el anlisis y las conclusiones de los
resultados obtenidos.

El Jefe de Control de Calidad en Enigma Autos S.A. en su estudio de la calidad de los


productos que distribuye su empresa, desea comparar varias caractersticas de diseo de
modelos de automviles norteamericanos y europeos. La siguiente tabla contiene las
frecuencias acumuladas absoluta y relativa (en porcentaje) de las distancias que recorren los
autos (en pies) cuando son frenados a una velocidad de 140 Km./h. para una muestra de 25
modelos de automviles de fabricacin estadounidense y 72 modelos de automviles de
fabricacin europea obtenidos en un ao reciente.
Distancia de
frenado
(en pies)
210 - 220
220 - 230
230 - 240
240 - 250
250 - 260
260 - 270
270 - 280
280 - 290
290 - 300
300 - 310
310 - 320

Modelos de automviles
estadounidenses
Nmero
Porcentaje
1
4,0
2
8,0
3
12,0
4
16,0
8
32,0
11
44,0
17
68,0
21
84,0
23
92,0
25
100,0
25
100,0

Modelos de automviles
Europeos
Nmero
Porcentaje
1
1,4
4
5,6
19
26,4
32
44,4
54
75,0
61
84,7
68
94,4
68
94,4
70
97,2
71
98,6
72
100,0

a. Qu porcentaje de automviles de fabricacin estadounidense tienen distancia de


frenado de 248 pies o ms?.

b. Elabore completamente la tabla de distribucin de frecuencias.


c. En un solo cuadro, presente los polgonos de frecuencia correspondiente.
d. En un solo cuadro, presente las ojivas correspondientes a las dos series de datos.

45

e. Compare la media, mediana y moda de los modelos de acuerdo a su procedencia.


f. Elabore un breve informe en el que est su anlisis y las conclusiones de los resultados
obtenidos de la comparacin de los dos grupos de datos.
ACTIVIDAD ADICIONAL
Construye el tablero de frecuencias de las series de datos presentadas en el laboratorio archivo
EJERCICIOS_MEDIDAS_DE_TENDENCIA_CENTRAL.exe y calcula en cada uno de ellos sus
indicadores estadsticos estudiados. Presenta tu trabajo de manera formal en la siguiente clase.

1.3.2. MEDIDAS DE DISPERSIN


El anlisis estadstico o el estudio de una serie estadstica no puede quedarse slo en el
clculo de las medidas de tendencia central o de posicin tales como la media, mediana, moda,
percentiles, ya que no estaramos siendo absolutamente fieles a la realidad, suele existir datos
extremos inferiores y superiores a la media aritmtica, los cuales no estn siendo bien
representados por este parmetro, hay veces que la media, por s sola, no es muy significativa.
Adems puede ocurrir que series absolutamente distintas pueden tener medias iguales y este
hecho no significa que las distribuciones sean exactamente iguales. Por lo tanto es necesario
profundizar en su estudio, para lo cual se requiere ver si los valores de la variable estn muy o
poco separados de la media aritmtica.
La media aritmtica es ms representativa cuanto ms agrupados estn los valores de la serie
respecto a ella y al revs y a la mayor o menor separacin de los valores respecto a la media
se le llama dispersin o variabilidad.
Para medir el grado de dispersin de una variable, se utilizan principalmente los siguientes
indicadores o medidas de dispersin:
1.3.2.1 Rango o recorrido
1.3.2.4 Varianza
1.3.2.2 Recorrido semi intercuartil
1.3.2.5 Desviacin tpica o estndar
1.3.2.3 Desviacin media
1.3.2.6 Coeficiente de variabilidad.
1.3.2.1 RANGO O RECORRIDO
Es la medida de dispersin ms sencilla ya que slo considera los dos valores
extremos de una coleccin de datos, sin embargo, su mayor utilizacin est en el
campo de la estadstica no paramtrica.
Clculo del Rango
R = Xmax Xmin
1.3.2.2 RECORRIDO SEMI INTERCUANTIL
La desviacin cuartil de un conjunto de datos est definida por:
Q = (Q3 - Q1)/2
Donde Q3 y Q2 son el primer y tercer cuartil de los datos. A veces se usa el Recorrido
intercuartil Q3 Q1
El recorrido semi-intercuartil o desviacin cuartil, da una idea de la dispersin del 50%
de los datos centrales. Suele utilizarse cuando la mediana es el ndice ms
representativo.
1.3.2.3 DESVIACIN MEDIA
La desviacin media, mide la distancia absoluta promedio entre cada uno de los datos,
y el parmetro que caracteriza la informacin. Usualmente se considera la desviacin
media con respecto a la media aritmtica:
Cuanto ms alta es la desviacin absoluta media mayor es la dispersin y menos
representativa la media aritmtica.
Clculo de la Desviacin Media
Para datos no agrupados
n

DM

i 1

Para datos agrupados


m

xi x

DM

46

x
i 1

x fi
n

1.3.2.4 VARIANZA
La varianza es uno de los parmetros ms importantes en estadstica paramtrica, se
puede decir que, teniendo conocimiento de la varianza de una poblacin, se ha
avanzado mucho en el conocimiento de la poblacin misma.
Numricamente definimos la varianza, como desviacin cuadrtica media de los datos
con respecto a la media aritmtica.
La varianza nos mide la mayor o menor representatividad de la media aritmtica:
- Si la varianza es grande nos indica gran dispersin, la media aritmtica no es
representativa.
- Si casi todos los valores estn muy cercanos a la media aritmtica entonces la
varianza se acercar a cero, con lo que se dice que la serie es concentrada.
- La varianza nunca puede ser negativa.
De su forma de clculo se desprenden dos problemas:
- Se expresa en unidades cuadradas (nuevos soles cuadrados, minutos cuadrados,
etc.)
- Si la media aritmtica no es una buena medida de tendencia central, la varianza que
se basa en ella tampoco ser una buena medida de dispersin.
a. Simbologa
2
S : Varianza de la muestra
2
: Varianza de la Poblacin
b. Clculo de la Varianza
b.1 Para Datos no Agrupados
- Varianza de la Muestra

s2

- Varianza de la Poblacin

x x
n

i 1

x
N

n 1

i 1

Ejemplo:
La inversin anual (en miles de nuevos soles) de un grupo de pequeas empresas
de la ciudad fueron:
10
13

12
17

40
21

10
14

30
15

14
19

16
27

20
22

25
14

28
11

30
13

26
15

30
18

10
20

18
30

17
39

Calcule la varianza
Solucin:

x
n

Para aplicar:

s2

i 1

n 1

debemos calcular

X 20,125

Entonces aplicando a la frmula de la varianza:

(10 20,125)^2 (12 20,125)^2 (40 20,125)^2 (10 20,125)^2 ... (39 20,125)^2
31
2018,390625
s2
31
2
s 65,109375 miles de nuevos soles 2

s2

47

b.2 Para datos agrupados


- Varianza de la Muestra

x
m

s2

i 1

- Varianza de la Poblacin

x fi

n 1

x
i 1

fi
2

Ejemplo: Variable Discreta


Se selecciona al azar 140 vendedores de una gran compaa de seguros. A
continuacin se muestra el nmero de plizas vendidas durante una semana.
Calcule la varianza
N de
Plizas
1

Solucin:

s2

10

15

20

40

24

15

12

Total

140

x
m

Para aplicar:

Vendedores

i 1

x fi
debemos calcular

n 1

X 5.07

Completando la siguiente tabla para el clculo de la varianza


N de Plizas
1
2
3
4
5
6
7
8
9

Vendedores
2
10
15
20
40
24
15
12
2

Total

140

x
m

La varianza es:

s2

i 1

x f i

(Xi-X)^2 * fi
33.15
94.34
64.36
22.96
0.20
20.69
55.79
102.92
30.87
425.29

n 1

48

425.29
=3.06
139

Ejemplo: Variable Continua


El siguiente cuadro muestra las ventas registradas en 388 facturas de la
Empresa Pasaly, calcule la varianza.
Montos

Facturas

1 500 - 2 900
2 900 - 5 700

58

5 700 - 8 700

216

8 700 - 11 000

52

11 000 - 14 000

23

14 000 - 17 000

12

Total

388

Solucin:

x
m

Para aplicar:

27

s2

i 1

x fi
debemos calcular

n 1

X 7344.59

Completando la siguiente tabla para el clculo de la varianza


Montos

Facturas

Xi

(Xi-MEDIA )^2 * fi

1 500 - 2 900

27

2200

714603769.2

2 900 - 5 700

58

4300

537632639.5

5 700 - 8 700

216

7200

4515753.91

8 700 - 11 000

52

9850

326408121.9

11 000 - 14 000

23

12500

611299802.2

14 000 - 17 000

12

15500

798128547.2

Total

388

2992588634

x
m

La varianza es:

s2

i 1

x f i
2

n 1

2992588634
7732787.17
387

1.3.2.5 DESVIACIN ESTNDAR O TPICA


Para eliminar el problema de la elevacin al cuadrado de la varianza, se realiza una
transformacin consistente en calcular la raz cuadrada de la varianza con lo que
obtendramos la desviacin estndar o tpica
De una Muestra
De una Poblacin

s s2

Con lo que la desviacin estndar o tpica vendr dada en las mismas unidades que los
valores de la variable.
- La desviacin estndar o tpica siempre es positiva porque la varianza tambin lo es.
- La desviacin estndar o tpica es la medida de dispersin ptima, ms exacta, ms estable
y ms utilizada, sirviendo de base para las medidas de asimetra, estadsticos tpicas y
correlacin.
- Cuanto ms se acerca a cero la desviacin ms concentrada es la serie.
- Suele decirse que cuando la desviacin estndar o tpica es menor que la media aritmtica
la serie es concentrada y s la desviacin estndar o tpica es mayor que la media aritmtica
la serie es dispersa.
Ejemplo :

49

La inversin anual (en miles de nuevos soles) de un grupo de pequeas empresas de la


ciudad fueron:
10 12 40 10 30 14 16 20 25 28 30 26 30 10 18 17
13 17 21 14 15 19 27 22 14 11 13 15 18 20 30 39
Calcule e interprete la desviacin estndar
Solucin:

s s 2 65,109375 entonces s 8.069038047


Interpretacin: La inversin promedio anual de las pequeas empresas varan 8 069 nuevos
soles
Ejemplo 2: Variable Discreta
Se selecciona al azar 140 vendedores de una gran compaa de seguros. A continuacin se
muestra el nmero de plizas vendidas durante una semana. Calcule e interprete la
desviacin estndar
N de
Plizas
1

Vendedores
2

10

15

20

40

24

15

12

Total

140

Solucin:

s s2

3.06 entonces s 1.75

Ejemplo: Variable Continua


El siguiente cuadro muestra las ventas registradas en 388 facturas de la Empresa Pasaly,
calcule e interprete la desviacin estndar
Montos

Facturas

1 500 - 2 900

27

2 900 - 5 700

58

5 700 - 8 700

216

8 700 - 11 000

52

11 000 - 14 000

23

14 000 - 17 000

12

Total

388

Solucin:

s s 2 7732787.17 entonces s 2780.79

50

1.3.2.6 COEFICIENTE DE VARIABILIDAD


Con frecuencia nos interesa establecer comparaciones de la dispersin, entre diferentes
muestras que posean distintas unidades de medida (por ejemplo, nuevos soles con dlares),
las medidas de dispersin antes mencionadas no permiten realizar este tipo de
comparaciones, pero es el coeficiente de variabilidad quien nos ayuda a realizar estas
comparaciones.
El coeficiente de variabilidad es una medida de dispersin relativa (sin unidades de medida)
tiene en cuenta el valor de la media aritmtica, para establecer un nmero relativo, que hace
comparable el grado de dispersin entre dos o ms variables, y se define como:

CV

S
*100
X

Para determinar la homogeneidad (tiene menor variabilidad) de dos o ms muestras que


tienen diferente unidad de medida, se elige aquella que tenga el menor CV.
Ejemplo:
La inversin anual (en miles de nuevos soles) de un grupo de pequeas empresas de la
ciudad fueron:
10 12 40 10 30 14 16 20 25 28 30 26 30 10 18 17
13 17 21 14 15 19 27 22 14 11 13 15 18 20 30 39
Calcule e interprete el coeficiente de variacin
Solucin:
Para calcular el coeficiente de variacin, debemos calcular la media y la desviacin estndar,
por los ejercicios anteriores tenemos:

X 20,125 y

s 8.069038047

Entonces

CV

8.069038047
*100
20,125

CV 40,09%
Interpretacin: La inversin de las pequeas empresas en altamente dispersas (heterognea)
Ejemplo: Variable Discreta
Se selecciona al azar 140 vendedores de una gran compaa de seguros. A continuacin se
muestra el nmero de plizas vendidas durante una semana. Calcular e interpretar el
coeficiente de variacin
N de
Plizas
1

Vendedores
2

10

15

20

40

24

15

12

Total

140

51

Solucin:
Para calcular el coeficiente de variacin, debemos calcular la media y la desviacin estndar,
por los ejercicios anteriores tenemos:

X 5.07
s 1.75

Entonces

1.75
* 100
5.07
CV 34.52

CV

Ejemplo: Variable Continua


El siguiente cuadro muestra las ventas registradas en 388 facturas de la Empresa Pasaly,
calcule e interprete el coeficiente de variacin.
Montos

Facturas

1 500 - 2 900

27

2 900 - 5 700

58

5 700 - 8 700

216

8 700 - 11 000

52

11 000 - 14 000

23

14 000 - 17 000

12

Total

388

Solucin:
Para calcular el coeficiente de variacin, debemos calcular la media y la desviacin estndar,
por los ejercicios anteriores tenemos:
X 7344.59 y s 2780.79
Entonces

2780.79
* 100
7344.59
CV 37.86

CV

1.3.3. MEDIDAS DE ASIMETRA


En la Parte I de Medidas de descriptivas, se mencion la relacin emprica de las tres medidas
de tendencia central: Media, Mediana y Moda, la cual nos mostraba el tipo de distribucin de
una serie de datos. Ahora determinaremos esta relacin pero mediante un indicador ms
representativo que se le conoce como el ndice de Asimetra. El ndice de asimetra de Pearson
se define como

x Mo
s
En distribuciones asimtricas se verifica que : x Mo 3( x Me) , entonces el ndice de
As

asimetra es:

As

3( x Me)
s

Interpretacin:
Si As = 0, La distribucin es simtrica, esto es x Me Mo
Si As > 0, La distribucin es asimtrica positiva, esto es Mo Me x
Si As < 0, La distribucin es asimtrica negativa, esto es x Me Mo

52

Ejemplo:
La inversin anual (en miles de nuevos soles) de un grupo de pequeas empresas de la ciudad
fueron:
10 12 40 10 30 14 16 20 25 28 30 26 30 10 18 17
13 17 21 14 15 19 27 22 14 11 13 15 18 20 30 39
Calcule e interprete el coeficiente de asimetra.
Solucin:
Para calcular el coeficiente de asimetra, debemos calcular la media, la mediana y la desviacin
estndar, por los ejercicios anteriores tenemos:

X 20,125
Entonces:

Me 18

s 8.069038047

3(20,125 18)
8,06903847
As 0,790057001

As

Interpretacin: La distribucin de la inversin anual de las pequeas empresas muestra una


ligera distribucin asimtrica positiva, esto es que ms del 50% de las pequeas empresas
invierten menos de 20 125 nuevos soles al ao.
Ejemplo 2: Variable Discreta
Se selecciona al azar 140 vendedores de una gran compaa de seguros. A continuacin se
muestra el nmero de plizas vendidas durante una semana. Calcule e interprete el coeficiente
de asimetra.
N de
Plizas
1

Vendedores
2

10

15

20

40

24

15

12

Total

140

Solucin:
Para calcular el coeficiente de asimetra, debemos calcular la media, mediana y la desviacin
estndar, por los ejercicios anteriores tenemos:
Me
y
s
X
Entonces:

As

As
Ejemplo: Variable Continua
El siguiente cuadro muestra las ventas registradas en 388 facturas de la Empresa Pasaly,
calcule e interprete el coeficiente de variacin.

53

Montos

Facturas

1 500 - 2 900

27

2 900 - 5 700

58

5 700 - 8 700

216

8 700 - 11 000

52

11 000 - 14 000

23

14 000 - 17 000

12

Total

388

Solucin:
Para calcular el coeficiente de asimetra, debemos calcular la media, mediana y la desviacin
estndar, por los ejercicios anteriores tenemos:
Me
y
s
X
Entonces:

As

As
1.3.4. MEDIDAS DE CURTOSIS
La curtosis es la caracterstica de una distribucin de frecuencias en la cual se compara la
dispersin de los datos observados cercanos al valor central con la dispersin de los datos
cercanos a ambos extremos de la distribucin, Se aplica cuando la distribucin es simtrica.
Se calcula mediante:

P75 P25
0.5
P90 P10

Interpretacin:
Si K tiende a 0 la distribucin es normal o mesocrtica
Si K tiende a 0.5 es leptocrtica
Si K tiende a -0.5 es platicrtica
Ejemplo 2: Variable Discreta
Se selecciona al azar 140 vendedores de una gran compaa de seguros. A continuacin se
muestra el nmero de plizas vendidas durante una semana. Calcule e interprete el coeficiente
de curtosis.
N de
Plizas
1

Vendedores
2

10

15

20

40

24

15

12

Total

140

54

Solucin:
Para calcular el coeficiente de curtosis, debemos calcular:
P10 =
P75=
P25 =

P90 =

Entonces

K
K
Ejemplo: Variable Continua
El siguiente cuadro muestra las ventas registradas en 388 facturas de la Empresa Pasaly,
calcule e interprete el coeficiente de curtosis.
Montos

Facturas

1 500 - 2 900

27

2 900 - 5 700

58

5 700 - 8 700

216

8 700 - 11 000

52

11 000 - 14 000

23

14 000 - 17 000

12

Total

388

Solucin:
Para calcular el coeficiente de curtosis, debemos calcular:
P10 =
P75=
P25 =

P90 =

Entonces:

K
K
Ejemplo Adicional:
De los datos registrados sobre el turno maana de una empresa.

i
1
2
3
4
5
6

Lim Inf
20.5
25.5
30.5
35.5
40.5
45.5

Lim Sup
25.5
30.5
35.5
40.5
45.5
50.5

Marca
23
28
33
38
43
48

f
1
3
0
2
20
4
30

Turno maana
h
F
0.0333
1
0.1000
4
0.0000
4
0.0667
6
0.6667
26
0.1333
30

Se obtiene:

Rango muestral:r = 50.5 20.5 = 20 minutos


1124.1667
38.7644 minutos2
Varianza muestral: s 2
30 1

55

H
0.0333
0.1333
0.1333
0.2000
0.8667
1.0000

Desviacin estndar: s 6.2261 minutos


6.2261
El coeficiente de variacin es CV
100% 15.1% .
41.17
Calcule Ud, el Coeficiente de Asimetra y la Kurtosis.
ACTIVIDAD N4

1. La central telefnica de una empresa desea conocer el gasto mensual en que incurre debido a las
llamadas que efectan sus empleados luego de las 6 p.m., hora en que finalizan las labores. Para
esto registra al azar y durante el mes de enero el tiempo de duracin (en minutos) de las
llamadas efectuadas entre las 6 p.m. y las 7 p.m. Los datos obtenidos, segn el tipo de telfono al
que se llama, se encuentran en la hoja Llamadas.
a. Cul es la duracin mnima de una llamada hacia un telfono celular para considerarla
dentro del grupo del 15% de las llamadas que le ocasionan mayor gasto a la empresa?
b. Se puede afirmar que existe mayor homogeneidad en la duracin de las llamadas realizadas
hacia un telfono celular en comparacin a las realizadas hacia un telfono fijo?

2. Una empresa ensambladora de productos electrnicos se encuentra evaluando la duracin (en


horas) de cierta marca de dispositivos electrnicos antes de utilizarlos. Se realiz el seguimiento
a una muestra de 80 unidades. Los resultados obtenidos se encuentran en la hoja Duracin y se
muestran a continuacin.
i
1
2
3
4
5
6
7

Lim Inf
20
25
30
35
40
45
50

Lim Sup
25
30
35
40
45
50
55

f
8
12
12
18
14
11
5
80

a. Calcule las medidas de dispersin.


b. La empresa descarta un 10% de unidades con menor duracin. Halle la duracin mnima que
debe tener un componente para que sea de utilidad.

3. Los datos en la hoja Supermercados corresponden a los montos y el tipo de pago realizados por
una muestra de clientes de una cadena de supermercados. Los directivos de esta empresa
pidieron tomar la muestra para conocer el comportamiento de los pagos de sus clientes.
a. Construya en un mismo grfico los diagramas de cajas para los montos segn el tipo de
pago indicando la presencia de datos atpicos en la muestra.
b. Determinar el tipo de simetra que presentan los montos segn el tipo de pago segn lo
observado en el grfico anterior.
c. Indique que medio de pago es ms homogneo.

4. Textiles Enigma es un gran proveedor de fibras para industriales textiles en diversas partes del
mundo y tiene un control de calidad estricto sobre la resistencia de sus fibras. ltimamente ha
habido quejas de sus clientes sobre la irregularidad en la resistencia de dichas fibras debido a
problemas de produccin. El gerente de produccin ha tomado los datos del equipo de control de
calidad que realiz en pruebas de resistencia de fibras provenientes de las dos mquinas. Los
resultados, expresados en kilogramos, fueron los siguientes:
Mquina 1
1,19
2,53
1,34
2,55
1,43
2,5

Mquina 2
2,29
1,3
1,46
2,35
1,50
2,36

3,19
3,31
3,3

56

2,
2,93
3,12

3,64
3,66
3,9

1,45
1,52
1,3
1,9
1,9
2,0
2,09
2,12
2,13
2,30
2,40
2,52

a.
b.
c.
d.
e.
f.
g.

2,5
2,5
2,5
2,66
2,6
2,6
2,94
2,99
3,00
3,01
3,0
3,12

3,46
3,4
3,4
3,61
3,0
3, 1
3,
3,
4,00
4,43
4,63
5,0

1,53
1,64
1,6
1,
1,9
2,14
2,14
2,14
2,1
2,21
2,24
2,2

2,41
2,42
2,42
2,4
2,50
2,53
2,54
2,63
2,2
2,3
2,3
2,4

3,14
3,19
3,20
3,22
3,22
3,40
3,42
3,50
3,53
3,59
3,61
3,63

3,9
4,00
4,00
4,01
4,13
4,32
4,34
4,46
4,52
4,64
4,5
5,4

De acuerdo al propsito del gerente de produccin, defina con precisin la poblacin


objetivo, la unidad de anlisis, la variable, su tipo y su escala de medicin.
Elabore la tabla de distribucin de frecuencias de cada muestra de tal manera que permita su
comparacin.
Elabore los histogramas adecuadamente que permita la comparacin de los datos de ambas
muestras.
Elabore comparativamente las ojivas de los datos.
Si el rango de aceptacin de resistencia de la fibra es entre 1,8 y 3,6 Kg. qu porcentaje de
la produccin de cada mquina ser aceptable?
Calcule las medidas de dispersin de cada mquina.
Elabore un breve informe donde seale las conclusiones de su anlisis de los datos y de los
grficos.

57

UNIDAD DIDCTICA II

INFERENCIA ESTADSTICA
INTRODUCCIN

Recordemos que los objetivos de la Estadstica Descriptiva son obtener informacin a partir de un
conjunto de datos, presentar dicha informacin de manera ordenada (cuadros y grficos) que facilite
la interpretacin. Cabe preguntarse ahora cmo relacionamos la informacin que obtenemos de la
Estadstica Descriptiva con el fenmeno aleatorio real que estamos observando, teniendo en cuenta
que el estudio solo es referente a unos cuantos datos (muestra) y no a todos (poblacin)?
Se trata de hacer una generalizacin (inferencia) de la informacin obtenida a travs de una muestra,
a una poblacin.
La Inferencia Estadstica es la parte de la estadstica matemtica que se encarga del estudio de los
mtodos para la obtencin del modelo de probabilidad (forma funcional y parmetros que determinan
la funcin de distribucin) que sigue una variable aleatoria de una determinada poblacin, a travs de
1
una muestra (parte de la poblacin) obtenida de la misma
Se iniciar el estudio de esta segunda unidad didctica como la Teora de Muestreo que est
orientada a desarrollar destrezas y obtener conocimientos para lograr una muestra representativa.
El segundo tema de esta unidad se refiere a la Estimacin de Parmetros, en el que se abordar el
proceso de utilizar datos muestrales para estimar los valores de parmetros desconocidos de una
poblacin.
El cuarto tema es referente a las pruebas de hiptesis, cuyo objetivo es evaluar proposiciones o
afirmaciones acerca de los valores de los parmetros de la poblacin.

APRENDIZAJES ESPERADOS
Conoce mtodos y tcnicas de estadstica inferencial y los aplica eficientemente como herramientas
para la toma de decisiones y valora reflexivamente su importancia como herramienta en los diversos
campos de la ciencia.

CONTENIDOS
Tema 1: Mtodos de Muestreo
Tema 2: Estimaciones
Tema 3: Prueba de Hiptesis

http://es.wikipedia.org/wiki/Estad%C3%ADstica_inferencial

58

TEMA 01
2.1 MTODOS DE MUESTREO
Las investigaciones estadsticas de una poblacin se basan generalmente en el anlisis de una
muestra de sta, debido a muchos motivos, por ser una poblacin grande, por los costos, etc., por lo
tanto es importante que la muestra elegida sea representativa con la finalidad de realizar inferencias a
la poblacin de donde fue seleccionada y que sus resultados sean confiables, entonces nos
planteamos la pregunta de qu manera se debe seleccionar la muestra?, qu criterios se debe
tener en cuenta para seleccionar un mtodo de seleccin de muestra?, etc.
Responder a estas preguntas es el objetivo de este captulo. Para introducirnos en la Teora de
Muestreo es importante tener claros algunos conceptos bsicos e incluirlos en nuestro lenguaje.
2.1.1 Conceptos Bsicos
2.1.1.1 Muestreo:
Son mtodos empleados para la seleccin de elementos representativos de la
poblacin que conformarn una muestra.
2.1.1.2 Unidades de muestreo:
Son aquellas que contienen las unidades de anlisis de la poblacin y que se utilizarn
para confeccionar o seleccionar la muestra.
2.1.1.3 Marco Muestral
Es la lista de unidades o elementos del muestreo. En ella se debe definir y enumerar
los elementos sobre los cuales se realizan las inferencias estadsticas en el muestreo
probabilstico y debe ser tal que:
- Cada elemento de la poblacin figure en l.
- Cada elemento de la poblacin figure una sola vez.
- Slo contenga los elementos de la poblacin.
Es importante la construccin de un marco muestral lo ms perfecto posible a fin de
que exista una correspondencia biunvoca entre las unidades muestrales poblacionales
y las listas fsicas que lo conforman. Entre los factores que contribuyen a distorsionar la
calidad de un buen marco muestral estn:
a. Elementos faltantes.
b. Unidades ocultas por estar pareadas con otras.
c. Unidades muestrales repetidas.
d. Elementos extraos.
Entre algunos ejemplos de marcos muestrales pueden ser: mapas, listas de clientes,
listado de empresas, gua de telfonos, etc.
2.1.1.4 Nivel de Confianza:
Es la probabilidad de que el intervalo construido en torno a un estadstico capte el
verdadero valor del parmetro. Se simboliza por (1 - ).
2.1.1.5 Diseo Muestral:
Es un conjunto de procedimientos que sirven para determinar la muestra, el tamao de
la muestra y la confiabilidad de sta.
Se debe de seguir los siguientes pasos:
- Definir la poblacin: incluye la especificacin de la unidad de muestreo, el alcance
geogrfico de la investigacin y el momento y el perodo de tiempo en que se realiza
el estudio.
- Identificar el marco muestral.
- Determinar el mtodo de muestreo: Se debe tener en cuenta las caractersticas de la
poblacin, la forma de recoleccin de informacin.
- Determinar el tamao de la muestra.
- Seleccin material de la muestra: Comprende la eleccin de los componentes de la
muestra (se suele hacer mediante nmeros aleatorios, sistemtica, etc.), adems se
debe localizar materialmente la muestra, es decir la localizacin fsica de las
unidades.

59

- Decidir el trato que se ha de dar a la falta de respuestas: La falta de respuestas es un


problema serio, porque en muchos casos puede sesgar los resultados, para reducirlo
al mnimo se puede intentar varios procedimientos:
Mejorar el diseo de la investigacin para reducir las negativas.
Repetir los intentos.
Estimar los efectos de la falta de respuesta en lo que respecta a la calidad de la
informacin.
2.1.1.6. Errores en el Muestreo
a. Error muestral o aleatorio:
Es el error que se comete debido al hecho de que se obtienen conclusiones sobre la
poblacin a partir de la observacin de slo una muestra de ella. Se define como la
diferencia entre un estadstico y su parmetro correspondiente y es el error mximo
estadstico de la muestra, vlido para el conjunto de todas las distintas muestras
que se pueden tomar de la misma poblacin. Es una medida de la variabilidad de
las estimaciones de muestras repetidas en torno al valor de la poblacin, nos da una
nocin clara de hasta dnde y con qu probabilidad una estimacin basada en una
muestra se aleja del valor que se hubiera obtenido por medio de un censo completo.
Siempre se comete un error, pero la naturaleza de la investigacin nos indicar
hasta qu medida podemos cometerlo (los resultados se someten a error muestral e
intervalos de confianza que varan muestra a muestra). Se controla, se formula y se
estima mediante el diseo de la muestra.
b. Error no Muestral o Sistemtico:
Estimacin sesgada de poblacin debido a que la muestra ha sido extrada de un
marco muestral incompleto, por que algunas personas se negaron a participar en la
encuesta, en la recoleccin de datos, en la elaboracin de los instrumentos de
recoleccin, en el anlisis de datos, etc. Slo se controla mediante un sistema de
prevencin, capacitacin e inspeccin de todo el proceso de la encuesta.
2.1.2 Muestreo
El muestreo son mtodos empleados para la seleccin de elementos representativos de la
calidad y condiciones medias de la poblacin que conformarn una muestra. Este muestreo
puede ser: probabilstico y no probabilstico. Su funcin bsica es determinar qu parte de una
realidad en estudio (poblacin o universo) debe examinarse con la finalidad de hacer
inferencias sobre dicha poblacin.
2.1.2.1 Ventajas del Muestreo
Las ventajas de estudiar una poblacin a partir de sus muestras son principalmente:
- Costo reducido
Si los datos que buscamos los podemos obtener a partir de una pequea parte del
total de la poblacin, los gastos de recoleccin y tratamiento de los datos sern
menores.
- Mayor rapidez
Debido a que se toma una muestra de la poblacin la recoleccin, el procesamiento
de los datos se realizarn con mayor rapidez y por lo tanto los resultados finales del
estudio podrn obtener con oportunidad.
- Ms posibilidades
Al realizar un estudio sobre toda la poblacin llevara a la destruccin misma de la
poblacin, por ejemplo si se analiza el tiempo de duracin de cierto tipo de
bombillas, no es posible en la prctica destruirlas todas para conocer su vida media,
ya que no quedara nada que vender. Es mejor destruir slo una pequea parte de
ellas y sacar conclusiones sobre las dems.
2.1.2.2 Criterios para determinar la aceptabilidad de un Mtodo Muestral
Se ha demostrado repetidamente en aplicaciones prcticas que los mtodos modernos
de muestreo pueden proporcionar datos confiables de manera eficiente y econmica.
Sin embargo, aunque una muestra contenga una parte de la poblacin, no se puede

60

llamar una muestra a cualquier grupo de miembros de una poblacin por el simple
hecho de formar parte de dicha poblacin.
Para que sea aceptable para propsitos estadsticos, una muestra debe representar la
poblacin y debe tener confiabilidad medible. Adems, el plan de muestreo debe ser
prctico y eficiente. A continuacin se presenta algunos criterios para aceptar un
mtodo muestral:
a. Probabilidad de Seleccin de cada Unidad.
Se debe seleccionar la muestra para que represente adecuadamente a la poblacin
que cubre. Esto significa que cada unidad (hogar, persona o cualquiera otra unidad)
debe tener una probabilidad de seleccin mayor que cero.
b. Confiabilidad Medible
Una de las condiciones ms importante del muestreo probabilstico es la capacidad
de poder medir la confiabilidad de las estimaciones provenientes de la muestra. Es
decir, adems de proporcionar estimaciones sobre las caractersticas de la
poblacin (totales, promedios, porcentajes, etc.), la muestra debe arrojar medidas
sobre la precisin de estas estimaciones. Estas medidas de precisin pueden
utilizarse para indicar el error mximo que se puede esperar de dichas estimaciones
si los procedimientos se siguen de acuerdo a las especificaciones y si la muestra es
moderadamente grande. No se puede estimar la precisin de las estimaciones si la
seleccin aleatoria no se lleva acabo de manera tal que se conozca de antemano la
probabilidad de seleccin de cada unidad seleccionada.
c. Viabilidad
Una tercera caracterstica es que el plan muestral sea prctico. Debe ser lo
suficiente simple y directo para que pueda implementarse de la manera en que se
planific. Un plan muestral, por ms atractivo que se vea escrito en papel, es slo
til si se puede implementar en el campo.
d. Economa y Eficiencia
Para terminar, el diseo muestral debe ser eficiente. Entre todos los mtodos
mustrales que satisfacen los tres criterios mencionados anteriormente, vamos
naturalmente a elegir el mtodo que proporcione la informacin requerida a un costo
mnimo. Aunque esta no sea una caracterstica esencial de un plan muestral
aceptable, es claramente una caracterstica muy deseable.
Esta caracterstica presupone que se utilizarn de la manera ms eficiente posible
todas las instalaciones y recursos, tales como oficinas, mapas, datos estadsticos,
conocimientos personales, teora del muestreo, etc.
Para la seleccin de una muestra se cuenta con diferentes tipos de muestreo, aunque en
general pueden dividirse en dos grandes grupos: mtodos de muestreo probabilsticos y
mtodos de muestreo no probabilsticos.
2.1.2.3 El proceso de muestreo:
Las principales etapas para seleccionar una muestra son las siguientes:
- Definicin de la Poblacin.
- Seleccin del Marco Muestral.
- Definicin de las unidades muestrales.
- Eleccin del mtodo de muestreo.
- Determinacin del tamao de muestra.
- Seleccin de la muestra.
2.1.3 Mtodos de Muestreo Probabilsticos
Los mtodos de muestreo probabilsticos se basa en que todos los elementos de la poblacin
tienen una probabilidad conocida de ser elegidos para formar parte de la muestra y,
consiguientemente, todas las posibles muestras de tamao n tienen la misma probabilidad de
ser elegidas. Slo estos mtodos de muestreo probabilsticos nos aseguran la
representatividad de la muestra extrada y son, por tanto, los ms recomendables. Dentro de
los mtodos de muestreo probabilsticos encontramos los siguientes tipos:

61

2.1.3.1 Muestreo aleatorio simple:


Es el ms importante y el ms sencillo, en este mtodo cada elemento de la poblacin
tiene la misma probabilidad de ser elegido, la seleccin se realizan con reemplazo, de
manera que la poblacin es idntica en todas las extracciones, o sea, que la seleccin
de un individuo no debe afectar a la probabilidad de que sea seleccionado otro
cualquiera aunque ello comporte que algn individuo pueda ser elegido ms de una vez
("se hacen tantas papeletas numeradas como individuos hay, se coge una y se
devuelve, se vuelve a coger otra y se devuelve, etc" ).
En preferible aplicar este tipo de muestreo en poblaciones homogneas y pequeas.
a. Procedimiento
- Se asigna un nmero a cada individuo de la poblacin.
- A travs de algn medio mecnico (bolas dentro de una bolsa, tablas de nmeros
aleatorios, nmeros aleatorios generados con una calculadora u ordenador, etc)
se eligen tantos sujetos como sea necesario para completar el tamao de muestra
requerido.
Este procedimiento es atractivo por su simpleza, tiene poca o nula utilidad prctica
cuando la poblacin que estamos manejando es muy grande.
b. Ventajas:
- Sencillo y de fcil comprensin.
- Clculo rpido de medias y varianzas.
- Se basa en la teora estadstica, y por tanto existen paquetes informticos para
analizar los datos.
c. Desventajas:
- Requiere que se posea de antemano un listado completo de toda la poblacin.
- Cuando se trabaja con muestras pequeas es posible que no represente a la
poblacin adecuadamente.
2.1.3.2 Muestreo aleatorio sistemtico:
Este procedimiento exige, como el anterior, numerar todos los elementos de la
poblacin, pero en lugar de extraer n nmeros aleatorios slo se extrae uno. Se parte
de ese nmero aleatorio i, que es un nmero elegido al azar, y los elementos que
integran la muestra son los que ocupan los lugares i, i+k, i+2k, i+3k,...,i+(n-1)k, es decir
se toman los individuos de k en k, siendo k el resultado de dividir el tamao de la
poblacin entre el tamao de la muestra: k=N/n. El nmero i que empleamos como
punto de partida ser un nmero al azar entre 1 y k.
El riesgo se este tipo de muestreo est en los casos en que se dan periodicidades en la
poblacin ya que al elegir a los miembros de la muestra con una periodicidad constante
(k) podemos introducir una homogeneidad que no se da en la poblacin. Imaginemos
que estamos seleccionando una muestra sobre listas de 10 individuos en los que los 5
primeros son varones y los 5 ltimos mujeres, si empleamos un muestreo aleatorio
sistemtico con k=10 siempre seleccionaramos o slo hombres o slo mujeres, no
podra haber una representacin de los dos sexos.
a. Procedimiento:
- Conseguir un listado de N elementos.
- Determinar un tamao de muestra n.
- Definir un intervalo de salto k; K=N/n.
- Elegir un nmero aleatorio, r, entre 1 y k (r=arranque aleatorio).
- Seleccionar los elementos de la lista.
b. Ventajas:
- Fcil de aplicar.
- No siempre es necesario tener un listado de toda la poblacin.
- Cuando la poblacin est ordenada siguiendo una tendencia conocida, asegura
una cobertura de unidades de todos los tipos.
c. Desventajas:
- Si la constante de muestreo est asociada con el fenmeno de inters, se pueden
hallar estimaciones sesgadas.

62

2.1.3.3 Muestreo aleatorio estratificado:


Es cuando nos interesa que la muestra tenga la misma composicin de la poblacin
grande y heterognea, la cual se divide en clases o estratos homogneos y las
caractersticas de estrato a estrato deben ser heterogneos. Si por ejemplo la
poblacin est compuesta por mujeres y hombres, esta puede ser dividida en los
estratos Mujeres y Hombres.
Trata de obviar las dificultades que presentan los anteriores ya que simplifican los
procesos y suelen reducir el error muestral para un tamao dado de la muestra.
Consiste en considerar categoras tpicas diferentes entre s (estratos) que poseen gran
homogeneidad respecto a alguna caracterstica (se puede estratificar, por ejemplo,
segn la profesin, el municipio de residencia, el sexo, el estado civil, etc). Lo que se
pretende con este tipo de muestreo es asegurarse de que todos los estratos de inters
estarn representados adecuadamente en la muestra. Cada estrato funciona
independientemente, pudiendo aplicarse dentro de ellos el muestreo aleatorio simple o
el sistemtico para elegir los elementos concretos que formarn parte de la muestra.
En ocasiones las dificultades que plantean son demasiado grandes, pues exige un
conocimiento detallado de la poblacin. (Tamao geogrfico, sexos, edades,...).
La distribucin de la muestra en funcin de los diferentes estratos se denomina
afijacin, y puede ser de diferentes tipos:
- Afijacin Simple: A cada estrato le corresponde igual nmero de elementos
muestrales.
- Afijacin Proporcional: La distribucin se hace de acuerdo con el peso (tamao) de
la poblacin en cada estrato.
- Afijacin ptima: Se tiene en cuenta la previsible dispersin de los resultados, de
modo que se considera la proporcin y la desviacin tpica. Tiene poca aplicacin ya
que no se suele conocer la desviacin.
a. Procedimiento
- Se divide la poblacin en grupos homogneos dentro de ellos, pero heterogneos
de grupo a grupo
- Se selecciona una muestra de cada grupo utilizando un muestreo aleatorio simple
o muestreo sistemtico.
b. Ventajas:
- Tiende a asegurar que la muestra represente adecuadamente a la poblacin en
funcin de unas variables seleccionadas.
- Se obtienen estimaciones ms precisas.
c. Desventajas:
- Se ha de conocer la distribucin en la poblacin de las variables utilizadas para la
estratificacin.
- Los anlisis son complicados, en muchos casos la muestra tiene que ponderarse
(asignar pesos a cada elemento).
2.1.3.4 Muestreo aleatorio por conglomerados:
Los mtodos presentados hasta ahora estn pensados para seleccionar directamente
los elementos de la poblacin, es decir, que las unidades muestrales son los elementos
de la poblacin. En el muestreo por conglomerados la unidad muestral es un grupo de
elementos de la poblacin que forman una unidad, a la que llamamos conglomerado.
Las unidades hospitalarias, los departamentos universitarios, una caja de determinado
producto, etc, son conglomerados naturales. En otras ocasiones se pueden utilizar
conglomerados no naturales como, por ejemplo, las urnas electorales, cuando los
conglomerados son rea geogrficas suele hablarse de "muestreo por reas".
a. Procedimiento
- Dividir a la poblacin grande y heterognea en sub-grupos heterogneos llamados
conglomerados que son convenientes para el muestreo.
- Seleccionar una muestra de los grupos utilizando un muestreo aleatorio simple o
sistemtico.
- Finalmente, tomar todos los elementos o una muestra de ellos al azar o por
muestreo sistemtico de los grupos seleccionados para obtener una muestra. Bajo

63

este mtodo, aunque no todos los grupos son muestreados, cada grupo tiene una
igual probabilidad de ser seleccionado. Por lo tanto la muestra es aleatoria.
b. Ventajas:
- Es muy eficiente cuando la poblacin es muy grande y dispersa. Reduce costos.
- No es preciso tener un listado de toda la poblacin, slo de las unidades primarias
de muestreo.
c. Desventajas:
- El error estndar es mayor que en el muestreo aleatorio simple o estratificado.
- El clculo del error estndar es complejo
2.1.3.5 Muestreo Polietpico o multietpico
Muestreo en el que se procede por varias etapas: se obtiene una muestra de unidades
primarias (UPM), ms amplias que las siguientes; de cada unidad primaria se toman,
para una submuestra, unidades secundarias (USM), y as sucesivamente hasta llegar a
las unidades ltimas o ms elementales. Se le puede considerar como una
modificacin del muestreo por conglomerados cuando no forman parte de la muestra
elementos o unidades de todos los conglomerados, sino que, una vez seleccionados
estos, se efectan submuestras dentro de cada uno de ellos.
2.1.3.6 Muestreo Doble
Muestreo que consta de dos fases; en la primera, de las cuales se toma una muestra
muy amplia a la que se analiza algn aspecto que es fundamental para la segunda
fase; esta segunda fase, la constituye un muestreo cualquiera de la primera.
2.1.4 Mtodos de muestreo no probabilsticos
A veces, el muestreo probabilstico resulta excesivamente costoso y se acude a mtodos no
probabilsticos, aun siendo conscientes de que no sirven para realizar generalizaciones, pues
no se tiene certeza de que la muestra extrada sea representativa, ya que no todos los sujetos
de la poblacin tienen una probabilidad conocida de ser elegidos. En general se seleccionan a
los sujetos siguiendo determinados criterios procurando que la muestra sea representativa.
2.1.4.1 Muestreo por cuotas:
Consiste en dividir a la poblacin en estratos o categoras, y se asigna una cuota para
las diferentes categoras y, a juicio del investigador, se selecciona las unidades de
muestreo. La muestra debe ser proporcional a la poblacin, y en ella debern tenerse
en cuenta las diferentes categoras. El muestreo por cuotas se presta a distorsiones, al
quedar a criterio del investigador la seleccin de las categoras.
Se asienta generalmente sobre la base de un buen conocimiento de los estratos de la
poblacin y/o de los individuos ms "representativos" o "adecuados" para los fines de la
investigacin. Mantiene, por tanto, semejanzas con el muestreo aleatorio estratificado,
pero no tiene el carcter de aleatoriedad de aqul.
En este tipo de muestreo se fijan unas "cuotas" que consisten en un nmero de
individuos que renen unas determinadas condiciones, por ejemplo: 20 individuos de
25 a 40 aos, de sexo femenino y residentes en el Tambo. Una vez determinada la
cuota se eligen los primeros que se encuentren que cumplan esas caractersticas. Este
mtodo se utiliza mucho en las encuestas de opinin.
2.1.4.2 Muestreo por conveniencia
Este tipo de muestreo se caracteriza por un esfuerzo deliberado de obtener muestras
"representativas" mediante la inclusin en la muestra de grupos supuestamente tpicos.
La seleccin de las unidades de muestra se deja principalmente al entrevistador. Con
frecuencia se selecciona a los entrevistados porque se encuentran en el lugar
adecuado en el momento oportuno. Es muy frecuente su utilizacin en sondeos
preelectorales de zonas que en anteriores votaciones han marcado tendencias de voto.

2.1.4.3 Muestreo por juicio

64

Los elementos de la poblacin se seleccionan con base a juicio del investigador. Con
su juicio o experiencia, elige los elementos que incluir en la muestra, por que cree que
son representativos de la poblacin de inters o son de alguna manera apropiados. El
caso ms frecuente de este procedimiento el utilizar como muestra los individuos a los
que se tiene fcil acceso (los profesores de universidad emplean con mucha frecuencia
a sus propios alumnos). Un caso particular es el de los voluntarios.
2.1.4.4 Bola de nieve
Se localiza a algunos individuos, los cuales conducen a otros, y estos a otros, y as
hasta conseguir una muestra suficiente. Este tipo se emplea muy frecuentemente
cuando se hacen estudios con poblaciones "marginales", delincuentes, sectas,
determinados tipos de enfermos, etc.
Tambin este tipo de muestreo se inicia con una muestra tomada al azar pero que
luego se va depurando por referencia de los primeros contactados, de ese modo se
pueden estudiar diferentes poblaciones en relacin al producto que se est
presentando. Este mtodo por ende permite evaluar las "subpoblaciones especficas"
que muchas veces se descartan porque tienen un volumen muy pequeo en cuanto a
poblacin y sera antieconmico desarrollar productos para poca gente.
ACTIVIDAD N5
1. Elabore una ficha tcnica sobre el tema de investigacin que est trabajando.
2. Construya un organizador de conocimientos sobre el tema MTODOS DE MUESTREO

65

TEMA 02
2.2 ESTIMACIN DE PARMETROS
Cuando se selecciona una muestra la intencin primaria es conocer y analizar a la poblacin de
donde fue seleccionada, entonces es a partir de nuestros resultados muestrales que estimamos los
resultados de la poblacin a este proceso se le llama la Estimacin de parmetro, siendo este uno de
los mtodos ms importantes de la estadstica inferencial.

2.2.1 Conceptos Bsicos


2.2.1.1 Estimador
Sea X una variable aleatoria cuya funcin de probabilidad (o densidad de probabilidad
si es continua) depende de unos parmetros 1 ,..., k desconocidos.
Representamos mediante

X 1 ,..., X n una muestra aleatoria simple de la variable. Se

denomina estimador de un parmetro

i ,

a cualquier variable aleatoria

que se

exprese en funcin de la muestra aleatoria y que tenga por objetivo aproximar el valor
de i .
Obsrvese que el estimador no es un valor concreto sino una variable aleatoria, ya que
aunque depende unvocamente de los valores de la muestra observados, la eleccin de
la muestra es un proceso aleatorio.
2.2.1.2 Estimacin
Una vez que la muestra ha sido elegida, se denomina estimacin el valor numrico
que toma el estimador sobre esa muestra.
Se puede estimar mediante:
- Estimacin puntual: Consiste en determinar un posible valor para el parmetro
poblacional.
- Estimacin por intervalos: Consiste en determinar un posible rango de valores o
intervalo, en los que pueda precisarse, con una determinada probabilidad, que el
valor de un parmetro.
2.2.1.3 Estimacin por intervalos de confianza
La estimacin confidencial o por intervalos consiste en determinar un posible rango de
valores o intervalo, en los que pueda precisarse, con una determinada probabilidad,
que el valor de un parmetro se encuentra dentro de esos lmites.
La Estimacin por intervalos consiste en asociar a cada muestra un intervalo que se
sospecha que debe contener al parmetro. A ste se le denomina intervalo de
confianza
Evidentemente esta tcnica no tiene porqu dar siempre un resultado correcto. A la
probabilidad de que hayamos acertado al decir que el parmetro estaba contenido en
dicho intervalo se la denomina nivel de confianza. Tambin se denomina nivel de
significacin a la probabilidad de equivocarnos.
2.2.2 Intervalo de confianza para una media poblacional
2.2.2.1 Si se conoce la varianza poblacional
Cuando queremos estimar la media de la poblacin

poblacional, el estadstico que ms nos va a ayudar es


confianza al (1- )% est dado por:

66

pero conociendo su varianza


, entonces el intervalo de

x z1

x z

expresado en forma resumida:

x z1

Este intervalo es vlido tambin cuando la poblacin se distribuye como una normal
con varianza poblacional conocida y el tamao de muestra es n2.
Los casos anteriores se presentarn poco en la prctica, ya que lo usual es que sobre
una poblacin quizs podamos conocer si se distribuye normalmente, pero el valor
exacto de los parmetros y no son conocidos. De ah nuestro inters en buscar
intervalos de confianza para ellos.
2.2.2.2 Si se desconoce la varianza poblacin
Para un tamao de muestra grande (n30) el estadstico que ms nos va a ayudar es
X , el intervalo de confianza al (1-)% estar dado por:

z1 s
2

z1 s
2

Pero para estimar una media poblacional cuando la poblacin de donde se seleccion
la muestra es normal y con un tamao de muestra pequeo (n<30). Su intervalo de
confianza al (1-)% es:

t1

, ( n 1)

t1

, ( n 1)

Si el muestreo es sin reemplazo y la fraccin de muestreo


ser:

( z / 2 t / 2 ).s
n

n
0,05 , el error estndar
N

N n
y los lmites de confianza se calculan con la siguiente
N 1

frmula.

x ( z / 2 t / 2 ).s

s N n
s N n
x ( z1 / 2 t1 / 2 ).s
n N 1
n N 1

2.2.3 Intervalos de confianza para una proporcin poblacional


Sean X 1 ,..., X n B( p) nuestra de una poblacin con distribucin de Bernoulli. Si
queremos estimar el parmetro p, la manera ms natural de hacerlo consiste en definir
la suma de stas, lo que nos proporciona una distribucin Binomial:
X X 1 ... X n B(n, p) y tomar como estimador suyo la variable aleatoria.
Es decir, tomamos como estimacin de p la proporcin de xitos obtenidos en las n
pruebas

p . El intervalo de confianza al (1-)% est dado por:


p z1

p(1 p)
p(1 p)
p p z1
2
n
n

67

en forma abreviada es:

p z1

p(1 p)
n

Si el muestreo es sin reemplazo y la fraccin de muestreo


confianza se calculan con la siguiente frmula.

n 0,05. N , los lmites de

p q N n
p q N n
p p Z1 / 2
n N 1
n N 1

p Z1 / 2

2.2.4. Intervalo de confianza para una Varianza Poblacional


El intervalo de confianza al nivel (1-)% para la varianza de una distribucin normal (cuyos
parmetros desconocemos) est dado por:

(n 1) s 2

12

;n 1

(n 1) s 2

;n 1

68

EJERCICIOS RESUELTOS
1. Un artculo publicado en un diario local indica que el tiempo promedio empleado por los
hogares de Lima Metropolitana en ver televisin en el horario de 8 p.m. a 11 p.m. es de 7,75
horas. Suponga que el tiempo tiene una distribucin aproximadamente normal con desviacin
estndar de 3,45 horas. Para corroborar dicha afirmacin un grupo de estudiantes selecciona una
muestra de 180 hogares de L.M. y obtuvo que el tiempo promedio fue de 7,42 horas por semana.
Ser cierta la afirmacin publicada por el diario local al 96% de confianza?
Solucin:
i) La estimacin puntual de es

x =7,42 siendo n=180


ii) 1- = 0,96 = 0.04 entonces: Z1 / 2 = Z(0.98) = 2,05
como: x Z1 / 2

x Z1 / 2

iii) IC ( ) 7,42 (2,05)

3,45
3,45
7,42 (2,05)
180
180
6,8928 7,9472

Interpretacin: Con un 96% de confianza entre 6,8928 y 7,9472 horas por semana se encontrar
la media del tiempo empleado por todos los hogares de Lima Metropolitana en ver televisin en el
horario de 8 p.m. a 11 p.m. por lo tanto es cierta la afirmacin publicada en el diario local.
2. Se tienen 50 000 trabajadores de construccin civil empadronados en el Ministerio de Trabajo,
de los cuales se tom una muestra aleatoria de 400 y se analiz el ingreso diario. Si la media de
los trabajadores encuestados es de 74 soles diarios con una desviacin estandar de 10.68 soles,
construya un intervalo de confianza del 90% para el ingreso diario de todos los trabajadores de
construccin civil.
Solucin
i) x =74; n=400 ;N=50 000 y s=10.68
ii) 1- = 0,90 = 0.1 entonces:
iii)

x Z1 / 2

Z 1 / 2 = Z(0.90) = 1.645

N n

x Z1 / 2
N 1
n

N n
N 1

10.68
50000 400
10.68
50000 400
x
74 (1.645)
x
50000 1
50000 1
400
400
v) IC ( ) 73.13 74.87
iv) IC ( ) 74 (1.645)

3. El jefe del rea de prensa de un diario desea evaluar la habilidad de su equipo de trabajo en el
digitado de una misma noticia. Para realizar dicho estudio selecciona al azar una muestra
aleatoria de redactores obteniendo los siguientes resultados (en minutos):
3,2
6,3

4,8
7,9

5,3
8,2

9,1
7,9

6,3
6,9

8,2
9,3

6,5
8,6

9,6
6,8

10,3
10,1

8,6
9,0

Asumiendo que los tiempos se distribuyen normalmente. Halle e interprete un intervalo del
95% de confianza para el tiempo medio utilizado en el tipeado de una noticia.
Solucin:
i) La estimacin puntual para es x =7,645 siendo s= 1.8597

69

ii) Como el nivel de confianza es 95%,

t /2;n1 =2.0930

iii)

IC ( ) 7,645 2,0930

(1,8597)
(1,8597)
7,645 2,0930
20
20
6.7746 8.1130

iv) Interpretacin: Con un 95% de confianza entre 6.7746 y 8.1130 minutos se encontrar la media
del tiempo utilizado por todos los redactores en el digitado de una noticia.
4. Pamela, estudiante de estadstica para Ciencias de la Empresa piensa que el gasto promedio
semanal en fotocopias de los estudiantes de su facultad es de 3.5 soles. Para verificar si es cierto
lo que est pensando ha elegido al azar una muestra de 9 estudiantes de un total de 120
estudiantes que llevan el curso de estadstica para comunicadores, resultando los siguientes
gastos:
3,5

2,5

1,9

1,7

2,5

3,4

2,9

1,6

1,5

Si la variable aleatoria objeto de estudio sigue una distribucin normal. Con un intervalo de
confianza del 96% para la media del gasto semanal en fotocopias por estudiante ser cierto
lo que piensa Pamela?
Solucin:
i) n=9; N=120; 1-=0.96
ii) x =2.3889 siendo s= 0.7639 y n/N=0.0758>0.05
iii)

t /2;n1 =2.44898

iv)

N n
n 1;
N 1
2

0,7639 120 9
2,3889 2,44898
120 1
9

IC ( ) x t

s
n

1,7866 2,9912
v) Conclusin: Con un nivel de confianza del 96% se puede decir que el gasto promedio semanal
en fotocopias de los estudiantes de su facultad es menor a 3.5 soles, por lo que podramos decir
que lo que piensa Pamela no es cierto.
5. Un fabricante de bateras para automviles afirma que sus bateras durarn, en promedio, tres
aos con una varianza de un ao. Si cinco de estas bateras tienen duraciones de 1.9, 2.4, 3.0, 3.5
y 4.2 aos, construya un intervalo de confianza del 95% para

2 y decida si la afirmacin del

fabricante de que = 1 es vlida. Suponga que la poblacin de duraciones de las bateras se


distribuye de forma aproximadamente normal.
2

Solucin
2
i) s = 0,815, n=5
2
2
ii) El valor X 1-/2 , es un valor X con 5-1 grados de libertad, que deja un rea de 0,025 a la
2
izquierda y por lo tanto un rea de 0,975 a la derecha, es X 0,975 = 0,484; de la misma forma, el
2
2
valor X /2 es igual a X 0,025 = 11,143.

(5 1)(0.815)
(5 1)(0.815)
2
11.143
0.484
2
iv) 0.3 6.7
iii)

70

v) Interpretacin: Con 95% de confianza entre 0,3 y 6,7 se encontrar la varianza de la duracin
de las bateras. S es posible considerar como vlida la afirmacin del fabricante porque el
intervalo hallado contiene a la unidad.
2.2.8 Determinacin del Tamao de Muestra
Existen tres factores que determinan el tamao de una muestra; ninguno tiene alguna relacin
directa con el tamao de la poblacin. Estos son:
- El grado de confianza elegido.
- El mximo error permitido.
. La variacin de la poblacin.
2.2.8.1 Muestreo Aleatorio Simple
a. Para estimar la media poblacional
Poblacin infinita

z
n 2
E
2

Otra forma para calcular es mediante:

z 2 2 N
E 2 ( N 1) z 2 2

Ajuste de Tamao de muestra


para poblacin finita

n0
n
1 0
N

Donde:
E: Es el error permitido;
Z: El valor estndar normal asociado con el grado de confianza elegido,
: La desviacin de la poblacin, obtenida de estudios anteriores, experiencias
previas o se puede estimar la desviacin estndar muestral mediante un estudio
piloto
no: Tamao de muestra calculada de una poblacin infinita
N: Tamao de poblacin
Se dice que una poblacin es finita si la relacin n/N > 5%
2.2.8.2 Para estimar la proporcin poblacional
Poblacin infinita

z 2 pq
n 2
E
Donde:
E:
Z,
P:

q:
N:

poblacin finita

z 2 pqN
n 2
E ( N 1) z 2 pq

Es el error permitido;
El valor estndar normal asociado con el grado de confianza elegido,
La proporcin de xito de la poblacin, obtenida de estudios anteriores, experiencias
previas o se puede estimar la proporcin de xito muestral mediante un estudio
piloto.
La proporcin de fracaso de la poblacin se obtiene por complemento de p, esto
q=1p
Tamao de poblacin
EJERCICIOS RESUELTOS

6. Se desea estimar el peso promedio de los sacos que son llenados por un nuevo instrumento en
una industria. Se conoce que el peso de un saco que se llena con este instrumento es una variable

71

aleatoria con distribucin normal. Si se supone que la desviacin tpica del peso es de 0,5 kg.
Determine el tamao de muestra aleatoria necesaria para determinar una probabilidad igual a 0,95
de que el estimado y el parmetro se diferencien modularmente en menos de 0,1 kg.
Solucin
i) e=0.1;
ii) Z1 1,96

0.5; 0.05

0,51,96
iii) n
96,4
0,1

iv) Evidentemente un tamao de muestra no puede ser fraccionario por lo que se debe aproximar
por exceso. El tamao de muestra sera de 97.
7. En un lote de frascos para medicina, con una poblacin de 8000 unidades, se desea estimar la
media de la capacidad en centmetros cbicos de los mismos. A travs de un premuestro de
tamao 35 se ha estimado que la desviacin estndar es de 2 centmetros cbicos. Si queremos
3
tener una precisin 0.25 cm , y un nivel de significancia del 5%. De que tamao debe de ser la
muestra?
Solucin
3
i) e=0.25 cm ;
ii) Z1 1,96

2cm 3 ; 0.05

N . 2 Z 2 2

iii)

iv)

v)

Ne 2 Z 2 2

8000(2) 2 (1.96) 2
8000(0.25) 2 (2) 2 (1.96) 2

122931.2
239
515.37

vi) Solo faltara muestrear 204 frascos, pues los datos de los 35 frascos del premuestreo siguen
siendo vlidos.
8. En una investigacin, se desea determinar en que proporcin los nios de una regin toman
leche en el desayuno. Si se sabe que existen 1500 nios y deseamos tener una precisin del 10
%, con un nivel de significancia del 5%. De que tamao debe de ser la muestra?
Solucin
0.05
i) N=1500; e=10%=0.1;
ii) p = 0.5 y q = 0.5
iii) Z1 1,96
2

iv)

N . p.q.Z 2 2
N .e 2 p.q.Z 2 2

1500(0.5)(0.5)(1.96) 2
1500(0.1) 2 (0.5)(0.5) / 1.96) 2
vi) n 90 . Se deben muestrear 90 nios.
v)

ACTIVIDAD N6
Resuelve los ejercicios propuestos pares y presntelos de manera formal.

72

EJERCICIOS PROPUESTOS
1. Estimacin de una Media Poblacional
1. Para tratar de estimar la media de consumo por cliente, en un gran restaurante, se reunieron
datos de 49 clientes durante un periodo de 3 semanas
a. Suponga que la desviacin estndar de la poblacin es de $2.50, cul es el error
estndar de la muestra?
b. Con nivel de confianza de 95%, Cul es el margen de error?
c. Si la media de la muestra es de $22.60 dlares, cul es el intervalo de confianza de 95%
de la media de la poblacin?
2. Un analista de bolsa de valores afirma que posee un mtodo excepcionalmente preciso para
pronosticar las subidas de la cotizacin de acciones. En un periodo de tiempo dado, las
acciones cuya compra recomend tuvieron las siguientes subidas (en dlares) en su
cotizacin:
2,53 1,58 3,022,761,252,251,75 2,25
Estime la media de todas las subidas de las acciones mediante un intervalo de confianza del
98%.
3. Se pretende conocer la renta anual de un grupo de 100 familias. Para ello se extrae una
muestra aleatoria simple con los siguientes resultados expresados en miles de dlares: 132,
154, 202, 705, 181.2, 160, 190, 125, 118.7. Estime con una confianza del 95% y supuesta
normalidad de la media poblacional por puntos y mediante un intervalo de confianza.
4. Una gran empresa desea estudiar mediante muestreo las compras de los clientes a los que
factura entre 6 000 y 18 000 dlares en mercancas. Para ello, de un total de 750 clientes
seleccionan una muestra aleatoria de tamao 100, en la que resulta una facturacin media de
11 720 dlares con una desviacin tpica de 3 000 dlares. Estime el promedio de las ventas
para todos los clientes por intervalos al 90% y 95%.
5. Jess es un corredor de la Bolsa de Valores y tiene curiosidad acerca de la cantidad de
tiempo que existe entre la colocacin de una orden de venta y su ejecucin. Jess hizo un
muestreo de 45 rdenes y encontr que el tiempo medio para la ejecucin fue de 24,3
minutos, con una desviacin estndar de 3,2 minutos. Ayude a Jess en la construccin de
un intervalo de confianza de 95% para el tiempo medio en la ejecucin de una orden.
6. Un directivo de cierta empresa ha comprobado que los resultados obtenidos en los test de
aptitud por los solicitantes de un determinado puesto de trabajo siguen una distribucin
normal con una desviacin tpica de 32,4 puntos. La media de las calificaciones de una
muestra aleatoria de nueve test es de 187,9 puntos. Calcule un intervalo de confianza del
80% para la calificacin media poblacional del grupo de solicitantes actual.
7. Un fabricante produce anillos para los pistones de un motor de automvil. Se sabe que el
dimetro del anillo esta distribuido aproximadamente de manera normal, y que tiene una
desviacin estndar = 0.001 mm. Una muestra aleatoria de 15 anillos tiene un dimetro
promedio de x = 74.036 mm.
a. Construya un intervalo de confianza bilateral del 99% para el dimetro promedio del
anillo.
b. Construya un limite inferior de confianza del 95% para el dimetro promedio del anillo.
8. En un estudio hecho para determinar el tiempo medio necesario para el montaje de cierta
pieza de una maquina, 40 trabajadores hicieron un promedio de 42.5 minutos con una
desviacin tpica de 3.8 minutos. Usar los datos para construir un intervalo de confianza de
98% de tiempo promedio verdadero necesario para montar la maquina.

2. Estimacin de una Proporcin Poblacional

73

9. De una poblacin de 1500 empleados de una empresa se seleccion una muestra al azar de
150 para participar en una encuesta. Entre los comprendidos en la muestra, 120 manifestaron
que estaban satisfechos por completo con todas las condiciones laborales de la empresa.
Construya el intervalo de confianza del 98% para la proporcin real que opina de esta
manera.
10. Generalmente los estudios de factibilidad de proyectos requiere de una medida de la
demanda para determinar la rentabilidad potencial de un bien o servicio. En un estudio para
determinar la factibilidad de aumentar la programacin de televisin con apoyo del gobierno,
un investigador encontr que 70 de 180 viviendas con televisor seleccionadas totalmente al
azar ven programas con apoyo gubernamental al menos dos horas a la semana. Encuentre
un intervalo de confianza del 90% para la proporcin de viviendas con televisor que ven al
menos 2 horas a la semana de programas patrocinados por el gobierno.
11. Un auditor decide estimar el porcentaje de morosos de una empresa. De los 600 deudores
selecciona aleatoriamente a 150, de los que 60 son morosos. Con esta informacin estime
mediante un intervalo del 95% de confianza la proporcin poblacional de morosos. Exprese el
error de estimacin.
12. Una muestra de 70 ejecutivos de una empresa fue investigada con respecto al pobre
desempeo que sta tuvo en noviembre, 65% de los ejecutivos crea que la disminucin en
las ventas se debi al alza inesperada de la temperatura, lo cual trajo como consecuencia
que los consumidores retardaran la adquisicin de productos de invierno. Encuentre el
intervalo de confianza para esta porcin, dado un nivel de confianza igual a 0,95.
13. Una industria de carnes est pensando en lanzar al mercado un nuevo tipo de carne molida
de pollo. Para esto se tom una muestra de 75 amas de casa y encontr que a 45 de ellas no
les gust este tipo de carne. Encuentre un intervalo de confianza del 99% para la verdadera
proporcin de amas de casa que les gust este tipo de carne. Interprete el resultado.
14. Una marca de lavadoras quiere saber la proporcin de amas de casa que preferiran usar su
marca. Toman al azar una muestra de 100 amas de casa y 20 dicen que la usaran. Calcula
un intervalo de confianza del 95% para la verdadera proporcin de amas de casa que
preferiran dicha lavadora.
3. Estimacin de una varianza poblacional
15. Las siguientes son las velocidades de 10 digitadores seleccionados al azar de una empresa,
los datos siguientes son el nmero de palabras digitadas por minuto:
66 37 18 31 35 63 73 83 68 80
Supongamos que las velocidades estn normalmente distribuidas y construya el intervalo de
confianza del 95% para la varianza poblacional.
16. Una mquina produce piezas metlicas en forma cilndrica. Para estimar la variabilidad de los
dimetros, se toma una muestra aleatoria de 10 piezas producidas por la mquina
encontrando los siguientes dimetros en centmetros:
10.1 9.7 10.3 10.4 9.9 9.8 9.9 10.1 10.3 9.9
17. En computacin, carga de trabajo se define como un conjunto de solicitudes de recursos de
entrada-salida (E/S) durante un periodo dado. La carga de trabajo se compara con la
medicin llamada contenido relativo de E/S. La instalacin MVS de lote comercial promedio
es la base de esta medicin y se le asigna un contenido relativo de E/S de 1. Otras
instalaciones se califican en relacin con consultora grande, en periodos de una hora
seleccionados aleatoriamente:
3.4
3.6
4.0
0.4
2.0
3.0
3.1
4.1
1.4
2.5
1.4
2.0
3.1
1.8
1.6
3.5
2.5
1.7
5.1
0.7
4.2
1.5
3.0
3.9
3.0
Construir un intervalo de confianza de 95% de la desviacin estndar del contenido relativo
E/S de esta instalacin

74

4. Determinacin de Tamao de Muestra


18. El mantenimiento de cuentas de crdito puede resultar demasiado costoso si el promedio de
compra por cuenta baja de cierto nivel. El gerente de un almacn desea estimar el promedio
de cantidad comprada por mes por sus 1461 clientes que usan cuenta de crdito, con un
error de a lo ms de 20 soles con una probabilidad aproximada de 0,95. Cuntas cuentas
deben ser seleccionadas del archivo de la compaa si se sabe que la desviacin estndar de
los balances mensuales de las cuentas de crdito es de 95 soles?
19. Los productos defectuosos resultan costosos para el fabricante en trminos de costo por
reemplazo y en trminos de deterioro de la imagen del producto ante el pblico consumidor.
Un fabricante de computadoras confa en que a lo ms 10% de los productos fabricados por
su empresa resultan defectuosos. Si se desea estimar la proporcin actual de computadoras
defectuosas con un error del 3% y una confiabilidad del 95% cuntas computadoras deben
ser seleccionadas?
20. Una tienda por departamentos desea estimar, con un nivel de confianza de 0.98 y un error
mximo de S/50, el verdadero valor promedio en soles de la compras a crdito por mes
realizada por los clientes, si la desviacin estndar es de S/150. Cul es el tamao de
muestra que debe elegirse?
21. La facultad de Ciencias de la Empresa cuenta con un total de 3958 estudiantes matriculados,
que cursan diferentes semestres de la carrera. El decano de la facultad desea saber cuntos
estudiantes del total han ledo el manual del estudiante, determine el tamao de muestra
necesario para la investigacin.
22. Se planea una investigacin para determinar los gastos en consultora contable promedios
por ao. La administracin de la compaa desea tener 95% de confianza de que el promedio
muestral es correcto dentro de $500 del promedio real por empresa. Un estudio piloto indica
que la desviacin estndar se puede estimar como $4000. Qu tamao de muestra se
requiere?

75

TEMA 03
2.3 PRUEBA DE HIPTESIS
La inferencia estadstica utiliza dos mtodos muy importantes uno de ellos se ha visto en el captulo
anterior como estimar los parmetros de una poblacin a partir de valores de una muestra, pero otro
de los mtodos muy importantes es la Prueba de Hiptesis que se utiliza para tomar decisiones de los
parmetro de la poblacin en base a datos de una muestra. Para iniciar este captulo primero es
importante tener claro algunos conceptos bsicos.
2.3.1 Conceptos Bsicos
2.3.1.1 HIPTESIS
Cualquier afirmacin o conjetura que se hace a cerca de algo.
2.3.1.2 HIPTESIS ESTADSTICA
Cualquier afirmacin o conjetura que se hace a cerca de la distribucin de una o ms
poblaciones
Ejemplo:
El promedio ponderado de los alumnos de UCCI en el semestre 2002-2 es superior a
14.
2.3.1.3 HIPTESIS SIMPLE
Cualquier hiptesis estadstica que especifica completamente la distribucin de la
poblacin, especifica la forma de la distribucin y el valor de su parmetro.
Ejemplo:
El ingreso mensual promedio de los empleados de cierta empresa es de 900 nuevos
soles, suponiendo que los ingresos se distribuyen normalmente con desviacin
estndar de 30.
2.3.1.4 HIPTESIS COMPUESTA
Cualquier hiptesis estadstica que NO especifica completamente la distribucin de la
poblacin
Ejemplo:
El ingreso mensual promedio de los empleados de cierta empresa es SUPERIOR a 900
nuevos soles, suponiendo que los ingresos se distribuyen normalmente con desviacin
estndar de 30.
2.3.2 Hiptesis Nula y Alternativa
2.3.2.1 HIPTESIS NULA (H0)
Es la hiptesis que es aceptada provisionalmente como verdadera y cuya validez ser
sometida a comprobacin
2.3.2.2 HIPTESIS ALTERNATIVA (H1)
Es una hiptesis contraria a la hiptesis nula, se acepta en caso que la hiptesis nula
sea rechazada.
2.3.3 PLANTEAMIENTO DE HIPTESIS
1) H0: = 0
H1: 0

2) H0: 0
H1: > 0

3) H0: 0
H1: < 0

Donde 0 es el valor del parmetro desconocido


2.3.4. PRUEBA DE HIPTESIS ESTADSTICA
Proceso para la toma de decisiones de aceptar o rechazar la Hiptesis Nula H 0 en
contraposicin de la hiptesis alternativa H1 basndose en los resultados de una muestra.

76

2.3.5 TIPOS DE PRUEBAS DE HIPTESIS


Depende de la hiptesis alternativa
Prueba de Hiptesis unilateral
o Prueba de una cola
H0: = 0 y H1 : > 0
H0: = 0 y H1 : < 0

Prueba de Hiptesis Bilateral o


Prueba de dos colas
H0: = 0 y H1 : 0

2.3.6 ERROR TIPO I Y II


DECISIN
ACEPTAR H0
RECHAZAR H0

H0 VERDADERA

H0 FALSA

CORRECTO
1-
ERROR TIPO I

ERROR TIPO II

CORRECTO
(1-)

Nivel de Significacin ()
Es la probabilidad de cometer un error
de tipo I
= P(error tipo I)
= P(rechazar H0 cuando es
verdadera)

Potencia de una Prueba


Es la probabilidad de cometer un error
de tipo II
= P(error tipo II)
= P(aceptar H0 cuando es falsa)

2.3.7 REGLA DE DECISIN


Es la divisin de la distribucin muestral del estadstico de la prueba en dos partes mutuamente
excluyentes:
Regin Crtica (RC): regin de rechazo de H0
Regin de Aceptacin (RA): regin de no rechazo de H0
Depende de la hiptesis alternativa H1 del nivel de significacin y la distribucin muestral del
estadstico
Prueba de Hiptesis Bilateral o
Prueba de dos cola
H0: = 0 y H1 : 0

Prueba de Hiptesis unilateral


o Prueba de una cola
H0: = 0 y H1 : < 0

Prueba de Hiptesis
unilateral o Prueba de una
cola
H0: = 0 y H1 : > 0

2.3.8 PROCEDIMIENTO DE LA PRUEBA DE HIPTESIS


La prueba de hiptesis estadstica consta del siguiente procedimiento:
1. Planteamiento de las hiptesis. Establezca la aseveracin que desea ser probada y
exprsela en forma simblica, H 0 y H1. El signo igual siempre debe ir vinculado con
la H0.
2. Establecimiento del nivel de confianza. De acuerdo a la gravedad de cometer el
error tipo I se establece el valor . Es usual considerar los valores 0.05 y 0.01. Este
valor nos permitir calcular el valor crtico de la prueba que puede ser z, t o chi
cuadrado.
3. Clculo del estadstico de prueba. Se identifica el estadstico pertinente para la
prueba realizada y su respectiva distribucin, luego se realiza el clculo del mismo
al cual usualmente se le denomina valor calculado. Se realiza un grfico de la
distribucin que incluya el valor crtico, el estadstico de prueba y las regiones de
rechazo o crtica y de aceptacin.
4. Establecimiento de la regla de decisin. Rechace la H 0 si el estadstico de prueba

77

se encuentra en la regin de crtica o de rechazo. Acepte la H 0 si el estadstico de


prueba se encuentra en la regin de aceptacin.
5. Toma de decisin. Establezca la conclusin indicando si existe evidencia muestral
suficiente para aceptar la H 0 (EEEAH0) o los datos muestrales no sustentan la
aseveracin de la H 0 por lo que no hay evidencia estadstica para aceptar H 0
(EEERH0)
2.3.9 PRUEBA DE ASEVERACIN PARA LA MEDIA.
2
Supongamos que de una poblacin normal con media desconocida y varianza conocida
se extrae una muestra de tamao n, entonces de la distribucin de la media muestral X se
obtiene la prueba estadstica o estadstico:

X o

/ n

t n 1

X
s/ n

2.3.10 PRUEBA DE ASEVERACIN PARA LA PROPORCIN.


Supongamos que de una poblacin de tamao N de la cual se obtiene una muestra de tamao
n, existen x elementos favorables a la caracterstica que se est analizando. Entonces la
proporcin muestral es:

x
. Siendo el valor presente en la hiptesis nula.
n

El estadstico de prueba es:

p HIPOTESIS
HIPOTESIS (1 HIPOTESIS )
n

El tamao de muestra de muestra debe ser lo suficientemente grande para que la prueba sea
vlida. Como regla prctica: np
4 , nq 4 y p q 1 .
2.3.11 PRUEBA DE ASEVERACIN PARA LA VARIANZA.
Para aplicar una prueba de hiptesis relativa a la varianza de una poblacin se debe asumir
que la distribucin Ji-cuadrada se da siempre y cuando se trate de poblaciones normales y el
estadstico de prueba es la variable Ji-cuadrada con (n-1) grados de libertad y que se expresa
como:

(n 1)s 2

2
2

El proceso que sigue una prueba de hiptesis para la varianza es el mismo que utilizamos en
las anteriores secciones, es muy usual aplicar esta prueba cuando se require comprobar el
grado de variabilidad de un proceso.

EJERCICIOS RESUELTOS
1. Fumar cigarros de la marca X produce en promedio 0.6 mg de nicotina. El departamento de
ingeniera del fabricante propone un filtro nuevo que supuestamente reducir la produccin de
nicotina. Se toma una muestra de 50 cigarros con el nuevo filtro y se encuentra que el
promedio de nicotina es de 0.55 mg. Con una desviacin estndar de 0.56. Debe aceptarse la
aseveracin del departamento de ingeniera con un nivel de significacin de 2.5 por ciento?
Tomado de Estadstica aplicada a la Administracin y Economa, Alfredo Daz Mata, Captulo 9, pg. 279. Primera Edicin.

Solucin
i) El parmetro de inters es la media de la poblacin , se desea probar:
H0:
H1:

0.60
0.60

78

Donde

es la verdadera media de la nicotina producida por los cigarros de la marca X.

La prueba es unilateral izquierda.


ii) Como se conoce la desviacin estndar muestral y el valor de n es 50 se utiliza el valor
crtico z, el cual es al 0.025 acumulado desde la izquierda igual a -1.96.

iii) El estimador es z calculado:

X o

/ n

0.55 0.60
0.6313
0.56 / 50

iv) El valor calculado o estimador -0.6313 se encuentra a la derecha del valor crtico 1.96, o
sea se encuentra en la regin de aceptacin.
v) Por lo tanto existe evidencia estadstica para aceptar la hiptesis nula y se concluye que los
nuevos filtros no reducen la nicotina que producen los cigarros de la marca X.
2. Los cientficos han citado al benceno, un disolvente qumico de uso comn en la sntesis de
plsticos como un posible agente causante de cncer. Ciertos estudios han demostrado que
las personas que trabajan con benceno durante ms de cinco aos tienen una incidencia de
leucemia 20 veces mayor que la de la poblacin en general. En consecuencia el gobierno
recomienda que el nivel mximo permisible de benceno en dicho lugar de trabajo se baje de 10
partes por milln (ppm) a 1 ppm. Supongamos que una fbrica de artculos de acero, que
expone diariamente a sus trabajadores al benceno, est siendo investigada por una
certificadora de calidad, para ello se examinan 20 muestras de aire tomadas durante un
perodo de un mes para determinar el contenido de benceno, obteniendo en el anlisis una
media de 2.1 ppm y una desviacin estndar de 1.7 ppm.
La fbrica de artculos de acero estara haciendo caso omiso a la recomendacin? Utilice un
nivel de confianza del 0.95.
Tomado de Probabilidad y Estadstica para Ingeniera y Ciencias, William Mendenhall, Captulo 9, pg. 441. Cuarta Edicin.

Solucin
i) El parmetro de inters es la media de la poblacin , se desea probar:
H0:
H1:

1
>1

La certificadora quiere corroborar la hiptesis de investigacin de que el nivel medio de


benceno en la planta de fabricacin excede a 1 ppm. Donde es la verdadera media. La
prueba es unilateral derecha.
ii) El nivel de significancia es =0.05, lo que nos permite calcular el valor crtico t (desviacin
estndar muestral conocida y n<30) y ubicarlo en la grfica que corresponde a una prueba de
hiptesis unilateral derecha.

79

iii) El estimador es t calculado:

X o
s/ n
2.1 1
t
2.89
1.7 / 20

iv) El valor calculado t o estadstico de prueba 2.89 se encuentra a la derecha de 1.729 en la


regin crtica o de rechazo. Existe evidencia estadstica para rechazar la H o.
v) La certificadora de calidad por lo tanto llega a la conclusin que >1 ppm y que la panta
est violando las normas gubernamentales con una confiabilidad asociada de =0.05.
3. El empleo de acero intemperizado en la construccin de puentes para autopistas ha sido
tema de considerable controversia. Los crticos han citado temas de corrosin graves del acero
intemperizado y estn tratando de convencer a las autoridades de que prohban su uso en la
construccin de puentes. Por otro lado las corporaciones acereras aseguran que estas
acusaciones son exageradas y dicen que 95% de todos los puentes de acero intemperizado en
operacin tienen un buen desempeo, sin daos graves por corrosin. A fin de probar esta
aseveracin, un equipo de ingenieros expertos de la industria del acero evaluaron 40 puente s
de acero intemperizado seleccionados al azar y encontraron que 36 de ellos mostraban un
buen desempeo. Hay pruebas con =0.05 de que la verdadera proporcin de puentes de
acero intemperizado que presentan un buen desempeo sea menor que 0.95 que es la cifra
citada por las corporaciones?
Tomado de Probabilidad y Estadstica para Ingeniera y Ciencias, William Mendenhall, Captulo 9, pg. 465. Cuarta Edicin.

Solucin
i) El parmetro de inters es una proporcin de la poblacin , se desea probar:
H0: = 0.95
H1: < 0.95
Donde es la verdadera proporcin de todos los puentes de autopista de acero
intemperizado que muestran un buen desempeo, siendo la prueba unilateral izquierda.
ii) El nivel de significancia es =0.05, lo que nos permite calcular el valor crtico z y ubicarlo en
la grfica que corresponde a una prueba de hiptesis unilateral izquierda.

iii)

x
54
, por lo que utilizando los datos del problema: p
0.9

n
60

iv) El estadstico de prueba es:

80

p HIPOTESIS
HIPOTESIS (1 HIPOTESIS )
n

0.9 0.95
1.78
0.95.(1 0.95)
60

v) Se puede rechazar la hiptesis nula con =0.05, ya que el valor calculado o estimador -1.78
cae a la izquierda del -1.645 lo que indica que se encuentra en la regin de rechazo.
vi) Por lo tanto, existe evidencia estadstica para sustentar la hiptesis de que la proporcin de
puentes de autopista de acero intemperizado que tienen buen desempeo es menor que 0.95.
4. Se sabe que el contenido en gramos de un producto fabricado por una compaa,
no rene las especificaciones si la varianza de un lote de produccin se aleja demasiado
hacia arriba o hacia debajo de 6.5. Comprobar si un gran lote de produccin rene las
especificaciones, si una muestra aleatoria de 20 unidades extrada aleatoriamente de dicho
lote arroj una varianza de 7.3. Utilizar un nivel de significacin del 5%. Se sabe que el
contenido del producto se distribuye normalmente.
Tomado de Estadstica, Hugo Gmez Giraldo, Captulo 8, pg. 238.
Solucin
2
i) H 0 :
=6.5
2
Ha :
6.5
ii) La prueba es bilateral con un nivel de significacin: = 0.05, el valor crtico ji-cuadrado es:

2
iii) El criterio de decisin ser el siguiente: Si el valor de X calculado es menor que 8.90652
o mayor que 32.8523, se rechaza la hiptesis nula de que la varianza sigue siendo de 6.5, con
un nivel de significacin del 5%.
2
iv) El estadstico de prueba se calcula teniendo en cuenta n=20, s =7.3 y utilizando la frmula:

(n 1) s 2

(20 1).x7.3
21.34
6.5

v) Como el estadstico de prueba 21.34 se encuentra en la regin de confianza o de


aceptacin. Entonces con podemos afirmar con un nivel de significancia del 5% que existe
evidencia estadstica para aceptar que la varianza del contenido del producto es el mismo.

ACTIVIDAD N7
Realice las pruebas de hiptesis de los problemas propuestos y presntelos de manera formal.

PROBLEMAS PROPUESTOS
1. Un convenio trabajador direccin exige una produccin media de 50 unidades. Una muestra
de 150 das revela una media de 47,3 con desviacin tpica de 5,7 unidades. Poner = 5% y
determine si cumple esta clusula del contrato.
2. Un nmero de una revista dedicada a los negocios deca que la gente tardaba 34 horas de
promedio en aprender un nuevo programa informtico de contabilidad. Est respaldada esta

81

afirmacin al nivel del 10%, si 35 personas emplearan una media de 40,58 horas, con una
desviacin tpica de 19, 7 horas?
3. En un artculo de Fortune se debata la creciente tendencia a que los empleados demanden
a sus empresas por incumplir las promesas en relacin son los beneficios sanitarios propuestos
y conclua que el juicio medio se entablaba por 115 000 dlares. 42 juicios dieron una media de
114 412 dlares. Si se supone una desviacin estndar de 14 000 dlares. Est respaldada la
hiptesis al nivel del 7%?
4. Una muestra aleatoria de diez estudiantes dio las siguientes cifras en horas para el tiempo
que pasan estudiando durante la semana previa a los exmenes finales.
28 ; 57 ; 42 ; 35 ; 61 ; 39 ; 55 ; 46 ; 49 ; 38.
Un grupo de profesores considera que el tiempo medio debera ser como mnimo de 40 horas.
Pruebe si los profesores estn en lo cierto con un nivel del significacin de 7%.
5. La ASPEC pide a los viajeros ejecutivos que califiquen los aeropuertos internacionales que
tienen oportunidad de utilizar, la calificacin mxima posible es 10. Una revista de turismo
desea calificar a los aeropuertos segn la calificacin que reciben de los ejecutivos, los
aeropuertos que obtengan una calificacin promedio de 7 o mas se consideraran de un servicio
optimo. Suponga que a una muestra aleatoria de 12 ejecutivos se les pidi calificar al
Aeropuerto Jorge Chvez obtenindose las siguientes calificaciones: 7, 8, 10, 8, 6, 9, 6, 7, 7, 8,
9 y 8, se ver que la media para estos datos es: 7.75 y su desviacin estndar 1.215;
considerando un nivel de significancia de 0.05, se puede afirmar que el Aeropuerto Jorge
Chvez ofrece un servicio optimo?
6. De una muestra de 361 propietarios de pequeos comercios que quebraron en un perodo
determinado, 105 no tuvieron asesoramiento profesional antes de abrir el negocio. Por
experiencia se sabe que lo que ha venido ocurriendo es que a lo sumo el 25% de los comercios
que no reciben asesoramiento quiebran. Analice si estos resultados prueban que ha habido un
aumento en el porcentaje de quiebras
7. Un fabricante afirma que al menos el 95% del equipo que ha surtido para cierta fbrica
cumple con las especificaciones. Se examina una muestra de 700 piezas de equipo y se
encuentra que 53 de ellas son defectuosas. Puede decirse que los datos proporcionan
suficiente evidencia para rechazar la afirmacin del fabricante? Use el nivel de significacin de
3%
8. La poltica de una empresa es restringir al 25% la proporcin de reclamos resueltas a favor
del asegurado. De las ltimas 1122 plizas, 242 compensaron por completo al asegurado; Si
1- = 90%. Se est cumpliendo la poltica?.
9. En su calidad de nuevo directivo en informacin de la empresa 3M, su jefe le ha pedido que
determine si los envos de la fbrica salen a tiempo. Como muchos otros encargos del mundo
real, ste es algo impreciso y usted se pregunta qu quera decir exactamente su jefe. Por fin
decide contrastar la hiptesis de que el 95% como mnimo de todos los envos cumplen los
requisitos de plazo. Para guardarse las espaldas, fija = 1%. Despus tome una muestra de
112 expediciones y encuentra que 104 de ella no se han retrasado. Qu le dir a su jefe?
10. Un supervisor de control de calidad en una enlatadora sabe que la cantidad exacta
contenida en cada lata vara, pues hay ciertos factores imposibles de controlar que afectan la
cantidad de llenado. El llenado medio por lata es importante pero igualmente importante es la
2
2
variacin de la cantidad de llenado. Si
es grande, algunas latas contendrn muy
poco y otras, demasiado. Las agencias reguladoras especifican que la desviacin estndar de
la cantidad de llenado debe ser menor que 0.1 onzas. El supervisor de control de calidad
muestre n=10 latas y midi la cantidad de llenado en cada una. Los datos se reproducen a
continuacin.
7.96
7.9
7.98
8.01
7.97
7.96
8.03
8.02
8.04
8.02
Esta informacin proporciona con un nivel de significancia del 0.05 pruebas suficientes de que

82

83

UNIDAD DIDCTICA III

MTODOS DE PRONSTICOS
INTRODUCCIN
En esta tercera unidad iniciaremos nuestro estudio los temas de Anlisis de Correlacin, anlisis
de Regresin Lineal Simple, no Lineal Simple.
La regresin y la correlacin son dos tcnicas estrechamente relacionadas que comprenden una
forma de estimacin de una relacin existente en la poblacin. Este anlisis, comprende el anlisis
de los datos muestrales para saber si y cmo se relacionan entre s dos o mas variables de una
poblacin.
Para finalizar esta tercera unidad tocaremos el tema de Series de Tiempo, denominado tambin
Series Cronolgicas; stas se definen como un conjunto de observaciones ordenadas en trminos de
tiempo.
El objetivo de analizar tales datos es determinar si se presentan ciertos patrones histricos o pautas
no aleatorias, para predecir acontecimientos futuros.
APRENDIZAJES ESPERADOS
Conoce mtodos y tcnicas de pronstico y los aplica eficientemente como herramientas para la
toma de decisiones y valora reflexivamente su importancia como herramienta en la contabilidad.
CONTENIDOS:
Tema 1: Anlisis Correlacin
Tema 2: Anlisis de Regresin

84

TEMA 01
3.1 ANLISIS DE CORRELACIN
3.1.1 DEFINICIN
Un grupo de tcnicas para medir la magnitud de la relacin entre dos variables.
3.1.2 DIAGRAMA DE DISPERSIN
Utilizada para representar grficamente la relacin entre dos variables
Grficamente se pueden tener alguno de estos casos:
40

40

30

30

20

20

10

10

0
0

10

20

30

Correlacin lineal positiva

10

20

20

30

Correlacin lineal negativa


40
35
30
25
20
15
10
5
0

100
80
60
40
20
0
0

10

30

10

20

30

No existe Correlacin

Correlacin no lineal
3.1.3 COEFICIENTE DE CORRELACIN LINEAL (r)

Una medida de la magnitud de la relacin lineal entre dos variables. Se calcula mediante:

n x

n xy x y
2

x n y 2 y
2

el coeficiente de correlacin se interpreta de la siguiente manera:


Correlacin
negativa
perfecta

Ninguna
correlacin
Moderada
correlacin
positiva

Moderada
correlacin
negativa
Fuerte
correlacin
negativa
-1

Correlacin
positiva
perfecta

Dbil
correlacin
positiva

Dbil
correlacin
negativa
- 0.5

Fuerte
correlacin
positiva
0.5

85

3.1.4 COEFICIENTE DE DETERMINACIN (r )


La proporcin de la variacin total de la variable dependiente Y que se explica por, o se debe a,
la variacin en la variable independiente X
3.1.5 PRUEBA t PARA EL COEFICIENTE DE CORRELACIN
Hiptesis

H0 : 0 H0 : 0

Estadstico de Prueba

n2
1 r2

86

TEMA 2
3.2 ANLISIS DE REGRESIN
El anlisis de regresin y correlacin reconoce que puede existir alguna relacin entre dos o ms
variables.
Esto es una variable depende de otra u otras variables.
Denotando como:

Y f (X )

Variable Dependiente (Y) : Est en funcin de la variable X


Variable Independiente (X) : Afecta o modifica a otra variable (Y).
Ejemplo:
Las ventas (Y) depende del precio (X)
3.2.1 DEFINICIN
El anlisis de regresin es un grupo de tcnicas para permiten encontrar un modelo
matemtico que relaciona a dos o ms variables.
Este modelo recibe el nombre de Ecuacin de Regresin:

Y f (X )
3.2.2 FORMAS DE REGRESIN
Regresin Simple: Cuando se relacionan una variable dependiente con una independiente.
Dos variables pueden relacionarse en forma de:
- Regresin Lineal Simple
- Regresin No Lineal Simple
Regresin Mltiple: Cuando se relacionan una variable dependiente con dos o ms
independientes
3.2.3 SUPUESTOS DE LA REGRESIN Y CORRELACIN
- Para cada valor de x hay un grupo de valores de y, y estos valores y estn distribuidos
normalmente.
- Toda las medias de estas distribuciones normales de Y estn sobre la lnea de regresin.
- Las desviaciones estndar de estas distribuciones normales son iguales.
- Los valores de y son estadsticamente independientes.

3.2.4 REGRESIN LINEAL SIMPLE


3.2.4.1 Ecuacin de Regresin

40
35
30
25
20
15
10
5
0

y a bx

10

3.2.4.2 Mtodo de mnimos cuadrados para clculo de a y b


n
x y
x
y
b 2 2
n x x

87

y b x
n

20

30

3.2.4.1 Error Estndar de Estimacin


En una medida de dispersin de los valores observados alrededor de la lnea de
regresin

s y,x

(y y

est

)2

n2

3.2.4.2 Intervalo de Confianza


Estima el valor medio de y para una x dada

y est t / 2;n 2 s yx

( x x) 2
( x) 2
2
x

3.2.4.3 Intervalo de Prediccin


Estima el rango de valores de y para una x dada

y est t / 2;n 2 s yx 1

( x x) 2
( x) 2
2
x n

3.2.5 REGRESIN NO LINEAL SIMPLE


Entre las ms importantes se tienen:
REGRESIN EXPONENCIAL

y ab

100
80
60
40
20
0

REGRESIN POTENCIAL

y ax b

10

20

30

REGRESIN POLINOMIAL

y a0 a1 x a2 x 2 ... ak x k
REGRESIN CUADRTICA

y a0 a1 x a2 x 2
ACTIVIDAD N8
1. Realice el anlisis de regresin y correlacin para los ejercicios propuestos
2. Utilizando datos de la empresa o institucin donde labora, realice un anlis de regresin y
correlacin, exponga sus resultados

88

EJERCICIOS PROPUESTOS
1. El gerente de ventas de COPIADORAS SUPER que tienen una gran fuerza de ventas en el
pas quiere determinar si hay alguna relacin entre el nmero de llamadas de ventas hechas
en un mes y el nmero de copiadoras vendidas en ese mes.
El gerente selecciona una muestra aleatoria de 10 representantes y determina el nmero de
llamadas de ventas hechas por cada representante el mes pasado y el nmero de copiadoras
que vendi. La informacin se muestra a continuacin:
Llamadas de ventas
20 40 20 30 10 10 20 20 20 30
Copiadoras vendidas
30 60 40 60 30 40 40 50 30 70
a. Represente grficamente la relacin entre las dos variables.
b. Determine el grado de relacin entre las variables.
c. Calcule la variacin del nmero de copiadoras vendidas que se debe a la variacin al
nmero de llamadas de venta.
d. Realice la Prueba de hiptesis respecto al coeficiente de correlacin.
e. Determine la ecuacin de regresin (recta de regresin).
f. Cul es el nmero esperado de venta de copiadoras para un empleado que hace 20
llamadas?
g. Determine el error estndar de estimacin.
h. Determine el intervalo de confianza del 95% para todos los representantes que hicieron 20
llamadas.
i. Determine el intervalo de prediccin del 95% para una representante del norte del pas que
hizo 20 llamadas.
2. Los siguientes datos son las ventas (miles de dlares) de una estacin de gasolina y la
cantidad de automviles atendidos.
AUTOS ATENDIDOS
276 265 264 285 255 232 238 271 224 203 230
VENTAS
2.1
2.3 2.3 2.3 2.5 2.1 1.9 2.4 1.8 1.2 2.2
a. Represente grficamente la relacin entre las dos variables.
b. Determine el grado de relacin entre las variables.
c. Calcule la variacin ventas que se debe a la variacin al nmero de autos que se atienden.
d. Realice la Prueba de hiptesis respecto al coeficiente de correlacin.
e. Determine la ecuacin de regresin (recta regresin).
f. Cul es la venta si se atienden 300 automviles?
g. Determine el error estndar de estimacin.
h. Determine el intervalo de confianza para las ventas promedio cuando se atienden 300
automviles del 95%.
i. Determine el intervalo de prediccin del 95% para las ventas promedio cuando se atienden
300.
3. Un fabricante de pantalones sabe que un presupuesto considerable para anunciar en
televisin su producto crear una demanda de ste entre los compradores de los almacenes.
La tabla muestra las cantidades (en miles de dlares) que se gastan para anunciar la lnea de
otoo durante los ltimos ocho aos y las unidades vendidas (en miles vendidas) de cada
lnea para el otoo.
Gastos en Publicidad (miles de $)
50 65 75 100 125 140 170 195
Pantalones Vendidos (miles de Unidades)
45 60 80 95 120 150 145 190
a. Represente grficamente la relacin entre las dos variables
b. Determine el grado de relacin entre las variables
c. Calcule la variacin ventas que se debe a la variacin de los gastos en publicidad.
d. Realice la Prueba de hiptesis respecto al coeficiente de correlacin
e. Determine la ecuacin de regresin (recta regresin).
f. Cul es la venta de pantalones si se gasta 160 mil dlares en publicidad?
g. Determine el error estndar de estimacin
h. Determine el intervalo de confianza para las ventas de pantalones cuando se gasta 160 mil
dlares en publicidad del 95%.
i. Determine el intervalo de prediccin del 95% para las ventas promedio de pantalones
cuando gastan 160 mil dlares en publicidad

89

ANEXO N1

90

GUIA DE MICROSOFT EXCEL

Excel es un programa de computadora desarrollado por la empresa Microsoft. A este tipo de


programa se lo conoce como Hoja de Clculo porque sirve para que una persona realice clculos
matemticos cmodamente.
El rea de trabajo en Excel es una figura en la pantalla que, aunque se la llama hoja, se trata de una
tabla con muchas filas y columnas que al cruzarse forman una gran cantidad de celdas. Los que
saben usar Excel le asignan a las celdas datos o frmulas matemticas. A estas ltimas se les indica
cules son las celdas de las que deben obtener los datos necesarios para calcular sus resultados.
Excel facilita notablemente el trabajo de los contadores, fsicos, matemticos, estadistas y de todo
aquel que necesite hacer varias veces los mismos clculos. Cada hoja puede ser guardada y vuelta a
utilizar cada vez que se lo necesite. El programa tambin ofrece la posibilidad de hacer grficos
automticamente, en los que se puede observar cmo se comporta una variable numrica con
respecto a otra.
En conclusin, Excel es una herramienta de gran utilidad para quienes quieran trabajar con funciones
y frmulas matemticas, o simplemente almacenar datos numricos y graficar su evolucin.

Tema N 1: PROCEDIMIENTOS BSICOS

1.1 El entorno de trabajo de Excel:


Para ejecutar Excel, simplemente se hace clic en el botn de inicio de Windows, despus la opcin
Programas, y finalmente se hace clic sobre el icono Microsoft Excel.
Cuando se ejecuta Excel, aparecer la pantalla que consta de cinco reas. La primera rea es la
ventana del libro de trabajo (la cual ocupa la mayor parte de la pantalla), la segunda es la Barra de
mens, la tercera es la Barra de herramientas, la cuarta es la Barra de frmulas y por ltimo, la quinta
es la Barra de estado.
En conjunto, las cinco reas anteriores se conocen como el rea de trabajo de Excel.

BARRA DE MENS

BARRA DE HERRAMIENTAS

91

BARRA DE FRMULAS

LIBRO DE TRABAJO
(celdas)

BARRA DE ESTADO

1.2 Construccin de frmulas:


Las frmulas constituyen la parte medular del concepto de una hoja de clculo como Excel.
Es una regla de Microsoft Excel que todas las frmulas comiencen con el signo de igualdad =.
Primero se selecciona la celda en la cual se desea almacenar el resultado de la frmula. Despus, en
la barra de frmulas se ingresa el signo = para indicar a Excel que se trata de una frmula. Cuando
se termina de introducir el valor, se deber aceptar el dato para almacenarlo de forma permanente
dentro de la celda. La forma ms simple de hacerlo es presionando la tecla ENTER, despus de
haber digitado el valor.
Los operadores con los que trabaja Excel son:
Operacin

Operador

Adicin
Sustraccin
Multiplicacin
Divisin
Potenciacin
Radicacin

+
*
/
^
Exponentes fraccionarios

1.3 Combinacin de parntesis:


La nica regla para el uso de parntesis en una frmula es que por cada parntesis cerrado, deber
existir un parntesis abierto, y viceversa. De lo contrario, Excel visualizar un mensaje de error en la
frmula introducida.
1.4 Cmo hacer clculos estadsticos en Excel?
Hay dos posibilidades:
Usar funciones estadsticas.
Usar el cuadro de dilogo Anlisis de datos
1.5 Funciones estadsticas:
En Excel tenemos muchas funciones como Matemticas y Trigonomtricas, Financieras, Estadsticas,
etc. Para poder usarlas debemos tener en cuenta lo siguiente:
Siempre comienzan por el signo igual ( = ).
Se escribe el nombre de la funcin.

92

Se aaden los argumentos entre parntesis. En el caso de las frmulas estadsticas es frecuente
que los argumentos sean rangos.

1.6
A.
B.
C.
D.

El cuadro de dilogo Insertar funcin:


Elija la categora Estadsticas.
Busque el nombre de la funcin en la lista.
Puede ver la descripcin de la funcin para asegurarse de que ha elegido la adecuada.
Puede obtener ms informacin en Ayuda.

A
B

C
D
Funciones estadsticas
FUNCIN

DESCRIPCIN

Frecuencias

CONTAR
CONTAR.BLANCO
CONTAR.SI
CONTARA
FRECUENCIA
PERMUTACIONES
COMBINAT
PROBABILIDAD

Cuenta cuntos nmeros hay en la lista de argumentos


Cuenta el nmero de celdas en blanco dentro de un rango
Cuenta el nmero de celdas que no estn en blanco dentro
de un rango que coincida con los criterios especificados.
Cuenta cuntos valores hay en la lista de argumentos
Devuelve una distribucin de frecuencia como una matriz
vertical
Devuelve el nmero de permutaciones para un nmero
determinado de objetos
Devuelve el nmero de combinaciones para un nmero
determinado de objetos
Devuelve la probabilidad de que los valores de un rango se
encuentren entre dos lmites

93

Promedios

MEDIA.ACOTADA
MEDIA.ARMO
MEDIA.GEOM
MEDIANA
MODA.UNO
PROMEDIO
PROMEDIOA

Devuelve la media del interior de un conjunto de datos


Devuelve la media armnica
Devuelve la media geomtrica
Devuelve la mediana de los nmeros dados
Devuelve el valor ms frecuente en un conjunto de datos
Devuelve la media aritmtica de los argumentos
Devuelve la media aritmtica de los argumentos, incluidos
nmeros, texto y valores lgicos

Medidas de dispersin
Devuelve la covarianza, el promedio de los productos de las
desviaciones pareadas
Calcula la desviacin estndar basada en una muestra
DESVEST.M
Calcula la desviacin estndar de una muestra, incluidos
DESVESTA
nmeros, texto y valores lgicos
Calcula la desviacin estndar de la poblacin total
DESVEST.P
Calcula la desviacin estndar de la poblacin total,
DESVESTPA
incluidos nmeros, texto y valores lgicos
Devuelve la suma de los cuadrados de las desviaciones
DESVIA2
Devuelve el promedio de loas desviaciones absolutas de la
DESVPROM
media de los puntos de datos
Calcula la varianza de una muestra
VAR.S
Calcula la varianza de una muestra, incluidos nmeros, texto
VARA
y valores lgicos
Calcula la varianza en funcin de toda la poblacin
VAR.P
Calcula la varianza de la poblacin total, incluidos nmeros,
VARPA
texto y valores lgicos
Medidas de posicin, asimetra y curtosis
Devuelve la asimetra de una distribucin
COEFICIENTE.ASIMETRIA
Devuelve el cuartil de un conjunto de datos
CUARTIL
Devuelve la curtosis de un conjunto de datos
CURTOSIS
Devuelve la jerarqua de un nmero en una lista de nmeros
JERARQUIA
Devuelve el K-simo mayor valor de un conjunto de datos
K.ESIMO.MAYOR
Devuelve el K-simo menor valor de un conjunto de datos
K.ESIMO.MENOR
Devuelve el valor mximo de una lista de argumentos
MAX
Devuelve el valor mximo de una lista de argumentos,
MAXA
incluidos nmeros, texto y valores lgicos
Devuelve el valor mnimo de una lista de argumentos
MIN
Devuelve el valor mnimo de una lista de argumentos,
MINA
incluidos nmeros, texto y valores lgicos
Devuelve el K-simo percentil de los valores de un rango
PERCENTIL
Devuelve el rango de un valor en un conjunto de datos como
RANGO.PERCENTIL
porcentaje del conjunto
Distribuciones discretas
Devuelve el valor menor cuya desviacin binomial
INV.BINOM
acumulativa es menor o igual que un valor de un criterio
Devuelve la probabilidad de una variable aleatoria discreta
DISTR.BINOM.N
siguiendo una distribucin binomial
Devuelve la probabilidad para una variable aleatoria discreta
DISTR.HIPERGEOM.N
siguiendo una distribucin hipergeomtrica
Devuelve la distribucin binomial negativa o Pascal
NEGBINOM.DIST
Devuelve la distribucin de Poisson
POISSON.DIST
Distribuciones continuas
Devuelve un nmero aleatorio mayor o igual que 0 y menor
ALEATORIO
que 1 distribuido uniformemente. Es voltil
Devuelve un nmero aleatorio entero distribuido
ALEATORIO.ENTRE
uniformemente entre los lmites que se especifique
Devuelve la probabilidad de una variable aleatoria continua
DISTR.CHICUAD
siguiendo una distribucin chi cuadrado de cola izquierda
Devuelve la probabilidad de una variable aleatoria continua
DISTR.CHICUAD.CD
siguiendo una distribucin chi cuadrado de cola derecha
Devuelve la funcin de distribucin beta acumulativa
DISTR.BETA.N

COVAR

94

INV.BETA.N
DISTR.EXP.N
DISTR.F.CD
DISTR.F.N
INV.F
INV.F.CD
DISTR.GAMMA.N
INV.GAMMA
DISTR.NORM.N
DISTR.NORM.ESTAND.N
INV.NORM.ESTAND
INV.NORM
DISTR.T.2C

DISTR.T.N

Devuelve la inversa de la funcin de distribucin acumulativa


para una distribucin beta especificada
Devuelve la probabilidad de una variable aleatoria continua
siguiendo una distribucin exponencial acumulativa (cola
izquierda)
Devuelve la probabilidad de una variable aleatoria continua
siguiendo una distribucin F de cola derecha
Devuelve la probabilidad de una variable aleatoria continua
siguiendo una distribucin F acumulativa de cola izquierda
Devuelve el inverso de una distribucin de probabilidad F de
cola izquierda
Devuelve el inverso de una distribucin de probabilidad F de
cola derecha
Devuelve la probabilidad de una variable aleatoria siguiendo
una distribucin gamma acumulativa (cola izquierda)
Devuelve el inverso de la funcin gamma
Devuelve la probabilidad de una variable aleatoria continua
siguiendo una distribucin normal acumulativa (cola
izquierda). Con una media y desviacin estndar especficos
Devuelve la probabilidad de una variable aleatoria continua
siguiendo una distribucin normal estndar acumulativa
Devuelve el inverso de la distribucin normal estndar
acumulativa
Devuelve el inverso de la distribucin normal acumulativa
con una media y desviacin estndar especficas
Devuelve la probabilidad de una variable aleatoria continua
siguiendo una distribucin t de Student de dos colas
Devuelve la probabilidad de una variable aleatoria continua
siguiendo una distribucin t de Student de cola izquierda
Devuelve la probabilidad de una variable aleatoria continua
siguiendo una distribucin t de Student de cola derecha

DISTR.T.CD

INV.T
INV.T.2C
DIST.WEIBULL
NORMALIZACION

Devuelve el inverso de cola izquierda de la distribucin t de


Student
Devuelve el inverso de dos colas de la distribucin t de
Student
Devuelve la probabilidad de una variable aleatoria continua
siguiendo una distribucin de Weibull acumulativa de cola
izquierda
Devuelve un valor normalizado

Regresin

COEF.DE.CORREL
COEFICIENTE.R2
CRECIMIENTO
ERROR.TIPICO.XY
ESTIMACION.LINEAL
ESTIMACION.LOGARITMICA
INTERSECCION.EJE
PENDIENTE
PRONOSTICO
TENDENCIA

Devuelve el coeficiente de correlacin de dos conjuntos de


datos
Devuelve el cuadrado del coeficiente de correlacin del
momento del producto Pearson
Devuelve valores en una tendencia exponencial
Devuelve el error tpico del valor de Y previsto para cada X
de la regresin
Devuelve los parmetros de una tendencia lineal
Devuelve los parmetros de una tendencia exponencial
Devuelve la interseccin de la lnea de regresin lineal
Devuelve la pendiente de la lnea de regresin lineal
Devuelve un valor en una tendencia lineal
Devuelve valores en una tendencia lineal

Pruebas

INTERVALO.CONFIANZA.NORM
INTERVALO.CONFIANZA.T
PRUEBA CHICUAD

Devuelve el intervalo de confianza para la media de una


poblacin usando la distribucin normal
Devuelve el intervalo de confianza para la media de una
poblacin usando la distribucin t Student
Devuelve una probabilidad llamada p-valor de las pruebas
de aplicaciones de la chi cuadrado

95

INV.CHICUAD
INV.CHICUAD.CD
PRUEBA.F.N
PRUEBA.FISHER.INV
PRUEBA.T

PRUEBA.Z

Devuelve el inverso de una probabilidad dada, de cola


izquierda, en una distribucin chi cuadrado
Devuelve el inverso de una probabilidad dada, de cola
derecha, en una distribucin chi cuadrado
Devuelve una probabilidad llamada p-valor del resultado de
una prueba F de dos colas para homogeneidad de varianzas
Devuelve el inverso de la transformacin Fisher
Devuelve una probabilidad llamado p-valor asociada con la
prueba t de Student para dos medias: pareadas, varianzas
desconocidas pero homogneas o varianzas desconocidas
pero heterogneas
Devuelve una probabilidad llamada p-valor asociada a una
prueba Z de una cola para una media

1.7 Herramientas para anlisis estadstico:


La herramienta de anlisis estadstico es un programa de complemento de Excel que est disponible
al instalar Excel, para usarla es necesario cargarla primero.
Si el comando Anlisis de datos no est disponible, deber cargar el programa de complemento
Herramientas para anlisis.
As, en Excel ir a Opciones:

Haga clic en Ir y en la ventana que


aparece
marcar
con
un
check
Herramientas para anlisis, luego
Aceptar.

96

Ahora ya debe estar activo el Anlisis de datos en el men Datos.

Las Herramientas para anlisis de datos incluyen las herramientas que se describen a continuacin.
Para tener acceso a estas herramientas, haga clic en Anlisis de datos en el grupo Anlisis de la
ficha Datos.

Anlisis de varianza de un factor: Proporciona la prueba de hiptesis de que las medias de k


poblaciones son iguales versus que al menos una sea diferente. Se usa para el anlisis de
varianza del Diseo Completo al azar. Si slo existieran dos muestras, la funcin PRUEBA.T
hace lo mismo.
Anlisis de varianza de dos factores con varias muestras por grupo: Se usa cuando los
datos se pueden clasificar de acuerdo con dos dimensiones diferentes y varias mediciones por
cada grupo. Es usado para el anlisis de varianzas del experimento factorial.
Anlisis de varianza de dos factores con una sola muestra por grupo: Se usa cuando los
datos se clasifican en dos dimensiones diferentes, pero suponemos que existe una nica
observacin para cada par. Es usado para el anlisis de varianza del Diseo Bloque Completo al
azar.
Coeficiente de correlacin: Calcula una matriz de correlacin que muestra el valor del
coeficiente de correlacin para cada uno de los pares de variables en estudio.
Las funciones COEF.DE.CORREL y PEARSON hacen lo mismo para dos variables.
Covarianza: Calcula una matriz de correlacin que muestra el valor de la covarianza para cada
uno de los pares de variables en estudio.
La funcin COVAR hace lo mismo para dos variables.
Estadstica descriptiva: Genera un informe estadstico de una sola variable para los datos del
rango de entrada, y proporciona informacin acerca de la tendencia central y dispersin de los
datos.
Suavizacin exponencial: Predice un valor que est basado en el pronstico del perodo
anterior, ajustado al error en ese pronstico anterior. La herramienta utiliza la constante de
suavizacin a, cuya magnitud determina la exactitud con la que los pronsticos responden a los
errores en el pronstico anterior.
Nota: Los valores de 0,2 a 0,3 son constantes de suavizacin adecuadas. Estos valores indican
que el pronstico actual debe ajustarse entre un 20% y un 30% del error en el pronstico anterior.
Las constantes mayores generan una respuesta ms rpida, pero pueden producir proyecciones
errneas. Las constantes ms pequeas pueden dar como resultado retrasos prolongados en los
valores pronosticados.
Prueba F para varianzas de dos muestras: Ejecuta una prueba F de dos muestras para
comparar dos varianzas poblacionales. La herramienta nos proporciona el valor de la estadstica
de prueba Fcal. Tambin proporciona el p-valor de una cola.
Histograma: Calcula las frecuencias individuales y acumulativas de rangos de celdas de datos y
de clases de datos. Esa herramienta genera datos acerca del nmero de apariciones de un valor
en un conjunto de datos.
Media mvil: Proyecta valores en el perodo de pronsticos, basndose en el valor promedio de
la variable calculada durante un nmero especfico de perodos anteriores. Una media mvil
proporciona informacin de tendencias que se vera enmascarada por una simple media de todos
los datos histricos. Utilice esta herramienta para pronosticar ventas, inventario u otras
tendencias.
Generacin de nmeros aleatorios: Rellena un rango con nmeros aleatorios independientes
extrados de una de varias distribuciones. Puede utilizar esta herramienta para caracterizar a los
sujetos de una poblacin con una distribucin de probabilidades
Jerarqua y percentil: Genera una tabla que contiene los rangos ordinales y porcentuales de cada
valor de un conjunto de datos. Permite analizar la importancia relativa de los valores en un conjunto de
datos. Esta herramienta usa las funciones JERARQUIA y RANGO.PERCENTIL de la hoja de clculo.
JERARQUIA no explica los valores relacionados. Si desea explicar valores relacionados, use la
funcin JERARQUIA de la hoja de clculo junto con el factor de correccin que se sugiere en el
archivo de la Ayuda para JERARQUIA.

97

Regresin: Efecta el anlisis de regresin lineal utilizando el mtodo de "mnimos cuadrados"


para ajustar una lnea a un conjunto de observaciones. Puede utilizar esta herramienta para
analizar la forma en que los valores de una o ms variables independientes afectan a una
variable dependiente. La herramienta Regresin usa la funcin ESTIMACION.LINEAL de la hoja
de clculo.
Muestras: Crea una muestra de poblacin tratando el rango de entrada como una poblacin. Cuando
la poblacin sea demasiado grande para procesarla o para presentarla grficamente, puede utilizarse
una muestra representativa. Adems, si cree que los datos de entrada son peridicos, puede crear una
muestra que contenga nicamente los valores de una parte determinada de un ciclo.
Prueba t para medias de dos muestras emparejadas: Puede utilizar una prueba emparejada
cuando existe un par natural de observaciones en las muestras, como cuando un grupo de muestras
se somete a prueba dos veces, antes y despus de un experimento. Esta herramienta de anlisis y su
frmula ejecutan una prueba t de Student de dos muestras emparejadas para determinar si las
observaciones realizadas antes y despus de un tratamiento proceden probablemente de
distribuciones con medias de poblacin iguales. En este tipo de prueba no se supone que las
varianzas de ambas poblaciones sean iguales
Prueba t para dos muestras suponiendo varianzas iguales: Esta herramienta de anlisis ejecuta
una Prueba t de Student en dos muestras. En este tipo de prueba se supone que los dos conjuntos de
datos proceden de distribuciones con las mismas varianzas. Se conoce con el nombre de Prueba t
homoscedstica. Puede utilizar este tipo de prueba para determinar si es probable que las dos
muestras procedan de distribuciones con medias de poblacin iguales.
Prueba t para dos muestras suponiendo varianzas desiguales: Esta herramienta de anlisis
ejecuta una Prueba t de Student en dos muestras. En este tipo de prueba se supone que los dos
conjuntos de datos proceden de distribuciones con varianzas desiguales. Se conoce con el nombre de
Prueba t heteroscedstica. Al igual que en el caso anterior suponiendo varianzas iguales, este tipo de
prueba puede utilizarse para determinar si es probable que las dos muestras procedan de
distribuciones con medias de poblacin iguales. Utilice esta prueba cuando haya sujetos distintos en
las dos muestras. Tambin puede utilizarse para el caso en que la hiptesis nula sea que existe un
valor distinto de cero especfico para la diferencia entre las dos medias de poblacin.
Prueba z para medias de dos muestras: Realiza una prueba z para comparar las medias con
varianzas conocidas. Esta herramienta se utiliza para comprobar las hiptesis nulas relativas a
que no existen diferencias entre dos medias de poblacin frente a las hiptesis alternativas en
uno u otro sentido. Tambin puede utilizarse para el caso en que la hiptesis nula sea que existe
un valor distinto de cero especfico para la diferencia entre las dos medias de poblacin.

98

Tema N 2: ESTADSTICA DESCRIPTIVA


2.1 Tablas de frecuencia y grficos de variable cualitativa:
Tomamos los datos de la variable Edad de la encuesta a los alumnos del curso de Estadstica 1 para
elaborar la tabla de distribucin de frecuencias, el grfico de barras y el de sectores.
Tabla de frecuencias: Seleccione el men Insertar y luego la opcin Tabla dinmica. En la
ventana que aparece elegimos el rango de celdas donde se encuentran los datos y elegimos que
la tabla se coloque en la misma hoja de clculo donde se encuentran los datos haciendo clic en
el botn
y luego en alguna celda
ubiquen en una nueva hoja de clculo.

vaca de la hoja activa. Tambin puede elegir que se

Excel mostrar la siguiente pantalla, en la cual arrastramos la variable EDAD a la ventana de


Etiquetas de fila y tambin a la de Valores.

Ahora copie la tabla creada y pguela en una nueva posicin,


pero asegrese de elegir la opcin Valores del men
contextual que aparece haciendo clic con el botn derecho
del ratn en una celda vaca y antes de pegar los datos. Con
ello habr copiado slo los valores de la tabla y ahora se ver
de esta forma:

99

Ahora podemos completar los datos que faltan, tales


como las frecuencias relativas y acumuladas.
Asimismo, podemos cambiar la celda Etiquetas de
fila por el nombre de la variable y la celda Cuenta
de EDAD por Frecuencia absoluta.
Para calcular las frecuencias relativas y acumuladas
lo haremos haciendo uso de frmulas.

Tambin daremos el formato final correspondiente,


quedando de la siguiente manera:

Grfico de barras: Para seleccionar dos columnas no contiguas se procede de la siguiente


manera: Seleccione el rango de dato de la variable Edad, luego presin Ctrl y el rango de
Frec.Abs. Con esto, Excel permite elegir slo lo que deseamos, evitando hacer selecciones en
bloque. Luego elija el men Insertar y la opcin Columna

Al hacer clic sobre cualquier parte del grfico aparecer el men Herramienta de grficos, con sus
opciones Diseo, Presentacin, Formato. Elegimos Presentacin.

A B

A: En el botn Ttulo del grfico, seleccionamos la ubicacin del ttulo encima del grfico y
escribimos: Distribucin de alumnos segn edad.
B: En el botn Rtulos del eje, escogeremos Eje X y Eje Y, segn corresponda y escribiremos su
etiqueta.

100

C: El botn Etiquetas de datos activa la posicin donde irn los valores de cada barra.
Finalmente el grfico quedar de la siguiente manera:

FRECUENCIAS

DISTRIBUCIN DE ALUMNOS
SEGN EDAD
40
20

29
12

0
18 a 19

20 a 21

21 a 22

23 a mas

EDAD

Grfico de sectores: Repita los mismos pasos llevados a cabo para realizar el grfico de barras,
pero teniendo cuidado de seleccionar ahora los valores de la variable Edad y la frecuencia
relativa.
Para hacer que los valores de las etiquetas se muestren en porcentaje, haga doble clic en
cualquier etiqueta y aparecer la ventana Formato de etiqueta de datos y en ella seleccione la
opcin Nmero y elija Porcentaje con dos posiciones decimales. Finalmente Cerrar.

El resultado ser:

DISTRIBUCIN PORCENTUAL DE ALUMNOS,


SEGN EDAD
9.62%

11.54%

23.08%

55.77%
18 a 19

20 a 21

101

21 a 22

23 a mas

2.2 Tabla de frecuencias y grficos de variable cuantitativa discreta:


Tomamos los datos de la variable Nmero de hermanos de la encuesta a los alumnos del curso de
Estadstica 1 para elaborar la tabla de distribucin de frecuencias y el grfico de bastones o diagrama
de frecuencias.

Tabla de frecuencias: Halle el rango de valores mnimo y mximo del


nmero de hermanos. Puede utilizar las funciones Max para el valor
mximo y Min para el valor mnimo.
Haga clic en otra celda y coloque los valores posibles de la variable.
Tome en cuenta los valores mximo y mnimo de la variable y recuerde
que es entera. Seleccione el rango donde irn las frecuencias absolutas
respectivas.
Luego, active el icono de Insertar funcin. Seleccione FRECUENCIA y
acepte.

En la ventana de FRECUENCIA ingrese en Datos el rango de los datos que se desea contar. En
Grupos ingrese el rango de celdas de las categoras de la variable Nmero de hermanos.

102

Finalmente, manteniendo presionado CTRL+SHIFT presione ENTER. Aparece la siguiente tabla


de frecuencia. Ahora complete la tabla calculando la frecuencia relativa y absoluta.

Grfico de bastones: Seleccione las frecuencias absolutas:

En la barra de men elija la opcin Insertar, seleccione el tipo Lnea-Lnea con marcadores:

103

Se muestra lo siguiente
20
18

16
14
12
10

Series1

8
6
4
2
0
1

Para elaborar el grfico de bastones se seguir los siguientes pasos:


Ubicarse en el grfico, eliminar la leyenda, asignar los ejes con los valores respectivos, agregar
ttulo, etiquetas a los ejes.

DISTRIBUCIN DE ALUMNOS,
SEGN NMERO DE HERMANOS
20

Frecuencias

15
10
5
0
1

Nmero de hermanos

Para cambiar los valores del eje X dar clic derecho sobre el grfico y elegir Seleccionar origen
de datos Editar.

104

Se muestra la siguiente ventana para designar el rango del rtulo de datos.

Elegir la serie, hacer clic derecho y elegir Formato de serie de datos

Aparece la ventana siguiente. Elegir Color de lnea Sin lnea.

105

Para hacer los bastones, seleccionar el rea del grfico y en herramientas de grfico, la opcin
Lneas Lneas de unin.

El grfico quedar de la siguiente manera:

DISTRIBUCIN DE ALUMNOS,
SEGN NMERO DE HERMANOS

Frecuencias

20
15
10

5
0
1

Nmero de hermanos

Ahora slo falta colocar las etiquetas de datos en el men Herramientas de grficos
Etiquetas de datos. Finalmente quedar:

Frecuencias

20

19

15

DISTRIBUCIN DE ALUMNOS,
SEGN NMERO DE HERMANOS

11

10

10

0
1

Nmero de hermanos

2.3 Tabla de frecuencias y grficos de variable cuantitativa continua:


En esta parte mostraremos paso a paso la herramienta proporcionada por Excel para la elaboracin
de tablas de frecuencia para datos agrupados en intervalos, as como sus grficas respectivas.

106

Tabla de frecuencias:
Para ello, elegimos la variable Gastos de alimentacin y procedemos a calcular el rango, nmero de
intervalos y amplitud de intervalo.
Elija una celda y obtenga:
Nmero de datos =CONTAR(L4:L55)
Valor mximo =MAX(L4:L55)
Valor mnimo =MIN(L4:L55)
Rango = Calcule la diferencia entre el mximo y
mnimo valor.
Nmero
de
intervalos
=REDONDEAR(1+3.322*LOG10(52),0).
Recuerde que el nmero de intervalos es entero
redondeado al valor ms cercano.
Amplitud
=REDONDEAR.MAS(AQ23/AP24,0).
Recuerde que la amplitud del intervalo se redondea
por exceso usando la misma cantidad de cifras
decimales que las utilizadas por los datos.
Ahora genere los lmites de cada uno de los intervalos. En una
celda libre elija como el lmite inferior del primer intervalo el
valor mnimo. A partir de este valor genere los dems lmites
sumando la amplitud hasta completar los lmites inferiores y
superiores de los intervalos. Obtenga la marca de clase de
cada intervalo que es el promedio de los respectivos lmites.
Obtenga las frecuencias utilizando la metodologa vista en el
ejercicio anterior, considerando como Datos el rango de los
datos que se desea contar y como Grupos los lmites
superiores de los intervalos. Para ello, elegimos insertar
funcin haciendo clic en

y aparecer la siguiente

ventana:

107

Finalmente, manteniendo presionado CTRL+SHIFT presione ENTER. Aparece la siguiente tabla de


frecuencia.

Ahora complete la tabla calculando la frecuencia relativa y absoluta.

Histograma, polgono de frecuencias y ojiva:


Seleccionar el bloque correspondiente a las frecuencias
absolutas, luego el men Insertar y la opcin Columna
Columna agrupada.

108

Para que se junten los rectngulos, hacer clic en una barra y elegir Dar formato a serie de
datos, luego en Acho del intervalo 0%.

Con ello habremos conseguido


que las barras se hagan ms
gruesas y no dejen espacio en
blanco entre ellas.
El resultado ser el siguiente:
25
20
15
Series1

10
5
0
1

Para que aparezcan los lmites de cada clase se procede de la siguiente manera: Haga clic con el
botn derecho en una barra y elija Seleccionar casos.

109

De clic en Aceptar y el resultado ser el siguiente:


25
20
15
Series1

10
5
0
70

146

222

298

374

450

526

Y para finalizar colocar el ttulo del grfico, los rtulos del eje X e Y y de ser el caso modificar el
formato del eje vertical, el cual puede estar en porcentaje en caso de tratarse de la frecuencia
relativa.

DISTRIBUCIN DE ALUMNOS,
SEGN GASTOS EN ALIMENTACIN
23

Frecuencias

25
20
15
10

9
6
3

450

526

70

146

222

298

374

Gastos en alimentacin

110

De una manera similar debe construirse el polgono de frecuencias y la ojiva, tal como se muestra
a continuacin, teniendo en cuenta en agregar una amplitud a la izquierda y derecha de los
valores extremos pero con frecuencia absoluta igual a cero.

DISTRIBUCIN DE ALUMNOS,
SEGN GASTOS EN ALIMENTACIN
Frecuencias

30

23

20
10

9
3

6
1

0
32

108 184 260 336 412 488 564 640


Gastos en alimentacin

De manera similar para la ojiva, agregamos una categora a las frecuencias absolutas
acumuladas que empiece con cero.

OJIVA DE DISTRIBUCIN DE ALUMNOS,


SEGN GASTOS EN ALIMENTACIN
Frecuencias

60

44
32

40
20

50

51

52

35

9
0

0
70

146 222 298 374 450 526


Gastos en alimentacin

2.4 Grfico de Pareto:


El presente ejercicio tiene como objetivo elaborar el grfico de Pareto, el cual es un grfico de barras
ordenado por frecuencias por medio del cual se puede detectar e identificar los problemas que tienen
ms relevancia, por lo que este tipo de grfico es utilizado para separar los aspectos significativos de
un problema y dirigir adecuadamente los esfuerzos de mejora.
Caso de estudio: Wanka Group S.R.Ltda. es un distribuidor de productos de automatizacin elctricos
y transmisiones de poder. ltimamente se ha observado un constante retraso en las entregas, por lo
que el gerente desea saber cules son los errores ms frecuentes para tomar una accin de mejora.
Por lo tanto dise un formato donde se registran los errores de cada orden que no se entregan a
tiempo. Los datos se muestran en la siguiente tabla de distribucin de frecuencias:

111

Realice un anlisis de los tipos de errores que se presentan en la entrega a destiempo de los pedidos
y ayude al gerente a decidir cules son las causas principales de este problema.
Solucin:
Ordene las categoras de la tabla segn la frecuencia en orden descendente.

Calcule la frecuencia absoluta acumulada, frecuencia relativa, la frecuencia relativa acumulada y


la frecuencia porcentual acumulada.

Como las dos ltimas categoras tienen una cantidad muy baja podemos unirlas en otro rubro
denominado Otros. As tenemos:

Seleccionar las celdas que contienen la frecuencia absoluta (f i) y frecuencia porcentual (Pi).

112

Elegimos como tipo de grfico Columnas, el cual est marcado por defecto.
120
100
80
Series1

60

Series2
40
20
0
1

Ahora pulsamos con el botn derecho del mouse en cualquiera de las barras P i. Clic en Cambiar
tipo de grfico en serie y elegimos tipo de grfico Lneas y Aceptar.

113

Se mostrar el siguiente grfico:


120
100

80
60

Series1

40

Series2

20
0
1

En l ahora tenemos que hacer algunas modificaciones.

En primer lugar, la escala de valores de la izquierda, cuyo valor mximo viene siendo 120 cuando
debera de ser 100. Para ello, clic con el botn derecho del mouse sobre la lnea del eje Y.
Seleccionar Dar formato a ejes. Seleccionar Opciones de eje Opciones de eje y dar el valor
mximo 100. Clic en Cerrar. Aparecer:

100
90
80
70
60
50
40
30
20
10
0

Series1
Series2

114

Luego pulsamos con el botn derecho del mouse sobre cualquiera de los puntos de la lnea y
elegimos la opcin Dar formato a serie de datos. En el recuadro Opciones de serie,
seleccionar Eje secundario. Luego Cerrar.

Ahora el grfico se ver de la siguiente manera:


100

120.00

80

100.00
80.00

60

60.00
40

40.00

20

20.00

0.00
1

115

Series1
Series2

Se procede igual que en el paso anterior para modificar los valores del eje de la derecha que est
entre 0 y 120, debiendo de estar entre 0 y 100.
100

100.00

90

90.00

80

80.00

70

70.00

60

60.00

50

50.00

Series1

40

40.00

Series2

30

30.00

20

20.00

10

10.00

0.00
1

Ahora colocaremos los valores sobre los puntos de la lnea. Modificaremos los valores de los
rtulos y agregaremos el ttulo del grfico.

100
90
80
70
60
50
40
30
20
10
0

86.17

92.55

76.60
71

63.30
48

37.77
25
18

12

Error en los Error en la Error en la Error en el Orden de


productos cantidad de orden de empacado compra no
empacados
envo
compra
registrada
en el
sistema

14

100.00
90.00
80.00
70.00
60.00
50.00
40.00
30.00
20.00
10.00
0.00

Porcentaje

Frecuencias

DISTRIBUCIN DE ERRORES POR ORDEN QUE NO SE ENTREGAN A


TIEMPO, SEGN TIPO DE ERROR
100.00

Otros

Tipo de error

2.5 Tablas de contingencia y grfico de barras agrupadas:


El presente ejercicio tiene como finalidad que el alumno maneje los procedimientos para la
elaboracin de una tabla de contingencia o de doble entrada.
Las tablas de contingencia se emplean para registrar y analizar la relacin entre dos o ms variables
nominales u ordinales.
Para ello, trabajaremos con los datos de la encuesta a estudiantes de Estadstica 1. Elegimos juntas
a las variables SEXO y DEPORTE FAVORITO.

116

Tabla de contingencia:
Seleccione el rango de datos de las variables SEXO y DEPORTE FAVORITO. De ser necesario,
copiarlas en otra parte de la hoja una junto a la otra. Active en la barra de men la opcin
Insertar y luego Tabla dinmica.

Aparecer la siguiente pantalla:

117

Luego copie la tabla y pguela en otra posicin. Recuerde pegar slo los valores. Puede darle el
formato final.

Grfico de barras agrupadas:


Tomando como base la tabla de frecuencias obtenida en el punto anterior, elaboramos el grfico
de columnas de la variable Deporte favorito por Sexo.
Seleccionamos los datos:

Clic en Insertar de la barra de men. Active el icono Columnas agrupadas.


20
15
Mujer

10

Varn
5
0

Basket Ciclismo Ftbol Ninguno Otros

Voley

Hacer doble clic en el rea del grfico y aparecer la pestaa Herramientas de grficos.
Agregar el ttulo, etiquetas de datos y rtulos de ejes. Quedar de la siguiente forma:

DISTRIBUCIN POR DEPORTE FAVORITO, SEGN SEXO


20
Frecuencias

17

15
10
5

7
3

7
1

0
Basket

Ciclismo

Ftbol

Ninguno

Deporte
Mujer

118

Varn

Otros

Voley

2.6 Diagrama de dispersin:


Haremos el diagrama de dispersin de las variables Estatura y Peso de la base de datos de la
encuesta a los alumnos de Estadstica 1.
Seleccionamos el rango de los datos de ambas variables y active Insertar y elija Dispersin.
Seleccione la primera opcin y aparecer el siguiente grfico.
2
1.8
1.6
1.4
1.2
1
0.8
0.6
0.4
0.2
0

Series1

20

40

60

80

100

Marque cualquiera de los puntos azules y de clic con el botn derecho del mouse. Marque la opcin
Agregar lnea de tendencia del men desplegable.

Luego cerrar. Adems puede agregar el ttulo del grfico y rotular los ejes. Finalmente quedar como
se muestra.

DIAGRAMA DE DISPERSIN DE PESOS VS


ESTATURAS

Estaturas

2.00
1.50
1.00
0.50
0.00
0

20

40

60

Pesos

119

80

100

TEMA N 3: MEDIDAS DESCRIPTIVAS


3.1 Haciendo uso de funciones:
Vamos a calcular algunas medidas descriptivas de la variable PESO de la base de datos de la
encuesta a estudiantes del curso de Estadstica 1.
Para ello nos ubicamos en una celda de la hoja y hacemos clic en icono Insertar funcin. En el
cuadro de dilogo O seleccionar una categora seleccione Estadsticas y seleccione la funcin
PROMEDIO.

En Nmero1 ingrese el rango correspondiente a los datos y luego haga clic en Aceptar.

Se mostrar el valor del promedio de los datos en la celda marcada:

120

El mismo procedimiento lo podemos aplicar para el clculo de otros estadsticos descriptivos.

3.2 Haciendo uso de la herramienta Estadstica descriptiva:


Otra opcin fcil de emplear para calcular las principales medidas descriptivas es usando la barra de
men Datos, luego Anlisis de datos y Estadstica descriptiva.

En la ventana de Estadstica descriptiva, en


Rango de entrada ingrese el rango de las
celdas donde estn los datos. La opcin
Rtulos de la primera fila seleccinela slo
si la primera fila del rango de datos
corresponde al nombre de la variable. Active
la opcin Resumen de estadsticas y en
Rango de salida elija una celda en donde
colocar los resultados (tambin puede elegir
una nueva hoja o un libro nuevo).

121

TEMA N 4: ANLISIS EXPLORATORIO DE DATOS


4.1 Diagrama de caja:
Vamos a realizar el anlisis exploratorio de las variables GASTO ALIMENTACIN, GASTO EN
MOVILIDAD Y GASTO EN DIVERSIN.
Para ello, copiamos dichos datos uno a continuacin de otro como se muestra a continuacin.
Debemos recordar que para realizar dicho anlisis comparativo debemos de contar con 5 valores
importantes, los cuales son: Dato mnimo, cuartil 1, mediana, cuartil 3 y dato mximo.

Ahora, en la parte inferior de las tres columnas vamos a crear un cuadro donde calcularemos dichos
valores, haciendo uso de las funciones estadsticas de Excel. As tenemos:

Luego creamos otra tabla donde se calculan las dimensiones del grfico:

A
B
C
D
E

122

A: Est dado por el mismo valor del cuartil 1 calculado en la tabla superior.
B: Est dado por la diferencia entre la mediana y el cuartil 1 de la tabla superior.
C: Est dado por la diferencia entre el cuartil 3 y la mediana de la tabla superior.
D: Est dado por la diferencia entre el mximo y el cuartil 3 de la tabla superior.
E: Est dado por la diferencia entre el cuartil 1 y el mnimo de la tabla superior.
Ahora vamos a realizar el grfico. Para ello, seleccionamos los nombres de variable y presionando
CTRL los valores de A, B y C.

A
B
C
D
E
Luego elegimos el men Insertar y elegimos grfico de Columnas agrupadas.

500
400
300

Series3
Series2

200

Series1
100
0
ALIMENTACION

123

MOVILIDAD

DIVERSION

500
400
300
200
100
0

Series3

CLI
C

Ahora vamos a modificar algunas partes del grfico.


Elegimos la parte superior de las barras, haciendo
clic en cualquiera de ellas. Se activar la ventana
Herramientas de grficos y en ella elegimos la
pestaa Presentacin y la opcin Barras de error.

Series2
Series1

Excel presentar la siguiente ventana, en la cual elegimos la opcin Ms opciones de barras de


error

En Mostrar elegir la opcin


Ms.
En Cuanta de error, elegir
el botn Personalizado y
presionar el botn
Especificar valor

En Valor de error positivo


ingrese el rango de los
valores del mximo de la
ltima
tabla
calculada
anteriormente.

Se mostrar el grfico de la siguiente forma:

124

700
600
500
400
300
200
100
0

Series3

Series2
Series1

Ahora hacemos lo mismo en la parte inferior de las barras para modificar el grfico. Seleccionamos
haciendo clic en cualquier rectngulo que se encuentra bajo las barras y aparecer nuevamente
Herramientas de grficos, seleccionamos nuevamente Barras de error, Ms opciones de las
barras de error y ahora elegimos en Mostrar los valores Menos y en Cuanta de error hacemos
clic en Personalizado.

En Valor de error negativo


ingrese el rango de los
valores del mnimo de la
ltima
tabla
calculada
anteriormente.

700
600
500
400
300
200
100
0

Series3
Series2
Series1

125

Ahora hacemos clic en cualquier barra y en Herramientas de grficos, pestaa Formato


seleccionamos la opcin Relleno de forma y elegimos Sin relleno.

Finalmente, el grfico quedar como:

700

GASTOS EN ALIMENTACIN, MOVILIDAD Y


DIVERSIN

600
500
400
300
200
100
0
ALIMENTACION

MOVILIDAD

DIVERSION

Otra forma de hacerlo es la siguiente:


Calcule los cuartiles, la mediana, el mnimo y el mximo y escrbalos de la siguiente manera (en el
orden en que se presentan):

Mantener
este
orden

Luego seleccione toda la tabla y elija:

126

700
600
ALIMENTACI
N

500
400

MOVILIDAD

300
200

DIVERSIN

100
0
Q1 MIN Me MAX Q3
Luego, en la barra de men escoger Insertar, luego Diseo y finalmente Cambiar entre filas y
columnas. El grfico cambiar a:
700
600
500
400
300
200
100
0

Q1
MIN
Me
MAX
Q3

Marque cualquiera de las lneas horizontales y haga clic con el botn derecho del mouse.
Elija la opcin Formato de serie de datos. Luego aparece la siguiente ventana:
En ella elija la opcin Color de lnea y marque la Sin lnea.
Con esto eliminar la lnea horizontal. Hay que repetir este proceso
hasta eliminar todas las lneas.
El grfico quedar como sigue:
700
600
500

Q1

400

MIN

300

Me

200

MAX

100

Q3

0
ALIMENTACIN

127

MOVILIDAD

DIVERSIN

Luego d clic en el grfico y elija la opcin Anlisis, Barras ascendentes o descendentes y nos
dar como resultado:

700
600
500
400
300
200
100
0

Q1
MIN
Me
MAX
Q3

Luego para hacer los bigotes de las cajas, se selecciona Anlisis, Lneas y luego Lneas de
mximos y mnimos.
700
600
500
400
300
200
100
0

Q1
MIN
Me
MAX
Q3

TEMA N 5: DISTRIBUCIN DE PROBABILIDADES


5.1 Distribucin binomial:

n
P k pk .qnk
k
Donde:
p = Probabilidad del xito
q = Probabilidad del fracaso
n = Nmero de ensayos

128

k = Nmero de xitos esperados


Propiedades:
Media: x n.p

Varianza: 2x n.p.q

Desviacin estndar: x n.p.q

Ejemplo 1:
Un examen de Estadstica de eleccin mltiple contena 20 preguntas y cada una de ellas tena 5
alternativas de respuesta. Si un estudiante desconoca todas las respuestas correctas y contest su
examen al azar: a) Cul es la probabilidad de que conteste correctamente 5 preguntas?, b) Cul es
la probabilidad de que conteste correctamente a lo ms 5 preguntas?
Solucin a):
Hacer clic en Insertar funcin.
Cuando se abre el cuadro de dilogo, elegir la categora Estadsticas y la funcin DISTR.BINOM.N y
pulsar Aceptar.

En la ventana que aparece elegir:


k=5
n = 20
p = 1/5 = 0.2
En el recuadro
Acumulado digitar 0
para hallar la
probabilidad P(X=5),
es decir la probabilidad
de contestar de
manera correcta
exactamente 5
preguntas.

Excel devolver la probabilidad en una celda de la hoja activa.

129

Solucin b):
Repetir todos los pasos anteriores, pero con la nica diferencia de que ahora ingresamos 1 en la
casilla Acumulado.
k=5
n = 20
p = 1/5 = 0.2
En el recuadro
Acumulado digitar 1
para hallar la
probabilidad P(X<5),
es decir la probabilidad
acumulada de
contestar
correctamente 0, 1, 2,
3, 4 5 preguntas.

5.2 Distribucin Hipergeomtrica:

r N r

x n x

P x
; (para 0 x r)
N

n
Donde:
N = Tamao de la poblacin
r = Nmero de xitos en la poblacin
x = Nmero de xitos que son de inters
n = Nmero de ensayos
Propiedades:

r
Media: x n
N
r N n
r
Varianza: 2x n 1

N
N

N 1

Ejemplo 2:
En un lote de 150 computadoras de la marca IBM, existen 40 computadoras con el disco duro
daado. Un comprador desea adquirir todo el lote, pero lo har siempre y cuando, al elegir 60
computadoras al azar, al probarlas a lo ms 3 de ellas estn daadas. Calcule: Cul es la
probabilidad de que 2 de las computadoras estn daadas?, b) Cul es la probabilidad de que el
comprador no adquiera el lote?
Solucin a):
Hacer clic en Insertar funcin.
Cuando se abre el cuadro de dilogo,
DISTR.HIPERGEOM.N y pulsar Aceptar.

elegir

130

la

categora

Estadsticas

y la

funcin

Aparecer la siguiente ventana:


N = 150
r = 40
x =2
n = 60
En el recuadro
Acumulado digitar 0
para hallar la
probabilidad P(X=2), es
decir la probabilidad de
hallar exactamente 2
computadoras
daadas.

Excel mostrar:

Lo cual indica que la probabilidad de encontrar slo 2 computadoras daadas es muy baja.

Solucin b):
Para no aceptar el lote, se debe cumplir que X>3, es decir, encontrar ms de 3 computadoras
daadas en la muestra de 60 computadoras.
Para calcular dicha probabilidad haremos uso del suceso complementario, es decir, a la probabilidad
del espacio muestral que es igual a 1, le restamos la probabilidad acumulada para x=0; x=1; x=2; x=3.

131

Hacer clic en una celda vaca e ingresar:

Cuando se abre el cuadro de dilogo de la funcin DISTR.HIPERGEOM.N


siguiente manera:

completarlo de la

Hasta aqu estamos


calculando la
probabilidad de
encontrar a lo ms 3
computadoras
daadas.
En el recuadro
Acumulado digitar 1
para hallar la
probabilidad P(X<3), es
decir la probabilidad de
hallar de 0 a 3
computadoras
daadas.

Excel mostrar la siguiente respuesta:

Lo cual indica que es casi seguro que el comprador no acepte el lote.

5.3 Distribucin de Poisson:

X .e
P x
x!

; e 2,71828

Donde:
= Nmero promedio de ocurrencias por intervalo.
x = Nmero de xitos que se esperan.
Propiedades:
Media aritmtica = x
Varianza = 2x
Ejemplo 3:
En una farmacia del distrito de El Tambo se observ que en las ltimas 84 horas de atencin al
pblico (12 horas diarias durante una semana), 1 176 personas han ingresado a la farmacia. Se
desea conocer la probabilidad de que 8 personas ingresen en el lapso de una hora de atencin al
pblico.

132

Solucin:
Al observar que 1176 personas han ingresado a la farmacia en 84 horas, podemos ver que dicho
promedio no est en funcin de una hora, tal como lo pide la pregunta. Por lo tanto, convertimos el
promedio a una hora: 1 176/84 = 14 personas por hora.
Hacer clic en Insertar funcin.
Cuando se abre el cuadro de dilogo, elegir la categora Estadsticas y la funcin POISSON.DIST y
pulsar Aceptar.

Aparecer la ventana:
x=8
= 14
En el recuadro
Acumulado digitar 0
para hallar la
probabilidad P(X=8), es
decir la probabilidad de
que ingresen a la
farmacia exactamente 8
personas en una hora.

Excel mostrar:

5.4 Distribucin Normal:


Ejemplo 1:
Una mquina dispensadora de refrescos est ajustada para servir un promedio de 200 mililitros por
vaso. Si la cantidad de refresco est normalmente distribuida con una desviacin estndar de 15
mililitros.

133

a)
b)
c)
d)

Cul es la probabilidad de que un vaso contenga menos de 224 mililitros?


Cul es la probabilidad de que un vaso contenga entre 191 y 209 mililitros?
Cul es la probabilidad de que un vaso se derrame si se utilizan vasos de 230 mililitros?
Debajo de qu valor se obtiene el 25% de refrescos con menor contenido?

Solucin a):
Seleccione Insertar funcin y elija la categora Estadsticas y la funcin DISTR.NORM.N, luego pulse
Aceptar.

Aparecer la siguiente ventana:

En el recuadro
Acumulado digitar 1
para que calcule la
probabilidad
acumulada.

Excel mostrar:

Solucin b):
Para calcular P(191 < X < 209) se calcular la diferencia: P(X < 209) P(X < 191)
En la barra de frmulas ingrese:

134

En la ventana DISTR.NORM.N ingrese los siguientes valores, luego pulse Aceptar.

En el recuadro
Acumulado digitar 1
para que calcule la
probabilidad
acumulada.

Excel mostrar:

Solucin c):
La probabilidad de que un vaso se derrame es P(X>230), entonces aplicando el complemento
tenemos:
P(X>230) = 1-P(X<230) = 1-DISTR.NORM.N(230,200,15,1) = 1-0,97725 = 0,02275
Solucin d):
El clculo requiere utilizar la funcin inversa dado que el dato es la probabilidad y la incgnita es el
valor de la variable.
Seleccione Insertar funcin y elija la categora Estadstica y en ella la funcin INV.NORM

135

Se mostrar la siguiente ventana:

Luego complete la ventana con los siguientes valores:

Excel mostrar:

Que viene a ser el valor debajo del cual se obtiene el 25% de refrescos con menor
contenido.

136

ANEXO N2

137

GUIA DEL IBM SPSS STATISTICS 20

IBM SPSS Statistics es un software estadstico muy utilizado para trabajos de investigacin en
ciencias sociales y en empresas de investigacin de mercado. Originalmente fue creado como el
acrnimo de Statistical Package for the Social Sciences. Fue creado en 1968 por Norman H. Nie, C.
Hadlai Hull y Dale H. Bent. Originalmente el programa fue creado para grandes computadoras. En
1970 se publica el primer manual de usuario del programa y en 1984 sale la primera versin para
computadoras personales.
Es un sistema amplio y flexible de anlisis estadstico y gestin de informacin que es capaz de
trabajar con datos procedentes de distintos formatos, generando desde sencillos grficos de
distribuciones y estadsticos descriptivos hasta anlisis estadsticos complejos que nos permitirn
descubrir relaciones de dependencia e interdependencia, establecer clasificaciones de sujetos y
variables, predecir comportamientos, etc. Su aplicacin fundamental est orientada al anlisis
multivariante de datos experimentales.

Tema N 1: PROCEDIMIENTOS BSICOS CON IBM SPSS STATISTICS 20

1.1 Procedimiento general de resolucin de un problema con SPSS


Recoger informacin del problema que se desea investigar y tenerla organizada
generalmente en papel.
Grabar esa informacin en un archivo de datos de SPSS, el cual tiene el nombre que
deseamos, pero que forzosamente posee la extensin .SAV.
Sobre tal archivo de datos se llevar a cabo el anlisis con SPSS, usando diferentes
procedimientos, que como se ver, se seleccionan de distintos mens.
Los resultados de tales anlisis son volcados a un visor de resultados, en el que su
visualizacin y edicin es ms cmoda, y pueden guardarse en un fichero con el nombre que
se desee, pero de extensin .SPV.
El investigador interpreta los resultados y extrae las conclusiones que le parecen relevantes
de los mismos.

1.2 El entorno del IBM SPSS Statistics 20;


La pantalla principal del SPSS presenta dos ventanas principales: Vista de datos y Vista de
variables a las cuales se puede acceder dando un clic en las pestaas ubicadas en la parte inferior
izquierda.

138

La ventana Vista de datos contiene el archivo de datos sobre el que se basa la mayor parte de las
acciones que es posible llevar a cabo con el SPSS. El Editor de datos se abre automticamente
cuando se entra en el SPSS. En esta ventana las filas indican los casos y las columnas las variables.
Cada celda corresponde al valor que una determinada variable adopta en un cierto caso.

Mientras que en la ventana Vista de variables se define la estructura de las variables que
comprende la tabla de datos.
En esta ventana se describen las caractersticas de cada una de las variables con que se est
trabajando. En ella, las filas corresponden a cada variable y las columnas nos permiten acceder a sus
caractersticas.
Nombre: Limitado a 64 caracteres, no puede incluir espacios ni caracteres especiales como *, $,
, etc.

Tipo de variable:

139

Numrico: Nmero en formato estndar.


Coma decimal: Nmero con comas cada tres posiciones y con un punto como lmite
delimitador de los decimales..
Punto decimal: Nmero con puntos cada tres posiciones y con una coma como lmite
delimitador de los decimales.
Notacin cientfica: Nmero que se expresa con un formato tal que se sigue de una E y un
nmero que expresa la potencia de 10 a la que se multiplica la parte numrica previa.
Fecha: Permite establecer el formato para ingresar datos que sean fechas.
Dlar: Formato numrico con el que se expresan cantidades en dlares.
Moneda personalizada: Formato numrico con el que se expresan cantidades en la moneda
definida en la pestaa de monedas del cuadro de dilogo Opciones.
Cadena: Caracteres o variable alfanumrica.

Anchura: Establece el nmero de cifras o dgitos que contendr cada dato, incluidas las cifras
decimales.

Decimales: Establece el nmero de cifras decimales que sern consideradas en cada dato.

Etiqueta: Con esta opcin usted puede asignar un nivel ms descriptivo a sus variables ya que la
opcin Nombre no le permite utilizar ms de 64 caracteres por variable.

Valores: Con esta opcin usted puede asignar valores numricos a todas sus variables
categricas, es decir, codificarlas.

Perdidos: Esta opcin le permite asignar un valor alternativo cuando se encuentren celdas vacas
en los datos.

Medida: Esta opcin le permitir especificar si la escala de la variable es de tipo ordinal, nominal
o de escala.

140

Otra ventana que aparece en SPSS es El Visor de resultados, en la cual se recoge toda la
informacin (estadsticos, tablas, grficos, etc.) que el SPSS genera como consecuencia de las
acciones que lleva a cabo. Permite editar los resultados y guardarlos para su uso posterior.

1.3 Creacin de una base de datos:


Se desea crear una base de datos en funcin a la encuesta presentada al inicio del mdulo. Para ello
ingrese en la ventana Vista de variables y defina cada uno de los campos de la estructura de las
variables.
Algunas variables, como la variable Sexo, tienen valores predefinidos o codificados. Para definir dicha
codificacin se hace uso de las etiquetas de valor en la opcin Valores de la vista de variables.

141

Se debe escribir el cdigo en el recuadro Valor y en el recuadro Etiqueta se debe digitar el nombre
que se le asigna al valor. Finalmente se da un clic en el botn Aadir.
La estructura propiamente dicha de la base de datos de nuestra encuesta quedar de la siguiente
manera:

Luego de crear la estructura de la base de datos se procede a ingresar la informacin de la misma


forma que se hara en una hoja electrnica como Excel. La ventana Vista de datos se ver de esta
forma:

142

El botn

permite alternar entre las etiquetas de datos y los nmeros de codificacin.

1.4 Guardar la base de datos:


Ingrese a la opcin Archivo de la Barra de Men y posteriormente elija Guardar como. Aparecer la
siguiente ventana:

Especifique el nombre en el recuadro Nombre de Archivo, por defecto SPSS guarda los archivos
con extensin sav.
1.5 Leer/Importar un archivo de datos:

143

SPSS nos permite abrir una base de datos creada en el mismo programa (leer) como bases de
datos creadas en otros programas similares (importar) tales como Excel, Lotus, dBase, etc. Para
ello ingrese a la opcin Archivo de la barra de mens y elija la opcin Abrir y la sub opcin
datos.

144

Tema N 2: MANIPULACIN DE CASOS Y VARIABLES

1.1. Variables:
Esta opcin, accesible desde el cono ubicado en la barra de herramientas estndar, permite
obtener informacin de las variables que intervienen en el archivo de trabajo activo. Al presionar
en l resulta el siguiente cuadro de dilogo.

Si queremos informacin de otra variable, simplemente hacemos clic en la variable requerida y se


mostrar la informacin de manera similar a la anterior.

1.2. Buscar datos:


Para buscar un valor especfico de una variable primero hay que ubicarse en una celda
cualquiera de la columna respectiva. La ventana Buscar datos en nos pedir el valor a buscar
y si la bsqueda se har hacia adelante o hacia atrs. La bsqueda comienza a partir de la celda
seleccionada.

Es posible ignorar las minsculas o maysculas presionando sobre la casilla de verificacin en el


botn Mostrar opciones.

145

1.3. Ir a caso / variable:


Permite desplazarse al caso especificado por el nmero de fila de la tabla SPSS o a una variable
especfica. Luego de ingresar el caso especificado se pulsa el botn Aceptar y se obtiene el
resultado buscado.

1.4. Insertar variable:

Permite insertar una variable (en blanco) en la posicin en que se encuentra el cursor,
desplazando todas las columnas hacia la derecha y nombrando a dicha variable por
defecto.

1.5. Insertar caso:


Permite insertar un caso (en blanco) en la posicin en que se encuentre el cursor, desplazando
todas las filas hacia abajo.
1.6. Ordenar casos:

146

Se pueden ordenar los casos de acuerdo a una o ms variables, ya sea en forma ascendente o
descendente, tanto numrica como alfabticamente.

1.7. Dividir o segmentar archivo:


Esta opcin es til cuando un mismo anlisis se quiere repetir para distintos subgrupos de
sujetos. Imaginemos que un anlisis descriptivo de los datos debe ser realizado para los
subgrupos de hombres y de mujeres.
Una opcin sera filtrar los datos primero para hombres, realizar seguidamente el anlisis y
posteriormente cambiar el filtro para las mujeres y repetir el anlisis. Segmentando el archivo
segn el sexo producira los mismos resultados pero de forma ms sencilla.
Al seleccionar esta opcin, se abre un nuevo cuadro de dilogo en el que encontramos tres
diferentes opciones de segmentacin.

147

La primera opcin del cuadro es Analizar todos los casos, no crear los grupos; esta opcin nos
permite trabajar con todos los casos de la base y calcular los resultados de los estadsticos
empleando la totalidad de los casos u observaciones. La segunda opcin corresponde a
Comparar los grupos; esta opcin nos permite comparar los resultados de los procedimientos que
se realicen con el programa para las categoras de la variable de agrupacin; para realizar la
comparacin el programa realiza los clculos solamente con los datos de cada categora y
presenta los resultados de forma comparativa; es decir ubica de forma jerrquica los resultados
de cada categora (por ejemplo: tabla categora 1, tabla categora 2, grfico categora 1, grfico
categora 2, estadstico categora 1, estadstico categora 2).

El resultado de la segmentacin al calcular estadgrafos y elaborar una tabla de frecuencias sera:

148

La tercera opcin corresponde a Organizar los resultados por grupos; esta opcin es muy similar
a la opcin anterior, con la diferencia que los resultados de los procedimientos que se realicen
con el programa se representan en forma organizada (Por ejemplo: Tabla Cat1, Grfico Cat1,
Estadstico Cat1, Tabla Cat2, Grfico Cat2, Estadstico Cat2). Esta opcin es bastante til si
nosotros deseamos hacer un anlisis separado de la muestra por algn tipo de rangos, como
por ejemplo el gnero, la regin, la fecha, etc.

149

Para realizar la segmentacin de archivo debemos seleccionar una de las dos ltimas opciones,
de manera que se active la casilla Grupos basados en; una vez se activa se ingresa en ella la
variable o las variables que deseamos utilizar como rango y finalmente hacemos clic en Aceptar.
Despus de segmentar el archivo, cada procedimiento (tablas, grficos o estadsticos) que se
realice con el programa, mostrar los resultados de acuerdo a la segmentacin.
1.8. Seleccionar casos:
A travs de esta opcin, podemos seleccionar solamente los casos que cumplan con los criterios
que el investigador imponga; por ejemplo, las personas del gnero femenino. A su vez, este
procedimiento nos brinda la oportunidad de pedirle al programa que tome un fragmento de los
casos de forma aleatoria. Al activar la seleccin de casos el programa realiza los clculos de los
procedimientos slo con los casos que hayan sido seleccionados.

Podemos seleccionar solamente a las mujeres de la base de datos anterior. Para ello elegimos la
opcin Si se satisface la condicin. En ella, se elige la variable que servir como condicin para
la seleccin, que en nuestro caso es el sexo del encuestado. Seguidamente, teniendo elegida la
variable la igualamos al valor 2 que viene a ser la codificacin con la que se creo la base de
datos.
Con esto habremos seleccionado slo a las mujeres que conforman la base de datos, lo cual se
ver reflejado en la Ventana de datos con una tarja sobre los registros correspondientes a
varones.
A partir de ahora, toda operacin que se realice, ya sea clculo de un estadgrafo, tabla o grfico
se har nicamente con los registros de datos correspondientes a mujeres.

150

La Vista de datos se mostrar de la siguiente manera:

151

Si ahora deseamos seleccionar a todas las mujeres que tienen como distrito de residencia El
Tambo, SPSS cuenta con la posibilidad de crear condiciones compuestas, haciendo uso del
operador lgico ampersand &. Para ello ingresamos la condicin compuesta:

El resultado ser:

Los recuadros
muestran los
registros que
quedaron
seleccionados,
donde slo
aparecen
mujeres que
viven en El
Tambo.

1.9. Calcular variable:


Permite efectuar operaciones matemticas con los valores de las variables. Es posible crear una
nueva variable que sea el producto de una transformacin en la misma variable o de otras
variables existentes. Para ello, elija Transformar de la barra de mens y elija la opcin Calcular
variable, mostrando la siguiente pantalla.

152

En ella podemos elegir las variables que servirn para hacer el clculo e indicar la nueva variable
que contendr el resultado.

153

El procedimiento anterior habr creado la variable GASTO_PROM y la colocar en la ltima


columna de la Vista de datos.

1.10.Recodificar: En las mismas variables / En diferentes variables


Esta opcin transforma valores (reasigna valores) o rangos de valores de variables existentes en
nuevos valores. Estos nuevos valores o rango de la transformacin pueden asignarse en las
mismas variables o en diferentes variables.
En la misma variable:
Supongamos que deseamos recodificar a las personas de nuestra base de datos que han ledo 2
libros o menos, con la cantidad de 0 libros, es decir, se considera que haber ledo 2 libros es
como no haber ledo nada.
Originalmente la base es:

154

Para recodificar en la misma variable accedemos al


men Transformar y elegimos la opcin Recodificar en
las mismas variables. Aparecer una ventana de
dilogo donde aparecen las opciones de recodificacin.

La primera opcin es Valores antiguos y nuevos. En esta ventana se especifica cules son los
valores antiguos que han de ser remplazados y cules son los valores nuevos que remplazarn.
En este caso elegimos el recuadro Valor antiguo y la quinta opcin Rango, INFERIOR hasta
valor, ya que deseamos que recodifique a las personas que leyeron de 0 libros a 2 libros,
inclusive. En dicho casillero ingresamos el nmero 2. Luego, en el recuadro Valor nuevo,
elegimos la opcin Valor y asignamos 0. Finalmente, hacemos clic en Aadir. Finalmente
elegimos Continuar y SPSS mostrar la recodificacin.

Recodifica un valor especfico

Recodifica un rango de datos


por un valor especfico

Recodifica desde cierto valor


para adelante.

Una vez especificados una serie


rangos o valores antiguos para
conjunto de valores, a los dems
recodifica por cierto nuevo valor.
decir, se puede recodificar ms de
grupo de valores antiguos.

de
un
los
Es
un

Dicha recodificacin ser ver as:

155

En diferente variable:
Ahora suponga que queremos recodificar a las personas que han ledo exactamente 3 libros con
el nmero 99. Pero esta vez, queremos recodificar en una nueva variable. Originalmente la base
es:

Ahora elegimos el men Transformar, y la opcin


Recodificar en distintas variables. Primero: Elegimos
la variable L_LEIDOS y la pasamos a la ventana
Variable numricaVariable de resultado. Segundo:
Le damos un nombre a la nueva variable que
almacenar la recodificacin y agregamos la etiqueta:
Slo 3 libros. Tercero: Hacemos clic en Cambiar. Las
variables aparecen unidas en la ventana por una
flecha.

Seguidamente
seleccionamos la ventana
Valores antiguos y
nuevos haciendo clic en
el botn.
Dicha ventana al igual
que la anterior nos
pedir cules son los
valores antiguos que
sern remplazados y
cules
los
valores
nuevos que remplazarn
a los anteriores.

La ventana que se mostrar ser la siguiente:

156

Ahora elegimos el recuadro Valor antiguo y en la opcin Valor ingresamos el nmero 3 (esto
porque slo queremos remplazar a los que leyeron exactamente 3 libros) y en Valor nuevo,
ingresamos 99 en la opcin Valor. Luego presionamos el botn Aadir y finalmente Continuar.
SPSS crear una nueva variable con el nombre especificado y en ella realizar la recodificacin.

157

Tema N 3: ANLISIS ESTADSTICO DESCRIPTIVO


TABLAS Y GRFICOS ESTADSTICOS
3.1 Grficos estadsticos en IBM SPSS STATISTICS:
Nos proporcionan una idea del comportamiento global de una determinada variable. El SPSS nos
proporciona una amplia gama de representaciones grficas. Para obtenerlas tenemos varias
alternativas: Bien directamente usando el men Grficos, o bien indirectamente, al utilizar
determinados procedimientos estadsticos del SPSS (del men Analizar) que incluyen grficos
relacionados con la tcnica seleccionada.
3.2 Mediante el men ANALIZAR:
Para ello accedemos al men ANALIZAR y la opcin Estadsticos Descriptivos, opcin
Frecuencias. El procedimiento Frecuencias proporciona estadsticos y representaciones grficas que
resultan tiles para describir muchos tipos de variables. El procedimiento Frecuencias es un
comienzo para empezar a consultar los datos.

Aparecer la siguiente ventana:

Permite acceder al men de


los tres principales tipos de
grficos estadsticos que
tiene el procedimiento

Permite modificar la manera


en que se presentan los
datos en las tablas y grficos.

Si esta opcin se encuentra marcada, SPSS creara la


tabla de frecuencias para la variable seleccionada.

OPCIN GRFICOS:
Tipo de grfico. Los grficos de sectores muestran la contribucin
de las partes a un todo. Cada sector de un grfico de este tipo
corresponde a un grupo, definido por una nica variable de
agrupacin. Los grficos de barras muestran la frecuencia de
cada valor o categora distinta como una barra diferente,
permitiendo comparar las categoras de forma visual. Los
histogramas tambin cuentan con barras, pero se representan a
lo largo de una escala de intervalos iguales. La altura de cada
barra es el recuento de los valores que estn dentro del intervalo
para una variable cuantitativa. Los histogramas muestran la
forma, el centro y la dispersin de la distribucin. Una curva
normal superpuesta en un histograma ayuda a juzgar si los datos
estn normalmente distribuidos.
OPCIN FORMATO:

158

Ordenar por. La tabla de frecuencias se


puede organizar respecto a los valores
actuales de los datos o respecto al recuento
(frecuencia de aparicin) de esos valores y la
tabla puede organizarse en orden ascendente
o descendente. Sin embargo, si solicita un
histograma
o
percentiles,
Frecuencias
asumir que la variable es cuantitativa y
mostrar sus valores en orden ascendente.
Mltiples variables. Si desea generar tablas
de estadsticos para mltiples variables,
podr mostrar todas las variables en una sola tabla (Comparar variables), o bien mostrar una tabla de
estadsticos independiente para cada variable (Organizar resultados segn variables). Suprimir
tablas con ms de n categoras. Esta opcin impide que se muestren tablas que contengan ms
valores que el nmero especificado.
3.3 Grfico de barras:
Permite identificar y comparar de forma visual el comportamiento de las categoras de una variable,
generalmente cualitativa. Por medio de las barras podemos conocer aspectos de forma sencilla de
una o varias variables, como lo pueden ser sus categoras, frecuencias y las diferencias entre ellas.
Para crear la tabla de frecuencias y el grfico de barras de la variable SEXO de nuestra base de
datos, elegimos el men ANALIZAR, opcin Estadsticos descriptivos y sub opcin Frecuencias.

Marcamos la opcin Mostrar tablas de frecuencias para que SPSS genere automticamente la
tabla de frecuencias para la variable elegida. Luego, en Grficos elegimos Barras y en Valores del
grfico elegimos Frecuencias. El resultado ser:
SEXO DEL ENCUESTADO
Frecuencia

Vlidos

Porcentaje

Porcentaje

Porcentaje

vlido

acumulado

MUJER

14

46,7

46,7

46,7

VARN

16

53,3

53,3

100,0

Total

30

100,0

100,0

159

La Ventana de resultados nos permite editar los grficos y las tablas para personalizar an ms los
resultados. Para ello, elija la tabla y haga doble clic, se activar el Editor de tablas, el cual se ver
como una lnea punteada alrededor de la tabla.

Ahora podemos cambiar el tipo de fuente y su tamao, colores y dems caractersticas concernientes
nicamente a las tablas de frecuencias.
Para ello haga clic en el botn derecho del ratn, aparecer la siguiente ventana:

160

161

3.4 Grfico de sectores:


Permiten observar la variable de forma global, haciendo una comparacin inmediata del porcentaje de
cada categora con el total de datos.
Para elaborar el grfico de sectores de la variable SEXO de nuestra base de datos, seleccionamos el
tipo de grfico sectores de la ventana Grficos.

El resultado ser:

La ventana de resultados tambin permite modificar las propiedades de los grficos a travs del
Editor de grficos, desde donde podr cambiar el aspecto como los colores, agregar las etiquetas de
valores a cada categora de la variable, generar grficos tridimensionales, etc.

Al hacer doble clic sobre cualquier parte del grfico se activa el Editor de grficos;

162

Etiquetas de
datos
Color de
relleno y de
borde

Al hacer clic derecho sobre


cualquiera de las barras se activa la
Ventana
Propiedades,
desde
donde se puede cambiar a barras
tridimensionales,
aumentar
o
disminuir el ancho de las barras,
cambiar colores de relleno y borde,
tamao del grfico, entre otras
opciones.

3.5 Histograma:

163

Los histogramas nos permiten identificar diversos parmetros como la dispersin, la distribucin y la
concentracin de los datos en una variable de Escala. Este tipo de grficos generan una
representacin visual del comportamiento de los datos, permitiendo observar rasgos caractersticos
como la zona o rango de mayor concentracin, la amplitud, los valores extremos, etc.
Para elaborar el histograma de la variable ESTATURA de nuestra base de datos, elegimos la opcin
Histograma de la ventana Grficos.

Al seleccionar la opcin Mostrar curva normal en el histograma se sobrepone una curva normal
con la finalidad de comparar si los datos tienen a distribuirse de forma uniforme. El resultado ser:

3.6 Diagrama de dispersin:

164

La representacin grfica ms til para describir el comportamiento conjunto de dos variables es el


diagrama de dispersin o nube de puntos, donde cada caso aparece representado como un punto en
el plano definido por las variables x1 y x2. Para obtener un diagrama de dispersin lo haremos
desde el men GRFICOS, opcin Generador de grficos.
Supongamos que queremos analizar la relacin que existe entre las variables PESO y ESTATURA de
nuestra base de datos. Para ello elegimos:

Al elegir Generador de grficos aparecer


esta ventana de advertencia, donde se
solicita que las variables tengan el nivel de
medicin adecuado (nominal, ordinal, escala)

La ventana del Generador de


grficos presenta en la parte
superior izquierda las variables que
pueden ser utilizadas para crear un
grfico. En la parte superior derecha
la
ventana
de
Presentacin
preliminar del grfico. En la parte
inferior los tipos de grficos con que
cuenta el programa.
Seleccionamos el tipo Dispersin
Puntos y sin soltar el ratn lo
arrastramos hacia la ventana de
Presentacin preliminar. Luego,
elegimos las variables que irn en
los ejes X e Y, las cuales tambin se
arrastran
a
la
ventana
de
presentacin y se ubican en los
respectivos ejes.

ARRASTRAR

ARRASTRAR

El resultado ser el siguiente:

165

3.7 Diagrama de tallo y hojas:


Es una representacin en la que los dgitos se dividen entre la parte troncal (izquierda denominada
tallo) y la parte marginal (derecha denominada hoja). Los dgitos del tallo se ordenan de arriba abajo y
las hojas de izquierda a derecha. Como en el histograma, la longitud de cada hoja corresponde al
nmero de casos que contiene un determinado intervalo.
Para elaborar un diagrama de tallos y hojas en SPSS seleccionamos el men ANALIZAR, opcin
Estadsticos descriptivos y sub opcin Explorar.

SPSS muestra la siguiente ventana, en la cual ya hemos elegido la variable PESO.

En la ventana anterior elegimos la opcin Grficos, donde se mostrar:

166

El resultado ser:

3.8 Tablas de contingencia:


Este procedimiento se utiliza para construir una tabla de clasificacin de dos o ms variables. En
Estadstica, esta tabla se llama Tabla de contingencia. SPSS permite construir esta tabla siempre y
cuando sus variables sean de naturaleza categrica y no continua.
Supongamos que deseamos analizar el Estado civil segn Distrito de residencia de nuestra base de
datos. Para ello elegimos el men ANALIZAR, opcin Estadsticos descriptivos y sub opcin
Tablas de contingencia.

Se abrir la siguiente ventana:

167

Indique la variable que se


considerar en las filas de la
tabla.

Indique la variable que se


considerar en las columnas
de la tabla.

Permite elegir una variable


que servir para agrupar los
resultados.

Permite mostrar un grfico de


barras agrupado, donde se
presente el distrito de
residencia
para
cada
categora del estado civil.
Evita que se visualice la tabla de contingencia y que slo se muestre el
grfico de barras agrupadas.

El resultado de la tabla que se mostrar ser el siguiente:

Y la grfica de barras agrupadas:

168

Pero si ahora quisiramos obtener la misma tabla, pero agrupada de acuerdo a la variable SEXO,
tendremos que ingresar dicha variable en la ventana Capa 1 de 1.
El resultado mostrado ser el que se presenta en la tabla siguiente, donde la variable SEXO ha
servido para separar o agrupar los resultados en la tabla de contingencia.

Y podemos seguir aumentando ms capas o variables de agrupacin. Ahora elijamos la variable


TRABAJO para agrupar an ms nuestros resultados. Para ello ser necesario indicar a SPSS que
vamos a emplear una variable ms en otra capa. Esto se consigue haciendo clic en el botn
Siguiente de la ventana de capas.

Elegimos
otra
variable de
agrupacin
para la
Capa 2

El resultado ser:

169

Tabla de contingencia ESTADO CIVIL DEL ENCUESTADO * DISTRITO DE RESIDENCIA DEL ENCUESTADO *
SEXO DEL ENCUESTADO * TRABAJA EL ENCUESTADO?
Recuento
TRABAJA
EL
ENCUESTAD
O?

SEXO DEL
ENCUESTADO

VARN

MUJER

Total

ESTADO CIVIL
DEL
ENCUESTADO
Total
ESTADO CIVIL
DEL
ENCUESTADO
Total
ESTADO CIVIL
DEL
ENCUESTADO

SOLTERO(A)
CASADO(A)
UNIN LIBRE
DIVORCIADO(
A)

VARN

NO

MUJER

2
1

SOLTERO(A)

1
0

5
1

CASADO(A)

1
1
0
1

1
0
1

1
0
2
0

2
2
2
2

3
2
1
0

2
3
1
0

2
0
1
1

1
0
0

7
6
3
1

3
1
1
1
1
4
3
2
1

5
2
2
2
0
6
5
3
2

2
1
0
0
0
1
1
1
1

1
0
0
1
0
1
1
0
1

11
4
3
4
1
12
10
6
5

1
7
2
1
1

0
11
4
1
1

0
3
0
2
1

0
2
1
0
0

1
23
7
4
3

5
2
1
1
1
5
4
2
2

7
2
2
2
0
6
6
3
3

3
1
1
0
0
2
1
3
1

1
0
0
1
0
1
1
0
1

16
5
4
4
1
14
12
8
7

1
10

0
13

0
5

0
2

1
30

SOLTERO(A)
CASADO(A)
UNIN LIBRE
DIVORCIADO(
A)
SOLTERO(A)
CASADO(A)
UNIN LIBRE
DIVORCIADO(
A)
SOLTERO(A)
CASADO(A)
UNIN LIBRE
VIUDO(A)

Total

Total

ESTADO CIVIL
DEL
ENCUESTADO

SOLTERO(A)
CASADO(A)
UNIN LIBRE
DIVORCIADO(
A)
VIUDO(A)

Total

VARN

ESTADO CIVIL
DEL
ENCUESTADO

SOLTERO(A)
CASADO(A)
UNIN LIBRE
DIVORCIADO(
A)

Total

Total

MUJER

ESTADO CIVIL
DEL
ENCUESTADO

SOLTERO(A)
CASADO(A)
UNIN LIBRE
VIUDO(A)

Total

Total

ESTADO CIVIL
DEL
ENCUESTADO

1
1
2

Total
ESTADO CIVIL
DEL
ENCUESTADO

Total

Total
ESTADO CIVIL
DEL
ENCUESTADO

DISTRITO DE RESIDENCIA DEL


ENCUESTADO
HYO
TAMBO CHILC OTROS
A
0
1
0
0
0
1
1
1
0

SOLTERO(A)
CASADO(A)
UNIN LIBRE
DIVORCIADO(
A)
VIUDO(A)

Total

170

Tema N 4: ANLISIS ESTADSTICO DESCRIPTIVO


CLCULO DE ESTADSTICOS

4.2 Clculo de estadsticos:


Otra parte importante en la descripcin de los datos viene a ser el clculo de medidas que describan
aspectos importantes del conjunto total de datos. Dichas medidas son las de tendencia central,
dispersin, posicin relativa y las de asimetra y curtosis. SPSS cuenta con un conjunto de
herramientas estadsticas que permiten calcular dichos estadsticos de manera sencilla. Para ello
elegiremos el men ANALIZAR, opcin Estadsticos descriptivos y la sub opcin Frecuencias.
En
dicha
ventana
seleccionamos la opcin
Estadsticos. Es necesario
indicar que esta no es la
nica manera de obtener
estadsticos en SPSS, ya
que muchas ventanas que
pertenecen
a
otros
procedimientos
tambin
traen
habilitada
la
posibilidad de calcularlos de
acuerdo a la prueba que se
desea aplicar.

La ventana Estadsticos
mostrar:

MEDIDAS DE
TENDENCIA
CENTRAL

MEDIDAS DE
POSICION
RELATIVA

MEDIDAS DE
DISPERSIN

MEDIDAS DE
ASIMETRA Y
CURTOSIS

171

El resultado ser:

Para emplear cualquiera de los estadsticos del procedimiento Frecuencias slo basta con activarlo
haciendo clic sobre la casilla que se encuentra a la izquierda de cada medida, de manera que
aparezca en ella un visto bueno. Podemos seleccionar todos los estadsticos que deseemos, teniendo
como nica limitante el nivel de medida de cada variable.
Una vez obtenidos los estadsticos slo queda interpretarlos para poder describir mejor nuestro
conjunto de datos.

172

REFERENCIAS BIBLIOGRFICAS

1 TRIOLA MARIO. ESTADSTICA. Pearson Educacin. Mxico 2012.


2 ALIAGA VALDEZ, Carlos. ESTADSTICA PARA LOS NEGOCIOS CON EXCEL.
Levin-Rubin-Balderas-Del Valle-Gmez. Estadstica para la Administracin.Pearson
Educacin. 2012
3 INAFUKO-RUBIO DONET.
Universidad del Pacfico. 2012

Estadstica

Aplicada.

Centro

de

Investigacin

4 MARTNEZ BENCARDINO. Estadstica y Muestreo. ECOE Ediciones. 2012


5. MENDENHALL- J. BEAVER- M. BEAVER. Introduccn a la Probabilidad y
Estadstica. Cengage Learning. 2010
6. BERENSON, MARK Y LEVINE, DAVID. Estadstica Bsica en Administracin,
Conceptos y aplicaciones. Prentice Hall, Mxico 2010
7. Universidad Peruana de Ciencias Aplicadas. MATERIAL DE ENSEANZA
PREGADO 2010. Lima, 2 010.
8. ROJAS FLORES, Agustn. ESTADSTICA DESCRIPTIVA E INFERENCIAL CON
APLICACIONES EN EXCEL. Universidad Nacional Hermilio Valdizan. Escuela de
Post Grado. Lima, 2 009.

173