Estadística para La Inv. Científica

1
Programa de Capacitación
en Investigación Científica 2018
ESTADÍSTICA PARA LA INVESTIGACIÓN II

Del 29.09.2018 al 20.10.2018
Docente: Manuel Hurtado Sánchez, Lic. Estad. MsC.
Contenido:
Técnicas estadísticas inferenciales,
Estimación de parámetros,
Pruebas estadísticas paramétricas y no paramétricas,
Técnicas estadísticas especiales, requisito para su aplicación.
Introducción al análisis multivariado.
Taller: aplicación de las técnicas estadísticas inferenciales en la investigación que viene desarrollando
en el programa de conformidad con lo proyectado y con la información recolectada.
Chimbote, Septiembre del 2018

2
RESUMEN
El presente trabajo titulado Estadística para la investigación II tiene como

propósito fundamental presentar a los investigadores en todas las ramas
del quehacer científico, la forma como la ciencia estadística hace más
eficientes los procesos de investigación.
Partiendo de una reflexión sobre el concepto de Estadística, examinamos
el papel que esta disciplina juega en la investigación científica, desde el
planteamiento del problema, la formulación de la hipótesis, el diseño del
tamaño de la muestra, así como las técnicas estadísticas que resultan
útiles en la investigación con enfoque cuantitativo y, en particular, en la
fase de análisis descriptivo de datos. Consideramos también que la
estadística puede ser empleada en otros momentos del proceso de
investigación. Asimismo, se hace mención de los softwares estadísticos
disponibles para su aplicación.
También se argumenta cómo el método científico encuentra en los
métodos estadísticos una herramienta fundamental para alcanzar sus
objetivos. Y cómo la estadística aporta información valiosa a los datos
obtenidos de un proceso de investigación cuantitativa con el fin de obtener
conclusiones más acertadas.
M. Hurtado S.
3
Introducción a la Estadística Inferencial
La inferencia estadística o Estadística Inferencial es una parte de la Estadística que

comprende los métodos y procedimientos para deducir propiedades (hacer
inferencias) de una población, a partir de una pequeña parte de la misma (muestra).
También permite comparar muestras de diferentes poblaciones.
Esta asignatura comprende la teoría de estimación tanto puntual como por

intervalos de confianza, las pruebas de hipótesis paramétricas para la media y
proporciones, también comprende algunas pruebas para datos categóricos como
la independencia de criterios o la homogeneidad entre dos o más poblaciones,
finalmente se incluye las técnicas de pronósticos a través de la Regresión lineal
simple y múltiple.
Para comprender la estadística inferencial se requiere conocer por lo menos el

concepto de variables aleatorias y sus distribuciones de probabilidad, motivo por el
cual comenzaremos estudiando algunas distribuciones especiales de probabilidad.
I. UNIDAD: DISTRIBUCIONES DE PROBABILIDAD

1. Variables Aleatorias.
1.1. Definición: Sea  un experimento aleatorio y  el espacio muestral
asociado con el experimento. Una función X que asigna a cada uno de los
elementos s   , un número real X (s ) se llama Variable aleatoria.
Ejemplo. Sea el experimento aleatorio  = Lanzar tres monedas legales sobre una
superficie regular, entonces el espacio muestral debe ser
  ccc, ccs, csc,scc, css, scs, ssc, sss, considere también que la variable aleatoria X =
Número de caras al lanzar tres monedas legales sobre una superficie regular, entonces
el Rango o conjunto de valores que podría tomar esta variable será: RX  0,1,2,3
4
La función de Probabilidad, que para el caso de variables discretas, toman el

nombre de función de cuantía, puede ser por extensión o por compresión a
través de una función, así
Por extensión:
Por Compresión:
3
𝑃(𝑥) = ( ) × (0.5)3 𝑝𝑎𝑟𝑎 𝑡𝑜𝑑𝑜 𝑥 = {0, 1, 2, 3}
𝑥
1.2. Función de Probabilidades

Llamaremos a p(x) función de probabilidades o función de cuantía por tratarse
de una variable discreta, siempre que cumpla con las dos condiciones
siguientes:
i) p( xi )  0 , i  1,2,3,4,....
ii)  p ( xi )  1
Como ejemplo consideremos el experimento aleatorio de lanzar cuatro monedas

legales sobre una superficie regular, y definamos la variable X = Número de
caras al lanzar cuatro monedas legales sobre una superficie regular, por lo tanto
X debe tomar los valores 0, 1, 2, 3, 4. Para determinar la función de cuantía
5
f (x) debemos observar que el número de formas en que pueden caer las cuatro
monedas es
#   número de posibilidades  24  16
número de repeticiones
Donde:
Número de posibilidades = Número de caras de una moneda = 2
Número de repeticiones= Número de monedas lanzadas o en forma equivalente

número de veces que se lanza una misma moneda.
4
El número de formas en que pueden aparecer x caras es   ; por lo tanto:
x  
 4
 
p( x)   4
x
; x  0,1,2,3,4
2
Se puede verificar que:
4
 
p( x)   4  0
x
i)
2
 4
 
 x  1
4 4
ii) 
x 0
p( x)  
x 0 24
 4
 
Por lo que concluimos que p( x)   4 es una función de cuantía.
x
2
A menudo, la distribución de probabilidades de X se suele representar por el

rango y su función de cuantía, es decir que, la distribución de la variable X de
nuestro ejemplo se puede representar así:
Podemos calcular los valores de la función de cuantía para cada uno de los
valores de X:
6
 4
 
 4   4 4!
 1 entonces p(0)   4   0.0625
0 1
Para x  0 :      
 x   0  0!4! 2 16
 4
 
 4   4 4!
 4 entonces p(0)   4   0.25
1 4
Para x  1 :      
 x  1  1!3! 2 16
 4
 
 4  4 4!
 6 entonces p(2)   4   0.375
2 6
Para x  2 :      
 2   2  2!2! 2 16
 4
 
 4   4 4!
 4 entonces p(3)   4   0.25
3 4
Para x  3 :      
 x   3  3!1! 2 16
 4
 
 4   4 4!
 1 entonces p(4)   4   0.0625
4 1
Para x  4 :      
 x   4  4!0! 2 16
Si lo escribimos en una tabla, debemos tener:
Número de caras Probabilidad

X P(X)
0 0.0625
1 0.2500
2 0.3750
3 0.2500
4 0.0625
Total 1
Y al graficarlo tenemos:
7
Conviene resaltar que p(x) da las frecuencias relativas con que se presenta
cada uno de los valores de x . Así, si suponemos que las cuatro monedas se
lanzan un gran número de veces, debemos esperar que no aparezcan caras (
x  0 ) en 1 16 aproximadamente de las tiradas; esperamos que aparezca una
cara ( x  1 ) en la cuarta parte aproximadamente de las tiradas, y así
sucesivamente. Decimos aproximadamente porque ya estamos familiarizados
con las fluctuaciones que acompañan los sucesos aleatorios.
Los resultados de un experimento real de lanzamientos de 4 monedas pueden

verse en la siguiente tabla. Se lanzaron 4 monedas 160 veces, contando el
número de caras aparecidas en cada prueba.
Resultado del lanzamiento de 4 monedas 160 veces

Número de Probabilidad Ocurrencias Ocurrencias
caras X P(X) efectivas esperadas
0 0.0625 6 10
1 0.2500 41 40
2 0.3750 56 60
3 0.2500 45 40
4 0.0625 12 10
Total 1 160 160
Conocida la función de cuantía de una variable aleatoria x , podemos dar

respuesta a cualquier cuestión probabilística relativa a x . Así por ejemplo,
para la variable X = Número de caras al lanzar de las 4 monedas, la
probabilidad de obtener 2 caras es:
8
 4
 
P( x  2)  p(2)   4 
2 6
 0.375
2 16
La probabilidad de que el número de caras sea inferior a 3 es
 4  4  4
     
p( x)  p(0)  p(1)  p(2)   4   4   4    
2
0 1 2 1 4 6 11
P( x  3)    0.6875
x 0 2 2 2 16 16 16 16
La probabilidad de que el número de caras esté entre 1 y 3, ambos inclusive

es,
 4  4  4
     
p( x)  p(1)  p(2)  p(3)   4   4   4    
3
1 2 3 4 6 4 14
P(1  x  3)    0.875
x 1 2 2 2 16 16 16 16
Supongamos que deseamos calcular la probabilidad condicional de que un

número de caras sea menor que tres cuando se sabe que dicho número es
menor que cuatro. Sea A el suceso “aparecen menos de tres caras”, es decir,
A  x : x  0,1,2
Sea B el suceso “aparecen menos de cuatro caras”; esto es,
B  x : x  0,1,2,3
Deseamos calcula P(A/B). Por definición de probabilidad condicional,
P( A  B)
P( A / B) 
P( B)
Ahora bien:
A  B  x : x  0,1,2
Luego
2
4
  x 
   11
2
P( A  B)   p ( x)  x 0
x 0 24 16
También
9
3
4
  x 
   15
3
P( B)   p( x)  x 0
x 0 24 16
De donde:
11 / 16 11
P( A / B)  P( x  3 / x  4)  
15 / 16 15
La interpretación frecuencial es la siguiente: Supongamos que cuatro monedas

ideales se lanzan un gran número de veces y se registra el número de caras de
cada tirada solamente en los casos en que aparecen menos de cuatro caras.
La fracción de estos casos (donde aparecen menos de cuatro caras) en que
aparecen menos de tres caras será aproximadamente 11/15.
1.3. Valor esperado: 𝑬(𝑿) = 𝝁
El valor esperado de una variable aleatoria se define como un número real al

cual tienden los valores de la variable en el largo plazo; también se suele
entender como el centro de masa de su distribución de probabilidades y
matemáticamente el valor esperado se define como la suma de los productos
de cada uno de los valores de la variable por sus correspondientes
probabilidades, así:
𝐸(𝑋) = 𝜇 = ∑𝑚 𝑖=1 𝑥𝑖 . 𝑝(𝑥𝑖 ),
Donde m = número de valores diferentes de la variable
1.4. Varianza: 𝑽(𝒙) = 𝝈𝟐
Es un índice de variabilidad de la variable respecto a su valor esperado,
expresado en unidades cuadráticas. Matemáticamente la varianza viene a ser
el valor esperado de las desviaciones cuadráticas de la variable, respecto a su
valor esperado.
𝑉(𝑥) = 𝜎 = 𝐸(𝑥 − 𝜇) = ∑(𝑥𝑖 − 𝜇)2 . 𝑝(𝑥)

2 2
𝑖=1
Para el ejemplo de la variable X = N° de caras al lanzar tres monedas legales,

el valor esperado y la varianza será:
10
2. La distribución Binomial:
Sea  un experimento aleatorio de Bernoulli, es decir que tiene las siguientes
características:
i. Solo admite dos resultados posibles, el suceso E = Éxito y el suceso F = Fracaso

ii. Ambos resultados o sucesos son independientes
iii. La probabilidad de obtener un éxito P(E) = p se mantiene constante en cualquier
ejecución del experimento aleatorio, donde 0≤ p ≤ 1
Definimos la variable de Bernoulli x como

1 : Éxito (E)
xi 
0 : Fracaso (F)
Y su función de cuantía será:

p si xi  1 para todo 0≤ p ≤ 1
P( xi ) 
q si xi  0 para todo q=1–p y p+q=1
Con lo cual es fácil notar que el valor esperado de esta variable es E ( xi )  p y

su varianza V ( xi )  pq
Si el experimento  se puede repetir n–veces, (n ≥ 2) y definimos la variable

aleatoria:
n
X  x1  x2  ...  xn   xi , Es decir que:
i 1
X = Número de éxitos en las n-repeticiones del experimento de Bernoulli  .
Esta variable así definida es discreta y se llama variable aleatoria Binomial, la cual
sigue la ley de probabilidades Binomial, caracterizada por:
Rango de la variable X: RX  0, 1, 2, 3, .... , n

X ~ Para todo: 0  p 1
n
Función de cuantía: P( X  x)  p ( x)    p x q n x y q  1 p
 x
Esta distribución se suele denotar como: X ~ B(n, p) donde n y p son conocidos

como los parámetros de la distribución binomial y vienen a ser, n = número de veces
que repite el experimento de Bernoulli  y p es la probabilidad de éxito en cada
repetición dicho experimento, la cual es constante.
11
Valor esperado: 𝐸(𝑋) = 𝑛𝑝
La varianza: 𝑉(𝑋) = 𝑛𝑝𝑞, 𝑑𝑜𝑛𝑑𝑒 𝑞 = 1 − 𝑝
La forma de la función de cuantía depende del valor de p. Así por ejemplo para una
Binomial con n=10 y tres valores de p=0.2, 0.5 y 0.8, tenemos que la función de
cuantía es
P(X = x) P(X = x) P(X = x)

X B(10, 0.20) B(10, 0.50) B(10, 0.80)
0 0.107374182 0.000976563 1.024E-07
1 0.268435456 0.009765625 0.000004096
2 0.301989888 0.043945313 7.3728E-05
3 0.201326592 0.1171875 0.000786432
4 0.088080384 0.205078125 0.005505024
5 0.026424115 0.24609375 0.026424115
6 0.005505024 0.205078125 0.088080384
7 0.000786432 0.1171875 0.201326592
8 7.3728E-05 0.043945313 0.301989888
9 4.096E-06 0.009765625 0.268435456
10 1.024E-07 0.000976563 0.107374182
Σ 1 1 1
Cuyas gráficas son:
Ejemplo. Sea el experimento aleatorio  = Lanzar una moneda legal tres veces sobre una
superficie regular, y deseamos estudiar la variable aleatoria X = Número de caras en dicho
experimento.
12
El experimento de Bernoulli básico es  = Lanzar una moneda legal, en donde los

posibles resultados son Ω = {C , S}, donde C = cara y S = Sello. En este espacio
muestral, definimos la variable aleatoria de Bernoulli
1 : Cara (Éxito)
xi 
0 : Sello (Fracaso)
Con P(C) = P(X=1) = 0.5 = p y P(S) = P(X=0) = 0.5 = 1 - p
Como el experimento aleatorio  se repite n = 3 veces, entonces el espacio
muestral completo de los 3 lanzamientos de la moneda debe ser:
  ccc, ccs, csc,scc, css, scs, ssc, sss  c, s

3
,
Entonces la variable aleatoria X = Número de caras al lanzar tres monedas legales sobre una
superficie regular se puede expresar como:
3
X  x1  x2  x3   xi donde, cada xi puede ser 0 ó 1, por lo que el rango
i 1
de esta variable será: RX  0, 1, 2, 3
La función de cuantía es:
Rango de la variable X: RX  0, 1, 2, 3

X ~
3  3 x
Función de cuantía: P( X  x)  p ( x)   0.5  (1  0.5)
x
 x
13
Esta función de cuantía genera las siguientes probabilidades:
Ejemplo 2:Una Agencia de Turismo, informa que un puente elevadizo en

particular en su ruta, queda levantado bloqueando el tránsito de autos el 20% del
tiempo. Ud. Ha de pasar un auto por dicha ruta una vez al día en los próximos 7
días, y desea predecir el número de los mismos en que el puente estará en la
posición elevada, cuando Ud. se acerque.
a. Esta situación se adapta al modelo Binomial de probabilidades?. Explique por qué.

b. Calcule la probabilidad de que el puente se halle levantado cada vez que Ud. se
acerque.
c. Cuál es la probabilidad de que esté en posición elevada exactamente en tres de sus
siete viajes?
d. Calcule la probabilidad de que esté elevado exactamente una vez.
e. Calcule la probabilidad para todos los valores de la variable y grafíquelo.
f. Determine el valor esperado y desviación estándar del número de días en que

encuentra el puente elevado.
SOLUCIÓN
a). El experimento de Bernoulli básico es  = Transitar en auto una vez al día en la

ruta en la cual existe un puente elevadizo, en donde los posibles resultados son Ω =
{Elevado, Posición normal}. En este espacio muestral, definimos la variable
aleatoria de Bernoulli.
1 : Puente elevado (Éxito=E)

xi 
0 : Puente no elevado (Fracaso=F)
Con P(E) = P(X=1) = 0.2 = p y P(F) = P(X=0) = 0.8 = 1 – p = q
Como el experimento aleatorio  se repite siete veces, el espacio muestral
  E, F 
7
debe ser ,
Entonces la variable aleatoria X = Número de días a la semana que encuentra el auto

encuentra el puente elevado se puede expresar como:
14
7
X  x1  . . .  x7   xi donde cada xi puede ser 0 ó 1, por lo que el
i 1
rango de esta variable será: RX  0, 1, . . . , 7
Esta variable seguirá una distribución Binomial B(7, 0.2), con función de
cuantía:
Rango de la variable X: RX  0, 1, . . . , 7

X ~
7
7 x
Función de cuantía: P( X  x)  p( x)     0.2  0.8
x
 x
7 7 7
b) P( X  7)  p (7)     0.2  0.8  0.000013
7
7
7 7 3
c) P ( X  3)  p (3)     0.2  0.8  0.114688
3
3
7 71
d) P( X  1)  p (1)     0.2  0.8  0.367002
1
1 
e) Esta función de cuantía genera las siguientes probabilidades:
f) E(x) = n.p = 7 x 0.2 = 1.4 veces
DE( x)  npq  7  0.2  0.8  1.12  1.0583

15
La Distribución Binomial también aparece cuando de un lote o población finita de

N elementos, de los cuales A de estos elementos poseen una cualidad
específica en estudio y el resto (N–A) no lo poseen, se seleccionan n elementos
usando un muestreo con reemplazo, tal que n < A. En este contexto se define la
variable aleatoria X = Número de elementos en la muestra que poseen la cualidad
específica en estudio. Esta variable sigue una Distribución Binomial con
parámetros n y p, donde n es el tamaño de muestra y p es la probabilidad de
obtener un elemento que tenga la cualidad en estudio en cualquier extracción de
los elementos de la muestra, usando un muestreo con reemplazo (p = A/N).
Nota: Si el muestreo fuera sin reemplazo pero se tiene la fracción de muestreo

n
f   0 (en la práctica se considera que la fracción de muestreo tiende a
N
n
cero cuando f   0.05 ) entonces se puede considerar que variable
N
aleatoria X = Número de elementos en la muestra que poseen la cualidad específica
en estudio, se distribuye aproximadamente como una Binomial con
parámetros n y p, donde se asume que p permanece aproximadamente
constante debido a que la fracción de muestreo es menor al 5% (f < 0.05).
Ejemplo 3: Un auditor de registros contables sabe por larga experiencia que el

10% de los registros contables tendrán algún tipo de defecto que requerirá un
ligero reajuste. Suponga que el total de registros que el auditor debe examinar
son N= 500, pero por diversas razones decide examinar una muestra de n = 20
registros contables:
a) ¿Cuál es el número esperado de registros defectuosos en la muestra?

16
b) ¿Cuál es la probabilidad de que:
i. Ninguno necesite arreglo?

ii. Por lo menos 1 requerirá arreglo?
iii. Más de 2 requerirá arreglo?
iv. Elabore una gráfica de la función de cuantía.
SOLUCIÓN
Población N = 500
Muestra sin reemplazo n = 20
Fracción de muestreo f = n/N = 20/500 = 0.04 < 0.05
Probabilidad de obtener un registro defectuoso p = 0.10 (Asumimos constante

debido a que la fracción de muestreo f < 0.05).
Variable aleatoria: X = Número de marcos defectuosos en la muestra
La distribución de la variable X es una B(20, 0.10),
Rango Rx = {0, 1, 2, 3, 4, 5, 6, …., 20}

X ~
 20 
P( X )  p( x)   0.1 .0.9
x 20 x
x 
a) Número esperado de defectuosos en la muestra: E(x) = n.p = 20 x 0.1 = 2
 20 
P( X  0)  p(0)   0.1 .0.9  0.920  0.12157665
0 200
b) i.
0 
ii. P( X  1)  1  P( X  0)  1  0.12157665  0.87842335
iii.
P( X  3)  1  P( X  2)  1  0.67692681  0.32307317
P( X  3)  1  P( X  0)  P( X  1)  P( X  2) 
P( X  3)  1  0.121576655  0.270170344  0.285179807 
P( X  3)  1  0.676926805   0.323073195
Distribución B(20, 0.1)

17
18
3. Distribución Geométrica
3.1. Definición. Se denomina experimento geométrico a las repeticiones
independientes de un experimento de Bernoulli hasta obtener el primer
éxito, En cada ensayo de Bernoulli puede ocurrir un éxito (E) con
probabilidad p o un fracaso (F) con probabilidad q=1-p, siendo 0<p<1.
El espacio muestral del experimento geométrico es el conjunto:
Ω = { 𝐸, 𝐹𝐸, 𝐹𝐹𝐸, 𝐹𝐹𝐹𝐸, … , }
Se trata de un conjunto infinito numerable
3.2. Definición. Se denomina variable geométrica a una variable aleatoria X

definida como el número de repeticiones independientes de un ensayo de
Bernoulli hasta que resulte el primer éxito. Los posibles valores de X son:
1, 2, 3, … etc.
Si k es uno de los valores de X, el evento [ X ≤ k ] consiste del suceso
elemental de Ω que contenga los primero k-1 resultados fracasos y el
último o k-ésimo resultado un éxito. La probabilidad de que ocurra el primer
éxito en la k-ésima prueba es igual a 𝑞 𝑘−1 𝑝 , luego:
3.3. Definición. Se dice que una variable geométrica X que se define como
el número de repeticiones independientes de un ensayo de Bernoulli hasta que
ocurra el primer éxito, tiene distribución de probabilidad Geométrica con
parámetro p y se escribe 𝑋~𝐺(𝑝), si su función de probabilidad es:
𝑓(𝑥) = 𝑃[𝑋 = 𝑥] = 𝑞 𝑥−1 𝑝, 𝑥 = 1,2,3, … , 𝑒𝑡𝑐
Para probar que la suma de probabilidades geométricas es igual a 1, se utiliza

la suma infinita:
1
∑∞ 𝑘 2 3
𝑘=0 𝑟 = 1 + 𝑟 + 𝑟 + 𝑟 + ⋯ = , 𝑆𝑖 |𝑟| < 1
1−𝑟
1 1
En efecto, ∑∞
𝑘=1 𝑞
𝑘−1
𝑝 = 𝑝(1 + 𝑞 + 𝑞 2 + 𝑞 3 + ⋯ . ) = 𝑝 (1−𝑞) = 𝑝 (𝑝) = 1
1
Valor esperado: 𝐸(𝑋) = 𝜇 =
𝑝
Prueba
1
Utilizando la identidad: ∑∞
𝑘=1 𝑘𝑞
𝑘−1
= (1−𝑞)2
se obtiene:
∞ ∞
1 1 1
𝐸(𝑋) = ∑ 𝑘𝑞 𝑘−1 𝑝 = 𝑝 ∑ 𝑘𝑞 𝑘−1 = 𝑝 2
=𝑝 2=
(1 − 𝑞) 𝑝 𝑝
𝑘=1 𝑘=1
𝑞
Varianza: 𝑉(𝑋) = 𝜎 2 =
𝑝2
Prueba
1+𝑞
Utilizando la identidad: ∑∞ 2 𝑘−1
𝑘=1 𝑘 𝑞 = (1−𝑞)3
, se tiene:
∞
1+𝑞 2−𝑝
𝐸(𝑋 2 ) = 𝑝 ∑ 𝑘 2 𝑞 𝑘−1 = 𝑝 ( 3
)=
(1 − 𝑞) 𝑝2
𝑘=1
19
2 2−𝑝 1 𝑞
Luego: 𝑉𝑎𝑟(𝑋) = 𝐸(𝑋 2 ) − (𝐸(𝑋)) = 𝑝2
− 𝑝2 = 𝑝2
Propiedades adicionales de una Distribución Geométrica G(p):

a) 𝑃[𝑋 > 𝑎] = 𝑞 𝑎 , 𝑐𝑜𝑛 𝑎 ∈ 𝑍 + , 𝑞 = 1 − 𝑝
b) 𝑃[𝑘 > 𝑘 + 𝑠 /𝑋 > 𝑘] = 𝑃[𝑋 > 𝑠], 𝑘, 𝑠 ∈ 𝑍 +
Ejemplo. Un vendedor a domicilio hace llamadas telefónicas a clientes

potenciales. La probabilidad de vender en cada llamada es de 0.02.
a. Calcule la probabilidad de que a la sexta llamada sea su primera venta.
b. Calcule el valor esperado del número de llamadas hasta obtener su
primera venta.
c. ¿Qué probabilidad hay de que su primera venta ocurra después de más de
5 llamadas, si ya se hizo tres llamadas sin éxito?
SOLUCIÓN
Sea X el número de llamadas hasta conseguir una venta. Sus posibles valores
son: 1, 2, 3, …, etc. El modelo de probabilidad de X es Geométrica de
parámetro p=0.02, esto es:
𝑃(𝑋 = 𝑘) = (0.02)[0.98]𝑘−1 , 𝑘 = 1,2,3, …
a. Luego la probabilidad de que la sexta llamada sea su primera venta es:

𝑃[𝑋 = 6] = (0.02)(0.98)5 = 0.018
b. El valor esperado del número de llamadas necesario para concretar la

primera venta es.
1
𝐸(𝑋) = = 50
0.02
c. El evento “Sabiendo que ya hizo tres llamadas sin éxito y se quiere
conocer la probabilidad hacer más de cinco llamadas hasta que obtenga
un éxito”, entonces:
𝑃[𝑋 > 3 ∧ 𝑋 > 5] 𝑃(𝑋 > 5) 1 − 𝑃(𝑋 ≤ 5)
𝑃(𝑋 > 5⁄𝑋 > 3) = = =
𝑃[𝑋 > 3] 𝑃[𝑋 > 3] 1 − 𝑃(𝑋 ≤ 3)
1 − 0.09608 0.90392
= = = 0.9604
1 − 0.05881 0.94119
Forma abreviada de cálculo:

𝑃(𝑋 ≥ 6) 𝑝𝑞 6−1 + 𝑝𝑞 7−1 + 𝑝𝑞 8−1 + 𝑝𝑞 9−1 + ⋯
𝑃(𝑋 > 5⁄𝑋 > 3) = =
𝑃(𝑋 ≥ 4) 𝑝𝑞 4−1 + 𝑝𝑞 5−1 + 𝑝𝑞 6−1 + ⋯
𝑃(𝑋 ≥ 6) 𝑝[𝑞 5 + 𝑞 6 + 𝑞 7 + 𝑞 8 + ⋯ ]
𝑃(𝑋 > 5⁄𝑋 > 3) = = =
𝑃(𝑋 ≥ 4) 𝑝[𝑞 3 + 𝑞 4 + 𝑞 5 + ⋯ ]
𝑞5 + 𝑞6 + 𝑞7 + 𝑞8 + ⋯ 𝑞 2 (𝑞3 + 𝑞 4 + 𝑞 5 + ⋯ . )
𝑃(𝑋 > 5⁄𝑋 > 3) = =
𝑞3 + 𝑞4 + 𝑞5 + ⋯ 𝑞3 + 𝑞4 + 𝑞5 + ⋯ .
2 2
= 𝑞 = 0.98 = 0.9604
20
4. La distribución Hipergeométrica:
Sea N una población finita formada por un número pequeño de individuos,
objetos o medidas, de los cuales una parte A de estos elementos tienen una
cualidad que estamos interesados en estudiar. Considere que de esta población
se selecciona una muestra aleatoria sin reemplazamiento tamaño n.
Variable aleatoria: X = Número de elementos en la muestra
La distribución de la variable X es una B(20, 0.10),

21
nA
Valor Esperado: E( X ) 
N
 N  n  nA  A
Varianza: V (X )    1  
 N  1  N  N 
Desviación estándar: DE X   V  X 
Ejemplo1. Para evitar que lo descubran en la aduana, un viajero ha colocado 6

tabletas de narcótico en una botella que contiene 9 píldoras de vitamina que son
similares en apariencia. Si el oficial de la aduana selecciona tres tabletas
aleatoriamente para analizarlas, ¿Cuál es la probabilidad de que el viajero sea
arrestado por posición de narcóticos?. Cuál será el número esperado y
desviación estándar del número de tabletas de narcóticos en la muestra?.
Calcule la probabilidad para todos los valores de la variable número de tableas
de narcótico en la muestra y grafíquela.
SOLUCIÓN
N=9
A=6
n=3
X = Número de tabletas que contiene narcóticos
El rango de X será:
Máx {X} = Mín {n, A } = Mín {3, 6} = 3
Mín {X} = Máx { 0, (n-(N-A)) } = Máx { 0, (3-(9-6) } = Máx {0, 0 } = 0
La distribución de X es:
RX: {0, 1, 2, 3}
X ~
 6  3 
  
 x  3  x 
P( X  x )  p( x ) 
9
 
3
22
Se pregunta por: P(viajero arrestado) = P(X ≥ 1) = ?
P(X ≥ 1) = 1 - P(X = 0)
 6  9  6 
  
 0  3  0 
P( X  1)  1   1  0.011905  0.988095
 9
 
 3
nA 3  6 18
E( X )    2
N 9 9
 9  3  3  6  6 
DE  X   V  X     1    0.5  0.7071
 9  1  9  9 
Ejemplo1.a. Repita el ejemplo anterior, pero esta suponga que el oficial de la

Aduana selecciona una muestra de cinco tabletas.
SOLUCIÓN
N = 9, A = 6, n=5 y X = Número de tabletas que contiene narcóticos
El rango de X será:
Máx {X} = Mín {n, A } = Mín {5, 6} = 5
Mín {X} = Máx { 0, (n-(N-A)) } = Máx { 0, (5-(9-6) } = Máx {0, 2 } = 2
RX: {2, 3, 4, 5}
X ~
 6  3 
  
 x  5  x 
P( X  x )  p( x ) 
 9
 
5
Se pregunta por: P(viajero arrestado) = P(X ≥ 1) = ?

23
P(X ≥ 1) = P(Rx) = P(2) + P(3) + P(4) + P(5)
 6  9  6 
  
 2  5  2 
P ( X  2)   0.11905
 9
 
5
 6  9  6 
  
 3  5  3 
P( X  3)   0.47619
 9
 
5
 6  9  6 
  
 4  5  4 
P ( X  4)   0.35714
 9
 
5
 6  9  6 
  

P( X  5)      0.04762
5 5 5
 9
 
5
X = N° de Tabletas de narcóticos en la muestra

X P(x) P(X ≤ x ) X. P(x) (X - µ) (X - µ)^2.P(x)
2 0.11905 0.11905 0.23810 -1.3333 0.21164
3 0.47619 0.59524 1.42857 -0.3333 0.05291
4 0.35714 0.95238 1.42857 0.6667 0.15873
5 0.04762 1.00000 0.23810 1.6667 0.13228
Suma 1.00000 3.33333 0.55556
E(X) = µ V(X) = σ²
24
nA 5  6 30
E( X )     3.3333
N 9 9
 9  5  5  6  6 
DE  X   V  X     1    0.55556  0.74536
 9  1  9  9 
Ejemplo 2. Considere que una caja que contiene 15 artículos, 10 de los cuales
son aceptables. Se selecciona una muestra de 4.
a) ¿Cuál es la probabilidad de que exactamente 3 sean aceptables?

b) ¿Cuál es la probabilidad de que los 4 sean aceptables?
c) ¿Cuál es la probabilidad de al menos uno sea aceptable?
SOLUCIÓN
N = 15, A = 10, n=4 X = Número de artículos aceptables en la muestra
a) Se pregunta por: P(X = 3) = ?
10 15  10 
  
 3  4  3 
P( X  3)   0.4396
15 
 
4 
b) Se pregunta por: P(X = 4) = ?
10 15  10 
  
4  4 
P( X  4)   
4
 0.1538
15 
 
4 
c) Se pregunta por: P(X ≥ 1) = ? P(X ≥ 1) = 1- P(X = 0)
10 15  10 
  
 0  4  0 
P( X  1)  1  P( X  0)  1   1  0.0037  0.9963
15 
 
4 
25
Ejemplo 3. En un anaquel de un supermercado hay 15 productos. Suponga que

6 de los 15 productos tienen fecha de vencimiento pasada. Si seleccionamos
cinco productos al azar para examinar su fecha de vencimiento. ¿Cuál es la
probabilidad de que dos de los productos examinados tengan fecha de
vencimiento pasada?.
SOLUCIÓN
N = 15
A=6
n=5
X = Número de productos con fecha de vencimiento pasada.
Se pregunta por P(X = 2 ) = ?
 6 15  6   6  9 
     
 2  5  2   2  3 
P( X  2)  p(2)    0.41958
15  15 
   
5  5 
Ejemplo 4. En un anaquel de un supermercado hay 15 productos. Suponga que

10 de los 15 productos tienen fecha de vencimiento pasada. Si seleccionamos
8 productos al azar para examinar su fecha de vencimiento. Identifique la
distribución de probabilidades y calcule la probabilidad de que 4 de los productos
examinados tengan fecha de vencimiento pasada, además obtenga las
probabilidades para cada uno de los valores de la variable y grafíquelo.
SOLUCIÓN
N = 15
A = 10
n=8
X = Número de productos con fecha de vencimiento pasada.
La distribución de X es una hipergeométrica con parámetros N=15, A=10 y n=8,

con rango dado por:
26
Xmin = Máx{0, n-(N-A)} = Máx {0, 8-(15-10)} =Máx{0,3} = 3

XMáx = Mín {n, A} = Mín {8, 10} = 8
La Distribución de Probabilidades quedará del siguiente modo
Se pregunta por P(X = 4 ) = ?
10 15  10  10  5 

     
 4  8  4   4  4   0.1632
P ( X  4)  p ( 4)  
15  15 
   
8  8 
Encontramos las probabilidades para cada uno de los valores de la variable, y lo

graficamos
5. Distribución de Poisson:
Sea una variable aleatoria X = Número de ocurrencias por unidad de medición (minuto, hora,
centímetro, metro cuadrado, etc,) de la cual se conoce la tasa media de ocurrencias por
unidad denotada por λ, la cual se mantiene constante durante el período de estudio.
Esta variable sigue una distribución de Poisson, la cual debe su nombre a su creador,
el Matemático Francés Simenon Poisson (1781–1840). La distribución de Poisson
tiene como parámetro a la tasa media de ocurrencias λ, y mide la probabilidad de un
evento aleatorio sobre algún intervalo de tiempo o espacio.
 La distribución de Poisson tiene los siguientes supuestos para su aplicación:

27
 La probabilidad de ocurrencia del evento es constante para dos intervalos

cualesquiera de tiempo o espacio.
 La ocurrencia del evento en un intervalo es independiente de la ocurrencia
de otro intervalo cualquiera.
Dados estos supuestos, la distribución puede expresarse como:
Rango: Rx = {0, 1, 2, 3, 4, …. }
X ~
e x
Función de cuantía P( X  x)  p( x) 
x!
X : Número de veces que ocurre el evento
: Número promedio de ocurrencias por unidad de tiempo o de espacio (o
tasa promedio de ocurrencias por unidad de tiempo o de espacio)
e  2.71828 Base del logaritmo natural
Valor esperado: E[x] = λ
Varianza : V[x] = λ
La forma de esta distribución va cambiando con el valor de su parámetro λ
X P(X: λ =0.8) P(X: λ=2.5) P(X: λ=5) P(X: λ=10)

0 0.44933 0.082084999 0.006737947 4.53999E-05
1 0.35946 0.205212497 0.033689735 0.000453999
2 0.14379 0.256515621 0.084224337 0.002269996
3 0.03834 0.213763017 0.140373896 0.007566655
4 0.00767 0.133601886 0.17546737 0.018916637
5 0.00123 0.066800943 0.17546737 0.037833275
6 0.00016 0.027833726 0.146222808 0.063055458
7 0.00002 0.009940617 0.104444863 0.090079226
8 0.003106443 0.065278039 0.112599032
9 0.000862901 0.036265577 0.125110036
10 0.000215725 0.018132789 0.125110036
11 4.90285E-05 0.008242177 0.113736396
12 0.00343424 0.09478033
13 0.001320862 0.072907946
14 0.000471736 0.052077104
15 0.000157245 0.03471807
16 4.91392E-05 0.021698794
17 0.012763996
18 0.007091109
19 0.003732163
20 0.001866081
21 0.00088861
22 0.000403914
23 0.000175615
24 7.31728E-05
28
La distribución de probabilidades Poisson a menudo proporciona un buen

modelo de la distribución de probabilidad para el número “X” de eventos poco
comunes que se presentan en el espacio, tiempo, volumen o cualquier otra
dimensión, donde λ es el valor promedio de “X”. Así tenemos que, esta
distribución proporciona un buen modelo de la distribución de probabilidad del
número X de accidentes automovilísticos, industriales u otra clase de accidentes
que ocurren en cierta unidad de tiempo. El número de llamadas telefónicas que
atiende un conmutador en un intervalo, el número de partículas radioactivas que
se desintegran en cierto período, el número de errores que una mecanógrafa
comete en una cartilla, el número de vehículos que doblan en un sentido
específico en una bifurcación de la vía rápida en un intervalo de 10 minutos, son
otros ejemplos de variables aleatorias con una distribución aproximada a la de
Poisson.
Ejemplo 1: Supongamos que estamos interesados en la probabilidad de que

exactamente 5 clientes lleguen durante la siguiente hora (o en cualquier hora
dada) laboral. La observación simple de las últimas 80 horas ha demostrado que
800 clientes han entrado al negocio. Por lo tanto λ = 10 clientes por hora.
SOLUCIÓN
X = Número de clientes por hora que ingresan al negocio.
E[X] = λ = 10 clientes por hora
La distribución puede expresarse como:
Rango: Rx = {0, 1, 2, 3, 4, 5, 6, …. }
X ~
e1010 x
x!
29
e10105
P( X  5)  p(5)   0.0378
5!
Otros cálculos
5
e 10105
P( X  5)    0.067085
x 0 5!
P X  5  1  P( X  5)  1  0.067085  0.93915
30
P7  X  14  P( X  14)  P X  6  0.91654  0.13014  0.78640
Ejemplo 2. Una compañía de pavimentación local obtuvo un contrato con el

municipio para hacer mantenimiento a las vías del centro de la ciudad. Las vías
recientemente pavimentadas por esta compañía demostraron un promedio de
dos defectos por Km., después de haber sido utilizadas durante un año. Si el
municipio sigue con esta compañía de pavimentación, ¿cuál es la probabilidad
de que se presenten tres defectos en cualquier kilómetro de vía después de
haber tenido tráfico un año?.
SOLUCIÓN
X = Número de defectos por kilómetro de vía.

E[X] = λ = 2 defectos por kilómetro
Rango: Rx = {0, 1, 2, 3, 4, 5, 6, …. }
X ~
e2 2 x
x!
e2 23
P( X  3)  p(3)   0.1804
3!
Nota: Si lo que se desea es conocer la probabilidad de que ocurran X eventos
en un intervalo de tiempo “t”, múltiplo del intervalo unitario de referencia de λ,
entonces la función de cuantía se modifica en su parámetro por λt, quedando de
la siguiente manera.
X = Número de eventos por un intervalo de tiempo “t”, con E[X] = λt
Rango: Rx = {0, 1, 2, 3, 4, 5, 6, …. }
X ~
e t (t ) x
x!
31
Ejemplo 3. Suponga que en el ejemplo anterior sobre los defectos de

pavimentación, deseamos calcular la probabilidad de que se presenten cinco
defectos en un intervalo de tres kilómetros de vía después de haber tenido tráfico
un año.
SOLUCIÓN
X = Número de defectos por cada tres kilómetros de vía.

E[X] = λt = 2x3 =6 defectos por cada tres kilómetros
Rango: Rx = {0, 1, 2, 3, 4, 5, 6, …. }
X ~
e23  (2  3) x e6 6 x
Función de cuantía P( X  x)  p( x)  
x! x!
e 6 65
P( X  5)  p(5)   0.16062
5!
5.1. Propiedades de la distribución de Poisson:
5.1.1. Si X es una variable con distribución de Poisson con parámetro λ y Y
es otra variable también con distribución de Poisson pero con parámetro µ,
entonces la suma de estas variables generan una nueva variable Z = X + Y
con la misma distribución de Poisson, pero con parámetro dado por (λ + µ).
5.2. Sea Z una variable aleatoria con distribución de probabilidades Poisson con
parámetro λ. Sea “p” una probabilidad de que la variable Z adquiera un atributo
particular y “(1-p)” es la probabilidad de que no lo adquiera, entonces se generan
32
dos variables X y Y con la misma distribución de Poisson cada una de ellas,

pero con parámetros (pλ) y (1-p)λ respectivamente.
Estas dos características son conocidas como la propiedad de reproducción
de la distribución de Poisson.
Ejemplo: El siguiente gráfico se muestra un flujo de tráfico en una zona

urbana, en donde el número de vehículos que pasan por un punto dado en un
intervalo de tiempo unitario sigue una distribución de Poisson con sus
correspondientes parámetros en cada una de los sectores de las vías. Estos
parámetros son deducidos usando la propiedad de reproductividad de la
Distribución de Poisson.
6. Aproximación de la distribución de Poisson a la Binomial:

Suponga que X es una variable aleatoria Binomial con parámetros n y p, es decir
que X  Bn, p . Cuando n   y p  0 tal que el producto np se
mantiene constante, el cual lo denotamos por  , es decir que   np ; entonces
la distribución Binomial Bn, p  puede ser suficientemente bien aproximada por
la distribución de Poisson con parámetro   np . en la práctica se considera que
33
n   cuando n  30 y que p  0 cuando p  0.05 . A continuación se muestra

dos ejemplos de la aproximación Poisson a la Binomial. La única ventaja de usar la
distribución de Poisson en lugar de la Binomial es por facilidad de cómputo.
λ = 50*0.02= 1
X B(50, 0.02) P(λ=1)
0 0.364170 0.367879
1 0.371602 0.367879
2 0.185801 0.183940
3 0.060670 0.061313
4 0.014548 0.015328
5 0.002732 0.003066
6 0.000418 0.000511
7 0.000054 0.000073
8 0.000006 0.000009
9 0.000001 0.000001
10 0.000000 0.000000
34
Por lo tanto es fácil deducir que para las condiciones especificadas anteriormente
de una distribución Binomial, podría utilizarse la Distribución de Poisson como
una distribución aproximada, con la cual se obtendrán probabilidades
suficientemente próximas a su valor verdadero Binomial.
Ejemplo: Un vendedor de productos electrónicos espera que el 2% de las
unidades vendidas fallen durante el período de garantía. Se hace un seguimiento
de 500 unidades independientes para determinar su desempeño durante el
tiempo de garantía.
a) ¿Cuál es la probabilidad de que ninguna de las unidades fallen durante el
período de garantía?
b) Cuál es el número esperado de unidades que fallan durante el período de
garantía?
c) ¿Cuál es la probabilidad de que fallen más de dos unidades durante el
período de garantía?
SOLUCIÓN
X = Número de unidades que fallan en periodo de garantía.

n = 500 : Número de unidades en el período de garantía
p = 0.02 : Probabilidad de que una unidad falle en el período de garantía
La distribución verdadera de X ~ B(500, 0.02), Como n   y p  0 ,

Entonces se puede usar la distribución de Poisson como una distribución
aproximada, así: X ~ Poisson con   np  500  0.02  10
Por lo tanto:
e10  (10)0
a) P( X  0)   0.000045
0!
El valor de esta probabilidad con su distribución verdadera es
35
 500 
P( X  0)   (0.02)0 (0.98)500  0.000041
0 
La ventaja de usar la distribución aproximada es solamente por facilidad de
cómputo.
b) E X     np  500  0.02  10
2
e10  (10) x
c) P( X  2)  1  P X  2  1  
x 0 x!
P( X  2)  1  0.000045  0.000454  0.002270 
P( X  2)  1  0.002769   0.997231
36
EJERCICIOS PROPUESTOS 1
1. Se venden 500 boletos de una rifa, que consiste en un premio de $200, 4 premios
de $50,y 10 premios de $5. Si cada boleto cuesta 1 $, y si Ud. Adquiere un boleto,
a. Hallar la función de probabilidad
b. ¿Qué probabilidad hay de ganar algún premio?
Respuesta a) Valores: 199, 49, 4, -1, Probabilidad: 1/500, 4/500, 10/500, 485/500, b) 0.03
2. Una caja contiene 8 focos de luz eléctrica, tres de los cuales son defectuosos. De
la caja se selecciona al azar un foco y se la prueba, repitiéndose la operación
hasta que aparezca un defectuoso. Sea X la variable aleatoria que se define como
el número de extracciones necesarias hasta que aparezca el primer foco
defectuoso. Determine la distribución de probabilidades de X, si las extracciones
son sin reposición.
Respuesta a) Valores: 1, 2, 3, 4, 5, 6, Probab.: 21/56, 15/56, 10/56, 6/56, 3/56, 1/56
3. Un vendedor puede visitar en un día uno o dos clientes con probabilidades 2/5 y
3/5 respectivamente. De cada visita en forma, independiente, puede resultar una
venta por $500 con probabilidad 1/6, ó ninguna venta con probabilidad 5/6. Si X
son las ventas diarias, calcular la media y varianza de X.
Respuesta a) X: Montos de ventas diarias. Valores: 0, 500, 1000, Probab.: 45/60, 14/60, 1/60,
4. De un total de personas que se presentan para un puesto de trabajo, el 60% son
varones y el resto mujeres. Aquellos que reúnen todos los requisitos para dicho
puesto son el 40% de varones y el 50% de mujeres. De tres personas que se
presentan
a. Hallar le distribución de probabilidades del número de personas que
cubren el puesto de trabajo.
b. ¿Cuál es la probabilidad de que a menos dos personas consigan el
puesto de trabajo?
Respuesta a) p = 0.44, 𝑃[𝑋 = 𝑘] = 𝐶𝑘3 𝑃 𝑘 𝑞3−𝑘 , 𝑘 = {0,1,2,3}, b) 0.41
5. Un blanco circular de radio 1 se divide en 5 anillos circulares por medio de 5 discos

concéntricos de radios: 1⁄5, 2⁄5, 3⁄5 , 4⁄5 , 1. Un jugador lanza un dardo al
blanco. Si el dardo alcanza el anillo circular comprendido entre los círculos de
radios 𝑘⁄5 𝑦 (𝑘 + 1)⁄5, ∀ 𝑘 = {0, 1, 2, 3, 4, 5, }, tiene k puntos y gana 5-k dólares:
Determinar la distribución de probabilidades
a. Del puntaje del jugador
b. De la utilidad del jugador
Respuesta a) Valores de X: 0, 1, 2, 3,4, Probab: 1/25, 3/25, 5/25, 7/25, 9/25 ,
b) Valores útil: 5, 4, 3, 2, 1
6. Una tienda comercial tiene dos computadoras en stok el viernes en la mañana. La

tienda puede recibir más computadoras sólo hasta el día lunes. Las probabilidades
de que sean requeridas por los clientes 0, 1, 2, computadoras el día viernes son
respectivamente: 0.5, 0.3, 0.2 y para el día sábado son respectivamente: 0.7, 0.2,
0.1. Si las demandas de los dos días son independiente, determine la distribución
de probabilidad del número de computadoras que quedan al finalizar el día
sábado.
Repuesta: Valores: 0, 1, 2, probabilidades: 0.34, 0.31, 0.35.
7. En una encuesta sobre corretaje reporta que el 30% de los inversionistas

individuales ha utilizado a un corredor de descuento; esto es, uno que no cobra
las comisiones completas. En una muestra seleccionada al azar de nueve
inversionistas, ¿Cuál es la probabilidad de que:
a. Exactamente dos de los individuos de la muestra hayan empleado a un corredor de
descuento?
37
b. Exactamente cuatro de ellos hayan utilizado a un corredor de este tipo?.

c. Entre tres y cinco individuos inclusive hayan utilizado a un corredor de este tipo?
d. Más de cinco individuos hayan utilizado un corredor de este tipo?
8. Un estudiante debe obtener por lo menos el 60% de respuestas correctas en un
examen con 18 preguntas diseñadas cada pregunta con dos alternativas de
verdadero o falso. Si el estudiante lanza una moneda para determinar la respuesta
a cada pregunta, ¿Cuál es la probabilidad de que el estudiante pase?
9. El 75% de la mercadería que recibe un comerciante del fabricante A es de calidad
excepcional, mientras que el 80% de la mercadería que recibe del fabricante B es
de calidad excepcional. El 60% de la mercadería lo recibe de A y el resto de B. Si
seleccionan 4 unidades de la mercadería, ¿Cuál es la probabilidad que se
encuentren 2 unidades que sean de calidad excepcional?.
Rpta. p=0.77, X~B(4,p), P[X=2]=0.188
10. Un vendedor a domicilio compra diariamente 10 unidades de un producto a

$2.00 cada una. Por cada producto gana 13 $ si lo vende o pierde 1 $ además del
costo si no lo vende en el día. Si la probabilidad de venta de cada unidad es de
0.2 y si las ventas son independientes.
a. Hallar la distribución de probabilidades del número de unidades vendidas.
b. Calcular la utilidad esperada del vendedor
Rpta. a) B(10, 0.2), b) $2
11. Una empresa de electrodomésticos ha creado una nueva lavadora que

realiza una serie de funciones que no hace ninguna otra. Se está planeando una
demostración, pero les preocupa algunos problemas iniciales de producción que
han hecho que, en un 3% de las nuevas lavadoras aparezcan determinados
problemas. Entonces, Si se seleccionan exactamente 40 lavadoras al azar ¿Qué
probabilidad tendrían que por lo menos 2 no funcionen bien?
12. En un proceso de producción, la probabilidad de que se produzca cada
artículo que cumpla con ciertas especificaciones es de 0.99. En determinado
momento se plantea el objetivo de producir 150 artículos que cumplan con las
especificaciones; pero al mismo tiempo se decide detener el proceso de
producción, tan luego se produzca el primer artículo que no cumpla con las
especificaciones.
a. ¿Cuál es la probabilidad de lograr el objetivo
b. Si después de producir 100 artículos, aún no se detenido el proceso.
¿Cuál sería la probabilidad de lograr el objetivo?
Rpta. X= # de artículos producidos hasta que ocurra el primer defectuoso, X~G(0.01),
k = 1, 2, etc. a) P[X>150]=(0.99)150, b) P[X>150/X>100]=(0.99)50
13. Una compañía petrolera ha sido designada para perforar pozos en la amazonía
peruana hasta obtener un resultado exitoso. La compañía estima en 0.7 la
probabilidad de no hallar petróleo en cada pozo que perfora
a. Suponga que la compañía petrolera cree que una serie de exploraciones será
rentable si el número de pozos perforados hasta que ocurra el primer éxito es
menor o igual que 5. Calcule la probabilidad de que la exploración no será
rentable si ya fueron perforados 3 pozos y en ninguno de ellos se encontró
petróleo.
b. El costo para perforar cada pozo es de $10,000. Si un ensayo no resulta
exitoso, el siguiente ensayo tiene un costo adicional de $5,000, ¿Cuánto es
el costo esperado del proyecto?
38
c. Si la compañía dispone de un presupuesto de $145,000, ¿Cuál es la

probabilidad de que los trabajos experimentales tengan un costo que
sobrepase el presupuesto de la compañía?
Rpta. X= # de perforaciones hasta obtener éxito, X~G(p), p=0.3, a) P[X>5/X>3]=(0.7) 2,
b) C(X)=15,000X-5,000, E[C(X)] = $45,000, c) P[C(X)>45,000]=P[X>10]=(0.7)10 .
14. Como subgerente de una empresa de materias primas Ud. debe contratar a
10 personas entre 30 candidatos, 22 de los cuales tienen título universitario. ¿Cuál
es la probabilidad de que 5 de los que Ud. contrate tengan título universitario?
15. De los 15 altos ejecutivos de un negocio de importaciones y exportaciones,
se seleccionan 12 para ser enviados a Japón a estudiar un nuevo proceso de
producción. Ocho de los ejecutivos ya tienen algo de entrenamiento en el proceso.
¿Cuál es la probabilidad de que cinco de los enviados tengan algo de
conocimiento sobre el proceso antes de partir para el lejano oriente?
16. Un determinado producto industrial es embarcado en lotes de 20 unidades.
Se escogen 5 ítems al azar de un lote y se rechaza el lote si se encuentra 2 o más
defectuosos; en caso contrario se acepta el lote. Calcular la probabilidad de
aceptar un lote que tiene tres defectuosos si los ítems se escogen uno por uno:
a. Con reposición
b. Sin reposición
Rpta: a) X~B(5, 0.15), P[X≤1] =0.8352, b) X~H(20, 3, 5), P(X ≤ 1] = 0.8596
17. A un conmutador de la oficina principal de una empresa llegan llamadas a

un promedio de dos por minuto y se sabe que tienen distribución de Poisson. Si el
operador está distraído por un minuto, cuál es la probabilidad que el número de
llamadas no respondidas sea:
a. ¿Cero?,
b. ¿por lo menos una? Y
c. ¿Entre tres y cinco inclusive?
18. Un proceso de fabricación utilizado para hacer artefactos plásticos Incas
presentan una tasa de defectuosos de 5 por cada 100 unidades. Las unidades se
envían a los distribuidores en lotes de 200. Si la probabilidad de que más de tres
salgan defectuosos supera el 0.3, Ud. planea vender en su lugar, camisetas
Gratefull Dead. ¿Cuál artículo agregará Ud. al inventario?
19. Usted compra partes para bicicleta de un proveedor en Lima que tiene tres
defectos por cada 100 partes. Ud. está en el mercado para comprar 150 partes
pero no aceptará una probabilidad de más de 0.50 de que más de dos partes
sean defectuosas. ¿Ud. le comprará a dicho proveedor?
20. La cantidad promedio de automóviles que pasan por un túnel es de uno cada
periodo de 2 minutos. El paso de muchos vehículos en un período breve hace que
sea peligroso recorrerlo. Determine la probabilidad de que el número de
automóviles que pasan por allí durante un período de 2 minutos sea superior a
tres.
39
7. Distribución Normal
1. Distribución normal o campana de Gauss-Laplace

Esta distribución es frecuentemente utilizada en las aplicaciones estadísticas.
Su propio nombre indica su extendida utilización, justificada por la frecuencia o
normalidad con la que ciertos fenómenos tienden a parecerse en su
comportamiento a esta distribución.
En resumen, la importancia de la distribución normal se debe principalmente a

que hay muchas variables asociadas a fenómenos naturales que siguen el
modelo de la normal
 Caracteres morfológicos de individuos (personas, animales, plantas,...) de una

especie, p.ejm. tallas, pesos, diámetros, perímetros,... )
 Caracteres fisiológicos, por ejemplo: efecto de una misma dosis de un fármaco, o
de una misma cantidad de abono.
 Caracteres sociológicos, por ejemplo: consumo de cierto producto por un mismo
grupo de individuos, puntuaciones de examen.
 Caracteres psicológicos, por ejemplo: cociente intelectual, grado de adaptación a
un medio,...
 Errores cometidos al medir ciertas magnitudes.
 Valores estadísticos muestrales, por ejemplo : la media.
 Otras distribuciones como la binomial o la de Poisson son aproximaciones
normales, ...
Y en general cualquier característica que se obtenga como suma de

muchos factores.
2. FUNCIÓN DE DENSIDAD
El modelo de la función de densidad que corresponde a la distribución

normal viene dado por la fórmula de Gauss:

 x   2
1
f ( x)  e 2 2
 2
Donde:
  media   3.14159265 ...
  Desviacion estándar e  2.718281828 ...
 2  Varianza x  var iable aleatoria
La representación gráfica de esta función de densidad es:

40
 1 
 
  2 
Propiedades de la función de densidad Normal
i. Rango de X: Conjunto de los números reales

 1 
ii. La función de densidad tiene un máximo en :  , 
  2 
iii. Dos puntos de inflexión: en X     y X    
iv. Es asíntota El eje horizontal X
v. Simétrica respecto a la media 
vi. Numéricamente coinciden   Me  Mo
vii. Aproximadamente: P(    X     )  0.6827
P(  2  X    2 )  0.9545
P(  3  X    3 )  0.9973
viii. Monotonía: creciente (,  ) , decreciente ( , )

ix. Es siempre positiva f ( x)  0
La distribución normal queda definida por dos parámetros, su media y su

varianza y la representamos así N(μ, σ2). Para cada valor de μ y σ2
tendremos una función de densidad distinta, por lo tanto la expresión N(μ,
σ2) representa una familia de distribuciones normales.
41
3. FUNCIÓN DE DISTRIBUCIÓN
La función de distribución está definida por:

 t   2
x 1
P( X  x )  F ( x )   e 2 2
dt
   2
Tiene las siguientes propiedades de la función de distribución:
1. F(x) es continua
2. F(x) es monótona no decreciente.
3. F(-∞) = 0 y F(+∞) = 1
F(x) es el área sombreada de esta gráfica
4. TIPIFICACIÓN O ESTANDARIZACIÓN
Si la variable X es 𝑁(𝜇, 𝜎 2 ) entonces la variable tipificada de X es 𝑍 =

𝑋−𝜇
y sigue también una distribución normal pero con   0 y   1, es
𝜎
decir N (0,1)
Por tanto su función de densidad es
z2
1 2
f ( z)  e ;  z 
2
y su función de distribución es
42
t2
1 

t
F ( z )  P( Z  z )  f ( z )  e 2
dt
2 
siendo la representación gráfica de esta función como se muestra en la

siguiente figura
Característica de la distribución normal tipificada (reducida, estándar)
 No depende de ningún parámetro

 Su media es 0, su varianza es 1 y su desviación típica es 1.
 La curva f(z) es simétrica respecto el eje OY
1
 Tiene un máximo en este eje e igual a:  0.399
2
 Tiene dos puntos de inflexión en z =1 y z = -1
43
Cálculo de probabilidades usando la Distribución Normal estándar:

1° Caso: Dado el evento, encontrar una probabilidad:
Sea X una variable aleatoria con distribución normal con media 10 y varianza
4, calcule la probabilidad de los siguientes eventos: (Note que µ = 10 y σ2 = 4
y σ = 2)
a. P(X<13.5)
b. P(X< 9.5)
c. P(10.5 < X < 14.5)
d. P(8 < X < 12)
e. P(6 < X < 14)
f. P(|X-µ| < 2)
g. P(|X-µ| < 4)
h. P(|X-µ| < 6)
DESARROLLO
 X   13.5  10 
a. P( X  13.5)  P  
  2 
 PZ  1.75
= 0.959941
 X   9.5  10 
b. P( X  9.5)  P  
  2 
 PZ   0.25 = 0.401294
Si no se tiene una tabla de la normal estándar para valores negativos
de Z, se puede resolver aprovechando la simetría de la distribución:
 PZ   0.25
 1  PZ  0.25
= 1 – 0.598706
= 0.401294
 10.5  10 X   14.5  10 
c. P(10.5  X  14.5)  P   
 2  2 
 P0.25  Z  2.25
 PZ  2.25  P(Z  0.25)
= 0.987776 - 0.598706
= 0.389069
 8  10 X   12  10 
d. P(8  X  12)  P   
 2  2 
 P 1  Z  1
44
 PZ  1  P(Z  1)

= 0.841345 - 0.158655
= 0.682689
 6  10 X   14  10 
e. P(6  X  14)  P   
 2  2 
 P 2  Z  2
 PZ  2  P(Z  2)
= 0.977250 - 0.022750
= 0.954500
 X  2
f. P(| X   | 2)  P  
  2
 P  Z  1
 PZ  1  P(Z  1)

= 0.841345 - 0.158655
= 0.682689
 X  4
g. P(| X   | 4)  P  
  2
 P Z  2
 PZ  2  P(Z  2)

= 0.977250 - 0.022750
= 0.954500
 X  6
P(| X   | 6)  P  
 
h. 2
 P Z  3
 PZ  3  P(Z  3)

= 0.998650 - 0.001350 = 0.997300
2° Caso: Dado la probabilidad, encontrar los límites del evento:

𝑃(𝑍 < 𝑍𝛼 ) = 1 − 𝛼
Donde: (1 − 𝛼) = 𝑃𝑟𝑜𝑏𝑎𝑏𝑖𝑙𝑖𝑑𝑎𝑑 𝑐𝑜𝑛𝑜𝑐𝑖𝑑𝑎
45
Z∝ = Valor de Z hasta el cual hay una probabilidad acumulada igual a (1−∝),

se obtiene, haciendo una lectura invessa de la tabla N(0,1)
𝑃 (|𝑍| < 𝑍∝⁄2 ) = 1 − 𝛼
Z∝⁄ = Valores de Z entre los cuales hay una probabilidad acumulada igual a (1−∝),
2
se obtiene, haciendo una lectura invessa de la tabla N(0,1)
Ejemplo
Confianza Unilateral Bilateral
1-α α 𝑍∝ ∝⁄ 𝑍∝⁄2
2
0.90 0.10 1.28 0.050 1.645
0.95 0.05 1.64 0.025 1.960
0.99 0.01 2.33 0.005 2.576
46
8. Aproximación de la Binomial por la Normal (Teorema de De Moivre) :

Demostró que bajo determinadas condiciones (para n grande y tanto p como q
no estén próximos a cero) la distribución Binomial B(n, p) se puede aproximar
mediante una distribución normal con media np y varianza npq.
Esto es:
Si 𝑋 ~ 𝐵(𝑛, 𝑝) tal que n y p  0.5 con np  5 entonces
, y por tanto la variable
X  np
Z  es una N (0 , 1)  Teorema de Moivre
npq
Debemos tener en cuenta que cuanto mayor sea el valor de n, y cuanto más
próximo sea p a 0.5, tanto mejor será la aproximación realizada. Es decir, basta
con que se verifique
𝑛𝑝 ≥ 5 𝑦 𝑛𝑞 ≥ 5
gracias a esta aproximación es fácil hallar probabilidades binomiales, que para

valores grandes de n resulten muy laboriosos de calcular.
Hay que tener en cuenta que para realizar correctamente esta transformación de
una variable discreta (binomial) en una variable continua (normal) es necesario
hacer una corrección de continuidad agregando o restando 0.5 según convenga
para un evento específico, tal como se puede apreciar en los siguientes gráficos.
47
MANEJO DE TABLAS. CASOS MÁS FRECUENTES.

La distribución de la variable Z se encuentra tabulada
a. Aplicaciones de la distribución normal

Ejemplo 1. Los niveles de rendimiento de un proceso productivo diario se distribuyen
normalmente con  = 200 y  = 20. Si de esta población se selecciona un día al azar,
¿cuál es la probabilidad de que tenga un valor entre 170 y 230?
SOLUCIÓN
p(170 < x < 230) = ?
Se transforman o estandarizan los valores de xi en términos de z.
48
170  200 230  200

z170   1.5 z230   1.5
20 20
Luego: P(170 < x <230) = P(-1.50 < z < 1.50) = P(z < 1.5) – P(z < -1.5)
De la tabla: P(z < 1.50) = 0.9332

P(z < -1.5) = 0.0668
P(170 < X < 230) = P(z <1.5) – P(z< -1.5) = 0.9332 – 0.0668 = 0.8664
La probabilidad de que en un día seleccionado al azar el nivel de rendimiento del
proceso productivo este entre 170 y 230, es de 0.8664
176
Ejemplo 2. El departamento de carnes en un supermercado prepara sus paquetes
de 1 Kg. de carne molida, de manera que habrá variedad en los pesos, algunos con
un poco más y algunos con un poco menos de 1 Kg. Suponga que los pesos de
estos paquetes de 1 Kg. Tienen una distribución normal con una media de 1.00 Kg.
y una deviación estándar de 0.15 Kg.
a. ¿Qué proporción de paquetes pesará más de 1 Kg.?
b. ¿Qué proporción de paquetes pesará entre 0.95 y 1.05 Kg.?
c. ¿Cuál es la probabilidad de que un paquete de carne molida, seleccionado al
azar, pese menos de 0.8 Kg.?
SOLUCIÓN
𝑋~𝑁(1, 0.152 ), 𝑒𝑛𝑡𝑜𝑛𝑐𝑒𝑠 𝜇 = 1 𝐾𝑔. 𝑦 𝜎 = 0.15 𝐾𝑔.
a) 𝑃(𝑋 > 1) = 1 − 𝑃(𝑋 ≤ 1) = 1 − 𝑃(𝑍 ≤ 0) = 1 − 0.5 = 0.5
1.05−1 0.95−1
b) 𝑃(0.95 ≤ 𝑋 ≤ 1.05) = 𝑃(𝑋 ≤ 1.05) − 𝑃(𝑋 ≤ 0.95) = 𝑃 (𝑍 ≤ ) − 𝑃 (𝑍 ≤ )
0.15 0.15
= 𝑃(𝑍 ≤ 0.33) − 𝑃(𝑍 ≤ −0.33)

= 0.63056 − 0.0.63944
= 0.26112
49
0.8−1
c) 𝑃(𝑋 < 0.8) = 𝑃 (𝑍 < 0.15
) = 𝑃(𝑍 < −1.333) = 0.09121
Ejemplo 3. Las estaturas de los humanos son una de las muchas variables
aleatorias modeladas mediante la distribución normal Suponga que las estaturas
de los varones tienen una media de 170 cm., y una desviación estándar de 8 cm.
a. Qué proporción de todos los varones serán más altos que 160 cm.
b. ¿Cuál es la probabilidad de que un varón seleccionado al azar tenga una
estatura entre 167.6 cm y 180.3 cm?
SOLUCIÓN
𝑋~𝑁(170, 82 ), 𝑒𝑛𝑡𝑜𝑛𝑐𝑒𝑠 𝜇 = 170 𝑐𝑚. 𝑦 𝜎 = 8 𝑐𝑚.
160−170
a) 𝑃(𝑋 < 160) = 𝑃 (𝑍 < 8
) = 𝑃(𝑍 < −1.25) = 0.10565
b) 𝑃(167.6 ≤ 𝑋 ≤ 180.3) = 𝑃(𝑋 ≤ 180.3) − 𝑃(𝑋 ≤ 167.6) =

180.3 − 170 167.6 − 170
= 𝑃 (𝑍 ≤ ) − 𝑃 (𝑍 ≤ )
8 8
= 𝑃(𝑍 ≤ 1.2875) − 𝑃(𝑍 ≤ −0.3)
= 0.90104 − 0.38209
50
= 0.51895
Ejemplo 4. Un automóvil que viaja a 48 km/h, la distancia requerida para frenar

hasta detenerse tiene un distribución normal con una media de 15.2 metros y una
desviación estándar de 2.4 metros. Suponga que Ud. viaja a 48 km/h en un área
residencial y un automóvil vira abruptamente hacia su trayectoria a una distancia
de 18.3 metros.
a. Si aplica los frenos inmediatamente ¿cuál es la probabilidad de detenerse
completamente en 12.2 metros o menos?. ¿En 15.2 o menos?
b. Si la única manera de evitar una colisión es frenar hasta detenerse ¿Cuál es
la probabilidad de que Ud. evite la colisión?
SOLUCIÓN
𝑋~𝑁(15.2, 2.42 ), 𝑒𝑛𝑡𝑜𝑛𝑐𝑒𝑠 𝜇 = 15.2 𝑚. 𝑦 𝜎 = 2.4 𝑚.
12.2−15.2
a) 𝑃(𝑋 < 12.2) = 𝑃 (𝑍 < 2.4
) = 𝑃(𝑍 < −1.25) = 0.10565
15.2 − 15.2
𝑃(𝑋 < 15.2) = 𝑃 (𝑍 < ) = 𝑃(𝑍 < 0) = 0.5
2.4
18.3−15.2
b) 𝑃(𝑋 < 18.3) = 𝑃 (𝑍 < 2.4
) = 𝑃(𝑍 < 1.292) = 0.90176
51
Ejercicios propuestos 2
1. El tiempo de permanencia en centro de trabajo de los trabajadores de una

empresa puede modelarse con una distribución normal con media 8 horas 10
minutos, y una desviación estándar de 8 minutos.
a. ¿Cuál es la probabilidad de que el tiempo de permanencia de un trabajador
seleccionado al azar sea menor que 8 horas?
b. ¿Cuál es la probabilidad de que el tiempo de permanencia de un trabajador
seleccionado al azar se encuentre entre 8horas 00 minutos y 8 horas con
16 minutos?
c. ¿Cuál es el tiempo de permanencia en el trabajo que excede el 5% de los
trabajadores?
d. Si para ser considerado como candidato a recibir un ascenso solo se
consideran al 10 % de los trabajadores que permanecen mayor tiempo en el
centro de trabajo, ¿Cuál será el tiempo mínimo que un trabajador debería
permanecer en el centro de trabajo para ser considerado candidato para un
ascenso?.
Rpta. a) 0.10565, b) 0.66772, c) 503.16, d) 500.25
2. La resistencia a la tracción de un papel de embalaje está moldeada por una

distribución normal con media 35 Lib/pulg2, y una desviación estándar de 2
Lib/pulg2.
a. Cuál es la probabilidad de que la resistencia de una muestra sea menor que
40 Lib/pulg2?
b. Si las especificaciones requieren que la resistencia sea mayor que 30
Lib/pulg.2, ¿qué proporción de muestras será desechada?
Rpta. a) 0.9999997, b) 0.006210
3. El volumen que una máquina de llenado automático deposita en tasas de café

tiene una distribución normal con media 12.4 onzas de líquido y desviación
estándar de 0.1 onzas de líquido.
a. ¿Cuál es la probabilidad de que el volumen depositado sea menor que 12
onzas de líquido?
b. Si se desechan todas la tasas que tienen menos de 12.1 o más de 12.6 onzas
de líquido, ¿cuál es la proporción de latas desechadas?.
c. Calcule especificaciones que sean simétricas alrededor de la media, de
modo que se incluya al 99% de todas la tasas?
Rpta. a) 0.0000317, b) 0.022750, c) LS = 12.66 y LI = 12.14
4. El tiempo de reacción de un conductor a un estímulo visual tiene una distribución

normal con media 0.4 segundos y una desviación estándar de 0.05 segundos.
a. ¿Cuál es la probabilidad de que el conductor reaccione en más de 0.5
segundos?
b. ¿Cuál es la probabilidad que el tiempo de reacción esté entre 0.4 y 0.5
segundos?
c. ¿Cuál es el tiempo de reacción que se espera exceder el 90% de la veces?
52
Rpta. a) 0.0228, b) 0.4772, c) 0.34
5. Los tiempos de vida de una unidad de cierta marca de teléfono móviles sigue
una distribución normal de media 1.500 horas y desviación de 200 horas. ¿Cuál
debe ser el tiempo de garantía de estos móviles si el fabricante desea que sólo
se presenten el 5% de las averías dentro de este tiempo?
Rpta. 1171
6. Si la demanda mensual de un cierto producto puede representarse mediante una

variable Normal de media 200 unidades y desviación típica 40, ¿cuál debe ser el
inventario disponible al principio de cada mes para asegurar que, al menos el
95% de las veces, las existencia no se agotarán?
Rpta. 265.8
7. Un artículo publicado en American Demographics afirma que la cantidad de

personas que van de compras los fines de semana es más del doble que durante
la semana. No solo eso, sino que gastan más en sus compras los sábados y
domingos. Suponga que la cantidad de dinero gastada en los centros
comerciales entre las 4 y 6 pm tiene un distribución normal con una media de
300 soles y una deviación estándar de 50 soles. Se elige al azar a un comprador
entre las 4 y 6 pm y se le pregunta acerca de sus patrones de gasto.
a. ¿Cuál es la probabilidad de que haya gastado más de 325 soles?
b. ¿Cuál es la probabilidad de que haya gastado entre 325 y 375 soles?
c. Si se elige al azar dos compradores, ¿Cuál es la probabilidad de que
ambos hayan gastado más de 375 soles?
Rpta. a) 0.3085, b) 0.24173, c) 0.004463
8. El valor medio del peso de determinada marca de cereal, el año pasado, fue
0.297 kg (10.5 oz), con una desviación estándar de 0.024 kg. Suponiendo que la
distribución es normal, determinar el porcentaje de los datos que cae abajo del
límite inferior de la especificación, de 0.274 kg. (Nota: Como la media y la
desviación estándar se determinaron en una cantidad grande de pruebas
durante el año, se considera que son estimaciones válidas de los valores
poblacionales).
Rpta. 0.1689
9. Si el tiempo promedio para limpiar un cuarto de hotel es 16.0 min, y la desviación

estándar es 1.5 min. Suponiendo que los datos tienen distribución normal.
a. ¿Qué porcentaje de cuartos se limpiarán en menos de 13.0 min?
b. ¿Qué porcentaje de cuartos se limpiarán en más de 20.0 min?
c. ¿Qué porcentaje de cuartos tardarán entre 13.0 y 20.5 min en su limpieza?
Rpta. a) 0.0228, b)0.00383, c) 0.97590
10. Un fabricante de cereal instantáneo desea que 1.5% de su producto pese menos
que la especificación de 0.567 kg (1.25 lb). Si los datos tienen distribución
normal, y la desviación estándar de la llenadora de cereal es 0.018 kg, ¿qué
peso medio se requiere?
Rpta. 𝜇 = 0.606
11. Es común que las aerolíneas y hoteles concedan reservaciones en exceso para
reducir pérdidas por personas que no se presentan. Suponga que el registro de
un hotel muestran que, en promedio 10% de sus probables huéspedes no
reclaman su reservación. Si el hotel acepta 215 reservaciones y sólo hay 200
53
habitaciones en el hotel, ¿Cuál es la probabilidad de que los huéspedes que

llegan a reclamar su reservación reciban la habitación?
Rpta. X~N° de clientes que ocupan su habitación reservada, X ~ B(215, 0.9), P(X=200)=0.03174
Utilizando la Distribución normal con µ=np=193.5 y σ2=npq=19.35, como una
aproximación de la Binomial, P(X=200) = 0.03052
12. Una pequeña ciudad es abastecida de agua cada dos días. El consumo en
volumen de agua (cada dos días) tiene una distribución normal.
a. Determine la media y varianza de la distribución si se sabe que el 0.62%
del consumo esal menos de 22500 litros y que el 1.79% del consumo es
a lo más 17900 litros.
b. Hallar la capacidad del tanque de agua de la pequeña ciudad para que
sea solo el 0.01 la probabilidad de que en el período de dos días el agua
no sea suficiente para satisfacer toda la demanda.
Rpta. a) µ = 20,000 litros, σ=1000 litros, b) 22,239 litros
13. Un gerente viaja viaja diariamente en automóvil de su casa a su oficina y ha

encontrado que el tiempo empleado en el viaje sigue una distribución normal con
media de 35.5 minutos y desviación estándar de 3 minutos. Si sale de su casa
todos los días a las 8:20 Am. Y debe estar en su oficina a las 9 am.
a. ¿Cuál es la probabilidad de que llegue tarde un día determinado?
b. ¿Qué probabilidad hay de que llegue a tiempo a la oficina 3 días

consecutivos?. Suponga independencia.
Rpta. a) 0.0668, b) (0.9332)3
14. Los puntajes de una prueba de aptitud académica están distribuidos

normalmente con una media de 60 y una desviación estándar de 10 puntos.
a. Si el 12.3% de los alumnos con mayor puntaje reciben el calificativo A, y

el 20% de los alumnos con menor nota reciben calificativo C, calcular el
mínimo puntaje que debe tener un alumno para recibir en calificativo A y
el máximo puntaje que debe tener un alumno para recibir una C.
b. Si el resto de los alumnos recibe el calificativo B y si el total de alumnos

es igual a 90, ¿Cuántos alumnos recibieron el calificativo de A, B y C?
Rpta. a) 𝜇 = 60, 𝜎 = 10, b) A={X > 71.6}, C = {X < 51.6}
15. Una pieza es considerada defectuosa y por lo tanto rechazada si su diámetro es

mayor que 2.02 cm, o es menor que 1.98 cm.. Suponga que los diámetros tienen
distribución normal con media 2 cm. Y desviación estándar 0.01 cm.
a. Calcular la probabilidad de que una pieza sea rechazada
b. ¿Cuál es el número esperado de piezas rechazadas de un lote de 10,000

piezas?
c. Si se escogen 4 piezas al azar, ¿Cuál es la probabilidad de que dos de

ellos sean defectuosos?
d. Se necesitan 4 piezas sin defecto para una máquina. Si estos se prueban

uno a uno sin reposición, ¿Cuál es la probabilidad de que la cuarta pieza
buena sea la sexta probada?
Rpta. a) p=0.0456, b) np = 456, c) 𝐶24 𝑝2 (1 − 𝑝)2 , d) 𝐶35 𝑝2 (1 − 𝑝)4
54
16. Un exportador recibe sacos de café de un quintal al mismo tiempo de dos

proveedores A (Jaen) y B (San Ignacio). El 40% lo recibe de A y el resto de B.
El porcentaje de granos con impurezas por saco es una variable aleatoria cuyo
modelo de probabilidad es normal con media y desviación estándar respectivas
de 6% y 2% para A, y de 8% y de 3% para B.
Si el exportador selecciona un saco al azar
a. ¿Qué probabilidad hay de que el porcentaje de granos con impurezas
supere el 10%?
b. Si encuentra que el porcentaje de granos con impurezas supera el 10%,
¿qué probabilidad hay que provenga de Jaen?
Rpta. a) P=0.4xP[Z>2]+0.6xP[Z>0.67]=0.4x0.0228+0.6x0.2514=0.15996
b) 0.4x0.0228/0.15996
17. El monto de consumo por cliente que registra una cajera de un supermercado
en un día cualquiera es una variable aleatoria que tiene distribución normal con
media S/.200 y desviación estándar S/.50.
a. En este supermercado sólo el 5% de los clientes se considera un excelente cliente y
por tanto como promoción puede recibir un 10% de descuento, a partir de que
consumo un cliente se beneficiará con la promoción?
b. Actualmente el 30% de clientes tiene un consumo considerado como mínimo. La
empresa considera que en base a la promoción en unos meses solo el 20% de los
clientes consumirá por debajo de ese monto. ¿Cuánto dinero adicional tendrá que
gastar cada cliente para que esto se cumpla?
Rpta. X~N(200, (50)2), a) k tal que P(X>k)=0.05, k = 282.24, b) P[X<c]= 0.30, c=173.78. Sea d=dinero adicional,
Y=X+d, Y~N(2000+d, (50)2), hallar d tal que P[Y<174]=0.20, d=15.86
18. Suponga que el gasto de consumo por persona en un restaurante se distribuye

normalmente con una desviación estándar igual a $5. Si se sabe que el 15.87%
de los clientes han gastado más de $15 y que 112 personas gastaron menos de
$7.1. ¿Cuántas personas consumieron en el restaurante?
Rpta. 𝜇 = $10, 400 𝑝𝑒𝑟𝑠𝑜𝑛𝑎𝑠
19. Los pesos de los posibles usuarios de un ascensor constituyen una población
cuya distribución es normal con una media de 70 Kgr. Y una desviación estándar
de 10 Kgr.
a. ¿Qué peso máximo debería poder soportar el ascensor de modo que sólo el 1% de
las ocasiones el peso de 4 personas supere el peso máximo?
b. Si el ascensor soporta 585 Kg., ¿Cuántas personas a la vez pueden entrar en el
ascensor, de manera que sea 0.0668 la probabilidad de que el peso no supere el
máximo permitido?
Rpta. a) k=326.6 Kg., b) n = 9
20. Suponga que el peso de las botellas vacías de cerveza tienen un peso con
distribución normal con media 0.4 Kg. y desviación estándar 0.01 Kg. El peso del
líquido que se depositan en las botellas tiene una distribución normal con media
0.7 Kg. Y desviación estándar 0.05 Kg. Los pesos de las caja vacías donde se
colocan las botellas tienen una distribución normal con media 2 Kg. Y desviación
estándar 0.05 Kg. Si cada caja contiene 12 botellas llenas de cerveza:
a. ¿Cuál es la probabilidad de que el peso de una caja de 12 botellas llenas pese

menos de 15 Kg.?
b. Si se tienen 10 cajas llenas, ¿Cuál es la probabilidad de que 8 de ellas pesen
menos de 15 Kg.
Rpta. a) X=Peso total de la caja ~ N(15.2, (0.6139218)2), p = P(X<15)=0.3723 b) 𝐶810 𝑝8 (1 − 𝑝)2 = 0.006544
55
2° Unidad: Teoría de estimación y Prueba de hipótesis

1. Distribuciones muestrales
a. Distribución de la media muestral.
Definición 1. Si {X1, X2, X3, …, Xn} constituye una muestra aleatoria de

una población infinita con media 𝜇 y Varianza 𝜎 2 , la media aritmética
es una variable aleatoria cuya distribución de muestreo es la distribución
𝜎2
normal valor esperado 𝐸(𝑥̅ ) = 𝜇 y Varianza 𝑉(𝑥̅ ) = 𝑛
Ejemplo:
Sea una población de N = 5 pequeñas empresas. Ahora supongamos

que el tiempo (en años) que vienen funcionando cada una de ellas son:
6, 8, 10, 12 14 años.
Entonces sus parámetros son:
Media poblacional:  = 10 años

Varianza poblacional: 2 = 8 años2
Desviación estándar:  = 2,83 años
Si se calculan la media aritmética y la desviación estándar de las medias aritméticas

obtenidas de todas muestras de tamaño 2, que es posible extraer con reposición de
esta población, se tendría la siguiente información: (Número de muestras posibles
utilizando un muestreo con reemplazo y teniendo en cuenta el orden: 𝑚 = 𝑁 2 =
52 = 25 )
2° empresa
6 años 8 años 10 años 12 años 14 años
1° empresa
6 años 6y6 6y8 6 y 10 6 y 12 6 y 14
8años 8y6 8y8 8 y 10 8 y 12 8 y 14
10 años 10 y 6 10 y 8 10 y 10 10 y12 10 y 14
12 años 12 y 6 12 y 8 12 y 10 12 y 12 12 y 14
14 años 14 y 6 14 y 8 14 y 10 14 y 12 14 y 14
La media muestral de cada una de las 25 muestras son, las siguientes:
Media x 6 años 8 años 10 años 12 años 14 años

6 años 6 7 8 9 10
8 años 7 8 9 10 11
10 años 8 9 10 11 12
12 años 9 10 11 12 13
14 años 10 11 12 13 14
56
Presentando en una tabla de frecuencias la distribución de la media muestral
La distribución de las medias muestrales calculadas para muestras del mismo tamaño n
tiene tres propiedades:
Media Número de Proporción

muestral muestras: ni P(x)
6 1 0.04 0.24 -4 0.64
7 2 0.08 0.56 -3 0.72
8 3 0.12 0.96 -2 0.48
9 4 0.16 1.44 -1 0.16
10 5 0.2 2 0 0
11 4 0.16 1.76 1 0.16
12 3 0.12 1.44 2 0.48
13 2 0.08 1.04 3 0.72
14 1 0.04 0.56 4 0.64
Suma 25 1 10 4
1. La media de las medias muestrales es igual a la media de la población. 𝐸(𝑥̅ ) = 𝜇

Ejemplo: La media aritmética de las medias muestrales es:
μ x  10 años  μ
2. La varianza de las medias muestrales es igual a la varianza de la población dividida por el
𝜎2
tamaño muestral. 𝑉(𝑥̅ ) =
𝑛
8 𝜎2
Ejemplo: La varianza de las medias muestrales es: 𝜎𝑥2 = 4 = 2 = 𝑛
𝜎2 𝜎
Además la desviación estándar será: 𝜎𝑥̅ = √𝜎𝑥̅2 = √ =
𝑛 √𝑛
La desviación estándar de las medias muestrales es conocida como error estándar (o error
𝜎2
típico). 𝜎𝑥̅ = √𝜎𝑥̅2 = √ = √4 𝑎ñ𝑜𝑠 2 = 2 𝑎ñ𝑜𝑠
𝑛
3. Si se cumple que n es suficientemente grande, la forma de la distribución muestral es muy

cercana a lo normal, aun cuando la población de origen no siga una distribución normal.
57
Definición 2. Si {X1, X2, X3, …, Xn} constituye una muestra aleatoria sin
reemplazo de una población finita de tamaño N con media 𝜇 y Varianza
𝜎 2 , entonces la media aritmética es una variable aleatoria cuya distribución
de muestreo es la distribución normal valor esperado 𝐸(𝑥̅ ) = 𝜇 y Varianza
𝜎2 𝑁−𝑛
𝑉(𝑥̅ ) = ( 𝑁−1)
𝑛
Ejemplo:
Sea una población de N = 5 pequeñas empresas. Ahora supongamos que

el tiempo (en años) que vienen funcionando cada una de ellas son: 6, 8,
10, 12 14 años.
Entonces sus parámetros son:
Media poblacional:  = 10 años

Varianza poblacional: 2 = 8 años2
Desviación estándar:  = 2,83 años
Si se calculan la media aritmética y la desviación estándar de las medias aritméticas

obtenidas de todas muestras de tamaño 2, que es posible extraer sin reposición y sin
considerar el orden (Número de muestras posibles utilizando un muestreo sin reemplazo
y sin considerar el orden en cuenta el orden: 𝑚 = (𝑁
𝑛
) = (52) = 10 )
2° empresa
6 años 8 años 10 años 12 años 14 años
1° empresa
6 años 6y8 6 y 10 6 y 12 6 y 14
8años 8 y 10 8 y 12 8 y 14
10 años 10 y12 10 y 14
12 años 12 y 14
14 años
La media muestral de cada una de las 10 muestras son, las siguientes:
Media x 6 años 8 años 10 años 12 años 14 años

6 años 7 8 9 10
8 años 9 10 11
10 años 11 12
12 años 13
14 años
Presentando en una tabla de frecuencias la distribución de la media muestral

58
La distribución de las medias muestrales calculadas para muestras del mismo tamaño n
tiene tres propiedades:
Media Número de Proporción

muestral muestras: ni P(x)
7 1 0.1 0.7 -3 0.9
8 1 0.1 0.8 -2 0.4
9 2 0.2 1.8 -1 0.2
10 2 0.2 2 0 0
11 2 0.2 2.2 1 0.2
12 1 0.1 1.2 2 0.4
13 1 0.1 1.3 3 0.9
Suma 10 1 10 3
4. La media de las medias muestrales es igual a la media de la población. 𝐸(𝑥̅ ) = 𝜇

Ejemplo: La media aritmética de las medias muestrales es:
μ x  10 años  μ
5. La varianza de las medias muestrales es igual a la varianza de la población dividida por el
𝜎 2 𝑁−𝑛
tamaño muestral. 𝑉(𝑥̅ ) = ( )
𝑛 𝑁−1
8 5−2 𝜎 2 𝑁−𝑛
Ejemplo: La varianza de las medias muestrales es: 𝜎𝑥̅2 = 3 = 2 (5−1) = (
𝑛 𝑁−1
)
𝜎2 𝑁−𝑛
Además la desviación estándar será: 𝜎𝑥̅ = √𝜎𝑥̅2 = √ (𝑁−1)
𝑛
La desviación estándar de las medias muestrales es conocida como error estándar (o error
𝜎2 𝑁−𝑛
típico). 𝜎𝑥̅ = √𝜎𝑥̅2 = √ ( ) = √3 𝑎ñ𝑜𝑠 2 = 1.73205 𝑎ñ𝑜𝑠
𝑛 𝑁−1
Definición 3. Si {X11, X12, X13, …, X1n1} y {X21, X22, X23, …, X2n2} constituyen
dos muestras aleatorias independientes, donde la primera muestra n 1
constituye una muestra aleatoria de una población finita con media 𝜇1 y
Varianza 𝜎12 y la otra n2 constituye una muestra aleatoria de una población
infinita con media 𝜇2 y Varianza 𝜎22 entonces la diferencia de medias
aritméticas es una variable aleatoria cuya distribución de muestreo es la
59
distribución normal valor esperado 𝐸(𝑋̅1 − 𝑋̅2 ) = 𝜇1 − 𝜇2 y Varianza

𝜎12 𝜎22
𝑉(𝑥̅ ) = +
𝑛1 𝑛2
Aplicaciones de la distribución de las medias muestrales
Las distribuciones muestrales se aplican en el mismo sentido que la

distribución normal.
Ejemplo: El número promedio de años de experiencia de los profesionales

de un Banco es de 10 años con una desviación estándar de 6 años. Si se
toma una muestra de 64 empleados. ¿El 95 por ciento de muestras, que se
distribuyen simétricamente alrededor de la media poblacional (de las medias
muestrales), entre qué medias muestrales se encontrará?
𝑃(−𝑎 < 𝑥̅ < 𝑎) = 0.95
Las áreas en cada una de las colas es = (1 – 0.95) / 2 = 0.025
Revisando en la tabla, el área de 0.025 en la cola izquierda se encuentra

entre:
-  y z = -1.96
Por simetría, el área de 0.025 en la cola de la derecha se encuentra entre:

z = 1.96 y 
Entonces, el límite inferior del 95 por ciento de medias muestrales se

encontrará en:
σ 6
li  μ  1.96 *  10  1.96 *  10  1.96 * 0.75  10  1.47  8.53
n 64
Y, el límite superior se encontrará en:
σ 6
ls  μ  1.96 *  10  1.96 *  10  1.96 * 0.75  10  1.47  11.47
n 64
Rpta. Entre 8.53 y 11.47 años podría encontrarse la media poblacional de la

edad de los trabajadores del banco con un coeficiente de confianza de 0.95.
Note que no hablamos de probabilidad sino de coeficiente de confianza, puesto
que ya es un intervalo en particular.
60
¿El 99 por ciento de muestras, que se distribuyen simétricamente alrededor de

la media de medias muestrales, entre qué intervalo se encontrará?
¿El 90 por ciento de muestras, que se distribuyen simétricamente alrededor de

la media de medias muestrales, entre qué intervalo se encontrará?
b. Distribución de la proporción muestral

Supongamos que se ha seleccionado una muestra aleatoria de tamaño n. Para
i = 1, …, n, definamos
Consideremos la suma de las Xi; esto es: X = X 1 + X2 + … + Xn lo cual

representa el número de elementos en la muestra que poseen la característica.
𝑋 ∑𝑛
𝑖=1 𝑥𝑖
La media muestral será: 𝑥̅ = = =𝑝 , será igual a la proporción de
𝑛 𝑛
elementos en la muestra que presentan la característica.
Dado que los N elementos en la muestra tienen la misma probabilidad de ser

incluido en la muestra y que existen A elementos en la población que presentan
la característica, se tiene que
𝐴
𝑃(𝑥𝑖 = 1) = =𝑃
𝑁
Si X denota el número de elementos en la muestra que presentan la
característica y si el tamaño de la población es suficientemente grande con
𝒏
relación a la muestra (𝑵 < 𝟎. 𝟎𝟓) entonces la distribución de X es
aproximadamente una Binomial con parámetros n y p.
De aquí en adelante se supondrá que el tamaño de la población es

suficientemente grande en comparación con el tamaño de muestra (que la
𝒏
muestra representa menos del 5% de la población, es decir que 𝑵 < 𝟎. 𝟎𝟓
, en consecuencia se asumirá que la distribución de X es Binomial, con
valor esperado y varianza dadas por:
𝐸(𝑋) = 𝑛𝑃 y 𝑉(𝑋) = 𝑛𝑃𝑄 , donde 𝑄 = 1 − 𝑃 , además 𝐷𝐸(𝑋) = √𝑛𝑃𝑄
Dado a que 𝑋̅, la proporción de elementos en la muestra que presentan la

característica, es igual a 𝑋⁄𝑛 se deduce que:
𝑬(𝒙) 𝑫𝑬(𝒙) 𝑷𝑸
̅) =
𝑬(𝒙 = 𝑬(𝒑) = 𝑷 y ̅) =
𝑫𝑬(𝑿 = √ 𝒏 = 𝑫𝑬(𝒑)
𝒏 𝒏
Si n es suficientemente grande, entonces la variable aleatoria

61
𝑝−𝑃
𝑍= 𝑡𝑖𝑒𝑛𝑒 𝑎𝑝𝑟𝑜𝑥𝑖𝑚𝑎𝑑𝑎𝑚𝑒𝑛𝑡𝑒 𝑢𝑛𝑎 𝑑𝑖𝑠𝑡𝑟𝑖𝑏𝑢𝑐𝑖ó𝑛 𝑁(0, 1)
√𝑃𝑄
𝑛
Si la población es finita de tamaño N y el muestreo es sin reposición, el error

estándar (Desviación estándar de la Hipergeométrica) es:
𝑃𝑄 𝑁−𝑛
𝐷𝐸(𝑝) = 𝜎𝑝 = √ ( )
𝑛 𝑁−1
Note que si N es suficientemente grande con respecto a n , (𝑛⁄𝑁 < 0.05)

𝑁−𝑛
entonces el factor de corrección ( 𝑁−1 ) tiende a 1.
Para encontrar probabilidades suficientemente aproximadas al valor verdadero

podemos usar el factor de corrección por continuidad (1⁄2𝑛) del siguiente modo:
1
(𝑐 − 2𝑛) − 𝑃
𝑃(𝑝 ≤ 𝑐) ≅ 𝑃 [𝑍 ≤ ]
𝜎𝑝
Finalmente que las dos expresiones de Z :
𝑋 − 𝑛𝑃 𝑝−𝑃
𝑍= =
√𝑛𝑃𝑄 √𝑃𝑄
Donde X es Binomial y 𝑝 es la proporción de éxitos en la muestra, tienen

Distribución Normal estándar: N(0, 1)
Ejemplo
En proceso de auditoría, el porcentaje de registros con error es 4% . Para controlar

el proceso se revisan periódicamente los registros realizados.
a. Calcular la probabilidad de que una muestra aleatoria de 150 unidades

revisadas se encuentren 6% de defectuosos
b. Si el proceso de registros se detiene al contar por lo menos 5% de registros

mal efectuados al revisar muestras aleatorias de 100 registros cada vez. Cuál
es la probabilidad de que el proceso de registro continúe si realmente hay 6%
de registros mal efectuados del total
SOLUCIÓN
𝑋 𝑋
Sea 𝑝 = 𝑛 = 150
, la proporción de registros mal realizados en la muestra de
150 registros, donde X, el número de registros mal realizados en la muestra
de 150 registros es 𝐵(150, 0.04) .
Si se utiliza el modelo exacto para ejecutar el cálculo se tiene:

𝑋 9
𝑃[𝑝 = 0.06] = 𝑃 (150 = 150
) = 𝑃(𝑋 = 9) = (150
9
)(0.04)9 (0.96)141 = 0.0688
62
Si se utiliza la distribución normal como un modelo aproximado se tiene:
𝑃(𝑝 = 0.06) = 𝑃(𝑋 = 9) = 𝑃(8.5 ≤ 𝑋 ≤ 9.5)
8.5 − 150(0.04) 𝑋 − 𝑛𝑃 9.5 − 150(0.04)

≅ 𝑃[ ≤ ≤ ]
√150(0.04)(0.96) √𝑛𝑃𝑄 √150(0.04)(0.96)
6.5 − 6 9.5 − 6
≅ 𝑃[ ≤𝑍≤ ] = 𝑃[1.04 ≤ 𝑍 ≤ 1.46] = 0.0771
2.4 2.4
Otro método, es usar la propia distribución muestral de la proporción:
1 1
𝑃(𝑝 = 0.06) = 𝑃 (0.06 − ≤ 𝑝 ≤ 0.06 + )
2(150) 2(150)
= 𝑃(0.0567 ≤ 𝑝 ≤ 0.0633)
0.0567 − 0.04 0.0633 − 0.04

≅𝑃 ≤𝑍≤ = 𝑃[1.04 ≤ 𝑍 ≤ 1.46] = 0.0771
√0.04 × 0.96 √0.04 × 0.96
[ 150 150 ]
𝑋
c. Sea 𝑝 = 100 , pa proporción de registros mal realizados en la muestra de 100
registros, donde X es el número de registros mal realizados en la muestra de 100
registros, en este caso; 𝐵(100, 0.06). Entonces
𝑃[𝑝 > 0.05⁄𝑃 = 0.06] = 1 − 𝑃[𝑝 ≤ 0.05⁄𝑃 = 0.06]
0.05 − 0.06
=1− 𝑃 𝑍 ≤
√0.06 × 0.94
[ 100 ]
= 1 − 𝑃[𝑍 ≤ −0.421]
= 1 − 0.33688
= 0.66312
Definición 3. Si {X11, X12, X13, …, X1n1} y {X21, X22, X23, …, X2n2} constituyen
dos muestras aleatorias independientes de tamaños n1 y n2, seleccionadas
respectivamente de dos poblaciones independientes de Bernoulli
𝑩(𝟏, 𝑷𝟏 ) y 𝑩(𝟏, 𝑷𝟐 ) donde 𝑃1 y 𝑃2 son las proporciones poblacionales de
éxito respectivos. Sean las proporciones muestrales
𝑛1 𝑋 𝑛2 𝑋
∑𝑖=1 1𝑖 𝑋1 ∑𝑖=1 2𝑖 𝑋2
𝑝1 = = 𝑝2 = = , Donde: 𝑋1 ~ 𝐵(𝑛1 , 𝑃1 ) y 𝑋2 ~ 𝐵(𝑛2 , 𝑃2 )
𝑛1 𝑛1 𝑛2 𝑛2
Entonces la diferencia de proporciones (𝑝1 − 𝑝2 ) es una variable aleatoria

𝑃1 𝑄1 𝑃1 𝑃2
con valor esperado 𝐸(𝑝1 − 𝑝2 ) = 𝑃1 − 𝑃2 y Varianza 𝑉(𝑥̅ ) = +
𝑛1 𝑛2
63
Para n1 y n2 suficientemente grandes, la variable aleatoria
(𝑝1 − 𝑝2 ) − (𝑃1 − 𝑃2 )
𝑍=
𝑝1 𝑞1 𝑝2 𝑞2
√( 𝑛 + 𝑛 )
1 2
Sigue una distribución aproximadamente normal estándar 𝑁(0, 1)
Si se supone que 𝑃1 = 𝑃2 , entonces podemos obtener la proporción mancomunada

𝑋1 +𝑋2
𝑝 definida como: 𝑝 = 𝑦 𝑞 = 𝑝(1 − 𝑝) con la cual
𝑛1 +𝑛2
2. Estimación de parámetros
Parámetro: Es una característica poblacional o dicho de otra manera, es una
función de todos los elementos de la población. Tiene un valor fijo y
generalmente desconocido. Se representa por una letra mayúscula o un
símbolo griego. Entre los más importantes tenemos:
N
x i
Media Poblacional (  ):  i 1
N
N
 (x i  )2
Varianza poblacional ( 2 ) :  2  i 1
A
Proporción poblacional (P ) P ,
N
donde
A = N° de elementos en la población que tienen la característica en estudio
N = N° de elementos en la población
Estimador. El estimador es una función de los valores muestrales que sirve para
hacer estimaciones acerca del valor del parámetro. Para cada parámetro existe al
menos un estimador. A continuación presentamos un conjunto de parámetros con
sus correspondientes estimadores.
Parámetro Estimador
N n
Media poblacional x i Media muestral x i

 i 1
x i 1
N n
N n
Varianza
poblacional
 (x i  )2 Varianza muestral  (x i  x) 2
2  i 1
s2  i 1
N n 1
Proporción A Proporción a
P p
poblacional N muestral n
64
La Estimación de parámetros consiste básicamente en asignar un valor o conjunto

de posibles valores al parámetro desconocido, del cual se desea conocer un valor
aproximado mediante la utilización de estimadores específicos en función de la
información muestral. La estimación de parámetros puede ser de dos tipos:
1) Estimación por punto.

2) Estimación por intervalo.
a. Estimación por punto

Cuando la estimación de los parámetros corresponde a sus respectivos
estadísticos; los que se calculan a partir de los datos de la muestra.
Ejemplo:
1. Suponga que un investigador, interesado en obtener una estimación del nivel
promedio del ingreso familiar en cierta población de seres humanos, toma una
muestra de 10 individuos que arroja una media de 𝑥̅ = 22. Se supone que la
variable de interés sigue una distribución aproximadamente normal. Aplicando la
estimación puntual se infiere que: 𝜇̂ = 22
2. En la última encuesta sobre consumo de drogas se encontró que el 85 por ciento
de las personas entre 12 y 64 años, han consumido cigarrillos alguna vez en su
vida. A partir de este resultado entonces: 𝑃̂ = 0.85
b. Estimación por intervalo

Consiste en determinar dos valores numéricos l1 y l2 ,que con un cierto grado de
confianza se espera que incluyan al parámetro. Este puede corresponder a una
variable cuantitativa (la media aritmética, por ejemplo) o cualitativa (proporción).
Estos dos valores numéricos permiten construir un intervalo de confianza.

65
i. Estimación confidencial de la media poblacional (  )

Se construye un intervalo de confianza que se espera que contenga al parámetro
con un nivel de confianza determinado por el investigador.
σ σ
z z
n n
x1
x2
x3
x4
x5
x6
xn
Intervalo de confianza para la media (cuando se conoce la desviación estándar

de la población)
Media poblacional = media de la muestra  error de precisión

Donde:
error de precisión = coeficiente de confiabilidad x error estándar

coeficiente de confiabilidad = z, t (ó Z , tn 21 ) correspondientes a un nivel de
n
confianza dado (1 - α).
66
Intervalo de confianza para la media
a. Cuando la varianza 𝝈𝟐 es conocida
Sea X1, X2, …., Xn una muestra aleatoria de tamaño n seleccionada de una
población normal (o de cualquier otro tipo, siendo n grande) con media 𝜇 y
varianza 𝜎 2 supuestamente conocida.
El mejor estimado puntual de 𝜇 es la media muestral 𝑥̅ .
Se puede utilizar la distribución muestral de la media 𝑥̅ para determinar el
intervalo de confianza del parámetro 𝜇.
Si la población es normal 𝑁(𝜇, 𝜎 2 ), entonces la distribución de 𝑥̅ en normal
𝑁(𝜇, 𝜎 2 ⁄𝑛) para cualquier valor de 𝑛 (𝑛 ≥ 2).
Si la población No es Normal, pero tiene media 𝜇. y varianza 𝜎 2 finitas,
entonces, entonces, siempre que el tamaño n de la muestra sea
suficientemente grande (𝑛 ≥ 30), por el teorema del límite central, la
distribución de 𝑥̅ es aproximadamente normal 𝑁(𝜇, 𝜎 2 ⁄𝑛).
Por lo tanto, según el caso, la distribución de la variable aleatoria
𝑥̅ − 𝜇
𝑍=
𝜎⁄√𝑛
67
Es exactamente (o aproximadamente) Normal 𝑁(0, 1)

Por lo tanto podemos escribir:
𝑃(−𝑍𝛼⁄2 ≤ 𝑍 ≤ 𝑍𝛼⁄2 ) = 1 − 𝛼
Reemplazando el valor de Z tenemos
𝑥̅ − 𝜇
𝑃 (−𝑍𝛼⁄2 ≤ ≤ 𝑍𝛼⁄2 ) = 1 − 𝛼
𝜎⁄√𝑛
De donde resulta,
𝜎 𝜎
𝑃 (𝑥̅ −𝑍𝛼⁄2 ≤ 𝜇 ≤ 𝑥̅ + 𝑍𝛼⁄2 ) = 1 − 𝛼
√𝑛 √𝑛
De donde se deduce que el intervalo aleatorio
𝜎 𝜎
𝑥̅ − 𝑍∝⁄2 ≤ 𝜇 ≤ 𝑥̅ + 𝑍∝⁄2
√𝑛 √𝑛
tiene una probabilidad de confianza (1. ∝) de contener el parámetro 𝜇 .
Note que en la interpretación se dice que es el intervalo que puede contener al

parámetro con un coeficiente 1-α, mas no que el parámetro está contenido en el
intervalo, puesto que el intervalo es aleatorio en cambio el parámetro es constante.
Ejemplo (Caso se conoce la desviación estándar Poblacional σ ): Para

determinar el peso promedio en una población, un investigador observó el peso
de 25 personas. Encontró que la media aritmética del peso fue 62 kg.
Supongamos que se sabe que la desviación estándar del peso en dicha
población es 14.5 kg. Asumiendo que dicha variable sigue una distribución
normal. Obtenga un intervalo de 0.95 de confianza para peso promedio de la
población de donde provienen las 25 personas.
n = 25
x = 62
z = 1.96
 = 14.5
=?
14.5
  62  1.96
25
UNIVERSIDAD SAN PEDRO VICERRECTORADO DE INVESTIGACIÓN
Dirección General de Investigación
μ = 62 ± 5.7
μ = 56.3 a 67.7 o también 56.3 ≤ μ ≤ 67.7
Esto indica que, con un coeficiente de confianza del 0.95, el intervalo entre 56.3 y
67.7 Kgr, podría estar conteniendo al Peso promedio de la población μ.
Nota: Si la muestra aleatoria de tamaño n es escogida sin reposición de una
población finita de tamaño N, entonces
Si 𝑛 ≥ 30 , la variable aleatoria
𝑥̅ − 𝜇
𝑍′ =
2
√𝜎 (𝑁 − 𝑛)
𝑛 𝑁−1
Tiene una distribución aproximadamente normal estándar 𝑁(0, 1), con lo cual el
intervalo de confianza queda de la siguiente manera
𝜎2 𝑁 − 𝑛 𝜎2 𝑁 − 𝑛
𝑥̅ − 𝑍∝⁄2 √ ( ) ≤ 𝜇 ≤ 𝑥̅ + 𝑍∝⁄2 √ ( )
𝑛 𝑁−1 𝑛 𝑁−1
Ejemplo 2:
El gasto mensual en consumo de las familias de una gran ciudad es una variable
aleatoria con distribución aproximadamente normal. De estudios anteriores se conoce
que la desviación estándar de dicha variable es 𝜎 = 200 𝑠𝑜𝑙𝑒𝑠. Actualmente se
dispone de una muestra de 81 familias en donde se tiene un gasto promedio de 650
nuevos soles y deseamos obtener un intervalo de confianza de 0.95 para el gasto
mensual promedio en consumo de las familias de la ciudad en referencia.
SOLUCIÓN
𝜎 = 200 𝑠𝑜𝑙𝑒𝑠
𝑥̅ = 650 𝑠𝑜𝑙𝑒𝑠
Confianza: (1 − 𝛼) = 0.95
Desvío normal: 𝑍𝛼⁄2 = 1.96
𝜎 𝜎
𝑥̅ − 𝑍∝⁄2 ≤ 𝜇 ≤ 𝑥̅ + 𝑍∝⁄2
√𝑛 √𝑛
200 200
650 − 1.96 ≤ 𝜇 ≤ 650 + 1.96
√81 √81
606.4 ≤ 𝜇 ≤ 693.6
b. Cuando la varianza 𝝈𝟐 es desconocida

Si la población es infinita y la muestra es sin restitución pero de un tamaño
suficientemente grande ( 𝑛 ≥ 30 ), o también puede ser una población finita con una
muestra con restitución, se utiliza la varianza de la muestra 𝑠 2 como estimador de la
varianza poblacional 𝜎 2 entonces nuevamente utilizando el teorema central del límite,
se concluye que el intervalo de confianza de (1−∝) × 100% para la media poblacional
𝜇 será
Manuel Hurtado Sánchez Página 2

𝑠2 𝑠2
𝑥̅ − 𝑍∝⁄2 √ ≤ 𝜇 ≤ 𝑥̅ + 𝑍∝⁄2 √
𝑛 𝑛
Pero si la población es finita y el muestreo es sin restitución, entonces el intervalo de

confianza será
𝑠2 𝑁 − 𝑛 𝑠2 𝑁 − 𝑛
𝑥̅ − 𝑍∝⁄2 √ ( ) ≤ 𝜇 ≤ 𝑥̅ + 𝑍∝⁄2 √ ( )
𝑛 𝑁 𝑛 𝑁
Cuando el tamaño de muestra es menor que 30 (𝑛 < 30) se recurre a la distribución

T de Student con (n-1) grados de libertad.
La distribución t de Student tiene propiedades similares que la distribución normal:
∝ 2 ⁄ 𝑆
Entonces para poblaciones infinitas: 𝜇 = 𝑥̅ ± 𝑡(𝑛−1)
√𝑛
∝ 2 ⁄ 𝑠2 𝑁−𝑛
En cambio para poblaciones finitas: 𝜇 = 𝑥̅ ± 𝑡(𝑛−1) √ ( )
𝑛 𝑁
Finalmente notemos que: Media poblacional = media muestral  error de precisión
Ejemplo: Para determinar el peso promedio en una población, un investigador observó

el peso de 25 personas. Encontró que la media aritmética del peso fue 62 kg. Y que la
desviación estándar de la muestra fue 14.5 kg. Asumiendo que dicha variable sigue una
distribución normal ¿Cuál es el peso estimado de la población de donde provienen las
25 personas?
= 25
x = 62
t = 2.06
 = 14.5
14.5
=? 𝜇 = 62 ± 2.06 Entonces 𝜇 = 62 ± 6
√25
O también 56 ≤ 𝜇 ≤ 68
Esto indica que, bajo un nivel de confianza del 95 por ciento, el peso promedio se
encuentra entre 56 a 68 kg.

2. Intervalo de confianza para la diferencia de medias poblacionales (µ1 - µ2) con

muestras independientes
a. Suponiendo que las varianzas 𝝈𝟐 y 𝝈𝟐 son conocidas.
Si 𝑥̅1 y 𝑥̅2 son las medias muestrales de dos muestras independientes de tamaños
𝑛1 𝑦 𝑛2 , tal que 𝑛1 ≥ 30 𝑦 𝑛2 ≥ 30, escogidas respectivamente de dos
poblaciones con varianzas conocidas 𝜎 2 y 𝜎 2 , entonces el intervalo de confianza
del (𝟏−∝)𝟏𝟎𝟎% de (𝝁𝟏 − 𝝁𝟐 ) es
𝝈𝟐 𝝈𝟐 𝝈𝟐 𝝈𝟐
(𝒙 ̅𝟐 ) − 𝒁∝⁄𝟐 √ 𝟏 + 𝟐 ≤ (𝝁𝟏 − 𝝁𝟏 ) ≤ (𝒙
̅̅̅𝟏 − 𝒙 ̅𝟐 ) + 𝒁∝⁄𝟐 √ 𝟏 + 𝟐
̅̅̅𝟏 − 𝒙
𝒏𝟏 𝒏𝟐 𝒏𝟏 𝒏𝟐
Ejemplo
Construya un intervalo de confianza de 0.95 para la diferencia de medias

poblacionales considerando la siguiente situación:
𝑛1 = 40, 𝑥̅1 = 80 𝜎12 = 25
𝑛2 = 50, 𝑥̅1 = 75 𝜎12 = 16
SOLUCIÓN
Para 𝑛1 = 40 → 𝑛1 > 30 y 𝑛2 = 50 → 𝑛2 > 30 , y con 𝜎12 = 25 𝑦 𝜎22 = 16, es decir

conocidas, entonces el intervalo de confianza para la diferencia de medias
poblacionales será obtenido con la fórmula:
𝝈𝟐 𝝈𝟐 𝝈𝟐 𝝈𝟐
(𝒙 ̅𝟐 ) − 𝒁∝⁄𝟐 √ 𝟏 + 𝟐 ≤ (𝝁𝟏 − 𝝁𝟏 ) ≤ (𝒙
̅̅̅𝟏 − 𝒙 ̅𝟐 ) + 𝒁∝⁄𝟐 √ 𝟏 + 𝟐
̅̅̅𝟏 − 𝒙
𝒏𝟏 𝒏𝟐 𝒏𝟏 𝒏𝟐
Para una confianza (1 − 𝛼) = 0.95, → 𝑍𝛼⁄2 = 1.96, entonces debemos tener que:
25 16
(𝜇1 − 𝜇2 ): (80 − 75) ± 1.96√ +
40 50
(5) ± 1.905
3.095 < 𝜇1 − 𝜇2 < 6.905
b. Suponiendo que las varianzas 𝝈𝟐 y 𝝈𝟐 son desconocidas.

En Poblaciones no normales: Si 𝑥̅1 y 𝑥̅2 son las medias muestrales de dos muestras
independientes de tamaños 𝑛1 𝑦 𝑛2 , tal que 𝑛1 ≥ 30 𝑦 𝑛2 ≥ 30, escogidas
respectivamente de dos poblaciones no normales con varianzas desconocidas 𝜎12 y

𝜎22 , estimadas por 𝑠12 𝑦 𝑠12 respectivamente, entonces el intervalo de confianza del
(𝟏−∝)𝟏𝟎𝟎% de (𝝁𝟏 − 𝝁𝟐 ) es
𝒔𝟐𝟏 𝒔𝟐𝟐 𝒔𝟐𝟏 𝒔𝟐𝟐

(𝒙 ̅𝟐 ) − 𝒁∝⁄𝟐
̅̅̅𝟏 − 𝒙 √ + ≤ (𝝁𝟏 − 𝝁𝟏 ) ≤ (𝒙 ̅𝟐 ) + 𝒁∝⁄𝟐
̅̅̅𝟏 − 𝒙 √ +
𝒏𝟏 𝒏𝟐 𝒏𝟏 𝒏𝟐
Ejemplo

poblacionales considerando la siguiente situación:
𝑛1 = 40, 𝑥̅1 = 80 𝑠12 = 25
𝑛2 = 50, 𝑥̅1 = 75 𝑠12 = 16
SOLUCIÓN
Para 𝑛1 = 40 → 𝑛1 > 30 y 𝑛2 = 50 → 𝑛2 > 30 , y con varianzas 𝜎12 𝑦 𝜎22

desconocidas, pero estimadas a través de sus correspondientes varianzas
muestrales 𝑆12 = 25 𝑦 𝑆22 = 16, entonces el intervalo de confianza para la diferencia
de medias poblacionales será obtenido con la fórmula:
𝑺𝟐 𝑺𝟐 𝒔𝟐 𝑺𝟐
(𝒙 ̅𝟐 ) − 𝒁∝⁄𝟐 √ 𝟏 + 𝟐 ≤ (𝝁𝟏 − 𝝁𝟏 ) ≤ (𝒙
̅̅̅𝟏 − 𝒙 ̅𝟐 ) + 𝒁∝⁄𝟐 √ 𝟏 + 𝟐
̅̅̅𝟏 − 𝒙
𝒏𝟏 𝒏𝟐 𝒏𝟏 𝒏𝟐
Para una confianza (1 − 𝛼) = 0.95, → 𝑍𝛼⁄2 = 1.96, entonces debemos tener que:
25 16
(𝜇1 − 𝜇2 ): (80 − 75) ± 1.96√ +
40 50
(5) ± 1.905
3.095 < 𝜇1 − 𝜇2 < 6.905
En Poblaciones Normales: Sean 𝑥̅1 y 𝑥̅2 las medias muestrales y 𝑠12 𝑦 𝑠12 las
varianzas muestrales de dos muestras independientes de tamaños 𝑛1 < 30 𝑦 𝑛2 <
30 , escogidas respectivamente de dos poblaciones normales con varianzas
desconocidas 𝜎12 y 𝜎22 , entonces el intervalo de confianza del (𝟏−∝)𝟏𝟎𝟎% de
(𝝁𝟏 − 𝝁𝟐 ) depende si las varianzas son iguales o no.
Suponiendo que las varianzas son iguales: 𝝈𝟐𝟏 = 𝝈𝟐𝟐 = 𝝈𝟐 :

∝⁄2 2(
1 1
(𝜇1 − 𝜇1 ): (𝑥̅1 − 𝑥̅2 ) ± 𝑡(𝑛 +𝑛 −2) √𝑆𝑐 + )
1 2 𝑛1 𝑛2
Donde:
(𝑛1 − 1)𝑆12 + (𝑛2 − 1)𝑆22

𝑉𝑎𝑟𝑖𝑎𝑛𝑧𝑎 𝑚𝑎𝑛𝑐𝑜𝑚𝑢𝑛𝑎𝑑𝑎: 𝑆𝑐2 =
𝑛1 + 𝑛2 − 2
Ejemplo
poblacionales considerando la siguiente situación, suponiendo que 𝜎12 = 𝜎22 = 𝜎 2
𝑛1 = 10, 𝑥̅1 = 80 𝑠12 = 25
𝑛2 = 20, 𝑥̅2 = 75 𝑠22 = 16
SOLUCIÓN
Bajo el supuesto que las varianzas poblacionales son iguales, la fórmula para obtener
el intervalo de confianza para la diferencia de medias poblacionales es:
∝⁄2 1 1
(𝜇1 − 𝜇1 ): (𝑥̅1 − 𝑥̅2 ) ± 𝑡(𝑛
1 +𝑛2 −2)
√𝑆𝑐2 (
𝑛1
+
𝑛2
)
Donde 𝑆𝑐2 es la varianza mancomunada de ambas poblaciones, dado a que se ha

supuesto que dichas varianzas son iguales:
(𝑛1 − 1)𝑆12 + (𝑛2 − 1)𝑆22

𝑉𝑎𝑟𝑖𝑎𝑛𝑧𝑎 𝑚𝑎𝑛𝑐𝑜𝑚𝑢𝑛𝑎𝑑𝑎: 𝑆𝑐2 =
𝑛1 + 𝑛2 − 2
(10 − 1) × 25 + (20 − 1) × 16
𝑺𝟐𝒄 = = 18.893
10 + 20 − 2
Para una confianza (1 − 𝛼) = 0.95 y 𝑛1 + 𝑛2 − 2 = 10 + 20 − 2 = 28, el valor

⁄
𝛼 2
𝑡(𝑛1 +𝑛2 −2)
= 2.0484
1 1
(𝜇1 − 𝜇1 ): (80 − 75) ± 2.0484√18.893 ( + )
10 20
(𝜇1 − 𝜇1 ): 5 ± 3.45
1.55 ≤ (𝜇1 − 𝜇1 ) ≤ 8.55
Este intervalo no contiene al valor cero (0), por lo que podemos afirmar que la media
de la primera población es mayor que la media de la segunda población y que esta
diferencia podría estar comprendida entre 1.55 y 8.55 puntos, con una confianza de
0.95

Suponiendo que las varianzas distintas: 𝝈𝟐𝟏 ≠ 𝝈𝟐𝟐 :
𝟐
⁄𝟐 𝒔𝟏 𝒔𝟐𝟐 ∝⁄𝟐 𝒔𝟏
𝟐
𝒔𝟐𝟐
(𝒙 ̅ 𝟐 ) − 𝒕∝
̅̅̅𝟏 − 𝒙 (𝒓)
√ + ≤ (𝝁𝟏 − 𝝁𝟏 ) ≤ (𝒙
̅̅̅
𝟏 − ̅
𝒙 𝟐 ) + 𝒕 (𝒓)
√ +
𝒏𝟏 𝒏𝟐 𝒏𝟏 𝒏𝟐
Donde:
𝐿𝑜𝑠 𝑔𝑟𝑎𝑑𝑜𝑠 𝑑𝑒 𝑙𝑖𝑏𝑒𝑟𝑡𝑎𝑑 𝑟 𝑑𝑒 𝑙𝑎 𝑑𝑖𝑠𝑡𝑟𝑖𝑏𝑢𝑐𝑖ó𝑛 𝑡 𝑠𝑒 𝑜𝑏𝑡𝑖𝑒𝑛𝑒𝑛 𝑐𝑜𝑛 𝑙𝑎 𝑠𝑖𝑔𝑢𝑖𝑒𝑛𝑡𝑒 𝑓ó𝑟𝑚𝑢𝑙𝑎:
2
𝑆2 𝑆2
[𝑛1 + 𝑛2 ]
1 2
𝑟= 2 2
𝑆2 𝑆2
[𝑛1 ] [𝑛2 ]
1 2
𝑛1 − 1 + 𝑛2 − 1
Dado que r es un número real, éste se redondea al entero más cercano.
Ejemplo
poblacionales considerando la siguiente situación, suponiendo que 𝜎12 ≠ 𝜎22
𝑛1 = 10, 𝑥̅1 = 80 𝑠12 = 25
𝑛2 = 20, 𝑥̅1 = 75 𝑠22 = 16
SOLUCIÓN
Bajo el supuesto que las varianzas poblacionales son distintas, la fórmula para
obtener el intervalos de confianza para la diferencia de medias poblacionales es:
2
∝⁄2 𝑠1 𝑠2 ∝⁄2 𝑠1
2
𝑠2
(𝑥
̅̅̅1 − 𝑥̅2 ) − 𝑡(𝑟) √ + 2 ≤ (𝜇1 − 𝜇1 ) ≤ (𝑥
̅̅̅1 − 𝑥̅2 ) + 𝑡(𝑟) √ + 2
𝑛1 𝑛2 𝑛1 𝑛2
Donde los grados de libertad de la distribución t son obtenidos con la siguiente

fórmula:
2 2 2
S S 25 16 2
[ 1+ 2] [ + ]
n 1 n2 10 20
r= 2 2 2 = 25 2 16 2
= 14.96~ 15 =
S S2 [ ] [ ]
[n1 ] [n2 ] 10
+ 20
1 2 10−1 20−1
+
n1 −1 n2 −1
⁄
Para una confianza (1 − 𝛼) = 0.95 y 𝑟 = 15 𝑔𝑟𝑎𝑑𝑜𝑠 𝑑𝑒 𝑙𝑖𝑏𝑒𝑟𝑡𝑎𝑑, se tiene que 𝑡𝑟𝛼 2 =
0.025
𝑡15 = 2.131
De este modo, el intervalo de confianza para la diferencia de medias será:

25 16
𝜇1 − 𝜇2 : (80 − 75) ± 2.131 × √ +
10 20
𝜇1 − 𝜇2 : (5) ± 3.87, o también: 1.13 ≤ 𝜇1 − 𝜇2 ≤ 8.87
Como este intervalo de confianza no contiene al valor cero (0), y los dos límites ser
positivos, podemos afirmar que la media de la primera población es mayor que la
media de la segunda población y que esta diferencia podría estar comprendida entre
1.13 y 8.87 puntos, con una confianza de 0.95.
Notemos que este intervalo es ligeramente más amplio que cuando se supone que
las varianzas son iguales, esto se debe a que en este caso es mayor la incertidumbre
al no conocerse nada acerca de las varianzas poblacionales.
3. Intervalo de confianza para la diferencia entre medias con observaciones

pareadas.
Sea (𝑋1 , 𝑌1 ), (𝑋2 , 𝑌2 ), … . , (𝑋𝑛 , 𝑌𝑛 ) una muestra aleatoria de n datos aparejados, donde
las muestras {𝑋1 , 𝑋2 , 𝑋3 , … . , 𝑋𝑛 } e {𝑌1 , 𝑌2 , 𝑌3 , … . , 𝑌𝑛 } correlacionadas, son
seleccionadas respectivamente de dos poblaciones normales 𝑋 ~ 𝑁(𝜇1 , 𝜎12 ) y
𝑌 ~ 𝑁(𝜇2 , 𝜎22 ).
Podemos concebir esta 𝑛 diferencias: 𝐷1 = 𝑋1 − 𝑌1 , 𝐷2 = 𝑋2 − 𝑌2 , … , 𝐷𝑛 = 𝑋𝑛 − 𝑌𝑛 como

una muestra aleatoria seleccionada de una población de diferencias 𝐷 =𝑋−𝑌
cuya distribución es normal 𝑁(𝜇𝐷 , 𝜎𝐷2 ) con media 𝜇𝐷 = 𝜇1 − 𝜇2 y varianza 𝜎𝐷2 = 𝜎12 +
𝜎22 − 2𝐶𝑜𝑣(𝑋, 𝑌).
Si 𝑑̅ 𝑦 𝑠𝑑2 son la media y la varianza de una muestra aleatoria de n diferencias de

pares de datos de una población normal con varianza 𝜎𝐷2 supuesta desconocida,
entonces el intervalo de confianza del (1−∝) × 100% para 𝜇𝐷 = 𝜇1 − 𝜇2 es:
2 2
∝⁄2 √𝑠𝑑 ∝⁄2 √𝑠𝑑
𝑑̅ − 𝑡(𝑛−1) ≤ 𝜇1 − 𝜇2 ≤ 𝑑̅ + 𝑡(𝑛−1)
𝑛 𝑛
∝ 2 ⁄
Donde 𝑡(𝑛−1) se encuentra en la tabla de la distribución t – Student

Ejemplo:
En los estudios generales de una universidad se han escogido 12 pares de alumnos
sobre la base de la similitud de sus rendimientos. A un alumno de cada par le fue
enseñado el curso de cálculo I por el método tradicional (X) y al otro alumno por el
método de talleres (Y). Estos alumnos rindieron una prueba con los siguientes
resultados
Par de Tradicional Talleres

Diferencia 𝑑𝑖 𝑑𝑖2
alumnos (X) (Y)
1 14 12 2 4
2 15 16 -1 1
3 12 12 0 0
4 13 11 2 4
5 15 12 3 9
6 11 9 2 4
7 10 7 3 9
8 15 13 2 4
9 15 14 1 1
10 16 15 1 1
11 14 12 2 4
12 8 10 -2 4
Suma 15 45
∑ 𝑑𝑖 15
𝑑̅ = = = 1.25
𝑛 12
2
∑(𝑑𝑖 − 𝑑̅ ) ∑ 𝑑𝑖2 − 𝑛𝑑̅ 2 45 − 12 × 1.252
𝑆𝑑2 = = = = 1.545
𝑛−1 𝑛−1 12 − 1
Para una confianza (1 − 𝛼) = 0.95, y (𝑛 − 1) = 11 grados de libertad, se tiene que:

𝛼⁄2
𝑡(𝑛−1) = 2.201
Así los límites de confianza para 𝜇𝐷 = 𝜇1 − 𝜇2 serán:
2
𝛼⁄2 √𝑆𝑑
𝜇𝐷 ∶ 𝑑̅ ± 𝑡(𝑛−1)
𝑛
1.545
𝜇𝐷 : 1.25 ± 2.201 × √
11
𝜇𝐷 ∶ 1.25 ± 0.9816, o también: 0.268 ≤ 𝜇𝐷 ≤ 2.232
Como este intervalo no contiene al valor cero (0), podemos deducir que 𝜇𝑋 ≠ 𝜇𝑌 , o
más específicamente que 𝜇𝑋 > 𝜇𝑌

4. Intervalo de confianza para de la proporción poblacional (P)

Sea {𝑋1 , 𝑋2 , 𝑋3 , … . , 𝑋𝑛 , } una muestra aleatoria de tamaño 𝑛 , escogida de una población
de Bernoulli 𝐵(1, 𝑃) cuyo parámetro 𝑃 es la proporción de éxitos en la población. En la
muestra cada 𝑋𝑖 = 1 , si hay éxito con probabilidad 𝑃 y cada 𝑋𝑖 = 0 si no hay éxito
con probabilidad (1 − 𝑃).
El estimador puntual del parámetro 𝑃 es la estadística 𝑝 proporción de éxitos en la

muestra definida por
∑𝑛
𝑖=1 𝑋𝑖 𝑋
𝑝= 𝑛
o también 𝑝 = 𝑛
Donde la variable aleatoria 𝑋 = ∑𝑛𝑖=1 𝑋𝑖 es el número de éxitos en la muestra y cuya

distribución es 𝐵(𝑛, 𝑃).
𝑋
El valor 𝑝 = 𝑛 que se obtiene de una muestra específica, es una estimación puntual
de 𝑃.
𝐸(𝑝) = 𝜇𝑝 = 𝑃
𝑃(1 − 𝑃)
𝑉(𝑝) = 𝜎𝑝2 =
𝑛
Además para (𝑛 ≥ 30 ) , por el teorema central del límite, la distribución de probabilidad

𝑃(1−𝑃)
de la proporción muestral 𝑝 es aproximadamente normal con media 𝑃 y varianza 𝑛
La variable aleatoria estandarizada
𝑝−𝑃
𝑍=
√𝑃(1 − 𝑃)
𝑛
El intervalo de confianza de la proporción se construye siguiendo el mismo

procedimiento que para la media, dado que existe una aproximación binomial entre los
correspondientes parámetros:
Media = proporción p
Varianza = p  q donde q  1  p
Desviación estándar = pq
Por tanto:
pq
P  p  z 2
n

Ejemplo. En una muestra de 384 personas se encontró que el 60 por ciento estuvo
satisfecho con la atención recibida en el servicio al que acudió. Se desea estimar, bajo
un nivel de confianza del 95 por ciento, el porcentaje de población satisfecho con la
atención del servicio al que acudió.
p = 0.6 , q = 1-0.6 = 0.4
z = 1.96
n = 384
P?
0.6  0.4
P  0.6  1.96
384
P  0.6  0.05 o también 0.55 ≤ P ≤ 0.65
La proporción de personas (expresado en porcentaje) satisfecha con el servicio está

entre un 55 a un 65 por ciento, bajo un nivel de confianza del 95 por ciento.
5. Intervalo de confianza para la diferencia de proporciones

poblacionales (P1 – P2)
Sean 𝑝1 𝑦 𝑝2 las proporciones de éxitos de dos muestras aleatorias independientes de
tamaños 𝑛1 𝑦 𝑛2, seleccionadas respectivamente de dos poblaciones de Bernoulli
𝐵(1, 𝑃1 ) y 𝐵(1, 𝑃2 ) donde 𝑃1 𝑦 𝑃2 son los respectivos parámetros proporciones de
éxito.
La estimación puntual de 𝑃1 − 𝑃2 es la estadística 𝑝1 − 𝑝2 .
Si 𝑛1 𝑦 𝑛2 son suficientemente grandes, entonces 𝑝1 𝑦 𝑝2 tienen distribuciones

𝑃1 (1−𝑃1 ) 𝑃2 (1−2)
aproximadamente normales respectivas 𝑁 (𝑃1 , 𝑛1
) y 𝑁 (𝑃2 , 𝑛2
), por lo tanto
por la propiedad de reproductividad de la normal, la estadística (𝑝1 − 𝑝2 ), tendrá
distribución aproximadamente normal con:
Valor esperado 𝐸(𝑝1 − 𝑝2 ) = 𝑃1 − 𝑃2 y

𝑃1 (1−𝑃1 ) 𝑃 (1−𝑃 )
Varianza 𝑉(𝑃1 − 𝑃2 ) = 𝑛1
+ 2𝑛 2
2

(𝑝1 −𝑝2 )−(𝑃1 −𝑃2 )

Por lo tanto 𝑍 = 𝑃 (1−𝑃 ) 𝑃 (1−𝑃 )
, tendrá una distribución aproximadamente normal
√ 1𝑛 2+ 2𝑛 2
1 2
estándar N(0,1). Esta distribución nos permite deducir que el intervalo de confianza
para la diferencia de proporciones 𝑃1 − 𝑝2
𝒑𝟏 𝒒𝟏 𝒑𝟐 𝒒𝟐
(𝑷𝟏 − 𝑷𝟐 ): (𝒑𝟏 − 𝒑𝟐 ) ± 𝒁𝜶⁄𝟐 √ + , con 𝑞1 = 1 − 𝑝1 y 𝑞2 = 1 − 𝑝2
𝒏𝟏 𝒏𝟐
Ejemplo 1
Un fabricante afirma que su nuevo producto de consumo popular prefieren más los
hombres que las mujeres. Para comprobar tal información se toma una muestra aleatoria
de 250 hombres y otra de 200 mujeres, y se encuentra que 175 hombres y 120 mujeres
prefieren el nuevo producto. Utilizando un intervalo de confianza de 0.95 para la
verdadera diferencia de proporciones de preferencias entre los hombres y las mujeres.
¿Se puede concluir que el fabricante del nuevo producto tiene la razón?.
SOLUCIÓN
De los datos del problema se obtiene.

175
𝑛1 = 250, 𝑎1 = 175 𝑦 𝑝1 = = 0.70
250
120
𝑛2 = 250, 𝑎2 = 120 𝑦 𝑝2 = = 0.60
200
0.7×0.3 0.6×0.4
(𝑃1 − 𝑃2 ): (0.7 − 0.60) ± 1.96√ + 200
250
(𝑃1 − 𝑃2 ): (0.1) ± 0.0882
0.0118 < (𝑃1 − 𝑃2 ) < 0.1882
Notamos que este intervalo no contiene al valor cero (0), por lo que nos permite identificar
que la primera proporción es mayor que la segunda 𝑃1 > 𝑃2 , con una confianza de 0.95.
Ejemplo 2:
En una encuesta del Time y CNN, el 24% de 205 mujeres solteras dijeron que
“definitivamente deseaban casarse”. En la misma encuesta el 27% de 260 hombres
solteros dieron esta misma respuesta. Encuentre un intervalo de confianza del 0.95 para
la diferencia de proporciones de hombres solteros a mujeres solteras que definitivamente
desean casarse.
SOLUCIÓN
Muestra de hombres solteros: 𝑛1 = 260, proporción de hombres solteros que

definitivamente desean casarse 𝑝1 = 0.27

Muestra de mujeres solteras: 𝑛2 = 205, proporción de mujeres solteras que

definitivamente desean casarse 𝑝2 = 0.24
El intervalo de confianza para la diferencia de proporciones de varones a mujeres que

definitivamente desean casarse será:
𝑝1 𝑞1 𝑝2 𝑞2
(𝑃1 − 𝑃2 ): (𝑝1 − 𝑝2 ) ± 𝑍𝛼⁄2 √ + ,
𝑛1 𝑛2
para una confianza (1 − 𝛼) = 0.95 , 𝑍𝛼⁄2 = 1.96
0.27 × 0.73 0.24 × 0.76

𝑃1 − 𝑃2 ∶ (0.27 − 0.24) ± 1.96√ +
260 205
𝑃1 − 𝑃2 ∶ 0.03 ± 0.061, o también −0.031 < 𝑃1 − 𝑃2 ∶ 0.091
Como este intervalo contiene al valor cero, podemos afirmar que con una confianza de
0.95, no existe diferencia significativa entre las proporciones P1 y P2, de hombres y mujeres
respectivamente que definitivamente desean casarse.

Ejercicios 3
1. Una máquina llena un determinado producto en bolsas cuyo peso promedio es

𝜇 𝑔𝑟𝑎𝑚𝑜𝑠. Suponga que la población de los pesos es normal con desviación estándar
20 𝑔𝑟𝑎𝑚𝑜𝑠. Estime µ , mediante un intervalo de confianza del 95%, si una muestra
aleatoria de 16 bolsas ha dado una media de 495 gramos.
Rpta. 495 ± 9.8 𝑔𝑟.
2. El tiempo en minutos que utilizan los clientes en sus distintas operaciones en un banco
local es una variable aleatoria cuya distribución se supone normal con una desviación
estándar de 3 minutos. Se han registrado los tiempos de las operaciones de 9 clientes
del banco resultando una media igual a 9 minutos. Cuál será la probabilidad de que el
intervalo de 7 a 11 contenga a la media µ.
Rpta. 0.9544.
3. Existe interés por conocer el gasto medio en telefonía así como la proporción de
abonados que tienen deuda con el servicio de Speedy en la población de Lambayeque.
Para tal efecto, se recurre a una muestra de 81 abonados y se obtienen los siguientes
resultados.
Gasto medio x  250 , desviación estándar s = 30 y
N° de abonados con Speedy con deuda a = 10 abonados deudores
Se pide estimar por intervalo, con un grado de confianza del 95%, el gasto promedio
en telefonía y la proporción de abonados con Speedy deudores en la población de
Lambayeque.
4. Se desea estimar la media 𝜇 del nivel de ansiedad de todos los estudiantes

preuniversitarios. Se supone que la población de los puntajes de la prueba para medir
la ansiedad se distribuye normalmente con desviación estándar 𝜎 = 10 puntos.
Calcular el intervalo de confianza para 𝜇 de 0.95, si una muestra aleatoria de tamaño
100 ha dado una media de 70 puntos.
5. El tiempo en minutos que utilizan los clientes en sus distintas operaciones en un banco
local en una variable aleatoria cuya distribución se supone normal con una desviación
estándar de 𝜎 = 3 𝑚𝑖𝑛𝑢𝑡𝑜𝑠 . Se han registrado los tiempos de las operaciones de 9
clientes del banco resultando una media igual a 9 minutos. Obtenga un intervalo con
una probabilidad de confianza de 0.95 para la media poblacional 𝜇 .
6. El ingreso mensual de cada una de las 500 microempresas de servicios de una ciudad,
es una variable aleatoria con media 𝜇 desconocida. Con el fin de simplificar la
recaudación de impuestos, la SUNAT ha dispuesto que a estas empresas se las grave
mensualmente con el 10% de sus ingresos. De una muestra al azar de 50
microempresas se obtuvo un ingreso mensual promedio de 3200 soles con una
desviación estándar de 250 soles. Estime el monto de ingresos de las microempresas
de la ciudad con un intervalo de confianza de 0.95.
7. En un estudio socioeconómico se tomó una muestra aleatoria de 100 comerciantes

informales y se encontró entre otros datos los siguientes. Un ingreso medio de $600,

una desviación estándar de $50 y solo el 30% tienen ingresos superiores a $800.
Estime la proporción poblacional de comerciantes con ingresos superiores a $800
mediante un intervalo de confianza del 98%.
8. Las siguientes son capacidades calóricas del carbón de dos minas (en millones de
calorías por tonelada):
 Mina A: 8500, 8330, 8480,7960, 8030
 Mina B: 7710, 7890, 7920, 8270, 7860
Suponga que los datos constituyen muestras aleatorias independientes de poblaciones

normales con varianzas iguales, Construya un intervalos de confianza del 99% para la
diferencia entre promedios verdaderos de las capacidades calóricas del carbón de las
dos minas.
9. Un inversionista hace un estudio para elegir una de dos ciudades del interior del país
para abrir un centro comercial. Escoge 21 hogares de la ciudad 1 determinando 𝑥̅1 =
$400, 𝑠1 = $120 y escoge 16 hogares de la ciudad 2 calculando 𝑥̅2 = $350, 𝑠2 = $60.
Suponga poblaciones normales con varianzas diferentes. Mediante un intervalo de
confianza de 0.95, se puede afirmar que son iguales los ingresos promedios de las
dos ciudades.
10. Se desea realizar un estudio de mercado para determinar la proporción de amas de

casa que prefieren una nueva pasta dental. La muestra diseñada para estimar esta
proporción con una precisión de 0.02 y una confianza de 0.97 tuvo un tamaño de 2944
en donde se encontró que 736 amas de casa si preferían la nueva pasta dental.
Obtenga una estimación confidencial de 0.99 de la proporción poblacional de estas
amas de casa que prefieren la nueva pasta dental.
11. Un fabricante afirma que el 5% de las piezas que él produce, tienen algún tipo de
defecto. Para verificar tal afirmación se toma una muestra aleatoria de 100 piezas y se
encuentra que el 10% tiene algún tipo de defecto. Mediante un intervalo de 95% para
la proporción de piezas defectuosas de toda la producción, ¿Está Ud. De acuerdo con
la afirmación del fabricante.
Rpta. 0.10 ± 0.0588, → 0.05 ∈ 𝐼. 𝐶., 𝑒𝑠𝑡𝑜𝑦 𝑑𝑒 𝑎𝑐𝑢𝑒𝑟𝑑𝑜 𝑐𝑜𝑛 𝑒𝑙 𝑓𝑎𝑏𝑟𝑖𝑐𝑎𝑛𝑡𝑒

12. Un auditor toma una muestra aleatoria de 400 cuentas por cobrar y encuentra que 320
de ellas tienen deudas de al menos $700. Obtenga un intervalo de confianza de 0.95
para la proporción poblacional de cuentas por cobrar que tendrán deudas de al menos
$700 .
13. En una muestra aleatoria de 250 telespectadores en una ciudad grande, 190 habían
visto cierto programa polémico, construya un intervalo de confianza para el valor
verdadero de la proporción de telespectadores que vieron dicho programa.

14. Una muestra aleatoria de 400 menores de 16 años revela que 220 consumen licor.
Estimar la proporción de menores de 16 años que consumen licor en toda la población
mediante un intervalo de confianza del 99%.
Rpta. 0.55 ± 0.064
15. Una muestra aleatoria de visitantes al mueso Tumbas Reales de Lambayeque, 84 de
250 hombres y 156 de 250 mujeres compraron recuerdos. Construya un intervalo de
confianza del 95% para la verdadera diferencia de proporciones de mujeres a hombres
que compran en el sitio turístico.
16. Un estudio de dos clases de equipo de fotocopiado muestra que 61 averías del equipo
de la primera clase se llevaron en promedio 80.7 minutos en ser reparadas con una
desviación estándar de 19.4 minutos, mientras que 61 averías del equipo de la segunda
clase se llevaron en promedio 88.1 minutos en ser reparadas con una desviación
estándar de 18.8 minutos. Encuentre el intervalo de confianza del 99% para la
diferencia entre los verdaderos promedios del tiempo que toma reparar las averías de
las dos clases de equipos de fotocopiado.
17. Si 132 de 200 votantes y 90 de 159 votantes mujeres están a favor de cierto candidato
que hace campaña para gobernador de Illinois, encuentre un intervalo de confianza del
99% para la diferencia entre proporciones reales de votantes hombres y votantes
mujeres que están a favor de un candidato.
Rpta. [-0.074, 0.194]
18. Se quiere estimar la diferencia entre los promedios de tiempos (en minutos) que utilizan
los hombres y las mujeres y las mujeres para realizar un test de aptitud. Se aplica el
test a 20 hombres y 25 mujeres dando las medias respectivas de 110 y 100 puntos.
Suponga que las dos poblaciones son normales con varianzas respectivas 81 y 64 .
Determine el intervalo de confianza del 0.98 para la diferencia de medias.
19. Una agencia de publicidad realizó un estudio para comparar la efectividad de un

anuncio en radio en dos distritos. Después de difundir el aviso, se realizó una encuesta
con 900 personas seleccionadas al azar en cada uno de los distritos resultando las
proporciones 0.20 y 0.18 respectivamente. Encuentre un intervalo de confianza del 0.95
para la diferencia de proporciones poblaciones poblacionales.
20. Entre 500 solicitudes de matrimonio escogidas aleatoriamente en un año, hubieron 48

solicitudes en que la mujer era al menos un año mayor que el hombre, y entre 400
solicitudes de matrimonio escogidas aleatoriamente seis años después, hubieron 68
en las cuales la mujer era al menos un año mayor que el hombre. Construya un
intervalo de confianza del 99% para diferencia entre las verdaderas proporciones
correspondientes a las solicitudes de matrimonio en las que la mujer es al menos un
año mayor que el hombre.

3. Teoría de prueba de hipótesis

La prueba de hipótesis es un método de inferencia estadística que consiste en tomar una
decisión de rechazar o no rechazar una proposición acerca de los parámetros de una o más
poblaciones.
Hipótesis estadística: Es una proposición acerca de lo que se cree sobre los parámetros de una o
más poblaciones.
Ejemplos:
1. Los responsables del departamento de ventas de una empresa creen que la media aritmética
de la edad de una población está por debajo de los 30 años. Los datos disponibles son las edades
de una muestra aleatoria de 16 individuos, tomada de esa población. La media de la edad de estos
individuos es 27; con una desviación estándar de 5.
2. Consideremos que una empresa constructora acaba de comprar una gran cantidad de cables con
garantía de resistencia promedio de al menos 7000 libras por pulgada cuadrada (psi). Con la
finalidad de verificar esto, la empresa ha decidido tomar una muestra de 10 cables para verificar
su resistencia. Después usará los resultados del experimento para decidir si rechaza o no la
hipótesis del fabricante de cables de que la media poblacional es por lo menos 7000 libras por
pulgada cuadrada (psi).
Hipótesis estadística: Por lo común, una hipótesis estadística es una afirmación acerca de un
conjunto de parámetros de la distribución poblacional. Se llama hipótesis porque no se sabe si es
verdadero o no. El primer problema consiste en desarrollar un procedimiento para determinar si
los valores de una muestra aleatoria de esta población son consistentes con la hipótesis. Considere,
por ejemplo, una población determinada, distribuida normalmente, con media desconocida ϴ y
varianza 1. La afirmación de que ϴ < 1 es una hipótesis estadística que podemos tratar de probar
observando una muestra aleatoria obtenida de esa población. Si creemos que la muestra aleatoria
es consistente con la hipótesis bajo consideración, afirmamos que la hipótesis no debe ser
rechazada, es decir implícitamente “aceptada”, si no es así, decimos que ha sido rechazada.
Notemos que al no rechazar la hipótesis o implícitamente “aceptar” la hipótesis dada, no estamos

diciendo que sea verdadera, lo que estamos indicando es que los datos resultantes pueden ser
consistentes con ella. Por ejemplo, en el caso de una población normal (ϴ, 1), si una muestra de
tamaño 10 tiene un promedio de 1.25, entonces aunque este resultado no puede considerarse
como una evidencia a favor de la hipótesis “ϴ < 1”, no es inconsistente con la hipótesis por lo que
sería aceptada. Por otro lado, si la muestra de tamaño 10 tiene un promedio de 3, aunque un valor
tan grande como éste sea posible cuando ϴ < 1, es tan poco probable que aprecie inconsistencia
con la hipótesis, por lo que esta sería rechazada.

Tipos de hipótesis estadísticas

1) Hipótesis nula (H0). Es establecida con el propósito de confrontarla con evidencias que permitan
rechazarla. Suele ser una proposición de conformidad con una condición que se asume cierta en la
población. Se formula con el propósito expreso de ser rechazada. También llamada hipótesis de la
no diferencia
2) Hipótesis alterna (Ha). Son todas las demás suposiciones o alternativas al problema para contrastar
Ho. Puede ser bilateral o unilateral, y expresa la sospecha o propósito del investigador.
A su vez la prueba de hipótesis puede ser unilateral o bilateral, según como esté formulada la
hipótesis alternativa.
En el primer caso, la hipótesis nula asume que el parámetro de la población es mayor o menor que
el parámetro teórico.
En el ejemplo, la hipótesis unilateral sería formulada como:
Ha : µ  𝜇𝑜 (unilateral)
Ha: µ  𝜇𝑜
En el segundo caso, la hipótesis nula asume que el parámetro de la población es diferente al

parámetro teórico.
Es decir:
H0 : 𝜇 = 𝜇𝑜 (bilateral)
Ha: 𝜇 ≠ 𝜇𝑜
Errores en Prueba de hipótesis
Cuando se toma una decisión estadística, podemos cometer el error tipo I o tipo II.
Decisión Estado de la naturaleza

estadística Ho verdadera Ho Falsa
Error tipo I Decisión correcta
Rechazar Ho P(I) =() P(Rechazar Ho/Ho es falsa) =(1-β)
(Significancia) (Potencia)
Decisión correcta
Error tipo II
No rechazar Ho P(No rechazar Ho / Ho es verdadera)=(1-)
P(II) = (β)
(Confianza)
Probabilidades de error en Prueba de hipótesis
P(error tipo I) =  = P( Rechazar Ho Ho es verdadero) = Nivel de significancia de la prueba

 puede ser manejada por el investigador, por consiguiente puede establecer su valor, es decir,
=0.001, 0.01, 0.05 nos indica el nivel de significación de la prueba, porque permite diferenciar la
región de rechazo y no rechazo de la prueba.
1-  indica el grado de confianza de la prueba y se denomina nivel de confianza de la prueba.
P(error tipo II) = 𝛽 = P(No rechazar Ho  Ho falsa)
 y 𝛽 están relacionados y ambos disminuyen su valor si incrementamos el tamaño de la muestra

o si mejoremos el diseño del estudio.
1-𝛽 = P(rechazar HoHo es falsa), también se denomina potencia de prueba. El valor mínimo que
puede tomar es del 80%.
Decisiones en Prueba de Hipótesis

Las decisiones que se toman en prueba de hipótesis están en relación con la hipótesis nula, y
pueden ser:
D1: Rechazar la Hipótesis nula 𝐻𝑜 :
D2: No Rechazar la Hipótesis nula 𝐻𝑜 : implícitamente equivale a aceptar 𝐻𝑜 , es decir se puede

trabajar como si 𝐻𝑜 fuera verdadera sin decir que los es
Para tomar la decisión se compara el estadístico calculado con el estadístico tabulado (el valor
crítico), tomado de la distribución correspondiente, según el nivel de significación establecido.
En el caso de la hipótesis unilateral si el estadístico de prueba calculado es más pequeño o más

grande, según sea el sentido de la hipótesis nula, que el estadístico tabulado (el t crítico por
ejemplo) se tiene evidencia suficiente para rechazar la hipótesis nula. El área que se encuentra en
el extremo inferior o superior a ese valor constituye pues la región de rechazo; el área restante
constituye la región de aceptación.

En el caso de la hipótesis bilateral, si el estadístico de prueba calculado es más pequeño o más

grande que el rango del estadístico tabulado se tiene evidencia suficiente para rechazar la hipótesis
nula. El área que se encuentra dentro del rango del estadístico tabulado constituye pues la región
de rechazo; el área restante constituye la región de aceptación.
En el ejemplo:
El t tabulado (t_crítico) para 15 grados de libertad, tomándolo de la tabla, es -1.75. Por
consiguiente, se rechaza la hipótesis nula.
También puede tomarse esa decisión estableciendo cual es área que corresponde desde el t
calculado hacia los extremos de la curva, lo cual representa la probabilidad de equivocarse al
rechazar una hipótesis nula verdadera. Esta área se conoce comúnmente como valor p.
En el ejemplo el valor p = 0.0155
Cuando el valor p es menor que la significación  ó 

2
entonces se rechaza la hipótesis nula Ho.
Si la aceptabilidad de la hipótesis nula (p) es menor que el nivel de significación (  =0.05), entonces
rechazamos la hipótesis nula. Si es igual o mayor No la rechazamos (implícitamente aceptamos Ho).
En el caso de la hipótesis bilateral, los valores para el ejemplo serían:
El t-tabulado (t crítico) para 15 grados de libertad, tomándolo de la tabla, es ± 2.13. Por

consiguiente, se rechaza también la hipótesis nula. El valor p = 0.0309
Pasos para la aplicación de una prueba estadística.

Los autores difieren en el número de pasos expresados explícitamente para aplicar una prueba
de hipótesis; pero la lógica es solo una; de modo tal que enfocaremos los pasos esenciales:
1. Planteamiento de las hipótesis nula y alternativa.

2. Elección del nivel de significación α.
3. Determinación de la estadística de prueba y su distribución de probabilidades.
4. Determinación de las regiones de rechazo o no rechazo.
5. Cálculo del valor experimental de la estadística de prueba o de la probabilidad de cometer
el error tipo I al efectuar la prueba, conocido como p_valor.
6. Toma de decisión: Si el valor experimenta de la estadística de prueba pertenece a la región
de rechazo, entonces debemos rechazar la hipótesis nula, caso contrario no rechazarla. O
también en forma equivalente, si la probabilidad de cometer el error tipo I o p-valor es menor
que el nivel se significancia de la prueba (p_valor < α ), entonces rechazar la hipótesis nula,
caso contrario no rechazarla.
Ilustremos este procedimiento cuando se desea probar una hipótesis acerca de una media
poblacional.
3.1.Prueba de hipótesis acerca de una media de una población normal

1) Caso de la varianza conocida: Suponga que 𝑋1 , 𝑋2 , … , 𝑋𝑛 es una muestra de tamaño 𝑛 de
una distribución normal con media desconocida μ y varianza conocida 𝝈𝟐 ,
Población: N
(Varianza 𝜎 2 Conocida) 𝐻𝑜 : 𝜇 = 𝜇𝑜
1−∝
Muestra: n 𝑀𝑒𝑑𝑖𝑎 𝑚𝑢𝑒𝑠𝑡𝑟𝑎𝑙 𝑥̅
Seguiremos los siguientes pasos:

1°. Formular la hipótesis nula y alternativa
𝐻𝑜 : 𝜇 = 𝜇𝑜
𝐻𝑜 : 𝜇 < 𝜇𝑜 ó Pruebas Unilaterales
𝜇 > 𝜇𝑜 ó
𝜇 ≠ 𝜇𝑜 Prueba Bilateral
Donde 𝜇𝑜 es una constante dada.
2) Elegir del nivel de significación.

Es el riesgo de equivocarse al rechazar una hipótesis nula, si ésta fuese verdadera. Se
establece como el complemento del nivel de confianza en una estimación.

Por ejemplo: Nivel de significación:  = 0.05 ó 0.01
3) Se establece la estadística de la prueba y su distribución de probabilidades
𝑥−𝜇𝑜
𝑍= ~ 𝑁(0, 1) , pata cualquier tamaño de muestra 𝑛
𝜎 ⁄√ 𝑛
4) Construcción de las regiones de rechazo

Depende de cómo está planteada la hipótesis alternativa y de la estadística utilizada
Para cuando se usa la estadística Z

Si 𝐻𝑜 : 𝜇 < 𝜇𝑜 entonces la región de rechazo será {𝑧, 𝑡𝑎𝑙 𝑞𝑢𝑒 𝑍 < −𝑍𝛼 }
Si 𝐻𝑜 : 𝜇 > 𝜇𝑜 entonces la región de rechazo será {𝑧, 𝑡𝑎𝑙 𝑞𝑢𝑒 𝑍 > 𝑍𝛼 }
Si 𝐻𝑜 : 𝜇 ≠ 𝜇𝑜 entonces la región de rechazo será {𝑧, 𝑡𝑎𝑙 𝑞𝑢𝑒 |𝑍| > 𝑍𝛼⁄2 }
5) Cálculo del estadístico de prueba

Se calcula el valor de la estadística de la prueba, reemplazando la información obtenida en
la muestra. Se denota por 𝑍𝑜 Además podría calcularse el p_valor.
6) Decisión estadística.
a) Si Zo o t0 pertenecen a la región de rechazo, entonces rechazar Ho, o también
b) P_valor < α, entonces rechazar la hipótesis nula Ho
2. Caso de la varianza desconocida: Suponga que 𝑋1 , 𝑋2 , … , 𝑋𝑛 es una muestra de tamaño 𝑛 de

una distribución normal con media desconocida μ y varianza desconocida 𝝈𝟐 ,
Población: N
(Varianza 𝜎 2 =? : desconocida) 𝐻𝑜 : 𝜇 = 𝜇𝑜
1−∝
Muestra: n 𝑀𝑒𝑑𝑖𝑎 𝑚𝑢𝑒𝑠𝑡𝑟𝑎𝑙 𝑥̅

𝑣𝑎𝑟𝑖𝑎𝑛𝑧𝑎 𝑚𝑢𝑒𝑠𝑡𝑟𝑎𝑙 ∶ 𝑠 2
Seguiremos los siguientes pasos:

1°. Formular la hipótesis nula y alternativa
𝐻𝑜 : 𝜇 = 𝜇𝑜
𝐻𝑜 : 𝜇 < 𝜇𝑜 ó Pruebas Unilaterales
𝜇 > 𝜇𝑜 ó
𝜇 ≠ 𝜇𝑜 Prueba Bilateral

Donde 𝜇𝑜 es una constante dada.
3) Elegir del nivel de significación.

Es el riesgo de equivocarse al rechazar una hipótesis nula, si ésta fuese verdadera. Se
establece como el complemento del nivel de confianza en una estimación.
Por ejemplo: Nivel de significación:  = 0.05
4) Se establece la estadística de la prueba y su distribución de probabilidades

𝑥−𝜇𝑜
Cuando n > 30 : 𝑍= 𝑠⁄√𝑛
~ 𝑁(0, 1)
𝑥−𝜇𝑜
Cuando n ≤ 30 : 𝑡= 𝑠⁄√𝑛
~ 𝑡(𝑛−1)
5) Construcción de las regiones de rechazo

Depende de cómo está planteada la hipótesis alternativa y de la estadística utilizada
Para cuando se usa la estadística Z

Si 𝐻𝑜 : 𝜇 < 𝜇𝑜 entonces la región de rechazo será {𝑧, 𝑡𝑎𝑙 𝑞𝑢𝑒 𝑍 < −𝑍𝛼 }
Si 𝐻𝑜 : 𝜇 > 𝜇𝑜 entonces la región de rechazo será {𝑧, 𝑡𝑎𝑙 𝑞𝑢𝑒 𝑍 > 𝑍𝛼 }
Si 𝐻𝑜 : 𝜇 ≠ 𝜇𝑜 entonces la región de rechazo será {𝑧, 𝑡𝑎𝑙 𝑞𝑢𝑒 |𝑍| > 𝑍𝛼⁄2 }
Para cuando se usa la estadística 𝑡

𝛼 2 ⁄
Si 𝐻𝑜 : 𝜇 < 𝜇𝑜 entonces la región de rechazo será {𝑡, 𝑡𝑎𝑙 𝑞𝑢𝑒 𝑡 < −𝑡(𝑛−1) }
𝛼 2 ⁄
Si 𝐻𝑜 : 𝜇 > 𝜇𝑜 entonces la región de rechazo será {𝑡, 𝑡𝑎𝑙 𝑞𝑢𝑒 𝑡 > 𝑡(𝑛−1) }
𝛼 2 ⁄
Si 𝐻𝑜 : 𝜇 ≠ 𝜇𝑜 entonces la región de rechazo será {𝑡, 𝑡𝑎𝑙 𝑞𝑢𝑒 |𝑡| > 𝑡(𝑛−1) }
6) Cálculo del estadístico de prueba

Se calcula el valor de la estadística de la prueba, reemplazando la información obtenida en
la muestra. Se denota por 𝑍𝑜 ó 𝑡0 .
a) Si Zo o t0 pertenecen a la región de rechazo, entonces rechazar Ho, o también
b) P_valor < α, entonces rechazar la hipótesis nula Ho
Nota: Cuando la variable no se distribuye como una normal, puede utilizarse pruebas
alternativas como la Wilcoxon para una muestra o la prueba del signo para una muestra.

3.2. Prueba de hipótesis para comparar dos medias poblacionales

En la práctica de la investigación científica se suele utilizar con mucha frecuencia la comparación
de grupos para examinar sus semejanzas y diferencias. Si se desea examinar la eficacia de un nuevo
tratamiento o medicamento resulta apropiado comparar el efecto del nuevo tratamiento o
medicamento sobre un grupo y compararlo con el efecto experimentado por el grupo que recibió
el tratamiento o medicamento tradicional. El resultado puede ser examinado en una característica
cuantitativa o una característica cualitativa.
Para generalizar estos resultados a las poblaciones de donde provienen las muestras se aplica la
prueba de hipótesis.
Entre las pruebas estos resultados más frecuentes se encuentran las pruebas sobre la diferencia entre:
1) Las medias provenientes de dos grupos independientes (con varianzas poblacionales

desconocidas; pero supuestamente iguales).
2) Las medias provenientes de dos grupos independientes (con varianzas poblacionales
desconocidas, pero supuestamente desiguales).
3) Las medias provenientes de dos grupos relacionados.
4) Las proporciones de dos grupos.
3.2.1. Prueba de hipótesis concernientes a la diferencia de medias, con

varianzas poblacionales conocidas.
En muchos problemas de investigación aplicada, estamos interesados en hipótesis concernientes
a la diferencia ente las medias de dos poblaciones. Por ejemplo podríamos querer decidir sobre la
base de muestras apropiadas si los hombres pueden efectuar cierta tarea tan rápido como las
mujeres, o podríamos querer decidir sobre la base también de una muestra apropiada si los gastos
alimenticios semanales promedio de las familias en una ciudad a aquellos de las familias en otra
ciudad por lo menos en $5.00.
Supongamos que estamos tratando con muestras aleatorias independientes de cualquier tamaño,
𝑛1 , 𝑦 𝑛2 de dos poblaciones normales que tienen medias 𝜇1 𝑦 𝜇2 y las varianzas conocidas
𝜎12 , 𝜎22 y que queremos probar la hipótesis nula 𝜇1 − 𝜇2 = 𝛿, donde 𝛿, es una constante dada,

Pasos:
1°) Hipótesis: Ho: 𝜇1 − 𝜇2 = 𝛿. Un caso particular es cuando 𝛿 = 0
Ha: 𝜇1 − 𝜇2 < 𝛿
𝜇1 − 𝜇2 > 𝛿,
𝜇1 − 𝜇2 ≠ 𝛿 ,
2°) Elegir el nivel de significancia: α
3°) Estadística de prueba:
𝑥̅ 1 − 𝑥̅ 2 − 𝛿
𝑍= ~ 𝑁(0, 1), Para cualquier tamaño de muestra n1 y n2
𝜎2 𝜎2
√ 1+ 2
𝑛1 𝑛2
4°) Las regiones de rechazo son:
Si Ha: 𝜇1 − 𝜇2 < 𝛿 RR = { Z / Z < 𝑍𝛼 }

Ha: 𝜇1 − 𝜇2 > 𝛿 RR = { Z / Z > 𝑍𝛼 }
Ha: 𝜇1 − 𝜇2 ≠ 𝛿 RR = { Z / |Z| > 𝑍𝛼⁄2 }
5°) Calcular el valor experimental de la estadística de prueba Zo
6°) Decidir: Si Zo Є RR Rechazar Ho 𝜇1 − 𝜇2 = 𝛿, caso contrario, no

rechazarlo.
3.2.2. Prueba de hipótesis concernientes a la diferencia de medias, con

varianzas poblacionales desconocidas diferentes, pero con muestras
grandes.
Supongamos que estamos tratando con muestras grandes, aleatorias e independientes de
tamaños 𝑛1 > 30, 𝑦 𝑛2 > 30 de dos poblaciones normales que tienen medias
𝜇1 𝑦 𝜇2 y las varianzas desconocidas 𝜎12 ≠ 𝜎22 y que queremos probar la hipótesis
nula 𝜇1 − 𝜇2 = 𝛿, donde 𝛿, es una constante dada,

Pasos:
Ha: 𝜇1 − 𝜇2 < 𝛿
𝜇1 − 𝜇2 > 𝛿,
𝜇1 − 𝜇2 ≠ 𝛿 ,
𝑥̅ 1 − 𝑥̅ 2 − 𝛿
𝑍= ~ 𝑁(0, 1), Para cualquier tamaño de muestra n1 >30 y n2 >30
𝑆2 𝑆2
√ 1+ 2
𝑛1 𝑛2

Si Ha: 𝜇1 − 𝜇2 < 𝛿 RR = { Z / Z < 𝑍𝛼 }
Ha: 𝜇1 − 𝜇2 > 𝛿 RR = { Z / Z > 𝑍𝛼 }
Ha: 𝜇1 − 𝜇2 ≠ 𝛿 RR = { Z / |Z| > 𝑍𝛼⁄2 }
5°) Calcular el valor experimental de la estadística de prueba Zo

6°) Decidir: Si Zo Є RR Rechazar Ho 𝜇1 − 𝜇2 = 𝛿, caso contrario, no
rechazarlo.
3.2.3. Prueba de hipótesis de comparación de dos medias, con varianzas

poblacionales desconocidas, pero se suponen iguales: 𝝈𝟐𝟏 = 𝝈𝟐𝟐 = 𝝈𝟐
i. Prueba t para muestras independientes
Sean (𝑥11 , 𝑥12 , … , 𝑥1𝑛1 ) y (𝑥21 , 𝑥22 , … , 𝑥2𝑛2 ) dos muestras aleatorias independientes
provenientes de dos poblaciones con distribución normal 𝑁(𝜇1 , 𝜎12 ) , 𝑁(𝜇2 , 𝜎22 )

respectivamente. Deseamos comparar ambas poblaciones en cuanto a su media

suponiendo en este caso que las varianzas son desconocidas pero iguales. Las hipótesis en
prueba serán:
1° ) 𝐻𝑜 ∶ 𝜇1 − 𝜇2 = 𝛿, para todo 𝛿 = 𝐶𝑜𝑛𝑠𝑡𝑎𝑛𝑡𝑒 𝑑𝑎𝑑𝑎
𝐻𝑎 ∶ 𝜇1 − 𝜇2 < 0 , 𝜇1 − 𝜇2 > 0 ó 𝜇1 − 𝜇2 ≠ 0
2° ) Elegir el nivel de significancia ∝ = {0.05 ó 0.01}
3° ) Construir las estadísticas de prueba
𝑥̅1 − 𝑥̅2 − 𝛿
𝑡= 1 1
~ 𝑡 𝑐𝑜𝑛 (𝑛1 + 𝑛2 − 2), 𝑐𝑜𝑛 𝑛1 < 30 𝑦 𝑛2 < 30
√𝑆𝑐2 (𝑛 +𝑛 )
1 2
𝑥̅1 − 𝑥̅2 − 𝛿
𝑍= 1 1
~ 𝑁(0,1) 𝑐𝑢𝑎𝑛𝑑𝑜 𝑛1 > 30 𝑦 𝑛2 > 30 (𝑀𝑢𝑒𝑠𝑡𝑟𝑎𝑠 𝑔𝑟𝑎𝑛𝑑𝑒𝑠)
√𝑆𝑐2 (𝑛 +𝑛 )
1 2
(𝑛1 −1)𝑆12 +(𝑛2 −1)𝑆22

Donde 𝑆𝑐2 = 𝑛1 +𝑛2 −2
= 𝑉𝑎𝑟𝑖𝑎𝑛𝑧𝑎 𝑚𝑎𝑛𝑐𝑜𝑚𝑢𝑛𝑎𝑑𝑎
Ejemplo: Un Psicólogo industrial desea estudiar los efectos de la motivación en las ventas
de cierta empresa. De 22 agentes de ventas nuevos, 13 reciben un salario por hora y 9
reciben una comisión, los 22 individuos se asignaron al azar en los dos grupos. Los
siguientes datos representan las medidas de resumen, media y desviación estándar de
ambos grupos del volumen de ventas en miles de soles en el primer mes de trabajo:
Grupo 1: Pago por hora 𝑥̅1 = 11.9 𝑠1 = 6.3 𝑛1 = 13
Grupo 2: Pago por comisión 𝑥̅2 = 18.9 𝑠2 = 5.9 𝑛2 = 9
En el ejemplo, se observa una efectiva diferencia entre ambos grupos: Esta es una buena
evidencia para considerar que esta diferencia es propia entre las poblaciones de donde
provienen ambas muestras. Lo cual es una hipótesis que puede someterse a prueba.
1) Plantear la hipótesis
Hipótesis nula (H0): μ 1 = μ2 ≡ (μ1 - μ2 = 0)
Hipótesis alterna(H1): μ 1 ≠ μ2
2) Determinar el nivel de significación.

El nivel de significación usual es el 0.05 (5 por ciento). Significa que elegimos un 5 por ciento de
riesgo de equivocarnos al tomar la decisión (de rechazar la hipótesis nula).  = 0.05
3) Elegir el estadístico de la prueba y calcular el valor p.

En el caso de la diferencia de medias, el estadístico adecuado es t de Student. Si se desconocen
las varianzas de las poblaciones, pero se asume que son iguales, el estadístico de prueba es:

𝑥̅1 − 𝑥̅2
𝑡= ~ 𝑡(𝑛1 +𝑛2 −2)
1 1
√𝑆𝑐2 ( + )
𝑛1 𝑛2
Donde:
(𝑛1 −1)𝑆13 + (𝑛2 −1)𝑆22
Varianza mancomunada: 𝑆𝑐2 =
𝑛1 +𝑛2 −2
En el ejemplo
(9 − 1) × 34.81 + (13 − 1) × 39.69

𝑆𝑐2 = = 37.74
9 + 13 − 2
Entonces debemos tener que:
18.9−11.9
𝑡= 37.74 1 1
= 2.63
√ ×( + )
9 9 13
Dados los grados de libertad (n1 + n2 – 2 = 9+13 -2 = 20, a este nivel de significación le
corresponde un t crítico de:
0.025
t 20  2.09
Como el t calculado (2.63) se encuentra por encima del t de la tabla (2.09); por tanto el valor p<
0.05
4) Tomar la decisión: Si el valor p < nivel de significación, entonces se rechaza la hipótesis nula.
En el ejemplo, el valor p < 0.05 por tanto, la decisión es: Rechazar la hipótesis nula
Conclusión el estímulo por la comisión de ventas contribuye muy significativamente a

incrementar las ventas.
Nota: Si las muestras son grandes (30 o más casos cada una); entonces, se puede utilizar como
estadístico de prueba el estadístico z.
Nota: Cuando la variable no se distribuye como una normal, puede utilizarse la prueba U de Mann-Witney
ii. Prueba de hipótesis de la diferencia de dos medias con muestras pequeñas,

con varianzas poblacionales desconocidas, pero se suponen diferentes
𝝈𝟐𝟏 ≠ 𝝈𝟐𝟐:
En este caso debe emplearse una modificación de la prueba t para dos muestras
independientes con muestras pequeñas y suponiendo varianzas poblacionales diferentes.

Pasos:
Ha: 𝜇1 − 𝜇2 < 𝛿
𝜇1 − 𝜇2 > 𝛿,
𝜇1 − 𝜇2 ≠ 𝛿 ,
𝑥̅ 1 − 𝑥̅ 2 − 𝛿
𝑍= ~ 𝑡(𝑟) , Siempre que los tamaños de muestra n1 <30 y n2 <30
𝑆2 𝑆2
√ 1+ 2
𝑛1 𝑛2
2
𝑆2 𝑆2
(𝑛1 +𝑛2 )
1 2
Donde los grados de libertad ( r ) se obtienen a través de: 𝑟 = 2 2
𝑆2 𝑆2
( 1) ( 2)
𝑛1 𝑛2
+
𝑛1 −1 𝑛2 −1

𝛼
Si Ha: 𝜇1 − 𝜇2 < 𝛿 RR = { t / t < −𝑡(𝑟) }
𝛼
Ha: 𝜇1 − 𝜇2 > 𝛿 RR = { t / t > 𝑡(𝑟) }
⁄
𝛼 2
Ha: 𝜇1 − 𝜇2 ≠ 𝛿 RR = { t / |t| > 𝑡(𝑟) }
5°) Calcular el valor experimental de la estadística de prueba 𝑡𝑜

6°) Decidir: Si 𝑡𝑜 Є RR Rechazar Ho 𝜇1 − 𝜇2 = 𝛿, caso contrario, no
rechazarlo.
4. Prueba de hipótesis de la diferencia de dos medias:

Prueba t para muestras relacionadas.
Ahora presentaremos un procedimiento para analizar la diferencia entre las medias de dos grupos
cuando los datos muestrales se obtienen de poblaciones relacionadas; es decir, cuando los
resultados del primer grupo no son independientes del segundo grupo. Esta “dependencia”
característica de los dos grupos ocurre, ya sea debido a que los artículos o individuos están por pares
o apareados según alguna característica, o bien porque se obtienen medias repetidas del mismo
conjunto de artículos o individuos. En cualquier caso la variable de interés se convierte en la
diferencia entre los valores de las observaciones en lugar de las observaciones en si.

Se denominan muestras pareadas a aquellas en las cuales a cada observación en el primer grupo
corresponde una observación en el segundo grupo. En el procedimiento de autopareamiento se
toman medidas de un mismo individuo en dos momentos distintos (estudios antes y después).
El interés es analizar diferencias entre observaciones pareadas en una muestra proveniente de

una población con distribución normal.
Para determinar si existe una diferencia entre dos grupos relacionados, se obtienen las diferencias
como se muestra en la siguiente tabla:
DETEMINACIÓN DE LA DIFERENCIA ENTRE DOS GRUPOS RELACIONADOS
Grupo
Observación Diferencia
1 2
1 X11 X21 D1 = X11 – X21
2 X12 X22 D2= X12 – X22
. . . .
. . . .
. . . .
n X1n X2n Dn = X1n – X2n
𝑛
̅ = ∑𝑖=1 𝐷𝑖,
𝑀𝑒𝑑𝑖𝑎 𝑑𝑒 𝑙𝑎𝑠 𝑑𝑖𝑓𝑒𝑟𝑒𝑛𝑐𝑖𝑎𝑠: 𝐷 𝑛
∑𝑛 ̅ 2
𝑖=1(𝐷𝑖 −𝐷 )
𝐷𝑒𝑠𝑣𝑖𝑎𝑐𝑖ó𝑛 𝑒𝑠𝑡á𝑛𝑑𝑎𝑟 𝑑𝑒 𝑙𝑎𝑠 𝑑𝑖𝑓𝑒𝑟𝑒𝑛𝑐𝑖𝑎𝑠: 𝜎𝐷 = √ 𝑛−1
𝑀𝑒𝑑𝑖𝑎 𝑑𝑒 𝑙𝑎𝑠 𝑑𝑖𝑓𝑒𝑟𝑒𝑛𝑐𝑖𝑎𝑠 𝑝𝑜𝑏𝑙𝑎𝑐𝑖𝑜𝑛𝑎𝑙𝑒𝑠: 𝜇𝐷 = 𝜇1 − 𝜇2
La hipótesis en prueba es: 𝐻𝑜 : 𝜇𝐷 = 0
Los pasos son similares a cuando probamos la Hipótesis Ho: 𝜇 = 𝜇𝑜
1°) Hipótesis
2°)
Ejemplo: Nueve personas obesas aceptaron participar en una dieta muy baja en calorías, para
bajar de peso. Se desea saber si los resultados obtenidos ofrecen evidencia suficiente para afirmar
que el tratamiento es eficaz para reducir el peso de personas obesas. Los resultados fueron los
siguientes:
d  22 .59 y sd  5.32
Se aplica el procedimiento de prueba de hipótesis:
1) Plantear la hipótesis

Hipótesis nula (H0): μD =
Hipótesis alterna(H1): μD > 0
2) Determinar el nivel de significación
El nivel de significación usual es el 0.05 ( 5 por ciento). Es decir significa que determinamos un 5
por ciento de riesgo de equivocarnos al tomar la decisión ( de rechazar la hipótesis nula)
 = 0.05
3) Elegir el estadístico de la prueba y calcular el valor p.

En el caso de diferencia de medias, el estadístico adecuado es t de Student.. El estadístico de
prueba es:
d
t
sd
n
En el ejemplo:
22.59
t
5.32
9
tc = -12.74
Dados los grados de libertad (n -1), a este nivel de significación le corresponde un t crítico:
t t = 2.31
Como el t calculado (-12.74) se encuentra por debajo del t de la tabla (-2.31) el valor p < 0.05
4) Tomar la decisión
Si el valor p < nivel de significación, entonces se rechaza la hipótesis nula.
En el ejemplo, el valor p < 0.05 por tanto:

Decisión: se rechaza la hipótesis nula.
Conclusión: la dieta es efectiva.
Nota: Cuando las variables no se distribuyen como una normal, puede utilizarse pruebas alternativas
como la Wilcoxon para dos muestras pareadas o la prueba del signo para muestras pareadas

4.1.Prueba de hipótesis para la proporción de una población

La aplicación de la prueba de hipótesis acerca de la proporción de una población sigue el
mismo procedimiento que el aplicado para la prueba de hipótesis de una media. Como se
trabaja con muestras grandes, el estadístico de prueba es z.
Ejemplo: Se desea saber si el porcentaje de consumidores de drogas ilegales en esa población

es diferente a 20 por ciento. Para este caso se tomó una muestra de 316 personas y se
encontró un porcentaje de consumidores de 16 por ciento.
1) Planteamiento de la hipótesis nula
Hipótesis nula (H0): P = 0.20
Hipótesis alterna (H1): P  0.20
2) Determinación del nivel de significación.

Si el nivel de confianza es de 0.95, entonces el Nivel de significación:  = 0.05
3) Especificación y cálculo del estadístico de prueba

pP
El estadístico de prueba es Z. z  N (0,1) donde Q  1  P
P Q
n
Se calcula el estadístico de prueba:
0.16  0.20
zo   1.78
0.20 * (1  0.20 )
316
valor p (bilateral) = P(|Z| >-1.78) = 0.0751
Si la hipótesis formulada hubiese sido unilateral:

Hipótesis nula (H0): P  0.20

Hipótesis alterna (H1): P  0.20
valor p (bilateral) = 0.0751
Con la hipótesis bilateral: no se rechaza la hipótesis nula. La prevalencia de consumo no ha
disminuido.
5. Prueba de hipótesis de la diferencia de dos proporciones: Prueba z
Cuando se comparan dos grupos y la variable de interés es cualitativa, la la prueba de hipótesis utiliza
el estadístico z, dado que las muestras (para variables cualitativas) tienden a ser grandes y porque es
posible aproximar la distribución binomial a la distribución normal.
También pueden aplicarse las pruebas de una cola o de dos colas.
Ejemplo:
En un estudio comprendió dos encuestas idénticas en el 2000 y el 2005. Una pregunta formulada a las
mujeres fue: “La mayoría de los hombres son básicamente amables, corteses y considerados?”. La
encuesta del 2000 reveló que de 3000 mujeres interrogadas, 2010 contestaron afirmativamente; en
cambio en el 2005 el resultado fue que 1530 de las 3000 mujeres en la encuesta consideraron que los
hombres eran amables, corteses y considerados. Al nivel de significancia de 0.05, ¿puede concluirse
que las mujeres creen que los hombres son menos amables, corteses y considerados en el 2005
comparados con los del 2000?
Proporción de mujeres que creen que los hombres son amables, corteses y considerados:
2010
 Proporción en el 2000: p1   0.67
3000
1530
 Proporción en el 2005: p2   0.51
3000
Se aplica la prueba de hipótesis:
1) Planteamiento de la hipótesis nula:

Hipótesis nula (H0) : P1 ≤ P2
Hipótesis alterna (H1) : P1 > P2
2) Determinar el nivel de significación

α = 0.05
3) Elegir el estadístico de prueba

El estadístico de prueba es z:
p1  p 2
z
p 1  p  p 1  p 

n1 n2
donde:
a1  a2
p
n1  n2
2010  1530
En el ejemplo: p  0.59
3000  3000
(0.59)(0.61) (0.59)(0.61)
error estándar    0.015489
3000 3000
0.67  0.51
z  10.33
0.015489
valor p (unilateral)= 0.000
El valor crítico de z bajo un 95 por ciento de confianza es, para una prueba de una cola es: 1.645.
4) Tomar la decisión
Si el valor p es menor al nivel de significación, por tanto:
Decisión: rechazar la hipótesis nula
Conclusión: Efectivamente las mujeres creen que los hombres son menos amables, corteses y
considerados en el 2005 comparados con los del 2000.

Ejercicios 4
1) Un productor de capsulas de uña de gato afirma que la demanda promedio de su producto en el

mercado es de 1000 capsulas por día, sin embargo un estudio de la demanda de su producto en 36
días aleatorios da una media de 850 y una desviación estándar de 360 capsulas diarias. ¿Es esto
evidencia suficiente para contradecir la afirmación de este productor?. Utilice una prueba de una
sola cola y una probabilidad de significancia de 0.01?.
2) Cierta La duración de cierta marca de baterías es una variable aleatoria cuya distribución se supone
normal. Se estima que su duración media es de 500 horas y que el 95% del total duran entre 480.4
y 519.6 horas. Si en una muestra aleatoria de 9 de tales baterías se encuentra quela duración media
es 495 horas, ¿Es esto evidencia para concluir al nivel de significancia del 0.05 que la duración media
de todas esas baterías es diferente de 500 horas?
3) Un grupo para la defensa del consumidor desea evaluar la tasa de eficiencia de energía promedio
(EER) de una unidad de aire acondicionado de gran capacidad (más de 7000 btu) para instalar en
una ventana. Se selecciona una muestra aleatoria de estas unidades y se prueba durante un período
fijo. Los registros de la EER son los siguientes:
8.9 9.1 9.2 9.1 8.4 9.5 9 9.6 9.3

9.3 8.9 9.7 8.7 9.4 8.5 8.9 8.4 9.5
9.3 9.3 8.8 9.4 8.9 9.3 9 9.2 9.1
9.8 9.6 9.3 9.2 9.1 9.6 9.8 9.5 10.0
a. Con un nivel de significancia de 0.05, ¿Existe evidencia de que el EER promedio difiere de
9.0?
b. ¿Cuál será su respuesta en (a) si el último dato es de 8.0 en lugar de 10.0?
4) El gerente de ventas de una compañía afirma que sus vendedores venden semanalmente en
promedio $ 1500. Al nivel de significancia del 0.05 pruebe la hipótesis del gerente versus la
hipótesis del presidente de los vendedores que afirma que el promedio de las vendas semanales
es superior a $1500. Para probar esta hipótesis, se obtiene una muestra de 36 vendedores en
donde se obtiene una media igual a $ 1510 y una varianza igual a 900 $2 en una semana.
5) Suponga que el administrador de una flota de 500 taxis en una ciudad grande desea reevaluar el
contrato de mantenimiento de sus vehículos. Una parte importante del análisis considera el
“desgaste” de los vehículos, es decir el desgaste diario representado por los kilómetros recorridos
por el taxi por día. Al examinar su contrato, el administrador decide que quiere renegociarlo o
cambiarlo si el promedio es más de 70 Km. Por día. El administrador registra la lectura de los Km
cada vez que un taxi sale de la base, la diferencia representa los kilómetros totales recorridos por
el taxi por día. Se elige una muestra de 16 taxis de la flota. La siguiente tabla contiene los
kilómetros recorridos en un día específico.
107.1 121.0 71.2 76.1 95.7 92.8 74.8 92.1
94.4 42.5 82.3 56.5 74.6 91.7 63.7 62.8

El administrador sabe que Ud. está llevando un curso de estadística y le pide que analice los datos.
Utilice un nivel de significancia α = 0.05 ¿Qué concluiría acerca del kilometraje promedio recorrido
por día?
6) Para comparar la aptitud de dos poblaciones de estudiantes pre universitarios se toman dos
muestras aleatorias respectivas de tamaños 20 y 25, dando las medias respectivas de 200 y 205
puntos. Suponga que las dos poblaciones son normales con 𝜎1 = 8, 𝑦 𝜎2 = 7. Al nivel de
significancia del 1%, se podrá concluir que las medias de dos poblaciones son distintas?
7) Un agente de compras de una compañía se vio confrontado con dos marcas de computadoras para
su adquisición. Se le permitió probar ambas marcas asignando una misma tarea a 50 máquinas de
cada marca, resultando las medidas respectivas 55 y 50 minutos. Suponga las dos poblaciones
tienen varianzas homogénea igual a 100. Para α= 0.05
a) ¿Excede el tiempo promedio de la marca 1 al de la marca 2 ?
b) Hallar la potencia de la prueba cuando la diferencia real entre promedios de tiempo de marca
1 menos marca 2 sea 3 minutos
8) Se quiere determinar la diferencia entre los promedios de tiempos (en minutos) que utilizan los
hombres y las mujeres para realizar determinada tarea. Con este fin se escogen 16 hombres y 16
mujeres al azar resultando los tiempos promedios respectivos 40 y 35 minutos, y desviaciones
estándar respectivos 9 y 8 minutos. Suponga que las poblaciones de ambos tiempos son
independientes y que se distribuyen normalmente con varianzas iguales. Al nivel de significación
del 1% ¿es el tiempo promedio de hombres mayor al tiempo promedio de mujeres?
9) Una compañía debe decidir cuál de dos tipos de componente electrónica A o B va a adquirir. Hace
una prueba de 5 componentes escogidos al azar para cada marca, resultando 𝑥̅1 = 8000 y 𝑠̂1 =
2500 horas para A y 𝑥̅2 = 7000 y 𝑠̂2 = 800 horas para B. suponga poblaciones normales con
varianzas diferentes. Prueba la hipótesis nula que los rendimientos medios son guales contra la
alternativa de que A rinde más que B. Use α= 0.05
10) Una encuesta efectuada a una muestra aleatoria de 150 familias en cierta comunidad urbana reveló
que, en el 87 por ciento de los casos, por lo menos uno de los miembros de la familia tenía alguna
forma de seguro relacionado con la salud. ¿Será esta una evidencia suficiente con una confianza de
0.95, para afirmar que la proporción real de familias en la comunidad con dicha característica es
mayor a 0.85?.
11) En una muestra de 400 personas se encontró que el 71 personas que habían fumado alguna vez en
su vida. ¿Será esta una evidencia suficiente con una confianza de 0.95 para afirmar que la
proporción poblacional de personas que han fumado alguna vez es menor de 0.20?.
12) En una muestra de 144 varones y 144 mujeres se encontró que el 20 por ciento de varones preferían
películas de acción frente al 14 por ciento de mujeres que prefieren el mismo tipo de películas.
¿Puede afirmarse que, en general, los varones prefieren más las películas de acción que las
mujeres?
13) Una empresa de estudios de mercado quiere saber si un producto promocionado a nivel nacional
lo adquieren los hombres en mayor porcentaje que las mujeres. Si en dos muestras aleatorias

independientes de 900 hombres y 800 mujeres se encontró que 270 hombres y 200 mujeres
adquieren el producto, ¿Cuál es su decisión a nivel α= 0.004?
14) Verificar la afirmación de que la diferencia 𝑝1 - 𝑝2 es menor que 5 % donde 𝑝1 y 𝑝2 son las
proporciones de objetos defectuosos de dos fabricantes A y B, si dos muestras aleatorias
independientes de 200 objetos de cada fabricante dan 20 y 12objetos defectuosos
respectivamente para A y B. Use el nivel de significación: 5%.
15) En una muestra de 500 hogares de Trujillo se encuentra que 50 de ellos están viendo vía satélite
un programa especial de televisión. En Tarapoto, 28 hogares de una muestra aleatoria de 400 se
encuentran viendo el mismo programa especial. ¿Puede rechazarse la suposición de los
patrocinadores que el porcentaje de hogares que están observando el programa especial es el
mismo en las dos ciudades? Utilice una prueba bilateral y α= 0.05
16) En un estudio de mercado para determinar el rating de los programas de TV del mediodía una
muestra aleatoria de 400 hogares de cierta comunidad revela que 80 están sintonizando el
programa de TV B, 120 sintonizan el programa G y el resto sintoniza otra cosa. ¿Es la proporción
global de televidentes que sintonizan el programa B igual al que sintonizan G? Utilice α= 0.01 y una
prueba bilateral.
17) Una agencia de publicidad realizó un estudio para comparar la efectividad de un anuncio en la radio
en dos distritos. Después de difundir dicho aviso, se realizó una encuesta telefónica con 600
personas seleccionadas al azar, que viven en cada uno de los distritos resultando las proporciones:
20% y 18% respectivamente. Verificar, al nivel de significación del 5%, si son iguales de las
proporciones de personas que escucharon dicho aviso en los dos distritos mediante una prueba
unilateral.
18) En una isla, una cadena de hoteles tiene dos instalaciones. Al tabular las respuestas a la pregunta
¿elegiría este hotel otra vez? , 163 de 227 huéspedes en el beachconber contestaron que si y 154
de 262 huéspedes del Windsurfer respondieron que si. Con un nivel de significancia de 0.05
¿existen indicios de una diferencia significativa en la satisfacción del cliente (medida por la
probabilidad de que regrese al hotel) entre los dos hoteles?
19) Suponga que una compañía de aplicaciones de software desarrolla un nuevo paquete de
aplicaciones financieras. Como el tiempo de procesamiento en la computadora es un criterio
importante, el investigador diseña un experimento en el que se usarán ciertos proyectos de
aplicación financiera, tanto en el producto, líder como en el nuevo paquete. Los resultados se
muestran en la siguiente tabla
Mediciones repetidas de tiempo en segundos para proyectos de aplicación financiera terminados

en dos paquetes de software específicos.
Tiempos de terminación (segundos)
Usuario del
proyecto Con el producto líder Con el nuevo
(A) software (B)
1 9.98 9.88
2 9.88 9.86
3 9.84 9.75
4 9.99 9.80
5 9.94 9.87

6 9.84 9.84
7 9.86 9.87
8 10.12 9.86
9 9.90 9.83
10 9.91 9.86
La pregunta en este caso es si este nuevo software es más rápido o no. Utilice un nivel de
significancia de 0.05
20) Con el fin de medir el efecto de una campaña de ventas en toda la tienda para los artículos que no
se ponen en barata. El director de investigación de una cadena de supermercados tomó una
muestra aleatoria de 13 pares de tiendas según su volumen de ventas semanales. Una tienda de
cada par (el grupo experimental) se expuso a una campaña de ventas y la otra no (grupo de control)
Los siguientes dato indican los resultados para un período de una semana.
Grupo
Tienda Con campaña, de ventas Sin campaña, de ventas
(G. Experimental) (G. Control)
1 67.2 65.3
2 59.4 54.7
3 80.1 81.3
4 47.6 39.8
5 97.8 92.5
6 38.4 37.9
7 57.3 52.4
8 75.2 69.9
9 94.7 89.0
10 64.3 58.4
11 31.7 33.0
12 49.3 41.7
13 54.0 53.6
Para un nivel de significancia de 0.05 ¿Puede el director de investigación concluir que existe
evidencia de que la campaña de ventas aumentó las ventas promedio de los artículos que no se
ponen en barata?

III UNIDAD: ANALISIS DE DATOS CATEGÓRICOS
En este capítulo se discutirán técnicas estadísticas para analizar datos categóricos, los cuales
representan atributos o categorías. Primero se discuten la relación entre las variables que definen
las filas y las columnas de las tablas y luego se estudian medidas que dan una medida del grado de
asociación entre las dos variables categóricas.
PRUEBA DE INDEPENDENCIA Y DE HOMOGENEIDAD
PRUEBA DE INDEPENDENCIA DE CRITERIOS EN TABLAS DE CONTINGENCIA
Esta prueba consiste en determinar si dos criterios de clasificación son o no

independientes, para lo cual organiza la información mediante las denominadas
TABLAS DE CONTINGENCIA, las cuales son tablas de doble entrada y cada
entrada constituye un criterio de clasificación o variable cualitativa
Supongamos que cada elemento de la población se clasifica de acuerdo a dos

características distintas, que denotaremos como la característica X y la
característica Y. Suponemos que la característica X puede tomar 𝑟 valores
diferentes; y la característica Y, 𝑠 valores diferentes.
Denotamos con
𝑃𝑖𝑗 = 𝑃{𝑋 = 𝑖, 𝑌 = 𝑗} para todo 𝑖 = 1,2, … , 𝑟 y 𝑗 = 1, … . , 𝑠
Es decir que 𝑃𝑖𝑗 representa la probabilidad de que un miembro de la población,

tomado de forma aleatoria, tenga el valor 𝑖 en la característica X y el valor 𝑗 en la
característica Y.
Se supondrá que los distintos miembros de la población son independientes.
Denotemos también
𝑝𝑖 = 𝑃{𝑋 = 𝑖} = ∑𝑠𝑗=1 𝑝𝑖𝑗 ∀ 𝑖 = 1, … , 𝑟 Y
𝑟
𝑞𝑗 = 𝑃{𝑌 = 𝑗} = ∑ 𝑝𝑖𝑗 ∀ 𝑗 = 1, … , 𝑠
𝑖=1
Es decir que
𝑝𝑖 es la probabilidad de que un miembro arbitrario de la población tenga el valor
𝑖 de la característica X y
𝑞𝑗 es la probabilidad de que un miembro arbitrario de la población tenga el valor
𝑗 de la característica Y.

1. Queremos probar la hipótesis de que las características X y Y de un miembro de

la población son independientes. Por lo tanto probaremos:
𝐻𝑜 : 𝑃𝑖𝑗 = 𝑝𝑖 × 𝑞𝑗 𝑝𝑎𝑟𝑎 𝑡𝑜𝑑𝑜 𝑖 = 1, … , 𝑟 y 𝑗 = 1, … , 𝑠
La hipótesis alternativa será
𝐻𝑎 : 𝑃𝑖𝑗 ≠ 𝑃𝑖 × 𝑃𝑗 , 𝑝𝑎𝑟𝑎 𝑡𝑜𝑑𝑜 𝑖 = 1, … , 𝑟 𝑦 𝑗 = 1, … , 𝑠
En palabras esta hipótesis puede entenderse como:

𝐻𝑜 : 𝐿𝑜𝑠 𝑐𝑟𝑖𝑡𝑒𝑟𝑖𝑜𝑠 𝑑𝑒 𝑐𝑙𝑎𝑠𝑖𝑓𝑖𝑐𝑎𝑐𝑖ó𝑛 𝑋 𝑒 𝑌 𝑠𝑜𝑛 𝑖𝑛𝑑𝑒𝑝𝑒𝑛𝑑𝑖𝑒𝑛𝑡𝑒𝑠
𝐻𝑎 : 𝐿𝑜𝑠 𝑐𝑟𝑖𝑡𝑒𝑟𝑖𝑜𝑠 𝑑𝑒 𝑐𝑙𝑎𝑠𝑖𝑓𝑖𝑐𝑎𝑐𝑖ó𝑛 𝑋 𝑒 𝑌 𝑛𝑜 𝑠𝑜𝑛 𝑖𝑛𝑑𝑒𝑝𝑒𝑛𝑑𝑖𝑒𝑛𝑡𝑒𝑠
Los datos son organizados en una tabla de doble entrada o también conocida
como tabla de contingencia, donde cada una de las entradas constituyen los
criterios de clasificación
1° criterio de 2° Criterio de clasificación Total

clasificación B1 B2 B3 Ti.
A1 O11 O12 O13 T1.
A2 O21 O22 O23 T2.
A3 O31 O32 O33 T3.
A4 O41 O42 O43 T4.
Total T.j T.1 T.2 T.3 T..
En esta tabla 𝑟 = 4 𝑦 𝑠 = 3 , es decir que tiene 5 filas y 4 columnas
2. Se elige el nivel de significancia para la prueba 𝛼 = {0.05, 0.01}

La estadística de Prueba es
𝑟 𝑠 2
(𝑂𝑖𝑗 − 𝑒𝑖𝑗 ) 2
𝑈 = ∑∑ ~ 𝜒(𝑟−1)(𝑠−1)
𝑒𝑖𝑗
𝑖=1 𝑗=1
Donde:
𝑟 = 𝑁ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑐𝑎𝑡𝑒𝑔𝑜𝑟í𝑎𝑠 𝑑𝑒𝑙 1° 𝑐𝑟𝑖𝑡𝑒𝑟𝑖𝑜 𝑑𝑒 𝑐𝑙𝑎𝑠𝑖𝑓𝑖𝑐𝑎𝑐𝑖ó𝑛
𝑠 = 𝑁ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑐𝑎𝑡𝑒𝑔𝑜𝑟í𝑎𝑠 𝑑𝑒𝑙 2° 𝑐𝑟𝑖𝑡𝑒𝑟𝑖𝑜 𝑑𝑒 𝑐𝑙𝑎𝑠𝑖𝑓𝑖𝑐𝑎𝑐𝑖ó𝑛
𝑂𝑖𝑗 = 𝑓𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎 𝑜𝑏𝑠𝑒𝑟𝑣𝑎𝑑𝑎 𝑒𝑛 𝑙𝑎 𝑐𝑒𝑙𝑑𝑎 (𝑖, 𝑗) 𝑑𝑒 𝑙𝑎 𝑡𝑎𝑏𝑙𝑎 𝑑𝑒 𝑐𝑜𝑛𝑡𝑖𝑛𝑔𝑒𝑛𝑐𝑖𝑎
𝑇𝑖. × 𝑇.𝑗
𝑒𝑖𝑗 = = 𝑓𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎 𝑒𝑠𝑝𝑒𝑟𝑎𝑑𝑎 𝑒𝑛 𝑙𝑎 𝑐𝑒𝑙𝑑𝑎 (𝑖, 𝑗) 𝑑𝑒 𝑙𝑎 𝑡𝑎𝑏𝑙𝑎 𝑑𝑒 𝑐𝑜𝑛𝑡𝑖𝑛𝑔𝑒𝑛𝑐𝑖𝑎
𝑇..

2
𝜒(𝑟−1)(𝑠−1) = 𝐷𝑖𝑠𝑡𝑟𝑖𝑏𝑢𝑐𝑖ó𝑛 𝐽𝑖 𝐶𝑢𝑎𝑑𝑟𝑎𝑑𝑜 𝑐𝑜𝑛 (𝑟 − 1) × (𝑠 − 1)𝑔𝑟𝑎𝑑𝑜𝑠 𝑑𝑒 𝑙𝑖𝑏𝑒𝑟𝑡𝑎𝑑
Si 𝑟 = 4 𝑦 𝑠 = 3, entonces (𝑟 − 1) × (𝑠 − 1) = (4 − 1) × (3 − 1) = 3 × 2 = 6
Supuestos de la Prueba Ji Cuadrado

Esta prueba tiene dos supuestos que cumplir
1°. No deben existir celdas vacías, es decir que 𝑂𝑖𝑗 > 0, ∀ 𝑖, 𝑗 = 1, … , 𝑟
2°. A lo más el 20% del total de celdas podrían tener frecuencias esperadas
menores que 5 (𝑒𝑖𝑗 < 5).
Estos supuestos hacen que esta prueba necesite gran cantidad de información,
puesto que el incumplimiento de cualquiera de ellos la invalida.
3. La región de rechazo será

2
𝑅𝑅 = {𝑈, 𝑡𝑎𝑙 𝑞𝑢𝑒 𝑈 > 𝜒(𝑟−1)(𝑠−1),𝛼 }
2 2
Si 𝑟 = 4 𝑦 𝑠 = 3 𝑦 𝛼 = 0.01 , entonces 𝜒(4−1)(3−1),0.01 = 𝜒(6),0.01 = 12.59
Entonces 𝑅𝑅 = {𝑈 , 𝑡𝑎𝑙 𝑞𝑢𝑒 𝑈 > 12.59}, la cual está representada por la línea
roja en la siguiente figura.
4. Encontrar el valor experimental de la estadística de prueba 𝑈𝑜 , remplazando la

información de la muestra en la estadística de prueba.

5. Decisión: Si 𝑈𝑜 ∈ 𝑅𝑅 entonces rechazar la hipótesis nula 𝐻𝑜 , caso contrario, no

rechazarlo. Otra manera de decidir es calculando de 𝑝_𝑣𝑎𝑙𝑜𝑟, y si 𝑝𝑣𝑎𝑙𝑜𝑟 < 𝛼
entonces rechazar la hipótesis nula 𝐻𝑜 , caso contrario no rechazarlo.
Ejemplo.
Una empresa que vende cuatro productos, desea determinar si las ventas se
han distribuido similarmente entre cuatro clases generales de clientes. Una
muestra al azar de 1000 registros de ventas proporciona la siguiente
información. Use ∝ = 0.01
Valores observados
Producto
Grupo de clientes
1 2 3 4 Total (Ti.)
Profesionales 85 23 56 36 200
Hombres de negocios 153 44 128 75 400
Obreros industriales 128 26 101 45 300
Granjeros 34 7 15 44 100
Total (T.j) 400 100 300 200 1000
1. Las hipótesis en prueba son:

𝐻𝑜 : 𝑙𝑎 𝑣𝑒𝑛𝑡𝑎𝑠 𝑑𝑒 𝑙𝑜𝑠 𝑑𝑖𝑓𝑒𝑟𝑒𝑛𝑡𝑒𝑠 𝑡𝑖𝑝𝑜𝑠 𝑑𝑒 𝑝𝑟𝑜𝑑𝑢𝑐𝑡𝑜 𝑠𝑜𝑛 𝑖𝑛𝑡𝑒𝑝𝑒𝑛𝑑𝑖𝑒𝑛𝑡𝑒𝑠 𝑑𝑒𝑙 𝑔𝑟𝑢𝑝𝑜 𝑑𝑒 𝑐𝑙𝑖𝑒𝑛𝑡𝑒𝑠
𝐻𝑎 : 𝑙𝑎 𝑣𝑒𝑛𝑡𝑎𝑠 𝑑𝑒 𝑙𝑜𝑠 𝑑𝑖𝑓𝑒𝑟𝑒𝑛𝑡𝑒𝑠 𝑡𝑖𝑝𝑜𝑠 𝑑𝑒 𝑝𝑟𝑜𝑑𝑢𝑐𝑡𝑜 𝑑𝑒𝑝𝑒𝑛𝑑𝑒𝑛 𝑑𝑒𝑙 𝑔𝑟𝑢𝑝𝑜 𝑑𝑒 𝑐𝑙𝑖𝑒𝑛𝑡𝑒𝑠
Valores esperados
Producto
Grupo de clientes 1 2 3 4 Total
Profesionales 80 20 60 40
Hombres de negocios 160 40 120 80
Obreros industriales 120 30 90 60
Granjeros 40 10 30 20
Total

Cálculos del valor experimental de la estadística de prueba

Producto
Grupo de clientes 1 2 3 4
Profesionales 0.313 0.450 0.267 0.400
Hombres de negocios 0.306 0.400 0.533 0.313
Obreros industriales 0.533 0.533 1.344 3.750
Granjeros 0.900 0.900 7.500 28.800
47.242
(85 − 80)2 (44 − 20)2

𝑈𝑜 = + ⋯.+
80 20
𝑈𝑜 = 0.313 + ⋯ . +28.800 = 47.242
La región de rechazo es
2
𝑅𝑅 = {𝑈, 𝑡𝑎𝑙 𝑞𝑢𝑒 𝑈 > 𝜒(9),0.01 = 21.67}
Decisión:
Como el valor experimental de la estadística pertenece a la región de rechazo,
entonces rechazamos Ho;
Conclusión
Las ventas de los diferentes tipos de productos si dependen del tipo de cliente
con un coeficiente de significancia es 0.01.

MEDIDAS DE ASOCIACIÓN
A continuación desarrollaremos algunas medidas de asociación que nos
permitirán, entre otras cosas, cuantificar, si es el caso, el grado de
asociación entre dos variables categóricas (nominales) o entre dos criterios de
clasificación.
COEFICIENTE DE ONTINGENCIA DE PEARSON

Este coeficiente mide el grado de asociación o correlación entre las dos
variables cualitativas o criterios de clasificación. Toma valores entre 0 y 1.
Mientras más cercano se encuentre al cero (0) la correlación será más débil, en
cambio mientras más cercano esté del 1, la correlación será más fuerte.
𝑈𝑂
𝐶= √
𝑛 + 𝑈0
Ejemplo:
Para el ejemplo anterior, el coeficiente de contingencia de Pearson será.
𝑈𝑂 47.242
𝐶= √ = √ = 0.2124
𝑛 + 𝑈0 1000 + 47.242
Podemos apreciar que este coeficiente es pequeño, por lo que debemos

concluir que si bien es cierto, los dos criterios de clasificación son dependientes;
sin embargo el grado de asociación entre ellos es pequeña.
COEFICIENTE DE ONTINGENCIA DE CRAMER

Este coeficiente mide el grado de asociación o correlación entre las dos
variables cualitativas o criterios de clasificación. Toma valores entre 0 y 1.
Mientras más cercano se encuentre al cero (0) la correlación será más débil, en
cambio mientras más cercano esté del 1, la correlación será más fuerte.
𝑈𝑂
𝑉= √
𝑛(ℎ − 1)
Donde: ℎ = 𝑀í𝑛 {𝑟, 𝑠}
Ejemplo: Para el ejemplo anterior, el coeficiente de contingencia de Pearson

será.
ℎ = 𝑀í𝑛{𝑟, 𝑠} = 𝑀í𝑛{4,4} = 4

𝑈𝑂 47.242
𝑉= √ = √ = 0.1255
𝑛(ℎ − 1) 1000(4 − 1)
Podemos apreciar que este coeficiente es pequeño, por lo que debemos

concluir que si bien es cierto, los dos criterios de clasificación son dependientes;
sin embargo el grado de asociación entre ellos es pequeña.
PRUEBAS DE HOMOGENEIDAD
Las pruebas de homogeneidad se usan para determinar si dos o más muestras
independientes al azar son extraídas de la misma población o de diferentes
poblaciones
La prueba Ji Cuadrado de homogeneidad es una extensión de la prueba Ji
Cuadrado de independencia. En ambos casos tratamos con datos clasificados
en tablas de doble entrada también conocidas como tablas de clasificación
cruzada o tablas de contingencia. Como veremos inmediatamente, también, la
misma estadística de prueba usada para pruebas de independencia es usada
para pruebas de homogeneidad. Pero estos dos tipos de prueba son diferentes
en algunos aspectos.
Primero, se asocian con diferentes clases de problemas. Las pruebas de
Independencia se aplican al problema de si un atributo es independiente de
otro; mientras que las pruebas de homogeneidad se aplican cuando se desea
saber si diferentes muestras proceden de la misma población.
Segundo, las primeras suponen una sola muestra tomada de una población; pero las
segundas, suponen dos o más muestras independientes, una de cada una de las
poblaciones en cuestión. Este segundo hecho también implica que, en el caso de
Independencia, todas las frecuencias marginales son cantidades al azar,
mientras que en el caso de homogeneidad, los totales de las filas son tamaños
de muestra que son números escogidos.
Para ilustrar este tipo de prueba, supongamos que se toman tres muestras, una
consta de 115 profesionales, otra de 110 hombres de negocios y otra y otra de
125 granjeros. A cada individuo de las muestras se le pide que escoja, por
ejemplo, una de las tres categorías que represente mejor sus sentimientos hacia
determinada política nacional. Supongamos que estas tres categorías son: 1) A
favor de la política, F; 2) en contra de la política, A; 3) Indiferente hacia la política
I. Supongamos que los resultados de las entrevistas se distribuyen como sigue:

DATOS OBSERVADOS
Reacción
Ocupación En favor de la En contra de la Indiferente hacia la Total
política( F) política( A) política( I )
Profesionales 80 21 14 115
Hombres de negocios 72 15 23 110
Grenjeros 69 31 25 125
Total 221 67 62 350
De la forma en que es planteado el problema, una hipótesis nula apropiada que

ha de comprobarse parece ser: Las tres muestras proceden de la misma
población; es decir, las tres clasificaciones son homogéneas en lo que respecta
a la opinión de los tres grupos diferentes de personas acerca de la política
nacional que se considera. Esto también significa que no existe diferencia de
opiniones entre las tres clases de personas sobre la cuestión. De la expresión
alternativa de la hipótesis nula para este problema podemos ver por qué se la
llama una prueba de homogeneidad. (cuando decimos que las cosas son
homogéneas entendemos que tienen algo en común o son iguales)
Vemos que si la hipótesis nula expuesta antes es cierta, entonces las mejores
estimaciones de proporciones que especifican “en favor de la política”, “en
contra de la película“ e “indiferente hacia la política”, respectivamente deben
ser: 221⁄350 , 67⁄350 𝑦 62⁄350. Así, de los 115 profesionales, las frecuencias
esperadas para las tres categorías son:
221×115
= 72.61 𝑎 𝑓𝑎𝑣𝑜𝑟
350
67 × 115
= 22.01 𝑒𝑛 𝑐𝑜𝑛𝑡𝑟𝑎
350
62 × 115
= 20.37 𝐼𝑛𝑑𝑖𝑓𝑒𝑟𝑒𝑛𝑡𝑒
350
Las frecuencias esperadas para los otros dos grupos de personas se calculan
de igual modo. Las frecuencias esperadas para todo el problema son como
sigue.
DATOS ESPERADOS
Reacción
Ocupación En favor de la En contra de la Indiferente hacia la Total
política( F) política( A) política( I )
Profesionales 72.614 22.014 20.371 115
Hombres de negocios 69.457 21.057 19.486 110
Grenjeros 78.929 23.929 22.143 125
Total 221 67 62 350

Siguiendo otra vez nuestro procedimiento general de prueba de hipótesis,

tenemos esta prueba de homogeneidad para el problema:
1° Hipótesis: Ho: Las tres muestras son extraídas de la misma población
Ha: Las tres muestras son extraídas de diferentes poblaciones
2° Nivel de Significancia: ∝ = 0.05
3° Estadística de Prueba:
𝑟 𝑠 2
(𝑂𝑖𝑗 − 𝑒𝑖𝑗 ) 2
𝑈 = ∑∑ ~ 𝜒(𝑟−1)(𝑠−1)
𝑒𝑖𝑗
𝑖=1 𝑗=1
4° Regla de decisión: 𝑅𝑅 = {𝑈, 𝑡𝑎𝑙 𝑞𝑢𝑒 𝑈 > 𝜒(2𝑟−1)(𝑠−1),𝛼 = 𝜒4,0.05

2
= 9.49}
5° Valor de la estadística de prueba:
(85 − 72.61)2 (25 − 22.14)2
𝑈𝑜 = + ⋯.+ = 8.96
72.61 22.14
6° Decisión: Como 𝑈0 𝜖 𝑅𝑅, → 𝑁𝑜 𝑟𝑒𝑐ℎ𝑎𝑧𝑎𝑟 𝐻𝑜
Por lo tanto Las tres muestras son extraídas de la misma población, es decir
que las opiniones de los profesionales, los hombres de negocios y los granjeros
son homogéneas en cuanto se refiere a la política nacional que se discute

Ejercicios 5
1. Una tienda de departamentos emplea a 300 hombres y 400 mujeres. En un año
dado, fueron registrados 3100 días de ausencia de ausencia para hombres y 4600
días de ausencia para mujeres. ¿Podríamos decir que la ausencia al trabajo
depende del sexo de los trabajadores?. Use una prueba Ji cuadrado de
independencia de criterios con 𝛼 = 0.01.
2. Una firma de investigación de mercados desea determinar si la inclusión de un
pago de 5 soles aumentaría el número de respuestas. 300 cuestionarios, la mitad
con un pago de 5 soles y la otra mitad sin dicho pago, son entrevistados a 300
personas escogidas al azar; se obtienen los siguientes resultados
Respondieron
Pago de 5 soles Total
Si No
Si 97 53 150
No 80 70 150
Total 177 123 300
¿Hay evidencia empírica suficiente con ∝= 0.05, para afirmar que la respuesta al
cuestionario depende del pago de 5 soles por encuesta?
3. Se toman tres muestras al azar de estudiantes de cierta universidad. La primera
contiene 100 estudiantes graduados, la segunda contiene 100 estudiantes del
último semestre, y la tercera 100 estudiantes del 1° semestre. A los miembros de
cada muestra se les pregunta si la instrucción que están recibiendo la consideran
excelente, buena o media y se obtienen los siguientes resultados.
Respondieron
Clasificación
Excelente Buena Media
Graduados 77 12 11
Último semestre 73 7 20
Primer semestre 85 10 5
¿Podemos afirmar que las clasificaciones son homogéneas en cuanto a la

percepción del servicio recibido?
4. En un estudio sobre drogodependencias se han obtenido sendas muestras de

hombres y mujeres de niveles socio-económicos similares a los que se les ha
preguntado por el consumo diario de alcohol (medidos en el equivalente a vasos de
vino). El resultado de las respuestas se recoge en la siguiente tabla de contingencia:
Consumo diario de alcohol (en vasos)

Sexo Total
0 1 2 3 4 5 ó más
Varón 2 24 49 24 17 10 126
Mujer 32 42 66 40 15 5 200
Total 34 67 117 67 36 15 326

Pruebe si el consumo es homogéneo entre ambos sexos, es decir, si las

proporciones de hombres y mujeres que consumen un determinado número
de vasos diarios de vino son las mismas.
5. Una editorial italiana, Cuore Editrice, especializada en la llamada prensa del
corazón, pretende lanzar al mercado español un nuevo producto. Por tratarse
de un mercado muy saturado, la editorial ha encargado un encuesta para
conocer los gustos de sus potenciales lectores y poder así diseñar una revista
con garantías de éxito. Uno de los objetivos de la encuesta es conocer si,
como habitualmente se afirma, este tipo de revistas es más leída por las
mujeres. el resultado de la encuesta aplicada a 325 personas ha dado lugar
a la siguiente tabla de contingencia:
Lectura de la revista
Sexo Total
Si lee No lee
Varón 80 55 135
Mujer 131 59 190
Total 211 114 325
Al afirmar que las mujeres son las lectoras mayoritarias de estas revistas,
estamos admitiendo simultáneamente que los hombres lo hacen en menor
medida. Una forma de referirnos a este doble hecho es afirmando que la
lectura de estas revista está asociada al, o depende del sexo del, lector. Por
lo tanto se le pide probar la hipótesis de independencia entre los hábitos de
lectura de esta clase de revistas y el sexo del lector.
6. Estamos interesados en estudiar la satisfacción de cierto sistema de atención

al público con relación al operario que suministra el servicio. Para realizar
esto, tomamos una muestra de 110 clientes atendidos por el 1° canal de
atención, 100 del 2° y 90 del 3° canal de atención, y de cada uno de ellos
tres canales de atención medimos el número de clientes no satisfechos en
cada. La siguiente tabla muestra el número de clientes no satisfechos en
cada uno de los canales de atención al cliente.
Satisfacción del cliente Total de clientes
Canal de servicio No satisfecho Satisfecho en la muestra
1° Canal de servicio 16 94 110
Total 49 251 100
¿Con una confianza del 0.95, se podrá decir que hay homogeneidad en los
tres canales de servicio?
7. Estamos interesados en estudiar la relación entre la presencia de sueño en

el trabajo y los hábitos de consumo de café. Para realizar esto seleccionamos
una muestra de 150 individuos, 100 individuos consumidores de café y 50 no

consumidores. La siguiente tabla muestra las frecuencias de la presencia de

sueño el trabajo en cada grupo.
Hábitos de Presencia de sueño en el

consumo de trabajo Total
café Si No
Consumidor 12 88 100
No consumidor 25 25 50
Total 37 113 150
Realizar un contraste de homogeneidad y obtener las conclusiones sobre la
relación entre las variables.
8. Para estudiar la dependencia entre la práctica de algún deporte y el estado

de ánimo en el trabajo, se seleccionó una muestra aleatoria simple de 100
trabajadores, con los siguientes resultados:
Estado de ánimo en el trabajo

Actividad Total
Deprimido No deprimido
Deportista 38 9 47
No deportista 31 22 53
Total 69 31 100
Determinar si existe independencia entre la actividad del trabajador y su

estado de ánimo. Nivel de significación (5%)
9. Un estudio que se realizó con 81 personas referente a la relación entre la

cantidad de violencia vista en la televisión y la edad del televidente produjo
los siguientes resultados.
Cantidad de violencia Edad del televidente (años)

Total
vista en la TV 15 - 34 35 - 54 55 a más
Poca violencia 8 12 21 41
Mucha violencia 18 15 7 40
Total 26 27 28 81
¿Indican los datos que ver violencia en la televisión depende de la edad del
televidente, a un nivel de significación del 5%?

IV. UNIDAD: MUESTREO
1. MUESTREO
6. MUESTREO: El Muestreo es parte de la Estadística. En su formulación más general,

puede decirse que su función básica es determinar qué parte de una realidad en
estudio a la que suele llamarse población debe examinarse con la finalidad de hacer
inferencia sobre el todo de la población de la que procede.
El muestreo es, una herramienta de la investigación científica; según Cochran W. Tiene

como objetivo desarrollar métodos de selección de muestras y de estimación, que
proporcionen, al menor costo posibles, estimaciones con la suficiente exactitud para
nuestros propósitos.
7. VENTAJAS DEL MUESTREO.-

7.1.1.1.1. COSTO REDUCIDO.-
Si los datos se obtienen únicamente de una pequeña fracción del total, los gastos son
menores que los que se realizarían si se llevara a cabo un censo completo. En
poblaciones muy grandes se pueden obtener resultados lo suficientemente exactos
cuando se analizan muestras que representan sólo una pequeña fracción de la
población.
7.1.1.1.2. MAYOR RAPIDEZ.-
Los datos pueden ser recolectados y resumidos más rápidamente con una muestra que
con una enumeración completa. Esta es una consideración vital cuando se necesita la
información con urgencia.
7.1.1.1.3. MAS POSIBILIDADES.-

Para obtener la información en ciertos tipos de encuestas, se utilizan los servicios de
personal altamente calificado o equipo muy especializado de disponibilidad limitada.
Por lo tanto, en estos casos el censo completo es impracticable y como alternativa a
la obtención de datos por muestreo, solo existe la de no obtenerlos. De ahí que las
encuestas basadas en el muestreo tengan más posibilidades y flexibilidad respecto a
la información que puede obtenerse.
7.1.1.1.4. MAYOR EXACTITUD.-

Debido a que al reducir el volumen de trabajo se puede emplear personal más
capacitado y someterlo a un entrenamiento intensivo y debido también a que en estas
condiciones será factible la supervisión cuidadosa del trabajo de campo y del
procesamiento de los datos, una muestra puede producir resultados más exactos que la
enumeración completa.
7.1.1.1.5. ÚNICO MÉTODO DE ESTUDIO.-

Hay situaciones en las que la observación de unidades implica la destrucción de las
mismas, el muestreo en el único método lógico de obtener datos para tener información
de la población.

TERMINOLOGÍA TÉCNICA:
7.1.1.1.6. UNIDAD DE OBSERVACIÓN.-
Son los elementos de la población sobre los cuales se medirán las variables de
interés. Ésta es la unidad básica, a veces llamada elemento. En los estudios de
poblaciones humanas la unidad de observación son los individuos.
Ejemplo: En una investigación sobre el estado nutricional y el rendimiento escolar de

los niños del nivel primario; la unidad de observación son los niños del nivel primario.
7.1.1.1.7. POBLACION.-
Es el conjunto de todas las unidades de análisis cuyas características se van a estimar.
Una población debe definirse en términos de su contenido, extensión y tiempo
Ejemplo: Estudiantes del Colegio Nacional San José de Chiclayo,

matriculados en el año 2013
Una población en estudio debe estar definida sin ambigüedad, de manera que
no dé lugar a confusiones.
7.1.1.1.8. POBLACION OBJETIVO.-
La población objetivo está constituida por todos los elementos (unidades de
observación), sin límite a través del tiempo y del espacio, que constituyen el objetivo
final de la generalización o inferencia.
POBLACION MUESTRAL.-
La población muestral está constituida por una parte o un subconjunto de la población
objetivo. Está determinada y delimitada en el tiempo y en el espacio y de cuyos
elementos en la práctica se obtiene la muestra para realizar el estudio.
7.1.1.1.9. MUESTRA.-
Una muestra es un conjunto de unidades, una porción del total, que nos
representa la conducta del universo en su conjunto.
Una muestra, en un sentido amplio, no es más que eso, una parte del todo que
llamamos universo y que sirve para representarlo.
Sin embargo, no todas las muestras resultan útiles para llevar a cabo un trabajo
de investigación. Lo que se busca al emplear una muestra es que, observando
una porción relativamente reducida de unidades, se obtengan conclusiones
semejantes a las que lograríamos si estudiáramos el universo total. Cuando una
muestra cumple con esta condición, es decir, cuando nos refleja en sus unidades
lo que ocurre en el universo, la llamamos muestra representativa. Por lo tanto,
una muestra representativa contiene las características relevantes de la
población en las mismas proporciones en que están incluidas en tal población.

Sus conclusiones son susceptibles de ser generalizadas al conjunto del universo,

aunque para ello debamos añadir un cierto margen de error en nuestras
proyecciones.
Las muestras pueden ser clasificadas, en una primera división en probabilísticas
y no probabilísticas.
En las muestras probabilísticas, la característica fundamental es que todo
elemento del universo tiene una determinada probabilidad de integrar la muestra,
y esa probabilidad puede ser calculada matemáticamente con precisión. En las
muestras no probabilísticas ocurre lo contrario y el investigador no tiene idea del
error que puede estar introduciendo en sus apreciaciones.
7.1.1.1.10. UNIDAD DE MUESTREO.-

La unidad de muestreo y la unidad de análisis son las mismas, pero hay casos
en que no lo son. Una unidad de muestreo puede contener un conjunto de
unidades de observación o, incluso, un conjunto de unidades de muestreo
correspondientes a una etapa posterior de selección.
Ejemplo:
Podríamos querer estudiar a las personas, pero no tenemos una lista de todos
los individuos que pertenecen a la población objetivo. En vez de esto, la vivienda
sirven como las unidades de muestreo y las unidades de observación son los
individuos que viven en una vivienda.
7.1.1.1.11. MARCO MUESTRAL.-

Un marco muestral es una lista de unidades de muestreo de tal forma que se
pueda seleccionar de allí, las unidades que constituirán la muestra. El marco
muestral es indispensable, al menos cuando se trata de realizar un muestreo
probabilístico. Debe ser actualizado (sin omisiones ni duplicaciones.)
Ejemplos de marcos muestrales:

1. La guía telefónica
2. Padrón de empresas públicas y privadas
3. Un plano de la ciudad.
4. Mapa de un país.
5. El listado de alumnos.
6. Área de un terreno de cultivo.
7.1.1.1.12. PLAN MUESTRAL.-

Conjunto se reglas o especificaciones para seleccionar una
muestra.

7.1.1.1.13. DISEÑO MUESTRAL.- El diseño muestral comprende el método de

selección y estimación, el cual debe ser indicado en todo estudio muestral.
Ejemplo: Los Estilos de vida de los residentes en distrito de Chiclayo

Variable en estudio: Estilos de Vida.
Escala de medida: Nominal
Unidad de Observación: Cada uno de los residentes del distrito de Chiclayo
Población Objetivo: Todos los residentes
Población Muestral: Todos los residentes del distrito de Chiclayo
Ejemplo: Si se desea estudiar factores que influyen, para drogarse, en los Jóvenes de
una determinada ciudad, no se podría tener información sobre cuántos son, dónde
viven, como se llaman, por lo que sería imposible extraer una muestra de estos Jóvenes.
El investigador tendría que tomar una muestra de casas para poder llegar a los Jóvenes.

8. TIPOS DE MUESTREO
9. MUESTRAS NO ALEATORIAS
Si consideramos que no precisamos cifras exactas sobre la representatividad estadística

de nuestros resultados, podríamos plantearnos el usar una muestra no aleatoria (o "no
probabilística"), lo que significa que elegiremos a voluntad nuestra. Podemos considerar
que esto puede ayudarnos a obtener los elementos que necesitamos estudiar
directamente y, además, actuar sin los tediosos procesos de selección aleatoria y
verificación estadística.

Sin embargo, hay una desventaja: corremos un gran riesgo de obtener demasiado sesgo
en la muestra. No seremos capaces siquiera de advertir la presencia, y menos aún la
cantidad, de sesgo si hacemos personalmente la selección de la muestra. Y la presencia
de sesgo puede hacer imposible generalizar nuestros resultados.
Un modo de reducir el sesgo hasta cierto punto es dejar a otra persona o grupo la
selección de los elementos.
Estas muestras son bastante útiles en aquellas situaciones en las cuales no es posible
utilizar un muestreo probabilista, es decir cuando no es posible disponer de un marco
muestral para la selección de los elementos de la muestra. Su utilización está reservada
solo para aquellos investigadores que conocen la estructura de la población y tienen un
criterio suficientemente bueno para conseguir representatividad; incluso si se dispone de
un buen criterio para conseguir representatividad es posible obtener mayor precisión a
más bajos costos que con un muestreo probabilista.
Entre los tipos comunes de muestras no aleatorias se incluyen,
Muestra de "casos típicos" o los "mejores" casos es algo bastante tradicional en historia
del arte: estudiar solamente los "grandes maestros". La idea es que éstos representan
lo más auténtico de su época. Tal selección deliberada por parte del investigador tiene
no obstante riesgos serios, que se tratan en el punto Delimitar el objeto de estudio.
Muestra de conveniencia. Un grupo existente, por ejemplo la gente en una reunión,

podría ser designado como muestra. Este es un método fácil y barato, pero el sesgo
suele ser imposible de estimar. El método es popular en las demostraciones de cursos
sobre métodos, pero raramente usado en la investigación profesional.
Muestra de voluntarios es creada cuando todos los miembros de la población tienen la

oportunidad de participar en la muestra. Un ejemplo es la respuesta voluntaria de los
clientes que llega a una empresa; igualmente, las respuestas que un investigador recibe
a un anuncio en un periódico pidiendo a la gente sus opiniones.
Una muestra de voluntarios suele ser una alternativa bastante sensata; no obstante, el
investigador debe considerar cuidadosamente los riesgos de sesgo. Hay dos cuestiones
que plantearse:
¿Es cierto que todos los miembros de la población bajo muestreo tenían las mismas
oportunidades de ser incluidos en la muestra? Por definición, los voluntarios difieren de
la media de la población en su mayor actividad. La cuestión crucial entonces es ¿difieren
del resto de la población también en otros aspectos?.
Muestra bola de nieve. Cuando se entrevista a miembros de un grupo, podemos pedir

a las personas que nos indiquen otros individuos en ese grupo que estén en la mejor
posición para dar información sobre ese tema; podríamos también pedirles que nos
indicasen personas que compartan sus puntos de vista y también otras que sean de
opinión opuesta. Entonces entrevistaremos a nuevos individuos y continuaremos del

mismo modo hasta que no obtengamos nuevos puntos de vista de nuevos entrevistados.
Este es un buen método por ejemplo para recoger los distintos puntos de vista existentes
en un grupo, pero su inconveniente es que no obtenemos una idea exacta de la
distribución de las opiniones.
En el momento de diseñar una muestra no aleatoria, debemos siempre tener en mente

la población. ¿Es representativa la muestra? ¿Son válidos los resultados en la
población?
Recordemos también que no tenemos que incluir elementos que no sean miembros de
la población en nuestra muestra.
Por ejemplo, podríamos decidirnos (de forma bastante sensata) por investigar las
preferencias de los clientes de electrodomésticos entrevistando a vendedores. O
podríamos estudiar las historias de vida de arrendatarios mediante un
cuestionario a administradores de casas o caseros. La idea es factible, ya que
esta gente habitualmente conoce mucho sobre el tema. Sin embargo, los
"especialistas" no pueden ser tomados como muestra de "no especialistas". Son
dos poblaciones diferentes. No debiéramos generalizar los resultados de
"especialistas" a ninguna otra población que no sea la de "especialistas",
cualquiera que sea el campo del que tratemos.
En los ejemplos de arriba, podríamos tal vez continuar transformando los resultados a
partir de los especialistas en hipótesis que más tarde verificaríamos con una muestra
apropiada de la población "real" o de no especialistas, que serían en los ejemplos
citados, respectivamente, los consumidores y los arrendatarios. En otras palabras,
podríamos usar la entrevista de los especialistas sólo como un estudio preliminar.
10. Tamaño de Muestras no aleatorias

No hay fórmula para determinar el tamaño de una muestra no aleatoria. Con frecuencia,
especialmente en investigaciones cualitativas, podemos simplemente ampliar
gradualmente nuestra muestra y analizar los resultados siempre que continúen llegando
nuevos casos con información relevante o nueva; en cambio, cuando en los casos
nuevos ya no se presenta información nueva, podemos concluir que nuestra muestra
está saturada, y terminaremos el trabajo de muestreo. Este método es, sin embargo,
muy vulnerable al muestreo sesgado, con lo que tenemos que ser muy cuidadosos y
asegurarnos que no omitimos a ningún grupo de nuestra población.
Antes de decidir el tamaño de una muestra no aleatoria, tal vez debamos leer cómo
debe ser evaluada la representatividad de los resultados a partir de una muestra no
aleatoria. De otro modo podríamos sufrir una sorpresa bastante desagradable cuando
estemos intentando, demasiado tarde, definir la población en que nuestros resultados
puedan ser declarados válidos.

11. ERROR DE MUESTREO:
Recordemos que la muestra descansa en el principio de que las partes

representan al todo y, por tal, refleja las características que definen a la población
de la cual fue extraída, lo cual nos indica que es representativa. Es decir, que
para hacer una generalización exacta de una población, es necesario tomar una
muestra representativa. Por lo tanto, la validez de la generalización depende de
la validez y tamaño de la muestra.
Cuando trabajamos con muestras, generalmente se presentan dos tipos de

errores:
Error sistemático. Llamado de distorsión o sesgo de la muestra, se presentan
por causas ajenas a la muestra:
 Situaciones inadecuadas: se presentan, por ejemplo, cuando el encuestador

tiene dificultades para obtener la información y la sustituye por la que más fácilmente
está a su alcance, que no siempre es la más confiable.
 Insuficiencia en la recolección de datos: hay distorsión por falta de respuestas,
o respuestas inadecuadas, ya sea por ignorancia o falta de datos relativos a los
elementos incluidos. Distorsiones del encuestador causadas por prejuicios, interés
personal o por fallas en la aplicación de instrumentos.
 Errores de cobertura a causa de que no se han incluido elementos importantes y
significativos para la investigación que se realiza.
 Error de muestreo o muestral. Cualquiera sea el procedimiento utilizado y la

perfección del método empleado, la muestra diferirá de la población. A esta diferencia
se la denomina error de muestreo.
Cuando una muestra es aleatoria o probabilística, es posible calcular sobre ella

el error muestral. Este error indica el porcentaje de incertidumbre, es decir, el
riesgo que se corre de que la muestra elegida no sea representativa. Si
trabajamos con un error calculado en 5%, ello significa que existe un 95% de
probabilidades de que el conjunto muestral represente adecuadamente al
universo del cual ha sido extraído.
A medida que incrementamos el tamaño de la muestra, el error muestral tiende

a reducirse, pues la muestra va acercándose más al tamaño del universo. Del
mismo modo, para una muestra determinada, su error será menor cuanto más
pequeño sea el universo a partir del cual se la ha seleccionado. Así, para un
universo de 10.000 casos, una muestra de 200 unidades tendrá un error mayor
que una de 300; una muestra de 200 casos, por otra parte, tendrá un error mayor
si el universo tiene 10.000 unidades que si éste posee solamente 2.000.

Para fijar el tamaño de la muestra adecuado a cada investigación, es preciso

primero determinar el porcentaje de error que estamos dispuestos a admitir. Una
vez hecho esto, deberán realizarse las operaciones estadísticas
correspondientes para poder calcular el tamaño de la muestra que nos permite
situarnos dentro del margen de error aceptado.
A veces, sin embargo, el tamaño de la muestra queda determinado previamente

por consideraciones prácticas; en tales casos, no hay otra alternativa que aceptar
el nivel de error que su magnitud acarree.
Si una muestra extraída de la población, se denomina error de muestreo para

esa muestra, a la diferencias que existe entre una estimación muestral y el
parámetro poblacional obtenido por un censo completo. El error de muestreo es
inherente al uso de métodos de muestreo, y el error estándar cuantifica su
magnitud.

Si  es el parámetro de interés y  es un estimador de  , debemos especificar un

límite para el error de estimación; esto es, debemos especificar que  y  difieran
en valor absoluto en una cantidad menor que 

Simbólicamente: Error de estimación = /    /  
Debemos establecer también una probabilidad ( 1   ), que especifica la fracción de

las veces en muestreo repetido en que requerimos que el error de estimación sea
menor que  . Esta condición puede ser establecida como
P{Error de estimación <  }= 1  
MUESTREO ALEATORIO SIMPLE

Es un procedimiento de selección de una muestra por el cual todos y cada uno de los
elementos de la población tienen igual probabilidad de ser incluidos en la muestra,
Además, si se toma la muestra de tamaño n, cualquier muestra posible de n elementos
tiene la misma probabilidad de ser extraída que cualquier otra combinación de n

elementos, ya sea que la muestra se seleccione con o sin reposición.
Una muestra aleatoria simple se extrae por selección aleatoria empleando los números
aleatorios, este proceso ofrece la oportunidad de que todos los elementos que no han
sido sacados previamente tengan igual probabilidad de pertenecer a la muestra.

Este tipo de muestreo es eficiente en poblaciones pequeñas y homogéneas, para la

cual se dispone de listas adecuadas (marco muestral) y cuando la dispersión geográfica
de los elementos muestrales no constituye un problema; así es relativamente fácil y
barato seleccionar las unidades muestrales. El inconveniente en poblaciones grandes es
conseguir una lista completa o exacta de la población (marco muestral). Otro problema
conexo es el costo de determinar el número de elementos de la muestra y recabar
información a partir de cada elemento (poblaciones heterogéneas) Por ejemplo, la
muestra puede contener elementos que se hallan muy dispersos por lo tanto, para
efectuar entrevistas personales se requieren fuertes desembolsos por concepto de viaje.
1.1. Tamaño de muestra para estimar un Media Poblacional:

Z 2   2
n 2
Z 2   2
d2  2
N
Donde:
n  Tamaño de muestra
Z  Desvío Normal para una confianza (1   ) . (Sus valores se obtienen de la

2
distribución normal estándar).
2  Varianza poblacional (Generalmente tiene un valor desconocido)
d  Nivel de precisión (Máximo error de muestreo al estimar la media poblacional tolerada por
el investigador)
N = Tamaño total de la población
Valores de Z  para distintos niveles de confianza

2
Probabilidad de
confianza (1   )
Probabilidad de
significancia: ( ) 𝑍∝
 2  Z
2
0.90 0.10 1.281 0.050 1.645

0.95 0.05 1.645 0.025 1.960
0.99 0.01 2.326 0.005 2.576

Técnicas de estimación de la varianza 2
1° Posibilidad: Utilizar la varianza s2 de población similar
2° Posibilidad: Utilizar la varianza s2 de la misma población obtenida en un estudio

anterior resiente.
3° Posibilidad: Si la variable en estudio tiene distribución normal, la varianza puede

ser estimada determinando el máximo y el mínimo y utilizando la
propiedad de la distribución Normal que aproximadamente 0.9973
del área se encuentra en el intervalo   3 , por lo que la
varianza estimada podrá ser estimada utilizando la siguiente
fórmula:
 Máximo  Mínimo 
2
ˆ 2   
 6

4° Posibilidad: Si la distribución de la variable es del tipo triangular I otriángular II ,

la desviación estándar  podrá ser estimada utilizando la
siguiente aproximación:
̂  0.24Máximo Mínimo
5° Posibilidad: Utilizando una muestra piloto, de donde podrá obtenerse la varianza

2
muestral s y utilizarla como un estimador de la varianza poblacional 2 para
efectos del cálculo del tamaño de muestra. Es decir que:

ˆ 2  s 2
Ejemplo: Se desea estimar el peso promedio de una población de 400 estudiantes

ingresantes a una Universidad. En base a una muestra preliminar de 10 de estos
estudiantes que acudieron a su control médico en la Dirección de Bienestar
universitario, se estima una desviación estándar de 6.6 Kgr. Si deseamos tener un
máximo error de muestreo de 1.5 Kgr. y una confianza de 0.95.¿Cuál será el tamaño
de muestra mínimo requerido?
La fórmula a utilizar será:
Z 2   2
n 2
Z 2   2
d2  2
N
Población N = 400
Confianza (1-α) 0.95
Significancia (α) 0.05
(1-α/2) 0.975
Z 1.960
Error 1.500
DE(x) = σ = 6.6
Tamaño de muestra n = 63

1.96 2  6.6 2
n  63
1. 96  6 . 6 2
1 .5 2 
400
Ejemplo 2
Se desea diseñar una muestra para propósitos de estimar el rendimiento académico

promedio de los estudiantes de una escuela profesional de una universidad en donde
hay un total de 800 matriculados. Por información histórica el rendimiento académico
de estos estudiantes tiene una distribución del tipo triangular I, con un mínimo de 07
puntos y un máximo de 19 puntos. La estimación del rendimiento promedio poblacional
se lo desea hacer con una precisión de 0.6 puntos y una confianza de 0.95. ¿Cuál será
el diseño de muestra?
SOLUCIÓN
Análisis para el tipo de muestreo
La variable en estudio es X = Rendimiento académico, la cual tiene una distribución del

tipo triángulo I con un mínimo de 07 y un máximo de 19 puntos
Entonces el estimador de la desviación estándar será: 𝜎 = 0.24 (19 − 7) = 2.88

1
Y el estimador de la media será: 𝜇 = 7 + (19 − 7) = 11
3
𝜎 2.88
El coeficiente de variación será 𝐶𝑉(𝑋) = 𝜇
= 11
= 0.26 = 26% < 33%
Entonces se trata de una población homogénea por lo que un muestreo aleatorio simple
garantizará la representatividad de la muestra.
Cálculo del tamaño de muestra:

Como se quiere estimar la media poblacional 𝜇, con una precisión 𝑑 = 0.6 𝑝𝑢𝑛𝑡𝑜𝑠 y
una confianza (1 − 𝛼) = 0.95 𝑒𝑛𝑡𝑜𝑛𝑐𝑒𝑠 𝑍𝛼⁄2 = 1.96 , la formula para el tamaño de
muestra será
𝑍𝛼2⁄2 × 𝜎 2
𝑛=
𝑍𝛼2⁄2 × 𝜎 2
𝑑2 + 𝑁
Reemplazando tenemos:
1.962 × 2.882
𝑛= = 79.7 ≈ 80 𝑒𝑠𝑡𝑢𝑑𝑖𝑎𝑛𝑡𝑒𝑠
2 1.962 × 2.882
0.6 + 800
Elementos de la muestra:
Seleccionar 80 números aleatorios diferentes menores o iguales a N = 800. Los

estudiantes enumerados en el marco muestral con los números aleatorios
seleccionados anteriormente, constituirán los elementos de la muestra.
1.2. Tamaño de muestra para estimar una Proporción Poblacional:
Z 2  pq
n 2
Z 2  pq
d2  2
N

Donde:
n  Tamaño de muestra
Z  Desvío Normal para una confianza (1   ) . (Sus valores se obtienen de la
2
distribución normal estándar).

p  Proporción muestral esperada o conjeturada por el investigador
q  1  p  Complemento de la proporción muestral

d  Nivel de precisión (Máximo error de muestreo al estimar la proporción poblacional
tolerada por el investigador)
N = Tamaño total de la población
Estimación de la proporción para calcular el tamaño de muestra:
1° Posibilidad: El investigador asigna un valor para P considerando un valor que él

puede esperar encontrar cuando realice el muestreo, siempre que este valor se
encuentre entre 0.25 y 0.75.
2° Posibilidad: Cuando p < 0.25, se considerará que estamos investigando una

característica rara, por lo que debe abandonarse dicho valor y se asume p = 0.5, se
procede de manera similar cuando p>0.75, también se abandona y se remplaza por
0.5, con lo cual estaremos asumiendo una máxima varianza, puesto que el producto
p.q tiende a cero cuando p tiende a cero o a 1; en cambio toma su máximo valor
cuando p = 0.5.
Ejemplo 1

Se desea diseñar una muestra para estimar la proporción P de facturas con algún
error en su emisión, durante el último mes en un restaurante. Se sabe que en total
se emitieron un total 3500 facturas llenadas a mano y que están enumeradas de 1
a 3500 y contenidas en un archivador. Se desea tener una precisión de 0.04 y una
confianza de 0.95, cuál debe ser el tamaño de muestra mínimo necesarios para
satisfacer estos requisitos de estimación?. No se dispone de ninguna información
acerca de la proporción de facturas con errores en su emisión.
SOLUCIÓN
Propósito del muestreo: Estimar la proporción de facturas con errores en su

emisión
Población N = 3500
Precisión: d = 0.04
Confianza: (1 − 𝛼) = 0.95 → 𝑍𝛼⁄2 = 1.96
Proporción esperada de facturas con errores de emisión 𝑝 = 0.5
Por lo tanto 𝑞 = 1 − 𝑝 = 1 − 0.5 = 0.5
𝑍𝛼2⁄2 × 𝑝𝑞 1.962 × 0.5 × 0.5

𝑛= = = 512.4 ≅ 512 𝑓𝑎𝑐𝑡𝑢𝑟𝑎𝑠
𝑍𝛼2⁄2 × 𝑝𝑞 2 1.962 × 0.5 × 0.5
𝑑2 + 0.04 +
𝑁 3500
Ejemplo 2
Se desea determinar el tamaño de muestra para estimar la proporción de mujeres

P con infección vaginal entre las que acuden al servicio de Obstetricia del Hospital
Regional Docente Las Mercedes de Chiclayo:
De acuerdo a la información histórica, del Hospital Regional Docente Las

Mercedes de Chiclayo, se conoce que, la proporción de infecciones vaginales en
encontrado en el período 2010 – 2012 es p = 0.3.
Se estima que en el período de investigación de enero a junio del 2013, llegarán

al servicio de obstetricia un total de 668 mujeres.
Si deseamos tener una confianza de 0.95 y un máximo error de muestreo d =

0.05, ¿Cuál deberá ser el tamaño de muestra mínimo requerido?
La fórmula a utilizar en este caso es:

Z 2  pq
n 2
Z 2  pq
d2  2
N
Para una confianza (1-α) = 0.95 tenemos que Zα = 1.96
Proporción de infecciones vaginales p = 0.30
Entonces: q = 1 - p = 0.70
Máximo error de muestreo o nivel de precisión d = 0.05
Remplazando en la fórmula tenemos:
1.96 2  0.3  0.7

n  218
1.96 2  0.3  0.7
0.05 
2
668
Respuesta: Se debe obtener una muestra de n = 218 mujeres. La selección
puede ser sistemática con arranque aleatorio con un intervalo de selección k =
N/n = 3, es decir una cada tres mujeres.
1.3. Tamaño de muestra para probar hipótesis acerca de la Media Poblacional:
1° Caso: H o :   o
H a :   o
2
 Z  Z    2
 
n  2 
2
Donde:
  Probabilidad de error tipo I, o nivel de significancia de la prueba
  Probabilidad de error tipo II

    o
2° Caso: H o :   o
H a :   o ó H a :   o
n
Z   Z    2
2
2
Donde:


    o
Ejemplo. Un productor de capsulas de uña de gato afirma que la demanda promedio

de su producto en el mercado es de 1000 capsulas por día. En una muestra piloto de
36 días seleccionados en forma aleatoria, se encuentra una media de 850 y una
desviación estándar de 160 capsulas diarias. ¿Qué tamaño de muestra será
necesario para probar la afirmación hecha por el productor ( 𝐻𝑜 : 𝜇 = 1000), contra la
alternativa de la sospecha del investigador en el sentido que este promedio podría
ser menor que lo que propone el productor (𝐻𝑎 : 𝜇 < 1000), utilizando los mismos
riesgos o probabilidades de error tipo I y Tipo II iguales a 0.01?.
Solución
Utilizaremos la siguiente fórmula
n
Z   Z    2
2
2
Donde:
𝛼 = 𝛽 = 0.01
𝑍𝛼 = 𝑍𝛽 = 2.33
Como no se conoce 𝜎 entonces usaremos su estimador proveniente de la muestra

piloto 𝑠 = 160, además deseamos la distancia máxima del estimador al valor
verdadero no exceda en más de 80 unidades, esto es que 𝛿 = |𝑥 − 𝜇| = 80 ≡
8% 𝑑𝑒𝑙 𝑣𝑎𝑙𝑜𝑟 𝑑𝑒 𝜇𝑜 , por lo que el tamaño de muestra será
(2.33 + 2.33)2 × 1602

𝑛= = 86.7 ≈ 87 𝑑í𝑎𝑠
802
3° Caso: H o : 1  2
H a : 1  2
2
 Z  Z   ( 2   2 )
 
n  2  1 2
2
Donde:


  1  2
4° Caso: H o : 1  2
H a : 1  2 ó H a : 1  2
n
Z   Z    ( 12   22 )
2
2
Donde:
  1  2
Ejemplo
Se desea calcular el tamaño de muestra para comparar la aptitud promedio de dos
poblaciones de estudiantes preuniversitarios mediante una prueba unilateral en
donde se sospecha que el rendimiento de la segunda población es mayor que el
de la primera, para lo cual se tomaron dos muestras aleatorias previas de tamaños
20 y 25 respectivamente, encontrando las desviaciones estándar respectivas de 8
y 7 puntos las cuales serán consideradas como estimadores de las desviaciones
estándar poblacionales. Se desea tener una confianza y potencia para la prueba
igual a 95%. Se supone que la diferencia entre las medias poblacionales es de 6
puntos. Calcule el tamaño de muestra para cada población.
SOLUCIÓN
Para calcular un tamaño de muestra para probar una hipótesis unilateral de

comparación de dos medias poblacionales, corresponde utilizar la siguiente
fórmula:

n
Z   Z    ( 12   22 )
2
2
Donde:
Potencia igual a confianza e igual a 0.95,
entonces (1 − 𝛽) = (1 − 𝛼) = 0.95, entonces 𝑍𝛽 = 𝑍𝛼 = 1.645
𝜎12 = 𝑠12 = 82 = 64
𝜎22 = 𝑠22 = 72 = 49
𝛿 = |𝜇1 − 𝜇2 | = 6
(1.645 + 1.645)2 × (64 + 49)

𝑛= = 34
62
1.4. Tamaño de muestra para probar hipótesis acerca de la Proporción

Poblacional:
1° Caso: H o : P  Po
H a : P  Po
2
 Z Po Qo  Z  pq 

n 2 
2
Donde:

  p  Po

Qo  1  Po
p  proporción muestral
q  1 p
2° Caso: H o : P  Po
H a : P  Po ó H a : P  Po
n
Z  Po Qo  Z  pq 
2
2
Donde:
  p  Po
Qo  1  Po
p  proporción muestral
q  1 p
Ejemplo . Un auditor se encuentra realizando una auditoría a una empresa en la cual

encuentra un total de 2480 cuentas por cobrar. Toma una muestra aleatoria previa de 40
de de ellas y encuentra que 10 de tienen deudas de más $700, lo cual le hace pensar
que la proporción poblacional de tales cuentas podría ser menor a 0.30, pero el contador
afirma que el 30% de tales cuentas por cobrar son de más de $700 cada una ¿Cuántas
cuentas por lo menos deberá examinar aleatoriamente para para probar la afirmación
del contador con una precisión 𝛿 = |𝑝 − 𝑃𝑜 | = 0.06 y una confianza (1 − 𝛼) = 0.95 y una
potencia para la prueba de (1 − 𝛽) = 0.90,

SOLUCIÓN
Propósito del muestreo: probar 𝐻𝑜 : 𝑃 = 0.3 Entonces 𝑃𝑜 = 0.3 𝑦 𝑄𝑜 = 0.7

𝐻𝑎 : 𝑃 < 0.3
N = 2480
12
𝑀𝑢𝑒𝑠𝑡𝑟𝑎 𝑝𝑟𝑒𝑣𝑖𝑎 𝑛𝑝 = 40, 𝑎 = 12, 𝑒𝑛𝑡𝑜𝑛𝑐𝑒𝑠 𝑝= = 0.03 𝑦 𝑞 = 1 − 0.3 = 0.7
40
𝑃𝑟𝑒𝑐𝑖𝑠𝑖ó𝑛 𝑑 = 0.04
𝐶𝑜𝑛𝑓𝑖𝑎𝑛𝑧𝑎 (1 − 𝛼) = 0.95 𝑒𝑛𝑡𝑜𝑛𝑐𝑒𝑠 𝑍𝛼 = 1.645
𝑃𝑜𝑡𝑒𝑛𝑐𝑖𝑎 (1 − 𝛽) = 0.90 𝑒𝑛𝑡𝑜𝑛𝑐𝑒𝑠 𝑍𝛽 = 1.282
𝑃𝑟𝑒𝑐𝑖𝑠𝑖ó𝑛 𝛿 = |𝑝 − 𝑃𝑜 | = 0.06
2
(𝑍𝛼 √𝑃𝑜 𝑄𝑜 + 𝑍𝛽 √𝑝𝑞)
𝐸𝑙 𝑡𝑎𝑚𝑎ñ𝑜 𝑑𝑒 𝑚𝑢𝑒𝑠𝑡𝑟𝑎 𝑠𝑒𝑟á: 𝑛 =
𝛿2
2
(1.96√0.3 × 0.7 + 1.282√0.25 × 0.75)
𝑛= = 476
0.062
Respuesta: Se requiere seleccionar una muestra aleatoria de 476 cuentas por pagar.
3° Caso: H o : P1  P2
H a : P1  P2
2
 Z  p1  p2 q1  q2  / 2  Z p1q1  p2 q2 

n  2 
2
Donde:
  P1  P2
4° Caso: H o : P1  P2
H a : P1  P2 ó H a : P1  P2

n
Z   p1  p2 q1  q2  / 2  Z p1q1  p2 q2 
2
2
Donde:
  P1  P2
Ejemplo:
Se desea determinar el tamaño de muestra para probar una hipótesis de

comparación de proporciones. Ho : P1 = P2 contra Ha: P1 < P2, donde:
P1 : Proporción de complicaciones en intervenciones quirúrgicas con protocolo.
P2 : Proporción de complicaciones en intervenciones quirúrgicas sin protocolo.
De acuerdo a la información histórica, del Hospital Regional Docente Las

Mercedes de Chiclayo, se conoce que, cuando se sigue el protocolo, la proporción
de complicaciones quirúrgicas es 0.01, y cuando no se sigue el protocolo esta
proporción es de 0.18. Si deseamos tener una confianza de 0.95 y también una
potencia para la prueba de hipótesis de 0.95, ¿Cuál deberá ser el tamaño de
muestra mínimo requerido?
La fórmula a utilizar en este caso es:
n
Z   p1  p2 q1  q2  / 2  Z p1q1  p2 q2 2
2
n = tamaño de muestra para cada grupo
Confianza de la prueba: (1-α) = 0.95 entonces Zα = 1.645
Potencia de la prueba: (1-β) = 0.95 entonces Zβ = 1.645
Proporción de complicaciones quirúrgicas con protocolo p1 = 0.01
Proporción de complicaciones quirúrgicas sin protocolo p2 = 0.18
Entonces: q1 = 1 - p1 = 0.99 y q2 = 1- p2 = 0.82
Remplazando en la fórmula tenemos:

n
1.645 0.01  0.180.99  0.82  / 2  1.645 0.01  0.99  0.18  0.82 2
 62
0.01  0.182
Respuesta: Se debe obtener una muestra de 62 observaciones de cada uno de
los grupos.
1.5. Tamaño de muestra para probar hipótesis de estudios de Casos y

Controles:
Ho : P1  P2
Ha : P1  P2
2
 Z 2 pq  Z  p1q1  p2 q2 

n 2 
2
Donde:
p1  Casos
p2  Controles
p2  p2
p  : Proporción mancomunada
2
q  1 p
  P1  P2
Ejemplo: Se necesita calcular el tamaño de muestra para una investigación con diseño
de casos y controles, para probar una hipótesis de que la proporción de partos exitosos
con método de inducción es mayor a la proporción de partos exitosos cuando no se usa
este tratamiento. ´
Sea: P1 = Proporción de inducción exitosa de partos con un tratamiento

P2 = Proporción de inducción exitosa de partos con un tratamiento
La Hipótesis en prueba es:

Ho: P1=P2 contra

Ha: P1>P2
La fórmula que corresponde ser utilizada es:
n
Z  2 pq  Z  p1q1  p2 q2 
2
 p1  p2 2
𝑛 = Tamaño de muestra mínimo para cada grupo: Casos y controles
Z𝛼 = 1.645 : Desvío normal para una significancia del 0.05
Z𝛽 = 1.645 : Desvío normal para una significancia de 0.05
𝑝1 = 0.8 :Proporción de inducción exitosa del parto usando el tratamiento (Caso)
𝑝2 = 0.6 :Proporción de partos exitosos sin usar tratamiento (control)
q1 = 1 − p1 = 1 − 0.8 = 0.2
q1 = 1 − p1 = 1 − 0.8 = 0.2
𝑝1 +𝑝2 0.8+0.6
𝑝= = = 0.7 y 𝑞 = 1 − 𝑝 = 1 − 0.7 = 0.3
2 2
Reemplazando en la fórmula tenemos:

2
(1.645 × √2 × 0.7 × 0.3 + 1.645 × √0.8 × 0.2 + 0.4 × 0.4)
𝑛= = 111
(0.8 − 0.6)2
Respuesta:
El tamaño de muestra será n1 = 111 casos y n2 = 111 controles
1.1.1. Muestreo Aleatorio Estratificado (MAE):

En este tipo de muestreo, la población es dividida en L subpoblaciones o
estratos, de tamaños Nh cada uno de ellos de los cuales se selecciona nh
elementos respectivamente, de modo tal, que en cada estrato, cada uno de
los elementos tengan la misma probabilidad de ser incluidos en la muestra.
Este proceso genera muestras representativas siempre que la variabilidad
en cada subpoblación no exceda el 33%, aun cuando la población general
dicha variabilidad sea mayor que el 33%.

Notaciones en muestreo aleatorio estratificado

𝑁 = 𝑇𝑎𝑚𝑎ñ𝑜 𝑔𝑒𝑛𝑒𝑟𝑎𝑙 𝑑𝑒 𝑙𝑎 𝑝𝑜𝑏𝑙𝑎𝑐𝑖ó𝑛
ℎ = 𝐼𝑛𝑑𝑖𝑐𝑎 𝑒𝑙 𝑒𝑠𝑡𝑟𝑎𝑡𝑜
𝐿 = 𝐼𝑛𝑑𝑖𝑐𝑎 𝑒𝑙 𝑛ú𝑚𝑒𝑟𝑜 𝑡𝑜𝑡𝑎𝑙 𝑑𝑒 𝑒𝑠𝑡𝑟𝑎𝑡𝑜𝑠
𝑁ℎ = 𝑁ú𝑚𝑒𝑟𝑜 𝑡𝑜𝑡𝑎𝑙 𝑑𝑒 𝑒𝑙𝑒𝑚𝑒𝑛𝑡𝑜𝑠 𝑒𝑛 𝑒𝑙 𝑒𝑠𝑡𝑟𝑎𝑡𝑜 ℎ
𝑁ℎ
𝑊ℎ = 𝑃𝑟𝑜𝑝𝑜𝑟𝑐𝑖ó𝑛 𝑑𝑒 𝑒𝑙𝑒𝑚𝑒𝑛𝑡𝑜𝑠 𝑒𝑛 𝑙𝑎 𝑝𝑜𝑏𝑙𝑎𝑐𝑖ó𝑛 𝑑𝑒𝑙 𝑒𝑠𝑡𝑟𝑎𝑡𝑜 ℎ
𝑁
𝑛 = 𝑇𝑎𝑚𝑎ñ𝑜 𝑑𝑒 𝑚𝑢𝑒𝑠𝑡𝑟𝑎 𝑔𝑒𝑛𝑒𝑟𝑎𝑙
𝑛ℎ = 𝑇𝑎𝑚𝑎ñ𝑜 𝑑𝑒 𝑚𝑢𝑒𝑠𝑡𝑟𝑎 𝑒𝑛 𝑒𝑙 𝑒𝑠𝑡𝑟𝑎𝑡𝑜 ℎ
∑𝑁ℎ 𝑥ℎ𝑖
𝑋̅ℎ = 𝑖=1 = 𝑀𝑒𝑑𝑖𝑎 𝑑𝑒 𝑑𝑒 𝑋 𝑒𝑛 𝑒𝑙 𝑒𝑠𝑡𝑟𝑎𝑡𝑜 ℎ
𝑁ℎ
2
∑𝑁 ℎ ̅ 2
𝑖=1(𝑥ℎ𝑖 − 𝑋ℎ )
𝑆ℎ = = 𝑉𝑎𝑟𝑖𝑎𝑛𝑧𝑎 𝑝𝑟á𝑐𝑡𝑖𝑐𝑎 𝑒𝑛 𝑒𝑙 𝑒𝑠𝑡𝑟𝑎𝑡𝑜 ℎ
𝑁ℎ − 1
∑𝑛𝑖=1
ℎ
𝑥ℎ𝑖
𝑥̅ℎ = = 𝑀𝑒𝑑𝑖𝑎 𝑚𝑢𝑒𝑠𝑡𝑟𝑎𝑙 𝑒𝑛 𝑒𝑙 𝑒𝑠𝑡𝑟𝑎𝑡𝑜 ℎ
𝑛ℎ
2
∑𝑛𝑖=1
ℎ
(𝑥ℎ𝑖 − 𝑥̅ℎ )2
𝑠ℎ = = 𝑉𝑎𝑟𝑖𝑎𝑛𝑧𝑎 𝑚𝑢𝑒𝑠𝑡𝑟𝑎𝑙 𝑒𝑛 𝑒𝑙 𝑒𝑠𝑡𝑟𝑎𝑡𝑜 ℎ
𝑛ℎ − 1
El cálculo del tamaño de muestra depende del propósito del muestreo, es decir del
parámetro que se pretende estimar y del modo de asignación o reparto de tamaño
general de muestra a cada uno de los estratos.
Tamaño general de muestra para estimar la media poblacional con

asignación de Neyman en el MAE.
Este tipo de asignación toma en cuenta el tamaño y dispersión interna de cada estrato
(∑ 𝑊ℎ 𝑆ℎ )2
𝑛=
∑ 𝑊ℎ 𝑆ℎ2
𝑉+ 𝑁

N = Tamaño general de la Población

n = Tamaño general de muestra
𝑁
𝑊ℎ = 𝑁ℎ = Ponderación del estrato h en la población
Sh = Desviación estándar en el estrato h.
2
𝑑
𝑉 = (𝑍 2 ) = Varianza deseada al estimar la media poblacional
𝛼⁄2
Tamaño de la muestra en los estratos:
𝑊ℎ 𝑆ℎ
𝑛ℎ = ×𝑛
∑ 𝑊ℎ 𝑆ℎ
Ejemplo: Se desea investigar el nivel de competencias básicas de comprensión

lectora y Matemáticas en estudiantes del 5° de secundaria de tres instituciones
educativas representativas de Chiclayo: Colegio Nacional San José, Colegio
Nacional Elvira García y García y el Colegio Nacional Magdalena Sofía. Como
antecedente de esta investigación se dispone de las notas promedio en ambos
cursos, las cuales utilizaremos para diseñar la muestra.
RENDIMIENTO ACADÉMICO EN LENGUAJE Y MATEMÁTICAS DE ESTUDIANTES DE 5° DE

SECUNDARIA DE TRES INSTITUCIONES EDUCATIVAS DE CHICLAYO EN DICIEMBRE DEL 2012
N° de Promedio. Desv. Estánd. Promedio. Desv. Estánd.

Institución Educativa Estudiantes Lenguaje Lenguaje Matemática Matemática
Elvira García 148 14.20 2.25 13.94 3.22
Magdalena Sofía 152 13.82 2.36 14.11 2.59
San José 150 14.75 2.52 14.92 3.05
Como la investigación comprende dos variables, que son la Comprensión Lectora

y Matemáticas, entonces haremos el cálculo del tamaño de muestra estratificado
para cada una de las variables y al final nos quedaremos el tamaño de muestra
más grande. Elegimos un nivel de confianza de 0.95 y un error de muestreo de
aproximadamente igual a 3.5% del promedio general en los tres colegios, cuyo
valor resulta ser igual a 0.5 puntos, con lo cual la varianza deseada V será obtenida
del siguiente modo:
SOLUCIÓN
Confianza (1-α/2) = 0.95
Desvío Normal 𝑍𝛼⁄2 = 1.96
Precisión (3.5% de la media) d = 0.5
Media estratificada 𝑥̅𝑠𝑡 = ∑3ℎ=1 𝑊ℎ 𝑥̅ℎ = 14.255
Varianza deseada: V=(d/Z)2 = 0.06507944
Calculo del tamaño de muestra general para investigar competencias básicas de
comprensión lectora:
(∑ 𝑊ℎ 𝑆ℎ )2 (2.3786)2
𝑛= = = 73
∑ 𝑊ℎ 𝑆ℎ2 0.06507944 + 5.6697
𝑉+ 𝑁 450
Tamaño de muestra para los estratos (colegios):
𝑊𝑆 0.7406 𝑊𝑆 0.7980
𝑛1 = ∑ 𝑊1 𝑆1 × 𝑛 = 2.3786 × 73 = 23 𝑛2 = ∑ 𝑊2 𝑆2 × 𝑛 = 2.3786 × 73 = 24
ℎ ℎ ℎ ℎ

𝑊3 𝑆3 0.8400
𝑛3 = ×𝑛 = × 73 = 26
∑ 𝑊ℎ 𝑆ℎ 2.3786
Cuadro de cálculos del tamaño de muestra para investigar competencias básicas de

Lenguaje en tres instituciones Educativas de Chiclayo
Institución Educativa N° de
(Estrato h) Estudiantes Promedio en Desv. Estánd. Ponderación: muestra del
Nh Lenguaje Lenguaje Sh Wh Wh. Sh Wh.Sh^2 estrato: nh
Elvira García 148 14.20 2.25 0.329 0.7406 1.6675 23
Magdalena Sofía 152 13.82 2.36 0.338 0.7980 1.8854 24
San José 150 14.75 2.52 0.333 0.8400 2.1168 26
Total 450 1.000 2.3786 5.6697 73
Calculo del tamaño de muestra general para investigar competencias básicas de

comprensión Matemáticas:
(∑ 𝑊ℎ 𝑆ℎ )2 (2.9521)2
𝑛= = = 103
∑ 𝑊ℎ 𝑆ℎ2 0.06507944 + 8.7850
𝑉+ 450
𝑁
Tamaño de muestra para los estratos (colegios):
𝑊𝑆 1.0591 𝑊𝑆 0.8763
𝑛1 = ∑ 𝑊1 𝑆1 × 𝑛 = 2.9521 × 103 = 37 𝑛2 = ∑ 𝑊2 𝑆2 × 𝑛 = 2.9521 × 103 = 31
ℎ ℎ ℎ ℎ
𝑊3 𝑆3 1.0167
𝑛3 = ×𝑛= × 103 = 35
∑ 𝑊ℎ 𝑆ℎ 2.9521
Cuadro de cálculos del tamaño de muestra para investigar competencias básicas de Matemáticas
en tres instituciones Educativas de Chiclayo
Institución N° de Desv. Estánd.
Educativa Estudiantes Promedio en Matemáticas Ponderación: muestra del
(Estrato h) Nh Matemáticas Sh Wh Wh. Sh Wh.Sh^2 estrato: nh
Elvira García 148 13.94 3.22 0.329 1.0591 3.4107 37
Magdalena Sofía 152 14.11 2.59 0.338 0.8763 2.2734 31
San José 150 14.92 3.05 0.333 1.0167 3.1008333 35
Total 450 1.000 2.9521 8.7850 103
Conclusión: Para la investigación nos debemos quedar con este último

tamaño por ser el más grande
Estimador puntual y confidencial de la media poblacional

El estimador puntual de la media poblacional 𝝁, es la media muestral
estratificada 𝑥𝑠𝑡 , el sub índice st es para indicar que corresponde a un
muestreo estratificado.
Es decir que 𝜇̂ = 𝑥̅𝑠𝑡
𝐿
∑𝐿ℎ=1 𝑥̅ℎ 𝑁ℎ
𝑀𝑒𝑑𝑖𝑎 𝑚𝑢𝑒𝑠𝑡𝑟𝑎𝑙 𝑒𝑠𝑡𝑟𝑎𝑡𝑖𝑓𝑖𝑐𝑎𝑑𝑎: 𝑥̅𝑠𝑡 = = ∑ 𝑥̅ℎ 𝑊ℎ
𝑁
ℎ=1
Varianza de la media muestral estratificada

𝐿 𝐿
𝑆ℎ2 𝑁ℎ − 𝑛ℎ 𝑆ℎ2
𝑉(𝑥̅𝑠𝑡 ) = ∑ 𝑊ℎ2 ( ) = ∑ 𝑊ℎ2 (1 − 𝑓ℎ )
𝑛ℎ 𝑁ℎ 𝑛ℎ
ℎ=1 ℎ=1
𝑛ℎ
Siendo 𝑓ℎ = = 𝐹𝑟𝑎𝑐𝑐𝑖ó𝑛 𝑑𝑒 𝑚𝑢𝑒𝑠𝑡𝑟𝑒𝑜
𝑁ℎ
Estimador de la varianza de la media muestral estratificada

𝐿 𝐿
𝑠ℎ2 𝑁ℎ − 𝑛ℎ 𝑠ℎ2
𝑉̂ (𝑥̅𝑠𝑡 ) = 𝑣(𝑥̅𝑠𝑡 ) = ∑ 𝑊ℎ2 ( ) = ∑ 𝑊ℎ2 (1 − 𝑓ℎ )
𝑛ℎ 𝑁𝑛 𝑛ℎ
ℎ=1 ℎ=1
Intervalo de confianza de (1 − 𝛼) para la media poblacional
𝜇 ∶ 𝑥̅ 𝑠𝑡 ± 𝑍𝛼⁄2 √𝑣(𝑥̅𝑠𝑡 )
Donde: 𝑍𝛼⁄2 = 𝐷𝑒𝑠𝑣𝑖𝑜 𝑁𝑜𝑟𝑚𝑎𝑙 𝑝𝑎𝑟𝑎 𝑢𝑛𝑎 𝑐𝑜𝑛𝑓𝑖𝑎𝑛𝑧𝑎 (1 − 𝛼)
Ejemplo
Obtenga un intervalo de confianza de 0.95 para la media poblacional del rendimiento
académico en Lenguaje, a partir de una muestra obtenida con un muestreo
estratificado, cuyas medidas de resumen se muestran en el siguiente cuadro.
Número total de Muestra de Promedio muestral Desviación

estudiantes en la estudiantes de la de Lenguaje en la estándar muestral
Institución
institución institución educativa institución educativa de Lenguaje en la
educativa “h” educativa h: 𝑁ℎ h. 𝑛ℎ h: 𝑥̅ℎ institución educativa
h: 𝑠ℎ
Elvira García (1) 148 23 14.20 2.25
Magdalena Sofía (2) 152 24 13.82 2.36
San José (3) 150 26 14.75 2.52
450 73
Total
Estudiantes de instituciones educativas de Chiclayo:

Elvira García, Magdalena Sofía y San José.
Elvira García: Magdalena Sofía: San José:

N1 = 148 N2 = 148 N3 = 148
N1=23 N1=23 N1=23

𝑥̅1 = 14.2 𝑥̅2 = 13.82 𝑥̅3 = 14.75
𝑠1 = 2.25 𝑠2 = 2.36 𝑠3 = 2.52

Solución
Desv.
N° de Promedio. Ponderación 𝑠ℎ2
Institución Estánd.
Estudiantes Lenguaje 𝑁ℎ 𝑥̅ℎ 𝑊ℎ 𝑊ℎ2 (1 − 𝑓ℎ )
Educativa Muestra Lenguaje 𝑊ℎ = 𝑛ℎ
𝑁ℎ 𝑥̅ℎ 𝑁
𝑛ℎ 𝑠ℎ
Elvira
148 14.200 2.25
García 23 0.3289 4.6702 0.02011
Magdalena
152 13.820 2.36
Sofía 24 0.3378 4.6681 0.02230
San José 150 26 14.750 2.52 0.3333 4.9167 0.02243
Suma 450 73 14.2550 0.06484
𝑀𝑒𝑑𝑖𝑎 𝑚𝑢𝑒𝑠𝑡𝑟𝑎𝑙 𝑒𝑠𝑡𝑟𝑎𝑡𝑖𝑓𝑖𝑐𝑎𝑑𝑎: 𝑥̅𝑠𝑡 = ∑ 𝑥̅ℎ 𝑊ℎ = 14.255 𝑝𝑢𝑛𝑡𝑜𝑠

ℎ=1
Estimador de la varianza de la media estratificada

𝐿
𝑠ℎ2
𝑉̂ (𝑥̅𝑠𝑡 ) = 𝑣(𝑥̅𝑠𝑡 ) = ∑ 𝑊ℎ2 (1 − 𝑓ℎ ) = 0.06484 𝑝𝑢𝑛𝑡𝑜𝑠 2
𝑛ℎ
ℎ=1
El intervalo de confianza para la media es,

𝜇: 𝑥̅𝑠𝑡 ± 𝑍𝛼⁄2 √𝑉̂ (𝑥̅𝑠𝑡 )
Para el ejemplo, el intervalo de confianza de 0.95 para la media será:
𝜇: 14.255 ± 1.96√0.06484
13.76 < 𝜇 < 14.32
Tamaño general de muestra para estimar la proporción poblacional con

asignación de Neyman en el MAE.
Cuando el diseño de muestra es el Estratificado con asignación de Neyman
(Este tipo de asignación se utiliza cuando los costos de muestreo es igual
en cada uno de los estratos), el tamaño general de muestra se calcula con
la siguiente fórmula:
2
(∑ 𝑊ℎ √𝑝ℎ 𝑞ℎ )
𝑛=
∑ 𝑊ℎ 𝑝ℎ 𝑞ℎ
𝑉+
𝑁
Donde:
N = Tamaño general de la Población
n = Tamaño general de muestra
Wh = Nh/N = Ponderación del estrato h en la población
V = (d/𝑍𝛼⁄2 )2 = Varianza deseada al estimar la media poblacional

ph = Proporción estimada en el estrato h.

qh = 1-ph
𝑊ℎ √𝑝ℎ 𝑞ℎ
Tamaño de muestra en los estratos: 𝑛ℎ = ×𝑛
∑ 𝑤ℎ √𝑝ℎ 𝑞ℎ
Ejemplo de diseño y muestra para estimar una proporción
Población: La población lo constituyen los 6120 estudiantes de la USAT

matriculados en el semestre académico 2011-I, clasificados según carrera
profesional.
Muestra: Se utilizará un muestreo estratificado para estimar la proporción

de estudiantes con calidad de sueño Deficiente. Las unidades elementales
o informantes son cada uno de los estudiantes. Se elige un nivel de
confianza de 0.95 y un nivel de precisión de 0.05
Cálculo del tamaño de muestra.

El tamaño de muestra se calcula para estimar la proporción de estudiantes
con calidad de sueño deficiente, mediante un muestreo estratificado con
asignación de Neyman, la cual asigna un tamaño de muestra a los estratos
teniendo en cuenta el tamaño del estrato y la dispersión interna del estrato.
Suponiendo que los costos de muestreo dentro de cada estrato es el mismo.
Estudiantes de la USAT matriculados en el semestre 2011-I P = Proporción de

estudiantes con
N = 6120 calidad de sueño
deficiente
Administración
Admi Administración Psicología
de empresas hotelera N18 = 301
N1 = 1141 N2 = 291
d = 0.05
(1-α)=0.95
n18 = 30
n1 = 69 n2 = 18
Tamaño general de
muestra pst = Estimado
estratificado de P
n = 413
El tamaño general de muestra:

(Wh ph  qh ) 2
n ,
V  Wh ph  qh
N
Donde
2
d 
V   Varianza deseada del estimador de la proporción
z
Asumimos: Una confianza (1-α) de 0.95, para el cual, el desvío normal es Z =

1.96
Una precisión (máximo error de muestreo tolerado) d  0.05
Entonces la varianza deseada debe ser:
2
 0.05 
V    0.000651
 1.96 
Los cálculos se muestran en la siguiente tabla, con lo cual, el tamaño de muestra

es:
(0.474033) 2
n  327
0.225107
0.000651 
6120
La asignación de Neyman del tamaño de muestra a los estratos se hace con la

fórmula:
Wh ph  qh
nh  n
W h ph qh
por razones de conseguir estabilidad para los estimadores por carrera profesional,
se corrige el tamaño de muestra a un mínimo de 30, con lo cual se tiene una
muestra corregida de 535 estudiantes, tal como se puede apreciar en el siguiente
cuadro.

Cuadro N° 2 Cálculo del tamaño de muestra estratificado con asignación de Neyman para estudiantes de la
USAT matriculados en el semestre académico 2011-I.
Proporción de
Matriculados N estudiantes con
ESTRATO (h) Wh  h calidad de qh  1  ph Wh ph qh Wh ph qh nh nh (corr )
(2011-I): Nh N sueño deficiente
Carrera profesional
ph
ADM. DE EMPRESAS 1131 0.1848 0.3 0.7 0.084686 0.038808 58 58
ADM. HOTELERA Y
DE SERVICIOS
289 0.0472 0.25 0.75 0.020438 0.00885 14 30
CONTABILIDAD 479 0.0783 0.3 0.7 0.035882 0.016443 25 30
ECONOMÍA 177 0.0289 0.3 0.7 0.013244 0.006069 9 30
EDUCACIÓN (inicial,
Prim. y Secundaria.)
254 0.0415 0.25 0.75 0.017970 0.00778125 12 30
COMUNICACIÓN 220 0.0359 0.4 0.6 0.017587 0.008616 12 30
DERECHO 703 0.1149 0.4 0.6 0.056289 0.027576 39 39
ARQUITECTURA 234 0.0382 0.4 0.6 0.018714 0.009168 13 30
ING. CIVIL Y AMB. 320 0.0523 0.4 0.6 0.025622 0.012552 18 30
ING. DE SIST. Y
COMP.
398 0.0650 0.6 0.4 0.031843 0.0156 22 30
ING. ENERGÉTICA 9 0.0015 0.4 0.6 0.000735 0.00036 1 9
ING. INDUSTRIAL 415 0.0678 0.6 0.4 0.033215 0.016272 23 30
ING. MECÁNICA
ELÉCTRICA
71 0.0116 0.6 0.4 0.005683 0.002784 4 30
ING. NAVAL 28 0.0046 0.4 0.6 0.002254 0.001104 2 28
ENFERMERÍA 589 0.0962 0.4 0.6 0.047128 0.023088 32 32
MEDICINA 296 0.0484 0.7 0.3 0.022180 0.010164 15 30
ODONTOLOGÍA 207 0.0338 0.6 0.4 0.016559 0.008112 11 30
PSICOLOGÍA 300 0.0490 0.4 0.6 0.024005 0.01176 17 30
TOTAL 6120 1.0000 0.474033 0.225107 327 556
El estimador de la proporción poblacional y su varianza,

El estimador de la proporción poblacional P es la proporción muestral estratificada
𝑝𝑠𝑡 , es decir que
𝑃̂ = 𝑝𝑠𝑡 =
𝑃𝑟𝑜𝑝𝑜𝑟𝑐𝑖ó𝑛 𝑚𝑢𝑒𝑠𝑡𝑟𝑎𝑙 𝑒𝑠𝑡𝑟𝑎𝑡𝑖𝑓𝑖𝑐𝑎𝑑𝑎: 𝑝𝑠𝑡 = ∑𝐿ℎ=1 𝑝ℎ 𝑊ℎ

El estimador de la varianza de la proporción muestral estratificada
𝑝 𝑞 𝑁 −𝑛
𝑉̂ (𝑝𝑠𝑡 ) = 𝑣(𝑝𝑠𝑡 ) = ∑𝐿ℎ=1 𝑊ℎ2 𝑛ℎ ℎ ( 𝑁ℎ −1ℎ )
ℎ ℎ
Intervalo de confianza para la proporción poblacional
𝑃 ∶ 𝑝𝑠𝑡 ± 𝑍𝛼⁄2 √𝑝𝑠𝑡

Ejemplo
Obtenga un intervalo de confianza para la proporción poblacional de estudiantes
con calidad de sueño deficiente en los estudiantes de la Facultad de Ciencias
Empresariales
Estrato (h) 𝑁ℎ 𝑊ℎ 𝑝ℎ 𝑞ℎ 𝑝ℎ 𝑊ℎ 𝑝ℎ . 𝑞ℎ 𝑁ℎ − 𝑛ℎ 𝑛ℎ
𝑊ℎ2 ( )
𝑛ℎ 𝑁ℎ − 1
ADM. DE EMPR. 1131 0.5448 0.3 0.7 0.1634 0.001020 58
ADM. HOTELERA 289 0.1392 0.25 0.75 0.0348 0.000248 14
CONTABILIDAD 479 0.2307 0.3 0.7 0.0692 0.000425 25
ECONOMÍA 177 0.0853 0.3 0.7 0.0256 0.000162 9
Suma 2076 0.2930 0.001855
Proporción estratificada 𝑝𝑠𝑡 = 0.2930 y su varianza 𝑣(𝑥̅𝑠𝑡 ) = 0.001855
Intervalo de confianza del 0.95 será: 𝑃 ∶ 0.293 ± 1.96√0.001855
0.209 < 𝑃 < 0.377
1.1.2. Muestreo por conglomerados (PC):

En este tipo de muestreo, la población es dividida en M subpoblaciones o
conglomerados, de tamaños Nj cada uno de ellos. En la 1° etapa se
seleccionan m conglomerados, de los cuales se selecciona nj elementos
respectivamente, de modo tal, que en cada conglomerado, cada uno de los
elementos tengan la misma probabilidad de ser incluidos en la muestra. Este
proceso genera muestras representativas aun cuando la variabilidad en
cada conglomerado exceda el 33%.

Este tipo de muestreo consiste en
Tamaño de Muestra por conglomerados en dos etapas con

probabilidades proporcionales al tamaño:
o Supongamos que se tiene una población de N unidades de análisis
divididas en M conglomerados de tamaños N1, N2, ... , NM conocidos.
o Por ejemplo tenemos un censo actualizado de un sector de salud

que tiene 2 189 individuos distribuidos en 8 manzanas del siguiente
modo:
Manzana: 1 2 3 4 5 6 7 8
Tamaño : 114 222 525 308 205 191 414 210
o Se seleccionará una muestra de exactamente n elementos en dos

etapas:
o Obtener m conglomerados o unidades de primera etapa (UPE) de
modo que a las mayores les correspondan mayores probabilidades
de selección y luego tomar exactamente c individuos en cada UPE
(n=mxc)
Por ejemplo; de una población de 2189 viviendas agrupadas en 8

conglomerados, se desea seleccionar una muestra de por conglomerados
de n = 200 viviendas, agrupadas en m = 4 conglomerados cada uno de un
tamaño C = 50 viviendas.
N = 2189, n = 200, m = 4 y c = 50.

Pasos:
1. Crear una lista de las UPE (conglomerados) y obtener los tamaños
acumulados Di = N1 + N2 + ... + Ni a lo largo de la misma:
Marco muestral de Unidad Primaria Elemental (UPE)
UPE i Tamaño Ni Tamaño acumulado Di
1 114 114
2 222 336
3 525 861
4 308 1169
5 205 1374
6 191 1565
7 414 1979
8 210 2189
2° Calcular el intervalo de selección I.

N
I
2189 m
En el ejemplo 𝐼 = = 547.25 ≈ 547
4
3°. Seleccionar un número aleatorio R entre 1 e I. En nuestro caso de 1 en
547. Supongamos que al seleccionar un número aleatorio se obtiene R
= 369
Se calculan los números
Z1 =R, Z2 =R+I, Z3 = R+2I …. Zm = R+(m-1)I
En nuestro caso estos m = 4 números son: 369, 916, 1 463, 2 010
Asociar cada uno de estos números con una UPE del modo siguiente: se
selecciona en cada caso la primera UPE cuyo tamaño acumulado supere
o iguale al número en cuestión.
De este modo, 369 identifica a la manzana 3 ( pues C3 = 861 es el
primer valor que supera 369); 916 identifica a la UPE número 4 por ser
1 169 el primer acumulado que lo supera; 1 463 a la manzana 6 y 2 010
a la última.
Así en el ejemplo han quedado elegidos los conglomerados que ocupan

los lugares 3, 4, 6 y 8 del listado

UPE i Tamaño Ni Tamaño acumulado Di Zi

1 114 114
2 222 336
3 525 861 369
4 308 1169 916
5 205 1374
6 191 1565 1463
7 414 1979
8 210 2189 2016
Hacer una selección simple aleatoria de exactamente c = 50 individuos

de cada UPE elegida en el paso anterior.
1.2. Muestreos No Probabilísticos

Si consideramos que no precisamos cifras exactas sobre la
representatividad estadística de nuestros resultados, podríamos
plantearnos el usar una muestra no aleatoria (o "no probabilística"), lo que
significa que elegiremos a voluntad nuestra. Podemos considerar que esto
puede ayudarnos a obtener los elementos que necesitamos estudiar
directamente y, además, actuar sin los tediosos procesos de selección
aleatoria y verificación estadística.
Sin embargo, hay una desventaja: corremos un gran riesgo de obtener
demasiado sesgo en la muestra. No seremos capaces siquiera de advertir
la presencia, y menos aún la cantidad, de sesgo si hacemos personalmente
la selección de la muestra. Y la presencia de sesgo puede hacer imposible
generalizar nuestros resultados.
Un modo de reducir el sesgo hasta cierto punto es dejar a otra persona o
grupo la selección de los elementos.
Estas muestras son bastante útiles en aquellas situaciones en las cuales no
es posible utilizar un muestreo probabilístico, es decir cuando no es posible
disponer de un marco muestral para la selección de los elementos de la
muestra. Su utilización está reservada solo para aquellos investigadores
que conocen la estructura de la población y tienen un criterio
suficientemente bueno para conseguir representatividad; incluso si se
dispone de un buen criterio para conseguir representatividad es posible
obtener mayor precisión a más bajos costos que con un muestreo
probabilístico.
Entre los tipos comunes de muestras no aleatorias se incluyen,
Muestra de "casos típicos" o los "mejores" casos es algo bastante
tradicional en la historia del arte: estudiar solamente los "grandes maestros".

La idea es que éstos representan lo más auténtico de su época. Tal

selección deliberada por parte del investigador tiene no obstante riesgos
serios, que se tratan en el punto De limitar el objeto de estudio.
Muestra de conveniencia. Un grupo existente, por ejemplo la gente en una
reunión, podría ser designado como muestra. Este es un método fácil y
barato, pero el sesgo suele ser imposible de estimar. El método es popular
en las demostraciones de cursos sobre métodos, pero raramente usado en
la investigación profesional.
Muestra de voluntarios es creada cuando todos los miembros de la
población tienen la oportunidad de participar en la muestra. Un ejemplo es
la respuesta voluntaria de los clientes que llega a una empresa; igualmente,
las respuestas que un investigador recibe a un anuncio en un periódico
pidiendo a la gente sus opiniones.
Una muestra de voluntarios suele ser una alternativa bastante sensata; no
obstante, el investigador debe considerar cuidadosamente los riesgos de
sesgo. Hay dos cuestiones que plantearse:
¿Es cierto que todos los miembros de la población bajo muestreo tenían las
mismas oportunidades de ser incluidos en la muestra? Por definición, los
voluntarios difieren de la media de la población en su mayor actividad. La
cuestión crucial entonces se ¿diferencian del resto de la población también
en otros aspectos?.
Muestra bola de nieve. Cuando se entrevista a miembros de un grupo,
podemos pedir a las personas que nos indiquen otros individuos en ese
grupo que estén en la mejor posición para dar información sobre ese tema;
podríamos también pedirles que nos indicasen personas que compartan sus
puntos de vista y también otras que sean de opinión opuesta. Entonces
entrevistaremos a nuevos individuos y continuaremos del mismo modo
hasta que no obtengamos nuevos puntos de vista de nuevos entrevistados.
Este es un buen método por ejemplo para recoger los distintos puntos de
vista existentes en un grupo, pero su inconveniente es que no obtenemos
una idea exacta de la distribución de las opiniones.
En el momento de diseñar una muestra no aleatoria, debemos siempre

tener en mente la población. ¿Es representativa la muestra? ¿Son válidos
los resultados en la población?
Recordemos también que no tenemos que incluir elementos que no sean
miembros de la población en nuestra muestra.
Por ejemplo, podríamos decidirnos (de forma bastante sensata) por
investigar las preferencias de los clientes de electrodomésticos
entrevistando a vendedores. O podríamos estudiar las historias de vida de
arrendatarios mediante un cuestionario a administradores de casas o
caseros. La idea es factible, ya que esta gente habitualmente conoce mucho
sobre el tema. Sin embargo, los "especialistas" no pueden ser tomados

como muestra de "no especialistas". Son dos poblaciones diferentes. No

debemos generalizar los resultados de "especialistas" a ninguna otra
población que no sea la de "especialistas", cualquiera que sea el campo del
que tratemos.
En los ejemplos de arriba, podríamos tal vez continuar transformando los
resultados a partir de los especialistas en hipótesis que más tarde
verificaríamos con una muestra apropiada de la población "real" o de no
especialistas, que serían en los ejemplos citados, respectivamente, los
consumidores y los arrendatarios. En otras palabras, podríamos usar la
entrevista de los especialistas sólo como un estudio preliminar.
Tamaño de Muestras no aleatorias
No hay fórmula para determinar el tamaño de una muestra no aleatoria. Con

frecuencia, especialmente en investigaciones cualitativas, podemos
simplemente ampliar gradualmente nuestra muestra y analizar los
resultados siempre que continúen llegando nuevos casos con información
relevante o nueva; en cambio, cuando en los casos nuevos ya no se
presenta información nueva, podemos concluir que nuestra muestra está
saturada, y terminaremos el trabajo de muestreo. Este método es, sin
embargo, muy vulnerable al muestreo sesgado, con lo que tenemos que ser
muy cuidadosos y asegurarnos que no omitimos a ningún grupo de nuestra
población.
Antes de decidir el tamaño de una muestra no aleatoria, tal vez debamos

leer cómo debe ser evaluada la representatividad de los resultados a partir
de una muestra no aleatoria. De otro modo podríamos sufrir una sorpresa
bastante desagradable cuando estemos intentando, demasiado tarde,
definir la población en que nuestros resultados puedan ser declarados
válidos.

Ejercicios 6 (Muestreo)
1. Se va a tomar una muestra de una lista de nombres que están en tarjetas (Un
nombre por tarjeta) numeradas consecutivamente, las cuales se encuentran en un
archivo. Cada nombre tendrá la misma oportunidad de ser incluido en la muestra.
¿Qué problemas surgen de las siguientes situaciones:
a. Algunos nombres no pertenecen a la población- objeto, a pesar de que este
hecho no puede ser verificado para ningún nombre hasta que no se seleccione.
b. Algunos nombres aparecen en más de una tarjeta. Todas las tarjetas con el
mismo nombre llevan números consecutivos, y por lo tanto, aparecen juntas en
el archivo.
c. Algunos nombres aparecen en más de una tarjeta, pero las que llevan el mismo
nombre pueden estar colocadas en cualquier lugar dentro del archivo.
2. El problema para encontrar un marco completo que permita la obtención de una
muestra, frecuentemente es un obstáculo. ¿Qué clase de marcos pudieran ser
convenientes en las siguientes encuestas? ¿Tienen los marcos alguna deficiencia
seria?.
a. Una encuesta de tiendas que venden recargas virtuales en una gran ciudad.
b. Una encuesta de artículos que se dejan en los colectivos o autobuses.
c. Una encuesta a las personas víctimas de algún robo callejero en el último año.
3. Un directorio de la ciudad, de hace cuatro años, enlista las direcciones en orden a
lo largo de la calle, y da el nombre de las personas que viven en cada dirección.
Para una encuesta que se lleva a cabo actualmente por medio de entrevista a la
gente de la ciudad ¿Cuáles son las deficiencias de este marco? ¿Pueden ser
remediados por los entrevistadores durante el desarrollo de la encuesta?. Al usar
el directorio, ¿Sacaría Ud. Una lista de direcciones (domicilios) o una lista de
personas?
4. En una estimación para muestreo del valor real de objetos pequeños en el
inventario de una gran empresa, el valor real y el valor registrado en los libros se
obtuvieron para cada objeto de la muestra. Para la muestra total, la razón del valor
real al registrado fue de 1.021; Esta estimación está distribuida aproximadamente
de manera normal con un error estándar de 0.0082. Si el valor del inventario según
los libros de registro es de $80 000, calcule los límites de confianza de 0.95 para el
valor real.
5. Frecuentemente los datos se deben tratar como una muestra, a pesar de que a
primera vista parece que constituyen un censo. El propietario de un lote de
estacionamiento encuentra que el negocio disminuye los domingos por la mañana.
Después de 26 domingos de operación su percepción promedio por domingo es
exactamente $10.00. El error estándar de esta cifra, calculado a partir de las
variaciones de semana a semana es de $1.2. Los costos del cuidador son de $7.00
cada domingo. El propietario quiere mantener abierto el lote los domingos por la
mañana siempre y cuando su utilidad esperada fuera de $5.00. ¿Cuál es la
probabilidad de que la utilidad a largo plazo sea de, al menos $5.00? ¿Qué
suposición se debe hacer para responder a esta pregunta?
6. En una población con N=6 los valores de yi son 8, 3, 1, 11, 4 y 7. Calcular la media
de la muestra 𝑦̅ para todas las muestras posibles tamaño 2. Verificar que 𝑦̅ es
𝑆 2 𝑁−𝑛
un estimador insesgado de 𝑌̅ y que la varianza es 𝑉(𝑦̅) = ( 𝑛
) 𝑁

7. Una muestra aleatoria simple de 40 familias se obtuvo de un área de la ciudad que

contiene 14 848 familias. El número de personas por familia en la muestra obtenida
fue como sigue:
4 12 6 8 4 5 7 5 9 7 4 5 11 6 7 6 8 4 8 3
7 5 5 11 6 3 5 9 6 5 6 5 3 11 6 4 6 6 6 7
a. Estime el número total de gente en el área y calcule la probabilidad de que

esta estimación esté dentro del 10% del valor verdadero
b. ¿Calcule el tamaño de muestra necesario para estimar el número promedio

de personas por familias en la ciudad con un máximo error de muestreo de
0.2 y una confianza de 0.95.
8. En un estudio sobre el posible uso del muestreo para reducir el trabajo de inventario
de existencias de una bodega, se hizo un conteo del valor de los artículos de cada
uno de los 36 estantes en la bodega. Los valores aproximados fueron:
29 38 42 44 45 47 51 53 53 54 56 56 56 58 58 59 60 60
60 60 61 61 61 62 64 65 65 67 67 68 69 71 74 77 82 85
La estimación del valor total a partir de una muestra debe ser correcta módulo un
error máximo de $200, excepto para una posibilidad en veinte. Un consultor sugiere
que una muestra aleatoria simple de 12 estantes es suficiente para hacer la
estimación. Está Ud. de acuerdo?.
9. Se desea estimar la media poblacional del promedio ponderado de los estudiantes
universitarios del primer ciclo de una universidad. Se sabe que en dicha universidad
hay un total de 1967 estudiantes en el 1° ciclo. Se obtuvo una muestra piloto de 30
estudiantes, en donde se obtiene una desviación estándar de 1.6 puntos. Si
estamos dispuestos a tolerar un máximo error de muestreo de 0.5 para la media
poblacional, y además tener una confianza de 0.95. ¿Cuál será el tamaño de
muestra mínimo requerido si pensamos en utilizar un muestreo aleatorio simple?
10. En una muestra aleatoria simple de 200 obtenida de una población de 2000
colegios, 120 de estos estuvieron a favor de una propuesta, 57 se opusieron y 23
se abstuvieron de opinar.
a. Estimar los límites de confianza al 95 % para el número de colegios en la
población, que favorecieron la propuesta.
b. ¿Se obtiene una evidencia contundente de que la mayoría de los colegios de la
población favorecieron la propuesta?
c. ¿Cuál debería ser el tamaño de muestra para probar la hipótesis 𝐻𝑜 : 𝑃 = 0.5,
contra la alternativa 𝐻𝑎 : 𝑃 > 0.5, si se requiere una confianza de 0.99 y una
potencia de 0.95 pa prueba?
11. Se eligió una muestra aleatoria simple de 290 familias de un área de la ciudad que
contiene 14 828 familias. A cada familia se le preguntó si la casa era suya o rentada

y también si tenían el uso exclusivo de un baño interior. Los resultados fueron como
sigue:
Condición de tenencia de la casa

Total
Propia Rentada
Uso exclusivo de Si 141 109 250
un baño No 6 34 40
Total 147 143 290
a) Para las familias que rentan, estimar el porcentaje en el área de familias que
cuentan con un baño interior de uso exclusivo y dar el error estándar de su
estimación;
b) Estimar el número toral de familias que rentan casa en el área y que no tienen
un baño interior para uso exclusivo y dar el error estándar de esta estimación.
c) Cuál será el tamaño de muestra que sería necesario para estimar la proporción
poblacional de familias que rentan casa en el área y que no tienen un baño
interior para uso exclusivo con una confianza de 0.95 y una precisión d=0.04.
(en caso que la proporción en la muestra de familias que rentan casa y no tienen baño
interior de uso exclusivo sea menor de 0.25, abandone este valor y utilice P = 0.5).
d) Cuál será el tamaño de muestra que sería necesario para probar la hipótesis de
que proporción poblacional de familias que rentan casa en el área y que no
tienen un baño interior para uso exclusivo es igual a 0.20 contra la alternativa
que es menor que este valor. Utilice una confianza para la prueba de 0.99 y una
potencia igual a 0.95.
12. En un distrito en donde hay 4000 casas, el porcentaje de propietarios va ser

estimado con una muestra, con un error de muestreo no mayor al 3%. El porcentaje
verdadero de propietarios se piensa que está entre 45 y 65%. ¿Qué tan grande
debe ser una muestra para tener una confianza de 0.95?
13. En la población de 676 hojas de solicitud ¿Qué tan grande debe ser la muestra si
se va estimar el número total de firmas con un margen de error de 1000 con
probabilidad de 0.95? Suponga que la varianza muestral 𝑠 2 = 229 (firmas /hoja)2,
obtenida a partir de una muestra de 50 hojas, es el valor de 𝑆 2 en la población.
14. De una población con 100 unidades se ha extraído una muestra aleatoria simple de
tamaño 𝑛 = 8, siendo los datos de una variable X los siguientes: 25, 32, 28, 35,
26, 34, 30, 28. Basándose en esta muestra estimar la media y el total poblacional
de X, así como su error absoluto y relativo de muestreo. (𝑒𝑟𝑟𝑜𝑟 𝑎𝑏𝑠𝑜𝑙𝑢𝑡𝑜 =
𝑆 2 𝑁−𝑛
𝑥̅ = √ 𝑛 (
𝑒 = 𝜎̂
𝑁
) = Desviación estándar del estimador de la media,
̂𝑥̅
𝜎
𝑒𝑟𝑟𝑜𝑟 𝑟𝑒𝑙𝑎𝑡𝑖𝑣𝑜 = 𝑒𝑟 = 𝑐𝑣(𝑥̅ ) = = Coeficiente de variación de la media
𝑥̅
aritmética).
15. En una región con N = 1000 viviendas, determinar el tamaño de muestra necesario
para que, con un grado de confianza del 95%, la estimación de la proporción de
viviendas sin agua corriente no difieran en más de 0.1 del valor verdadero de dicha
proporción.

16. Un investigador desea determinar el tamaño de muestra para investigar el efecto

en la disminución complicaciones post operatorias, cuando se respeta
estrictamente los protocolos que existen para intervenciones quirúrgicas en un
hospital de Chiclayo. El investigador tiene una información histórica de las últimas
200 intervenciones quirúrgicas en donde ha observado que el 15% de dichas
intervenciones presentaron complicaciones (en su mayoría, infecciones), y espera
que respetando el protocolo, esta proporción pueda bajar hasta el 2%. Cuál será el
tamaño de muestra para este diseño que es del tipo caso – control, si quiere tener
una confianza de 0.95 y una potencia de 0.90?
17. Se quiere estimar la proporción de recetas del nuevo recetario que no utilizan
productos animales. Planeamos extraer una muestra aleatoria simple de las N =
1251 recetas, y queremos utilizar un intervalo de confianza al 95% con un margen
de error de 0.03.
18. Las familias de un pueblo se van a muestrear para estimar la cantidad promedio
de bienes por familia que se pueden convertir en dinero en efectivo rápidamente.
Las familias se estratifican en un estrato de renta alta y otro de renta baja. Se piensa
que una casa en el estrato de renta alta tiene cerca de 9 veces más bienes que los
existentes en una casa en el estrato de renta baja, y se espera que Sh sea
proporcional a la raíz cuadrada de la media del estrato.
Existen 4 000 familias en el estrato de renta alta y 20 000 familias en el estrato de
renta baja. ¿Cómo distribuiría una muestra de 1000 familias entre los dos estratos?
19. La información que aparece a continuación, representa la estratificación de todas

las propiedades agrícolas en una Región, clasificadas por tamaño promedio de
hectáreas de maíz por propiedad en cada estrato. También se dispone de las
medidas de resumen de una muestra previa de 160 propiedades.
Tamaño de la Número de Muestra Promedio de Desviación Número de

propiedad en propiedades previa hectáreas de estándar propiedades que
(hectáreas): 𝑵𝒉 𝒏𝒉 maíz 𝒔𝒉 utilizan abono
Estrato h ̅𝒉
𝒚 orgánico: 𝒂𝒉
0-40 394 32 5.4 8.3 8
41-80 461 36 16.3 13.3 10
81-120 391 30 24.3 15.1 12
121-160 334 25 34.5 19.8 7
161-200 169 15 42.1 24.5 4
201-240 113 10 50.1 26.0 2
241- Más 148 12 63.8 35.2 3
Total o 2010 160 26.3
media
a. Calcule el tamaño de muestra para estimar el tamaño promedio

poblacional de las propiedades con una precisión de 5 hectáreas y una
confianza de 0.95
b. Calcule el tamaño de muestra para estimar la proporción poblacional de

las propiedades que utilizan abonos orgánicos, con una precisión de 0.04
hectáreas y una confianza de 0.95
c. Con la información de la muestra previa calcule un estimador de intervalo

de 0.95 para el tamaño promedio poblacional de las propiedades.
d. Con la información de la muestra previa calcule un estimador de intervalo

de 0.95 para la proporción poblacional de las propiedades que utilizan
abonos orgánicos.
20. Se desea estimar la proporción de familias que consumen Leche fresca en uno de
los pueblos jóvenes aledaños de la USAT durante el mes de julio del 2017, un mes
después de las sanciones impuestas a la leche “Pura Vida” del Grupo Gloria del
Perú. De un estudio anterior sobre las características socioeconómicas de dicho
pueblo joven realizado en el 2016, se sabe que la proporción de hogares en los que
se consumía leche fresca fue de 0.30 y que en el lugar existen un total de 1189
familias residentes en viviendas agrupadas en 37 manzanas. Si deseamos tener
una precisión para la estimación de 0.05 y una confianza de 0.95, Cuál será el
tamaño de muestra para el propósito de esta investigación? (considere para este
cálculo usar un muestreo aleatorio simple). Considerando una cantidad fija de 20
viviendas por manzana seleccionada para un muestreo por conglomerados con
probabilidades proporcionales al tamaño, ¿Cuáles serán las manzana
seleccionadas?.
i Zona N° Mz. n° de viviendas N° Acum Zi

1 2 21 24 24
2 2 22 29 53
3 2 23 31 84
4 2 24 32 116
5 2 25 36 152
6 2 26 39 191
7 2 27 36 227
8 2 28 38 265
9 2 29 34 299
10 2 30 32 331
11 2 31 22 353
12 2 32 42 395
13 2 33 23 418
14 2 34 54 472
15 2 35 42 514
16 2 36 22 536
17 2 37 55 591
18 2 38 30 621
19 2 39 20 641
20 2 40 23 664
21 2 41 38 702
22 2 42 48 750
23 2 43 25 775
24 2 44 26 801

25 2 45 29 830
26 2 46 25 855
27 2 47 22 877
28 2 48 24 901
29 2 49 38 939
30 2 50 36 975
31 2 51 29 1004
32 2 52 43 1047
33 2 53 28 1075
34 2 54 27 1102
35 2 55 28 1130
36 2 56 29 1159
37 2 57 30 1189
Suma 1189
21. Se desea estimar la proporción de familias que consumen Leche fresca en

el pueblo joven San Martín de Lambayeque durante el mes de junio del 2017,
una semana después de las sanciones impuestas a la leche “Pura Vida” del
Grupo Gloria del Perú. De un estudio anterior sobre las características
socioeconómicas, de dicho pueblo joven, hecha por un grupo de
Investigadores de la UNPRG en el 2016, se sabe que en el lugar existen un
total de 2987 familias residentes en viviendas agrupadas en 113 Manzanas.
Estas manzanas fueron agrupadas en cinco zonas residenciales o estratos,
de las que se sabe además del número de viviendas por estrato, se sabe
también la proporción de familias que consumen leche fresca. Tal como
aparece en el siguiente cuadro.
Se desea estimar la proporción de familias en la población del P.J. San

Martín que consumen leche fresca, para lo cual en considera utilizar un
diseño de muestra estratificada combinado con el conglomerado en donde
cada estrato sería la zona y el conglomerado la manzana de viviendas. Se
desea tener una precisión para la estimación de 0.04 y una confianza de
0.95, además se considera un número fijo de 10 viviendas por manzana
seleccionada por lo que las manzanas o conglomerados deberán ser
seleccionados con probabilidades proporcionales al tamaño del
conglomerado.
Calcule primero el tamaño de muestra estratificado (muestra general y
muestra para cada estrato) y en cada estrato seleccione los conglomerado
con probabilidades proporcionales al tamaño y de cada conglomerado
seleccione 10 viviendas y en dad vivienda solo entreviste a una familia.

Diseño de muestra para estimar la proporción de familias que

consumen Leche Fresca en el P.J. STM 2016
N° Viviendas
Zona N° por estrato Ponderación Proporción
(Estrato) h Mz. Nh Wh ph
1 20 410 0.137 0.25
2 37 994 0.333 0.3
3 16 354 0.119 0.35
4 20 714 0.239 0.25
5 20 515 0.172 0.36
Total 113 2987 1.000
Estrato 1 Estrato 2 Zona 3 Zona 4 Zona 5

N° n° de N° n° de n° de N° n° de N° n° de
Mz. viviendas Mz. viviendas N° Mz. viviendas Mz. viviendas Mz. viviendas
1 27 21 24 58 29 74 13 94 15
2 30 22 19 59 22 75 31 95 4
3 11 23 31 60 18 76 35 96 38
4 14 24 32 61 17 77 38 97 31
5 12 25 36 62 15 78 39 98 31
6 18 26 39 63 13 79 29 99 32
7 24 27 36 64 30 80 42 100 37
8 13 28 38 65 26 81 45 101 44
9 29 29 34 66 29 82 31 102 56
10 18 30 22 67 28 83 12 103 15
11 15 31 22 68 23 84 37 104 20
12 19 32 22 69 24 85 42 105 17
13 14 33 23 70 24 86 42 106 26
14 15 34 24 71 23 87 45 107 27
15 19 35 22 72 23 88 45 108 16
16 25 36 22 73 10 89 49 109 18
17 18 37 20 Suma 354 90 40 110 34
18 32 38 20 91 39 111 18
19 19 39 20 92 51 112 21
20 38 40 23 93 36 113 15
Suma 410 41 28 Suma 741 Suma 515
42 28
43 25
44 26
45 29
46 25
47 22
48 24
49 18
50 26
51 29
52 43
53 28
54 27
55 28
56 29
57 30
Suma 994

V. REGRESIÓN Y CORRELACIÓN
Medidas de correlación:
Después de un análisis descriptivo de cada variable, el siguiente nivel de
análisis comprende analizar la relación entre dos variables. Aquí aparecen
diferentes herramientas estadísticas, desde las tablas de contingencia o
tablas cruzadas hasta el cálculo de coeficientes de correlación. Existen
diversos coeficientes de correlación que han sido construidos para las
diferentes escalas en quede estar medida una variable; sin embargo en esta
ocasión presentaremos solamente el coeficiente de correlación lineal de
Pearson.
Coeficiente de correlación lineal de Pearson [r]
Es una medida que sirve para medir el grado de correlación lineal entre dos
variables medidas en escala de intervalo o de razón.
Cov( x, y )
r ; para todo: 1  r  1
 x  y
Donde:
x  x  y  y 
Covarianza entre X e Y: Cov( x, y )  
N
 x  x 
2
Desviación estándar de X:  x 
N
 y  y 
2
Desviación estándar de Y:  y 
N
Para cálculos manuales se puede demostrar que:
 x  y 
 xy  N
Cov( x, y )  : Co var ianza entre x e y
N
 x
 x  n
2
2
x  : Desviación estándar de x
N
 y  2
 y2 
y  N : Desviación estándar de y
N

 x y 
 xy   N
r : Coeficente de correlació n de pearson
 x   x   y   x 
  2 2


 
2 2
N  N 
  
Sabiendo que el coeficiente de correlación lineal de Pearson puede valores

comprendidos entre cero y 1, los significados aproximados que se suelen
dar se presentan en el siguiente gráfico:
Ejemplo 1.
Se desea estudiar la relación existente entre el tiempo (en días) utilizado
para realizar una obra de construcción de un canal (Y) y el número de
trabajadores participantes en ella (X)
N° de días necesarios N° de trabajadores

para hacer la obra participantes en la obra
i x y XY X^2 Y^2
1 2 8 16 4 64
2 3 7 21 9 49
3 3 6 18 9 36
4 5 6 30 25 36

5 6 5 30 36 25
6 6 4 24 36 16
7 8 3 24 64 9
8 8 2 16 64 4
9 10 1 10 100 1
10 12 0.5 6 144 0.25
∑ 63 42.5 195 491 240.25
63  42.5
195 
r 10   0.971
 63 
2
42.52 
 491   240 .25  
 10  10 
Ejemplo 2.
Se desea estudiar la relación existente entre la Longitud en metros de un cable
eléctrico (X) y el peso en Kgr. del cable (Y)
Longitud del Peso del cable

cable (metros) (en Kgr.) XY X^2 Y^2
i X Y
1 4 5 20 16 25
2 6 5 30 36 25
3 6 7 42 36 49
4 7 6 42 49 36
5 7 7 49 49 49
6 7 8 56 49 64
7 8 8 64 64 64
8 9 8 72 81 64
9 9 9 81 81 81
10 9 10 90 81 100
11 11 10 110 121 100

12 11 11 121 121 121

13 11 12 132 121 144
14 13 12 156 169 144
15 13 13 169 169 169
16 14 14 196 196 196
17 15 15 225 225 225
18 16 15 240 256 225
Suma 176 175 1895 1920 1881
176  175
1895 
r 18  0.972
 176 2
  175 2 
1920  1881  
 18  18 
Regresión Lineal simple
Cuando estamos frente a una situación en la que tenemos dos variables, digamos
X e Y, entre las cuales existe una relación de dependencia lineal evidenciada en
el gráfico de dispersión de puntos, de manera similar a como examinamos dicha
relación cuando estudiamos el coeficiente de correlación lineal de Pearson.
Supongamos que Y depende de X, entonces podemos establecer una ecuación
de regresión lineal simple de la siguiente manera:
𝑌 =∝ + 𝛽𝑋 + 𝜀
Donde:
Y = Variable dependiente o respuesta

X = Variable independiente i regresora
∝ 𝑦 𝛽 = 𝑃𝑎𝑟á𝑚𝑒𝑡𝑟𝑜𝑠 𝑑𝑒 𝑙𝑎 𝑟𝑒𝑔𝑟𝑒𝑠𝑖ó𝑛 (𝑐𝑜𝑛𝑠𝑡𝑎𝑛𝑡𝑒𝑠 𝑑𝑒𝑠𝑜𝑛𝑜𝑐𝑖𝑑𝑎𝑠)
𝜀 = 𝐸𝑟𝑟𝑜𝑟 𝑎𝑙𝑒𝑎𝑡𝑜𝑟𝑖𝑜 (𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒 𝑎𝑙𝑒𝑎𝑡𝑜𝑟𝑖𝑎 𝑛𝑜 𝑜𝑏𝑠𝑒𝑟𝑣𝑎𝑏𝑙𝑒)
𝛽 ∶ Representa la razón de cambio esperado de Y por cada unidad de cambio en X

𝛼 ∶ Representa el valor esperado de la variable respuesta Y, cuando X = 0, siempre que
sea posible que X pueda tomar el valor cero (0), caso contrario no tiene
interpretación y solo es el término constante de la ecuación de regresión.
Método de Mínimos cuadrados para estimar los parámetros de la

ecuación de regresión lineal simple
Para estimar los parámetros de la ecuación de regresión necesitamos una muestra
aleatoria de n-observaciones bidimensionales: { (x1, y1), … , (xn, yn)}.
1° Graficar los datos y verificar que el tipo de relación es lineal
2° Estimar los parámetros con las fórmulas:
 x  y 
 xy   y  ˆ  x
̂  n
ˆ 
 x  2 y
n n
x 2

n
Con lo cual podemos escribir la ecuación de regresión lineal estimada.
Yˆ  ˆ  ˆX

Coeficiente de determinación de la ecuación de regresión lineal simple [ R2]

El coeficiente de determinación es una medida de adecuación de la ecuación de
regresión lineal simple, y expresa el porcentaje de variabilidad de la variable
dependiente (Y) que está siendo explicada por la variable regresora (X) en la
ecuación de regresión lineal simple. Su cálculo se puede obtener elevando al
cuadrado el coeficiente de correlación lineal de Pearson:
R2  r 2
Podemos notar que 0  R2  1 o en forma equivalente 0  R 2  100
Usos de la ecuación de regresión lineal simple:

El mayor beneficio de una ecuación de regresión lineal simple es poder estimar o
pronosticar el valor de la variable dependiente cuando se conoce anticipadamente
el valor de la variable independiente; Sin embargo debemos tener presente
algunas consideraciones antes de realizar estos pronósticos:
1°. El valor de Xo para el cual se desea pronosticar el valor de Y debe ser muy
cercano al valor de la media aritmética de los valores de X utilizados en la
estimación de los parámetros ( x ), por ningún motivo puede estar fuera del
rango de estos valores.
2°. Los errores residuales deben tener distribución normal con media cero y
varianza constante.
3°. El coeficiente de determinación debe ser por lo menos 70%
Ejemplo: Un comerciante al menudeo lleva a cabo un estudio para

determinar de qué manera dependen las ventas de los gastos por semana
en publicidad, para lo cual registra los datos de ambas variables en las
últimas 12 semanas, cuyos datos aparecen en la siguiente tabla:
Tabla N° Ventas en función de los gastos en publicidad

Semana (i) Gasto semanal en publicidad (X) valor de ventas ($): (Y)
1 40 385
2 20 400
3 25 395
4 20 365
5 30 475
6 50 440
7 40 490
8 20 420
9 50 560
10 40 525
11 25 480
12 50 510

1°. En primer lugar por teoría del márquetin, sabemos que las ventas
dependen de los gastos en publicidad, y al representar los datos de estas
variables en las últimas 12 semanas en la siguiente gráfica, verificamos
que la relación es del tipo lineal, entonces es aplicable el uso de la
regresión lineal simple.
2°. Estimaremos los parámetros de la ecuación de regresión lineal simple,

para lo cual hacemos construimos el siguiente cuadro de cálculos:
Tabla N° __ cuadro de cálculos para la regresión lineal simple de Ventas en función de los
gastos en publicidad
Gasto semanal en valor de ventas ($):
Semana (i) publicidad (X) (Y) X.Y X2 Y2
1 40 385 15400 1600 148225
2 20 400 8000 400 160000
3 25 395 9875 625 156025
4 20 365 7300 400 133225
5 30 475 14250 900 225625
6 50 440 22000 2500 193600
7 40 490 19600 1600 240100
8 20 420 8400 400 176400
9 50 560 28000 2500 313600
10 40 525 21000 1600 275625
11 25 480 12000 625 230400
12 50 510 25500 2500 260100
Suma 410 5445 191325 15650 2512925
Esto significa que por cada

nuevo sol adicional que se
gaste en publicidad, debemos
esperar un incremento en las
ventas de 3.22 nuevos soles
 x y 
 xy   n
410  5 445
191 325 
ˆ   12  3.2208
 x
x  
2
410 2
2 15650 
n 12
Esto significa que si no se gasta

ˆ    ˆ 
y x
 3.2208 
5445 410 en publicidad, debemos esperar
  343.71
n n 12 12 un nivel de ventas de 342.71
nuevos soles
Yˆ  ˆ  ˆX Yˆ  343 .71  3.2208 X
El coeficiente de correlación lineal de Pearson es:

410  5445
1913255 
r 10  0.6348
 410 2  5445 2 
15650   2512925  
 12  12 
Por lo tanto el coeficiente de determinación será:
R2  r 2  0.6348 2  0.403  40.3%

El valor nos indica que el 40.3% de la variabilidad de las ventas lo explica los gastos
en publicidad, es decir que se trata de una ecuación no muy útil para realizar
pronósticos de las ventas en función de los gastos en publicidad.
Regresión Lineal Múltiple
Cuando estamos frente a una situación en la que tenemos una variable

dependiente respuesta Y la cual depende linealmente un conjunto de k variables
independientes o regresoras {X1, X2, … , Xk}, entonces podemos establecer una
ecuación de regresión lineal múltiple de la siguiente manera:
𝑌 = 𝛽𝑜 + 𝛽1 𝑋1 + 𝛽2 𝑋2 + ⋯ + 𝛽𝑘 𝑋𝑘 + 𝜀 …… (1)
Donde:
Y = Variable aleatoria dependiente o respuesta
𝑋1 , 𝑋2 , … . , 𝑋𝑘 = Variables matemáticas independientes o regresoras
𝛽𝑜 , 𝛽1 , … , 𝛽𝑘 = 𝑃𝑎𝑟á𝑚𝑒𝑡𝑟𝑜𝑠 𝑑𝑒 𝑙𝑎 𝑟𝑒𝑔𝑟𝑒𝑠𝑖ó𝑛 (𝑐𝑜𝑛𝑠𝑡𝑎𝑛𝑡𝑒𝑠 𝑑𝑒𝑠𝑜𝑛𝑜𝑐𝑖𝑑𝑎𝑠)
𝜀 = 𝐸𝑟𝑟𝑜𝑟 𝑎𝑙𝑒𝑎𝑡𝑜𝑟𝑖𝑜 (𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒 𝑎𝑙𝑒𝑎𝑡𝑜𝑟𝑖𝑎 𝑛𝑜 𝑜𝑏𝑠𝑒𝑟𝑣𝑎𝑏𝑙𝑒)
Supuesto
El término error aleatorio 𝜀 sigue una variable normal con media cero (0) y
varianza constante 𝜎 2 . 𝜀~𝑁(0, 𝜎 2 )
Este supuesto permite deducir que
𝐸(𝑌) = 𝛽𝑜 + 𝛽1 𝑋1 + 𝛽2 𝑋2 + ⋯ + 𝛽𝑘 𝑋𝑘 (2)
Método de Mínimos cuadrados para estimar los parámetros de la

ecuación de regresión lineal múltiple
Para estimar los parámetros de la ecuación de regresión necesitamos una muestra
aleatoria de n-observaciones p-dimensionales con p = k+1 y n>p:
{ (x11, X12, …, X1k, y1), … , (xn1, Xn2, ….,Xnk,yn)}. Para todo n > k
Estas observaciones se suelen presentar en una tabla como la siguiente:

i Xi1 Xi2 …. Xik Yi

1 X11 X12 … X1k Y1
2 X21 X22 … X2k Y2
3 X31 X32 … X3k Y3
. . . … . .
. . . … . .
n Xn1 Xn2 … Xnk Yn
Escribiendo estas n-observaciones en términos del modelo lineal múltiple,

tenemos:
𝑦1 = 𝛽𝑜 + 𝛽1 𝑋11 + 𝛽1 𝑋12 + … + 𝛽𝑘 𝑋1𝑘 + 𝜀1
𝑦2 = 𝛽𝑜 + 𝛽1 𝑋21 + 𝛽1 𝑋22 + … + 𝛽𝑘 𝑋2𝑘 + 𝜀2
𝑦3 = 𝛽𝑜 + 𝛽1 𝑋31 + 𝛽1 𝑋32 + … + 𝛽𝑘 𝑋3𝑘 + 𝜀3
.
.
.
𝑦𝑛 = 𝛽𝑜 + 𝛽1 𝑋𝑛1 + 𝛽1 𝑋𝑛2 + … + 𝛽𝑘 𝑋𝑛𝑘 + 𝜀𝑛
En arreglo matricial tenemos lo siguiente
𝑦1 1 𝑥11 … 𝑥1𝑘 𝛽𝑜 𝜀1
⋮
[ ] = [⋮ ⋮ ⋮ ][ ⋮ ] + [ ⋮ ]
𝑦𝑛 1 𝑥𝑛1 … 𝑥𝑛𝑘 𝛽𝑘 𝜀𝑛
Esto mismo en notación matricial será:
𝒀 = 𝑿𝜷 + 𝜺
Donde:
𝒚𝟏
𝒀 = [ ⋮ ] 𝑒𝑠 𝑢𝑛 𝑣𝑒𝑐𝑡𝑜𝑟 𝑑𝑒 𝑜𝑟𝑑𝑒𝑛 𝑛 × 1
𝒚𝒏
𝟏 𝒙𝟏𝟏 … 𝒙𝟏𝒌
𝑿 = [⋮ ⋮ ⋮ ] 𝑒𝑠 𝑢𝑛𝑎 𝑚𝑎𝑡𝑟𝑖𝑧 𝑑𝑒 𝑜𝑟𝑑𝑒𝑛 𝑛 × 𝑝 , 𝑑𝑜𝑛𝑑𝑒 𝑝 = 𝑘 + 1
𝟏 𝒙𝒏𝟏 … 𝒙𝒏𝒌
𝜷𝒐
𝜷 = [ ⋮ ] 𝑒𝑠 𝑒𝑙 𝑣𝑒𝑐𝑡𝑜𝑟 𝑑𝑒 𝑝𝑎𝑟á𝑚𝑒𝑡𝑟𝑜𝑠 𝑑𝑒 𝑜𝑟𝑑𝑒𝑛 𝑝 × 1 𝑑𝑜𝑛𝑑𝑒 𝑝 = 𝑘 + 1
𝜷𝒌

𝜺𝟏
𝜺 = [ ⋮ ] 𝑒𝑠 𝑒𝑙 𝑣𝑒𝑐𝑡𝑜𝑟 𝑑𝑒 𝑎𝑟𝑟𝑜𝑟𝑒𝑠 𝑎𝑙𝑒𝑎𝑡𝑜𝑟𝑖𝑜𝑠 𝑑𝑒 𝑜𝑟𝑑𝑒𝑛 𝑛 × 1
𝜺𝒏
𝑘 = 𝑁ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒𝑠 𝑟𝑒𝑔𝑟𝑒𝑠𝑜𝑟𝑎𝑠
El supuesto para el vector de errores aleatorios se puede escribir así
0 𝜎2 0 0
2
𝜀~𝑁(0, 𝜎 𝐼), 𝑑𝑜𝑛𝑑𝑒 𝐸(𝜀) = [ ⋮ ] , 𝑉(𝜀) = [ ⋮ ⋱ 0]
0 0 0 𝜎2
Este supuesto nos permite deducir que
𝑬(𝒀) = 𝑿𝜷,
por lo que la distribución de probabilidades de será
𝒀~𝑵(𝑿𝜷, 𝝈𝟐 𝑰)
Y además podemos escribir el vector de errores aleatorios como
𝜺𝟏
𝜺 = 𝒀 − 𝑿𝜷 = [ ⋮ ]
𝜺𝒏
La suma de los cuadrados de los errores aleatorios se puede escribir así

𝜺𝟏
𝑸= 𝜺𝟐𝟏 +⋯+ 𝜺𝟐𝒏 = (𝜺𝟏 . …. 𝜺𝒏 ) ( ⋮ ) = 𝜺′ 𝜺 = (𝒀′ − 𝑿𝜷)′(𝒀 − 𝑿𝜷)
𝜺𝒏
El método de mínimos cuadrados, estima el vector de parámetros 𝛽, de modo tal

que esta suma de cuadrados del error sea mínima.
Podemos notar que la suma de cuadrados del error representado por Q es una
función cuadrática convexa en el vector de parámetros 𝛽, por lo tanto tendrá un
mínimo, el cual es obtenido derivando a Q respecto a 𝛽, luego igualando a cero y
despejando el vector de parámetros 𝛃 resulta la siguiente expresión:
̂ = (𝑿′𝑿)−𝟏 𝑿′𝒀
𝜷
Donde:
̂𝒐
𝜷
̂
𝜷 = [ ⋮ ] 𝑒𝑠 𝑒𝑙 𝑣𝑒𝑐𝑡𝑜𝑟 𝑑𝑒 𝑝𝑎𝑟á𝑚𝑒𝑡𝑟𝑜𝑠 𝑑𝑒 𝑜𝑟𝑑𝑒𝑛 𝑝 × 1 𝑑𝑜𝑛𝑑𝑒 𝑝 = 𝑘 + 1
̂𝒌
𝜷

𝑛 ∑ 𝑋1 ∑ 𝑋2 … ∑ 𝑋𝑘
∑ 𝑋1 ∑ 𝑋12 ∑ 𝑋1 𝑋2 … ∑ 𝑋1 𝑋𝑘
𝑋 ′𝑋 = = 𝑀𝑎𝑡𝑟𝑖𝑧 𝑑𝑒 𝑝𝑟𝑜𝑑𝑢𝑐𝑡𝑜𝑠 𝑐𝑟𝑢𝑧𝑎𝑑𝑜𝑠 𝑝𝑥𝑝
∑ 𝑋2 ∑ 𝑋2 𝑋1 ∑ 𝑋22 … ∑ 𝑋2 𝑋𝑘
⋮ ⋮ ⋮ ⋱ ⋮
[∑ 𝑋𝑘 ∑ 𝑋𝑘 𝑋1 ∑ 𝑋𝑘 𝑋2 … ∑ 𝑋𝑘2 ]
∑𝑌
∑ 𝑋1 𝑌
𝑋′ 𝑌 =
∑ 𝑋2 𝑌
⋮
[∑ 𝑋𝑘 𝑌]
Como el rango de 𝑋′𝑋 es 𝜌(𝑋′𝑋) = 𝑝 , entonces (𝑋′𝑋)−1 existe
Interpretación de los coeficientes de regresión:
𝛽𝑜 ∶ 𝐸𝑠 𝑒𝑙 𝑣𝑎𝑙𝑜𝑟 𝑒𝑠𝑝𝑒𝑟𝑎𝑑𝑜 𝑑𝑒 𝑌 , 𝑐𝑢𝑎𝑛𝑑𝑜 𝑋1 = ⋯ = 𝑋𝑘 = 0, 𝑠𝑖𝑒𝑚𝑝𝑟𝑒 𝑞𝑢𝑒 𝑠𝑒𝑎 𝑝𝑜𝑠𝑖𝑏𝑙𝑒
Nota: Si una o más de las variables regresoras X no puede tomar el valor cero (0),
entonces el 𝛽𝑜 no tiene interpretación y solo se la entiende como el término
constante de la regresión
𝛽𝑗
∶ 𝑒𝑠 𝑒𝑙 𝑐𝑎𝑚𝑏𝑖𝑜 𝑒𝑠𝑝𝑒𝑟𝑎𝑑𝑜 𝑒𝑛 𝑌𝑝𝑜𝑟 𝑐𝑎𝑑𝑎 𝑢𝑛𝑖𝑑𝑎𝑑𝑑𝑒 𝑑𝑒 𝑐𝑎𝑚𝑏𝑖𝑜 𝑒𝑛 𝑋𝑗 , 𝑠𝑖𝑒𝑚𝑝𝑟𝑒 𝑞𝑢𝑒 𝑙𝑎𝑠
otras variables X’s se mantengan constantes.
COEFICIENTE DE DETERMINACIÓN [R2]
Es una medida de adecuación del modelo de regresión a los datos, debido a que
representa la parte o proporción de variabilidad de la variable respuesta (Y) que es
explidada por las variables regresoras X1, X2, … , Xk , a través del modelo de regresión.
Su fórmula de cálculo es la siguiente:
𝑆𝑆𝑅𝑚 𝑆𝑆𝐸
𝑅2 = = 1−
𝑆𝑆𝑇𝑚 𝑆𝑆𝑅𝑚

Donde
𝑆𝑆𝑇𝑚 = ∑(𝑌1 − 𝑌̅1 )2 : 𝑆𝑢𝑚𝑎 𝑑𝑒 𝑐𝑢𝑎𝑑𝑟𝑎𝑑𝑜𝑠 𝑑𝑒𝑙 𝑡𝑜𝑡𝑎𝑙 𝑐𝑜𝑟𝑟𝑒𝑔𝑖𝑑𝑜 𝑝𝑜𝑟 𝑙𝑎 𝑚𝑒𝑑𝑖𝑎
2
𝑆𝑆𝐸 = ∑(𝑌 − 𝑌̂) ∶ 𝑆𝑢𝑚𝑎 𝑑𝑒 𝑐𝑢𝑎𝑑𝑟𝑎𝑑𝑜𝑠 𝑑𝑒𝑙 𝑒𝑟𝑟𝑜𝑟 𝑟𝑒𝑠𝑖𝑑𝑢𝑎𝑙
𝑆𝑆𝑅𝑚 = 𝑆𝑆𝑇𝑚 − 𝑆𝑆𝐸 ∶ 𝑆𝑢𝑚𝑎 𝑑𝑒 𝑐𝑢𝑎𝑑𝑟𝑎𝑑𝑜𝑠 𝑑𝑒𝑏𝑖𝑑𝑜 𝑎 𝑙𝑎 𝑟𝑒𝑔𝑟𝑒𝑠𝑖ó𝑛 𝑐𝑜𝑟𝑟𝑒𝑔𝑖𝑑𝑜 𝑝𝑜𝑟 𝑙𝑎 𝑚𝑒𝑑𝑖𝑎
Es fácil notar que
0 < 𝑅2 < 1
Sabemos que la fin supremo de un modelo de regresión es el de pronosticar o predecir el

valor de Y cuando se conoce con anticipación los valores de las variables regresoras X 1,
X2, … , Xk; sin embargo estas predicciones serán de utilidad, siempre que el coeficiente
de determinación R2 > 0.70; es decir siempre que las variables regresoras expliquen más
del 70%
Intervalo de confianza para el vector de parámetros β
Sabemos que 𝛽̂ = (𝑋′𝑋)−1 𝑋′𝑌 , notamos que 𝛽̂ es una función lineal de Y, se puede
demostrar que 𝐸(𝛽̂ ) = 𝛽 y que 𝑉(𝛽̂ ) = (𝑋′𝑋)−1 𝜎 2. Sabemos también que el estimado
𝑆𝑆𝐸
de la varianza es 𝜎̂2 = = 𝑀𝑆𝐸, entonces el estimador de la varianza de 𝛽̂ será:
𝑛−𝑝
𝑉̂ (𝛽̂ ) = (𝑋′𝑋)−1 (𝑀𝑆𝐸).
Además, como sabemos que 𝑌 ~ 𝑁(𝑋𝛽 , 𝜎 2 𝐼) , entonces debemos tener que

𝛽̂ ~𝑁(𝛽, (𝑋′𝑋)−1 𝜎 2 ) por lo que el intervalo de confianza para cada uno de los 𝛽𝑗 será:
𝛼 ⁄2
𝛽𝑗 ∶ 𝛽̂𝑗 ± 𝑡(𝑛−𝑝) √𝐶𝑗𝑗 × 𝑀𝑆𝐸 ,
donde 𝐶𝑗𝑗 es el (𝑗𝑗) − é𝑠𝑖𝑚𝑜 𝑒𝑙𝑒𝑚𝑒𝑛𝑡𝑜 𝑑𝑒 (𝑋′𝑋)−1
Intervalo de confianza para el valor esperado de Y: E(Yo)
Sea un valor dado de las variables regresoras 𝑋′𝑜 = [1 𝑋01 ⋯ 𝑋0𝑝 ] entonces el
estimador del valor esperado de Y para Xo será:
𝐸̂ (𝑌𝑜 ) = 𝑌̂𝑜 = 𝑋′𝑜 𝛽̂.
El estimador de la varianza de este estimador será:
𝑉̂ (𝑋′𝑜 𝛽̂ ) = 𝑋′𝑜 (𝑋′𝑋)−1 𝑋𝑜 (𝑀𝑆𝐸)

Por lo tanto el intervalo de confianza para 𝐸(𝑌𝑜 ) será:
𝛼 ⁄2
𝐸(𝑌𝑜 ) ∶ 𝑋′𝑜 𝛽̂ ± 𝑡(𝑛−𝑝) √𝑋′𝑜 (𝑋′𝑋)−1 𝑋𝑜 (𝑀𝑆𝐸)
Ejemplo
2. Los siguientes datos muestran el número de habitaciones (X1), el número de baños

(X2) y los precios (Y), a los que se vendió recientemente una muestra aleatoria de
casas unifamiliares en una gran ciudad.
i X1 X2 Y
1 3 2 78800
2 2 1 74300
3 4 3 83800
4 2 1 74200
5 3 2 79700
6 2 2 74900
7 5 3 88400
8 4 2 82900
Deseamos ajustar el modelo:
𝑦 = 𝛽𝑜 + 𝛽1 𝑋1 + 𝛽2 𝑋2 + 𝜀
Las matrices X’X y X’Y serán
8 25 16 637000 107 −20 −37
′ ′ −1 1
𝑋 𝑋 = [25 87 55] , 𝑋 𝑌 = [2031100] y (𝑋′𝑋) = [−20 32 −40]
84
16 55 36 1297700 −17 −40 71
1.2738 −0.2381 −0.2014

O también (𝑋′𝑋)−1 = [−0.2381 0.3810 −0.4762]
−0.2014 −0.4762 0.8452
Con lo cual el estimador del vector de parámetros será

65191.7
𝛽̂ = [ 4133.3 ]
758.3
Interpretación de los coeficientes de regresión:
𝛽̂𝑜 = 65191.7 es solo el término constante de la regresión debido a que X1 =
“número de habitaciones de la vivienda” no puede tomar el valor cero (0).
𝛽̂1 = 4133.3 es el incremento esperado en el valor de la casa familiar, por cada
habitación (X1) adicional que ésta tenga, siempre que se mantenga constante el
número de baños (X2).
𝛽̂2 = 758.3 es el incremento esperado en el valor de la casa familiar, por cada baño
(X2) adicional que ésta tenga, siempre que se mantenga constante el número de
habitaciones (X1).
El coeficiente de determinación será:

Cuadro de cálculos de SSTm y SSE

2
𝑌 − 𝑌̅ 𝑌 − 𝑌̅ 2 𝑌̂ 𝑌 − 𝑌̂ 𝑌 − 𝑌̂
1 X1 X2 Y
1 3 2 78800 -825 680625 79108.33 -308.33 95069.4
1 2 1 74300 -5325 28355625 74216.67 83.33 6944.4
1 4 3 83800 4175 17430625 84000.00 -200.00 40000.0
1 2 1 74200 -5425 29430625 74216.67 -16.67 277.8
1 3 2 79700 75 5625 79108.33 591.67 350069.4
1 2 2 74900 -4725 22325625 74975 -75.00 5625.0
1 5 3 88400 8775 77000625 88133.33 266.67 71111.1
1 4 2 82900 3275 10725625 83241.67 -341.67 116736.1
0 185955000 0.00 685833.3
Media = 79625 SSTm SSE
𝑆𝑆𝑇𝑚 = 185955000 = Suma total de cuadrados corregido por la media
𝑆𝑆𝐸 = 685833.3 Suma de cuadrados del error
𝑆𝑆𝑅𝑚 = 𝑆𝑆𝑇𝑚 − 𝑆𝑆𝐸 = 185269166.7 = Suma de cuadrados debido a la regresión
corregido por la media
𝑆𝑆𝑅𝑚 185269166.7
𝑅2 = = = 0.9963 = 99.63%
𝑆𝑆𝑇𝑚 185955000
Concluimos que el 99.63% de variabilidad del precio de las viviendas, están siendo
explicadas por el número de habitaciones y el número de baños que éstas tienen,
es decir que es una muy buena regresión para hacer pronósticos.
Pronósticos: Cuál será el precio esperado de una vivienda que tenga 3
habitaciones y 3 baños:
𝑌(3,3) = 65.191.667 + 4133.333(3) + 758.333(3) = 79866.667
Para encontrar el intervalo de confianza del vector de parámetros, debemos

obtener la matriz de covarianzas del estimador del vector de parámetros:
𝑉̂ (𝛽̂ ) = (𝑋′𝑋)−1 (𝑀𝑆𝐸)
Donde MSE = Cuadrado medio del error o estimador de la varianza del error
𝑆𝑆𝐸 685833.33
𝑀𝑆𝐸 = 𝑛−𝑝 = 8−3
= 137166.67
Entonces la matriz de covarianzas de 𝛽̂ será:
1.2738 −0.2381 −0.2014
𝑉(𝛽̂ ) = [−0.2381 0.3810 −0.4762] × 137166.67
−0.2014 −0.4762 0.8452
174724.21 −0.2381 −0.2014 𝜎𝑜2 𝜎𝑜1 𝜎𝑜2

𝑉(𝛽̂ ) = [−32658.73 52253.968 −0.4762 ] = [𝜎1𝑜 𝜎12 𝜎12 ]
−27759.92 −65317.46 115938.492 𝜎2𝑜 𝜎21 𝜎22
Para una confianza (1 − 𝛼) = 0.95 y (n-p)=(8-3) = 5, debemos tener que:
⁄
𝛼 2 0.025
𝑡(𝑛−𝑝) = 𝑡(5) = 2.57058

𝛼 ⁄2
𝛽𝑗 ∶ 𝛽̂𝑗 ± 𝑡(𝑛−𝑝) √𝜎̂𝑗2
𝛽𝑗
Lim Inf Lim Sup
𝛽0
64117.163 66266.171
𝛽1
3545.721 4720.946
𝛽2
-116.943 1633.610
El intervalo de confianza para el valor esperado de Y cuando 𝑋′0 = [1 3 3] será:
𝛼 ⁄2
𝐸(𝑌𝑜 ) ∶ 𝑋′𝑜 𝛽̂ ± 𝑡(𝑛−𝑝) √𝑋′𝑜 (𝑋′𝑋)−1 𝑋𝑜 (𝑀𝑆𝐸)
65191.667
𝑋′𝑜 𝛽̂ = [1 3 3] [ 4133.333 ] = 79866.667
758.333
1.2738 −0.2381 −0.2014 1
𝑋′𝑜 (𝑋′𝑋)−1 𝑋𝑜 = [1 3 3] [−0.2381 0.3810 −0.4762] [3] = 1.09524
−0.2014 −0.4762 0.8452 3
𝐸(𝑌𝑜 ) ∶ 79866.667 ± 2.57058√1.09525 × 137166.667
𝐸(𝑌𝑜 ) ∶ [78870.32 , 80863.01]
Ejercicios 8
1. Se dispone de la siguiente información acerca del promedio ponderado (Y) y el
número de horas de estudio a la semana (X) sin considerar horas de clase.
N° de horas de estudio Promedio

semanal (Xi) (sin considerar Ponderado
i horas de clase) (Yi) Comentario
1 4 9.4
2 3 8.4
3 10 16.1
4 8 12.2
5 15 19.2
6 4 9.90
7 3 7.00

8 9 12.5
9 13 18.1
10 11 14.3
11 9 12.2
12 10 15
13 10 14.5
14 11 15.1
15 10 13.3
16 13 17.2
17 2 6.30
18 9 12.1
19 10 13.4
20 10 15.5
21 9 11.1
22 3 7.20
23 4 9.10
24 9 11.2
25 10 14.1
26 5 17.20 Lleva curso por 2° vez
27 11 15.2
28 9 12.2
29 11 12.4
30 14 18.1
31 1 5.40
32 10 13.4
33 12 17.2
34 10 15.4
35 5 8.3
36 13 16.3
37 13 16.3
38 1 5.20
39 5 11.6
40 12 16.1
a) Elabore un gráfico de dispersión de (X, Y).

b) Considere que al estudiante 26 como atípico por estar llevando la asignatura por
segunda vez, por lo tanto elimínelo de la base. ¿Qué tipo de relación sugiere el
gráfico de dispersión (X, Y)?
c) Obtenga e interprete el coeficiente de correlación de Pearson entre X , Y.
d) Considerando que el promedio ponderado depende de las horas de estudio
semanal, obtenga la ecuación de regresión lineal simple de Y en función de X, e
interprete cada uno de sus parámetros.
e) Obtenga el coeficiente de determinación para la ecuación de regresión obtenida
en (d).
f) ¿Cuál será el promedio ponderado esperado para un estudiante que en promedio
dedica al estudio 8 horas a la semana?
2. Se dispone de la siguiente información relacionada con el número de minutos hablados
por teléfono fijo en un determinado mes (Y), el número de personas mayores de 12
años que viven en un determinado hogar (X1) y el nivel de ingresos familiares
mensuales en miles de soles (X2).

Hogar X1 X2 Y
1 6 5.50 150
2 2 3.70 64
3 4 5.75 126
4 5 5.75 141
5 2 4.00 89
6 3 4.50 89
7 4 4.00 110
8 5 6.00 166
9 2 5.00 95
10 2 5.50 110
a. Obtenga un modelo de regresión lineal de Y en función de X1 y X2.

b. Cuál es porcentaje de explicación que proporcionan X1 y X2 a Y a través del modelo
de regresión encontrado en (a)?
c. Entre que valores se encontrará el número de minutos hablados al mes por teléfono
fijo (Y), para un hogar donde hay 4 personas mayores de 12 años (X1) y tienen un
ingreso familiar mensual de 4.75 miles de soles (X2), con una confianza de 0.95.
3. Con la siguiente información acerca de la demanda de rosas en la siguiente tabla se

presentan datos trimestrales sobre las variables: Y, X1, X2, X3 y X4.
Y = Cantidad de rosas vendidas, docenas

X1 = Precio promedio al mayoreo de las rosas ($ / docena)
X2 = Precio promedio al mayoreo de los claveles ($ / docena)
X3 = Ingreso familiar disponible promedio semanal ($/semana)
X4=Variable de tendencia, toma valores 1,2,…,16 en una área metropolitana
Considere el modelo de regresión lineal múltiple de Y en función de X1, X2, X3 y X4:

y = 𝛽𝑜 + 𝛽1 𝑋1 + 𝛽2 𝑋2 + 𝛽3 𝑋3 + 𝛽4 𝑋4 + 𝜀
a) estime los parámetros del modelo e interprete sus resultados
b) Obtenga e interprete el coeficiente de determinación. ¿se trata de un buen modelo
para pronosticar la venta de rosas?
Año Trimestre X1 X2 X3 X4 Y
1971 III 2.26 3.49 158.11 1 11484
IV 2.54 2.85 173.36 2 9348
1972 I 3.07 4.06 165.26 3 8429
II 2.91 3.64 172.92 4 10079
III 2.73 3.21 178.46 5 9240
IV 2.77 3.66 198.62 6 8862
1973 I 3.59 3.76 186.28 7 6216
II 3.23 3.49 188.98 8 8253
III 2.6 3.13 180.49 9 8038

IV 2.89 3.2 183.33 10 7476

1974 I 3.77 3.65 181.87 11 5911
II 3.64 3.6 185 12 7950
III 2.82 2.94 184 13 6134
IV 2.96 3.12 188.2 14 5868
1975 I 4.24 3.58 175.67 15 3160
II 3.69 3.53 188 16 5872
REDUCCIÓN DE LA DIMENSIÓN CON VARIABLES CUANTITATIVAS.

VI. Introducción a las técnicas de reducción de la dimensión:

Es habitual en el trabajo estadístico disponer de muchas variables medidas u observadas
en una colección de individuos y pretender estudiarlas conjuntamente, para lo cual se suele
acudir al análisis estadístico multivariante de datos. Entonces se dispone de una diversidad
de técnicas y debe seleccionarse la más adecuada a los datos y al objetivo científico. Al
observar muchas variables sobre una muestra es presumible que una parte de la información
recogida pueda ser redundante o que sea excesiva, en cuyo caso los métodos multivariantes
de reducción de la dimensión (análisis en componentes principales, factorial,
correspondencias, escalamiento óptimo y multidimensional, etc.) tratan de eliminarla. Estos
métodos combinan muchas variables observadas para obtener pocas variables ficticias que
las representan con la mínima pérdida de información.
Estos métodos de reducción de la dimensión son métodos multivariantes de la

interdependencia en el sentido de que todas sus variables tienen una importancia
equivalente, es decir, si ninguna variable destaca como dependiente principal en el objetivo de
la investigación.
En este caso también se deberá tener en cuenta el tipo de variables que se maneja. Si son
variables cuantitativas, las técnicas de reducción de la dimensión pueden ser el Análisis
Factorial y el Análisis de Componentes Principales, si son variables cualitativas, puede

acudirse al Análisis de Correspondencias y al Escalamiento Optimo, y si son variables
cualitativas ordinales se acude al Escalamiento Multidimensional.
Los métodos de interdependencia se contraponen a los denominados métodos

multivariantes de la dependencia en los cuales no es aceptable una importancia equivalente
en las variables, por que alguna se destaca como dependiente principal. En este caso habrá
de utilizar técnicas multivariantes analíticas o inferenciales considerando la variable
dependiente como explicada por las demás variables independientes explicativas, y tratando
de relacionar todas las variables por medio de una posible ecuación o modelo que las ligue. El
método elegido podría ser entonces la regresión lineal, generalmente con todas las variables
cuantitativas. Una vez configurado el modelo matemático se podrá llegar predecir el valor de
la variable dependiente conocido el perfil de todas las demás.

Si la variable dependiente fuera cualitativa dicotómica (1, 0; sí o no) podrá usarse como
clasificadora, estudiando su relación con el resto de variables clasificativas a través de la
Regresión Logística. Si la variable dependiente cualitativa observada constatara la asignación
de cada individuo a grupos previamente definidos (dos, o más de dos), puede ser utilizada
para clasificar nuevos casos en que se desconozca el grupo al que probablemente pertenecen,
en cuyo caso estamos ante el Análisis Discriminante, que resuelve el problema de asignación
en función de un perfil cuantitativo de variables clasificativas. Si la variable dependiente es
cuantitativa y las explicativas son cualitativas estamos ante modelos de análisis de varianza,
que puede extenderse a los modelos loglineales para el análisis de tablas de contingencia de
dimensión elevada. Si la variable dependiente puede ser cualitativa o cuantitativa y las
independientes cualitativas, estamos ante la segmentación.
En las técnicas de modelado originado por los datos no se asigna ningún papel
predeterminado a las variables. No se supone la existencia de variables dependientes ni
independientes y tampoco se supone la existencia de un modelo previo para os datos.
Podemos incluir en este grupo las técnicas de reducción de la dimensión (Factorial,
componentes principales, correspondencias, escalamiento óptimo y multidimensional, etc.)
ANALISIS FACTORIAL CON EL SPSS

El análisis factorial es un nombre genérico que se da a una clase de métodos estadísticos
multivariantes cuyo propósito general es definir la estructura subyacente en una matriz de
datos. Podemos decir también que aborda el problema de cómo analizar la estructura de las
interrelaciones (correlaciones) entre un gran número de variables (por ejemplo las
puntuaciones de prueba, artículos de prueba, respuestas de cuestionarios) con la definición
de una serie de dimensiones subyacentes comunes, conocidas como factores. Con el análisis
factorial, el investigador puede identificar primero las dimensiones separadas de la estructura
y entonces determinar el grado en que se justifica cada variable por cada dimensión. Una vez
que se determinan estas dimensiones y la explicación de cada variable, se pueden lograr los
dos objetivos principales para el análisis factorial – el resumen y la reducción de datos. A la
hora de resumir los datos, con el análisis factorial se obtienen unas dimensiones subyacentes
que cuando son interpretadas y comprendidas, describen los datos con un número de
conceptos mucho más reducido que las variables individuales originales. Se puede obtener la

reducción de datos con el cálculo de la puntuación para cada dimensión subyacente y

sustituirlos por las variables originales.
La ventaja principal de las técnicas multivariantes es su capacidad para acomodar las

variables múltiples con el fin de comprender las relaciones complejas que no son posibles con
los métodos univariantes y bivariantes. El incremento del número de variables también
aumenta la posibilidad de que las variables estén no correlacionadas y no sean representativas
de unos conceptos distintos. En su lugar, los grupos de variables pueden estar
interrelacionados en la medida en que son todos representativos de un concepto más general.
Esto se puede deber al diseño, como es el intento de medir las muchas facetas de
personalidad o imagen de establecimiento, o puede sugerir simplemente de la adición de
nuevas variables. En cualquier caso, el investigador tiene que saber como se relacionan las
variables para interpretar mejor los resultados. Finalmente si el número de variables es
demasiado grande o existe la necesidad de dar una mejor representación a un número de
conceptos más pequeño en vez de las facetas múltiples, el análisis factorial puede asistir en
la selección de un subgrupo representativo de variables o incluso crear nuevas variables como
sustitutas para las variables originales mientras mantengan su carácter original.
El análisis factorial es diferente de las técnicas de dependencia tales como la regresión

múltiple, el análisis discriminante, el análisis multivariante de la varianza o la correlación
canónica, las cuales se consideran una o más variables explícitamente como las variables de
criterio o dependientes y todas las demás son las variables de predicción o independientes. El
análisis factorial es una técnica de interdependencia en el que se consideran todas las
variables simultáneamente, cada una relacionada con todas las demás y empleado todavía el
concepto del valor teórico, el compuesto lineal de las variables. En el análisis factorial, los
valores teóricos (los factores) se forman para maximizar su explicación de la serie de variables
entera, y no para predecir una(s) variable(s) dependiente(s). Si hiciéramos una analogía con
las técnicas de dependencia, cada una de las variables (originales) observadas sería una
variable dependiente, que es una función de una serie de factores (dimensiones) subyacentes
y latentes que están compuestas por todas las otras variables. Por lo tanto, cada variable es
predicha por todas las demás. Por el contrario, se puede considerar cada factor (valor teórico)
como una variable dependiente que es función del conjunto entero de las variables
observadas. Cualquiera de estas analogías ilustra las diferencias de propósito entre las
técnicas de dependencia (la predicción) y la interdependencia (identificación de estructura).

Las técnicas analíticas de factores pueden lograr sus propósitos desde una perspectiva
exploratoria o confirmatoria. Existe una discusión continuada acerca del papel del análisis
factorial. Muchos investigadores lo consideran meramente exploratorio, útil para la búsqueda
de una estructura entre una serie de variables o como un método de reducción de datos.
Desde esta perspectiva las técnicas del análisis factorial “extraen lo que proporcionan los
datos” y no tienen ninguna restricción a priori sobre la estimación de los componentes o el
número de componentes a ser extraído. Para muchas aplicaciones, sino todas, resulta
apropiada esta aplicación del análisis factorial. No obstante, en otras situaciones el
investigador tiene unos pensamientos preconcebidos sobre la estructura real de los datos, que
se basan en un apoyo teórico o investigaciones previas. Es posible que el investigador quiera
probar las hipótesis que implican cuestiones tales como qué variables deberían ser agrupadas
en un factor o el número exacto de factores. En estos casos, se requiere un análisis factorial
que adopte un enfoque confirmatorio –es decir, valorar hasta qué punto los datos se ajustan a
la estructura esperada. En esta ocasión abordaremos las técnicas analíticas de factores
principalmente desde el punto de vista exploratorio o no confirmatorio. Para realizar un análisis
confirmatorio es necesario usar modelos de ecuaciones estructurales (SEM).
Ejemplo hipotético de análisis factorial
Supongamos que mediante una investigación cualitativa un comercio minorista ha identificado

ochenta características diferentes de comercios minoristas y su servicio, que los consumidores
han mencionado que afectan su elección a la hora de frecuentar estos comercios. El
comerciante quiere entender como deciden los consumidores, pero opina que no puede
valorar las ochenta características individuales o desarrollar planes de acción para tantas
variables, por que son demasiado específicos. En su lugar al comerciante le gustaría saber si
los consumidores piensan en una dimensión determinante más general en vez de únicamente
en aspectos específicos. Para identificar estas dimensiones, el comerciante podría encargar
una encuesta solicitando valoraciones de consumidores sobre cada uno de estos aspectos
específicos. Se emplearía entonces el Análisis Factorial para identificar las dimensiones
determinantes subyacentes. Se considera que los aspectos específicos que se correlacionan
en gran medida forman parte de una dimensión más amplia. Estas dimensiones se convierten
en compuestos de las variables específicas, que a su vez permiten a las dimensiones ser
interpretadas y descritas. En nuestro ejemplo, el análisis factorial podría identificar
dimensiones como variedad de producto, calidad de producto, precios, personal del
establecimiento, servicio y ambiente del establecimiento como las dimensiones determinantes

utilizadas por los encuestados. Cada una de estas dimensiones contiene aspectos específicos
que son una faceta de la dimensión determinante más amplia. A raíz de estos resultados, el
comerciante puede usar estas dimensiones (factores) para definir áreas generales para la
planificación y actuación.
Un ejemplo ilustrativo de una aplicación sencilla del análisis factorial se expone e la figura N°
1, que representa la matriz de correlación para nueve elementos de imagen de un
establecimiento. Se incluyen en esta serie las medidas de oferta del producto, personal del
establecimiento, niveles de precios y el servicio y experiencia dentro del establecimiento. La
pregunta que el investigador podría resolver es: ¿Están todos estos elementos separados en
sus propiedades de valoración o están “agrupados” en áreas más generales de valoración?.
Por ejemplo, ¿se agrupan todos los elementos del producto juntos? ¿Dónde se ajusta el nivel
de precios, o está separado? ¿Cómo se relacionan las características de funcionamiento
dentro del establecimiento (por ejemplo, el personal del establecimiento, el servicio y el
ambiente)? La inspección visual de la matriz de correlación original (Figura N° 1, parte 1) no
revela fácilmente una pauta específica. Existen correlaciones dispersas altas, pero las
agrupaciones de variables no son evidentes. La aplicación del análisis factorial tiene como
resultado la agrupación de variables tal y como se refleja en la pare 2 e la figura N° 1. Aquí
aparecen unas pautas interesantes. En primer lugar, se agrupan cuatro variables, todas
relacionadas con la experiencia de compradores dentro del establecimiento. A continuación,
tres variables que describen la variedad del producto y disponibilidad están agrupadas juntas.
Finalmente se agrupan la calidad del producto y los niveles de precios. Cada grupo representa
una serie de variables altamente interrelacionadas que peden reflejar una dimensión de
valoración más general. En este caso, podríamos calificar las tres agrupaciones con la
calificación de experiencia dentro del establecimiento, oferta de producto y valor. Todo esto
proporcionaría a la dirección del establecimiento un número de conceptos más pequeño a
tener en cuenta a la hora de formular la planificación comercial de estratégica o táctica, a la
vez que proporciona un panorama más detallado de lo que constituye cada área general.

PARTE 1: MATRIZ DE CORRELACIÓN ORIGINAL.
V1 V2 V3 V4 V5 V6 V7 V8 V9
V1: Nivel de precios 1.000
V2: Personal del establecimiento 0,427 1.000
V3: Política de retorno 0,302 0,771 1.000
V4: Disponibilidad del producto 0,470 0,497 0,427 1.000
V5: Calidad del producto 0,765 0,406 0,307 0,472 1.000
V6: Profundidad de surtido 0,281 0,445 0,423 0,713 0,325 1.000
V7: Anchura de surtido 0,354 0,490 0,471 0,719 0,378 0,724 1.000
V8: Servicio dentro del 0,242 0,719 0,733 0,428 0,240 0,311 0,435 1.000
establecimiento
V9: Ambiente del establecimiento 0,372 0,737 0,774 0,479 0,326 0,429 0,466 0,710 1.000
PARTE 2: MATRIZ DE CORRELACIÓN DE LAS VARIABLES DESPUES DE AGRUPACIÓN SEGÚN

EL ANÁLISIS FACTORIAL
V3 V8 V9 V2 V6 V7 V4 V1 V5
V3: Política de retorno 1.000

V8: Servicio dentro del 0,733 1.000

establecimiento
V9: Ambiente del establecimiento 0,774 0,710 1.000
V2: Personal del establecimiento 0,741 0,719 0,787 1.000
V6: Profundidad de surtido 0,423 0,311 0,429 0,445 1.000
V7: Anchura de surtido 0,471 0,435 0,468 0,490 0,724 1.000
V4: Disponibilidad del producto 0,427 0,428 0,479 0,497 0,713 0,719 1.000
V1: Nivel de precios 0,302 0,242 0,372 0,427 0,281 0,354 0,470 1.000
V5: Calidad del producto 0,307 0,240 0,326 0,406 0,325 0,378 0,472 0,765 1.000
Las áreas sombreadas representan las variables agrupadas por el análisis factorial
Figura N° 1. Ejemplo ilustrativo para el uso del análisis factorial para identificar la estructura dentro de
un grupo de variables
El proceso de decisión del análisis factorial
Centraremos el debate del análisis factorial en el paradigma de construcción de modelos de

seis pasos. La figura 2 muestra los primeros tres pasos de la aproximación estructurada para
la construcción de modelos multivariantes, y la figura 4 muestra en detalle los últimos tres
pasos, y un paso adicional (el séptimo paso) más allá de la estimación, la interpretación y la
validación de los modelos factoriales, que ayuda a la selección de las variables sustitutas, las
puntuaciones de factores informáticos o la creación de las escalas aditivas para la utilización
de otras técnicas multivariantes. A continuación se presenta un análisis de cada paso.
Primer paso Problema de investigación
¿Es el análisis exploratorio o confirmatorio?
Seleccionar objetivo(s):
1. Resumen de datos e identificación de las

estructuras.
2. Reducción de datos
Confirmatorio

Modelos de ecuaciones estructurales
Exploratorio
Segundo paso Seleccionar el tipo de análisis factorial
¿Qué está siendo agrupado – Las variables o los

casos?
Casos Variables
Análisis factorial tipo Q Análisis factorial tipo R
O análisis cluster
Diseño de investigación
¿Cuáles son las variables a incluir?
¿Cómo se miden las variables?
¿Cuál es el tamaño de muestra deseado?
Tercer paso Supuestos
Consideraciones estadísticas de normalidad,

linealidad y homocedasticidad
Homogeneidad de la muestra
Multicolinealidad
Nexos conceptuales
Hacia el
cuarto
paso
Figura N° 2 Pasos 1 – 3 en el diagrama de la decisión del análisis factorial
Primer paso: Objetivos del análisis factorial
El punto de comienzo en el análisis factorial, como con otras técnicas estadísticas es el

problema objeto de investigación. El propósito general de las técnicas analíticas de factores
es encontrar una manera de condensar (resumir) la información contenida en una serie de

variables originales en una serie más pequeña de dimensiones compuestas o valores teóricos
(factores) nuevos con una mínima pérdida de información – es decir, buscar y definir las
construcciones fundamentales o dimensiones que se suponen sirven de base para las
variables originales. Más específicamente las técnicas del análisis factorial pueden satisfacer
cualquiera de estos dos objetivos: (1) la identificación de estructura mediante el resumen de
datos, o bien (2) la reducción de datos.
La identificación de estructura mediante el resumen de datos
El análisis factorial puede identificar la estructura de las relaciones entre las variables o los
encuestados mediante la investigación de las correlaciones entre las variables o bien las
correlaciones entre los encuestados. Por ejemplo, supongamos que tenemos datos sobre 100
encuestados basados en 10 características. Si bien el objetivo de la investigación fuera el
resumen de las características, se aplicaría el análisis factorial a una matriz de correlación de
las variables. Este es el tipo de análisis factorial más común, y se denomina el análisis factorial
R. El análisis factorial R analiza una serie e variables para identificar las dimensiones que
son latentes (las que no son fácilmente observadas). También se puede aplicar el análisis
factorial a la matriz de correlaciones de los encuestados individuales basadas en sus
características. Esto se denomina el análisis factorial Q, siendo un método para combinar
o condensar grandes grupos de personas en grupos claramente diferentes dentro de una
población mayor, no se usa el análisis factorial Q con mucha frecuencia (dadas las dificultades
informáticas). En su lugar la mayoría de los investigadores utilizan algún tipo de análisis cluster
para agrupar los encuestados individuales.
Reducción de datos
El análisis factorial también puede (1) identificar suplentes de una serie de variables más
grande para su utilización en análisis multivariantes posteriores o (2) crear una serie de
variables completamente nueva, mucho más pequeña en número, para reemplazar parcial o
completamente la serie original de variables para su inclusión en técnicas posteriores. En
ambos casos, el propósito es retener la naturaleza y el carácter de las variables originales,
pero reducir su número para simplificar el análisis multivariante posterior. Aunque las técnicas

multivariantes se han desarrollado para utilizar múltiples variables, el investigador siempre

busca la serie de variables más reducida para incluirla en el análisis.
El resumen de datos hace que la identificación de las dimensiones subyacentes o los factores
sean fines de por sí; las estimaciones de los factores y las contribuciones de cada variable a
los factores (denominada cargas de los factores) constituyen todo lo que se necesita para el
análisis. La reducción de datos depende también de las cargas de los factores; no obstante,
las utiliza como la base para identificar las variables para el análisis subsiguiente con otras
técnicas o bien para hacer estimaciones de los factores mismos (puntuaciones de factores o
de escalas aditivas), que a su vez reemplazan las variables originales en análisis
subsiguientes.
El uso del análisis factorial con otras técnicas multivariantes
El análisis factorial proporciona una visión directa de las interrelaciones entre las variables o
entre los encuestados y un apoyo empírico para bordar las cuestiones conceptuales que tienen
relación con la estructura subyacente de los datos. También juega un papel complementario
importante con otras técnicas multivariantes mediante el resumen y la reducción de datos.
Desde la perspectiva del resumen de datos, el análisis factorial proporciona al investigador
una comprensión clara de cuáles de las variables podrían actuar juntas y cuántas de las
variables realmente se puede esperar que tengan un impacto en el análisis. Por ejemplo, se
esperaría que las variables altamente correlacionadas y miembros del mismo factor tuvieran
perfiles similares de diferencia a través de los grupos en el análisis multivariante de la varianza
o en el análisis discriminante. Los procedimientos que muestran el impacto de las variables
correlacionadas son los basados en etapas (Stepwise) de la regresión múltiple o el análisis
discriminante. Estas técnicas introducen las variables de forma secuencial, basadas en su
capacidad adicional de predicción sobre la variable en el modelo. Conforme entra la variable
de un factor, es menos probable que variables adicionales del mismo factor sean también
incluidas, por que están altamente correlacionadas y potencialmente tienen menos capacidad
de predicción adicional, que las variables que no estén en ese factor. Esto no significa que las
otras variables del factor sean menos importantes o tengan menos impacto, sino que su efecto
ya ha sido representado por la variable incluida en ese factor. El investigador comprenderá
mejor el razonamiento que se halla tras la inclusión de variables en esta técnica con un
conocimiento de la estructura de las variables.

La visión proporcionada por el resumen de datos puede ser incorporada directamente a otras
técnicas multivariantes mediante cualquiera de las técnicas de reducción de datos. El análisis
factorial proporciona la base para crear una nueva serie de variables que incorporan el carácter
y la naturaleza de las variables originales en una cantidad de nuevas variables más reducida,
sea con la utilización de variables suplentes, sea con la puntuación de factores o las escalas
aditivas. De esta manera, se pueden reducir los problemas que se asocian a las grandes
cantidades de variables o intercorrelaciones altas entre las variables con la sustitución de las
nuevas variables. El investigador puede beneficiarse de las relaciones y la visión detallada de
la base conceptual y la interpretación de los resultados.
Selección de variables
La reducción y el resumen de los datos pueden ser llevados a cabo tanto con una serie de
variables pre-existentes como por las variables creadas por la nueva investigación. Cuando se
usa una nueva serie, el investigador debe realizar una aproximación conceptual para
determinar qué variables conviene incluir en el análisis. El uso del análisis factorial para la
reducción de datos es particularmente crítico cuando se requiere la comparabilidad a lo largo
de un período de tiempo o en situaciones múltiples. Cuando se usa en una nueva
investigación, el análisis factorial, puede determinar también la estructura y/o crear nuevas
puntuaciones compuestas a partir de las variables originales. Por ejemplo, uno de los primeros
pasos en la construcción de la escala aditiva, es valorar la naturaleza de su dimensión y la
conveniencia de las variables seleccionadas mediante el análisis factorial. Por tanto, aunque
no es verdaderamente confirmatorio, el análisis factorial se puede utilizar para valorar la
naturaleza de la dimensión propuesta.
Una vez que se especifica el propósito del análisis factorial, e investigador, el investigador
tiene que definir la serie de variables a examinar. Por lo que se refiere tanto al análisis factorial
tipo R o tipo Q, el investigador especifica implícitamente las dimensiones potenciales que se
pueden identificar mediante el carácter y la naturaleza de las variables sujetas al análisis
factorial. Por ejemplo, en la valoración de las dimensiones de la imagen del establecimiento,
el análisis factorial no podría identificar esta dimensión si no han sido incluidas preguntas sobre
el personal del establecimiento. El investigador también tiene que recordar que el análisis
factorial siempre producirá factores Por tanto, el análisis factorial es siempre un candidato
potencial para el fenómeno “basura dentro, basura fuera”. Si el investigador incluye
indiscriminadamente grandes cantidades de variables y espera que el análisis factorial “lo

solucione”, entonces la posibilidad de obtener malos resultados es alta. La calidad y

significado de los factores derivados reflejan un acercamiento conceptual a las variables
incluidas en el análisis. El uso del análisis factorial como una técnica de resumen de datos no
excluye la necesidad de una base conceptual para cualquiera de las variables analizadas.
Incluso si se usa meramente para la reducción de datos, el análisis factorial es más eficiente
cuando las dimensiones definidas conceptualmente pueden ser representadas por los factores
obtenidos.
Segundo paso: El diseño de un análisis factorial
El diseño de un análisis factorial implica tres decisiones básicas: (1) el cálculo de los datos de
entrada (una matriz de correlación) para alcanzar los objetivos específicos de agrupación de
variables o encuestados; (2) el diseño del estudio en términos de número de variables, las
propiedades de medición de las variables y los tipos de variables permisibles; y (3) el tamaño
de muestra necesario, tanto en términos absolutos como para la función del número de
variables en el análisis.
Las correlaciones entre las variables o los encuestados
La primera decisión en el diseño de un análisis factorial se concentra en la aproximación que

se usa para calcular la matriz de correlación tanto para el análisis factorial de tipo R o de tipo
Q. El investigador puede utilizar la matriz de datos de entrada a partir del cálculo de las
correlaciones entre las variables, empleando, por tanto, un análisis factorial de tipo R. El
investigador también puede elegir la matriz de correlación entre los encuestados individuales.
En este tipo de análisis tipo Q, el resultado será una matriz factorial que identifica a los
individuos similares. Por ejemplo, si los encuestados individuales se identifican por un número,
la pauta de factores de resultado podría indicarnos que los individuos 1, 5, 6 y 7 son similares.
Del mismo modo, los encuestados 2, 3, 4 y 8 quizá cargarían juntos sobre otro factor, y
clasificaríamos estos individuos como similares. A partir de los resultados del análisis factorial
Q, se pueden identificar grupos o clusters de individuos que muestran una pauta similar sobre
las variables que incluyen en el análisis.

A estas alturas una pregunta lógica sería ¿Cómo se diferencia el análisis factorial tipo Q del
análisis Cluster, dado que ambas aproximaciones comparan la pauta de respuestas a través
de una serie de variables y clasifican a los encuestados en grupos?. La respuesta es que el
análisis factorial tipo Q se basa en las intercorrelaciones entre los encuestados, mientras que
el análisis cluster forma grupos que se basan en una medida de similitud basada en la
distancia entre las puntuaciones de los encuestados sobre las variables analizadas.
Variables 9
Encuestados 8
V1 V2 V3 7
6 Encuestado A
5 Encuestado B
A 7 7 8 4 Encuestado C
3 Encuestado D
2
B 8 6 6 1
0
V1 V2 V3
C 2 2 3
D 3 1 1
Figura N° 3. Comparaciones de perfiles de puntuaciones para el análisis factorial tipo Q y el análisis cluster
Para analizar esta diferencia consideremos la figura N° 3 que contiene las puntuaciones de
cuatro encuestados sobre tres variables diferentes. Un análisis factorial tipo Q de estos cuatro
encuestados daría dos grupos con estructuras de covarianza similares, agrupando a los
encuestados A y C frente a B y D. Por contraste, la aproximación de cluster sería sensible a
las distancias reales entre las puntuaciones de los encuestados y llevaría a la agrupación de
las parejas más cercanas. Por tanto, con la aproximación del análisis cluster, los encuestados
A y B estarían situados en un grupo y C y D en el otro grupo. Si el investigador decide emplear
el análisis factorial tipo Q debe ser consiente de estas diferencias. Con la disponibilidad de
otras técnicas de agrupación y el uso general del análisis factorial para la reducción de datos
y el resumen, el debate restante de esta parte se centrará en el análisis factorial tipo R, la
agrupación de variables en ves de la agrupación de encuestados.
La selección de variables y la cuestión de medición.
Ahora es necesario abordar las preguntas: (1) ¿Cómo se miden las variables? Y (2) Cuántas
variables deberían ser incluidas?. Se supone, por regla general, que las variables a incluir en
el análisis factorial tienen escala métrica. En algunos casos, se pueden usar variables ficticias
(codificadas 0 – 1), aunque se consideran no métricas. Si todas las variables son ficticias,
entonces las formas especializadas de análisis factorial, tales como el análisis boolean son

más apropiadas. Además, el investigador debe intentar minimizar el número de variables que
se incluyen; no obstante, debe mantener un número razonable de variables por factor. Si s
está diseñando un estudio para valorar una estructura propuesta, el investigador deberá incluir
varias variables (cinco o más) que puedan representar cada factor propuesto. El poder del
análisis factorial s basa en encontrar pautas entre grupos de variables y resulta de coca utilidad
la identificación de factores compuestos de una única variable. Finalmente, cuando se diseña
una investigación que utiliza análisis factorial, el investigador debería, si cabe, identificar varias
variables claves (a veces denominadas indicadores claves o variables marcadoras) que
reflejan con detalle los factores subyacentes hipotéticos, de forma que se facilite la validación
de los factores derivados y la valoración sobre la significación práctica de los resultados.
Tamaño muestral
En cuanto a la pregunta del tamaño muestral, generalmente el investigador no usará el análisis

factorial para una muestra inferior a 50 observaciones, y preferiblemente el tamaño muestral
debería ser 100 o más grande. Como regla general el mínimo es tener observaciones cinco
veces mayor que el número de variables a ser analizadas, siendo el amaño aceptable un ratio
de diez a uno. Algunos investigadores proponen incluso un mínimo de 20 casos por cada
variable. El investigador siempre debería procurar obtener el rato más alto de casos por
variable para minimizar las posibilidades de “sobreajustar” los datos (es decir, derivar los
factores que son específicos a la muestra con poca capacidad de genralización).
Tercer paso: Supuestos del análisis factorial.
Lo supuestos básicos subyacentes del análisis factorial son más de tipo conceptual que
estadístico. Desde un punto de vista estadístico se pueden obviar los supuestos de
normalidad, homocedasticidad y linealidad siendo concientes de que su incumplimiento
produce una disminución en las correlaciones observadas. En realidad sólo es necesaria la
normalidad cuando se aplica una prueba estadística a la significación de los factores; sin
embargo raramente se utilizan estas pruebas. De hecho es deseable que haya cierto grado
de multicolinealidad, dado que el objetivo es identificar series de variables
intercorrelacionadas.
Adicionalmente a las bases estadísticas para las correlaciones de la matriz de los datos, el
investigador tiene que asegurarse de que la matriz tiene suficientes correlaciones para

justificar la aplicación del análisis factorial. Si la inspección visual revela que no hay un número
sustancial de correlaciones mayores que 0.3, entonces el análisis factorial es probablemente
inapropiado. Las correlaciones entre las variables también pueden ser analizadas con el
cálculo de las correlaciones parciales entre las variables; esto es, las correlaciones entre
variables cuando se tienen en cuenta los efectos de las otras variables. Si los factores
“verdaderos” existen en los datos, la correlación parcial será pequeña, porque se puede
explicar la variable mediante los factores (valores teóricos con cargas para cada variable). Si
las correlaciones parciales son altas, entonces no existen factores subyacentes “verdaderos”,
y el análisis factorial es inapropiado. El SPSS proporciona la matriz de correlaciones anti-
imagen, que es simplemente el valor negativo de la correlación parcial. Las correlaciones
parciales o anti-imagen mayores son indicativas de una matriz de datos que no es quizá
adecuada para el análisis factorial.
Otra manera de determinar la conveniencia del análisis factorial es examina la matriz de

correlación entera. El coeficiente de esfericidad de Bartlet, una prueba estadística para la
presencia de correlaciones entre las variables, es una de estas medidas. Proporciona la
probabilidad estadística de que la matriz de correlación de las variables sea una matriz
identidad. El investigador debe tener en cuenta, sin embargo, que el incremento del tamaño
muestral da lugar a que la prueba de contraste de Bartlett sea más sensible a la detección de
correlaciones entre las variables. Otra medida para cuantificar el grado de intercorrelaciones
entre las variables y la conveniencia del análisis factorial es la medida de suficiencia de
muestreo (MSA). Este índice se extiende de 0 a 1, llegando a 1 cuando cada variable es
perfectamente predicha sin error por las otras variables. La medida puede ser interpretada con
las siguientes directrices: 0,80 o superior, sobresaliente; 0,70 o superior, regular; 0,60 o
superior mediocre; 0,50 o superior, despreciable; y por debajo de 0,50, inaceptable. El MSA
aumenta conforme: (1) aumenta el tamaño muestral, (2) aumentan las correlaciones medias,
(3) aumenta el número de variables o (4) desciende el número de factores. Las mismas
directrices de MSA pueden extenderse también a las variables individuales. El investigador
debería examinar primero los valores MSA para cada variable y excluir aquellas que caen en
la gama de inaceptables. Una vez que las variables individuales logran un nivel aceptable, se
puede valorar el MSA general y se puede tomar una decisión sobre la continuación del análisis
factorial.
Los supuestos conceptuales que subyacen en el análisis factorial se relacionan con la serie
de variables seleccionadas y la muestra elegida. Un supuesto básico del análisis factorial es

que existe una estructura subyacente en la serie de variables seleccionadas. Es

responsabilidad del investigador asegurarse de que las pautas observadas sean válidas y
conceptualmente apropiadas para utilizar el análisis factorial porque la técnica no tiene medios
de determinar la conveniencia, aparte de las correlaciones entre las variables. Por ejemplo la
mezcla de variables dependientes e independientes en un solo análisis factorial y
posteriormente el uso de los factores derivados para apoyar las relaciones de dependencia es
inapropiado. El investigador debería asegurarse también de que la muestra es homogénea
con respecto a la estructura del factor subyacente. Por ejemplo la aplicación del análisis
factorial resultaría inapropiado para una muestra de hombres y mujeres que tienen distintas
opiniones sobe una serie de aspectos según el sexo. Cuando se combina las dos submuestras
(hombres y mujeres), las correlaciones resultantes y la estructura de los factores serán una
representación pobre de la estructura única de cada grupo. Por tanto, cuando se esperan
grupos diferentes en la muestra, se deben practicar análisis factoriales separados y los
resultados deben ser comparados para identificar las diferencias que no se reflejan en la
muestra combinada.
Cuarto paso: La estimación de los factores y la valoración desajuste

general
Una vez que se especifican las variables y se prepara la matriz de correlación, el investigador
está preparado para aplicar el análisis factorial que identifique la estructura subyacente de las
relaciones (Ver figura N° 4).
Desde el
3° Paso
4° Paso L selección de un método de

factores
¿Se analiza la varianza total o

Varianza común
Varianza total solamente la varianza común?
Factores de extracción
Factores de extracción con el análisis factorial
con el análisis de común
componentes principales
Especificación de la matriz factorial
Determinar el número de factores a ser retenidos

5° Paso
La selección de un método de rotación
¿Deberían estar correlacionados (oblicuos) o

no correlacionados los factores (ortogonales)?
Método Ortogonal Método Oblicuo
Varimax, Equimax Oblimin, Promax
Quartimax Orthoblique
Interpretación de la matriz factorial de
No rotación
¿Se pueden encontrar cargas significativas?
Si
¿Se pueden nombrar factores?
¿Son suficientes las

Reespecificación delcomunalidades?
modelo factorial
si
¿Se eliminó alguna variable?
¿Quiere cambiar el número de

6° Paso
factores? No
¿Quiere otro tipo de rotación?

Validación de la matriz factorial
Muestras divididas / múltiples
Análisis separado por subconjuntos
7° Paso. Identificar los casos influyentes
Usos adicionales
Selección de las variables Cálculo de las Creación de escalas

sustituidas puntuaciones de factores sumadas
Figura N° 4 Pasos 4 - 7 en el diagrama de decisión del análisis factorial
Para realizar esta operación, es necesario toma decisiones con relación a: (1) el método de
extracción de los factores (análisis factorial común frente al análisis de componentes
principales) y (2) el número de factores seleccionados para representar la estructura
subyacente en los datos. La selección del método de extracción depende del objetivo del
investigador. Se utiliza el análisis de componentes principales cuando el objetivo es resumir la
mayoría de la información original (varianza) en una cantidad mínima de factores con
propósitos de predicción. Por el contario, se utiliza el análisis factorial común para identificar
los factores subyacentes o las dimensiones que reflejan qué es lo que las variables comparten

en común. Para malquiera de esos métodos, el investigador tiene que determinar también el
número de factores que representan la serie de variables originales. Tanto las cuestiones
conceptuales como empíricas afectan a esta decisión.
El análisis factorial común frente al análisis de componentes principales
El investigador puede utilizar dos modelos básicos para obtener soluciones factoriales. Éstos
se conocen como análisis factorial común y análisis de componentes principales. Con el
fin de seleccionar el modelo apropiado, en primer lugar el investigador tiene que comprender
las diferencias entre los tipos de varianza. Para los propósitos del análisis factorial, existen tres
tipos de varianza total: (1) Común, (2) específica (también conocida como única), y (3) error.
Estos tipos de varianza y su relación con el proceso de selección de modelo factorial se ilustran
en la figura N° 5.
Valor Varianza
diagonal
Varianza total
Unidad
Comunalidad
Específica y error
Común
Varianza extraída
Varianza perdida
Figura N° 5 Tipos de varianza llevados en la matriz factorial
Se define como varianza común aquella varianza en una variable que se comparte con todas
las otras variables en el análisis. La varianza específica es aquella varianza asociada
solamente con una variable específica. La varianza de error es aquella que se debe a la poca
fiabilidad en el proceso de recolección de datos, al error de medición o a un componente
aleatorio en el fenómeno medido. El análisis de componentes principales considera la varianza
total y estima los factores que contienen proporciones bajas de la varianza única y, en algunos
casos, la varianza de error. No obstante, los primeros factores no tienen la suficiente varianza

o de error como para distorsionar la estructura de factores en su conjunto. Específicamente

con el análisis de componentes principales, se insertan las unidades en la diagonal de la
matriz de correlación, para que se traiga la varianza completa en la matriz de factores, tal y
como se indica en la figura N° 5. Por el contrario, en el análisis factorial común se incorporan
las varianzas compartidas en la diagonal. Las comunalidades son estimaciones de la varianza
compartida o común entre las variables. Los factores que resultan del análisis factorial común
se basan solamente en la varianza común.
La selección de un modelo u otro se basa en dos criterios: (1) los objetivos del análisis factorial
y el grado de conocimiento anterior acerca de la varianza en las variables. El análisis de
componentes principales es apropiado cuando el interés primordial se centra en la predicción
o el mínimo número de factores necesarios para justificar la proporción máxima de la varianza
representada en la serie de variables originales, y cuando el conocimiento previo sugiere que
la varianza específica y de error representan una proporción relativamente pequeña de la
varianza total. Por el contrario, cuando el objetivo principal es identificar las dimensiones
latentes o las construcciones representadas en las variables originales y el investigador tiene
poco conocimiento acerca de la varianza específica y de error y por tanto quiere eliminar esta
varianza, lo más apropiado es utilizar el modelo factorial común. Se considera que el análisis
factorial común, con unos supuestos más restrictivos y la utilización exclusiva de las
dimensiones latentes (varianza compartida), se basa más en la teoría. Aunque teóricamente
válido, no obstante, el análisis factorial común tiene varios problemas. En primer lugar, el
análisis factorial común adolece de indeterminación de factores. Esto significa que para
cualquier encuestado individual, se pueden calcular varias puntuaciones de factores diferentes
a partir de los resultados del modelo factorial. No existe una sola solución única, tal y como
ocurre con el análisis de componentes principales; no obstante, y en la mayor parte de los
casos, las diferencias no son sustanciales. La segunda cuestión se refiere al cálculo de las
varianzas compartidas estimadas que se usan para representar la varianza compartida.
Cuando se utilizan muestras de gran tamaño o un gran número de variables, los cálculos
pueden requerir tiempo y recursos sustanciales del computador. Además las varianzas
compartidas no siempre se pueden estimar o pueden no ser válidas (es decir, valores mayores
que 1 o menos que 0), lo que requiere la supresión de la variable del análisis (ver ejemplo más
adelante).
Las complicaciones del análisis factorial común han contribuido al uso generalizado del
análisis de componentes principales. Aunque todavía los expertos siguen discutiendo acerca

cual de los modelos factoriales es el más apropiado, la investigación empírica ha mostrado

resultados similares en muchos casos. En la mayoría de las aplicaciones, tanto el análisis de
componentes principales como los análisis factoriales comunes llegan a resultados
esencialmente idénticos si el número de variables excede a 30, o las varianzas compartidas
exceden a 0,60 para la mayoría de las variables. Si el investigador está preocupado por los
supuestos del análisis de componentes de componentes principales, entonces debe aplicar
también el análisis factorial común para valorar su estructura de representación.
Cuando se llega a una decisión acerca del modelo factorial, el investigador está preparado
está preparado para extraer los factores sin rotación iniciales. Con el examen de la matriz sin
rotación, el investigador puede explorar las posibilidades de reducción de datos para una serie
de variables y obtener una estimación preliminar de los factores a extraer. Sin embargo, se
debe esperar para determinar el número de factores final hasta que se haga una rotación de
los resultados y se interpreten los factores.
Criterios para el cálculo del número de factores a ser extraídos
¿Cómo decidimos el número de factores que se deben extraer? Cuando una gran serie de
variables se somete a la extracción de factores, en primer lugar el método extrae las
combinaciones de las variables que explican la cantidad mayor de la varianza y después
continúa con combinaciones que justifican cantidades de varianza cada vez menores. Para
decidir cuántos factores se deben extraer, el investigador empieza generalmente con algún
criterio predeterminado, tal como el porcentaje de varianza o el criterio de raíz latente, para
llegar a un número de factores específico (se abordan estas dos técnicas más adelante).
Después de estimar la solución inicial, se calculan varias soluciones de prueba adicionales –
normalmente un factor menos que el número inicial y dos o tres factores más que los que se
estimaron inicialmente. Posteriormente, en función de la información que se obtiene de estos
análisis previos, se examinan las matrices de factores y se escoge el número de factores que
represente mejor los datos. Por analogía, la elección del número de factores es como enfocar
un microscopio. Un ajuste demasiado alto o demasiado bajo hará más oscura una estructura
que es obvia cuando el ajuste es acertado. Por tanto, al examinar un número de estructuras
factoriales diferentes que se derivan de varias soluciones de pruebas, el investigador puede
comparar y contrastar para llegar a la mejor representación de los datos. Se puede decir que

todavía no se ha desarrollado una base cuantitativa exacta para decidir el número de factores
a extraer. No obstante en general se utilizan los siguientes criterios para la extracción del
número de factores.
Criterio de raíz latente. La técnica se utiliza más frecuentemente esel criterio de raíz latente.
Esta técnica es sencilla de aplicar. La racionalidad que se usa para el criterio de raíz latente
es que cualquier factor individual debería justificar la varianza de por lo menos una única
variable. Cada variable contribuye con un valor de 1 para el autovalor total. Por tanto, solo se
consideran los factores que tienen raíces latentes o autovalores mayores que 1; Explican al
menos una variable, se considera que todos los factores con raíces latentes menores que 1
(explican menos de una variable) no son significativas y por tanto, se desestimarán a la hora
de incorporarlos a la interpretación. El uso del autovalor para establecer un corte es más
fiable, cuando el número de variables está entre 20 y 50. Si el número de variables es menor
que 20, hay una tendencia a que este método extraiga un número de factores conservador
(demasiado poco); por el contrario si hay más de 50 variables, lo más común es que se
extraigan demasiados factores.
Criterio a priori. El criterio a priori es un criterio simple y a la vez razonable bajo ciertas
circunstancias. Con su aplicación, el investigador ya sabe cuantos factores hay que extraer
antes de iniciar el análisis factorial. El investigador simplemente instruye al computador para
parar el análisis cuando se haya extraído el número de factores deseado. Esta aproximación
resulta de utilidad cuando se prueba una teoría o una hipótesis acerca del número de factores
para ser extraído. También puede ser justificado con el objetivo de replicar el trabajo de otro
investigador y extraer el mismo número de factores que se encontraron previamente.
Criterio de porcentaje de la varianza. El criterio de porcentaje de la varianza es una

aproximación que se basa en obtener un porcentaje acumulado especificado de la varianza
total extraída. El propósito es asegurar una significación práctica de los factores derivados,
asegurando que explican por lo menos una cantidad especificada de la varianza. No se ha
adoptado un umbral absoluto para todas las aplicaciones. Sin embargo, en las ciencias
naturales, el procedimiento de factores normalmente no debería ser detenido hasta que los
factores extraídos cuenten por lo menos con un 95% de la varianza o hasta que el factor
justifique solamente una porción (menos del 5%). Por contraste en las ciencias sociales, donde
la información muchas veces es menos precisa, es normal considerar una solución que
represente un 60% de la varianza total (y en algunos casos incluso menos) como satisfactoria.

Una variante de este criterio implica la selección de suficientes factores para obtener una
Comunalidad para cada una de las variables. Si las razones teóricas o prácticas requieren una
cierta varianza compartida para cada variable, entonces la investigación incluirá tantos
factores como sean necesarios para representar de forma adecuada cada una de las variables
originales.
Criterio de contraste de caída. Recordemos que con el modelo de componentes

principales, los factores posteriores que han sido extraídos contienen tanto la varianza común
como la varianza única. Aunque todos los factores contienen por lo menos alguna varianza
única, la proporción de la varianza única es sustancialmente más alta en los factores
posteriores que en los primeros. El contraste de caída se utiliza para identificar el número
óptimo de factores que pueden ser extraídos antes de que la cantidad de la varianza única
empiece a dominar la estructura de la varianza común. Se estima el contraste de caída con el
trazo de raíces latentes en función del número de factores en su orden de extracción, y se
utiliza la forma de la curva consiguiente para evaluar el punto de corte. La figura 6 representa
los primeros 18 factores extraídos de una investigación realizada por Anderson y Cia. Si
empezamos con el primer factor, el trazo tiene inicialmente una inclinación descendente y a
continuación de convierte paulatinamente en una línea mas o menos horizontal. Se considera
que el punto en que la curva empieza a rectificarse indica el máximo número de factores a
extraer. En le caso que nos ocupa, se incluirán los primeros 10 factores. Por encima de 10, se
incluirá una proporción de la varianza única demasiado grande, por lo que estos factores no
son deseables. Es importante señalar que con el uso del criterio de raíz latente solamente se
tienen en cuenta 8 factores. Por el contrario, la utilización del criterio de contraste de caída,
nos proporciona dos factores más. Por regla general, el contraste de caída normalmente tiene
como resultado que se incluya uno y a veces dos o más factores adicionales que cuando se
utiliza el criterio de raíz latente.
Heterogeneidad de la muestra. La existencia de varianza compartida entre las

variables es el núcleo tanto de los modelos de factores comunes como de los de componente.
Un supuesto subyacente es que la varianza compartida se extiende a lo largo de toda la
muestra. Si la muestra es heterogénea al menos con respecto a un subconjunto de variables,
los primeros factores representarán aquellas variables que son más homogéneas a lo largo de
toda la muestra. Las variables con mayor capacidad de discriminar entre subconjuntos
maestrales cargarán sobre los últimos factores, en muchas ocasiones aquellos no

seleccionados de acuerdo a los criterios comentados más arriba. Cuando los objetivos sea
identificar factores que discriminen entre subconjuntos muestrales, el investigador deberá
seleccionar factores adicionales entre aquellos señalados por los métodos anteriormente
expuestos y examinar la capacidad de los factores adicionales para discriminar entre grupos.
Si resultan ser peores al discriminar, la solución puede estar en proceder de nuevo y eliminar
estos últimos factores.
Figura Nº 6Gráfico de autovalor para el criterio de contraste de caída
Resumen de los criterios de selección de factores. En la práctica, rara vez los

investigadores utilizan un único criterio al determinar cuántos factores extraer. En su lugar,
inicialmente emplean un criterio como el de la raíz latente como orientación en un primer
intento de interpretación. Después de haber interpretado los factores, como se expone en la
siguiente sección, se valora su carácter práctico. También se interpretan los factores
identificados mediante otros criterios. Elegir el número de factores está interrelacionado con
la valoración de la estructura, lo que se revela en la etapa de interpretación. De esta forma se
examinan varias soluciones factoriales con diferentes números de factores antes que la
estructura esté bien definida.

Un aviso previo a la selección del conjunto definido de factores: Puede resultar inconveniente
seleccionar tanto muchos como pocos factores para representar los datos. Si se emplean
pocos factores, no se revela la estructura correcta y pueden omitirse importantes dimensiones.
Si se mantienen demasiados factores, las interpretaciones resultan más difíciles cuando se
rotan los resultados (como se expone en la siguiente sección). Tal y como ocurre con otros
aspectos de los modelos multivariantes, es importante la parsimonia). Una excepción a
destacar es cuando el análisis de los factores se emplea en exclusiva para la reducción de
datos y se especifica la extracción de un nivel de conjunto de varianza. El investigador deberá
siempre en esforzarse en conseguir el conjunto de factores lo más representativo y
parsimonioso posible.
Quinto Paso: Interpretación de los factores.
Para interpretar los factores y seleccionar la solución factorial definitiva se deben seguir tres
pasos. En primer lugar se calcula la matriz inicial de factores no rotados para que nos de
una indicación preliminar acerca del número de factores a extraer. La matriz de factores
contiene las cargas factoriales para cada variable sobre cada factor. Al calcular la matriz
factorial no rotada, el investigador simplemente está interesado en la mejor combinación lineal
de variables, es decir, en encontrar aquella combinación particular de las variables originales
que cuenta con el mayor porcentaje de varianza de los datos. En consecuencia, el primer factor
puede contemplarse como el mejor resumen de las relaciones lineales que los datos
manifiestan. El segundo factor se define como la segunda mejor combinación lineal de las
variables, sujeta a la restricción que sea ortogonal al primer factor. Para ser ortogonal al
primer factor, el segundo factor puede derivarse de la varianza restante tras la extracción del
primer factor. Así, el segundo factor puede definirse como la combinación lineal de las
variables que da cuenta del mayor porcentaje de varianza residual una vez se ha eliminado de
los datos el efecto del primer factor. Los factores subsiguientes se definen en forma análoga
hasta haber agotado la varianza de los datos.
Las soluciones factoriales no rotadas alcanzan el objetivo de reducción de datos, pero el

investigador debe preguntarse si la solución factorial no rotada (que se adecua a los requisitos
matemáticos deseables) facilita una información que ofrezca la interpretación más adecuada
de las variables examinadas. La mayor parte de las veces no sepulta ser así. La carga factorial
es el medio para interpretar la función que cada variable desempeña al definir cada factor. Las
cargas factoriales son las correlaciones entre cada variable y el factor. Las cargas indican el

grado de correspondencia entre cada variable y el factor, haciendo a una variable con mayor
carga representativa del factor. La solución factorial no rotada puede no suministrar un patrón
significativo de cargas de las variables. Si se espera que los factores no rotados sean
significativos, el usuario puede especificar que la rotación no se lleve a cabo. Generalmente la
rotación es deseable por que simplifica la estructura de los factores, y habitualmente es difícil
determinar si los factores no rotados serán significativos. Por tanto, el segundo paso hace uso
de un método de rotación para lograr soluciones factoriales más simples y teóricamente más
significativas. En muchos casos la rotación de los factores mejora la interpretación
disminuyendo alguna de las ambigüedades que a menudo acompañan a las soluciones
factoriales inicialmente no rotadas.
En una tercera etapa, el investigador valora la necesidad de especificar de nuevo el modelo

de factores debido a (1) la eliminación de variables en el análisis, (2) El deseo de emplear un
método de rotación diferente para la interpretación, (3) la necesidad de extraer un número
diferente de factores, o (4) el deseo de cambiar de un método de extracción a otro. La
especificación nueva del modelo factorial viene acompañada de la vuelta a la etapa de
extracción, rotación de factores y de nuevo a su interpretación.
Rotación de factores.
Una herramienta importante al interpretar los factores es la rotación de factores. El término

rotación significa exactamente lo que se indica. Concretamente se giran en el origen los ejes
de referencia de los factores hasta alcanzar una determinada posición. Como se indicó
previamente, las soluciones factoriales no rotadas extraen factores según su orden de
importancia. El primer factor tiende a ser un factor general por el que casi toda variable se ve
afectada significativamente dando cuenta del mayor porcentaje de varianza. El segundo y
siguientes factores se basan en la varianza residual. Cada uno explica porcentajes de varianza
cada vez menores. El efecto último de rotar la matriz de factores es redistribuir la varianza de
los primeros factores a los últimos para lograr un patrón de factores más simple y teóricamente
más significativo.
El caso más simple de rotación es la rotación ortogonal, en la que los ejes se mantienen
formando un ángulo de 90 grados entre los ejes de referencia. Cuando no se limita a ser

ortogonal, la rotación se denomina oblicua. Las rotaciones de factores ortogonal y oblicua

están ilustradas en las figuras 7 y 8 respectivamente.
Una ilustración de la rotación de factores. La figura 7, en el que se han representado cinco

variables en un diagrama de factores bidimensional, ilustra la rotación de factores. El eje
vertical representa el factor no rotado II, y el horizontal el factor no rotado I. El cero indica el
origen de coordenadas yendo éstas de -1,0 á 1,0. El número sobre los ejes representan las
cargas factoriales. Las cinco variables están denominadas como V1, V2, V3, V4, y V5. La carga
factorial de la variable 2 (V2) sobre el factor no rotado II está indicado horizontalmente
mediante una línea de rayas del punto de los datos al eje vertical del factor II. Análogamente
se dibuja una línea vertical de la variable 2 al eje horizontal del factor no rotado I para
determinar la carga de la variable 2 sobre el factor 1. Un procedimiento similar para las
variables restantes determina las cargas factoriales para las soluciones no rotadas y rotadas,
como se muestra en la tabla 1 a efectos comparativos. Sobre el primer factor no rotado, todas
las variables cargan bastante alto. Sobre el segundo factor no rotado, las variables 1 y 2 cargan
muy alto en el lado positivo.

Figura Nª
7
Rotación
factorial
ortogonal
La variable 5 tiene una carga moderadamente alta en el lado negativo, y las variables 3 y 4
tienen cargas considerablemente inferiores en el lado negativo.
De la inspección visual de la Figura 7, resulta obvio que hay dos grupos de variables. Las
variables 1 y 2 van juntas, así como las 3,4 y 5. Sin embargo, este patrón de variables no es
tan obvio a partir de las cargas de factores no rotados. Rotando los ejes originales en el sentido
de las agujas del reloj, como se indica en la Figura 7, obtenemos un patrón de carga factorial
completamente distinto.

Figura Nª 8 Rotación factorial oblicua

Nótese que al rotar los factores, los ejes mantienen el ángulo de 90 grados. Este procedimiento
implica que los factores son matemáticamente independientes y que la rotación ha sido
ortogonal. Después de rotar el eje de factores, las variables 3 y 4 cargan muy poco sobre el
factor I, y las 1 y 2 cargan mucho sobre el factor II. Así, el patrón o agolpamiento de estas
variables en dos grupos resulta más obvio que antes de la rotación, incluso la posición relativa
o configuración de las variables permanece inalterada.
TABLA 1. Comparación entre cargas factoriales rotadas y no rotadas
Cargas factoriales no rotadas Cargas factoriales rotadas

Variables
I II I II
V1 0,50 0,80 0,03 0,94
V2 0,60 0,70 0,16 0,90
V3 0,90 -0,25 0,95 0,24
V4 0,80 -0,30 0,84 0,15
V5 0,60 -0,50 0,76 -0,13
Los mismos principios generales de las rotaciones ortogonales atañen a las oblicuas. El méto-
do de la rotación oblicua es más flexible porque los ejes de factores no necesitan ser
ortogonales. También es más realista porque las dimensiones subyacentes teóricamente más
importantes, se suponen relacionadas entre sí. En la Figura 8 se comparan los dos métodos
de rotación. Nótese que la rotación de factores oblicua representa el agrupamiento de variables
con más precisión. Esa precisión se deriva del hecho de que cada eje de factores rotado está
ahora más cerca del grupo respectivo de variables. Además, la solución oblicua provee de
información sobre la medida en que los factores realmente están correlacionados uno con otro.
La mayor parte de los investigadores están de acuerdo en que soluciones factoriales no rota-
das, aunque más directas, no resultan suficientes; es decir, en muchos casos la rotación
mejorará la interpretación paliando alguna de las ambigüedades que a menudo acompañan al
análisis preliminar. Las alternativas disponibles son la rotación ortogonal o la oblicua. El
objetivo último de toda rotación es obtener algunos factores teóricamente significativos y, si es
posible, la estructura de factores más simple. La rotación ortogonal se emplea con más
frecuencia dada su presencia en todos los programas informáticos de análisis factorial,
mientras que los métodos oblicuos no están tan extendidos. Además, las rotaciones

ortogonales se utilizan con más frecuencia porque los procedimientos analíticos para llevar a
cabo rotaciones oblicuas no están totalmente desarrollados y están todavía sujetos a
controversia. Existen varias aproximaciones distintas para llevar a cabo rotaciones ortogonales
u oblicuas. Sin embargo, sólo un número escaso de procedimientos de rotación oblicua está
disponible en la mayoría de los programas estadísticos; por eso el investigador tendrá que
aceptar probablemente alguno de los provistos.
Métodos de rotación ortogonal: En la práctica, el objetivo de todos los métodos de rotación

es simplificar las filas y columnas de la matriz de factores para facilitar la interpretación. En
una matriz de factores, las columnas representan los factores, con cada fila correspondiendo
a las cargas de las variables para cada uno de los factores. Simplificando las filas, queremos
aproximar lo más posible a cero tantos valores corno sea posible (es decir, maximizar la carga
de una variable sobre un único factor). Simplificando las columnas, queremos aproximar lo
más posible a cero tantos valores como sea posible (es decir, haciendo que el número de
cargas «altas» sea el menor posible). Se han desarrollado principalmente tres aproximaciones:
QUARTIMAX El objetivo último de una rotación QUARTIMAX es simplificar las filas de una
matriz de factores; esto es, QUARTIMAX se centra en rotar los factores iniciales de tal forma
que una variable cargue alto sobre un factor y tan bajo como sea posible sobre los otros facto-
res. En estas rotaciones muchas variables pueden cargar alto o cerca sobre el mismo factor
porque la técnica se centra en las filas. El método QUARTIMAX no ha demostrado gran capaci-
dad para generar estructuras más simples. Su dificultad está en que tiende a producir un factor
general, como el primer factor, sobre el que la mayor parte, si no todas las variables, tiene
cargas mayores. Con independencia del concepto que cada cual tenga de estructuras «más
simples», inevitablemente se ha de tratar con agrupaciones de variables; un método que tiende
a producir un factor general grande (por ejemplo, el QUARTIMAX) no responde a los objetivos
de la rotación.
VARIMAX En contraste con el QUARTIMAX, el criterio VARIMAX se centra en simplificar las

columnas de la matriz de factores. Con la aproximación rotacional VARIMAX, se alcanza la
máxima simplificación posible si sólo hay ceros y unos en una columna.

Esto es, el método VARIMAX maximiza la suma de las varianzas de las cargas requeridas de
la matriz de factores. Recuérdese que en la aproximación QUARTIMAX, muchas variables
pueden cargar alto o cerca de lo alto sobre el mismo factor porque la técnica se centra en
simplificar las filas". Con la aproximación rotacional VARIMAX, tiende a haber altas cargas
factoriales (esto es, cercanas a -1 o +1) y algunas cargas cerca de O en cada columna de la
matriz. Si la lógica está en que la interpretación es más fácil cuando las correlaciones variable
factor están (1) cercanas a-1 o +1, indicando así una clara asociación positiva o negativa entre
la variable y el factor; o (2) cercanas a O señalando una clara ausencia de asociación. Esta
estructura resulta esencialmente sencilla. Aunque la solución QUARTIMAX es analíticamente
más simple que la solución VARIMAX, VARIMAX parece suministrar una separación más clara
de factores. En general, el experimento de Kaiser [21, 22] Índica que el patrón factorial
obtenido mediante la rotación VARIMAX tiende a resultar más robusto que el obtenido por el
método QUARTIMAX cuando se analizan diferentes subconjuntos de variables. El método
VARIMAX ha demostrado tener más éxito como aproximación analítica para lograr una
rotación ortogonal de factures.
Métodos de rotación oblicua: Las rotaciones oblicuas son similares a las rotaciones orto-
gonales, Excepto que las rotaciones oblicuas permiten la existencia de factores
correlacionadas en lugar de mantener la independencia entre los factores rotados. Aunque en
la mayor parte de los programas estadísticos hay varias alternativas de aproximación
ortogonal, suele haber escasas de rotaciones oblicuas. Por ejemplo, SPSS cuenta con
OBLIMIN; SAS con PROMAX y ORTOBLIQUE; y BMDP con DQUART, DOBLIMIN y
ORTOBLIQUE. Los objetivos de simplificación son comparables a los de los métodos
ortogonales, con el rasgo añadido de existencia de factores correlacionados. Con esta
posibilidad, el investigador ha de tener un cuidado adicional al validar los factores rotados
oblicuamente, puesto que cuenta con una forma adicional (no ortogonalidad) de proceder,
específica a la muestra y no generalizable, especialmente en muestras pequeñas o de bajos
ratios casos/variable.
Selección del método de rotación: No se han desarrollado reglas concretas que guíen al
investigador en la selección de una técnica de rotación particular ortogonal u oblicua. En la
mayor parte de las ocasiones, el investigador simplemente utiliza la técnica rotacional

suministrada por el programa de computador. Muchos programas cuentan por defecto con la
rotación VARIMAX, pero también resultan fácilmente accesibles los métodos rotacionales más
comunes. Sin embargo, no existe una razón analítica incuestionable a favor de un método de
rotación u otro. La elección de una rotación ortogonal u oblicua debería hacerse según las
necesidades concretas de un problema de investigación determinado. Si el objetivo del
investigador es reducir el número de variables originales, con independencia de la significación
resultante de los factores, la solución apropiada debería ser la ortogonal. Además, si el
investigador desea reducir un gran número de variables a un conjunto pequeño de variables
incorrelacionadas para un uso posterior en el análisis de regresión u otras técnicas de
predicción, la solución ortogonal resulta la más adecuada. Sin embargo, si el objetivo último
del análisis factorial es obtener varios factores teóricamente significativos, resulta apropiada
una solución oblicua. Llegamos a esta conclusión dado que, realmente, muy pocos factores
están incorrelacionados, como ocurre con la rotación ortogonal.
Criterios para la significación de las cargas factoriales
Al interpretar los factores, ha de adoptarse una decisión en tomo a qué cargas factoriales
merece la pena considerar. La siguiente exposición considera diversos aspectos relativos a la
significación práctica y estadística, además de al número de variables, que afectan a la
interpretación de las cargas factoriales.
Asegurar la significación práctica: La primera sugerencia no está basada en afirmaciones

matemáticas, sino que tiene que ver más con la significación práctica. Consiste en un tipo de
regla empírica empleado frecuentemente como forma de realizar un examen preliminar de la
matriz de factores. Brevemente, las cargas factoriales mayores a ±0,30 se considera que están
en el nivel mínimo; las cargas de ±0,40 se consideran más importantes; y las cargas de ±0,50
o mayores, se consideran prácticamente significativas. Así, cuanto mayor sea el tamaño
absoluto de la carga factorial, más importante resulta la carga al interpretar la matriz factorial.
Dado que la carga factorial es la correlación entre la variable y el factor, el cuadrado de la
carga es la cuantía de la varianza total de la variable de ¡a que da cuenta el factor. Así, una
carga de 0,30 implica aproximadamente una explicación de un 10 por ciento, y una carga de
0,50 quiere decir que un 25 por ciento de la varianza es debida al factor. Para que un factor

explique un 50 por ciento de la varianza ha de contar con una carga que supere el 70 por
ciento. El investigador debería darse cuenta de que cargas extremadamente elevadas (0,80 o
más) no son normales y que la significación práctica es un criterio importante. Estas
orientaciones son de aplicación cuando el tamaño muestral supera las 100 observaciones.
Valoración de la significación estadística: Como se indicó previamente, la carga factorial

representa la correlación entre la variable original y su factor. Al determinar el nivel de sig-
nificación para la interpretación de las cargas, se debería emplear una aproximación similar a
la utilizada para la significación estadística de los coeficientes de correlación. Sin embargo,
diversas investigaciones han demostrado que las cargas factoriales cuentan con errores
estándar sustancialmente mayores que las correlaciones habituales, por lo que las cargas
factoriales deberían evaluarse con niveles considerablemente más estrictos. El investigador
puede utilizar el concepto de potencia estadística, para especificar cargas factoriales con-
sideradas significativas según diferentes tamaños muéstrales. Con el objetivo establecido en
lograr un nivel de potencia del 80 por ciento, el uso de un nivel de significación de un 0,05, y
la inflación probada de los errores estándar de las cargas factoriales, la Tabla 3.2 contiene los
tamaños muéstrales necesarios para que cada valor de la carga factorial se considere
significativo. Por ejemplo, en una muestra de 100 observaciones, las cargas factoriales de 0,55
o más son significativas. Sin embargo, en una muestra de 50, la significación implica una carga
factorial de 0,75. En comparación con la anterior regla empírica que implicaba la significación
para cargas del 0,30, esta aproximación consideraría a una carga de 0,30 significativa si el
tamaño muestral fuera de 350 observaciones. Existen varias orientaciones prudentes cuando
se comparan con las de la sección previa o incluso con errores estándar asociados a los
coeficientes de correlación convencionales. Por ello, estas orientaciones deberían emplearse
como punto de partida en la interpretación de las cargas factoriales, considerando
significativas cargas factoriales bajas y de forma añadida a la interpretación basada en otras
consideraciones. La siguiente sección detalla el proceso de interpretación y la función que
pueden desempeñar otras consideraciones.

TABLA 2. Directrices para la identificación de cargas factoriales significativas basadas en el

tamaño muestral
Carga factorial Tamaño muestral necesario para la significacióna
0,30 350
0,35 250
0,40 200
0,45 150
0,50 120
0,55 100
0,60 85
0,65 70
0,70 60
0,75 50
a La significación se basa en un nivel de significación de 0,05 (x), un nivel de potencia del 80 por ciento y los
errores estándar supuestamente dos veces mayores que los coeficientes convencionales de correlación.
Fuente: Cálculos realizados con SOLO Power Análisis, BMDP Statistical Software, Inc, 1993
Ajustes basados en el número de variables: Una desventaja de las aproximaciones an-

teriores es que no se considera el número de variables y los factores concretos que se
analizan. Se ha comprobado que, a medida que el investigador se mueve del primer factor a
los últimos factores, debe incrementarse el grado aceptable para considerar a una carga como
significativa. El hecho de que la varianza única y la varianza del error empiecen a aparecer en
los últimos factores significa que debería incluirse algún ajuste al alza en el nivel de
significación, Al decidir qué cargas son significativas también es importante el número de
variables que se analizan. Según el número de variables analizadas, se incrementa el nivel
aceptable para considerar significativa una carga que decrece. El ajuste por número de
variables crece en importancia según uno se mueve del primer factor extraído a los últimos.
Resumiendo los criterios para la significación de las cargas factoriales, se pueden establecer
las siguientes orientaciones: (1) a mayor tamaño muestral, menor puede ser la carga para ser

considerada como significativa; (2) a mayor número de variables analizadas, menor ha de ser
la I carga para ser considerada como significativa; (3) a mayor número de factores, mayor ha
de ser el tamaño de la carga de los últimos factores para considerarse como significativa en la
interpretación.
Interpretación de la matriz de factores
La interpretación de las complejas relaciones representadas en la matriz de factores no es una

tarea fácil. Siguiendo el procedimiento señalado a continuación, sin embargo, se puede
simplificar considerablemente el procedimiento de interpretación factorial.
El examen de la matriz de cargas factoriales: Cada columna de números en la matriz de

factores representa un factor aislado. Las columnas de números son las cargas factoriales de
cada variable sobre cada factor. Con el fin de identificar, el computador normalmente imprime
identificando los factores de izquierda a derecha por los números 1, 2, 3, 4, etc. También las
variables por su número de arriba a abajo. Para facilitar aún más la interpretación, el
investigador debería escribir el nombre de cada variable en el margen izquierdo al lado del
número de cada variable.
Si se ha utilizado una rotación oblicua, se presentan dos matrices de cargas factoriales. La

primera es la matriz de patrones factoriales, que contiene las cargas que representan la
contribución única de cada variable al factor. La segunda es la matriz de estructura factorial,
que contiene las correlaciones simples entre variables y factores, pero estas cargas contienen
tanto la varianza única entre variables y factores como la correlación entre factores. Según
crece la correlación entre factores, es más difícil distinguir qué variables cargan únicamente
sobre cada factor en la matriz de estructura factorial. Muchos investigadores suministran los
resultados de la matriz de patrones factoriales.
Identificación de la mayor carga para cada variable: La interpretación debería comenzar

con la primera variable sobre el primer factor y moverse horizontalmente de izquierda a
derecha, observando la mayor carga para cada variable sobre cada factor. Cuando se

identifica la mayor carga (en valor absoluto), debe subrayarse si es significativa. Entonces la
atención debe centrarse en la segunda variable, y de nuevo moviéndose de izquierda a
derecha horizontalmente, comprobar la mayor carga de cada variable sobre cada factor y
subrayarla. Este procedimiento debe continuar para toda variable hasta que todas las variables
se hayan subrayado una vez en la mayor carga sobre un factor. Recuérdese que para tamaños
muéstrales menores a 100, la menor carga factorial que se considere significativa debería ser
en la mayor parte de las ocasiones de ±0,30.
El proceso de subrayar sólo la mayor carga como significativa para cada variable es un ideal
que debería perseguirse pero rara vez se consigue. Cuando cada variable tiene sólo una carga
sobre un factor que es considerado significativo, la interpretación del significado de cada factor
se simplifica considerablemente. En la práctica, sin embargo, muchas variables cuentan con
varias cargas de tamaño moderado, todas las cuales son significativas, y el trabajo de
interpretar los factores es mucho más complicado. La dificultad surge porque tina variable con
varias cargas significativas debe tenerse en cuenta al interpretar (etiquetar) todos los factores
sobre los cuales tiene una carga significativa. Muchas soluciones factoriales no concluyen con
una solución de estructura simple (una única alta carga para cada variable sólo sobre un
factor). Por eso el investigador deberá continuar, tras encontrar la mayor carga para cada
variable, evaluando la matriz de factores para encontrar todas las cargas significativas para
una variable sobre todos los factores. Por último, el objetivo es minimizar el número de cargas
significativas sobre cada fila y la matriz de factores (esto es, hacer que cada variable se asocie
sólo con un factor). Una variable con varias cargas altas es candidata a ser eliminada.
Valoración de la comunalidad: Una vez que todas las variables se han agrupado en sus
respectivos factores, el investigador debería examinar la matriz de factores para identificar
variables que no hayan sido incluidas en ningún factor. La comunalidad representa la
proporción de varianza con la que contribuye cada variable a la solución final. El investigador
debería observar la comunalidad de cada variable para evaluar si alcanza niveles aceptables
de explicación. Por ejemplo, un investigador puede especificar que al menos sea explicada la
mitad de la varianza de cada variable. Haciendo uso de este consejo, el investigador debería
identificar todas las variables con comunalidades menores a 0,50 como carentes de
explicación suficiente.

Si hay variables que no cargan sobre ningún factor o cuyas comunalidades se juzgan
demasiado bajas, caben dos alternativas: (1) interpretar la solución tal cual es y simplemente
prescindir de esas variables; o (2) evaluar cada una de esas variables para su supresión
eventual. Prescindir de variables puede resultar apropiado si el objetivo es únicamente la
reducción de datos, pero el investigador todavía debe percatarse de que las variables en
cuestión están pobremente representadas en la solución factorial. La consideración sobre su
eliminación debe depender de la contribución conjunta de las variables para el investigador
además del índice de comunalidad. Si la variable en cuestión es de escasa importancia para
el objetivo del estudio o cuenta con una comunalidad inaceptable, podría ser eliminada y se
procedería posteriormente a especificar e! modelo factorial excluyendo esa variable.
Etiquetación de los factores: Cuando se ha obtenido una solución factorial en que todas las
variables tienen una carga significativa sobre un factor, el investigador procura atribuir un signi-
ficado al patrón de cargas factoriales. Las variables con mayores cargas se consideran más
importantes y tienen mayor influencia sobre el nombre o etiqueta seleccionada para
representar al factor. Por eso, e! investigador examinará todas las variables agrupadas en un
factor particular y, poniendo mayor énfasis en las variables con mayor carga factorial, intentará
asignar un nombre o etiqueta al factor que refleje con precisión las variables cargadas sobre
el factor. Los signos se interpretan como otros coeficientes de correlación. Sobre cada factor,
signos iguales significan que las variables están positivamente relacionadas, signos opuestos
significan que las variables están negativamente relacionadas. En soluciones ortogonales los
factores son independientes unos de otros. Por tanto, los signos de las cargas factoriales se
relacionan sólo con el factor en el cual aparecen, no con otros factores en la solución.
Esta etiqueta no viene asignada por el análisis factorial realizado por el programa de compu-
tador; en su lugar, la etiqueta se fabrica intuitivamente de acuerdo a la conveniencia para
representar, las dimensiones subyacentes de un factor concreto. El resultado final será el
nombre o etiqueta que representa cada uno de los factores obtenidos con tanta precisión corno
sea posible.
En algunas ocasiones, no es posible asignar un nombre a cada uno de los factores. Cuando
surge tal situación, el investigador desearía etiquetar un factor o factores derivados de la
solución como «indefinidos». En tales casos el investigador interpreta sólo aquellos factores
que son significativos y elude aquellos indefinidos o menos significativos. Al describir la
solución factorial, el investigador Índica que esos factores se obtuvieron pero que eran

indefinidos y que sólo se interpretan aquellos factores que representan relaciones

significativas.
Como se expuso anteriormente, la selección de un número concreto de factores y el método

de rotación están interrelacionados. Se pueden llevar a cabo varias rotaciones adicionales de
prueba y comparando la interpretación factorial para las diferentes rotaciones ensayadas, el
investigador puede seleccionar el número de factores a extraer. En resumen, la habilidad para
asignar algún significado a los factores, o para interpretar la naturaleza de las variables, son
consideraciones extremadamente importantes para determinar el número de factores a
extraer.
Sexto paso: Validación del análisis factorial
La sexta etapa comprende la evaluación del grado de generabilidad, de los resultados para la
población y la influencia potencial de causas o individuos sobre los resultados globales. El
aspecto de la generabilidad es esencial en cada uno de los métodos multivariantes, pero es
especialmente relevante en los métodos de interdependencia por describir una estructura de
datos que debería ser representativa también de la población. El método más directo de
validación de los resultados consiste en adoptar una perspectiva de confirmación, valorando
la replicabilidad de los resultados, bien dividiendo la muestra con los datos originales, bien con
una muestra adicional. La comparación de los resultados de dos o más modelos factoriales
siempre ha sido problemática. Sin embargo, existen varias alternativas para realizar una
comparación objetiva. El auge del análisis factorial confirmatorio (CEA) a través de la
modelización de ecuaciones estructurales supone una alternativa, pero generalmente es más
complicado y requiere software adicional como LISREL o EQS [4,20]. En el capítulo 11, se
discute el análisis factorial confirmatorio en detalle. Además del CFA, se han propuesto otros
métodos que van desde un simple índice de adecuación a programas (FMATCH) diseñados
especialmente para valorar la correspondencia entre matrices de factores [34]. Estos métodos
cuentan con un uso ocasional, debido en parte a (1) la percepción de ausencia de sofisticación
y (2) la no disponibilidad de software o programas analíticos que automaticen las com-
paraciones. Por eso, cuando CFA no es apropiado estos métodos facilitan una base objetiva
para la comparación.

Otro aspecto de la generalización es la estabilidad de los resultados del modelo factorial. La

estabilidad factorial depende primeramente del tamaño muestral y del número de casos por
variable. El investigador siempre está obsesionado por contar con el mayor tamaño muestral
posible y desarrollar modelos parsimoniosos que incrementen la ratio-casos-por-variable. Si el
tamaño muestral lo permite, el investigador puede dividir aleatoriamente la muestra en dos
subconjuntos y estimar los modelos factoriales de cada uno. La comparación de las dos
matrices factoriales resultantes suministrará una valoración de la robustez de la solución a lo
largo de la muestra.
Además de la generabilidad, otro aspecto de importancia para la validación del análisis fac-
torial es la detección de observaciones influyentes. Las discusiones del Capítulo 2 sobre la
detección de atípicos y del Capítulo 4 sobre observaciones influyentes en la regresión se
deben aplicar también al análisis factorial. El investigador procura estimar el modelo con y sin
observaciones identificadas como atípicas para valorar su influencia sobre los resultados.
También, como se discutió en el Capítulo 4, son de aplicación al análisis factorial varias
medidas de influencia que reflejan la posición relativa de una observación respecto a las otras
(por ejemplo, el ratio de la covarianza). Finalmente, se han propuesto métodos específicos de
análisis factorial para identificar observaciones influyentes, pero su complejidad ha restringido
su aplicación.
Séptimo paso: Usos adicionales de los resultados del análisis

factorial
Dependiendo de los objetivos de partida al aplicar el análisis factorial, el investigador puede

detenerse en la interpretación de los factores o proseguir con uno de los métodos de reducción
de datos. Si el objetivo simplemente consiste en identificar combinaciones lógicas de variables
y una mejor comprensión de las relaciones entre variables, entonces basta con la
interpretación de los factores. Esta facilita una base empírica para enjuiciar la estructura de
las variables y la influencia de esta estructura cuando se interpretan los resultados a partir de
otras técnicas multivariantes. Si el objetivo, sin embargo, es identificar variables apropiadas
para aplicaciones subsiguientes de otras técnicas estadísticas, se empleará alguna forma de
reducción de datos. Las alternativas consisten en (1) examinar la matriz de factores y
seleccionar la variable con mayor carga factorial como un representante de una dimensión

factorial particular, o (2) reemplazar el conjunto original de variables por uno totalmente nuevo
con menos variables creado a partir de escalas aditivas o de la puntuación de factores. Cada
alternativa suministrará nuevas variables para ser usadas, por ejemplo, como variables
independientes en una regresión o en el análisis discriminante, o como variables dependientes
en el análisis multivariante de la varianza, o incluso como las variables agrupadas en el análisis
cluster. Cada una de estas alternativas para la reducción de datos se exponen en las
siguientes secciones.
Selección de variables suplentes para el anáfisis subsiguiente
Si el objetivo del investigador es sencillamente identificar variables apropiadas para la

aplicación subsiguiente de otras técnicas estadísticas, cuenta con la alternativa de examinar
la matriz factorial y seleccionar la variable con la mayor carga factorial sobre cada factor para
que actúe como variable suplente del factor. Este enfoque es simple y directo sólo cuando una
variable tiene una carga factorial que es sustancialmente mayor que las otras cargas
factoriales. En muchas ocasiones, sin embargo, el proceso de selección es mucho más difícil
porque dos o más variables tienen cargas que son significativas y bastante cercanas entre si.
Estos casos requieren un examen crítico de las cargas factoriales de tamaño aproximado y
sólo una como representativa de una dimensión concreta. Esta decisión debería basarse en
el conocimiento previo de la teoría por parte del investigador que pueda sugerir que una
variable con preferencia a otra pueda ser representativa de la dimensión. Además, el
investigador puede contar con un conocimiento que le sugiera que una variable con una carga
ligeramente inferior es de hecho más fiable que la variable con la mayor carga. En tales casos,
puede elegir la variable con carga ligeramente inferior como la mejor variable suplente de un
factor concreto.
La aproximación de seleccionar una única variable como representativa del factor - aunque
simple y manteniendo la variable original - cuenta con varios inconvenientes potenciales. En
primer lugar, no orienta sobre el error de medida que aparece cuando se emplean medidas
únicas (véase la siguiente sección para una discusión más detallada) y se corre, además, el
riesgo de confundir potencialmente los resultados seleccionando sólo una única variable para
representar un resultado posiblemente más complejo. Por ejemplo, supongamos que las
variables que representan competitividad en precio, calidad del producto y valor, cargan en
varios factores. La selección de cualquiera de estas variables aislada daría lugar a

interpretaciones sustancial-mente distintas en cualquier análisis subsiguiente, aunque las tres

pueden estar tan próximamente relacionadas como para excluir tal acción. En segundo lugar,
en casos donde varias cargas elevadas complican la selección de una única variable, el
investigador puede no tener otra elección que la de emplear el análisis factorial como la base
para calcular una escala aditiva o la puntuación de factores para usar como variables
suplentes. El objetivo, como en el caso de seleccionar una única variable, es representar de
la mejor forma posible la naturaleza básica del factor o componente.
Creación de escalas aditivas
En el Capitulo 1 se introdujo el concepto de escala aditiva, que está formada por la

combinación de varias variables individuales dentro de una única medida compuesta.
Simplificando, se combinan todas las variables que cargan alto sobre un factor, y el total - o
más normalmente la puntuación media de las variables - se emplea como variable de
sustitución. Una escala aditiva cuenta con dos ventajas concretas. Primeramente, es una
forma de eludir en alguna forma el error de medida inherente a todas las variables observadas.
El error de medida es el grado en el cual los valores observados no son representativos de los
valores «verdaderos» debido a cierto número de razones, desde errores reales (por ejemplo,
errores en la entrada de los datos) a la incapacidad de los individuos de suministrar información
con precisión. El error de medida enmascara cualquier relación (por ejemplo, correlaciones o
comparación de medias de grupos) y hace más difícil la estimación en los modelos muí ti
variantes. La escala aditiva reduce el error de medida utilizando indicadores múltiples
(variables) para reducir la desconfianza sobre una única respuesta. Empleando la «media» o
la respuesta «típica» a un conjunto de variables relacionadas, el error de medida que podría
tener lugar en una única respuesta se reducirá.
Una segunda ventaja de la escala aditiva es su capacidad para representar los múltiples
aspectos de un concepto en una única medida. En muchas ocasiones empleamos más
variables en nuestros modelos multivariantes en un intento de representar las muchas
«facetas» de un concepto que sabemos es bastante complejo. Pero al actuar así, complicamos
la interpretación de los resultados debido a la redundancia de la información asociada con el
concepto. Por eso, nos gustaría no sólo obtener una descripción mejor de los conceptos
utilizando múltiples variables, sino también mantener la parsimonia en el número de variables
de nuestros modelos multivariantes. La escala aditiva, cuando se construye apropiadamente,

combina los múltiples indicadores en una medida única representando lo que se mantiene en
común a lo largo del conjunto de medidas.
El proceso de construcción de la escala está fundamentado teórica y empíricamente en una

serie de disciplinas que incluyen la teoría psicométrica, la sociología y el marketing. Aunque
un tratamiento completo de las técnicas y aspectos involucrados están más allá del alcance
de curso, existen fuentes excelentes para un estudio más extenso de estas materias.
Adicionalmente hay una serie de compilaciones de escalas existentes que pueden aplicarse
en varias situaciones. Aquí expondremos, sin embargo, cuatro aspectos básicos en la
construcción de cualquier escala aditiva: la definición conceptual, la dimensionalidad, la
fiabilidad y la validación.
Definición conceptual El punto de partida para construir una escala aditiva es su definición
conceptual. La definición conceptual específica las bases teóricas de la escala aditiva
definiendo el concepto que está representado en términos aplicables al contexto de
investigación. En la investigación académica, las definiciones teóricas están basadas en
investigación previa que define el carácter y naturaleza de un concepto. En un ámbito de
gestión empresarial, los conceptos concretos pueden definirse con relación a los objetivos
propuestos, tales como la imagen, el valor o la satisfacción. En cualquier caso, la definición
conceptual es la que orienta y concreta el carácter y tipo de ítems que son candidatos a ser
incluidos en la escala.
La validación del contenido es la evaluación de la correspondencia de las variables incluidas

en la escala aditiva con su definición conceptual. Esta forma de validación, también conocida
como validación aparente, sirve para apreciar subjetivamente la correspondencia entre los
ítems individuales y el concepto a través de evaluaciones de expertos, contrastes previos con
múltiples sub-poblaciones, u oíros medios. El objetivo es asegurar que los ítems de la escala
abarquen algo más que aspectos empíricos, también consideraciones teóricas y prácticas.
Dimensionalidad: Un supuesto subyacente y requisito esencial para construir una escala adi-
tiva es que los ítems sean unidimensionales, lo que significa que estén fuertemente asociados
unos con otros representando un único concepto. El análisis factorial sirve de apoyo realizando
una valoración empírica de la dimensionalidad del conjunto de ítems determinando el número

de factores y las cargas de cada variable sobre el factor o factores. El contraste de

unidimensionalidad consiste en que en una escala aditiva los ítems carguen de forma elevada
en un único factor. Si se propone que una escala aditiva cuente con múltiples dimensiones,
cada dimensión reflejará un factor aislado. El investigador puede evaluar la unidimensionalidad
bien con un análisis factorial exploratorio, como se discutió en este capítulo, o bien un análisis
factorial confirmatorio, como se describe más adelante.
Fiabilidad: La fiabilidad es el grado de consistencia entre las múltiples medidas de una

variable. Una forma de fiabilidad es el test-retest por el cual la consistencia se mide entre las
respuestas de un individuo en dos momentos del tiempo. El objetivo es asegurar que las
respuestas no varían demasiado a lo largo de períodos temporales por lo que una medida
tomada en cualquier momento del tiempo es certera. Una segunda medida de la fiabilidad más
utilizada es la consistencia interna que se aplica a la consistencia entre las variables en una
escala aditiva. La motivación para la consistencia interna es que los ítems individuales o
indicadores de la escala deberían estar midiendo las mismas construcciones y, de esta forma,
estar altamente ínter correlacionadas.
Debido a que no hay un único ítem que sea una medida perfecta de un concepto, debemos
delegar en un conjunto de medidas de diagnosis para valorar la consistencia interna. En primer
lugar, existen varias medidas que se relacionan con cada ítem aislado, incluyendo la
correlación ítem-total (la correlación del ítem con la puntuación de la escala aditiva) o la
correlación inter-ítem (la correlación entre ítems). La práctica empírica sugiere que la
correlación ítem-total exceda de 0,50 y que las correlaciones inter-ítem excedan de 0,30. El
segundo tipo de medida de diagnosis es el coeficiente de fiabilidad que valora la consistencia
de la escala entera, el alfa de Cronbach que es la medida más extensamente utilizada. El
acuerdo general sobre el limite inferior para al alfa de Cronbach es de 0,70, aunque puede
bajar a 0,60 en la investigación exploratoria. Un aspecto en la valoración del alfa de Cronbach
es su relación positiva con el número de ítems de la escala. Debido a que al aumentar el
número de ítems, incluso con el mismo grado de intercorrelación, se incrementará el valor de
la Habilidad, los investigadores deben imponer requisitos más restrictivos para escalas con un
mayor número de ítems. También están disponibles medidas de fiabilidad derivadas del
análisis factorial confirmatorio. Dentro de ellas están la fiabilidad compuesta y la varianza
media extraída.

Cada uno de los programas estadísticos más utilizados contiene ahora módulos de evaluación
de la fiabilidad, de tal forma que el investigador está provisto de un análisis completo de
medidas tanto específicas de cada ítem como medidas de fiabilidad globales. En toda escala
aditiva debería analizarse la fiabilidad para asegurar su adecuación antes de proceder a una
evaluación de su validación.
Validación: Habiendo asegurado que una escala (1) se adecua a su definición conceptual, (2)
es unidimensional, y (3) alcanza los niveles necesarios de fiabilidad, el investigador debe rea-
lizar una evaluación final: la validación de la escala. La validación es la medida en que una
escala o un conjunto de medidas representa con precisión el concepto de interés. Ya hemos
discutido una forma de validación el contenido o validación por confrontación en relación a las
definiciones conceptuales. Otras formas de validación se miden empíricamente por la co-
rrelación entre los conjuntos de variables definidas teóricamente. Las tres formas más
extensamente admitidas de validación son la convergente, la discriminante y la nomológica.
La validación convergente valora el grado en el cual dos medidas del mismo concepto están
correlacionadas. Aquí el investigador debe buscar medidas alternativas de un concepto y
córrela donarlas con la escala aditiva. Alias correlaciones indican que la escala está midiendo
el concepto que se pretendía. La validación discriminante es el grado en el cual dos conceptos
conceptualmente parecidos difieren. El contraste empírico de nuevo es la correlación entre las
medidas, pero esta vez la escala aditiva está correlacionada con una medida parecida, pero
conceptualmente distinta. Ahora la correlación debería ser baja, demostrando que la escala
aditiva es conceptualmente distinta de otro concepto parecido. Finalmente, la validación
nomológica refleja el grado en que la escala aditiva hace predicciones precisas de otros
conceptos en un modelo basado en la teoría. El investigador debe identificar relaciones
apoyadas en investigación previa o en principios aceptados y evaluar si la escala cuenta con
las correspondientes relaciones. En resumen, la validación convergente confirma que la escala
está correlacionada con otras medidas conocidas del concepto, la validación discriminante
asegura que la escala es suficientemente distinta de otros conceptos parecidos que sean
distintos, y la validación nomológica determina si la escala demuestra las relaciones cuya
existencia se deriva de la teoría; y/o de investigación previa.
Existen varios métodos para evaluar la validación, que van desde el multirasgo, las matrices
(MTMM) a las aproximaciones basadas en ecuaciones estructurales. Aunque vayan \ más allá

del alcance de este libro, existen una serie de fuentes que orientan sobre el conjunto de
métodos disponibles y de los aspectos implicados por las técnicas concretas.
Resumen
Las escalas aditivas, uno de los desarrollos recientes en la investigación académica, cuentan
cotí" aplicación creciente en investigación aplicada y también en gestión empresarial. La
capacidad de la escala aditiva para plasmar conceptos complejos en una única medida
reduciendo el error de medida supone un añadido valioso en cualquier análisis multivariante.
El análisis factorial ofrece al investigador una evaluación empírica de las relaciones entre las
variables, esencial en la formación de los fundamentos conceptuales y empíricos de la escala
aditiva por medio de la evaluación de la validación del contenido y la dimensionalidad de la
escala.
Cálculo de la puntuación factorial
La tercera alternativa para crear un conjunto más pequeño de variables es reemplazar el

conjunto original por medio del cálculo de la puntuación factorial. Las puntuaciones factoriales
constituyen también medidas compuestas de cada factor calculadas para cada sujeto.
Conceptualmente, la puntuación factorial representa el grado en el cual cada individuo puntúa
en el grupo de ítems que cuentan con cargas elevadas sobre un factor. Por tanto, mayores
valores en las variables con altas cargas sobre un factor resultarán en una mayor puntuación
factorial. Una de las características clave que diferencia la puntuación factorial de la escala
aditiva es que la puntuación factorial se calcula en base a las cargas factoriales, mientras que
la escala aditiva se calcula combinando sólo las variables elegidas. En consecuencia, aunque
el investigador sea capaz de caracterizar un factor por medio de las variables con cargas
mayores, se debe también atender a las cargas de las otras variables, aunque menores, y su
influencia sobre la puntuación factorial.

La mayoría de los programas estadísticos puede calcular puntuaciones factoriales fácilmente

para cada elemento muestral. Seleccionando la alternativa de puntuación factorial, se graban
estas puntuaciones para su uso en análisis subsiguientes. Una desventaja de la puntuación
factorial es que no se pueden replicar fácilmente en otros estudios debido a que están basados
en la matriz factorial obtenida en cada estudio. La replicación de la misma matriz factorial en
distintos estudios requiere un importante trabajo de programación.
Selección entre los tres métodos
Para elegir entre las tres alternativas para reducir datos el investigador debe adoptar una serie
de decisiones. La primera elección está en seleccionar una única variable suplente para cada
factor o calcular una medida compuesta. La variable suplente única cuenta con las ventajas
de ser de sencillo tratamiento e interpretación, pero tiene las desventajas de no representar
las otras «facetas» del factor y su propensión al error de medida. Si el investigador desea
emplear alguna forma de medida compuesta, debe elegir entre la puntuación factorial y las
escalas aditivas. Ambas cuentan con ventajas y desventajas y no hay un criterio tajante
aplicable a todas las situaciones. La puntuación factorial tiene la ventaja de representar un
compuesto de las cargas de las variables sobre el factor, aunque esto supone también una
desventaja potencial al contar todas las variables con algún grado de influencia en el cálculo
de la puntuación factorial y hacer la interpretación más difícil. La escala aditiva está a medio
camino entre la variable suplente y la alternativa de la puntuación factorial. Es una medida
compuesta, como la puntuación factorial, reduciendo por tanto el error de medida y
representando múltiples facetas de un concepto. Aunque similar a la aproximación de variable
suplente incluye sólo las variables que cargan alto sobre el factor y excluye aquellas con es-
casos efectos. Además, su fácil replicación entre muestras es similar al enfoque de variable
suplente. Finalmente, como las variables suplentes, las escalas aditivas no son
necesariamente ortogonales, mientras que los factores pueden ser ortogonales o incorrelados,
si se necesita evitar complicaciones en su uso en otras técnicas multivariantes. La regla de
decisión, por tanto, seria que si los datos se emplean sólo en la muestra original o se debe
mantener la ortogonalidad, la puntuación factorial es la adecuada. Si se desea la
transferibilidad o la generalización, las escalas aditivas o las variables suplentes son más
apropiadas. Si la escala aditiva está bien construida, validada y es fiable, es probable que sea
la mejor alternativa. Pero si la escala aditiva no está contrastada y revisada, con poca o

ninguna prueba de fiabilidad o validación, deberían considerarse en su lugar las variables

suplentes si no es posible un análisis añadido que mejore la escala aditiva.
Un ejemplo ilustrativo
En las secciones precedentes se han discutido ¡as principales preguntas concernientes a la

aplicación del análisis factorial en el contexto de la construcción de modelos introducido en el
Capítulo 1. Para aclarar más estos temas, exponemos un ejemplo ilustrativo de aplicación del
análisis factorial basado en ítems de la base de datos HATCO. Nuestra discusión del ejemplo
empírico sigue también el proceso de construcción de modelos en seis pasos. Se presentan
en primer lugar los tres primeros, comunes al análisis factorial común y al de componentes
principales. Posteriormente, los pasos cuarto al sexto se dedican al análisis de componentes
principales, junto a los ejemplos de los usos adicionales del análisis factorial. Concluimos con
un análisis de las diferencias para el análisis factorial común en los pasos cuarto y quinto.
Primer paso: Objetivos del análisis factorial
El análisis factorial puede identificar la estructura de un conjunto de variables además de sumi-

nistrar un proceso para la reducción de datos. En nuestro ejemplo, se examinan las
percepciones de HATCO sobre siete atributos (X1 a X7) para (1) comprender si esas
percepciones pueden ser «agrupadas» y (2) reducir las siete variables a un número menor.
Incluso el número relativamente menor de percepciones examinadas presenta aquí un cuadro
complejo de 21 correlaciones aisladas. Agrupando las percepciones, HATCO dispondrá de un
panorama que le permitirá comprender a sus clientes y lo que éstos piensan sobre HATCO. Si
las siete variables pueden representarse en un número menor de variables compuestas, las
otras técnicas multivariantes pueden ser más parsimoniosas. Por supuesto, este enfoque
supone que existe un determinado orden subyacente en los datos analizados.
Segundo paso: Diseño del análisis factorial
La comprensión de la estructura de las percepciones de las variables requiere un análisis

factorial de tipo R y una matriz de correlación entre las variables, no entre las respuestas.
Todas las variables son métricas y forman un conjunto homogéneo apropiado para el análisis

factorial. Atendiendo a la adecuación del tamaño muestral en este ejemplo hay un ratio de
observaciones a variables de 14 a 1, que entra en los ¡imites aceptables. Además, el tamaño
muestral de 100 supone una base adecuada para el cálculo de las correlaciones entre
variables.
Tercer paso: Supuestos de análisis factorial
Los supuestos estadísticos subyacentes afectan al análisis factorial en la medida en que

afectan a las correlaciones obtenidas. Incumplimientos de la normalidad, la homocedasticidad
y la linealidad pueden reducir las correlaciones entre variables.
El investigador puede también evaluar la aplicación del análisis factorial con el análisis de la
matriz de correlaciones. El primer paso es el examen visual de las correlaciones, identificando
aquellas que sean estadísticamente significativas. La Tabla 3 muestra la matriz de
correlaciones para las siete percepciones de HATCO. La inspección de la matriz de
correlaciones revela que 11 de las 21 correlaciones (52 por ciento) son significativas al nivel
del 0,01.
Este análisis suministra una base adecuada para el siguiente nivel, el examen empírico de la
suficiencia del análisis factorial tanto sobre bases globales como para cada variable.
El siguiente paso es valorar la significación de la matriz de correlación con el contraste de

Barlett. En este ejemplo, las correlaciones, cuando se toman conjuntamente, son significativas
a un nivel del 0,0001 (véase Tabla 3). Pero con este test se contrasta sólo la presencia de
correlaciones no nulas, no el patrón de esas correlaciones. El otro contraste global es la
medida de adecuación muestral (MSA), que en este caso cae en el rango de no aceptación
(por debajo del 0,50) con un valor de 0,446. El examen de los valores para cada variable
identifica tres variables (X1, X2 y X5) que también tienen valores por debajo de 0,50. Debido a
que X. tiene el menor valor MSA, será omitida con el fin de obtener un conjunto de variables
que puedan exceder los niveles mínimos aceptables MSA.
TABLA 3. Evaluación de la conveniencia del análisis factorial: Correlaciones, medidas de suficiencia de muestreo
y correlaciones parciales entre variables

Correlación entre las variables

Variable
X1 X2 X3 X4 X5 X6 X7
X1 : Velocidad de entrega 1,00 -0,35* 0,51* 0,05 0,61* 0,08 -0,48*
X2 : Nivel de precio 1,00 -0,49* 0,27* 0,51* 0,19 0,47*
X3 : Flexibilidad de precio 1,00 -0,12 0,07 -0,03 -0,45*
X4 : Imagen del fabricante 1,00 0,30* 0,79* 0,20
X5 : Servicio 1,00 0,24 -0,06
X6 : Imagen del personal de ventas 1,00 0,18
X7 : Calidad del producto 1,00
* Indica las correlaciones significativas al nivel 0,01.
Medida de suficiencia de muestreo general: 0,446
Contraste de esfericidad de Bartlett: 567,541 Significación: 0,0000
Medidas de suficiencia de muestreo y correlaciones parciales*

Variable
X1 X2 X3 X4 X5 X6 X7
X1 : Velocidad de entrega 0,344
X2 : Nivel de precio 0,957 0,330
X3 : Flexibilidad de precio 0,018 0,155 0,913
X4 : Imagen del fabricante 0,149 0,134 0,095 0,558
X5 : Servicio -0,978 -0,975 -0,091 -0,173 0,288
X6 : Imagen del personal de ventas -0,060 -0,045 -0,085 -0,766 0,052 0,552
X7 : Calidad del producto -0,016 -0,141 0,140 -0,039 0,088 -0,092 0,927
*Los valores de la diagonal principal son medidas de suficiencia de muestreo para variables individuales; los valores
fuera de la diagonal son correlaciones anti-imagen (correlaciones parciales negativas)
La Tabla 4 contiene la matriz de correlación para el conjunto revisado de variables (X1 X2 X3

X4, X6 y X7) junto a las medidas de adecuación muestral y el valor del contraste de Barlett. En
la matriz de correlaciones reducida, 7 de las 15 correlaciones son estadísticamente
significativas. Como con el conjunto completo de variables, el contraste de Barlett muestra que

las correlaciones no nulas existen a un nivel de significación del 0,0001. El conjunto reducido
de variables colectivamente alcanza el umbral necesario de suficiencia muestral con un valor
MSA de 0,665. Cada una de las variables también excede el valor del umbral, indicando que
el conjunto reducido de variables alcanza los requisitos fundamentales para el análisis
factorial. Finalmente, con la excepción de una correlación parcial (X4 y X6), las demás son
todas bastante bajas, lo que es otro indicador de la fortaleza de las relaciones entre las
variables del conjunto reducido. Todas estas medidas indican que el conjunto reducido de
variables es apropiado para el análisis factorial, y que se puede proseguir con los siguientes
pasos.
Análisis de factores componentes: Del paso cuarto al séptimo
Como se indicó anteriormente, los procedimientos de análisis factorial están basados en el

cálculo inicial de una tabla completa de intercorrelaciones entre las variables (matriz de
correlación). Esta matriz de correlación se transforma entonces por medio de la estimación de
un modelo de factores para obtener la matriz de factores. Las cargas de cada variable sobre
los factores se interpretan entonces para identificar la estructura subyacente de las variables,
en este caso percepciones de HATCO. Estos pasos del análisis factorial, contenidos en los
pasos cuarto a siete, se examinan primero para el análisis de componentes principales.
Entonces, se lleva a cabo un análisis factorial común y se comparan los dos modelos de
factores.
TABLA 4. Evaluación de la conveniencia del análisis factorial para la serie de variables revisada: correlaciones,
medidas de suficiencia de muestreo y correlaciones parciales entre variables
Correlación entre las variables

Variable
X1 X2 X3 X4 X6 X7
X1 : Velocidad de entrega 1,00 -0,35* 0,51* 0,05 0,08 -0,48*
X2 : Nivel de precio 1,00 -0,49* 0,27* 0,19 0,47*
X3 : Flexibilidad de precio 1,00 -0,12 -0,03 -0,45*
X4 : Imagen del fabricante 1,00 0,79* 0,20
X6 : Imagen del personal de ventas 1,00 0,18
X7 : Calidad del producto 1,00
* Indica las correlaciones significativas al nivel 0,001.

Medida de suficiencia de muestreo general: 0,665
Contraste de esfericidad de Bartlett: 205,965 Significación: 0,0000
Medidas de suficiencia de muestreo y correlaciones parciales*

Variable
X1 X2 X3 X4 X6 X7
X1 : Velocidad de entrega 0,721
X2 : Nivel de precio 0,074 0,787
X3 : Flexibilidad de precio -0,338 0,301 0,748
X4 : Imagen del fabricante -0,098 -0,160 0,081 0,542
X6 : Imagen del personal de ventas -0,045 0,026 -0,081 -0,769 0,532
X7 : Calidad del producto 0,331 -0,253 0,149 -0,024 -0,097 0,779
* Los valores de la diagonal principal son medidas de suficiencia de muestreo para variables individuales los
valores fuera de la diagonal son correlaciones anti-imagen (correlaciones parciales negativas)
Cuarto paso: Derivación de los factores y valoración del ajuste global

El primer paso es seleccionar el número de componentes que se van a mantener para un
análisis posterior. La Tabla 5 contiene la información relativa a los seis posibles factores y su
poder explicativo relativo expresado por sus autovalores. Además de valorar la importancia de
cada componente, podemos emplear los autovalores como ayuda para seleccionar el número
de factores. Si aplicamos el criterio de raíz latente, se mantendrán dos componentes. El
contraste de caída (Figura 9), sin embargo indica que los tres factores pueden resultar
apropiados. Al mirar el autovalor para el tercer factor, se determinó que su valor bajo (0,597)
relativo al criterio de raíz latente de 1,0 impide su inclusión. Si su autovalor hubiera estado
cercano a 1, entonces también podría haberse considerado su inclusión. Estos resultados
ilustran la necesidad de criterios de decisión múltiples al decidir el número de componentes
que se mantienen. Los dos factores mantenidos representan el 71 por ciento de la varianza de
las seis variables.

TABLA 5. Los resultados para la extracción de los factores de componente
Porcentaje de varianza
Factor Autovalor Porcentaje de varianza
acumulado
1 2,51349 41,9 41,9
2 1,73952 29,0 70,9
3 0,59749 10,0 80,8
4 0,52956 8,8 89,7
5 0,41573 6,9 96,6
6 0,20422 3,4 100,0
FIGURA 9. Contraste de caída para el análisis de componente.

Quinto paso: Interpretación de los factores
El resultado del cuarto paso se presenta en la Tabla 6, la matriz de factores del análisis de
componentes no rotados. Para empezar el análisis, expliquemos en primer lugar las
cantidades incluidas en la tabla. Se muestran tres columnas de números. Las dos primeras
son los resultados para dos factores que van a extraerse (esto es, cargas factoriales sobre
cada variable para cada factor). La tercera columna suministra estadísticas de resumen
detallando cómo cada variable está «explicada» por los dos componentes, que son discutidos
en la siguiente sección. La primera fila de números al final de cada columna es la suma de los
cuadrados de las cargas factoriales (autovalores) e indica la importancia relativa de cada factor
dando cuenta de la varianza asociada con el conjunto de variables que se analiza. Nótese que
la suma de los cuadrados para los dos factores son 2,51 y 1,74 respectivamente. Como se
esperaba, la solución factorial ha extraído los factores en el orden de su importancia, con el
factor 1 dando cuenta de la mayor parte de varianza y el 2 algo menos. En el extremo derecho
de la fila está el número 4,25, que representa la suma explicada total de los cuadrados (2,51
± 1,74). La suma total de los factores al cuadrado representa la cantidad tota! de varianza
explicada por la solución factorial.
TABLA 6. Matriz de factores de análisis de componente no rotado
Factores
Variables
1 2 Comunalidades
X1 Velocidad de entrega -0,627 0,514 0,66
X2 Nivel de precio 0,759 -0,068 0,58
X3 Flexibilidad de precio -0,730 0,337 0,65
X4 Imagen del fabricante 0,494 0,798 0,88
X6 Imagen del personal de ventas 0,425 0,832 0,87
X7 Calidad de producto 0,767 -0,168 0,62
Total
Suma de cuadrados (autovalor) 2,51 1,74 4,25
Porcentaje de traza* 41,9 29,0 70,9
* Traza = 6,0 (suma de los autovalores)
La cantidad total de varianza explicada por la solución factorial (4,25) puede compararse con
la variación total en el conjunto de variables tal como viene representada por la traza de la

matriz factorial. La traza es la varianza total a explicar y es igual a la suma de los autovalores
del conjunto de variables. En el análisis de componentes principales, la traza es igual al
número de variables puesto que cada variable tiene un posible autovalor igual a 1,0. Los
porcentajes de traza explicados por cada uno de los dos factores (41,9 por ciento y 29,0 por
ciento respectivamente) aparecen como la última fila de valores de ia Tabla 3.6. El porcentaje
de traza se obtiene dividiendo la suma de los cuadrados de cada factor por la traza para el
conjunto de variables analizado. Por ejemplo, dividiendo la suma de los cuadrados de 2,51
para el factor 1 por la traza de 6,0 resulta un porcentaje de traza del 41,9 por ciento para el
factor 1. Sumando los porcentajes de traza para cada uno de los dos factores, obtenemos el
porcentaje total de traza extraído para la solución factorial, que puede emplearse como índice
para determinar con qué bondad da cuenta una solución factorial concreta de lo que todas las
variables representan conjuntamente. Si todas ¡as variables son muy diferentes unas de otras,
este índice será bajo. Si las variables pertenecen a uno o más grupos altamente redundantes
o relacionados, o si los factores extraídos dan cuenta de todos los grupos, el índice se
aproximará al 100 por cien. El índice para la solución presente muestra que el 70,9 por ciento
del total de la varianza está representado por la información contenida en la matriz factorial de
la solución para los dos factores. Por tanto, el índice para esta solución es elevado, y las
variables están de hecho altamente relacionadas unas con otras.
La fila suma de las cargas de los factores al cuadrado se muestra en el extremo derecho de la
Tabla 6. Estas cifras, señaladas en la tabla como comunalidades, muestran la cantidad de
varianza en una variable que es explicada por los dos factores tomados conjuntamente. El
tamaño de la comunalidad es un índice útil para valorar cuánta varianza en una variable
concreta viene explicada por la solución factorial. Grandes comunalidades indican que la
solución factorial ha extraído una gran cantidad de varianza en una variable. Pequeñas
comunalidades muestran que una porción sustancial de la varianza en una variable viene
explicada por los factores. Por ejemplo, la comunalidad de 0,65 para la variable X 3 indica que
tiene menos en común con las otras variables incluidas en el análisis de lo que lo hace la
variable X4 que tiene una comunalidad de 0,88. Ambas variables, sin embargo, todavía
«comparten» en torno a un medio de su varianza con los otros factores. Habiendo definido los
diversos elementos de la matriz de factores no rotados, examinemos los patrones de cargas
factoriales. Como se anticipó, el primer factor da cuenta de la mayor cantidad de varianza y es
un factor general, en que todas las variables tienen una carga alta. Las cargas del segundo
factor muestran tres variables (X1, X4 y X6) que también tienen cargas altas. Basados en este

patrón de altas cargas factoriales, la interpretación resultaría bastante difícil y teóricamente

menos significativa. Por tanto, el investigador debería proceder a rotar la matriz factorial para
redistribuir la varianza de los primeros factores a los últimos. De la rotación debe resultar un
patrón factorial más sencillo y teóricamente más significativo.
La aplicación de la rotación ortogonal (VARIMAX): La matriz de factores del análisis de

componentes rotados VARIMAX se muestra en la Tabla 7. Nótese que la cantidad total de
varianza es la misma en la solución rotada de lo que lo era en la no rotada, esto es, el 70,9.
Aun así aparecen dos diferencias. Primero, la varianza se ha redistribuido para que el patrón
de carga factorial y el porcentaje de varianza para cada uno de los factores sean distintos.
Concretamente, en la solución rotada VARIMAX, el primer factor responde del 39,5 por ciento
de la varianza en comparación con el 41,9 por ciento en la solución no rotada. De la misma
forma, el segundo factor da cuenta de 31,4 por ciento frente al 29,0 por ciento en la solución
no rotada. Así, el poder explicativo se ha desplazado ligeramente hacia una distribución más
uniforme debido a la rotación. En segundo lugar, la interpretación de la matriz factorial se ha
simplificado.
TABLA 7. Matriz de factores del análisis de componentes VARIMAX
Cargas rotadas VARIMAX

Variables
Factor 1 Factor 2 Comunalidades
X2 Nivel de precio 0,714 0,266 0,58
X3 Flexibilidad de precio -0,804 -0,011 0,65
X7 Calidad de producto 0,764 0,179 0,62
Total
Suma de cuadrados (autovalor) 2,37 1,88
4,25
Porcentaje de traza* 39,5 31,4
70,9

Recuérdese que en la solución factorial no rotada todas las variables cargaban

significativamente sobre el primer factor. En la solución factorial rotada, sin embargo, las
variables X1, X2, X3 y X7 cargan significativamente sobre el factor 1, y las variables y X4 y X6
cargan significativamente sobre el factor 2. Ninguna variable carga significativamente sobre
más de un factor. Debería resultar aparente que la interpretación factorial se ha simplificado
considerablemente al rotar la matriz factorial.
Denominación de los factores: Cuando se ha obtenido una solución factorial satisfactoria, el

investigador normalmente intenta atribuirle algún significado. El proceso implica la in-
terpretación sustantiva del patrón de cargas factoriales para las variables, incluidos sus signos,
en un esfuerzo por denominar cada uno de los factores. Antes de la interpretación, debe selec-
cionarse un nivel mínimo aceptable de significación para el factor. Normalmente, en la inter-
pretación se emplean todas las cargas factoriales significativas. Pero las variables con
mayores cargas influyen en una mayor medida en el nombre o etiqueta seleccionada para
representar a un factor.
Observemos los resultados de la Tabla 7 para ilustrar este procedimiento. La solución factorial
se obtuvo de un análisis de componentes con una rotación VARIMAX de las seis percepciones
ofrecidas por HATCO. El punto de corte de las cargas a efectos interpretativos en este ejemplo
fue del 55 por ciento (véase Tabla 3.2). Este resulta un punto de corte prudencialmente alto y
puede ajustarse de ser necesario. Pero en nuestro ejemplo, todas las cargas caen
sustancialmente por encima o por debajo de este umbral, haciendo la interpretación bastante
fácil.
La interpretación sustantiva se basa en las mayores cargas significativas. El factor 1 tiene

cuatro cargas significativas y el factor 2, dos. Para el factor 1, vemos dos grupos de variables.
El primero es el nivel de precios (X2) y la calidad del producto (X7), ambas con signos positivos.
Las otras dos variables, la rapidez en el envío (X1) y la flexibilidad de precios (X3) tienen signos
negativos. Por ello, la calidad del producto y el nivel de precios varían juntos, lo mismo que la
rapidez en el envío y la flexibilidad de precios. Sin embargo, un grupo respecto a otro se
mueven en sentidos opuestos. En nuestro ejemplo, esto podría indicar que cuando calidad de
producto y precio crecen, la rapidez en el envío o la flexibilidad de precios decrecen, o
viceversa. Existen cuatro características tangibles de HATCO en el conjunto de variables, y

están agrupadas juntas en un único factor. Este factor, quizá denominado valor básico,
representa una concesión entre las percepciones del precio o calidad del producto y las
percepciones de rapidez en el envío y flexibilidad de precios. Volviendo al factor 2, notamos
que las variables X4 (imagen del productor) y X6 (imagen de los vendedores) se relacionan
ambas con componentes de imagen, apuntando quizá a una etiqueta como imagen HATCO
como segundo factor. Ambas variables tienen el mismo signo, sugiriendo que estas
percepciones son bastante similares en las respuestas no actuando en sentidos opuestos,
como observamos con el primer factor.
Deberíamos notar que el servicio global (X5) no estaba incluido en el análisis factorial. Cuando
se presentaron las interpretaciones de las cargas factoriales, se decidió no incluir esta variable,
SÍ se utilizan los resultados en otro análisis multivariante, X5 podría incluirse como una variable
aislada, aunque esto no asegurarla que fuera ortogonal a la puntuación factorial.
Ha quedado así expuesto el proceso de denominar los factores. Se habrá notado que está
basado en la opinión subjetiva del investigador. En multitud de ocasiones, varios
investigadores no dudarán en atribuir nombres diferentes a los mismos resultados debido a
las diferencias en su formación y ejercicio. Por este motivo, el proceso de denominar los
factores está sujeto a una controversia considerable. Pero sí se puede asignar un nombre
lógico que represente la naturaleza subyacente de los factores, normalmente facilita la
presentación y comprensión de la solución factorial y por tanto es un procedimiento justificable.
La aplicación de una rotación oblicua: La rotación VARIMAX es ortogonal, lo que significa

que los factores permanecen incorrelacionados con el proceso de rotación. Pero en muchas
ocasiones, los factores no necesitan estar incorrelacionados e incluso pueden estar
conceptualmente ligados, lo que requiere una correlación entre los factores. En nuestro
ejemplo, es bastante razonable esperar que las dimensiones perceptivas puedan estar
correlacionadas; así quedaría justificada una rotación oblicua. La Tabla 8 contiene las matrices
de patrón y estructura con las cargas factoriales para cada variable sobre cada factor. Como
se discutió más arriba, la matriz de patrones se emplea normalmente con fines interpretativos,
concretamente si los factores cuentan con una alta correlación entre ellos. En este caso, la
correlación entre los factores es sólo del 0,12, por eso las matrices de patrones y estructura
tienen cargas bastante comparables. Examinando las variables que cargan alto sobre cada
factor, notamos que la interpretación es exactamente la misma que se encontró con la rotación
VARIMAX.

TABLA 8. Rotación oblicua de una matriz factorial del análisis de componente
Cargas de rotación oblicuas

Variables
Factor 1 Factor 2 Comunalidadesa
Matriz de patrones (cargas)
X3 Flexibilidad de precio -0,808 0,043 0,65
X6 Imagen del personal de ventas -0,026 0,937 0,87
Matriz de estructura
X1 Velocidad de entrega -0,773 0,151
X2 Nivel de precio 0,730 0,304
X3 Flexibilidad de precio -0,802 -0,054
X4 Imagen del fabricante 0,164 0,938
X6 Imagen del personal de ventas 0,088 0,934
X7 Calidad de producto 0,774 0,220
Matriz de correlación de factores
Factor 1
Factor 2 Factor 1 Factor 2
1,00
0,121 1,00
a Los valores de las varianzas compartidas no son iguales a la suma de las cargas al cuadrado debido a la correlación de los
factores.
Sexto paso: Validación del análisis factorial
La validación de los resultados de cualquier análisis factorial es esencial, especialmente

cuando se intenta definir la estructura subyacente entre las variables. Óptimamente,
deberíamos seguir siempre nuestro análisis factorial con alguna forma de análisis factorial
confirmatorio, tal como el modelo de ecuaciones estructurales, pero esto a menudo no es
factible. Debemos contemplar otros medios, como el análisis de división de la muestra o la
aplicación a muestras enteramente nuevas.
En este ejemplo, dividimos la muestra en dos partes iguales de 50 respuestas y reestimamos

los modelos factoriales para contrastar la compatibilidad. La Tabla 3.9 contiene las rotaciones
VARIMAX para los dos modelos factoriales, junto a las comunalidades. Como puede verse,

las dos rotaciones VARIMAX son bastante comparables en términos tanto de las cargas como
de las comunalidades para las seis percepciones. Un suceso notable es el cambio de signo
del factor 1 en la primera submuestra frente a la segunda. Las interpretaciones de la relación
entre las variables (por ejemplo, la rapidez del envío crece, la percepción del nivel de precios
decrece) no cambian porque están relacionadas con las cargas en cada factor.
Con estos resultados, podemos estar más seguros de que los resultados son estables dentro
de nuestra muestra. De ser posible, nos gustaría llevar a cabo un trabajo posterior obteniendo
respuestas adicionales y asegurando que los resultados se generalizan entre la población.
Séptimo paso: Usos adicionales de los resultados del análisis

factorial
El investigador tiene la posibilidad de utilizar el análisis factorial no sólo como instrumento para
resumir datos, como hemos visto en la discusión previa, sino también como instrumento para
reducir datos. En este contexto, el análisis de factores podría servir de ayuda para reducir el
número de variables, o para seleccionar un conjunto de variables suplentes, una por factor, o
creando nuevas variables compuestas para cada factor. Las siguientes secciones detallan los
aspectos propios de la reducción de datos para este ejemplo.
Selección de variables suplentes para un análisis subsiguiente: Examinemos los datos

de la Tabla 7 para aclarar el procedimiento para la selección de variables suplentes. Primero,
recordemos que las variables suplentes deberían seleccionarse sólo cuando la rotación sea
ortogonal, porque cuando estamos interesados en utilizar variables suplentes en análisis
subsiguientes, es lo mejor, en la medida de lo posible, que las variables independientes estén
incorrelacionadas entre sí. Por ello debe elegirse una solución ortogonal en lugar de una
oblicua.

TABLA 9. Validación del análisis de componente por estimación de división de la muestra VARIMAX
Cargas rotadas VARIMAX

Variables
Factor 1 Factor 2 Comunalidades
Muestras de división 1
Muestras de división 2
X1 Velocidad de entrega 0,842 -0,002 0,71
X2 Nivel de precio -0,625 0,396 0,55
X3 Flexibilidad de precio 0,829 0,107 0,70
X4 Imagen del fabricante -0,167 0,915 0,87
X7 Calidad de producto -0,681 0,315 0,56
a Los valores de las varianzas compartidas no son iguales a la suma de las cargas al cuadrado debido a la correlación de
los factores.
Suponiendo que queremos seleccionar una única variable para su uso posterior, antes que
construir una escala aditiva o utilizar la puntuación factorial (véanse las siguientes secciones),
examinaríamos la magnitud de las cargas factoriales. Centrándonos en las cargas factoriales
del factor 2, vemos que la carga para la variable X4 es 0,933 y para la variable es de 0,934. La
selección de un representante es difícil en casos como éste porque los tamaños de las cargas
son esencialmente idénticos. Sin embargo, si no tenemos pruebas previas que sugieran que
la fiabilidad o validación para una de las variables es mejor que para la otra, podríamos
seleccionar la X6 como variable suplente, sabiendo que representa elementos de imagen en
mayor grado. Dadas las altas cargas para ambas variables, la selección de una sola podría
ser suficiente debido al alto grado de intercorrelación entre ellas (mostrado por las altísimas
cargas sobre el mismo factor o componente). De la misma forma, las cargas para el factor 1
son de 0,714 para la variable X2 y de 0,764 para X7, con cargas negativas comparables para

X1, (-0.787) y X3 (-0.804). Para ambos factores, ninguna variable «representa» el mejor
componente; por lo que la puntuación factorial o escalas aditivas serían más apropiados.
Creación de escalas aditivas: Una escala aditiva es un valor compuesto para un conjunto de
variables calculado por un procedimiento tan sencillo como tomar la media de las variables en
la escala. Esto es bastante parecido a los valores teóricos en otras técnicas multivariantes,
excepto que las ponderaciones para cada variable se supone son iguales en el proceso de
promediar. El análisis factorial ayuda en la construcción de escalas aditivas identificando la
dimensionalidad de las variables, que puede entonces estar relacionada con la definición
conceptual. En este ejemplo, la solución de dos factores sugiere que deberían construirse dos
escalas aditivas. Los dos factores tratados previamente, corresponden a dimensiones que
pueden denominarse y relacionarse con conceptos con un contenido de validación adecuado.
La dimensionalidad de cada escaláosla apoyada por la interpretación «clara» de cada factor,
con mayores cargas factoriales de cada variable sólo sobre un factor. La fiabilidad de las
escalas aditivas está mejor representada por el alfa de Cronbach, que en este caso es de 0,77
para la escala 1 y de 0,85 para la escala 2. Ambos valores exceden el nivel recomendado del
0,70. Aunque no hay disponible ningún contraste directo para evaluar la validación de la escala
aditiva, se pueden hacer comparaciones con análisis hechos con las variables originales y la
puntuación factorial. La Tabla 3.10 ilustra el uso de las escalas aditivas junto con la puntuación
factorial como sustitutos de las variables originales. Seleccionamos el ejemplo de identificar
diferencias entre respuestas de pequeñas empresas frente a grandes (X8). Las escalas
aditivas muestran los mismos patrones de diferencias entre pequeñas y grandes empresas
tanto en variables Individuales como en la puntuación factorial. Por eso, demuestran cierto
nivel de validación convergente con estas otras medidas.
Los diferentes signos de las cargas del factor 1 apuntan a un aspecto importante al construir
escalas aditivas. Cuando las variables tienen cargas tanto positivas como negativas dentro del
mismo factor, o bien las variables con las cargas positivas o negativas, deben tener los valores
de los datos cambiados. Normalmente, las variables con las cargas negativas tienen la
puntuación factorial cambiada por lo que las correlaciones, y las cargas, están ahora en
positivo dentro del factor. La puntuación inversa es el proceso por el cual se cambian los
valores de los datos de una variable para que las correlaciones con las otras variables cambien
de signo (esto es; pasen de negativo a positivo). Por ejemplo, sobre nuestra escala de O a 10,

podríamos cambiar la puntuación de una variable sustrayendo de 10 el valor original (es decir,
puntuación Inversa = 10 - valor original). De esta forma, las puntuaciones originales de 10 y O
ahora tendrían las puntuaciones inversas de O y 10. Se mantendrían todas las características
de la distribución; sólo que la distribución sería la opuesta.
La finalidad de la puntuación inversa es evitar una «cancelación» de variables con cargas

positivas y negativas. Usemos como ejemplo dos variables con una correlación negativa, V1 y
V2, con V1, teniendo carga positiva y V2 negativa. Esto significa que si 10 el es la puntuación
tope en V1, el tope en V2 sería 0. Supongamos ahora dos casos. En el caso 1, V1, tiene un
valor de 10 y F, de O (el mejor caso). En el caso 2, V1 tiene un valor de 0 y V2 de 10 (el peor
caso). Si a V2 no se le invierte la puntuación, entonces la escala de puntuación calculada
sumando las dos variables para ambos casos 1 y 2 es 10, sin mostrar ninguna diferencia,
mientras que sabemos que el caso 1 es el mejor y el caso 2 el peor. Si invertimos la puntuación
de V2 sin embargo la situación cambia. Ahora el caso 1 tiene valores de 10 y 10 sobre V1 y V2,
respectivamente, y el caso 2 tiene valores de 0 y 0. La puntuación de escala aditiva es ahora
de 20 para el caso 1 y O para el caso 2, que los distingue como la mejor y la peor situación.

TABLA 3.10. Valoración del reemplazo de las variables originales por puntuaciones de
factores o escalas aditivas
Diferencia de media entre grupos de encuestados basada en X8,
Prueba estadística tamaño de empresa
Puntuación de media Prueba - F
Grupo 1: pequeñas Grupo 2: grandes
Medida Ratio F Significación
empresas empresas
Variables originales
X1 Velocidad de entrega 4,19 2,50 64,7 0,000
X2 Nivel de precio 1,95 2,99 22,0 0,000
X3 Flexibilidad de precio 8,62 6,80 70,2 0,000
X4 Imagen del fabricante 5,21 5,30 0,1 0,709
X6 Imagen del personal de ventas 2,69 2,63 0,2 0,674
X7 Calidad de producto 6,09 8,29 86,2 0,000
Puntuaciones de factores
Puntuación de factor 1 -0,640 0,959 159,8 0,000
Puntuación de factor 2 0,052 -0,078 0,41 0,525
Escalas aditivas
Escala 1 3,81 5,49 156,8 0,000
Escala 2 3,95 3,96 0,00 0,957
Correlaciones entre las puntuaciones de factores y las escalas aditivas
Puntuación de factores Escalas aditivasb
1 2 1 2
Puntuación de factor 1 1,000 0,000 0,995 0,075
Puntuación de factor 2 0,000 1,00 0,085 0,985
Escalas aditiva 1 b 0,995 0,085 1,000 0,154
Escalas aditiva 2 b 0,075 0,0985 0,154 1,000
a Tienen cargas de factores negativas.
b Escalas aditivas calculadas como puntuación media a lo largo de los artículos. Por ejemplo, escala 1 es la media de X 1,
X2, X3 y X7.
Nótese: X1 y X3 son de escala inversa, debido a sus cargas de factores negativas.
Uso de las puntuaciones factoriales: En lugar de calcular las escalas aditivas, podríamos
calcular las puntuaciones factoriales para cada uno de los dos factores en nuestro análisis de
componentes principales. De esta forma, cada respuesta contaría con dos nuevas variables
(puntuaciones factoriales para los factores 1 y 2) que podrían sustituir a las seis variables
originales en otras técnicas multivariantes. En el contraste de diferencia de medias entre dos
grupos de respuestas (Tabla 3.9), vemos que todas las variables que cargan alto sobre el
Factor 1 (X1, X2 X3, y X7) son significativamente distintas en las respuestas de pequeñas y
grandes empresas, mientras que las variables que cargan alto sobre el factor 2 (X4 y X6) no

cuentan con diferencias significativas. Las puntuaciones factoriales y las escalas aditivas
deberían mostrar patrones similares si son realmente representativas de las variables. Como
se vio en la Tabla 3.10, las puntuaciones factoriales difieren en concordancia con este patrón.
La puntuación factorial 1 muestra diferencias significativas que la puntuación del factor 2 no
tiene. Se contemplan diferencias similares entre ambos grupos para las escalas aditivas.
Además, estas escalas están altamente correlacionadas con las puntuaciones factoriales. Por
eso, en este ejemplo, tanto las puntuaciones factoriales como las escalas aditivas retratan con
precisión los conceptos que representan.
Selección del método de reducción de los datos: Si las variables originales se van a
reemplazar por las puntuaciones factoriales o las escalas aditivas, se debe decidir su uso. Esta
decisión está basada en la necesidad de réplica en otros estudios (que favorece el uso de
escalas aditivas) frente al deseo de ortogonalidad de las medidas (que favorece las
puntuaciones factoriales). La Tabla 3.10 también contiene la matriz de correlación de las
puntuaciones factoriales y las escalas aditivas. Debido a que empleamos una rotación
ortogonal, la correlación entre las puntuaciones factoriales es de 0,0. Pero las escalas aditivas
pueden estar correlacionadas y en este caso la correlación esa de 0,1545. El investigador
debe averiguar la necesidad de la ortogonalidad frente a la replicabilidad al seleccionar las
puntuaciones factoriales frente a las escalas aditivas.
Análisis factorial común: Pasos cuarto y quinto
El análisis factorial común es el segundo modelo de análisis factorial que presentamos. La

primera distinción entre análisis de componentes principales y análisis factorial común es que
el último considera sólo la varianza común asociada con un conjunto de variables. Este objetivo
se cumple factorizando una matriz de correlación «reducida» con comunalidades iniciales
estimadas en la diagonal en lugar de unidades. Las diferencias entre el análisis de
componentes principales y el análisis factorial común aparecen en las etapas de estimación
de los factores y de interpretación (pasos 4 y 5). Una vez que las comunalidades están en la
diagonal, el modelo factorial común extrae los factores de un modo similar al análisis de
componentes principales. El investigador utiliza los mismos criterios para la selección de los
factores y su interpretación. Para ilustrar las diferencias que pueden aparecer entre análisis
factorial común y de componentes principales, las siguientes secciones detallan la extracción

e interpretación en el análisis factorial común de las seis percepciones HATCO empleadas en

el análisis de componentes principales.
Cuarto paso: Derivación de los factores y valoración del ajuste global
Se ha empleado la matriz de correlaciones «reducidas» con las comunalidades en la diagonal

en el análisis factorial común. Nótese que X5, se omitió del análisis de componentes principales
debido a un valor MSA inaceptable. Si se hubiera incluido en el análisis factorial común, sin
embargo, la comunalidad no se podría haber estimado en la extracción original de factores.
Por eso, el análisis factorial común todavía podría haberse llevado a cabo con seis variables
incluso si X5 no se hubiera eliminado debido al bajo valor MSA.
El primer paso es determinar el número de factores que se mantendrán para su examen y

posible rotación. La Tabla 3.11 muestra las estadísticas de la extracción. Si fuéramos a
emplear el criterio de raíz latente con un valor de corte de 1,0 para el autovalor, se mantendrían
dos factores. Sin embargo, el análisis de caída indica que se retienen tres factores (véase
Figura 3.10). Al combinar estos dos criterios, mantendremos dos factores para el análisis
posterior debido al bajo valor del autovalor para el tercer factor y para mantener la
compatibilidad con el análisis de componentes principales. De nuevo, como en el análisis de
componentes principales examinado previamente, el investigador debería emplear una
combinación de criterios para determinar el número de factores a mantener y podría incluso
examinar la solución de tres factores como una alternativa.
TABLA 3.11. Resultados para la extracción de factores comunes
Factor Autovalor Porcentaje de Porcentaje acumulado de

varianza varianza
1 2,51349 41,9 41,9
2 1,73952 29,0 70,9
3 0,59749 10,0 80,8
4 0,52956 8,8 89,7
5 0,41573 6,9 96,6
6 0,20422 3,4 100,0

La matriz de factores no rotados (Tabla 3.12) muestra que la solución factorial común da cuen-
ta del 58,6 por ciento del total de la varianza. Debido a que el modelo factorial común final
difiere a veces de las estimaciones de extracción iniciales (véase Tabla 3.11), el investigador
debería asegurarse de evaluar las estadísticas de extracción para el modelo factorial común
final. Si el investigador no estuviera satisfecho con la varianza total explicada, podría estimarse
además un modelo de factores comunes que extraiga tres factores. Notemos que las
comunalidades de cada variable son menores a las encontradas en el análisis de componentes
principales. Esto se debe en primer lugar a la menor varianza global explicada, no al
comportamiento de ninguna variable. De nuevo, la exploración del modelo de tres factores
podría ser realizada para incrementar las comunalidades, junto con la varianza general
explicada. Para nuestros propósitos aquí, interpretamos la solución de dos factores.
Quinto paso: Interpretación de los factores
Mediante el examen de las cargas no rotadas, señalamos la necesidad de una rotación de

matriz factorial. Nos centramos entonces en el análisis factorial común rotado VARIMAX (Tabla
3.13). Examinemos corno se compara con la matriz del análisis de componentes de factores
rotados.

FIGURA 3.10. Contraste de caída para la solución del análisis común
TABLA 12. Matriz de factor común sin rotación
Factores
Variables Comunalidades
1 2
X1 Velocidad de entrega 0,485 0,512 0,50
X3 Flexibilidad de precio 0,602 0,401 0,52
Total
Porcentaje de trazo* 34,5 24,1 58,6
La información que proporciona la solución de factores comunes es similar a aquella que

proporciona la solución de análisis de componentes principales. Se proporcionan las sumas
de cuadrados, los porcentajes de varianza, las comunalidades, las sarnas totales de
cuadrados y las varianzas totales extraídas de la misma manera que con la solución del
análisis de componentes principales.
Una comparación de la información proporcionada en la matriz de análisis factorial común de

factores y la matriz del análisis de componente de factores rotados demuestra una similitud
notable. Las diferencias principales entre el análisis de componentes principales y el análisis
factorial común son las cargas generalmente más bajas en el análisis factorial común,
principalmente debido a las varianzas compartidas más bajas de las variables utilizadas en el

análisis factorial común. Otra comparación que podría ser de utilidad para el investigador es
el porcentaje de la varianza total indicado por cada factor. En el análisis de componentes
principales (Tabla 7), los dos factores con rotación tenían una diferencia de un 8 por ciento
(39,5 por ciento frente a 31,4 por ciento, respectivamente). En los resultados de factor común
(Tabla 13), la de la rotación «dispersa» para los dos factores es casi igual en la varianza
indicada (31,0 por ciento para el factor 1 y 27,6 por ciento para el factor 2). Sin embargo,
incluso con estas diferencias tan ligeras en la varianza indicada, las pautas de las cargas y las
interpretaciones básicas son idénticas entre el análisis de componentes principales y el
análisis factorial común.
TABLA 13. VARIMAX matriz de factor común con rotación
Cargas con rotación

Variables VARIMAX Comunalidades
Factor 1 Factor 2
Total
Porcentaje de trazo* 31,0 27,6 58,6
Una consideración gerencial de los resultados
Tanto el análisis de componentes principales como el análisis factorial común proporcionan al

investigador varías ideas claves acerca de la estructura de las variables y las opciones para la
reducción de datos. En primer lugar, con relación a la estructura de las variables, existen
claramente dos dimensiones de valoración separadas y destacadas utilizadas por los clientes
de HATCO. Una dimensión, denominada el valor básico, se refiere a los aspectos tangibles
del HATCO y sus productos. Dentro de esta dimensión existe una concesión entre el precio
del producto y la calidad frente a las características de la velocidad de entrega y la flexibilidad
de precios. La segunda dimensión, la imagen de HATCO, se refiere a las percepciones de
imagen del fabricante y su personal de ventas.

Los planificadores empresariales dentro de HATCO pueden debatir planes a partir de estas
dos áreas en vez de tener que tratar con las variables por separado,
El análisis factorial también proporciona la base para la reducción de datos mediante las
escalas aditivas o las puntuaciones de factores. El investigador tiene ahora un método para
combinar las variables dentro de cada factor y con una puntuación única que puede reemplazar
la serie de variables original con dos variables compuestas nuevas. Cuando se buscan
diferencias, tales como aquellas que existen entre las empresas grandes y pequeñas, estas
nuevas variables compuestas pueden ser utilizadas para que sólo se analicen las diferencias
en dos valores, el valor básico e imagen.

REFERENCIAS BIBLIOGRÁFICAS
1. Gutierrez, Hugo A. (2009). Estrategias de Muestreo. Diseño de encuestas y estimación de
parámetros. Ed. Universidad santo Tomás. Bogotá.
2. Hair, Anderson, Tatham y Black. (1999). Análisis Multivariante. Ed. Pearson – Prentice Hall.
España.
3. Pérez, César (2000): Técnicas de Muestreo Estadístico. Teoría, práctica y aplicaciones informáticas.
Ed. Alfaomega. México.
4. Rodríguez Osuna, J. (1991). Métodos de muestreo. Madrid: Centro de Investigaciones Sociológicas.
5. Sharon L. Lohr. (2000). Muestreo: Diseño y Análisis. Ed. Thomson. México.
6. Bautista, Nelly Patricia. (2011). Proceso de la Investigación Cualitativa. Ed. El Manual Moderno.
Bogotá.
7. Box, G., Hunter, W. G., y Hunter, J. S. (1989). Estadística para investigadores. Barcelona: Reverté.
8. Glass, G.V. y Stanley, J.C. (1980). Métodos estadísticos aplicados a las ciencias sociales. Barcelona:
Editorial Prentice/Hall Internacional.
9. Gutierrez, Hugo A. (2009). Estrategias de Muestreo. Diseño de encuestas y estimación de

parámetros. Ed. Universidad santo Tomás. Bogotá.
10. Hair, Anderson, Tatham y Black. (1999). Análisis Multivariante. Ed. Pearson – Prentice Hall.
España.
11. Hurtado S. Manuel,(2011). Estadística para Ingeniería y Ciencias. Edit. UNPRG – Lambayeque, Perú
12. Peña, D. (1987). Estadística. Modelos y métodos. 1. Fundamentos. Madrid: Alianza Editorial.
13. Pérez, César (2000): Técnicas de Muestreo Estadístico. Teoría, práctica y aplicaciones informáticas.
Ed. Alfaomega. México.
14. Rodríguez Osuna, J. (1991). Métodos de muestreo. Madrid: Centro de Investigaciones Sociológicas.
15. Sharon L. Lohr. (2000). Muestreo: Diseño y Análisis. Ed. Thomson. México.
16. Tejedor, F. J. (1988). El soporte estadístico en la investigación educativa. En Dendaluce,

Estadística para La Inv. Científica

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Estadística para La Inv. Científica

Diunggah oleh

Hak Cipta:

Format Tersedia

1

ESTADÍSTICA PARA LA INVESTIGACIÓN II

Docente: Manuel Hurtado Sánchez, Lic. Estad. MsC.

Chimbote, Septiembre del 2018

El presente trabajo titulado Estadística para la investigación II tiene como

Introducción a la Estadística Inferencial

La inferencia estadística o Estadística Inferencial es una parte de la Estadística que

Esta asignatura comprende la teoría de estimación tanto puntual como por

Para comprender la estadística inferencial se requiere conocer por lo menos el

I. UNIDAD: DISTRIBUCIONES DE PROBABILIDAD

La función de Probabilidad, que para el caso de variables discretas, toman el

1.2. Función de Probabilidades

Como ejemplo consideremos el experimento aleatorio de lanzar cuatro monedas

Número de repeticiones= Número de monedas lanzadas o en forma equivalente

Se puede verificar que:

A menudo, la distribución de probabilidades de X se suele representar por el

Si lo escribimos en una tabla, debemos tener:

Número de caras Probabilidad

Los resultados de un experimento real de lanzamientos de 4 monedas pueden

Resultado del lanzamiento de 4 monedas 160 veces

Conocida la función de cuantía de una variable aleatoria x , podemos dar

La probabilidad de que el número de caras sea inferior a 3 es

La probabilidad de que el número de caras esté entre 1 y 3, ambos inclusive

Supongamos que deseamos calcular la probabilidad condicional de que un

Sea B el suceso “aparecen menos de cuatro caras”; esto es,

Deseamos calcula P(A/B). Por definición de probabilidad condicional,

La interpretación frecuencial es la siguiente: Supongamos que cuatro monedas

1.3. Valor esperado: 𝑬(𝑿) = 𝝁

El valor esperado de una variable aleatoria se define como un número real al

𝑉(𝑥) = 𝜎 = 𝐸(𝑥 − 𝜇) = ∑(𝑥𝑖 − 𝜇)2 . 𝑝(𝑥)

Para el ejemplo de la variable X = N° de caras al lanzar tres monedas legales,

i. Solo admite dos resultados posibles, el suceso E = Éxito y el suceso F = Fracaso

Definimos la variable de Bernoulli x como

Y su función de cuantía será:

Con lo cual es fácil notar que el valor esperado de esta variable es E ( xi )  p y

Si el experimento  se puede repetir n–veces, (n ≥ 2) y definimos la variable

X = Número de éxitos en las n-repeticiones del experimento de Bernoulli  .

Rango de la variable X: RX  0, 1, 2, 3, .... , n

Esta distribución se suele denotar como: X ~ B(n, p) donde n y p son conocidos

Valor esperado: 𝐸(𝑋) = 𝑛𝑝

La varianza: 𝑉(𝑋) = 𝑛𝑝𝑞, 𝑑𝑜𝑛𝑑𝑒 𝑞 = 1 − 𝑝

P(X = x) P(X = x) P(X = x)

El experimento de Bernoulli básico es  = Lanzar una moneda legal, en donde los

Con P(C) = P(X=1) = 0.5 = p y P(S) = P(X=0) = 0.5 = 1 - p

Como el experimento aleatorio  se repite n = 3 veces, entonces el espacio

muestral completo de los 3 lanzamientos de la moneda debe ser:

  ccc, ccs, csc,scc, css, scs, ssc, sss  c, s

de esta variable será: RX  0, 1, 2, 3

La función de cuantía es:

Rango de la variable X: RX  0, 1, 2, 3

Esta función de cuantía genera las siguientes probabilidades:

Ejemplo 2:Una Agencia de Turismo, informa que un puente elevadizo en

a. Esta situación se adapta al modelo Binomial de probabilidades?. Explique por qué.

f. Determine el valor esperado y desviación estándar del número de días en que

a). El experimento de Bernoulli básico es  = Transitar en auto una vez al día en la

1 : Puente elevado (Éxito=E)

Con P(E) = P(X=1) = 0.2 = p y P(F) = P(X=0) = 0.8 = 1 – p = q

Como el experimento aleatorio  se repite siete veces, el espacio muestral

Entonces la variable aleatoria X = Número de días a la semana que encuentra el auto

rango de esta variable será: RX  0, 1, . . . , 7

Rango de la variable X: RX  0, 1, . . . , 7

f) E(x) = n.p = 7 x 0.2 = 1.4 veces

DE( x)  npq  7  0.2  0.8  1.12  1.0583