H
1
; < 50 cm/s H
1
; > 50 cm/s
Es importante recordar que las hiptesis siempre son proposiciones sobre la
poblacin o distribucin bajo estudio, no proposiciones sobre la muestra. Por lo
general, el valor del parmetro de la poblacin especificado en la hiptesis nula se
determina en una de tres maneras diferentes:
1. Puede ser resultado de la experiencia pasada o del conocimiento del proceso,
entonces el objetivo de la prueba de hiptesis usualmente es determinar si ha
cambiado el valor del parmetro.
2. Puede obtenerse a partir de alguna teora o modelo que se relaciona con el
proceso bajo estudio. En este caso, el objetivo de la prueba de hiptesis es
verificar la teora o modelo.
3. Cuando el valor del parmetro proviene de consideraciones externas, tales como
las especificaciones de diseo o ingeniera, o de obligaciones contractuales. En
esta situacin, el objetivo usual de la prueba de hiptesis es probar el
cumplimiento de las especificaciones.
Un procedimiento que conduce a una decisin sobre una hiptesis en particular
recibe el nombre de prueba de hiptesis. Los procedimientos de prueba de hiptesis
dependen del empleo de la informacin contenida en la muestra aleatoria de la
poblacin de inters. Si esta informacin es consistente con la hiptesis, se concluye
que sta es verdadera; sin embargo si esta informacin es inconsistente con la hiptesis,
se concluye que esta es falsa. Debe hacerse hincapi en que la verdad o falsedad de una
hiptesis en particular nunca puede conocerse con certidumbre, a menos que pueda
examinarse a toda la poblacin. Usualmente esto es imposible en muchas situaciones
prcticas. Por tanto, es necesario desarrollar un procedimiento de prueba de hiptesis
teniendo en cuenta la probabilidad de llegar a una conclusin equivocada.
La hiptesis nula, representada por H
o
, es la afirmacin sobre una o ms
caractersticas de poblaciones que al inicio se supone cierta (es decir, la "creencia a
priori").
La hiptesis alternativa, representada por H
1
, es la afirmacin contradictoria a
H
o
, y sta es la hiptesis del investigador.
La hiptesis nula se rechaza en favor de la hiptesis alternativa, slo si la
evidencia muestral sugiere que H
o
es falsa. Si la muestra no contradice decididamente
a H
o
, se contina creyendo en la validez de la hiptesis nula. Entonces, las dos
conclusiones posibles de un anlisis por prueba de hiptesis son rechazar H
o
o no
rechazar H
o
.
3.2 Elementos de una prueba estadstica
Prueba de una Hiptesis Estadstica
Para ilustrar los conceptos generales, considere el problema de la rapidez de
combustin del agente propulsor presentado con anterioridad. La hiptesis nula es que
la rapidez promedio de combustin es 50 cm/s, mientras que la hiptesis alternativa es
que sta no es igual a 50 cm/s. Esto es, se desea probar:
H
o
; = 50 cm/s
H
1
; 50 cm/s
Supngase que se realiza una prueba sobre una muestra de 10 especmenes, y
que se observa cual es la rapidez de combustin promedio muestral. La media muestral
es un estimador de la media verdadera de la poblacin. Un valor de la media muestral
que este prximo al valor hipottico = 50 cm/s es una evidencia de que el
verdadero valor de la media es realmente 50 cm/s; esto es, tal evidencia apoya la
hiptesis nula H
o
. Por otra parte, una media muestral muy diferente de 50 cm/s
constituye una evidencia que apoya la hiptesis alternativa H
1
. Por tanto, en este caso,
la media muestral es el estadstico de prueba.
La media muestral puede tomar muchos valores diferentes. Supngase que si
48.5 51.5, entonces no se rechaza la hiptesis nula H
o
; = 50 cm/s, y que si
<48.5 >51.5, entonces se acepta la hiptesis alternativa H
1
; 50 cm/s.
Los valores de que son menores que 48.5 o mayores que 51.5 constituyen la
regin crtica de la prueba, mientras que todos los valores que estn en el intervalo
48.5 51.5 forman la regin de aceptacin. Las fronteras entre las regiones crtica y
de aceptacin reciben el nombre de valores crticos. La costumbre es establecer
conclusiones con respecto a la hiptesis nula H
o
. Por tanto, se rechaza H
o
en favor de
H
1
si el estadstico de prueba cae en la regin crtica, de lo contrario, no se rechaza H
o
.
Este procedimiento de decisin puede conducir a una de dos conclusiones
errneas. Por ejemplo, es posible que el valor verdadero de la rapidez promedio de
combustin del agente propulsor sea igual a 50 cm/s. Sin embargo, para todos los
especmenes bajo prueba, bien puede observarse un valor del estadstico de prueba
que cae en la regin crtica. En este caso, la hiptesis nula H
o
ser rechazada en favor
de la alternativa H
1
cuando, de hecho, H
o
en realidad es verdadera. Este tipo de
conclusin equivocada se conoce como error tipo I.
3.3 Error tipo I y error tipo II
El error tipo I se define como el rechazo de la hiptesis nula H
o
cuando sta es
verdadera. Tambin es conocido como nivel de significancia.
Si tuviramos un nivel de confianza del 95% entonces el nivel de significancia sera del
5%. Anlogamente si se tiene un nivel de confianza del 90% entonces el nivel de
significancia sera del 10%.
Ahora supngase que la verdadera rapidez promedio de combustin es diferente
de 50 cm/s, aunque la media muestral caiga dentro de la regin de aceptacin. En
este caso se acepta H
o
cuando sta es falsa. Este tipo de conclusin recibe el nombre de
error tipo II.
El error tipo II error se define como la aceptacin de la hiptesis nula
cuando sta es falsa.
Por tanto, al probar cualquier hiptesis estadstica, existen cuatro situaciones diferentes
que determinan si la decisin final es correcta o errnea.
Decisin H
o
es verdadera H
o
es falsa
Aceptar H
o
No hay error
Error tipo II
Rechazar H
o
Error tipo I No hay error
1. Los errores tipo I y tipo II estn relacionados. Una disminucin en la probabilidad
de uno por lo general tiene como resultado un aumento en la probabilidad del
otro.
2. El tamao de la regin crtica, y por tanto la probabilidad de cometer un error
tipo I, siempre se puede reducir al ajustar el o los valores crticos.
3. Un aumento en el tamao muestral n reducir y de forma simultnea.
4. Si la hiptesis nula es falsa, es un mximo cuando el valor real del parmetro
se aproxima al hipottico. Entre ms grande sea la distancia entre el valor real y
el valor hipottico, ser menor
.
PASOS PARA ESTABLECER UN ENSAYO DE HIPOTESIS
INDEPENDIENTEMENTE DE LA DISTRIBUCION QUE SE ESTE TRATANDO
1. Interpretar correctamente hacia que distribucin muestral se ajustan los datos del
enunciado.
2. Interpretar correctamente los datos del enunciado diferenciando los parmetros
de los estadsticos. As mismo se debe determinar en este punto informacin
implcita como el tipo de muestreo y si la poblacin es finita o infinita.
3. Establecer simultneamente el ensayo de hiptesis y el planteamiento grfico del
problema. El ensayo de hiptesis est en funcin de parmetros ya que se quiere
evaluar el universo de donde proviene la muestra. En este punto se determina el
tipo de ensayo (unilateral o bilateral).
4. Establecer la regla de decisin. Esta se puede establecer en funcin del valor
crtico, el cual se obtiene dependiendo del valor de (Error tipo I o nivel de
significancia) o en funcin del estadstico lmite de la distribucin muestral. Cada
una de las hiptesis deber ser argumentada correctamente para tomar la
decisin, la cual estar en funcin de la hiptesis nula o H
o
.
5. Calcular el estadstico real, y situarlo para tomar la decisin.
6. Justificar la toma de decisin y concluir.
UNIDAD IV
REGRESIN LINEAL SIMPLE
4.1 Diagrama de dispersin
En las distribuciones bidimensionales a cada individuo le corresponden los
valores de dos variables, las representamos por el par (x
i
, y
i
).
Si representamos cada par de valores como las coordenadas de un punto, el
conjunto de todos ellos se llama nube de puntos o diagrama de dispersin.
Sobre la nube de puntos puede trazarse una recta que se ajuste a ellos lo mejor
posible, llamada recta de regresin.
Ejemplo
Las notas de 12 alumnos de una clase en Matemticas y Fsica son las siguientes:
Matemticas 2 3 4 4 5 6 6 7 7 8 10 10
Fsica 1 3 2 4 4 4 6 4 6 7 9 10
Diagrama de dispersin
1 Correlacin directa
La recta correspondiente a la nube de puntos de la distribucin es una recta creciente.
2 Correlacin inversa
La recta correspondiente a la nube de puntos de la distribucin es una recta
decreciente.
3 Correlacin nula
En este caso se dice que las variables son incorreladas y la nube de puntos tiene una
forma redondeada.
Grado de correlacin
El grado de correlacin indica la proximidad que hay entre los puntos de la nube de
puntos. Se pueden dar tres tipos:
1. Correlacin fuerte
La correlacin ser fuerte cuanto ms cerca estn los puntos de la recta.
2. Correlacin dbil
La correlacin ser dbil cuanto ms separados estn los puntos de la recta.
3. Correlacin nula
4.2 Recta de regresin
La recta de regresin es la que mejor se ajusta a la nube de puntos.
La recta de regresin pasa por el punto llamado centro de gravedad.
Recta de regresin de Y sobre X
La recta de regresin de Y sobre X se utiliza para estimar los valores de la Y a partir de
los de la X.
La pendiente de la recta es el cociente entre la covarianza y la varianza de la variable
X.
Recta de regresin de X sobre Y
La recta de regresin de X sobre Y se utiliza para estimar los valores de la X a partir de
los de la Y.
La pendiente de la recta es el cociente entre la covarianza y la varianza de la variable
Y.
Si la correlacin es nula, r = 0, las rectas de regresin son perpendiculares entre s, y
sus eucaciones son:
y =
x =
Ejemplo
Las notas de 12 alumnos de una clase en Matemticas y Fsica son las siguientes:
Matemticas 2 3 4 4 5 6 6 7 7 8 10 10
Fsica 1 3 2 4 4 4 6 4 6 7 9 10
Hallar las rectas de regresin y representarlas.
x
i
y
i
x
i
y
i
x
i
2
y
i
2
2 1 2 4 1
3 3 9 9 9
4 2 8 16 4
4 4 16 16 16
5 4 20 25 16
6 4 24 36 16
6 6 36 36 36
7 4 28 49 16
7 6 42 49 36
8 7 56 64 49
10 9 90 100 81
10 10 100 100 100
72 60 431 504 380
1 Hallamos las medias arimticas.
2 Calculamos la covarianza.
3 Calculamos las varianzas.
4Recta de regresin de Y sobre X.
4Recta de regresin de X sobre Y.
4.3 El mtodo de mnimos cuadrados
Este mtodo exige que la diferencia entre el valor observado (Y i ) y el valor
estimado (Y i ) sea mnima, es decir, que el error sea mnimo. Ya que:
Los coeficientes de regresin ( y ) son los que hacen que estos errores sean
mnimos, por lo tanto, se deben hallar las expresiones que permitan estimar los
coeficientes de regresin minimizando los errores. Al considerar los n valores de las
variables, es necesario que:
Para encontrar un mnimo, se requiere que las dos primeras derivadas sean mayores
que cero. Se deriva S parcialmente respecto a y .
Derivando respecto a 0:
La ecuacin (1) se iguala a cero y se obtiene:
Derivando respecto a 1:
La ecuacin (3) se iguala a cero y se obtiene:
Las segundas derivadas no dependen de los estimadores 0 y 1 y adems dichas
ecuaciones son siempre positivas, lo que garantiza que los valores encontrados al
resolver las ecuaciones (2) y (4), denominadas ecuaciones normales cumplen con
lo exigido por el mtodo de los mnimos cuadrados.
Dividiendo la ecuacin (2) por n se obtiene:
Dividiendo la ecuacin (4) por n se obtiene:
Reemplazando 0 por su equivalente:
Factorizando 1:
Las ecuaciones (5) y (6) permiten estimar los coeficientes de regresin de la
ecuacin:
Adems de que y estimados con las ecuaciones (5) y (6), minimizan la suma de
cuadrados de los residuos; 0 y 1son estimadores insesgados de y . Es decir
que:
4.4 Coeficiente de correlacin
El coeficiente de correlacin lineal es el cociente entre la covarianza y el producto de
las desviaciones tpicas de ambas variables.
El coeficiente de correlacin lineal se expresa mediante la letra r.
Propiedades del coeficiente de correlacin
1. El coeficiente de correlacin no vara al hacerlo la escala de medicin.
Es decir, si expresamos la altura en metros o en centmetros el coeficiente de
correlacin no vara.
2. El signo del coeficiente de correlacin es el mismo que el de la covarianza.
Si la covarianza es positiva, la correlacin es directa.
Si la covarianza es negativa, la correlacin es inversa.
Si la covarianza es nula, no existe correlacin.
3. El coeficiente de correlacin lineal es un nmero real comprendido entre 1 y 1.
1 r 1
4. Si el coeficiente de correlacin lineal toma valores cercanos a 1 la correlacin es
fuerte e inversa, y ser tanto ms fuerte cuanto ms se aproxime r a 1.
5. Si el coeficiente de correlacin lineal toma valores cercanos a 1 la correlacin es
fuerte y directa, y ser tanto ms fuerte cuanto ms se aproxime r a 1.
6. Si el coeficiente de correlacin lineal toma valores cercanos a 0, la correlacin es
dbil.
7. Si r = 1 1, los puntos de la nube estn sobre la recta creciente o decreciente.
Entre ambas variables hay dependencia funcional.
Ejemplos
Las notas de 12 alumnos de una clase en Matemticas y Fsica son las siguientes:
Matemticas 2 3 4 4 5 6 6 7 7 8 10 10
Fsica 1 3 2 4 4 4 6 4 6 7 9 10
Hallar el coeficiente de correlacin de la distribucin e interpretarlo.
x
i
y
i
x
i
y
i
x
i
2
y
i
2
2 1 2 4 1
3 3 9 9 9
4 2 8 16 4
4 4 16 16 16
5 4 20 25 16
6 4 24 36 16
6 6 36 36 36
7 4 28 49 16
7 6 42 49 36
8 7 56 64 49
10 9 90 100 81
10 10 100 100 100
72 60 431 504 380
1 Hallamos las medias aritmticas.
2 Calculamos la covarianza.
3 Calculamos las desviaciones tpicas.
4 Aplicamos la frmula del coeficiente de correlacin lineal.
Al ser el coeficiente de correlacin positivo, la correlacin es directa.
Como coeficiente de correlacin est muy prximo a 1 la correlacin es muy fuerte.
Los valores de dos variables X e Y se distribuyen segn la tabla siguiente:
Y/X 0 2 4
1 2 1 3
2 1 4 2
3 2 5 0
Determinar el coeficiente de correlacin.
Convertimos la tabla de doble entrada en tabla simple.
x
i
y
i
f
i
x
i
f
i
x
i
2
f
i
y
i
f
i
y
i
2
f
i
x
i
y
i
f
i
0 1 2 0 0 2 2 0
0 2 1 0 0 2 4 0
0 3 2 0 0 6 18 0
2 1 1 2 4 1 1 2
2 2 4 8 16 8 16 16
2 3 5 10 20 15 45 30
4 1 3 12 48 3 3 12
4 2 2 8 32 4 8 16
20 40 120 41 97 76
Al ser el coeficiente de correlacin negativo, la correlacin es inversa.
Como coeficiente de correlacin est muy prximo a 0 la correlacin es muy dbil.
4.5 Coeficiente de determinacin ()2R
El objetivo principal del anlisis de regresin es proyectar el valor de la variable
dependiente conociendo o suponiendo valores para la variable independiente. La
confiabilidad de las proyecciones est dada por la confiabilidad de la ecuacin, la cual
se mide a travs del coeficiente de determinacin y de los errores de los coeficientes de
regresin. El coeficiente de determinacin (R
2
) nos dice qu tanto se ajusta la lnea de
regresin a los datos.
Figura 4.2 Descomposicin de la variacin de Y
Para deducir este coeficiente se tiene en cuenta la figura 4.2 en donde se tiene la
ecuacin ajustada a unos datos. Para un valor dado de X se ha tomado el
correspondiente valor de Y. La distancia que hay entre el valor observado y la media
, puede descomponerse en dos partes que son: la distancia entre el valor
observado y el estimado con la ecuacin de regresin y la distancia entre el
valor estimado y el promedio , es decir:
Siendo:
: Distancia Total.
: Distancia de una observacin a la regresin o residuo
: Distancia de la lnea de regresin a la media o distancia de la regresin
Como se tienen n observaciones, para cada caso se presenta la misma situacin, por lo
tanto se toma la suma de estas distancias al cuadrado:
En el anexo B se presenta la demostracin de que:
Es decir: SCT = SCR + SCE (4.4)
Lo cual indica que la SCT puede descomponerse en dos partes, una describe la
variacin de los residuos (SCR) y representa aquella parte de la SCT que no ha sido
explicada por la ayuda de X y la otra parte describe los valores ajustados de Y, es decir,
representa aquella porcin de la SCT que ha sido explicada por la regresin de Y sobre
X.
Dividiendo la ecuacin 4.4 por SCT se obtiene:
El segundo trmino es el coeficiente de determinacin, as que:
Donde:
Como puede observarse, el coeficiente de determinacin es la proporcin de la
variable dependiente explicada por la variable independiente y por lo tanto est entre 0
y 1. Es decir: 0 R 2 1.
A medida que el R 2 se acerca a 1, la ecuacin de regresin es ms confiable, ya
que de la expresin 4.5 se deduce que la SCR tiende a cero y entre ms cercano est el
R 2 de cero, la ecuacin es menos confiable ya que la SCE tiende a cero.
Una medida estrechamente relacionada a R 2 pero conceptualmente diferente es
el coeficiente de correlacin (R) que es una medida del grado de asociacin entre dos
variables. Puede calcularse como:
Donde: S
x
y S
y
son las desviaciones estndar de X y Y respectivamente.
A continuacin se presentan algunas propiedades del coeficiente de correlacin (R):
- -1 R 1
- El signo de R depende del signo de la covarianza o de la pendiente ( )
- R es de naturaleza simtrica; lo anterior implica que el coeficiente de correlacin
entre X y Y (R
xy
) es igual al coeficiente de correlacin entre Y y X (R
xy
).
- Si X y Y son estadsticamente independientes, el coeficiente de correlacin entre ellos
es cero, pero si R=0, no se puede inferir que las dos variables sean independientes. En
otras palabras, una correlacin igual a cero no implica necesariamente independencia.
- Es una medida de asociacin lineal o dependencia lineal nicamente; por
consiguiente no tiene sentido, utilizarlo para describir relaciones no lineales.
En el contexto del anlisis de regresin, R
2
es una medida ms significativa que
R, debido a que el primero muestra la proporcin de la varianza en la variable
dependiente explicada por la(s) variable(s) explicativa(s) y, por tanto, proporciona una
medida global de la magnitud del efecto que ejerce la variacin existente en una
variable sobre la variabilidad de la otra. De otro lado R no nos permite realizar
inferencias de este gnero. Adems, la interpretacin de R en un modelo de regresin
mltiple es de un valor dudoso"
1
El coeficiente de determinacin (R
2
) es til para evaluar la ecuacin de regresin
integralmente, pero es necesario evaluar la confiabilidad de cada uno de los
coeficientes de regresin, lo cual se hace con los errores de estos coeficientes y ms
especficamente con las pruebas de hiptesis para cada uno de ellos.
4.6 Anlisis de residuos
El anlisis de los residuos es bsico para chequear si se verifican las hiptesis del
modelo de regresin. Por ello, a continuacin se exponen las propiedades matemticas
de los mismos. Considrese el modelo de regresin lineal mltiple
Los residuos mnimo-cuadrticos vienen dados por
o en forma matricial
Como = H , siendo H = X
-1
X
t
la matriz de proyeccin ortogonal. Es fcil
probar que la matriz H es idempotente y simtrica . En base a esto
= - = -H = =
= X + -HX -H = ,
donde se utiliz que HX = X. Se calcula la matriz de varianzas de los residuos,
Por tanto, e
i
es una variable aleatoria con distribucin
donde h
ii
es el valor de influencia de
i.
que mide la distancia estadstica de
i.
a .
Un residuo grande indica que la observacin est lejos del modelo estimado y, por
tanto, la prediccin de esta observacin es mala. Las observaciones con residuos
grandes se denominan observaciones atpicas o heterogneas (outliers).
Como los residuos tienen varianza variable y son dimensionados (tienen las unidades
de la variable Y ), normalmente se tipifican
los residuos tipificados siguen una distribucin normal estndar, pero como
2
es
desconocido, se sustituye por su estimador, la varianza residual
R
2
y se obtienen los
residuos estandarizados, definidos como
Por la hiptesis de normalidad los residuos estandarizados siguen una distribucin t
con n- grados de libertad. Como ya se indic en el estudio del modelo de
regresin lineal simple, en el cluco de r
i
existe el problema de que hay una relacin de
dependencia entre el numerador y el denominador de r
i
. Para evitar sto, con mayor
esfuerzo computacional, se calcula para cada i, i = 1,...,n, el estimador
R,
, la
varianza residual del modelo de regresin obtenido a partir de la muestra en la que se
ha eliminado la observacin . Ahora se definen los residuos estudentizados como
Los residuos estudentizados siguen una distribucin t con - grados de
libertad. Si el tamao muestral es grande, los residuos estandarizados y los
estudentizados son casi iguales y muy informativos, pudindose considerar grandes los
residuos estandarizados tales que > 2.
Con los residuos estandarizados o estudentizados se pueden construir los siguientes
grficos de inters, muchos de los cuales ya han sido comentados,
El grfico de dispersin matricial, de todas las variables del modelo (respuesta y
regresoras). En el estudio de un modelo de regresin lineal mltiple es el primer
grfico que se debe observar. Proporciona una primera idea de la existencia de
relacin lineal o de otro tipo entre la respuesta y las regresoras y tambin da una
idea de posibles relaciones lineales entre las variables regresoras, lo que crea
problemas de multicolinealidad.
El grfico de dispersin matricial para los datos del Ejemplo 7.1. se
representa en la Figura 9.2.
Figura 9.2. Grfico matricial con los datos del Ejemplo 7.1.
El histograma de los residuos, que sirve para observar la existencia de
normalidad, simetra y detectar observaciones atpicas.
El grfico probabilstico de normalidad (p-p y q -q) y el grfico de simetra, que
permite contrastar la normalidad (simetra) de la distribucin de los residuos.
El grfico de residuos frente a las predicciones , que permite detectar
diferentes problemas:
Heterocedasticidad, la varianza no es constante y se deben de transformar
los datos (la variable Y ) o aplicar mnimos cuadrados ponderados.
Error en el anlisis, se ha realizado mal el ajuste y se verifica que los
residuos negativos se corresponden con los valores pequeos
i
y los errores
positivos se corresponden con los valores grandes de
i
, o al revs.
El modelo es inadecuado por falta de linealidad y se deben de transformar
los datos o introducir nuevas variables que pueden ser cuadrados de las
existentes o productos de las mismas. O bien se deben introducir nuevas
variables explicativas.
Existencia de observaciones atpicas o puntos extremos.
Tener en cuenta que se debe utilizar el grfico de residuos frente a las
predicciones en lugar del grfico de residuos frente a las
observaciones porque las variables e estn correladas, mientras que
las variables e no lo estn.
El grfico de residuos frente a una variable explicativa , permite deducir si
la existencia de heterocedasticidad o la falta de linealidad en el modelo son
debidas a la variable explicativa representada.
Grficos de este tipo son los representados en las Figuras 9.3 y 9.4. En la primera
de ellas se observa que la relacin con la variable x
j
no es lineal y, probablemente,
un ajuste cuadrtico sea adecuado, tambin se tendran dudas acerca de la
homocedasticidad del modelo.
Figura 9.3. Grfico de residuos frente a variable regresora. Ajuste no lineal.
En la Figura 9.3 se observa que el modelo es heterocedstico y la causa de este
problema puede ser la variable explicativa x
j
. Por ello, la solucin se basa en
transformar el modelo teniendo en cuenta este hecho.
Figura 9.4. Grfico de residuos frente a variable regresora. Heterocedasticidad.
El grfico de residuos frente a una variable omitida, permite valorar
si esta variable influye en el modelo y por lo tanto se debe incluir como una
nueva variable regresora.
En la Figura 9.5. de residuos frente a una variable omitida se observa
que existe una relacin lineal con esta variable y por tanto se mejora el
ajuste si se incluye la variable x
omit
.
Figura 9.5. Grfico de residuos frente a variable omitida.
Un situacin frecuente se produce cuando se tienen observaciones de diferentes
poblaciones y se debe de incluir una variable de clasificacin en el
modelo de regresin.
sto se puede observar en el grfico de residuos frente a predicciones
como se puede ver en la Figura 9.6.
Figura 9.6. Necesidad de una variable de clasificacin.
El grfico de los residuos frente a la variable de clasificacin omitida se
presenta en la Figura 9.7.
Figura 9.7. Residuos frente a variable de clasificacin omitida.
El grfico parcial de residuos, es til para valorar la influencia real de
una variable regresora, esto es, conocer la informacin nueva que aporta
la variable regresora en estudio y que no aportan las otras variables regresoras.
Segn el paquete estadstico que se utilice los grficos parciales de residuos
se pueden construir de diferentes formas.
Tipo 1.
Si se tienen k variables regresoras y se desea obtener el g
rfico parcial de residuos respecto a la variable x
k
, se procede de la siguiente forma:
1. se calcula el modelo de regresin respecto a las restantes
variables regresoras,
2. Se calculan los residuos
que representan la parte de Y no explicada por las variables x
1
,x
2
,...,x
k-1
.
3. Por tanto, la grfica de los residuos parciales e
k
*
frente a la variable x
k
4. permite valorar la importancia real de esta variable.
Tipo 2.
Un grfico muy parecido y ms fcil de calcular se obtiene de la siguiente forma.
Calcular
k
*
= +
k k
= +
k k
= -
Se obtiene un nuevo grfico parcial representando los residuos parciales
k
*
frente a la variable x
k
.
Si la variable x
k
es ortogonal a las restantes variables explicativas
los estimadores
i
*
y
i
, i = 1,...,k - 1, sern muy prximos y, por tanto,
tambin lo son los vectores e
k
*
y
k
*
. Lo que hace que los dos grficos
de residuos parciales sean casi iguales en este caso.
Grficos parciales son representados en las Figuras 9.8 y 9.9. E
n ambos casos se observa que existe una relacin lineal entre las variables
regresoras y la variable de inters.
Figura 9.8. Grfico parcial con los datos del Ejemplo 7.1. (altura)
Figura 9.9. Grfico parcial con los datos del Ejemplo 7.1. (dimetro)
Tipo 3.
Otro grfico parcial de inters que proporcionan algunos paquetes estadsticos
es el siguiente (se quiere calcular el grfico parcial respecto a x
k
):
Se calculan los modelos de regresin de las variables Y y x
k
respecto a
las restantes variables regresoras,
Ahora se representa el grfico de residuos de e
k
*
frente a los residuos e
,k
.
Esto es, el grfico de los pares . Este grfico da una idea de la relacin
entre la variable Y y la variable x
k
una vez que se ha eliminado la influencia
de las otras variables regresoras.
Utilizando los datos del ejemplo 7.1. se obtienen los siguientes grficos parciales:
Figura 9.10. Grfico parcial respecto a altura.
Figura 9.11. Grfico parcial respecto a dimetro.
El grfico de residuos frente al ndice (tiempo = i), proporciona informacin
acerca de la hiptesis de independencia de los residuos. En este grfico se
pueden observar algunas caractersticas que indican falta de independencia,
tales como una correlacin positiva o negativa, la existencia de tendencias,
saltos estructurales, rachas,....,etc.
En este grfico tambin se puede observar si existe una relacin lineal con
el ndice y ste debe de incluirse en el modelo de regresin como variable explicativa.
Como ya se indic anteriormente al realizar estos grficos, una alta variabilidad
en los residuos (
2
grande) puede esconder una pauta de comportamiento de los
mismos y, en este caso, es conveniente filtrar o suavizar los residuos utilizando la
tcnica de medias mviles o medianas mviles u otro anlogo. Asi el filtro de
medianas mviles de orden tres a partir de los residuos originales
t = 1
n
genera
una nueva sucesin de residuos
t = 2
n - 1
ms suave.
para t = 2,...,n- 1. Si se considera que la sucesin resultante no est suficientemente
suavizada se puede repetir el procedimiento de suavizacin.
UNIDAD V
TEORA DEL MUESTREO
5.1 Introduccin
Uno de los propsitos de la estadstica inferencial es estimar las caractersticas
poblacionales desconocidas, examinando la informacin obtenida de una muestra, de
una poblacin. El punto de inters es la muestra, la cual debe ser representativa de la
poblacin objeto de estudio.
Se seguirn ciertos procedimientos de seleccin para asegurar de que las
muestras reflejen observaciones a la poblacin de la que proceden, ya que solo se
pueden hacer observaciones probabilsticas sobre una poblacin cuando se usan
muestras representativas de la misma.
El objetivo de la estadstica es, primordialmente, hacer inferencias o
generalizaciones con base en la informacin suministrada por una muestra, por lo tanto
la confiabilidad de dichas inferencias depende de la acertada seleccin de la muestra.
El muestreo es un mtodo cientfico que utiliza principios matemticos y
estadsticos para la adecuada seleccin de una muestra y manejo de la informacin
obtenida a partir de ella, para as tener estimaciones confiables. El muestreo consiste en
la seleccin de una parte de la poblacin, de tal manera que sta parte represente
adecuadamente la poblacin.
Errores en el Muestreo
Cuando se utilizan valores muestrales, o estadsticos para estimar valores
poblacionales, o parmetros, pueden ocurrir dos tipos generales de errores: el error
muestral y el error no muestral.
El error muestral se refiere a la variacin natural existente entre muestras
tomadas de la misma poblacin.
Cuando una muestra no es una copias exacta de la poblacin; an si se ha tenido
gran cuidado para asegurar que dos muestras del mismo tamao sean representativas
de una cierta poblacin, no esperaramos que las dos sean idnticas en todos sus
detalles. El error muestral es un concepto importante que ayudar a entender mejor la
naturaleza de la estadstica inferencial.
Los errores que surgen al tomar las muestras no pueden clasificarse como errores
muestrales y se denominan errores no muestrales.
El sesgo de las muestras es un tipo de error no muestral. El sesgo muestral se
refiere a una tendencia sistemtica inherente a un mtodo de muestreo que da
estimaciones de un parmetro que son, en promedio, menores (sesgo negativo), o
mayores (sesgo positivo) que el parmetro real.
El sesgo muestral puede suprimirse, o minimizarse, usando la aleatorizacin.
5.2 Muestreo aleatorio simple
La aleatorizacin se refiere a cualquier proceso de seleccin de una muestra de
la poblacin en el que la seleccin es imparcial o no est sesgada; una muestra elegida
con procedimientos aleatorios se llama muestra aleatoria.
Los tipos ms comunes de tcnicas de muestreo aleatorios son el muestreo
aleatorio simple, el muestreo estratificado, el muestreo por conglomerados y el
muestreo sistemtico.
Si una muestra aleatoria se elige de tal forma que todos los elementos de la
poblacin tengan la misma probabilidad de ser seleccionados, la llamamos muestra
aleatoria simple.
Ejemplo 1.1
Suponga que nos interesa elegir una muestra aleatoria de 5 estudiantes en un
grupo de estadstica de 20 alumnos.
20
C
5
da el nmero total de formas de elegir una
muestra no ordenada y este resultado es 15,504 maneras diferentes de tomar la
muestra. Si listamos las 15,504 en trozos separados de papel, una tarea tremenda,
luego los colocamos en un recipiente y despus los revolvemos, entonces podremos
tener una muestra aleatoria de 5 si seleccionamos un trozo de papel con cinco
nombres. Un procedimiento ms simple para elegir una muestra aleatoria sera escribir
cada uno de los 20 nombres en pedazos separados de papel, colocarlos en un
recipiente, revolverlos y despus extraer cinco papeles al mismo tiempo.
Otro mtodo parea obtener una muestra aleatoria de 5 estudiantes en un grupo
de 20 utiliza una tabla de nmeros aleatorios. Se puede construir la tabla usando una
calculadora o una computadora. Tambin se puede prescindir de estas y hacer la tabla
escribiendo diez dgitos del 0 al 9 en tiras de papel, las colocamos en un recipiente y los
revolvemos, de ah, la primera tira seleccionada determina el primer nmero de la
tabla, se regresa al recipiente y despus de revolver otra vez se selecciona la seguida
tira que determina el segundo nmero de la tabla; el proceso contina hasta obtener
una tabla de dgitos aleatorios con tantos nmeros como se desee.
Hay muchas situaciones en las cuales el muestreo aleatorio simple es poco
prctico, imposible o no deseado; aunque sera deseable usar muestras aleatorias
simples para las encuestas nacionales de opinin sobre productos o sobre elecciones
presidenciales, sera muy costoso o tardado.
5.3 Estimacin del tamao de la Muestra
Cuando deseamos estimar el tamao de la muestra se debe tener en cuenta que
los objetivos de la encuesta suelen requerir varias estadsticas y que al considerar cada
una de ellas pueden llevar a un diseo diferente, por lo tanto, para determinar el
tamao de la muestra se debe elegir el principal objetivo y calcular el tamao de
muestra necesario para cumplir dicho objetivo. En caso de ser varios los objetivos
principales se determina un tamao de muestra para cumplir cada objetivo y entre
todos ellos, se elige el mayor.
El tamao de la muestra depende bsicamente del tamao de la poblacin, del
nivel de confianza o confiabilidad de las estimaciones, del grado de variacin o
dispersin de la variable a estudiar y del error de estimacin.
El nivel de confianza o confiabilidad lo fija arbitrariamente quien est calculando
el tamao de la muestra, teniendo en cuenta que dicha confiabilidad debe estar entre el
noventa y el noventa y nueve por ciento. A mayor confiabilidad mayor tamao de
muestra.
El grado de variacin o dispersin de la variable se mide a travs de la desviacin
estndar, la cual puede ser estimada a partir de una muestra piloto o a partir de la
informacin recopilada en una investigacin similar, realizada anteriormente.
El error de estimacin es la mxima diferencia en valor absoluto, que se est dispuesto
a aceptar, entre el valor del estimador y el valor del parmetro, a ste error de
estimacin se le nota como B. El valor del error de estimacin depende del estimador
que se desee obtener y de la magnitud de la variable. Por ejemplo si se va a estimar la
proporcin de desempleados, un error de estimacin lgico puede ser del 3 por ciento;
pero si se va a estimar el peso promedio de un grupo de estudiantes, un error de
estimacin lgico puede ser de 7 kilos. A mayor error de estimacin menor tamao de
muestra.
Dependiendo del tipo de estimador que se desee obtener, se debe utilizar una
frmula diferente para calcular el tamao de la muestra.
5.4 Muestreo estratificado
El muestreo estratificado requiere de separar a la poblacin segn grupos que
no se traslapen llamados estratos, y de elegir despus una muestra aleatoria simple en
cada estrato. La informacin de las muestras aleatorias simples de cada estrato
constituira entonces una muestra global.
Ejemplo 1.2
Suponga que nos interesa obtener una muestra de las opiniones de los profesores
de una gran universidad. Puede ser difcil obtener una muestra con todos los
profesores, as que supongamos que elegimos una muestra aleatoria de cada colegio, o
departamento acadmico; los estratos vendran a ser los colegios, o departamentos
acadmicos.
5.5 Muestreo por conglomerados
El muestreo por conglomerados requiere de elegir una muestra aleatoria
simple de unidades heterogneas entre s de la poblacin llamadas conglomerados.
Cada elemento de la poblacin pertenece exactamente a un conglomerado, y los
elementos dentro de cada conglomerado son usualmente heterogneos o dismiles.
Ejemplo 1.3
Suponga que una compaa de servicio de televisin por cable est pensando en
abrir una sucursal en una ciudad grande; la compaa planea realizar un estudio para
determinar el porcentaje de familias que utilizaran sus servicios, como no es prctico
preguntar en cada casa, la empresa decide seleccionar una parte de la ciudad al azar, la
cual forma un conglomerado.
En el muestreo por conglomerados, stos se forman para representar, tan
fielmente como sea posible, a toda la poblacin; entonces se usa una muestra aleatoria
simple de conglomerados para estudiarla. Los estudios de instituciones sociales como
iglesias, hospitales, escuelas y prisiones se realizan, generalmente, con base en el
muestreo por conglomerados.
El muestreo sistemtico es una tcnica de muestreo que requiere de una
seleccin aleatoria inicial de observaciones seguida de otra seleccin de observaciones
obtenida usando algn sistema o regla.
Ejemplo 1.4
Para obtener una muestra de suscriptores telefnicos en una ciudad grande,
puede obtenerse primero una muestra aleatoria de los nmeros de las pginas del
directorio telefnico; al elegir el vigsimo nombre de cada pgina obtendramos un
muestreo sistemtico, tambin podemos escoger un nombre de la primera pgina del
directorio y despus seleccionar cada nombre del lugar nmero cien a partir del ya
seleccionado. Por ejemplo, podramos seleccionar un nmero al azar entre los primeros
100; supongamos que el elegido es el 40, entonces seleccionamos los nombres del
directorio que corresponden a los nmeros 40, 140, 240, 340 y as sucesivamente.
Error Muestral
Cualquier medida conlleva algn error. Si se usa la media para medir, estimar, la
media poblacional , entonces la media muestral, como medida, conlleva algn error.
Por ejemplo, supongamos que se ha obtenido una muestra aleatoria de tamao 25 de
una poblacin con media = 15: si la media de la muestra es x=12, entonces a la
diferencia observada x- = -3 se le denomina el error muestral. Una media muestral
x puede pensarse como la suma de dos cantidades, la media poblacional y el error
muestral; si e denota el error muestral, entonces:
Ejemplo 1.5
Se toman muestras de tamao 2 de una poblacin consistente en tres valores, 2,
4 y 6, para simular una poblacin "grande" de manera que el muestreo pueda realizarse
un gran nmero de veces, supondremos que ste se hace con reemplazo, es decir, el
nmero elegido se reemplaza antes de seleccionar el siguiente, adems, se seleccionan
muestras ordenadas. En una muestra ordenada, el orden en que se seleccionan las
observaciones es importante, por tanto, la muestra ordenada (2,4) es distinta de la
muestra ordenada (4,2). En la muestra (4,2), se seleccion primero 4 y despus 2. La
siguiente tabla contiene una lista de todas las muestras ordenadas de tamao 2 que es
posible seleccionar con reemplazo y tambin contiene las medioas muestrales y los
correspondientes errores muestrales. La media poblacional es igual a
= (2+4+6)/3 = 4. Ver la tabla en la siguiente pgina.
Notese las interesantes relaciones siguientes contenidas en la tabla:
La media de la coleccin de medias muestrales es 4, la media de la poblacin de la que
se extraen las muestras. Si x denota la media de todas las medias muestrales
entonces tenemos:
x = (3+4+3+4+5+5+2+4+6)/9 = 4
La suma de los errores muestrales es cero.
e
1
+ e
2
+ e
3
+ . . . + e
9
= (-2) + (-1) + 0 + (-1) + 0 + 1 + 0 + 1 + 2 = 0
Muestras ordenadas x Error muestral e = x -
(2,2) 2 2 4 = -2
(2,4) 3 3 4 = -1
(2,6) 4 4 4 = 0
(4,2) 3 3 4 = -1
(4,4) 4 4 4 = 0
(4,6) 5 5 4 = 1
(6,2) 4 4 4 = 0
(6,4) 5 5 4 = 1
(6,6) 6 6 4 = 2
En consecuencia, si x se usa para medir, estimar, la media poblacional , el promedio
de todos los errores muestrales es cero.