Anda di halaman 1dari 99

APUNTES DE ESTADSTICA AVANZADA

TEMA 1: ESTIMACIN POR PUNTO


1. INTRODUCCIN.
En este curso vamos a tratar de una parte de la Estadstica denominada
Inferencia Estadstica. Veamos con un ejemplo qu es exactamente la Inferencia
Estadstica. Imaginemos que queremos determinar la edad media de los
componentes de un equipo de ftbol. Bastara con preguntar a cada uno su edad y
hacer un sencillo clculo que nos dara el valor buscado.
Pero, qu ocurrira si quisiramos conocer la edad media de la poblacin de
Crdoba? No podramos ir preguntando uno por uno pues al ser demasiado grande
la poblacin invertiramos mucho tiempo en tomar los datos a la vez que podra ser
bastante costoso. Significa esto que no podemos conocer con exactitud ese dato?
As es, no lo podemos conocer con exactitud pero si lo podemos aproximar y aqu
es donde la Inferencia Estadstica juega su papel.
La Inferencia Estadstica trabaja con subconjuntos de una poblacin, a los que
se llama muestras, y a partir de su estudio intenta sacar conclusiones acerca de
alguna caracterstica de la poblacin. En el ejemplo que nos ocupa, se tomara una
muestra de la poblacin cordobesa y a partir de sus edades se tratara de inferir
sobre la edad media poblacional.
2. CONCEPTOS PREVIOS.
Llamamos poblacin al conjunto de elementos del cual queremos estudiar
alguna caracterstica concreta, mientras que llamamos muestra a un subconjunto
de la poblacin que nos sirve para extraer conclusiones acerca de la misma.
Las caractersticas observadas en una poblacin pueden ser cuantitativas, si se
pueden expresar mediante nmeros (la edad o la altura) y cualitativas, si no se
pueden expresar mediante nmeros (el color del pelo).
Llamamos observacin a los valores que toma la caracterstica observada en
cada elemento de la poblacin.

Dado que una caracterstica toma valores concretos en cada observacin,


podemos definir las caractersticas en una poblacin como variables aleatorias que
ACADEMIA AL CUADRADO, C.B

APUNTES DE ESTADSTICA AVANZADA

pueden tomar un conjunto de valores (el espacio muestral de dicha variable


aleatoria) y, as, podemos demos definir tambin la poblacin como el conjunto de
valores que puede tomar dicha caracterstica (variable aleatoria).
Llamamos estadstico a una funcin de los valores de la muestra que nos sirve
para tomar decisiones acerca de la poblacin.
Continuando con el ejemplo anterior, si queremos estudiar la edad media de la
poblacin cordobesa, no podemos tomar la muestra un Sbado por la noche en los
pubs del centro, ya que obtendramos elementos con una edad parecida y la
conclusin obtenida no sera fiable ni representativa de la poblacin, pues en sta
habra otros elementos con distinta edad que no estaramos considerando. En este
caso diramos que la muestra no es representativa de la poblacin.
Por eso, si vamos a tomar conclusiones acerca de la poblacin a partir de
valores muestrales, es razonable pensar que las muestras seleccionadas sean
representativas para que sean vlidas. Y esto se consigue siempre que la eleccin
de la muestra se base en un proceso de azar, o lo que es lo mismo, que la muestra
sea aleatoria. As las conclusiones que extraeremos acerca de la poblacin sern
fiables.
Ahora bien, de qu maneras se puede elegir una muestra aleatoria? Veamos
los siguientes mtodos:
Muestreo aleatorio simple: es aquel en que las distintas observaciones se
obtienen con igual probabilidad e independientemente unas de otras. Si la
poblacin es finita se realiza con reemplazamiento, es decir, que un
elemento de la poblacin puede ser elegido varias veces.
Muestreo aleatorio irrestricto: similar al anterior pero en el caso que la
poblacin sea finita y el muestreo se realice sin reemplazamiento, de manera
que todos los elementos de la poblacin (no seleccionados previamente)
tienen la misma probabilidad de ser elegidos.
Muestreo estratificado: la poblacin se divide en varios grupos o estratos y
de cada uno de ellos se toma una muestra. Los estratos se seleccionan de
forma que sean lo ms homogneos posibles internamente y heterogneos
entre si.
ACADEMIA AL CUADRADO, C.B

APUNTES DE ESTADSTICA AVANZADA

Muestreo por conglomerados: la poblacin se divide en varios grupos o


conglomerados de donde se toman las correspondientes muestras. Los
conglomerados deben tomarse homogneos entre si para que cada uno de
ellos sea representativo de toda la poblacin.
Muestreo polietpico: los datos se toman en varios instantes de tiempo o
etapas.
El utilizar uno u otro sistema de muestreo depende de muchos factores. En
general se utilizar aquel diseo que proporcione la mayor informacin posible a
un coste preciso y determinado. En general, es frecuente utilizar una combinacin
de estos mtodos. Por ejemplo, un conglomerado se puede dividir en varios
estratos y con cada uno de stos realizar un muestreo aleatorio simple.
3. MTODOS DE ESTIMACIN.
Hemos comentado anteriormente que la Inferencia Estadstica trata de hacer
predicciones sobre una caracterstica poblacional en base a datos muestrales
observados. En ocasiones se est interesado en algn parmetro de la poblacin,
como la media () o la varianza ( ). De esto se encarga la Estadstica
Paramtrica. En otros casos slo queremos conocer la distribucin F(X) de la
poblacin sin hacer referencia a ningn parmetro de la misma. De esto se encarga
la Estadstica no Paramtrica.
Nos centraremos en la Estadstica Paramtrica en este captulo. Es decir,
nuestro objetivo es hacer aproximaciones sobre parmetros poblacionales a partir
de datos de una muestra. A estas aproximaciones las llamamos estimacin y a los
estadsticos que las proporcionan estimador.

Existen dos tipos de estimaciones paramtricas: por punto (cuando se da como


aproximacin un solo valor) y por intervalo (cuando la aproximacin es un
intervalo que contenga al parmetro con una cierta probabilidad). Nos centraremos
ahora en los mtodos de estimacin por punto y ms concretamente en el mtodo
de mxima verosimilitud.
ACADEMIA AL CUADRADO, C.B

APUNTES DE ESTADSTICA AVANZADA

4. MTODO DE MXIMA VEROSIMILITUD.


Supongamos una poblacin W de la que queremos estudiar una caracterstica X
y para ellos tomamos una muestra de tamao n. Denotemos a dicha muestra por
(Xi) con i = 1, 2, , n.
Cada Xi tomar un valor de entre un conjunto de valores posibles, esto es, cada
Xi ser una variable aleatoria independiente de las dems. Podemos, entonces,
considerar la muestra como una variable aleatoria n-variante, donde (X 1, X2, ,
Xn) se denomina muestra genrica y (x1, x2, , xn) se denomina muestra
concreta (cuando cada Xi toma valores concretos).
Al ser las n variables aleatorias independientes, la probabilidad de que la
muestra tome los valores (x1, x2, , xn) ser:

Y como la probabilidad de la una variable aleatoria tome un valor determinado


es igual al valor de la funcin f de probabilidad (si la variable es discreta) o de
densidad (si la variable es continua) en ese punto, se tendr:

A esta funcin se le denomina funcin de verosimilitud y se denota por


aunque en la mayora de los casos esta funcin de verosimilitud depende de un
parmetro

por lo que es usual escribirla as

El mtodo de mxima verosimilitud se utiliza para estimar estos parmetros en


poblaciones de las que se conoce su distribucin y, en consecuencia, su funcin de
probabilidad o de densidad y se basa en la idea de que un buen estimador del
parmetro podra ser aquel que maximice la probabilidad de seleccionar una

ACADEMIA AL CUADRADO, C.B

APUNTES DE ESTADSTICA AVANZADA

muestra concreta o lo que es lo mismo de que la variable tome los valores (x 1, x2,
, xn). Es decir, en maximizar la funcin de verosimilitud.
Sin embargo, es frecuente no maximizar la funcin de verosimilitud sino su
logaritmo neperiano. Esto es debido a que una funcin no negativa (y la funcin de
verosimilitud lo es puesto que es una funcin de probabilidad) alcanza su mximo
en los puntos que su logaritmo neperiano. En efecto:
Si tenemos

su mximo se obtendr donde

. Supongamos

Su mximo se alcanzar donde


, esto es, donde
. El hecho de
maximizar el logaritmo neperiano se debe a que para ello tenemos que derivar y es
ms sencillo derivar el logaritmo de la funcin de verosimilitud que la propia
funcin de verosimilitud. Vemoslo con un ejemplo.
EJEMPLO 1
Obtener el estimador de mxima verosimilitud del parmetro p de una
distribucin binaria de la que se ha extrado una muestra de tamao n.
Recordemos que una distribucin binaria es una distribucin de probabilidad
discreta donde slo existen dos posibles resultados: xito (cuya probabilidad es p)
y fracaso (cuya probabilidad es 1-p). Su funcin de probabilidad es:

Elegida una muestra al azar de tamao n (x 1, x2, , xn), construimos la funcin


de verosimilitud:

En consecuencia:

ACADEMIA AL CUADRADO, C.B

APUNTES DE ESTADSTICA AVANZADA

Tomamos logaritmos neperianos:

Maximizamos la funcin derivndola el igualando a cero:

Operando se obtiene:

Por tanto el estimador mximo verosmil del parmetro p de una distribucin


binaria es la media muestral:

EJEMPLO 2
Obtener el estimador de mxima verosimilitud del parmetro de una
distribucin de Poisson de la que se ha extrado una muestra de tamao n.
Recordemos que una distribucin de Poisson es una distribucin de
probabilidad discreta cuya funcin de probabilidad es:

ACADEMIA AL CUADRADO, C.B

APUNTES DE ESTADSTICA AVANZADA

Elegida una muestra al azar de tamao n (x 1, x2, , xn), construimos la funcin


de verosimilitud:

En consecuencia:

Tomamos logaritmos neperianos:

Maximizamos la funcin derivndola el igualando a cero:

Observamos que el estimador mximo verosmil del parmetro de una


distribucin de Poisson es tambin la media muestral.

EJEMPLO 3
Obtener los estimadores de mxima verosimilitud de los parmetros "" y
" "de una distribucin Normal de la que se ha extrado una muestra de
tamao n.

ACADEMIA AL CUADRADO, C.B

APUNTES DE ESTADSTICA AVANZADA

Recordemos que una distribucin Normal es una distribucin de probabilidad


continua cuya funcin de densidad es:

Elegida una muestra al azar de tamao n (x 1, x2, , xn), construimos la funcin


de verosimilitud:

En consecuencia:

Tomamos logaritmos neperianos:

Derivamos esta funcin respecto a :

ACADEMIA AL CUADRADO, C.B

APUNTES DE ESTADSTICA AVANZADA

Derivamos ahora respecto de

5. PROPIEDADES DE LOS ESTIMADORES.


Hemos visto en el apartado anterior que la media muestral es el estimador
mximo verosmil de la media poblacional y que la varianza muestral es el
estimador mximo verosmil de la varianza poblacional. La pregunta que nos
ocupa ahora es, son stos los nicos estimadores? La respuesta es que no y por
tanto cabe plantearse si de entre todos los estimadores de un parmetro hay alguno
que tenga preferencia de ser elegido, es decir si hay alguno que sea preferido frente
a los dems.
Para responder a esta pregunta enunciaremos una serie de propiedades que son
deseables para que un estimador sea considerado como buen estimador.
INSESGADEZ.
Decimos que un estimador
del parmetro
es insesgado si su esperanza
matemtica coincide con el valor del parmetro estimado. Esto es:

ACADEMIA AL CUADRADO, C.B

APUNTES DE ESTADSTICA AVANZADA

10

Por el contrario diremos que es sesgado cuando no ocurre lo anterior, es decir:

donde

se denomina sesgo del estimador.

EJEMPLO 4
Demostrar que la media muestral
poblacional .

es un estimador insesgado de la media

Para ello se deber cumplir:

En efecto:

Mediante un procedimiento similar se demuestra que la varianza muestral es un


estimador sesgado de la varianza poblacional, ya que:

EFICIENCIA.

ACADEMIA AL CUADRADO, C.B

APUNTES DE ESTADSTICA AVANZADA

11

Consideremos todos los posibles estimadores insesgados de un parmetro ,


ser ms eficiente el que presente menor varianza. Por tanto un estimador ser
eficiente si posee la mnima varianza. En trminos relativos lo podemos enunciar
de la siguiente forma:
Si

son dos estimadores insesgados de un parmetro

ms eficiente que

si

, se dice que

es

CONSISTENCIA.
Se dice que un estimador de un parmetro es consistente si, a medida que
aumenta el tamao de la muestra, el estimador se aproxima ms al parmetro que
estima. Matemticamente lo podemos expresar as:

SUFICIENCIA.
Se dice de un estimador que es suficiente cuando es capaz de extraer de los
datos toda la informacin importante sobre el parmetro.

TEMA 2: ESTIMACIN POR INTERVALO


1. INTRODUCCIN.
ACADEMIA AL CUADRADO, C.B

APUNTES DE ESTADSTICA AVANZADA

12

Hemos visto en el tema anterior un mtodo de estimacin de parmetros que


consista en dar un slo valor como estimacin de un parmetro. Esto presenta un
inconveniente y es que difcilmente la estimacin dada ser exactamente igual al
valor del parmetro que se estima, es decir, estamos seguros de que cometemos un
error. Pero lo realmente grave no es que cometamos un error sino que no sabemos
qu magnitud tiene, es decir, no sabemos si nos equivocamos en una unidad o en
veinte.
Para solventar esto existe otro mtodo de estimacin llamado estimacin por
intervalo que consiste en dar como estimacin un conjunto de valores (intervalo)
en el que, con una cierta probabilidad, se encuentre el parmetro a estimar.
A esta probabilidad de que el parmetro se encuentre dentro del intervalo
obtenido se le llama nivel de confianza y se denota por
, mientras que la
probabilidad de que el parmetro no est dentro del intervalo se le llama nivel de
significacin y se denota por

El mtodo que utilizaremos para construir intervalos de confianza se basar en


partir de un estimador insesgado del parmetro a estimar (por ejemplo si queremos
estimar la media poblacional partiremos de su estimador insesgado que es la media
muestral), y dado que dicho estimador seguir una distribucin conocida,
buscaremos dos valores de dicha distribucin tales que la probabilidad que quede
entre ellos sea

. As obtendremos un intervalo centrado en un estimador

insesgado del parmetro a estimar y con la probabilidad


dentro de l el parmetro.

deseada de encontrar

2. INTERVALO DE CONFIANZA PARA LA MEDIA POBLACIONAL.


Utilizaremos para este intervalo la media muestral ( ) que es un estimador
insesgado de la media poblacional . Distinguiremos los casos en que se conozca
la desviacin tpica de la poblacin o no se conozca.
Si se conoce .

ACADEMIA AL CUADRADO, C.B

APUNTES DE ESTADSTICA AVANZADA

13

Supongamos una poblacin que sigue una distribucin normal del media y
varianza 2, N(, 2). Tomada una muestra de tamao "n", la media de dicha

muestra

seguir una distribucin N

Tipificando se tiene

, cuya desviacin tpica ser

. Buscaremos entonces en la distribucin normal

estndar dos valores tales que exista una probabilidad

encuentre el estadstico

de que entre ellos se

Es claro que si tenemos dos valores Z 1 y Z2 que dejan entre ellos una
probabilidad

, el que est ms a la derecha dejar a su

derecha una probabilidad de

y el que est ms a la

izquierda dejar a su derecha una probabilidad de

. Es

por esto que a los valores de Z obtenidos los llamaremos


y . Sin embargo, y
dado la simetra de la distribucin normal, estos valores sern iguales pero de signo
contrario, por lo que se conviene en llamarlos

Entonces podemos decir que la probabilidad de que un valor se encuentre


entre

es igual a

, lo que nos llevara a escribir:

ACADEMIA AL CUADRADO, C.B

APUNTES DE ESTADSTICA AVANZADA

Multiplicando los tres miembros de la desigualdad por

Restando en los tres miembros de la desigualdad

14

se obtiene:

obtenemos:

Multiplicando toda la desigualdad por -1 cambiar el sentido de los signos y se


obtendr:

que podemos reescribir de la siguiente forma:

La expresin anterior nos indica que la probabilidad de que la media


poblacional

se encuentre entre los dos valores obtenidos es igual a

que el intervalo de confianza para la media al nivel

, por lo

ser:

ACADEMIA AL CUADRADO, C.B

APUNTES DE ESTADSTICA AVANZADA


As este intervalo estar centrado en
valores con una confianza de

y dado que

15

se encuentra entre dichos

, lo ms alejado que puede estar

de

es

que sera el error mximo admisible para ese nivel de confianza. Por tanto:

EJEMPLO 1
Se considera una muestra aleatoria de 10 consumidores mayores de edad
que en las rebajas de invierno gastaron: 65, 72, 74, 75, 80, 81, 82, 84, 87 y 90
euros respectivamente. Sabiendo que el gasto por persona sigue una
distribucin normal de media desconocida y desviacin tpica de 20 euros,
hallar un intervalo de confianza para el gasto medio poblacional con un nivel
de confianza del 95%.
Del enunciado se desprende que tenemos que construir un intervalo de
confianza al 95% para la media poblacional (gasto medio) conocida la desviacin
tpica poblacional que nos dicen que es 20. Dicho intervalo ser:

Al

ser

el

nivel

de

confianza

del

95%

esto

implica

que

. Luego nosotros calcularemos


, es
decir la z que deja a su derecha una probabilidad de 0,025. Dicho valor mirado en
tablas (se puede obtener por PQRS o cualquier otro software) es 1,96. Por tanto
(esta ser la

de nuestro intervalo).

ACADEMIA AL CUADRADO, C.B

APUNTES DE ESTADSTICA AVANZADA

16

Por otro lado, necesitamos conocer la media muestral, que es fcil obtener a
partir de las observaciones:

Ahora ya podemos calcular los extremos del intervalo que ser:

EJEMPLO 2
Las tensiones de ruptura de los cables fabricados por una empresa siguen
una distribucin normal N(,120). A partir de una muestra de 70 cable se ha
obtenido una tensin media de ruptura de 2100 kilos.
(a) Hallar un intervalo de confianza al 95% para la tensin media de
ruptura.
(b) Hallar el tamao que debe tener la muestra para obtener u intervalo
de confianza al 99% con una amplitud igual al anterior.
(a) Del enunciado se desprende que tenemos que construir un intervalo de
confianza al 95% para la media poblacional (tensin media) conocida la desviacin
tpica poblacional que nos dicen que es 120. Dicho intervalo ser:

Al ser el nivel de confianza del 95% (igual que en el ejemplo 1) ya sabemos


que

En este caso no hay que calcular la media muestral pues ya nos la da como dato
el enunciado, luego el intervalo de confianza al 95% ser:
ACADEMIA AL CUADRADO, C.B

APUNTES DE ESTADSTICA AVANZADA

(b) Ahora el nivel de confianza es el 99%. Calculemos entonces la


corresponde a este nivel de confianza.

17

que

Entonces miramos en tablas


, es decir, la z que deja a su derecha una
probabilidad de 0,005 y obtenemos que dicho valor es 2,575.
Por otro lado, como nos dicen que la amplitud del nuevo intervalo debe ser
igual que la del apartado (a), calculamos dicha amplitud:

En la figura hemos representado el intervalo cuyo centro es

son

y sus extremos

con lo que concluimos que la amplitud del intervalo es:

Entonces la amplitud del intervalo del apartado (a) es:

.
La amplitud del nuevo intervalo, construido al 99%, deber ser la misma.
Siendo ahora

, se tendr:
ACADEMIA AL CUADRADO, C.B

APUNTES DE ESTADSTICA AVANZADA

18

De aqu despejando n se obtiene n = 120,83, aproximadamente n = 121.


POBLACIN FINITA E INFINITA.
En los dos ejemplos anteriores, slo se nos da informacin sobre el tamao de
la muestra (n) pero no de la poblacin de la que se extrae la muestra. En tal caso
consideramos la poblacin infinita y utilizaremos el intervalo hallado.
Pero si tenemos informacin acerca del tamao de la poblacin (N) tendramos
que considerar dos circunstancias por las que podramos considerar la poblacin
como finita. Una es que la muestra sea mayor o igual de 20 y otra que el cociente

y, en tal caso, tendramos que corregir el intervalo con el factor de

correccin

, con lo que el intervalo quedara de la siguiente manera:

siendo en este caso el error


Por ltimo para una distribucin no normal utilizaremos el mismo intervalo
hallado para la distribucin normal siempre que

Si no se conoce .
Cuando no conocemos la varianza poblacional, la media muestral se distribuye
de la siguiente forma:
ACADEMIA AL CUADRADO, C.B

APUNTES DE ESTADSTICA AVANZADA

donde es la cuasi-desviacin tpica muestral y


grados de libertad.

19

es una t de Student con n - 1

Tendremos, por tanto que encontrar en la distribucin t-Student dos valores


tales que exista una probabilidad

, que denominaremos
llamaremos

de que entre ellos se encuentre el estadstico

, pero por simetra de la t-Student los

ya que coincidirn en valor pero con signo contrario.

Siguiendo el mismo procedimiento anterior, podremos escribir:

Multiplicando toda la desigualdad por

se tiene:

Restando en los tres miembros de la desigualdad

obtenemos:

ACADEMIA AL CUADRADO, C.B

APUNTES DE ESTADSTICA AVANZADA

20

Multiplicando toda la desigualdad por -1 cambiar el sentido de los signos y se


obtendr:

que reescribimos as:

La expresin anterior indica que la probabilidad de que la media poblacional se


encuentre entre esos dos valores es
confianza a ese nivel, de manera que:

Aqu el error sera

y, por lo tanto, constituye un intervalo de

e igualmente sirve aqu lo comentado para

cuando la poblacin no es normal (el mismo intervalo si


) o cuando tengamos
que considerar que la poblacin es finita, de manera que este caso el intervalo ser:

EJEMPLO 3
Se ha obtenido una muestra de 15 vendedores de una editorial para
estimar el valor medio de las ventas por trabajador en la empresa. La media y
la varianza de la muestra (en miles de euros) son 5 y 2, respectivamente.
ACADEMIA AL CUADRADO, C.B

APUNTES DE ESTADSTICA AVANZADA

21

Hallar un intervalo de confianza para la venta media por trabajador en la


editorial al 90%.
En este problema nos dan datos relativos a la muestra, su media y su varianza,
pero no nos dicen nada acerca de la varianza de la poblacin, por lo que tendremos
que utilizar el intervalo construido en el punto anterior, es decir:

Al

ser

el

nivel

de

confianza

del

90%

esto

implica

que

. Luego nosotros calcularemos


, es
decir la t de Student con 14 grados de libertad que deja a su derecha una
probabilidad de 0,05. Dicho valor mirado en tablas es 1,7613. Por tanto
(esta ser la

de nuestro intervalo).

Por otro lado, la media muestral la conocemos por el enunciado y tambin la


varianza muestral, pero necesitamos la cuasi-desviacin tpica muestral.
Procedemos del siguiente modo:

Igualando:

Ahora ya podemos calcular el intervalo que ser:


ACADEMIA AL CUADRADO, C.B

APUNTES DE ESTADSTICA AVANZADA

22

EJEMPLO 4
La cotizacin del dlar frente a la peseta sigue una distribucin normal de
media y varianza desconocidas. Elegidos 9 das al azar, la cotizacin del dlar
en esos das fue:
1453, 1462, 1458, 1461, 146, 1445, 1452, 147, 1442
Determinar un intervalo de confianza, de coeficiente de confianza 0,95, para
la cotizacin media del dlar frente a la peseta.
Del enunciado se desprende claramente que el intervalo a utilizar es:

pues no conocemos la varianza de la poblacin.

Al

ser

el

nivel

de

confianza

del

95%

esto

implica

que

. Luego nosotros calcularemos


,
es decir la t de Student con 8 grados de libertad que deja a su derecha una
probabilidad de 0,025. Dicho valor mirado en tablas es 2,3060. Por tanto
(esta ser la

de nuestro intervalo).

Calculamos la media y la cuasi-desviacin tpica muestral:

ACADEMIA AL CUADRADO, C.B

APUNTES DE ESTADSTICA AVANZADA

23

Ahora ya podemos calcular el intervalo que ser:

EJEMPLO 5
Para estudiar las medidas del tiempo (en segundos) de aceleracin de una
marca de vehculos se toma una muestra de 15 de ellos resultando ser:
109, 963, 65, 1106, 1139, 976, 1252, 7,68
925, 1240, 984, 1045, 767, 877, 963
(a) Determinar un intervalo de confianza del 95% para la el tiempo medio
de aceleracin de dichos vehculos.
(b) Calcular el tamao de la muestra necesario para que el error de
estimacin de la media ser menor que 0,75 a dicho nivel de confianza.

(a) Utilizaremos el siguiente intervalo:

ya que el enunciado no nos proporciona informacin acerca de la varianza de los


vehculos.

Al

ser

el

nivel

de

confianza

del

95%

esto

implica

que

. Luego nosotros calcularemos


,
es decir la t de Student con 14 grados de libertad que deja a su derecha una

ACADEMIA AL CUADRADO, C.B

APUNTES DE ESTADSTICA AVANZADA

24

probabilidad de 0,025. Dicho valor mirado en tablas es 2,145. Por tanto


(esta ser la

de nuestro intervalo).

Calculamos la media y la cuasi-desviacin tpica muestral:

Con esto calculamos el intervalo que ser:

(b) El error mximo en la estimacin ser:

Como dicho error debe ser menor de 0,75, se tendr:

En consecuencia, el tamao muestral mnimo debe ser n = 25.


Muestras grandes.
Para calcular el intervalo de confianza para la media de una poblacin, cuando
se desconoce su varianza, podemos utilizar el siguiente intervalo:
ACADEMIA AL CUADRADO, C.B

APUNTES DE ESTADSTICA AVANZADA

25

siempre y cuando la muestra tomada sea grande pues por el teorema central del
lmite sabemos que la suma de n variables aleatorias idnticamente distribuidas
converge a una normal cuando n tiende a infinito. En consecuencia, si la muestra
(n variables aleatorias independientes con igual distribucin) es muy grande (se
considera muy grande para n>30) , la suma de todas ella converger a una normal,
esto es:

y, por tanto,

Esto implica, que para muestras grandes, el valor

va a ser casi igual que

por lo que podemos mirarlo directamente en la tabla normal.


Supongamos una muestra de tamao 120. Con un nivel de significacin de
0,95, tendramos que mirar el valor t119,0025 = 1,98. Al ser la muestra grande, este
valor debe coincidir prcticamente con z0,025, o dicho de otra forma para z = 1,98 se
obtendra el valor 0,025.

Se puede comprobar mirando en tablas que dicho valor es 0,0239, muy prximo
a valor de la t de Student.
Sin embargo, si repetimos los clculos para un tamao muestral menor que 30,
los valores obtenidos para la z y para la t no seran tan parecidos.
3. INTERVALO DE CONFIANZA PARA LA VARIANZA.
ACADEMIA AL CUADRADO, C.B

APUNTES DE ESTADSTICA AVANZADA

26

Para determinar un intervalo de confianza para la varianza de una oblacin


normal usaremos el siguiente estadstico:

donde es la cuasi-desviacin tpica muestral y


cuadrado con n-1 grados de libertad.

es el valor de una Chi-

Tendremos, por tanto que encontrar en la distribucin Chi-cuadrado con n-1


grados de libertad dos valores tales que exista una probabilidad

ellos

se

encuentre

el

estadstico

de que entre

que

denominaremos
y
. No coincidirn en
valor como pasaba en el intervalo para la media pues la distribucin Chi-cuadrado
no es simtrica.
As pues, escribiremos:

Invirtiendo cada miembro de la desigualdad cambiar el sentido de la misma y


podremos escribir as:

Multiplicando toda la desigualdad por

se obtiene:

ACADEMIA AL CUADRADO, C.B

APUNTES DE ESTADSTICA AVANZADA

27

que podemos reescribir as:

La expresin anterior indica que la probabilidad de que la varianza poblacional


se encuentre entre esos dos valores es
de confianza a ese nivel, de manera que:

y, por lo tanto, constituye un intervalo

Equivalente al anterior podemos usar el siguiente intervalo:

donde s2 es la varianza muestral.


Es aqu de aplicacin tambin la correccin para poblaciones finitas comentada
en los intervalos para la media.
EJEMPLO 6
Un fabricante de juguetes desea lanzar al mercado un tambor de piel de
conejo. Para determinar el dimetro del mismo tom una muestra aleatoria de
10 pieles y midi en cm el ancho de las mismas resultando ser:
20;19,7;20,1;19,9;20,2;19,8;20,3;20,4;19,6;20. Determinar un intervalo de
confianza al 95% para la varianza.
ACADEMIA AL CUADRADO, C.B

APUNTES DE ESTADSTICA AVANZADA

28

El intervalo que utilizaremos ser el siguiente:

Al

ser

el

nivel

de

confianza

del

Luego

95%

esto

nosotros

implica

que

calcularemos

y
es decir las Chi-cuadrado con 9 grados de libertad
que dejan a su derecha las probabilidades de 0,025 y 0,975, respectivamente.
Dichos valores, consultados en tablas, son los siguientes:

.
Por otro lado, la varianza muestral ser:

Sustituyendo datos en el intervalo se obtiene:

EJEMPLO 7
ACADEMIA AL CUADRADO, C.B

APUNTES DE ESTADSTICA AVANZADA

29

Un entrenador de ftbol est interesado en estimar, con un 99% de


confianza, la fuerza mxima de los msculos cudriceps de los futbolistas.
Admitiendo que dicha fuerza sigue una distribucin normal, se selecciona al
azar una muestra de 25 futbolistas para la que se obtuvo una media de 85 y
una cuasivarianza de 144. Determinar intervalos de confianza para la media y
para la desviacin tpica de la fuerza mxima de estos msculos.
Para la media utilizaremos el intervalo:

pues no conocemos la varianza de la poblacin.

Al

ser

el

nivel

de

confianza

del

99%

esto

implica

que

. Luego nosotros calcularemos


,
es decir la t de Student con 24 grados de libertad que deja a su derecha una
probabilidad de 0,005. Dicho valor mirado en tablas es 2,7970. Por tanto
(esta ser la

de nuestro intervalo).

Dado que la media y la cuasivarianza nos la proporciona el enunciado,


sustituimos en el intervalo que ser:

El intervalo para la varianza ser:

Calcularemos
y
es decir las Chi-cuadrado con
24 grados de libertad que dejan a su derecha las probabilidades de 0,005 y 0,995,
ACADEMIA AL CUADRADO, C.B

APUNTES DE ESTADSTICA AVANZADA

30

respectivamente. Dichos valores, consultados en tablas, son los siguientes:


y

Por otro lado en el enunciado nos dan la cuasi-varianza, pero:

Sustituyendo en el intervalo:

Al pedirnos un intervalo de confianza para la desviacin tpica haremos la raz


cuadrada de cada extremo y as tendremos:

4. INTERVALO DE CONFIANZA PARA LA PROPORCIN.


Supongamos una poblacin en la que queremos estudiar si los elementos
poseen o no una determinada caracterstica X. Para ello seleccionamos una muestra
aleatoria simple de tamao "n" y observamos cuantos elementos poseen dicha
caracterstica. Como solamente tenemos dos resultados posibles, es decir, o se
posee o no se posee la caracterstica, resulta que la variable aleatoria X sigue una
distribucin binomial de parmetros "n" y "p", donde n es el tamao de la muestra
y p la probabilidad de poseer la caracterstica (o la proporcin poblacional para
dicha caracterstica), es decir:

y aproximndola a una normal sera

ACADEMIA AL CUADRADO, C.B

APUNTES DE ESTADSTICA AVANZADA

Si consideramos ahora la proporcin


caracterstica ser:

Tipificando:

31

de elementos que cumplen dicha

Buscamos entonces en la distribucin normal estndar dos valores tales que

exista una probabilidad

de que entre ellos se encuentre el estadstico

A estos valores los llamaremos


y
al igual que hicimos en el intervalo
de confianza para la media. Escribiremos, por tanto:

Multiplicando toda la desigualdad por

Restando

se ontiene:

se tiene:

ACADEMIA AL CUADRADO, C.B

APUNTES DE ESTADSTICA AVANZADA

32

Multiplicando por -1 cambiamos el sentido de la desigualdad:

que reescribiremos as:

As pues un intervalos de confianza para la proporcin al nivel de confianza


ser:

Recordemos ahora que "p" es la proporcin poblacional. Resulta ilgico que


queremos precisamente estimar dicha proporcin tengamos que utilizarla en el
intervalo, pues no la conocemos. Esto se puede resolver de varias formas:
Pudiera ser que, aunque no dispusiramos del valor exacto de la proporcin
poblacional, tengamos informacin fiable acerca de ella, bien por
estimaciones anteriores recientes o pre-muestreos piloto. En ese caso
utilizaramos dichas estimaciones como valor de la proporcin poblacional.
Lo ms lgico es colocarse en el supuesto ms desfavorable en cuanto a los
valores de dicha proporcin poblacional que no es otro que p = 0,5 y, en
consecuencia, 1 - p = 0,5.

ACADEMIA AL CUADRADO, C.B

APUNTES DE ESTADSTICA AVANZADA

33

El ltimo supuesto es utilizar la proporcin muestral como valor de la


proporcin poblacional y, aunque este supuesto no es el ms aconsejable,
ser el que utilicemos.

Por lo tanto, nuestro intervalo de confianza para la proporcin a un nivel de


significacin

ser:

y el error cometido en la estimacin ser como mximo:

EJEMPLO 8
Tomada, al azar, una muestra de 120 estudiantes de una Universidad, se
encontr que 54 de ellos hablaban ingls. Halle, con un nivel de confianza del
90%, un intervalo de confianza para estimar la proporcin de estudiantes que
hablan el idioma ingls entre los estudiantes de esa Universidad.

Del enunciado se desprende que

. Al ser el nivel de confianza del

90% esto implica que


calcularemos

. Luego nosotros

, es decir la z que deja a su derecha una probabilidad de 0,05.

Dicho valor mirado en tablas es 1,645. Por tanto


nuestro intervalo).

(esta ser la

de

ACADEMIA AL CUADRADO, C.B

APUNTES DE ESTADSTICA AVANZADA

34

Sustituyendo en el intervalo se tiene:

EJEMPLO 9
Una muestra aleatoria de automviles tomada en una zona turstica ha
permitido obtener un intervalo de confianza, al nivel del 95%, para estimar de
la proporcin de matrculas extranjeras de esa zona, siendo sus extremos 0,232
y 0,368.
(a) Determine el valor de la proporcin estimada a travs de esa muestra y una
cota del error de estimacin a este nivel de confianza.
(b) Utilizando el mismo nivel de confianza, cul sera la cota de error, si esa
misma proporcin se hubiera observado en una muestra de 696 matrculas?

(a) Al nivel de confianza del 95%,


(ya calculado en anteriores
ejercicios). Dado que el intervalo de confianza es (0,232, 0,368) ser:

de donde:

y
Sumando ambas ecuaciones se obtiene:

La cota del error en la estimacin ser:


ACADEMIA AL CUADRADO, C.B

APUNTES DE ESTADSTICA AVANZADA

35

(b) En este caso sera:

EJEMPLO 10
Un investigador desea conocer cuntas personas en un pueblo de 3000
votan a un determinado partido poltico. Para ello toma una muestra de 60
personas resultando que 42 votan a dicho partido poltico. Determinar un
intervalo de confianza para la proporcin de personas que votan a dicho
partido con un nivel de confianza del 99%.

Comenzamos calculando la

, que para el nivel de confianza del 99% ser

. Este valor mirado en tablas es 2,575. Adems

Dado que
y n > 20, deberemos aplicar el factor de correccin
de poblacin finita y el intervalo de confianza que dar as:

Sustituyendo valores se obtiene:

ACADEMIA AL CUADRADO, C.B

APUNTES DE ESTADSTICA AVANZADA

36

TEMA 3: CONTRASTES DE HIPTESIS PARAMTRICOS


1. INTRODUCCIN.
En este tema y en el siguiente utilizaremos otra de las herramientas que utiliza
la Inferencia Estadstica para estudiar aspectos de una poblacin a partir de una
muestra, los contrastes de hiptesis. En este caso se trata de tomar decisiones
sobre alguna caracterstica poblacional. Entre captulo nos centraremos en los
contrastes paramtricos, que son aquellos que se hacen respecto a parmetros de la
poblacin.
Un contraste de hiptesis paramtrico es una prueba que se basa en los datos
de una muestra de una variable aleatoria para contrastar alguna hiptesis sobre un
parmetro de la poblacin. Consta de dos hiptesis, la llamada hiptesis nula (Ho),
que es aquella que suponemos como cierta y que vamos a aceptar siempre que los
datos muestrales no apoyen la idea de que debemos rechazarla y otra la llamada
hiptesis alternativa (H1), que ser generalmente aquello que queremos
contrastar.
La prueba se basa en una transformacin de los datos de la muestra
denominada estadstico de contraste, de manera que se rechazar la hiptesis nula
ACADEMIA AL CUADRADO, C.B

APUNTES DE ESTADSTICA AVANZADA

37

en favor de la alternativa cuando el estadstico de contraste se site en una regin


llamada regin crtica o de rechazo.
Es evidente que al tomar una decisin acerca de una hiptesis no podemos
equivocar, pues nuestra decisin se basa en los datos de una muestra. Existen dos
tipos de errores en un contraste de hiptesis: el error tipo I, que implica rechazar
Ho siendo cierta y el error tipo II, que implica aceptar Ho siendo falsa. A la
probabilidad de cometer un error de tipo I se le denota por y a la probabilidad de
cometer un error tipo II se le denota por . Esto es:
y
En consecuencia:
y
A 1 - se le denomina nivel de confianza y a 1 - se le llama potencia del
contraste. Lo deseable es que la probabilidad de cometer ambos tipos de error
fuera cero, es decir, = = 0. Pero esto es imposible dado que para que eso
ocurriera la nica alternativa sera examinar a toda la poblacin, con lo cual lo
deseable sera que ambos tipos de error fueran lo ms pequeos posibles.
Sin embargo, la relacin entre y es inversa, es decir, a media que aumenta
uno disminuye el otro, con lo cual no se pueden minimizar los dos
simultneamente. Por eso la Estadstica Matemtica ha deducido tests siguiendo el
criterio de que fijado un nivel de significacin (suele ser bastante pequeo) la
potencia del contraste sea mxima y eso implica minimizar . Estos tests se llaman
de mxima potencia.
En consecuencia, fijado un por el investigador, no nos preocuparemos por el
error tipo II pues los tests que vamos a utilizar se han obtenido de manera que se
minimice para ese .
Antes de introducirnos en el estudio de los distintos contrastes de hiptesis
definiremos un concepto importante, el p-valor. Llamamos p-valor de un contraste
al menor valor de a partir del cual no se rechaza Ho. Es decir, a medida que
disminuye es ms difcil rechazar la Ho y, en consecuencia, existir un valor a
ACADEMIA AL CUADRADO, C.B

APUNTES DE ESTADSTICA AVANZADA

38

partir del cual ya no se rechace. Ese valor es el p-valor y se denota por p. Digamos
pues que el p-valor es el valor de lmite entre la aceptacin y el rechazo.
El clculo del p-valor es, en ocasiones, difcil y slo puede realizarse con un
ordenador. Si < p se acepta Ho y si > p se rechaza Ho.
Veamos a continuacin los distintos tipos de test de mxima potencia que
vamos a estudiar.
2. CONTRASTE PARA LA MEDIA CONOCIDA LA DESV. TPICA.
Se trata de contrastar si se puede aceptar a un nivel de significacin la
hiptesis nula de que la media de una poblacin es igual, mayor o menor que un
valor determinado, frente a lo contrario, es decir, distinto, menor o mayor. En la
siguiente tabla recogemos los distintos tipos de contrastes y sus caractersticas:

Bilateral

Unilateral

Contraste
Estadstico
Reg. Acept.
Decisin
Prob. Lmite
donde 0 es el valor a contrastar.
EJEMPLO 1
Hace 5 aos el consumo medio de agua por domicilio en un municipio era
de 16 m3 mensuales. Se ha hecho una campaa de ahorro de agua y, luego, se
ha observado una muestra de 15 domicilios elegidos al azar y se ha obtenido
un consumo medio de 14,9 m3. Suponiendo que el consumo de agua sigue una
ACADEMIA AL CUADRADO, C.B

APUNTES DE ESTADSTICA AVANZADA

39

ley normal con desviacin tpica de 3,6 m 3. Se acepta que el consumo medio
sigue siendo 16 m3 o, por el contrario, hay evidencias de que ha disminuido con
= 0,1?
Dado que lo que conocemos es que el consumo medio era de 16 m 3, eso es lo
que suponemos como cierto que se mantiene en la actualidad, por tanto, ser
nuestra H0. Por el contrario, queremos contrastar si el programa de ahorro ha
surtido efecto, es decir, si la media ha disminuido, con lo cual esa ser nuestra H 1.
En consecuencia, el contraste ser:

Se trata de un contraste unilateral y su regin de aceptacin viene dada por:

Mirando en tablas z0,1 obtenemos 1,28.

En consecuencia, la regin de aceptacin ser

Calculamos ahora el valor del estadstico de contraste:

Dado que z = -1,18 est en la regin de aceptacin, podemos afirmar a un nivel


de significacin del 10% que la media que el consumo medio no ha variado y en
consecuencia el programa de ahorro no ha surtido efecto.
El clculo del p-valor, en este caso, es sencillo segn la tabla anterior:

Dado que < p llegamos a la misma conclusin de no rechazar H0.


ACADEMIA AL CUADRADO, C.B

APUNTES DE ESTADSTICA AVANZADA

40

EJEMPLO 2
Un banco quiere analizar si las comisiones que cobra a sus clientes por
operaciones en el mercado burstil difieren significativamente de las que cobra
la competencia, cuya media es de 12 euros mensuales con una desviacin
estndar de 4,3 euros. Para ello toma una muestra de 64 operaciones burstiles
y observa que la comisin promedio es de 13,6 euros. Contrastar al nivel de
significacin del 5% que este banco no difiere significativamente en el cobro de
las comisiones por operaciones en la Bolsa con respecto a la competencia.
Como el banco quiere contrastar si sus comisiones son distintas de la
competencia plantear el siguiente contraste:

Al ser un contraste bilateral, la regin de aceptacin ser:

Como es

, en consecuencia, habr que buscar z 0,025 cuyo

valor es 1,96. Por tanto la regin de aceptacin ser

Calculamos ahora el estadstico:

Como
existen evidencias en contra de H0 y, en consecuencia, a una
nivel de significacin del 5%, podemos afirmar que las comisiones cobradas por el
banco difieren significativamente de las de la competencia.
El p-valor de este contraste es:
ACADEMIA AL CUADRADO, C.B

APUNTES DE ESTADSTICA AVANZADA

41

Dado que p < concluimos que se debe rechazar H0.


EJEMPLO 3
Un informe indica que el precio medio del billete de avin entre Canarias y
Madrid es como mximo de 120 con una desviacin tpica de 40 . Se toma
una muestra al azar de 100 viajeros y se obtiene que la media de los precios de
sus billetes es de 128 . Se puede aceptar, con un nivel de significacin de 0,1
la afirmacin de partida?
La hiptesis nula ser aquella que es cierta y esto es que el precio medio no
supera los 120 . Por tanto el contraste es:

Se trata de un contraste unilateral y su regin de aceptacin viene dada por:


.
Mirando en tablas z0,1 obtenemos 1,28. Luego la regin de aceptacin ser
.

Calculamos ahora el valor del estadstico de contraste:

Dado que z = 2 no est en la regin de aceptacin, podemos afirmar a un nivel


de significacin del 10% que el precio medio del billete es superior a 120 .
El clculo del p-valor, en este caso, es sencillo segn la tabla anterior:
ACADEMIA AL CUADRADO, C.B

APUNTES DE ESTADSTICA AVANZADA

42

Dado que p < llegamos a la misma conclusin de rechazar H0.


3. CONTRASTE PARA LA MEDIA DESCONOCIDA LA DESV. TPICA.
Ahora no conocemos la desviacin tpica poblacional con lo que usaremos el
estadstico de contraste que usamos para construir el intervalo de confianza en esta
situacin.
La tabla con los datos del contraste ser:
Bilateral

Unilateral

Contraste
Estadstico
Reg. Acept.
Decisin
Prob. Lmite
A la hora de calcular la regin de aceptacin podemos sustituir la "t" por "z",
cuando el tamao de la muestra es mayor que 30, como ya vimos en los intervalos
de confianza (teorema central del lmite).
EJEMPLO 4
Se piensa que el tiempo medio que est en paro un tipo de profesional de
un determinado sector es de 13,5 meses. Para contrastar esta hiptesis al nivel
del 5% se tom una muestra de 45 profesionales que estuvieron en paro en ese
sector y se obtuvo una media de 17,2 meses y una cuasi-desviacin tpica de
15,3 meses. Contrastar si se puede afirmar la hiptesis de partida.
ACADEMIA AL CUADRADO, C.B

APUNTES DE ESTADSTICA AVANZADA

43

El contraste a realizar ser:

Se trata de un contraste bilateral y su regin de aceptacin vendr dada por:

pero dado que el tamao de la muestra es mayor que 30, consideraremos la regin
de aceptacin siguiente:

Calculamos ahora el valor del estadstico:

Como
no podemos rechazar, al nivel del 5%, la hiptesis nula y, por
tanto, el tiempo medio de paro es de 13,5 meses.

EJEMPLO 5
Una famosa pizzera afirma que el tiempo que tarda el cliente en recibir su
pedido es una variable aleatoria con distribucin normal de media . Adems
asegura que nunca es mayor que 12. No obstante, un cliente se ha quejado
de que en los 9 ltimos pedidos efectuados en das elegidos al azar, el tiempo
medio calculado por l ha sido de 17,792 minutos con una cuasivarianza
muestral de 36. Contrastar, al nivel de significacin del 5% la afirmacin de la
pizzera.
De los datos del enunciado se desprende que el test a realizar es:

ACADEMIA AL CUADRADO, C.B

APUNTES DE ESTADSTICA AVANZADA

44

pues, en principio, suponemos como cierta (H0) la afirmacin de la pizzera.


Dado que en el enunciado no figura datos sobre la desviacin tpica poblacional
utilizaremos el estadstico:

Como es un contraste unilateral la regin de aceptacin ser:

Calculamos el valor del estadstico:

Dado que t se encuentra fuera de C0, podemos afirmar, con un nivel de


significacin del 5%, que el tiempo medio que esperan los clientes de la pizzera en
recibir su pedido supera los 12 minutos.
Calculemos el p-valor del contraste:

Al ser p < rechazamos H0.

EJEMPLO 6
Una persona est convencida que puede afirmarse que el tiempo medio de
espera de un autobs es de ms de 15 minutos. Para ello anota tiempos de
espera elegidos al azar de dicho autobs obteniendo los siguientes valores en
minutos:
ACADEMIA AL CUADRADO, C.B

APUNTES DE ESTADSTICA AVANZADA

45

14, 19, 20, 14, 17, 24, 14, 20, 20


Si se admite que dicho tiempo de espera sigue una distribucin normal,
contrastar al nivel del 5% la hiptesis de la persona.
Dado que la persona quiere contrastar que el tiempo medio de espera es de ms
de 15 minutos, sta ser la hiptesis que establezcamos como alternativa. Es ms,
dado que, a priori, no hay pruebas de que eso sea as, estableceremos como cierto
lo contrario, es decir, que el tiempo medio de espera es, como mximo, de 15
minutos y slo lo rechazaremos si los datos nos indican lo contrario.
El contraste a realizar ser por tanto:

Dado que en el enunciado no figura datos sobre la desviacin tpica poblacional


utilizaremos el estadstico:

Como es un contraste unilateral la regin de aceptacin ser:

Para calcular el valor del estadstico necesitamos la media muestral y la


cuasidesviacin tpica muestral:

ACADEMIA AL CUADRADO, C.B

APUNTES DE ESTADSTICA AVANZADA

46

Entonces el estadstico de contraste ser:

Dado que t se encuentra fuera de C0, podemos afirmar, con un nivel de


significacin del 5%, que el tiempo medio de espera del autobs es de ms de 15
minutos, lo que confirma la hiptesis de la persona.
Calculemos el p-valor del contraste:

Mirando en tablas observamos que este valor est acotado entre 0,025 y 0,01,
por tanto p < , lo que confirma el rechazo de H0.

4. CONTRASTE PARA LA VARIANZA.


Tratamos ahora de realizar contrastes sobre los valores de la varianza
poblacional. El cuadro de estos contrastes es el siguiente:

Bilateral

Unilateral

Contraste
Estadstico
Reg. Acept.
Decisin

ACADEMIA AL CUADRADO, C.B

APUNTES DE ESTADSTICA AVANZADA

47

EJEMPLO 7
En medidas de ngulos con un cierto teodolito, un topgrafo asegura que
la varianza que obtiene es igual o menor que 5. Se le pone a prueba y se le
hacen 20 determinaciones, obtenindose una varianza de 6. Si la variable
medida del ngulo es normal, podemos aceptar su aseveracin a un nivel de
significacin del 1%?
Del enunciado se extrae inmediatamente que el contraste a realizar es:

cuya regin de aceptacin es

Calculamos el estadstico de contraste que ser:

Dado que t est en la regin de aceptacin, no podemos rechazar H 0 a un nivel


de significacin del 1%, y por tanto, deberemos aceptar que las medidas de los
ngulos con el teodolito tienen una varianza menor o igual que 5.
EJEMPLO 8
Sea una poblacin normal con media y varianza desconocida en la que se
pretende contrastar que su varianza es de 75. Para ello seleccionamos una
muestra aleatoria de tamao n = 25, resultando que la varianza muestral ha
sido s = 38,75. Admitimos como el nivel de significacin =0,10.
El contraste a realizar es:

ACADEMIA AL CUADRADO, C.B

APUNTES DE ESTADSTICA AVANZADA

48

cuya regin de aceptacin es:

El estadstico de contraste ser:

Dado que t no est en la regin de aceptacin, debemos rechazar H 0 a un nivel


de significacin del 10%, y por tanto, tendremos que afirmar que la varianza de
dicha poblacin no es 75.

5. CONTRASTE PARA LA PROPORCIN.


Contrastaremos ahora si la proporcin de personas que cumplen una
determinada caracterstica es igual a un valor o est por encima o por debajo de l.
Bilateral

Unilateral

Contraste

Estadstico
Reg. Acept.
Decisin
Prob. Lmite
EJEMPLO 9
ACADEMIA AL CUADRADO, C.B

APUNTES DE ESTADSTICA AVANZADA

49

Inicialmente el porcentaje de usuarios no satisfechos con un software en


pruebas era del 30%. Tras unas medidas de mejora, se tom una muestra de
800 usuarios resultando que 208 no estaban satisfechos con el software.
Contrastar a un nivel de significacin del 4% si ha habido mejora en el
porcentaje de satisfaccin.
Contrastar si ha habido mejora equivale a contrastar si la proporcin de
insatisfechos ha disminuido. Por tanto esto ser lo que tomemos como hiptesis
alternativa. En consecuencia, el contrate ser:

La regin de aceptacin de este contraste es:

La proporcin muestral nos servir para calcular el estadstico de contraste:

Dado que z no est en C0, podemos rechazar a un nivel de significacin del 4%


la hipotsis de que la proporcin no ha mejorado y, en consecuencia, afirmar que
las medidas de mejora han surtido efecto.
El p-valor de este contraste es:

que al ser menor que confirma el rechazo de la hiptesis nula.


ACADEMIA AL CUADRADO, C.B

APUNTES DE ESTADSTICA AVANZADA

50

EJEMPLO 10
Hace 10 aos, el 65% de los habitantes de determinada comunidad
autnoma estaba en contra de la instalacin de una central nuclear.
Recientemente se ha realizado una encuesta a 300 habitantes y 190 se
mostraron contrarios a la instalacin. Con estos datos y con un nivel de
significacin de 0,01, se puede afirmar que la proporcin de contrarios a la
central sigue siendo la misma?
Dado que queremos contrastar si la proporcin sigue siendo la misma o ha
variado, tomaremos como H0 lo que se sabe que es que la proporcin de contrarios
es 0,65 y como H1 que no lo es. Hacemos el siguiente contraste bilateral:

cuya regin de aceptacin es:

La proporcin muestral nos servir para calcular el estadstico de contraste:

Dado que z est en C0, no podemos rechazar a un nivel de significacin del 1%


la hipotsis nula y, en consecuencia, aceptaremos que no ha variado dicha
proporcin.
El p-valor de este contraste es:

ACADEMIA AL CUADRADO, C.B

APUNTES DE ESTADSTICA AVANZADA

51

Dado que el p-valor es mayor que , confirmamos la aceptacin de H0.


EJEMPLO 11
Una marca de nueces afirma que como mximo el 6% de las nueces estn
vacas. Se eligieron 300 nueces al azar y se detectaron 21 vacas. Con un nivel
de significacin del 1%, se puede aceptar la afirmacin de la marca?
Consideraremos como H0 la afirmacin de la marca ya que es lo que se supone
que es cierto y mantendremos salvo que el contraste lo refute. El contraste ser, por
tanto:

La regin de aceptacin de este contraste es:

La proporcin muestral nos servir para calcular el estadstico de contraste:

Dado que z est en C0, no podemos rechazar a un nivel de significacin del 1%


la hipotsis nula y, en consecuencia, aceptaremos que como mximo el 6% de las
nueces estn vacas.
El p-valor de este contraste es:
ACADEMIA AL CUADRADO, C.B

APUNTES DE ESTADSTICA AVANZADA

52

Dado que el p-valor es mayor que , confirmamos la aceptacin de H0.


6. CONTRASTE PARA LA IGUALDAD DE MEDIAS (POB. INDEP)
Trataremos aqu los contrastes para comparar la media de dos poblaciones (X e
Y) que se consideran independientes. Distinguiremos los casos en que las
varianzas poblacionales, aunque desconocidas, sean iguales o no, por lo que
haremos dos tablas, una para cada caso.

Varianzas desconocidas pero iguales (X e Y homocedsticas).


Bilateral

Unilateral

Contraste

Estadstico

Reg. Acept.
Decisin
Prob. Lmite

donde los grados de libertad de t se calculan g = nx + ny - 2


Varianzas desconocidas y distintas.
Bilateral

Unilateral

ACADEMIA AL CUADRADO, C.B

APUNTES DE ESTADSTICA AVANZADA

53

Contraste

Estadstico

Reg. Acept.
Decisin
Prob. Lmite
siendo:

EJEMPLO 12
En una prueba general realizada por todo el alumnado de un nivel de
enseanza se han detectado diferencias que parecen significativas entre dos
grupos, uno diurno y otro nocturno. El primero, de 67 alumnos, ha obtenido
una media en la calificacin de 5,23 con una desviacin tpica de 1,78. En el
otro, compuesto de 58 alumnos, la media ha sido 4,78 y la desviacin tpica
1,60. No se tiene informacin sobre las caractersticas y los parmetros de la
poblacin. Puede ser significativa la diferencia de rendimiento entre los dos
turnos al 95% de nivel de confianza?
El problema nos indica que no conocemos la distribucin de la poblacin pero
sabemos que al ser las muestras grandes podemos suponer normalidad. El contraste
a plantear es:

ACADEMIA AL CUADRADO, C.B

APUNTES DE ESTADSTICA AVANZADA

54

Del problema se extraen los siguientes datos:

Para calcular el estadstico de contraste necesitamos las cuasivarianzas


muestrales:

Calculamos, ahora, el estadistico de contraste:

Calculamos ahora g, para obtener la regin de aceptacin:

As, la regin de aceptacin ser:

ACADEMIA AL CUADRADO, C.B

APUNTES DE ESTADSTICA AVANZADA

55

Dado que t est en la regin de aceptacin podemos concluir a un nivel de


significacin del 5% que no hay diferencias significativas en los dos grupos.
El p-valor de este contraste es:

que al ser mayor que el nivel de significacin confirma la aceptacin de la


hiptesis nula.
NOTA: en este caso, al ser las muestras grandes, podramos haber aproximado
la t de Student por la z de la normal estndar, obtenindose en ese caso la siguiente
regin de aceptacin:

prcticamente igual a la que hemos obtenido con la t. De hecho, cuando tengamos


muestras grandes haremos esta aproximacin dado que nos evitamos todo el
engorroso clculo de los grados de libertad.
EJEMPLO 13
Se dispone de los rendimientos de dos mquinas. La mquina A ha
proporcionado los rendimientos:
137.5, 140.7, 106.9, 175.1, 177.3, 120.4, 77.9, 104.2
ACADEMIA AL CUADRADO, C.B

APUNTES DE ESTADSTICA AVANZADA

56

mientras que la mquina B ha proporcionado los siguientes rendimientos:


103.3, 121.7, 98.4, 161.5, 167.8, 67.3
Suponiendo hiptesis de normalidad y homocedasticidad, contrastar la
hiptesis de que el rendimiento medio de las mquinas A y B es el mismo,
considerando = 0,05.
Al especificarnos el problema claramente la hiptesis de homocedasticidad,
consideramos las varianzas igual, aunque sean desconocidas. El contraste es:

Calculemos en primer lugar la media y la varianza de cada muestra:

Con estos datos calculamos el estadstico de contraste:

ACADEMIA AL CUADRADO, C.B

APUNTES DE ESTADSTICA AVANZADA

57

Los grados de libertad sern g = nx + ny 2 = 8 + 6 2 = 12

La regin de aceptacin es:

Como t est en C0 no podemos rechazar la hiptesis nula al nivel de


significacin del 5% y, en consecuencia, deberemos admitir que ambas mquinas
tienen el mismo rendimiento.
El p-valor de este contraste es:

que al ser mayor que el nivel de significacin confirma la aceptacin de la


hiptesis nula.
7. CONTRASTE PARA LA IGUALDAD DE MEDIAS (POB. DEP)
En este ltimo contraste que vamos a estudiar haremos contraste para la
igualdad de medias en poblaciones dependientes. Pero, qu entendemos por
poblaciones dependientes?
Consideremos el ejemplo anterior de la mquina A y la B. Al tomar las
muestras de dos mquinas diferentes, se considera que esas poblaciones son
independientes. Pero, y si tomamos el rendimiento de la mquina A y
posteriormente a un proceso de mejora volvemos a tomar otra muestra de la misma
mquina? Entonces las poblaciones seran dependientes.
Este es el supuesto que vamos a considerar aqu: las muestras se toman en
diferentes momentos el tiempo pero de la misma poblacin. Por ejemplo.
Supongamos que medimos la nota media de un grupo de alumnos en un examen de
ACADEMIA AL CUADRADO, C.B

APUNTES DE ESTADSTICA AVANZADA

58

estadstica y queremos saber si se ha modificado despus de una clases intensivas,


realizando a los mismos alumnos un nuevo examen. Este contraste tambin se
conoce como de datos apareados.
El cuadro de este contraste es el siguiente:
Bilateral

Unilateral

Contraste

Estadstico
Reg. Acept.
Decisin
Prob. Lmite
EJEMPLO 14
Para comprobar la utilidad de una tcnica de enriquecimiento
motivacional un investigador pasa una prueba de rendimiento acadmico a
una muestra de 16 sujetos. Despus aplica su tcnica de enriquecimiento y.
tras ello, vuelve a pasar la prueba de rendimiento. Los resultados fueron los
siguientes:
A
D

8
9

12
16

14
23

11
21

16
17

6
10

11
14

9
8

10
11

10
12

19
19

12
16

17
16

8
13

13
17

12
11

A un nivel de confianza del 95%, podemos rechazar que los rendimientos


acadmicos son iguales antes que despus frente a la alternativa de que se
produce una mejora?
El que se produzca una mejora implica que la media despus es mayor que la
media antes. El contraste sera entonces:
ACADEMIA AL CUADRADO, C.B

APUNTES DE ESTADSTICA AVANZADA

59

Escribimos de nuevo la tabla pero incluyendo las diferencias entre antes y


despus:

A
D
Z

8
9
1

12
16
4

14
23
9

11
21
10

16
17
1

6
10
4

11
14
3

9
8
-1

10
11
1

10
12
2

19
19
0

12
16
4

17
16
-1

8
13
5

13
17
4

12
11
-1

Calculamos la media y la cuasi-desviacin tpica de z:

Con estos datos, el estadstico de contraste es:

La regin de aceptacin de este contraste es:

Dado que t no est en C0 debemos rechazar al nivel de significacin del 5% que


las medias antes y despus sigan siendo iguales, y en consecuencia, aceptaremos
que la tcnica de enriquecimiento ha producido una mejora.

El p-valor de este contraste es:

ACADEMIA AL CUADRADO, C.B

APUNTES DE ESTADSTICA AVANZADA

60

que al ser menor que el nivel de significacin confirma el rechazo de la hiptesis


nula.

TEMA 4: CONTRASTES NO PARAMTRICOS


1. INTRODUCCIN.
En el tema anterior estudiamos contrastes de hiptesis basados en el
conocimiento de la distribucin de probabilidad de la que proceda la muestra,
limitando nuestro estudio a realizar hiptesis acerca de los parmetros de la misma.
En ocasiones, el investigador no est seguro de la distribucin de probabilidad de
la que proceden las observaciones de la muestra y parece arriesgado hacer algn
supuesto concreto acerca de la misma.
En tal situacin, el investigador puede estar interesado en contrastar si se puede
aceptar una distribucin concreta para la poblacin de la que proceden las
observaciones muestrales y no en hacer conjeturas sobre los parmetros de la
poblacin. Los contrastes que se utilizan para estas cuestiones se denominan no
paramtricos.
Los tipos de contrastes que estudiaremos son los siguientes: contrastes de
ajuste a una distribucin terica (contraste
de bondad de ajuste y contraste de
Kolmogorov-Smirnov), contrastes de comparacin de dos muestras independientes
(contrastes de Wilcoxon y contraste de Mann-Whitney) y el contraste
independencia en una tabla de contingencia.

2. CONTRASTE

de

DE BONDAD DE AJUSTE.

Este contraste sirve para contrastar si la poblacin de la que se ha extrado una


muestra de tamao "n" sigue una distribucin de probabilidad concreta. El
contraste suele ser:
Ho : La poblacin sigue una distribucin F(x)
ACADEMIA AL CUADRADO, C.B

APUNTES DE ESTADSTICA AVANZADA

61

H1 : La poblacin no sigue una distribucin F(x)


Para ello se basa en observar las diferencias entre las frecuencias absolutas
observadas en la muestra (nj) y las frecuencias absolutas tericas que deberan de
darse si realmente la poblacin siguiera esa distribucin (Ej).

Cabe pensar que si realmente la poblacin sigue la distribucin que pensamos,


las diferencias entre nj y Ej tendern a cero. El procedimiento general es el
siguiente:
Agrupamos los datos observados en "m" clases de las que tenemos su
frecuencia observada (nj).
Calculamos las frecuencias esperadas o tericas (E j) segn la distribucin
que estemos contrastando.

Calculamos el siguiente estadstico:


que ser el que nos
proporcione la informacin relativa a las diferencias entre nj y Ej.
Cuanto ms prximo sea a cero el valor del estadstico ms ajustada estar la
distribucin de la poblacin a la distribucin en estudio. Pero nos podramos
preguntar, cmo de pequeo debe de ser el estadstico para que podamos aceptar a
un nivel de significacin la hiptesis nula de que la poblacin sigue tal
distribucin?

La respuesta est en compararlo con un valor crtico que es


donde "m"
es el nmero de clases en que se ha dividido la muestra y "r" el nmero de
parmetros estimados ya que en ocasiones habr que estimar algn parmetro para
calcular Ej pues nos dirn que contrastemos que la poblacin sigue tal distribucin
pero no nos dirn cul es el parmetro de la distribucin y tendremos que estimarlo
por mxima verosimilitud a partir de los datos de la muestra. En caso de que nos
digan el o los parmetros y no haya que estimarlos r valdr cero.

ACADEMIA AL CUADRADO, C.B

APUNTES DE ESTADSTICA AVANZADA

62

Este valor
es el valor que nos separa la regin de aceptacin de la
regin crtica, de manera que:

Si P <

aceptaremos Ho al nivel de significacin .

Si P >

no aceptaremos Ho al nivel de significacin .

EJEMPLO 1
El nmero de asignaturas aprobadas en una determinada convocatoria
universitaria por 60 alumnos ha sido el siguiente:

N aprobadas
N alumnos

0
10

1
15

2
15

3
10

4
6

5
4

Podramos aceptar, a un nivel de significacin del 5%, la hiptesis de que el


nmero de asignaturas aprobadas sigue una distribucin de Poisson?
En primer lugar no nos dicen nada sobre el parmetro de esa distribucin de
Poisson, por lo que deberemos estimarlo a partir de la muestra por mxima
verosimilitud. Sabemos que el estimador mximo-verosmil del parmetro de una
distribucin de Poisson es la media muestral por lo que la calculamos:

As pues, nuestra distribucin de Poisson tendr parmetro 1,983.


El test a realizar ser el siguiente:
Ho : La poblacin sigue una distribucin de Poisson de parmetro 1,983
ACADEMIA AL CUADRADO, C.B

APUNTES DE ESTADSTICA AVANZADA

63

H1 : La poblacin no sigue una distribucin de Poisson de parmetro 1,983


Calculamos ahora las frecuencias tericas esperadas en una distribucin de
Poisson para los valores de la muestra. Estos valores vendrn dados por

Calculamos ahora el estadstico P, pero dado que hay una frecuencia absoluta
esperada menor que 5, la de la ltima clase, juntaremos las dos ltimas clases as:
n5 + n6 = 10

E5 + E6 = 8,4

ACADEMIA AL CUADRADO, C.B

APUNTES DE ESTADSTICA AVANZADA

Buscamos el valor crtico que ser

64

. Dado que P <

, podemos aceptar a un nivel de significacin del 5% que el nmero de


asignaturas aprobadas sigue una distribucin de Poisson.
EJEMPLO 2
Se cree que el nmero de erratas por pgina de un determinado libro sigue
una distribucin de Poisson. Elegida una muestra aleatoria simple de 250
pginas del mencionado libro se obtuvo la siguiente distribucin de
frecuencias absolutas sobre dicho nmero de erratas por pgina:
N erratas
N pginas

0
35

1
72

2
68

3
48

4
17

5
6

6
3

7
1

Se puede afirmar con un nivel de significacin del 5% que el nmero de


erratas por pgina del libro sigue una distribucin de Poisson?

Al igual que en el ejercicio anterior no conocemos el parmetro de la


distribucin de Poisson por lo que lo estimaremos a partir de la muestra por
mxima verosimilitud:

El test a realizar ser, por tanto:


Ho : La poblacin sigue una distribucin de Poisson de parmetro 1,9
H1 : La poblacin no sigue una distribucin de Poisson de parmetro 1,9
Calculamos ahora las frecuencias tericas esperadas en una distribucin de
Poisson para los valores de la muestra. Estos valores vendrn dados por

ACADEMIA AL CUADRADO, C.B

APUNTES DE ESTADSTICA AVANZADA

65

Como existen frecuencias esperadas menores que 5, agruparemos las tres


ltimas para que no haya ninguna con frecuencia menor a 5 y formamos la
siguiente tabla:
i

nj

pj

0
1
2
3

35
72
68
48

0,1496
0,2842
0,27
0,171

37,4
71,05
67,5
42,75

-2,4
0,95
0,5
5,25

5,76
0,9025
0,25
27,5625

ACADEMIA AL CUADRADO, C.B

APUNTES DE ESTADSTICA AVANZADA


4

17
10

0,0812
0,044

20,30
11

-3,3
-1

66

10,89
1

De esta forma el estadstico de contraste sera:

Buscamos el valor crtico que ser

. Dado que P <

, podemos aceptar a un nivel de significacin del 5% que el nmero de


asignaturas aprobadas sigue una distribucin de Poisson.
EJEMPLO 3
Con dado de pker se han realizado 600 tiradas con el siguiente resultado:
Caras
As
K
Q
J
Rojo
Negro

ni
70
115
122
98
85
110

Puede admitirse a un nivel de significacin del 5% que el dado est bien


construido?
Que el dado est bien construido equivale a decir que la muestra de 600 tiradas
proviene de una distribucin uniforme con una probabilidad de 1/6 para cada cara
del dado.
El contraste a realizar ser:

Ho : La poblacin sigue una distribucin uniforme


H1 : La poblacin no sigue una distribucin uniforme

ACADEMIA AL CUADRADO, C.B

APUNTES DE ESTADSTICA AVANZADA

67

Calculamos ahora las frecuencias tericas esperadas que sern todas iguales
dado que la probabilidad de que salga cada cara es la misma e igual a 1/6. Por
tanto:

con j = 1, 2, ..., 6
Realizamos la siguiente tabla para calcular el estadstico de contraste:

nj

pj

As
K
Q
J
Rojo
Negro

70
115
122
98
85
110

1/6
1/6
1/6
1/6
1/6
1/6

100
100
100
100
100
100

-30
15
22
-2
-15
10

900
225
484
4
225
100

De esta forma el estadstico de contraste sera:

Buscamos el valor crtico que ser

. Dado que P >

, rechazaramos a un nivel de significacin del 5% que la distribucin de la


poblacin es uniforme y, en consecuencia, que el dado est bien construido.
3. CONTRASTE DE KOLMOGOROV-SMIRNOV.
Este contraste es similar al anterior. Se utiliza tambin para determinar si la
poblacin de la que procede la muestra sigue o no una distribucin concreta,
normalmente para distribuciones continuas y tamao muestral pequeo, y se basa
en la comparacin de la funcin de distribucin terica acumulada de la
ACADEMIA AL CUADRADO, C.B

APUNTES DE ESTADSTICA AVANZADA

68

distribucin objeto de hiptesis (F0(x)), con una funcin de distribucin acumulada


observada o emprica (F*(x)) de la muestra.
Los valores de F*(x) se calculan con la siguiente expresin:

Los valores de F0(x) se calculan con la funcin de distribucin de la


distribucin objeto de contraste.
El procedimiento consiste en ordenar los valores de la muestra y para cada uno
de ellos calcular F*(x) y F0(x).

Calcularamos el siguiente estadstico:


la siguiente correccin

y si n > 30 haremos

Comparamos dicho valor que estar tabulado en la tabla Kolmogorov-Smirnov


para los valores dados de n y . Este ser el valor crtico que denominaremos d .
Para n > 30 se puede aproximar d por la siguiente expresin:

La regla de decisin ser:


Si d < d aceptaremos Ho al nivel de significacin .
Si d > d no aceptaremos Ho al nivel de significacin .
ACADEMIA AL CUADRADO, C.B

APUNTES DE ESTADSTICA AVANZADA

69

EJEMPLO 4
Los tiempos de respuesta de 9 sujetos en una tarea de reconocimiento de
palabras previamente presentadas, han sido los siguientes:
115, 98, 123, 109, 112, 87, 118, 104, 106
A un nivel de confianza del 95%, son compatibles estos resultados con la
hiptesis de que el tiempo de reaccin en esta tarea sigue una distribucin
normal de media 110 y desviacin tpica 10?
El contraste a realizar ser:
Ho : La poblacin sigue una distribucin normal
H1 : La poblacin no sigue una distribucin normal
Dado que la variable es continua, el tamao muestral pequeo y en la hiptesis
nula est totalmente especificada la distribucin utilizaremos un contraste de
Kolmogorov-Smirnov.
Para ello construiremos una tabla donde aparezcan:
xi: sern los datos de la muestra ordenados en orden creciente.
zi: sern los datos anteriores tipificados.
F*(xi): sern los valores de la funcin de distribucin emprica, teniendo en
cuenta que n = 9.
F0(xi): ser P(z<zi)
no realizaremos todos los clculos para no extender
demasiado la resolucin, solamente pondremos el resultado, pero se pueden
calcular fcilmente con PQRS.

: sern las diferencias entre la funcin de distribucin


acumulada emprica y la terica.
xi
zi

87

98

104

109

112

115

116

118

123

-2,3

-1,2

-0,6

-0,1

0,2

0,5

0,6

0,8

1,3

ACADEMIA AL CUADRADO, C.B

APUNTES DE ESTADSTICA AVANZADA


F*(xi)
F0(xi) = P(z<zi)

0,1111

0,2222

0,3333

0,4444

0,5556

0,6667

0,7778

0,8889

0,0107

0,1151

0,2743

0,4602

0,5793

0,6915

0,7257

0,7881

0,9032

0,1004

0,1071

0,059

0,0158

0,0237

0,0248

0,0521

0,1008

0,0968

Calculamos el estadstico d:
correccin porque n< 30.

70

(no aplicamos la

Por ltimo miramos en la tabla dn, = d9,005 = 0,43. Dado que d < 0,43,
aceptamos al nivel de significacin del 5% que el tiempo de reaccin procede
sigue una distribucin normal N(110,10).
EJEMPLO 5
Las tallas, medidas en metros, de nueve peces de espada capturados por
un palangrero, fueron:
1.628, 1.352, 1.800, 1.420, 1.594, 2.132, 1.614, 1.924, 1.692
Estudiar si se puede admitir, a un nivel de significacin del 5% que los datos
siguen una distribucin normal.
El contraste a realizar ser:
Ho : La poblacin sigue una distribucin normal
H1 : La poblacin no sigue una distribucin normal

Tenemos que estimar la media y la desviacin tpica a partir de los datos de la


muestra, para poder calcular las zi:

ACADEMIA AL CUADRADO, C.B

APUNTES DE ESTADSTICA AVANZADA

71

Escribimos la tabla como en el ejercicio anterior:


xi
zi
F*(xi)
F0(xi) = P(z<zi)

1,352

1,420

1,594

1,614

1,628

1,692

1,800

1,924

2,132

-1,373

-1,092

-0,372

-0,289

-0,232

0,033

0,480

0,992

1,852

0,1111

0,2222

0,3333

0,4444

0,5556

0,6667

0,7778

0,8889

0,085

0,137

0,355

0,386

0,408

0,513

0,684

0,840

0,968

0,026

0,085

0,022

0,058

0,147

0,153

0,094

0,049

0,032

Calculamos el estadstico d:
porque n< 30.

(no aplicamos la correccin

Por ltimo miramos en la tabla dn, = d9,005 = 0,43. Dado que d < 0,43,
aceptamos al nivel de significacin del 5% que la talla de los peces de espada sigue
una distribucin normal.
4. CONTRASTE DE MANN-WHITNEY.
La prueba U de Mann-Whitney se utiliza para contrastar si dos muestras
independientes proceden o no de la misma poblacin. Requiere que las dos
poblaciones sean continuas.
La hiptesis nula de este contraste es que las esperanzas matemticas de las
poblaciones de las que provienen las muestras sean iguales frente a la alternativa
de que no lo son (contraste bilateral) o que una de ellas, previamente escogida, es
superior a la otra (contraste unilateral).

El contraste se basa en ordenar los datos de las dos muestras como si fueran
una sola, de manera que se le asigna un orden a cada dato. Si las esperanzas
matemticas de ambas poblaciones son iguales cabra esperar que la suma de
rangos de los valores de cada muestra fueran parecidos. En caso contrario los
valores de cada muestra estaran agrupado al principio o al final de la muestra
ACADEMIA AL CUADRADO, C.B

APUNTES DE ESTADSTICA AVANZADA

72

conjunta y sus valores esperados no seran parecidos, con lo que razonablemente


tampoco cabra esperar que lo fueran los de las poblaciones de las cuales
provienen.
La metodologa de este contraste es la siguiente:
Supongamos dos muestras X e Y de tamao nx y ny respectivamente.
Ordenamos los datos de menor a mayor de las dos muestras conformando
una sola muestra de tamao nx + ny.
Asignamos un orden (rango) a cada dato empezando por 1 y terminando por
nx + ny.
Si hubiera valores iguales se le asigna como rango la media aritmtica de los
rangos de cada uno.
Calculamos la suma de rangos de cada muestra que llamaremos Wx y Wy.
Calculamos los siguientes estadadsticos:

El estadstico de contraste es
de manera que se rechazar H0
cuando sea T < Ttablas (que es el valor crtico proporcionado por la tabla de
Mann-Whitney para el tamao de las muestras y el nivel de significacin
considerados).

EJEMPLO 6
En una publicacin se lee que el consumo de carne en dos Comunidades
Autnomas espaolas, Andaluca y Extremadura, difiere significativamente.
ACADEMIA AL CUADRADO, C.B

APUNTES DE ESTADSTICA AVANZADA

73

Para contrastar si hay diferencias se anota el consumo en kg durante un


determinado perodo de una muestra de 10 extremeos (X) y 5 andaluces (Y)
encontrando los siguientes resultados:
Extremeos: 16, 11, 14, 21, 18, 34, 22, 7, 12, 12
Andaluces: 12, 14, 11, 30, 10
A un nivel de significacin del 5%, se puede afirmar que el consumo de carne
depende de la comunidad autnoma ?
Lo que queremos contrastar es si el consumo de carne es igual o distinto en
cada comunidad autnoma, es decir, si se puede considerar que las dos muestras
proceden de poblaciones iguales. Para ello realizaremos la prueba U de MannWhitney.
El test por tanto ser:

Para ello ordenamos los datos de la muestra conjunta y asignamos rangos:


X
7
1
1

Y
10
2
2

X
11
3
3,5

Y
11
4
3,5

X
12
5
6

X
12
6
6

Y
12
7
6

X
14
8
8,5

Y
14
9
8,5

X
16
10
10

X
18
11
11

X
21
12
12

X
22
12
13

Y
30
14
14

X
34
15
15

En la tabla anterior, se recogen en la primera fila si el dato pertenece a la


muestra X o a la muestra Y, en la segunda el valor de cada dato, en la tercera el
rango que corresponde a cada dato y en la ltima el rango que utilizaremos para
calcular Wi una vez desechos los empates.
De la tabla se extrae entonces que:

y
ACADEMIA AL CUADRADO, C.B

APUNTES DE ESTADSTICA AVANZADA

74

Calculamos ahora los estadsticos Ux y Uy:

Elegimos
El valor observado en tablas es T10,5;005 = 8 y dado que T > Ttablas
aceptamos al nivel de significacin del 5% que no hay diferencias significativas en
el consumo de carne en ambas comunidades autonomas.
Aproximacin del test de Mann-Whitney por la normal.
Cuando el tamao de las muestras es grande (n x, ny > 30), el estadstico T se
ajusta bastante bien a la distribucin normal, de manera que al tipificarlo se obtiene
un valor de z que habr que ver si pertenece o no a la regin de aceptacin, que
este caso son las siguientes:

Para la tipificacin se tomara como media y desviacin tpica los siguientes


valores:

ACADEMIA AL CUADRADO, C.B

APUNTES DE ESTADSTICA AVANZADA

75

donde C es el nmero de grupos donde hay empate y t c el nmero de datos que


empatan en cada grupo.
EJEMPLO 7
Dos operarios son contratados para el procesado industrial de fruta. Se
mide la productividad de cada uno a partir de los kilos tratados diariamente
durante 30 das, resultando las siguientes cantidades X e Y atribuibles a cada
uno:
X
Y

220
215
208
212

205
217
207
213

225
223
210
215

214
213
200
203

218
226
202
215

221
219
215
221

208
215
210
206

209
216
198
205

219
212
207
200

207
217
201
209

213
221
209
212

216
214
212
210

212
222
210
220

209
206
206
200

211
218
205
206

Comparar las distribuciones X e Y, al nivel de significacin del 5%. Puede


afirmarse que la productividad de los operarios es la misma? Datos:

;
Se trata de comparar las distribuciones de X e Y, y dado que las muestras se
toman de personas diferentes, consideramos muestras independientes y
utilizaremos el contraste de Mann-Whitney.
Para ello, ordenaremos los datos en una muestra conjunta, ya que aunque nos
dan la suma de rangos, vamos a aproximar el estadstico a una normal y
necesitamos conocer cuntos empates hay y cuntos datos hay en cada uno para
calcular la desviacin tpica, y nos ser ms fcil ver esto si los ordenamos. As
pues:
198, 200, 200, 200, 201, 202, 203, 205, 205, 205, 206, 206, 206, 206, 207, 207,
207, 208, 208, 209, 209, 209, 209, 210, 210, 210, 210, 211, 212, 212, 212, 212,
212, 213, 213, 213, 214, 214, 215, 215, 215, 215, 215, 216, 216, 217, 217, 218,
218, 219, 219, 220, 220, 221, 221, 221, 222, 223, 225, 226

ACADEMIA AL CUADRADO, C.B

APUNTES DE ESTADSTICA AVANZADA

76

Dado que conocemos la suma de rangos calculamos los estadsticos Ux y Uy:

Elegimos T = 172,5 por ser el menor valor.


Como las muestras son grandes aplicaremos el ajuste a la normal, de manera
que:

Calcularemos aparte
, donde tc es el nmero de datos que empatan en
cada empate. Hay 7 dobles empates, 5 triples empates, 3 cudruples empates y 2
quntuples empates. Luego:

Luego:

ACADEMIA AL CUADRADO, C.B

APUNTES DE ESTADSTICA AVANZADA

77

Al tipificar T con estos datos resulta:

La regin de aceptacin del contraste es:

Como z no est en C0 no aceptamos al nivel de significacin del 5% la


hiptesis de que los dos operarios trabajan de la misma forma.
5. CONTRASTE DE WILCOXON.
Este contraste se utiliza para lo mismo que el anterior, decidir si existen
diferencias significativas entre dos poblaciones. La diferencia con el contraste de
Mann-Whitney radica en que las muestras deben de ser de datos apareados, es
decir, relacionadas y con el mismo nmero de elementos (n).
Los pasos para realizar este contraste son los siguientes:
Calcular las diferencias entre los datos de la muestra y hacerles el valor
absoluto:

. Las diferencias que salga 0 se descartan.

Asignar un rango a cada diferencia en valor absoluto, de manera que si


hay empates se procede igual que en el test de Mann-Whitney.
Una vez calculados los rangos ponerle signo positivo a aquellos cuyas
diferencias fueran positivas y signo negativo a aquellos cuyas diferencias
fueran negativas.
ACADEMIA AL CUADRADO, C.B

APUNTES DE ESTADSTICA AVANZADA

78

Sumar los rangos de las diferencias positivas (W+). Este ser nuestro
estadstico de contraste T.
Comparamos dicho estadstico con el T observado en tablas para el
tamao muestral y el nivel de significacin considerados de forma que si
T < Ttablas (valor crtico de la tabla de Wilcoxon para el tamao de la
muestra y el nivel de significacin considerados) se rechaza H0.

Cuando la muestra es grande el estadstico T se puede aproximar por una


normal cuya media y varianza son, respectivamente:

de manera que si
cae en la regin de aceptacin aceptaremos
H0. Las regiones de aceptacin son las tpicas:

EJEMPLO 8
Una empresa de cosmticos est estudiando nuevas fragancias y ha
desarrollado dos nuevos productos que desea comparar, X e Y. Ha elegido una
muestra de 20 personas que valoran en una escala de 1 a 10, el aroma de cada
uno de los productos obteniendo los siguientes resultados:
Pe 1 2 3 4 5 6 7 8 9 1
r
0
P1 6 4 5 8 3 6 7 5 6 7
P2 2 2 3 5 4 6 9 6 7 6

11 1
2
9 5
3 4

1
3
5
6

1
4
2
1
0

1
5
6
8

1
6
8
3

1
7
9
4

1
8
4
5

1
9
6
8

20
5
4

ACADEMIA AL CUADRADO, C.B

APUNTES DE ESTADSTICA AVANZADA

79

Comparando ambas distribuciones ( = 0,05), puede afirmarse que


existen diferencias en las valoraciones de los dos productos?
Dado que los dos productos estn valorados por las mismas personas
consideramos muestras apareadas y utilizaremos un test de Wilcoxon.
El test a realizar es:
H0: no existen diferencias en las valoraciones
H1: s existen diferencias en las valoraciones
A continuacin calcularemos las diferencias en valor absoluto, le asignaremos
un rango a cada una y desharemos los empates para establecer el rango definitivo
(las diferencias iguales a 0 se descartan):
Per
P1
P2
Dif
V.Abs
R Pro
R def

1
6
2
4
4
1
5
1
5

2
4
2
2
2
9
11

3
5
3
2
2
1
0
11

4
8
5
3
3
1
4
1
4

5
3
4
-1
1
1
4,
5

6
6
6
0
0

7
7
9
-2
2
11

8
5
6
-1
1
2

9
6
7
-1
1
3

10
7
6
1
1
4

11
9
3
6
6
18

12
5
4
1
1
5

13
5
6
-1
1
6

14
2
10
-8
8
19

15
6
8
-2
2
12

16
8
3
5
5
16

17
9
4
5
5
17

18
4
5
-1
1
7

19
6
8
-2
2
13

20
5
4
1
1
8

11

4,
5

4,
5

4,5

18

4,5

4,5

19

11

16,
5

16,
5

4,5

11

4,5

Con estos datos el estadstico T+ = 115,5.


Dado que el tamao de las muestras es suficientemente grande haremos la
aproximacin a la normal. Los valores de la media y la desviacin tpica son:

Tipificando el valor de T+ obtenido se tiene:

La regin de aceptacin es:


ACADEMIA AL CUADRADO, C.B

APUNTES DE ESTADSTICA AVANZADA

80

Y como z est en la regin de aceptacin aceptamos al nivel de significacin


del 5% que no existen diferencias significativas en la valoracin de ambos
productos.

6. CONTRASTE DE INDEP. EN TABLA DE CONTINGENCIA


El ltimo contraste que vamos a estudiar nos servir para contrastar si dos
variables estn relacionadas o no y normalmente se presenta en una tabla
bidimensional. Observemos la siguiente tabla que podra ser el enunciado de uno
de estos contrastes:

Nia
Nio

Sexo
Total

Deportes
17
51
68

Prioridad
Notas
101
95
196

Total
Popular
75
38
113

193
184
377

La pregunta que nos pueden plantear es si a un nivel de significacin dado se


puede aceptar que la eleccin en la prioridad est relacionada con el sexo.
Esta tabla, de forma genrica, se puede representar as:
Y
X

.
.

.
.

ACADEMIA AL CUADRADO, C.B

APUNTES DE ESTADSTICA AVANZADA

..

81

..
..

..

..
. . .
.
.
.

En la tabla anterior:
nij = frecuencia absoluta de la celda (i,j), es decir, nmero de casos que se
presentan cuando X = xi e Y = yj
ni. = frecuencia absoluta de la fila i.
n.j = frecuencia absoluta de la columna j.
n..= frecuencia absoluta de la tabla (nmero total de observaciones
contenidas en la tabla).
El contraste trata de ver si la diferencia entre los dos grupos es debida o no al
azar, de manera que compara las frecuencias observadas (n ij) y las que cabra
esperar en caso de que X e Y fueran independientes (frecuencias esperadas Eij).
Las frecuencias esperadas se calculan de la siguiente forma:

El estadstico de contraste ser:

que se puede aproximar por el estadstico de Pearson:


ACADEMIA AL CUADRADO, C.B

APUNTES DE ESTADSTICA AVANZADA

82

La distribucin muestral de estos estadsticos se puede aproximar a una


distribucin Chi-cuadrado siempre que Eij > 1 para todo i, j. Como esto casi
siempre ser as podemos decir que:

La regin de aceptacin ser:

El p-valor del contraste ser:

EJEMPLO 9
En 2008 se llev a cabo un estudio a adolescentes chilenos titulado
Usuarios habituales de videojuegos. Uno de los aspectos que se estudi entre
los que juegan regularmente fue la frecuencia a cantidad de tiempo dedicada
a jugar segn el sexo cuyos datos se recopilan a continuacin.

Sexo
Mujer
Hombre

Diariamente
3
24

Frecuencia de juego
Habit. (3 das/sem)
39
212

Fin de semana
60
111

Determina si son independientes estas variables con = 0,05.


Es claro que nos piden hacer un contraste de independencia en una tabla de
contingencia, pues hay dos variables en estudio: el sexo de los adolescentes (X) y
la frecuencia de juego (Y).
ACADEMIA AL CUADRADO, C.B

APUNTES DE ESTADSTICA AVANZADA

83

Lo primero que haremos ser calcular las frecuencias de cada fila y columna as
como la total de la tabla.

Sexo
Mujer
Hombre
n.j

Diaria
3
24
27

Frecuencia de juego
Habitual
Fin Semana
39
60
212
111
251
171

ni.
102
347
449

Ahora calcularemos las frecuencias esperadas:

Con estos datos la tabla de frecuencias observadas queda de la siguiente forma:

Sexo
Mujer
Hombre

Diariamente
6,13
20,87

Frecuencia de juego
Habit. (3 das/sem)
57,02
193,98

Fin de semana
38,85
132,15

As ya podemos calcular el estadstico:

La regin de aceptacin es:

ACADEMIA AL CUADRADO, C.B

APUNTES DE ESTADSTICA AVANZADA

84

Como P no est en C0 no aceptamos H0 al nivel de significacin del 5% y, en


consecuencia, las variables no son independientes.
El p-valor del contraste es:

que dado que es menor que confirma el rechazo de la hiptesis nula.

TEMA 5: MODELOS CAUSALES


1. INTRODUCCIN
Con frecuencia, nos encontramos en diferentes disciplinas, como la economa,
con modelos en los que el comportamiento de una variable Y se puede explicar a
travs de una variable X, lo que se puede representar por:

Si la relacin entre X e Y es de tipo lineal podremos escribir:

ACADEMIA AL CUADRADO, C.B

APUNTES DE ESTADSTICA AVANZADA

85

es decir, si tuviremos i observaciones de la variable X y otras tantas de la variable


Y, la relacin anterior nos dara la recta que pasa por los puntos que formar cada
par de valores (x,y). En tal caso, si existiese esa recta que pasa por todos los
puntos, diramos que las variables X e Y estn perfectamente relacionadas.
Sin embargo, esto no suele ser as, es decir, las variables X e Y pueden tener un
grado de relacin entre ellas pero no estar perfectamente relacionadas, esto es, que
no exista una recta que pase por todo los pares de puntos. En tal caso, trataramos
de ajustar una recta a los puntos, pero siempre cometeramos un error dado que
sera imposible encontrar una recta que pasara por todos. A este error se le llama
perturbacin aleatoria y se denota por , de manera que la expresin de la recta
sera:

El problema que se nos plantea es que si no podemos encontrar una recta que
pase por todos los puntos y hemos de ajustar una, qu valores de
y
tomamos?, pues en realidad existen muchas rectas que se ajustan a un conjunto de
puntos. Es decir, nuestro problema es cmo estimar los coeficientes de la recta.

Aunque, como hemos dicho, existen muchas rectas que se ajustan a un


conjunto de puntos, parece razonable que una recta que se ajuste bien a ellos ser
aquella en la que se minimice los errores cometidos por la estimacin.
Concretamente la mejor recta que se ajusta a un conjunto de puntos es aquella que
minimiza la suma de los cuadrados de los errores, por lo que plantearemos el
mtodo de mnimos cuadrados para realizar la estimacin de los coeficientes.
2. MTODO DE MNIMOS CUADRADOS.
Como hemos dicho, este mtodo consiste en minimizar la suma de los
cuadrados de los errores. Empecemos despejando el error en funcin de x e y:

ACADEMIA AL CUADRADO, C.B

APUNTES DE ESTADSTICA AVANZADA

86

Por tanto la suma de los cuadrados de los errores ser:

Para minimizar esa suma tendremos que derivar respecto de


cero:

e igualar a

Igualando a cero se tiene:

(1)

(2)

Operando en (1):

Operando en (2):

ACADEMIA AL CUADRADO, C.B

APUNTES DE ESTADSTICA AVANZADA

87

Las ecuaciones obtenidas al operar (1) y (2) se llaman ecuaciones normales de


la recta de regresin. La solucin del sistema que forman nos dan los estimadores
mnimo cuadrticos de
sistema:

. Daremos directamente la solucin sin resolver el

donde Sxy es la covarianza entre X e Y, Sx2 es la varianza de X y


a partir de
punto

se ha obtenido

aplicando la propiedad de la recta de regresin de que pasa por el


.

3. COEFICIENTE DE CORRELACIN.
Estamos estudiando modelos en los que una variable Y se relaciona de forma
lineal con otra variable X. Sin embargo nada hemos dicho acerca de cmo es esa
relacin, es decir, como medir si dichas variables estn mucho o poco relacionadas.
El grado de relacin entre las variables se mide por el coeficiente de
correlacin lineal, que vara entre -1 y 1. La frmula para calcularlo es:

donde
es la covarianza entre X e Y y
muestrales de X e Y, respectivamente.

son las desviaciones tpicas

El coeficiente de correlacin puede tomar los siguientes valores:

ACADEMIA AL CUADRADO, C.B

APUNTES DE ESTADSTICA AVANZADA

88

Valores entre -1 y 0 indican que existe una relacin fuerte e inversa entre
las variables, de manera que dicha relacin se hace ms dbil cuanto ms
prximo est el valor de r a 0 y ms fuerte cuanto ms prximo est a -1.
rxy = 0 indica que no existe relacin entre las variables.
Valores entre 0 y 1 indican una relacin fuerte y directa entre las
variables de manera que dicha relacin se hace ms dbil cuanto ms
prximo est r a 0 y ms fuerte cuanto ms prximo est a 1.
4. COEFICIENTE DE DETERMINACIN.
Hemos mencionado anteriormente que la mejor manera de ajustar una recta a
una nube de puntos es mediante el mtodo de mnimos cuadrados. Sin embargo
esto no implica que el ajuste sea bueno, es decir, encontraremos siempre la mejor
recta que se ajusta a ellos pero si los datos estn demasiado dispersos el ajuste no
ser bueno aunque dicha recta sea la mejor.
Para determinar si el ajuste es bueno utilizaremos el coeficiente de
determinacin que es el cuadrado del coeficiente de correlacin, es decir, R2 = rxy2.
El coeficiente de determinacin toma valores entre 0 y 1.
El coeficiente de determinacin mide el porcentaje de la variabilidad de Y
explicado mediante el modelo de regresin, por tanto, el ajuste es tanto mejor
cuanto ms prximo este R2 a 1.En general, se puede decir que el ajuste es bueno
cuando R2 > 0,75.

5. CONTRASTE SOBRE LOS COEFICIENTES DEL MODELO.


En este punto nos centraremos en el contraste de significacin sobre la
pendiente de la recta de regresin. Su formulacin es la siguiente:

ACADEMIA AL CUADRADO, C.B

APUNTES DE ESTADSTICA AVANZADA

89

Este contraste tiene el inters de que si aceptamos H 0 la recta sera


y no existira relacin entre las variables.
El estadstico de contraste es:

cuya distribucin es tn 2
La regin de aceptacin es:

de manera que si t cae en dicha regin se acepta H 0 y las variables no estaran


relacionadas.
EJEMPLO 1
En una encuesta se han tomado datos sobre el consumo de un cierto
producto (Y) y de la renta disponible (X).
X
Y

212
40

152
32

155
35

121
33

96
26

185
37

68
25

126
27

Se pide:
a) Obtener estimaciones mnimo cuadrticas de los parmetros del
modelo que exprese el consumo en funcin de la renta disponible.
b) Calcular los errores del modelo estimado.
c) Proporcionar una medida sobre la bondad del ajuste realizado,
interpretando el resultado.
ACADEMIA AL CUADRADO, C.B

APUNTES DE ESTADSTICA AVANZADA

90

d) Realizar el contraste de significacin sobre la pendiente de la recta de


regresin al nivel de significacin = 0,05.

a) La recta de regresin ser

De los datos se calcula fcilmente que:

(los clculos se han realizado en Excel)


Entonces los coeficientes de la recta de regresin sern:

Luego la recta de regresin es Y = 16,66 + 0,109X


b) Los errores del modelo sern la diferencia entre la y i reales, proporcionadas
en el enunciado y las estimadas calculadas sustituyendo cada x i en la recta
de regresin. La siguiente tabla proporciona dichos datos (las y i estimadas
se han calculado en Excel con los datos obtenidos anteriormente en la recta
de regresin):

Xi
212
152
155
121
96
185
68

Yi
40
32
35
33
26
37
25

39,800
33,253
33,580
29,870
27,142
36,854
24,086

ei
0,200
-1,253
1,420
3,130
-1,142
0,146
0,914
ACADEMIA AL CUADRADO, C.B

APUNTES DE ESTADSTICA AVANZADA


126

27

30,415

91

-3,415

En la tabla anterior se ha incluido X para calcular Yestimada con la recta de


regresin. La columna ei se ha obtenido como Yi -

c) La medida de la bondad del ajuste nos la da el coeficiente de determinacin.


Calculamos primero el coeficiente de correlacin:

El ajuste es bastante bueno ya que el coeficiente de determinacin est muy


prximo a 1. La interpretacin de este resultado es que el 86,9% de la variabilidad
de Y est explicada por el modelo de regresin.
d) El contraste que queremos hacer es:

El estadstico de contraste es:

La regin de aceptacin es:

ACADEMIA AL CUADRADO, C.B

APUNTES DE ESTADSTICA AVANZADA

92

Como t no se encuentra en la regin de aceptacin se rechaza H 0 al nivel de


significacin del 5% y, en consecuencia, el coeficiente
es distinto de cero y las
variables estn relacionadas, tal como preveamos pues el coeficiente de
correlacin era muy prximo a 1.
6. ANLISIS DE LA VARIANZA.
Supongamos una poblacin de las notas yi,r de 9 alumnos de tres grupos
distintos. As:
Grupo 1
5
5
5

Grupo 2
5
5
5

Grupo 3
5
5
5

Evidentemente en este caso la media global de los 9 alumnos es 5 y la de cada


grupo tambin es 5, es decir,

Supongamos ahora que aplicamos un mtodo de enseanza que afecta subiendo


las notas del grupo 1 en 1 punto, las de grupo 2 en 2 puntos y no modificando las
notas del grupo 3. La tabla sera ahora:
Grupo 1
5+1=6
5+1=6
5+1=6

Grupo 2
5+2=7
5+2=7
5+2=7

Grupo 3
5
5
5

Parece claro que el mtodo de enseanza aplicado (a lo que llamaremos factor)


influye en establecer diferencias entre las medias de los grupos, de manera que
ahora la nota de un alumno ser

, donde

es la variacin producida en

ACADEMIA AL CUADRADO, C.B

APUNTES DE ESTADSTICA AVANZADA

93

cada grupo por el factor aplicado (1,2 y 0, respectivamente). Es decir, podemos


decir que hay variaciones entre los grupos debidos a la presencia del factor.
Pero tambin puede haber variaciones dentro del mismo grupo por razones
aleatorias o que no dependan del factor. En el ejemplo que nos ocupa, podramos
pensar que es bastante habitual que haya alumnos que rindan ms que otros, de
manera que dentro del mismo grupo se pueden producir variaciones aleatorias
no debidas a la presencia del factor.
En el ejemplo podra ser algo como esto:
Grupo 1
5+1-1=5
5+1-2=4
5+1+0=
6

Grupo 2
5+2+2=
9
5+2+0=
7
5+2+1=
8

Grupo 3
5+0+3=
8
5+0+4=
9
5+0+0=
5

En la tabla anterior observamos que el efecto debido al factor (entre grupos) se


materializan en los nmeros 1,2 y 0 mientras que los efectos aleatorios (intra
grupos) se materializan en los nmeros -1,2,0,2,0,1,3,4 y 0.
Resumiendo podemos decir que la media de un conjunto de datos puede variar
por dos motivos: la presencia de un factor y razones aleatorias.
En este punto nos vamos a ocupar de un tcnica que se llama anlisis de la
varianza pare determinar si la presencia de un factor provoca diferencias
significativas entre las medias de cada grupo.
Dado que esas diferencias pueden estar provocadas por el factor y por razones
aleatorias, para poder afirmar que el factor produce efectos, la variabilidad entre
grupos ha de ser significativamente grande respecto a la intra grupos.

Supongamos una variable aleatoria Y sobre la que se han tomado n


observaciones de manera que obtenemos f muestras correspondientes a las f
ACADEMIA AL CUADRADO, C.B

APUNTES DE ESTADSTICA AVANZADA

94

categoras del factor. Si el tamao de la muestra para cada categora es el mismo


(n*) estaremos antes un modelo balanceado en el que n = fn*.
Esto se representa en la siguiente tabla:
NIVELES DEL FACTOR
i
r

1
2
r
n*
El modelo sera el siguiente:

donde:

es la obsrvacin r-sima del nivel i

es la media general

efecto del i-simo nivel del factor

efecto aleatorio independiente

Lo que queremos contrastar es si existen diferencias significativas entre los


grupos debido a la presencia del factor, es decir, si las medias son iguales o no lo
son, luego el contraste ser:

ACADEMIA AL CUADRADO, C.B

APUNTES DE ESTADSTICA AVANZADA

95

Aceptar H0 implicar aceptar que el factor no influye significativamente en los


grupos.
Para aplicar este mtodo debemos de partir de unas consideraciones generales:
Independencia de los errores: los errores experimentales han de ser
independientes. Esto se consigue si los elementos de los diversos grupos han
sido elegidos por muestreo aleatorio.
Normalidad: se supone que los errores experimentales se distribuyen
normalmente lo que supone que cada una de las observaciones y ir siguen una
distribucin normal.
Homogeneidad de varianzas (homocedasticidad): las varianzas de los
subgrupos han de ser iguales.
Para aplicar el test nos basaremos en lo que llamamos sumas de cuadrados:
SCT = SCI + SCE
SCT: Suma de cuadrados total
SCI: suma de cuadrados inter grupos.
SCE: suma de cuadrado entre grupos.
En la prctica calcularemos SCT y SCE y SCI la obtendremos por diferencia.

donde
representa el valor de cada observacin e
es la media del conjunto
*
total de datos, n es el tamao de cada muestra y f el nmero de niveles del factor.

ACADEMIA AL CUADRADO, C.B

APUNTES DE ESTADSTICA AVANZADA

96

donde n* es el tamao de cada muestra (para nosotros ser el mismo en cada una
porque suponemos que el modelo es balanceado),
correspondientes a cada nivel del factor e
datos y f el nmero de niveles del factor.

es la media de datos

es la media total del conjunto de

Una vez calculados estos valores procedemos a construir la tabla ANOVA:


F.V

S.C

G. L

Factor F

SF

f-1

Error

n-f

Total

SY

n-1

C.M

donde:

F.V: factor de variacin


S.C: suma de cuadrados.
G.L: grados de libertad.
C.M: cuadrados medios
F: estadstico de contraste que sigue una distribucin Ff-1,n-f

La regin de aceptacin del contraste es:

y el p-valor es:

ACADEMIA AL CUADRADO, C.B

APUNTES DE ESTADSTICA AVANZADA

97

EJEMPLO 2
Se quiere averiguar si tres tipos de gasolina presentan diferencias
significativas en cuanto a sus efectos contaminantes. Para ello se seleccionaron
al azar doce vehculos en los que se aplicaron aleatoriamente los tres tipos de
gasolinas obtenindose los siguientes datos respecto a reduccin de xido de
nitrgeno:
Gasolina I
Gasolina II
Gasolina III

23
28
22

26
29
25

25
27
26

25
25
27

Con estos datos, pueden inferirse diferencias significativas entre los 3 tipos
de gasolina a un nivel de significacin del 5%?
En este ejercicio nos dicen que contrastemos el efecto que produce cada tipo de
gasolina en la contaminacin. Tenemos 3 grupos (gasolina I, gasolina II y gasolina
III), y las mediciones de contaminacin para cada grupo. Tenemos que ver si el
echar un tipo de gasolina u otro influye en las medias de cada grupo y esto lo
contrastaremos con una tabla ANOVA.
El contraste es:

Para realizar la tabla ANOVA hemos de calcular la suma de cuadrado total


y la suma de cuadrados del factor

Clculo de SY.
Empezaremos calculando la media total del conjunto de datos (

):

ACADEMIA AL CUADRADO, C.B

APUNTES DE ESTADSTICA AVANZADA

98

Entonces la suma de cuadrados total SY ser:

Clculo de SF.
Empezaremos calculando las medias de cada grupo:

Entonces:

Por ltimo, calculamos la suma de cuadrados residual:

ACADEMIA AL CUADRADO, C.B

APUNTES DE ESTADSTICA AVANZADA

99

Con estos datos, ya podemos realizar la tabla ANOVA, teniendo en cuenta que f =
3, pues existen 3 niveles del factor (grupos) y n = 12 que es nmero de
observaciones totales.
F.V

S.C

G. L

Factor F

15,16

Error

27,5

Total

42,66

11

C.M

La regin de aceptacin del contraste es:

Como F se encuentra en la regin de aceptacin, aceptamos H0 al nivel de


significacin del 5%, pudiendo afirmar que no existen diferencias significativas en
la reduccin de xido de nitrgeno en los 3 tipos de gasolinas.
El p-valor del contraste es:

que dado que es mayor que confirma la aceptacin de H0.

ACADEMIA AL CUADRADO, C.B