Anda di halaman 1dari 28

MAESTRÍA EN ADMINISTRACIÓN DE NEGOCIOS

ESTADÍSTICA APLICADa A LA INVESTIGACIÓN: ANÁLISIS EXPLORATORIO DE


DATOS

III. ANÁLISIS DE DOS O MÁS VARIABLES


3.1. Tablas de correlación y de contingencia.
En muchas ocasiones interesa estudiar dos o más variables (cualitativos o cuantitativos)
simultáneamente en un conjunto de individuos. Centrándonos en el caso bidimensional,
denotamos con xi a los distintos valores que toma la variable X y con yj los distintos valores
que toma la variable Y y definimos:

- Frecuencia absoluta CONJUNTA del par (xi , yj ): nij , es el número de individuos que
presentan simultáneamente los valores: xi en X e yj en Y .

- Frecuencia Relativa CONJUNTA del par (xi , yj ): fij = nij /n, es la proporción de
individuos que presentan simultáneamente los valores xi en X e yj en Y del total
de individuos n.

- Distribución Bidimensional de frecuencias es el conjunto de valores de la variable


bidimensional (X, Y ) junto a las frecuencias conjuntas de dichos valores. Una forma
de presentar una distribución bidimensional de frecuencias es mediante una tabla de
doble entrada. Su forma general es la siguiente:

X/Y y1 y2 ... yi ... yh ni.


x1 n11 n12 n1i n1h n1.
x2 n21 n22 n2i n2h n1.
...
xi n11 n12 n1i n1h n1.
...
xk nk1 nk2 nki nkh n1.
n.j n.1 n.2 n.i n.h n

Nota: Si X e Y se pueden ordenar, los valores se colocan ordenados de menor a mayor.


La última fila y columna proporcionan las frecuencias marginales de X e Y por separado.
Cuando X e Y son variables cualitativas o atributos la tabla de doble entrada se denomina
tabla de contingencia, cuando X e Y son variables numéricas se habla de tabla de correlaciones.
Para hacer tablas de contingencia con R y calcular distintas frecuencias y porcentajes
se usan los siguientes comandos:
mytable < − table(X,Y) # mytable es una tabla con X en filas e Y en columnas
mytable < − xtabs(∼X+Y) # mytable es una tabla con X en filas e Y en columnas
margin.table(mytable, 1) # frecuencias marginales de X
margin.table(mytable, 2) # frecuencias marginales de Y
prop.table(mytable) # proporciones totales de cada celda
prop.table(mytable, 1) # proporciones respecto a la fila
prop.table(mytable, 2) # proporciones respecto a la columna

1
También se pueden usar las siguientes funciones, previa instalación de algún paquete
como Rcmdr
totPercents(mytable) # porcentajes totales con suma marginal
rowPercents(mytable) # porcentajes respecto a la fila con totales y recuento
colPercents(mytable) # porcentajes respecto a la fila con totales y recuento

Ejercicio 1.
Carga el archivo del paquete car y calcula la tabla de contingencia entre “oil” y “region”

> library(car)
> help(Leinhardt)
> attach(Leinhardt)

> mytable<-table(oil,region)
> mytable
region
oil Africa Americas Asia Europe
no 31 21 26 18
yes 3 2 4 0

> prop.table(mytable)
region
oil Africa Americas Asia Europe
no 0.29523810 0.20000000 0.24761905 0.17142857
yes 0.02857143 0.01904762 0.03809524 0.00000000

> totPercents(mytable)
Africa Americas Asia Europe Total
no 29.5 20.0 24.8 17.1 91.4
yes 2.9 1.9 3.8 0.0 8.6
Total 32.4 21.9 28.6 17.1 100.0

3.2. Representaciones gráficas

Las representaciones gráficas bidimensionales son muy variadas y dependen,


fundamentalmente, del tipo de variables X e Y que estemos estudiando. A continuación
destacamos algunos gráficos muy utilizados dependiendo del tipo de variables:

1. PARA DOS VARIABLES CUALITATIVAS:

- Diagrama de rectángulos agrupados:


Las modalidades de Y se representan en el eje de abcisas y para cada una de ellas se
generan tantos rectángulos como modalidades de X haya. Pueden colocarse apilados o
unos al lado de otros. La altura de cada rectángulo viene dada por la frecuencia
conjunta, aunque también se pueden usar distintos tipos de porcentajes. Además,
todos los rectángulos asociados a la misma modalidad de Y presentan igual color.

La instrucción básica en R para esta gráfica es barplot(mytable), la cual admite


diferentes opciones.

2
Ejercicio 2.

- Ejecuta la función siguiente:

> barplot(mytable, beside=TRUE, legend=rownames(mytable),


+ xlab="region", ylab="frecuencia",col=rainbow(2),main="Distribución Países por
región y petróleo")
Distribución Paises por region y oil

30
no
yes

25
20
frecuency

15
10
5
0

Africa Americas Asia Europe

region

- Prueba a cambiar sus opciones, por ejemplo:


> barplot(mytable, legend.text=c(“no”,”si”), col=c("darkblue","red"))

- Haz diagramas de barras con porcentajes:


> table2<-prop.table(mytable,2)
> table2<-table2*100
> table2
> barplot(table2)

2. PARA DOS VARIABLES CUANTITATIVAS:

- Diagrama de dispersión o nube de puntos:


Los valores de X se representan en el eje de abcisas y los valores de Y en el eje de
ordenadas y cada par de valores (xi, yj) se representa como un punto. Se pueden usar
representaciones de los puntos que permitan caracterizar las frecuencias.

La instrucción básica en R para esta gráfica es plot(X,Y), aunque admite diferentes


opciones. Consulta help(plot).

Ejercicio 3.

- Ejecuta la función siguiente:

>plot(income, infant, main="Scatterplot Example", xlab="income",ylab="infant",


+col="red",pch=19)

3
Scatterplot Example

600
500
400
infant

300
200
100
0

0 1000 2000 3000 4000 5000

income

- Prueba a cambiar las distintas opciones del comando anterior.

- Añade una recta de ajuste usando:


>abline(lm(infant∼income), col="red")

-Transforma las variables infant e income usando logaritmos y repite el gráfico y el


ajuste lineal.

3. PARA UNA VARIABLE CUALITATIVA Y OTRA CUANTITATIVA:

- Diagrama de CAJA POR GRUPOS:


En el eje de abcisas se colocan las modalidades del atributo X y sobre ellas (en
vertical) se representan los diagramas de caja de la variable numérica Y calculados
sólo para el grupo de individuos con dicha modalidad.

La instrucción básica en R para esta gráfica es boxplot(Y∼X), puesto que:


El formato general del diagrama de caja boxplot(x, data=),, donde x es una fórmula
y data= denota el dataframe que proporciona los datos. Un ejemplo de una fórmula
es y~grupo, donde se genera un diagrama de caja separada de la variable numérica y
para cada valor de grupo. Añadir varwidth = TRUE para hacer el ancho del boxplot
proporcional a la raíz cuadrada de los tamaños de las muestras. Añadir horizontal =
TRUE para invertir la orientación del eje.

Ejercicio 3.

- Representa el diagrama de caja de income según la región de cada país.

> boxplot(income~region, main="Boxplot Example", xlab="region",ylab="income",


+col="red")

4
Boxplot Example

5000
4000
3000
income

2000
1000
0

Africa Americas Asia Europe

region

- Prueba con las opciones varwidth = TRUE y horizontal = TRUE.

3.3 Independencia y dependencia estadística

Una variable se dice que depende funcionalmente de otra cuando existe una función
que permite obtener los valores de la primera a partir de los de la segunda. La
situación opuesta a la dependencia funcional es la independencia estadística, que se
presentará cuando entre las variables no exista ningún tipo de relación.
Para definir formalmente la condición de independencia se utiliza el razonamiento de
que si X es independiente de Y, su distribución de frecuencias, dado cualquier valor de
Y, no debe variar y debe coincidir con su distribución marginal (la de X). Es decir, que
para todo i se tiene:
ni1 ni 2 nij n n
= = ... = = ... = ih = i•
n•1 n•2 n• j n• h n
Esto equivale a la condición:
nij ni⋅ n. j
= ∀i, j
n n n
o bien a que nij=eij para todo i,j, siendo
ni⋅ n. j
eij =
n

Entre los dos casos planteados, dependencia funcional e independencia estadística,


pueden existir muchas situaciones intermedias, donde existe una cierta relación entre
las variables que no puede ser expresada de modo exacto mediante una función: son
casos de dependencia estadística.

5
Para profundizar en el estudio de las relaciones entre variables que presentan
dependencia estadística existen diversas técnicas y modelos estadísticos. Entre ellos
destacan:

1. PARA DOS VARIABLES CUALITATIVAS:


Medidas de asociación entre atributos
2. PARA DOS VARIABLES CUANTITATIVAS:
Medidas de la correlación y modelos de regresión
3. PARA UNA VARIABLE CUALITATIVA Y OTRA CUANTITATIVA:
Comparación de las distribuciones numéricas condicionadas a las modalidades del
atributo.

En un primer paso abordaremos estas técnicas solamente desde un punto de vista


descriptivo.

3.4. Análisis de variables cualitativas. Medidas de asociación

A partir de una tabla de contingencia podemos determinar si dos caracteres


cualitativos o atributos son o no independientes mediante la condición de
independencia de las frecuencias. Cuando los atributos son estadísticamente
dependientes tiene interés medir su grado de dependencia o asociación. Una forma de
hacerlo es comparando las frecuencias eij con nij.
En esta línea, se puede definir la medida de asociación chi-cuadrado dada por:
(nij − eij ) 2
χ =∑
2

i, j eij
Este coeficiente mide, en términos relativos, cuanto dista la distribución conjunta de
los atributos de la situación de independencia; por tanto, cuanto mayor sea el valor de
χ² mayor será el grado de asociación entre los atributos; en caso de independencia,
χ²=0. Esta medida no está acotada.

Coeficiente de contingencia C
Se define como sigue:
χ2
C=
χ2 +n
El coeficiente C de contingencia está acotado entre 0 y 1, obteniéndose el valor 0 en el
caso de independencia entre los atributos.
El valor 1 nunca se alcanza y en el caso de tablas cuadradas (h=nºfilas= nºcolumnas)
h −1
se puede probar que el máximo valor que puede tomar C es h . Algunos
ejemplos son:
k=h: 2 3 4 5 6
max. C: 0.71 0.82 0.87 0.89 0.91

Observación: test Chi-cuadrado de independencia.


Cuando estamos en un contexto de inferencia, en realidad calculamos la medida Chi-
cuadrado sobre una muestra de los individuos de la población.
En esta situación es prácticamente imposible que el Chi-cuadrado de la muestra nos de
exactamente 0 aunque las variables sean independientes en la población (del mismo
modo que, aun estando equilibrada una moneda, es bastante difícil que al lanzarla 50
veces nos salgan exactamente 25 caras y 25 cruces).

6
Así que la pregunta en este caso es: ¿A partir de qué valor consideraré que el Chi-
cuadrado resulta demasiado grande para poder asumir que la muestra procede de un
modelo poblacional independiente?
En realidad estoy “contrastando (juzgando) la hipótesis (nula) de que las
variables son independientes en la población” y decido aceptar esa hipótesis
si el valor del Chi-cuadrado que se obtiene en la muestra no difiere
significativamente de valores que considero razonables cuando la hipótesis (nula)
de independencia es cierta. En caso de que existan diferencias significativas
rechazaré la hipótesis y supondré que las variables son dependientes en la población.
Los contrastes o test de hipótesis proporcionan una metodología para decidir si
aceptamos o rechazamos una hipótesis sobre una población. Corresponden a las
técnicas de Inferencia Estadística que revisaremos brevemente en un apartado
posterior.
En el caso del test Chi-cuadrado de independencia, para poder aplicarlo correctamente
se debe cumplir que la muestra sea grande (n>30) y las frecuencias esperadas
mayores o iguales a 5. En ese caso un p-valor inferior a 0.05 nos indicara una
discrepancia alta entre los valores observados y la hipótesis de independencia, que nos
llevará a rechazar la independencia.

En R la medida de asociación chi-cuadrado se calcula como parte del test chi-cuadrado


de independencia para una tabla de contingencia de (X,Y):
> mytable <- table(X,Y)
> test<-chisq.test(mytabla)
> test

Algunas opciones de este objeto son:

> test$observed
> test$expected
> test$residuals
> test$statistic

El coeficiente de contingencia se puede definir utilizando una función.

Ejercicio 4

- Estudia las caracterísicas de help(chisq.test)


- Calcula la tabla de contingencia, frecuencias observadas, esperadas, residuos, medida
chi-cuadrado y p-valor del test de independencia para la tabla de contingencia entre oil
y region.

- ¿ Qué obtienes al hacer > (sum(test$residuals^2)) ?


- ¿ Qué obtienes al hacer > sum(test$observed) ?

-Define el coeficiente de contingencia y calcula su valor para la tabla (oil,region)


> Contingencia<-function(X,n){ sqrt( X/(X+n) )}

3.5. Coeficientes de correlación entre variables numéricas

Cuando dos variables numéricas presentan dependencia estadística, interesa


determinar en qué medida están relacionadas. La correlación entre dos variables
numéricas es una medida del grado de dependencia mutua entre dichas variables.
Diremos que la correlación es positiva si al aumentar una de las variables por encima
de su media, la otra lo hace también y recíprocamente; en este caso se dirá que existe

7
una relación directa entre las variables. En caso contrario, cuando al aumentar los
valores de una variable disminuyen los de la otra, se dice que la correlación es
negativa; en este caso existirá una dependencia inversa entre las variables. Cuando el
aumento o disminución de una de las variables no permita deducir el comportamiento
de la otra variable, se dirá que existe una ausencia de correlación o incorrelación.

Covarianza
La covarianza es una medida de la variación conjunta de dos variables que indica sólo
si existe relación lineal entre ellas y no de otro tipo. Es por ello que Si X e Y son
variables independientes, entonces su covarianza es 0. Sin embargo, existen variables
cuya covarianza vale 0 y no son independientes.
La covarianza entre las variables X e Y viene dada por:

∑ (xi − x )(y j − y )nij


1
S XY =
n i, j
Y el signo de SXY nos indica:
SXY > 0 → Correlación positiva.
SXY < 0 → Correlación negativa.
SXY = 0 → Ausencia de correlación.
Además, a mayor valor absoluto de SXY mayor grado de relación lineal entre X e Y.

Coeficiente de correlación lineal


La covarianza tiene el inconveniente de ser una medida absoluta, ya que depende de
las unidades de medida de las variables; por este motivo, no permite comparar el
grado de dependencia lineal de distribuciones que vienen dadas en unidades
diferentes. Además, no está acotada. Para subsanar estos inconvenientes definimos:
El coeficiente de correlación lineal de Pearson:
S XY
rXY =
S X SY
rXY es adimensional y varía entre -1 y 1: -1≤ rXY ≤ 1 .
El signo de rXY coincide con el signo de SXY y se interpreta de la misma forma.
Además, cuanto más cerca de 1 esté el valor absoluto de rXY mayor grado de relación
lineal entre X e Y. En concreto:
Si rXY =1 → Correlación positiva máxima: todos los puntos están sobre una recta de
pendiente positiva.
Si rXY = -1 → Correlación negativa máxima: todos los puntos están sobre una recta
de pendiente negativa.

Es lógico pensar que exista una relación entre el coeficiente de correlación lineal de
Pearson y la bondad de ajuste de los datos mediante una recta. Efectivamente, como
se verá en el próximo tema cuando se estudie el modelo de regresión lineal, el
cuadrado del coeficiente de correlación de Pearson coincide con la proporción de la
varianza de la variable Y que logra explicar el modelo lineal de X, esa proporción se
denomina coeficiente de determinación, R2. Así un coeficiente de correlación de 0.7
supone un 49% de variabilidad de Y explicada por el modelo lineal.

Es habitual estudiar las correlaciones entre varias variables cruzándolas dos a dos.
Estas se muestran mediante la llamada matriz de correlaciones.

Coeficiente de correlación de Spearman


Consiste en calcular el coeficiente de correlación lineal de Pearson para los rangos de
los valores de la variable. Los rangos son el valor de orden de cada valor de la

8
variable, ordenados de menor a mayor. Este coeficiente también varía entre -1 y 1, y a
mayor valor, mayor es el grado de relación entre las variables.
Representa una alternativa no paramétrica y robusta a la correlación de Pearson. Suele
utilizarse en variables ordinales, cuando hay presencia de datos atípicos o ausencia de
normalidad. En general, recoge mejor las relaciones no lineales que puedan existir
entre las variables.
En R estos coeficientes se calculan usando la función cor(x,use=” “,method=” “)
donde: x es una matriz o dataframe: use indica como tratar los datos faltantes, con
opciones all.obs, complete.obs o pairwise.complete.obs y method puede ser pearson,
spearman o kendall.

Ejercicio 5

- Ejecuta:
> cor(infant,income,use="complete.obs")

- Calcula la covarianza de las variables anteriores sustituyendo cor por cov

- Calcula el coeficiente de Spearman de las variables anteriores

- Calcula el coeficiente de Pearson y el de Spearman de los logaritmos de las variables


anteriores

- Encuentra los errores de estas sentencias:


> cov(infant,income)

> cov(infant,income,use=complete.obs)

> corr(infant,income,use="complete.obs")

> cor(log(infant),log(income),use="complete.obs",method="Pearson")

3.6. Comparación de distribuciones (relación entre una variable cualitativa y


otra cuantitativa).

Cuando analizamos la relación entre una variable cualitativa y otra cuantitativa, suele
interesar comparar el comportamiento de la distribución de la variable numérica según
los distintos valores que presenta el atributo.
A nivel de la muestra o datos observados esto se lleva a cabo a nivel gráfico (por
ejemplo con el diagrama de caja por grupos) y comparando las principales medidas
descriptivas: media, desviación, cuartiles,…

Una forma sencilla en R para la comparación de descriptivos entre los distintos grupos
se puede hacer usando: tapply()
Por ejemplo,
> data(Leinhardt)
> tapply(Leinhardt$income,list(region=Leinhardt$region),summary)
da como resultado:
$Africa
Min. 1st Qu. Median Mean 3rd Qu. Max.
50.00 82.75 132.00 273.20 219.20 3010.00
$Americas
Min. 1st Qu. Median Mean 3rd Qu. Max.
100.0 327.0 507.0 939.9 743.0 5523.0

9
$Asia
Min. 1st Qu. Median Mean 3rd Qu. Max.
71.0 100.5 245.5 638.9 539.2 3723.0
$Europe
Min. 1st Qu. Median Mean 3rd Qu. Max.
406 2081 3302 3040 3927 5596

Ejercicio 6

- Compara la media y desviación típica de infant según las regiones

-Ejecuta
> scatterplot(Leinhardt$infant~Leinhardt$income | Leinhardt$region)
Y estudia sus opciones usando help.

En la mayor parte de las situaciones donde existe incertidumbre, la comparación


descriptiva entre grupos se realiza en base a datos muestrales y es frecuente
preguntarse si las diferencias encontradas en la muestra son lo suficientemente
importantes como para no ser atribuidas al mero azar.
Esto también ocurre con los valores muestrales de los coeficientes de correlación o de
las medidas de asociación, ¿indican los valores obtenidos una dependencia en el
modelo que ha generado los datos muestrales (es decir, en la población).
Para responder a esta pregunta se necesita el uso de modelos de probabilidad y de
modelos y técnicas de Inferencia Estadística, entre las que resulta básica el Contraste
de Hipótesis.

3.7. Revisión: modelos de probabilidad, conceptos de Inferencia y Contraste


de Hipótesis.

Revisamos brevemente algunos conceptos básicos:

- Distribución de probabilidad de una variable aleatoria


De forma intuitiva puede considerarse la probabilidad como una medida del grado de
certeza sobre la ocurrencia de cierto suceso al realizar un experimento aleatorio. De
modo que la probabilidad es una función que se define sobre cada suceso y todos los
sucesos forman el llamado espacio muestral.
Una variable aleatoria (v.a.) es una función que asigna un valor numérico a cada
elemento del espacio muestral. Así, los valores que toma la v.a. van a aparecer con
una cierta probabilidad, heredada de la probabilidad con la que ocurren los sucesos.
Los valores de la variable aleatoria junto con la probabilidad con la que aparecen
constituyen una distribución de probabilidad, que en las variables discretas suele darse
mediante la función de masa de probabilidad { (xi,pi)} y en las variables continuas
mediante su función de densidad f (función no negativa que integra 1).

- Distribución Normal
Se trata de una v.a. cuya función de densidad es la conocida campana de Gauss. Esto
quiere decir, que los valores más probables se agrupan alrededor de un valor central
(su media) y que a medida que nos alejamos de ese valor medio es menos probable
encontrar valores.
Es una de las distribuciones más utilizadas. Su importancia se debe principalmente a
que hay muchas variables asociadas a fenómenos naturales que siguen el modelo de la
normal:

10
• Caracteres morfológicos de individuos (personas, animales, plantas,...) de una
especie, p.ejm. tallas, pesos, envergaduras, diámetros, perímetros,...
• Caracteres fisiológicos, por ejemplo: efecto de una misma dosis de un fármaco,
o de una misma cantidad de abono.
• Caracteres sociológicos, por ejemplo: consumo de cierto producto por un
mismo grupo de individuos, puntuaciones de examen.
• Caracteres psicológicos, por ejemplo: cociente intelectual, grado de adaptación
a un medio,...
• Errores cometidos al medir ciertas magnitudes.
• Valores estadísticos muestrales, por ejemplo : la media.
• Otras distribuciones como la binomial o la de Poisson pueden aproximarse por
la normal, ... Y en general cualquier característica que se obtenga como suma
de muchos factores.
Formalmente, diremos que una v.a. continua X sigue una distribución normal de media
μ y desviación típica σ y la denotaremos por N(μ,σ), si se cumplen las siguientes
condiciones:
1. La variable X recorre el intervalo (-∞, +∞)
2. Su función de densidad viene dada por la siguiente expresión:
1 ⎛ x−μ ⎞
2

1 − ⎜ ⎟
2⎝ σ ⎠
f ( x) = e
σ 2π

Gráficamente:

Ejercicio 7.
- Prueba a dibujar en R la densidad Normal usando:
> .x <- seq(-3.291, 3.291, length.out=100)
> plot(.x, dnorm(.x, mean=0, sd=1))
- También puedes calcular la probablilidad acumulada hasta un valor (por
ejemplo el 2) usando:
> pnorm(c(2), mean=0, sd=1, lower.tail=TRUE)

- Distribución Chi-cuadrado, t de Student, F de Fisher-Snedecor

Son modelos de distribución importantísimos en muchos procedimientos de Inferencia


Estadística.

1.- La v.a.
χ n2 de Pearson

11
Si tenemos n v.a. con distribución N(0,1), independientes, las elevamos al cuadrado y
las sumamos obtenemos una nueva v.a. que se denomina Chi-cuadrado de Pearson
con n grados de libertad.
La n es el parámetro de la Chi- cuadrado y se puede comprobar que su media es n y
su varianza 2n.
χ2
Cualquier n es una v.a. continua que toma valores en [0,+∞) y su función de
densidad es asimétrica con una moda en n-2, como se muestra en la gráfica de abajo.

Los percentiles de la distribución Chi-cuadrado están tabulados y resultan muy


importantes para hacer inferencias sobre la varianza de una población Normal y para
contrastar la hipótesis de independencia entre variables.

Densidad de la v.a. Chi-cuadrado para n=10, 15 y 20 grados de libertad

2.-La v.a.
t n de STUDENT

Si tenemos dos v.a. independientes: Z con distribución N(0,1) y U con distribución


χ n2
Z
y consideramos U / n obtenemos una nueva v.a. que se denomina t de Student
con n grados de libertad.
La n es el parámetro de la t y se puede comprobar que su varianza es n/(n-2) aunque
su media es siempre 0.
Cualquier tn es una v.a. continua que toma valores en (-∞,+∞) y su función de
densidad es simétrica en el 0. La altura del máximo es inferior al de la N(0,1) y sus
colas son más pesadas, pero conforme aumenta n se va acercando a la N(0,1).
Gráficamente:

12
Densidad de la v.a. t de Student

Los percentiles de la distribución t de Student están tabulados y resultan muy


importantes para hacer inferencias sobre la media de una población Normal cuando se
estima su varianza y la muestra es pequeña. También se usa para contrastar la
hipótesis de igualdad entre las medias de dos poblaciones con muestras
independientes o relacionadas.

2.-La v.a. F de FISHER-SNEDECOR

Sean U= χ n2 V= χ m2 dos variables aleatorias independientes.


y

U /n
La variable aleatoria Fn , m = tiene distribución F de Fisher-Snedecor con n y m
V /m
grados de libertad.
Su función de densidad viene dada por
m
−1
x2
f ( X ) = c3 m+n
, si x > 0
(mx + n) 2
.
Su media es:
E( Fn ,m ) = n/(n-2), si n>2.

Esta distribución sólo toma valores positivos y es muy asimétrica.


1
Presenta la propiedad de que si X es Fn , m , entonces es Fm ,n .
X

Como consecuencia de esta última propiedad se verifica que el percentil de


probabilidad p de una Fn , m es el inverso del percentil 1-p de una Fm ,n .
Los percentiles de esta distribución están tabulados y resultan muy importantes para
hacer comparaciones entre varianzas de variables Normales.

- Inferencia Estadística, métodos paramétricos y no paramétricos

La Inferencia Estadística estudia cómo extraer conclusiones para toda la población


a partir de una muestra de dicha población. En el proceso inductivo de pasar de lo
particular (muestra) a lo general (población) no habrá nunca certeza absoluta, pero si

13
se exigirá a los procedimientos de Inferencia un alto grado de confianza medido en
términos de probabilidad.
Los principales procedimientos de Inferencia Estadística son la Estimación Puntual, la
Estimación por Intervalo (o Intervalos de Confianza) y el Contraste de Hipótesis.
De modo formal o matemático, en un problema de inferencia consideramos:
Una población, representada por una v.a. X con distribución de probabilidad
desconocida.
Una muestra, representada por n v.a. X1, X2,..., Xn a partir de la cual se realizan
inferencias o extraen conclusiones sobre la distribución de X.
Los procedimientos de Inferencia pueden ser de tipo paramétrico o no
paramétrico. En los primeros se supone que la distribución de la población sigue un
modelo conocido (normal, binomial, …) aunque se desconocen los valores de los
parámetros que la determinan, de modo que se hace inferencia sobre dichos
parámetros (media, varianza, proporción, ...). En el enfoque no paramétrico no se
asume a priori ninguna distribución de probabilidad sobre la población.

- Metodología general de un Contraste de hipótesis. P-valor.

El procedimiento de Inferencia denominado Contraste de Hipótesis propone una


metodología para evaluar una hipótesis o conjetura inicial sobre la población en
estudio.
La hipótesis que se evalúa o contrasta se denomina hipótesis nula, H0, y se asume
como cierta a no ser que los datos observados (muestra) proporcionen evidencia
suficiente en su contra. Cuando se rechaza la hipótesis nula se asume como correcta
una hipótesis complementaria, H1, que se denomina hipótesis alternativa. Para
tomar la decisión de aceptar o rechazar H0 se necesita un estadístico de contraste o
medida de discrepancia entre los datos observados y la hipótesis nula.

Ejemplo:
En la población de los alumnos matriculados en un centro universitario se considera la
variable X=ser fumador. Nos interesa contrastar la hipótesis de que exista un 60% de
fumadores, es decir p=0,60.

DEFINICIONES:
Hipótesis nula: la denotamos por H0, es la hipótesis que se desea contrastar o
evaluar. Se enuncia de acuerdo al principio de simplicidad científica y se asume como
cierta a no ser que los datos proporcionen evidencia suficiente en su contra. Cuenta
con la presunción de inocencia. En el ejemplo la hipótesis nula sería p=0,60.
Hipótesis alternativa: la denotamos por H1, es lo que sucede cuando no es cierta la
hipótesis nula. Por contar la hipótesis nula con la presunción de inocencia, sobre la
hipótesis alternativa recae la carga de la prueba. Por tanto, cuando rechazamos H0 en
favor de H1 es porque hemos encontrado pruebas significativas a partir de la muestra.
En el ejemplo H1 sería p≠0,60.
Hipótesis simple: es la que está constituida por un único punto. Por ejemplo p=0,60.
Hipótesis compuesta: es la que está constituida por más de un punto. Por ejemplo
p≠0,60.
Estadístico del contraste: función de los valores muestrales y del valor propuesto
en la hipótesis nula, cuya distribución en el muestreo es conocida cuando H0 es cierta.
Es una medida de la discrepancia entre lo afirmado en la hipótesis nula y la
información muestral. Según el valor que tome se decide aceptar o rechazar la
hipótesis nula H0.

14
pˆ − 0,60
En el ejemplo, un estadístico de contraste podría ser E= que cuando H0
0,60 x0,40
n
es cierta verifica que E es N(0,1) para n grande.
Región crítica (o de rechazo): conjunto de valores del estadístico de contraste E
que provocan un rechazo de la hipótesis nula.
Región de Aceptación: conjunto de valores del estadístico E que llevan a aceptar H0.
Contraste unilateral: Aquel cuya región crítica está formada por un solo intervalo de
la recta real. Se produce cuando la hipótesis alternativa tiene un único sentido. Por
ejemplo, H1: p<0,60.
Contraste bilateral: Aquel cuya región crítica está formada por dos intervalos de la
recta real. Se produce cuando la hipótesis alternativa tiene dos sentidos. Por ejemplo,
H1: p≠0,60.
La elección de las regiones de aceptación y rechazo en un contraste llevan a una
decisión sobre H0, de acuerdo con el siguiente esquema:

DECISIÓN \ REALIDAD H0 cierta H0 falsa


Aceptar H0 Correcto Error tipo II
Rechazar H0 Error tipo I Correcto

Error de tipo I: el que cometemos cuando rechazamos la hipótesis nula H0, siendo
cierta.
Error de tipo II: el que cometemos cuando aceptamos la hipótesis nula H0, siendo
falsa.
Nivel de significación (α) : probabilidad de cometer el error de tipo I:
α= p (rechazar H0 / H0 cierta)= p (Error de tipo I)
Potencia (β): probabilidad de detectar que una hipótesis es falsa:
β= p (rechazar H0/ H0 falsa) = 1- p (Error de tipo II)
Metodología: Debemos adoptar un criterio que, a partir de la muestra, nos permita
decidir si aceptamos o rechazamos la hipótesis nula. El interés está en minimizar las
probabilidades de los errores de tipo I y II. Como ello no es posible simultáneamente,
una forma habitual de proceder consiste en: fijar el nivel de significación y
escoger el criterio que nos proporcione la mayor potencia posible. Así actúan
los contrastes de significación. Los niveles de significación más usados son α= 0,01
0,05 y 0,10.

CASO CONTRASTE BILATERAL:


En el ejemplo, H0: p=0,60 y H1: p≠0,60 decidimos rechazar H0 si E toma valores muy
grandes (en valor absoluto) lo cual significaría que p̂ y 0,60 están muy alejados en los
dos sentidos de la hipótesis alternativa: p<0,60 o p>0,60.
Sabemos que cuando H0 es cierta E sigue una distribución N(0,1), de modo que los
percentiles de la Normal nos sirven para delimitar la zona de valores grandes de E,
sabiendo que va a ser la región de rechazo y que tendrá probabilidad α= p (rechazar
H0 / H0 cierta)= p (Error tipo I).

15
Distribución de E con Ho cierta

1-α
α/2 α /2
Rechazo Aceptación Rechazo

Observaciones:
⎛⎜ − Z ,+ Z ⎞⎟
−Z < E < +Z
Región de aceptación: ⎝ 2 ⎠
1−α 1−α 1 −α 1− α
2
: H0 se acepta si 2 2

⎛⎜ − ∞,− Z ⎞⎟ ⎛⎜ + Z ,+∞ ⎞⎟
Región crítica o de rechazo: ⎝ ⎠ U⎝ ⎠ . De modo que H0 se
1− α 1 −α
2 2

E < −Z α E>Z α
rechaza si 1−
2 o si
1−
2 .

La probabilidad de la región de rechazo es α=p(error tipo I).


El contraste es bilateral.
Si suponemos en el ejemplo que n=25, p̂ =0,50 y tomamos α=0,05 tenemos:
+Z α
=
E= -0,10/0,0979= -1,02. 1−
2 Z0,975 = 1,96. Entonces E pertenece a la región de
aceptación y aceptamos H0. Es decir, fijado un nivel de significación del 5% no hay
evidencias significativas para rechazar H0 por lo que la asumimos como cierta. Se dice
que el test es no significativo. La decisión tomada se interpretaría diciendo que
podemos asumir un porcentaje de fumadores del 60% en el centro universitario.

CASO CONTRASTE UNILATERAL A LA DERECHA:


Supongamos ahora el siguiente contraste, H0: p=0,60 (p≤0,60) y H1: p>0,60.
Planteamos este contraste unilateral cuando queremos detectar si hay suficientes
evidencias a favor de la alternativa p>0,60, que en este ejemplo significa suficiente
evidencia a favor de un porcentaje de fumadores superior al 60%.
En este caso decidimos rechazar H0 si E toma valores positivos muy grandes lo cual
significaría que p̂ y 0,60 están muy alejados en el sentido de la hipótesis alternativa:
p>0,60.
Sabemos que cuando H0 es cierta E sigue una distribución N(0,1), de modo que los
percentiles de la Normal nos sirven para delimitar la zona de valores grandes de E,
sabiendo que va a ser la región de rechazo y que tendrá probabilidad α= p (rechazar
H0 / H0 cierta)= p (Error de tipo I).

Distribución de E con Ho cierta

1-α
α
Rechazo
Aceptación

Observaciones:
Región de aceptación:
(− ∞,+ Z1−α ) . De modo que H0 se acepta si E < + Z 1−α

Región crítica o de rechazo:


(+ Z
1−α ,+∞ )
. De modo que H0 se rechaza si
E > Z 1−α .
La probabilidad de la región de rechazo es α=p(error tipo I).

16
El contraste es unilateral a la derecha.

Si suponemos en el ejemplo que n=25, p̂ =0,50 y tomamos α=0,05 tenemos:


E= -0,10/0,0979= -1,02.
+Z1−α= Z0,95 = 1,645. Entonces E pertenece a la región de
aceptación y aceptamos H0. Es decir, fijado un nivel de significación del 5% no hay
evidencias significativas para rechazar H0 y aceptar un valor de p>0,60. Se dice que el
test es no significativo. La decisión tomada se interpretaría diciendo que no hay
evidencias significativas a favor de un porcentaje de fumadores superior al 60% en el
centro universitario, aceptando por tanto un porcentaje menor o igual al 60%.

Para el CONTRASTE UNILATERAL A LA IZQUIERDA se procede de forma similar.

NIVEL CRÍTICO O P-VALOR

El concepto de nivel crítico proporciona una filosofía alternativa al cálculo de las


regiones de aceptación y rechazo para la resolución de un contraste de hipótesis.
Sea E un estadístico de contraste y e el valor del estadístico en una muestra particular.
Se define el nivel crítico o p-valor como la probabilidad de obtener una discrepancia
mayor o igual que e cuando H0 es cierta. La discrepancia mayor o igual se mide en el
sentido de la alternativa, de modo que el p- valor se calcula como:
( )
P E ≥ e , cuando el contraste es bilateral,
P (E ≥ e ) , cuando el contraste es unilateral a la derecha,
P (E ≤ e ) , para contrastes unilaterales a la izquierda.
El p-valor varía entre 0 y 1 y sirve para medir el grado de discrepancia o
incompatibilidad de los datos muestrales con H0, de forma que cuanto menor sea p,
mayor será la discrepancia entre la muestra y H0. Fijado un nivel de significación α
procederemos del modo siguiente:
Si el valor de p es menor que α se rechaza H0 y en otro caso se
acepta H0.

En los contrastes planteados para el ejemplo de la proporción de fumadores se tiene:


CONTRASTE BILATERAL:
H0: p=0,60 y H1: p≠0,60.
La muestra lleva a un valor del estadístico E igual a e= -1.
( )
Nivel crítico o p-valor = P E ≥ −1 =2P(Z>1)=2(1-0,8413)= 0,3174.
Como 0,3174 ≥ 0,05 decidimos aceptar H0 con un nivel de significación del 5%.
Gráficamente: p-valor = área rayada.

Distribución de D con Ho cierta

1-α
α/2 α /2
Rechazo Aceptación Rechazo

CONTRASTE UNILATERAL A LA DERECHA:


H0: p=0,60 (p≤0,60) y H1: p>0,60.
La muestra lleva a un valor del estadístico E igual a e=-1.
Nivel crítico o p-valor = P (E ≥ −1) = P(Z≤1) = 0,8413.
Como 0,8413 ≥ 0,05 decidimos aceptar H0 con un nivel de significación del 5%.

17
Gráficamente: p-valor = área rayada.

Distribución de E con Ho cierta

1-α
α
Aceptación Rechazo
d

Para el CONTRASTE UNILATERAL A LA IZQUIERDA se procede de forma similar.

3.8. Comparación de distribuciones: test paramétricos y no paramétricos.

Hasta el momento hemos realizado un análisis exploratorio descriptivo. Ahora vamos a


utilizar los contrastes de hipótesis para comparar distribuciones. Se trata de valorar si
las diferencias encontradas en la muestra son lo suficientemente importantes como
para no ser atribuidas al mero azar, sino a la diferencia existente entre las
distribuciones de las variables a nivel poblacional.

Comenzaremos exponiendo los principales contrastes paramétricos y a continuación los


no paramétricos. Veremos:

Test paramétricos en dos poblaciones normales:


- Prueba t de comparación de medias para muestras independientes
- Prueba t de comparación de medias para muestras relacionadas
- Prueba F de comparación de varianzas

Test no paramétricos para dos muestras:


- Test de Wilcoxon para muestras independientes
- Test de Wilcoxon para muestras apareadas

Test no paramétricos para más de dos muestras:


- Test de Kruskal-Wallis para k muestras independientes
- Test de Friedman para k muestras relacionadas

3.8.1. Test paramétricos en dos poblaciones normales

Los test paramétricos asumen que se tienen dos variables poblacionales X e Y con
funciones de distribución desconocidas, pero que siguen un modelo de distribución
Normal. Formalmente: X ≈ N ( μ X , σ X ) y Y ≈ N ( μ Y , σ Y ) , donde los parámetros son
desconocidos. Y el interés radica en contrastar si las dos medias y/o las dos varianzas
son iguales. Para cada contraste se necesita un estadístico de contraste con una
distribución conocida bajo la hipótesis nula, la distribución de ese estadístico suele dar
el nombre al contraste o prueba.

1. Prueba t de comparación de medias para muestras independientes


Sea X1, X2,..., Xn una muestra de tamaño n procedente de una distribución normal
X ≈ N ( μ X , σ X ) y sea Y1, Y2,..., Ym una muestra de tamaño m de otra población
normal Y ≈ N ( μ Y , σ Y ) , independiente de la anterior. Para contrastar la igualdad de
medias, el estadístico cambia dependiendo de que se asuman varianzas poblacionales
desconocidas pero iguales o que se asuman desiguales. De forma general ambos casos
se pueden formular de la forma siguiente:

18
1. H 0 : μ X − μ Y = 0 ( = d 0 )
X − Y − (d 0 )
2. E = ≈ t v si H 0 cierta.
σˆ ( X − Y )
En el caso de varianzas iguales v=n+m-2.
En el caso de varianzas distintas v, además de depender de n y m, depende de las
varianzas muestrales: S X2 = ∑ ∑
( X i − X ) 2 /(n − 1) y S Y2 = (Yi − Y ) 2 /(m − 1).
3. En función de la hipótesis alternativa H 1 y del nivel de significación α que elija el
investigador, se determina la región crítica o de rechazo. La hipótesis alternativa
puede ser bilateral ( H 1 : μ X − μ Y ≠ 0 ), unilateral a la derecha ( H 1 : μ X − μ Y > 0 )
o unilateral a la izquierda ( H 1 : μ X − μ Y < 0 ) e indica qué cola o colas de la
distribución de E se eligen. La probabilidad de dicha cola o colas debe ser igual a α.
4. Se calcula el valor de E en la muestra y se rechaza H 0 si ese valor pertenece a la
región crítica. Alternativamente, para el valor de E en la muestra, e, se calcula su
p-valor y se rechaza si es menor que α.
Por ejemplo, para el contraste bilateral, se rechaza H 0 al nivel de significación α si
P( t v > e) < α .

En R este contraste se realiza usando:


> t.test(Y~X) donde Y es numérica y X es un factor binario.

También, t.test(y1,y2) si las muestras numéricas están en y1 e y2.


Si las varianzas son iguales hay que usar la opción var.equal = TRUE.
Para los contrastes unilaterales a la izquierda y a la derecha hay que incluir la opción
alternative="less" or alternative="greater", respectivamente.

Ejercicio 8

- Utilizaremos el test t para comparar income según oil.


> data (Leinhardt)
> attach(Leinhard)
> t.test(infant~oil)
El resultado es:

Welch Two Sample t-test

data: infant by oil


t = -1.2054, df = 7.134, p-value = 0.2665
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-266.78422 86.17347
sample estimates:
mean in group no mean in group yes
81.89462 172.20000

- Utiliza el test t para comparar log(income) según oil, asumiendo varianzas iguales y
no asumiendo varianzas iguales.

19
- Contrasta que la media del log(infant) sea igual según oil frente a que sea mayor en
el grupo de países exportadores.

- Revisa las características de help(t.test).

2. Prueba t de comparación de medias para muestras relacionadas

En este caso se considera una muestra X1, X2,..., Xn de tamaño n procedente de una
distribución normal X ≈ N ( μ X , σ X ) y una muestra Y1, Y2,..., Yn de tamaño también
n, de otra población normal Y ≈ N ( μ Y , σ Y ) , no necesariamente independientes. En
este caso se pueden reducir los datos a una sola muestra D1, D2,..., Dn , donde cada
Di =Xi - Yi , que tendrá también distribución normal con media μ D = μ X − μ Y .
Este caso es habitual cuando se toman medidas repetidas en los mismos individuos de
una población, por ejemplo, antes y después de someterlos a un tratamiento.

Para contrastar H 0 : μ X − μ Y = 0 ( μ D = d 0 =0) se utiliza el estadístico de contraste


D − d0
E= que sigue una distribución t con n-1 grados de libertad, si H 0 es cierta.
SD
n
De modo que, por ejemplo, para un contraste unilateral a la derecha, se rechaza H 0
con un nivel de significación α si P(t n −1 > e ) < α , siendo e el valor de E en la muestra
observada.

En R este contraste se realiza usando:


> t.test(y1,y2,paired=TRUE) donde y1 e y2 son las variables numéricas apareadas
cuyas medias se quieren comparar.
Las opciones para los test unilaterales son similares al caso anterior.

3. Prueba F de comparación de varianzas

Sea X1, X2,..., Xn una muestra de tamaño n procedente de una distribución normal
X ≈ N ( μ X , σ X ) y sea Y1, Y2,..., Ym una muestra de tamaño m de otra población
normal Y ≈ N ( μ Y , σ Y ) , independiente de la anterior.
Para contrastar H 0 : σ X2 = σ Y2 ( σ X2 / σ Y2 =1) se utiliza el estadístico de contraste
⎛ (n − 1) S X2 ⎞
⎜ ⎟
S2
⎜= σ 2
( n − 1) ⎟ que sigue una distribución F con n-1,m-1 grados de
E= X X

S2
⎜ (m − 1) S Y2 ⎟
⎜ σ Y (m − 1) ⎟⎠
Y
2

libertad si H 0 es cierta.
De modo que, por ejemplo, para un contraste unilateral a la izquierda, se rechaza H 0
con un nivel de significación α, si P (Fn −1, m −1 < e ) < α , siendo e el valor de E en la
muestra observada.

En R este test se realiza utilizando:


> var.test(Y~X), con Y numérica y X factor binario.

Ejercicio 9:

20
- Contrasta igualdad de varianzas de income según oil e interpreta los resultados.
> var.test(income~oil)
Se obtiene:
F test to compare two variances

data: income by oil


F = 2.4426, num df = 95, denom df = 8, p-value = 0.1747
alternative hypothesis: true ratio of variances is not equal to 1
95 percent confidence interval:
0.6526001 5.6876508
sample estimates:
ratio of variances
2.442636

- Contrasta ahora la igualdad de varianzas de infant según oil e interpreta los


resultados.

- Finalmente contrasta la igualdad de varianzas de log(infant) según oil, interpreta los


resultados y compáralos con el caso anterior.

3.8.2. Test no paramétricos para dos muestras

Los test no paramétricos no asumen ningún modelo de distribución de probabilidad


para las variables poblacionales. Tan solo hacen consideraciones muy generales, del
tipo que las variables sean continuas, …

1. Test de Wilcoxon para muestras independientes


Sea X1, X2,..., Xn una muestra de tamaño n procedente de una población con
distribución de tipo continuo FX y sea Y1, Y2,..., Ym una muestra de tamaño m de otra
población con distribución de tipo continuo FY , independiente de la anterior.
Se trata de contrastar la hipótesis nula H 0 : FX = FY frente a la alternativa bilateral
H 1 : FX ≠ FY (porque difieren en la tendencia central), o bien, frente a las alternativas
unilaterales H 1 : FX < FY (en el sentido de que P(X≤t)<P(Y≤t), es decir, la variable
aleatoria X tiende a ser mayor que Y, esto es, la tendencia central de X es mayor que
la de Y) o H 1 : FX > FY (en el sentido análogo al anterior).
El test de Wilcoxon se basa en los rangos de las observaciones y utiliza la idea de que,
si H 0 es cierta, se espera que los rangos correspondientes a los valores de una y otra
muestra estén entremezclados o dispersos, mientras que en otro caso, debe esperarse
que los rangos de las observaciones de cada muestra estén muy agrupados en los
extremos.
Llamando R a la suma de los rangos asociados a las observaciones de una cualquiera
de las dos muestras (por ejemplo, la de menor tamaño), la distribución del estadístico
R está tabulada y permite calcular las regiones de rechazo según el nivel de
significación y el tipo de alternativa, unilateral o bilateral.

El estadístico R está perfectamente relacionado con el estadístico U de Mann-


Whitney, de manera que ambos proporcionan la misma prueba.
Además, existen correcciones para tratar los empates entre observaciones, por lo cual
la hipótesis de continuidad sobre las variables poblacionales puede rebajarse.

21
En R el test de Wilcoxon se obtien con la función:
> wilcox.test(Y~X) donde Y es numérica y X es un factor binario.

También, wilcox.test(y1,y2) si las muestras numéricas están en y1 e y2.


Para los contrastes unilaterales a la izquierda y a la derecha hay que incluir la opción
alternative="less" or alternative="greater", respectivamente.

Ejercicio 10:

- Utilizaremos este test para comparar infant según oil.

> wilcox.test(infant~oil)
Wilcoxon rank sum test with continuity correction

data: infant by oil


W = 261.5, p-value = 0.1666
alternative hypothesis: true location shift is not equal to 0

- Haz los dos contrastes unilaterales.


- Haz el contraste bilateral cambiando infant por income.
- Haz ahora el contraste bilateral para valorar si la distribución de log(income) se
comporta de modo similar según el grupo de oil.

2. Test de Wilcoxon para muestras apareadas

La hipótesis a contrastar es la misma que la del test anterior, H 0 : FX = FY , pero en


este caso se considera una muestra de tamaño n de una población bivariante, es decir
n pares de observaciones muestrales (X1, Y1) ,…,(Xn , Yn) correspondientes a dos v.a. X
e Y, con distribución de tipo continuo, pero no necesariamente independientes.
Como ya se comentó anteriormente, esta situación aparece frecuentemente al tomar
medidas repetidas sobre un mismo individuo.

Si reducimos los datos a una sola muestra D1, D2,..., Dn , donde cada Di =Xi - Yi ,
pasamos a trabajar con una muestra de tamaño n de la v.a. diferencia D=X-Y.
Bajo la hipótesis nula, esta variable diferencia estará distribuida de forma simétrica
respecto al 0, por lo que las diferencias positivas y negativas de igual magnitud
absoluta serán equiprobables. Los estadísticos de Wilcoxon se basan en esta idea y
calculan la suma de los rangos de las diferencias positivas, T+, y de las diferencias
negativas, T-, habiéndose asignado los rangos a los valores absolutos de las
diferencias observadas.
La distribución de los estadísticos de Wilcoxon (por ejemplo del T+) está tabulada y
permite calcular las regiones de rechazo según el nivel de significación y el tipo de
alternativa, unilateral o bilateral.

Para muestras grandes, los estadísticos de Wilcoxon, tanto para muestras apareadas
como independientes, tienen una distribución aproximadamente Normal, cuya media y
varianza dependen de los tamaños muestrales.

En R este contraste se realiza usando:


> wilcox.test(y1,y2, paired=TRUE) donde y1 e y2 son las variables numéricas
apareadas cuyas distribuciones se quieren comparar.
Las opciones para los test unilaterales son similares al caso anterior.

22
3.8.3. Test no paramétricos para más de dos muestras

En muchas ocasiones interesa realizar contrastes que involucran a más de dos


muestras. En el caso paramétrico, estos contrastes se realizan dentro del modelo
denominado Análisis de la Varianza, que estudiaremos en el tema 4.
A continuación se presentan los dos test no paramétricos más utilizados para abordar
este problema.

1. Test de Kruskal-Wallis para k muestras independientes

Se trata de una generalización del test de Wicoxon al caso de k muestras.


Sean (X11, X12,..., X1n1 ), (X21, X22,..., X2n2 ), …,(Xk1, Xk2,..., Xknk ), k muestras de
tamaños n1, n2,…,nk, respectivamente, de sendas distribuciones continuas.
Se quiere contrastar la hipótesis nula de que las k distribuciones son idénticas frente a
la alternativa de que difieren en su tendencia central.
A cada una de las N= n1+n2+…+nk observaciones conjuntamente ordenadas, se les
asigna un rango y se determina la suma de los rangos Rj de las observaciones de cada
una de las muestras, j=1,…,k.
En esencia, el contraste determina si la disparidad entre las Rj con respecto a los
tamaños muestrales nj de las muestras es suficientemente significativa para llevar al
rechazo de la hipótesis nula.
Si H 0 es cierta y para tamaños muestrales suficientemente grandes, el estadístico
12 ⎛ k ⎛ Rj ⎞ ⎞
H= ⎜∑⎜ ⎟ ⎟ − 3( N + 1)
N ( N + 1) ⎜⎝ j =1 ⎝ nj ⎠ ⎟⎠
se distribuye aproximadamente como una χ k2−1 , por lo que para un nivel de
significación α, se rechazará H 0 si H > el percentil 1-α de una χ k2−1 .

En R este contraste se realiza usando:


kruskal.test(y~A), donde y es numérica y A un factor con más de dos niveles.

Ejercicio 11:

- Utilizaremos este test para comparar income según region.

> kruskal.test(income~region)

Kruskal-Wallis rank sum test

data: income by region


Kruskal-Wallis chi-squared = 49.7884, df = 3, p-value = 8.863e-11

- Haz el contraste cambiando infant por income.


¿Cuál es la hipótesis nula?
¿Qué decide el contraste?
Acompaña el contraste de un gráfico y de valores muestrales apropiados.

2. Test de Friedman para k muestras relacionadas

23
Se trata de una generalización del test de Wicoxon para dos muestras apareadas al
caso de k muestras.
En esta prueba se asignan los rangos independientemente para cada uno de los n
individuos, que si no hay empates irán desde 1 hasta k, y después se suman los
rangos correspondientes a cada una de las k muestras: R1 ,..., Rk .
Bajo la hipótesis nula de que las k distribuciones son idénticas, frente a la alternativa
de que difieren en su tendencia central, las sumas de los rangos se dispersarán
aleatoriamente y en caso contrario, las muestras con medianas más altas producirán
sumas de rangos más altas.
Si H 0 es cierta y para tamaños muestrales suficientemente grandes, el estadístico
12 ⎛ k 2⎞
H= ⎜ ∑ R j ⎟ − 3n(k + 1)
nk (k + 1) ⎜⎝ j =1 ⎟⎠
se distribuye aproximadamente como una χ k2−1 , por lo que para un nivel de
significación α, se rechazará H 0 si H> el percentil 1-α de una χ k2−1 .
El estadístico anterior tiene una versión corregida en presencia de empates.

En R este contraste se realiza definiendo un conjunto de datos apareados por


columnas, al cual se aplica el test:
>data(Datos)
>attach(Datos)
>.Responses <- na.omit(with(Datos, cbind(var1, var2, var3,…)))
>friedman.test(.Responses)

3.9. Otros contrastes o test de hipótesis

En el apartado anterior hemos utilizado los contrastes de hipótesis para comparar


distribuciones. Ahora los usaremos también para valorar si el grado de dependencia de
la medida de asociación chi-cuadrado, o el grado de correlación del coeficiente de
Spearman observados en la muestra, son lo suficientemente importantes como para no
ser atribuidos al mero azar, sino a una verdadera situación de dependencia a nivel
poblacional, esto es, las medidas poblacionales son iguales a cero.

1. Contraste chi-cuadrado de independencia

Sean X e Y dos variables aleatorias con distribución conjunta F(x,y), y distribuciones


marginales F1(x) y F2(y), respectivamente. Supongamos que disponemos de n
observaciones conjuntas de (X,Y) y que dividimos el espacio de valores tomados por X
en r clases o categorías excluyentes A1, A2,..., Ar y de forma similar, dividimos el
espacio de valores tomados por Y en s clases excluyentes B1, B2,..., Bs.
Denotamos por:
- nij al número de observaciones que pertenecen simultáneamente a la clase Aix Bj
- ni. al número de observaciones cuyo valor de X pertenece a la clase Ai
- n.j al número de observaciones cuyo valor de Y pertenece a la clase Bj
( ) (
- pij = P ( X , Y ) ∈ Ai × B j , pi . = P ( X ∈ Ai ) y p. j = P Y ∈ B j . )
Queremos contrastar la hipótesis nula de independencia, es decir,
H 0 : F ( x, y ) = F1 ( x) F2 ( y ) frente a H 1 : F ( x, y ) ≠ F1 ( x) F2 ( y ) , la cual se puede
escribir como H 0 : pij = pi. p. j frente a H 1 : p ij ≠ p i. p. j .

24
Observemos que bajo la hipótesis de independencia el número esperado de
ni. n. j ni. n. j
observaciones de la clase Aix Bj viene dado por eij = npˆ i . pˆ . j = n = y se
n n n
r s (n − eij )
2

puede demostrar que el estadístico E = ∑∑


ij
se distribuye asintóticamente
i =1 j =i eij
como una v.a. χ (2r −1) ( s −1) .
Entonces, a un nivel de significación α, se rechaza la hipótesis nula de independencia
( )
si P χ (2r −1) ( s −1) ≥ e < α , siendo e el valor de E en la muestra observada.
En la práctica, para poder utilizar la aproximación asintótica, debe cumplirse que n>30
y las frecuencias eij ≥ 5 .
Se puede ver que la formulación de este test es lo suficientemente general como para
no restringirse únicamente al caso de que X e Y sean atributos. X e Y pueden ser
variables discretas, y también continuas agrupadas en intervalos de clase.

Como ya vimos anteriormente, el código R para este test es:


> mytable <- table(X,Y)
> test<-chisq.test(mytabla)
> test

2. Contraste sobre el coeficiente de correlación de Spearman

Bajo la hipótesis de independencia de las v.a. X e Y, la distribución del coeficiente de


correlación de Spearman como estadístico muestral, rS , puede determinarse
exactamente (está tabulada), y para un tamaño muestral grande (en la práctica n>10),
se distribuye asintóticamente como una normal de media cero y varianza 1/(n-1).
Esto permite contrastar la hipótesis nula H 0 : ρ S = 0 , contra alternativas uni y
bilaterales.

Los contrastes sobre el coeficiente de correlación de Pearson se realizan del mismo


modo, pero su fundamento teórico se estudiará en el contexto de los modelos de
regresión, en el próximo tema. Se trata de un contraste paramétrico que asume la
normalidad de las variables.

> cor.test(X,Y,method="spearman",use="complete.obs")

Ejercicio 12:

> cor.test(income,infant,method="spearman",use="complete.obs") resulta en:

Aviso en cor.test.default(income, infant, method = "spearman", use = "complete.obs")


:
Cannot compute exact p-values with ties

Spearman's rank correlation rho

data: income and infant


S = 294826.1, p-value < 2.2e-16
alternative hypothesis: true rho is not equal to 0
sample estimates:
rho

25
-0.7171001

- Ejecuta > cor.test(income,infant), ¿qué obtienes?

3. Contrastes de normalidad

Una de las hipótesis básicas para decidir si utilizar procedimientos de inferencia


paramétricos o no paramétricos es la normalidad de las variables. El problema general
de contrastar la hipótesis nula de que una v.a. X siga una cierta distribución F0,
especificada por el investigador, recibe el nombre de test de bondad de ajuste.
Existen diversos contrastes de bondad de ajuste, entre los que destacan:

- el test chi-cuadrado de bondad de ajuste, cuyo estadístico se construye a


partir de la diferencia entre las frecuencias observadas en cada clase y las
esperadas bajo el modelo propuesto en la hipótesis nula,
- el contraste de Kolmogorov-Smirnov, cuyo estadístico se construye a partir de
la diferencia entre la función de distribución empírica y la función de distribución
propuesta en la hipótesis nula. Este último contraste tiene una adaptación cuando
F0 es la distribución normal.

Además de estos contrastes, la normalidad se contrasta con otros test más específicos
como la el test de Kolmogorov-Smirnov-Lilliefors, el test de Agostino o el de
Shapiro-Wilk. Describiremos brevemente éste último, por ser el contraste de
normalidad básico de R.

El contraste de Shapiro-Wilk.
Este contraste se construye a partir de un estadístico basado en las distancias entre los
estadísticos ordenados de lugar simétrico. Así se tienen en cuenta la distancia entre la
mayor y a menor observación muestral, entre la segunda y la penúltima (dispuestos
los datos en orden creciente), etc.
El estadístico de Shapiro-Wilk está tabulado. Dado que puede interpretarse como el
cuadrado del coeficiente de correlación lineal de los puntos muestrales dibujados sobre
papel probabilístico normal, la hipótesis de normalidad se rechazará para valores
pequeños del estadístico, que indicarán independencia o alejamiento de la distribución
normal.

En R el código para realizar este test es:


> shapiro.test(X) donde X es una variable numérica.

Además de los contrastes de normalidad es frecuente la exploración gráfica, usando


histogramas y los qq-plots, que comparan los cuantiles muestrales con los de una
distribución Normal.

> qqnorm(data$X)
> qqline(data$X)

Ejercicio 13:
- Contrasta la normalidad de income, infant, log(income), log(infant).

> library(car)
> data(Leinhardt)
> attach(Leinhardt)
> shapiro.test(income)
Shapiro-Wilk normality test

26
data: income
W = 0.6796, p-value = 8.129e-14

> shapiro.test(infant)
Shapiro-Wilk normality test

data: infant
W = 0.7344, p-value = 3.157e-12

> shapiro.test(log(income))

Shapiro-Wilk normality test

data: log(income)
W = 0.932, p-value = 4.288e-05

> shapiro.test(log(infant))

Shapiro-Wilk normality test

data: log(infant)
W = 0.9687, p-value = 0.01673

- Haz los gráficos de cuantiles para infant e income.

- Vamos a estudiar la normalidad de income en el grupo de países exportadores y no


exportadores de petróleo.

Para ello primero creamos dos nuevas variables incomesi, incomeno, :

> attach(Leinhardt)
> incomesi<-income[oil=="yes"]
> incomeno<-income[oil=="no"]

> shapiro.test(income)

Shapiro-Wilk normality test

data: income
W = 0.6796, p-value = 8.129e-14

> shapiro.test(incomesi)

Shapiro-Wilk normality test

data: incomesi
W = 0.8391, p-value = 0.05646

> shapiro.test(incomeno)

Shapiro-Wilk normality test

27
data: incomeno
W = 0.6676, p-value = 1.995e-13

> qqnorm(incomesi)
> qqnorm(incomeno)

Bibliografía

• Cao Abad, R. et al. (2001). Introducción a la estadística y sus aplicaciones. Pirámide.


• Peña Sánchez de Rivera, D. (1994). Estadística. Modelos y Métodos. 1. Fundamentos.
Alianza Universidad Textos.

• Martinez Almécija, Alfredo y otros (1993). Inferencia Estadística. Un enfoque clásico.


Pirámide.
• Abraira Santos, V. y Pérez de Vargas, A. (1996). Métodos Multivariantes en
Bioestadística. Centro de Estudios Ramón Areces.

Recursos

1. Visita Quick-R en:


http://www.statmethods.net/

2. R tiene un paquete que trabaja con un intermediario de Windows. Es el paquete R


commander. Cárgalo, revisa sus opciones y haz pruebas con el archivo Leinhardt.
> library(Rcmdr)

Ejercicios finales

1. Carga el archivo SPSS MUNDO.sav y utiliza los contrastes para 2 muestras


relacionadas y para k muestras relacionadas para comparar las distribuciones de
ALFABMAS, ALFABFEM y de ALFABMAS, ALFABFEM y ALFABET, respectivamente.

> library(foreign)
> datos<-read.spss(file="c:/pruebadatos/MUNDO.sav", to.data.frame=TRUE)
> attach(datos)
> View(datos)
> summary(datos)

2. Carga el archivo Excel cuestionario_completo09-10.xls y haz un análisis gráfico


descriptivo e inferencial de las relaciones entre: procedencia y sexo, procedencia y
nota (de entrada en la universidad), gusto carrera-gusto estadística-estadística
importante (en su formación).

>library(xlsReadWrite)
>datos<-read.xls("c:/pruebadatos/cuestionario_completo09-10.xls ")

Si no puedes cargar esta librería prueba a guardar el archivo Excel como archivo .csv
Fíjate en el separador decimal, para usar bien la función read.csv. (Ve a
help(read.table).

28

Anda mungkin juga menyukai