Anda di halaman 1dari 20

TEMA II

EL ANLISIS PRELIMINAR
DE LOS DATOS

LECTURA OBLIGATORIA
Captulo 2: Preparacin del Archivo de datos. En Rial, A. y Varela, J. (2008).
Estadstica Prctica para la Investigacin en Ciencias de la Salud. Corua: Netbiblo.
Pginas 17-28.
Captulo 3: Anlisis de datos para una sola variable. En Rial, A. y Varela, J. (2008).
Estadstica Prctica para la Investigacin en Ciencias de la Salud. Corua: Netbiblo.
Pginas 31-57.
Captulo 4: Inferencia estadstica. Estimacin de parmetros y contrates de hiptesis.
En Rial, A. y Varela, J. (2008). Estadstica Prctica para la Investigacin en Ciencias de
la Salud. Corua: Netbiblo. Pginas 59-96.

Modelos Multivariantes

Razones por las que examinar los datos


Preparar el archivo de datos: depurar errores e incoherencias

Resolver el problema de la falta de respuesta: tamao de la muestra


(potencia de los contrastes) y sesgo de los resultados (no se distribuyen al
azar)
Problema I: los datos no son buenos
Tratar los casos anmalos: eleccin de los estadsticos adecuados
Comprobacin de supuestos paramtricos: pruebas paramtricas vs. no
paramtricas, eleccin de la tcnica multivariante concreta
Problema II: las herramientas no son las adecuadas
Resumir la informacin que contienen los datos, informar de las tendencias,
realciones entre variables, etc.
Modelos Multivariantes

La Depuracin de los Datos


Errores de grabacin e incoherencias
Valores fuera de rango (no admisibles):
Tablas de Frecuencias para todas las variables
Incoherencias entre respuestas (preguntas filtro):
Tablas de Contingencia para pares de variables
Cmo corregir los errores?
Buscar los valores errneos en la matriz de datos (variable por variable)
e ir subsanndolos

Modelos Multivariantes

Muestreo de Errores
Se trata de estimar el Porcentaje de Error (PE) que contiene nuestra
matriz de datos. Seleccionamos una submuestra de cuestionarios y
comprobamos cuntos errores hay.
Seleccionar una submuestra aleatoria (entre el 10 y el 20%)

Contar el nmero de datos errneos


Hacer una Regla de Tres para estimar cuntos habr en toda
la matriz

Aplicar la frmula del PE


[Errores / (casos x variables)] x 100
El resultado debe ser inferior al 0.05%
Modelos Multivariantes

Los valores ausentes o casos


MISSING
RIESGOS:
1. LA CAPACIDAD DE GENERALIZACIN DE LOS RESULTADOS (lo que en
2.

principio era una muestra adecuada se convierte en inadecuada y no


representativa)
La reduccin excesiva del tamao de la muestra condiciona las
estimaciones (AMPLIANDO LOS INTERVALOS DE CONFIANZA) y las
comparaciones (REDUCIENDO AL SIGNIFICACIN ESTADSTICA)

3. LOS RECHAZOS. Son iguales los que responden a una encuesta que los
que no responden?. Los missing siguen algn patrn?, de quin
estamos realmente informando?(POSIBLE SESGO EN LOS TRESULTADOS)
LO MAS IMPORTANTE ES PREGUNTARSE POR LAS RAZONES
DE LA NO RESPUESTA
Modelos Multivariantes

Se distribuyen al azar?
Varias estrategias:
Comprobar si los distintos segmentos presentan un
porcentaje similar de falta de repuesta (Sexo, Provincia,
Grupos de Edad, ...) 2
Estudiar posibles patrones
Identificar variables relacionadas y comprobar que los
que responden y los missing se comportan igual, que no
existen diferencias estadsticamente significativas entre
ambos grupos.
Modelos Multivariantes

Sustituirlos o imputarlos?
Media de la serie
SUSTITUCIN

IMPUTACIN

Media de los puntos adyacentes


Mediana de los puntos adyacentes

Interpolacin lineal
Tendencia lineal en el punto
Media de Subclases (Kalton)
Fichero Caliente (Hot Deck)
Regresin lineal
Esperanza Maximizacin (EM)
Modelos Multivariantes

Los valores ANMALOS o atpicos


Valores que caen fuera del rango normal de los datos
CRITERIO: distancia respecto al cuerpo central de la distribucin
(50% de los casos, los que estn entre el P75 y el P25)
Cuntas veces el valor del IQR (Recorrido Intercuartlico)
OUTLIERS.................... 1.5 IQR 3 IQR
EXTREMOS...................... 3 IQR
Modelos Multivariantes

Implicaciones de los casos anmalos


3 Ejemplos:
A NIVEL UNIVARIADO: Gasto promedio fin de semana
A NIVEL BIVARIADO: Contraste de hiptesis para dos
medias. Ingresos deportistas profesionales
A NIVEL MULTIVARIADO: Empobrecimiento del ajuste en el
anlisis de regresin lineal
Modelos Multivariantes

10

Implicaciones de los casos anmalos


SOLUCIONES:
Acudir a estadsticos distintos de los habituales y
RESISTENTES (Mediana, Media reducida, M-estimadores:
Andrews, Huber, Tukey, Hampel)
Utilizar Contrastes no paramtricos: Mann-Withney, Prueba
de la Mediana, Kruskal-Wallis
Detectarlos, eliminarlos de la muestra y repetir el anlisis
(deben ser pocos y poco influyentes), recurrir a un
procedimiento de Remuestreo (Bootstrapping) o a
procedimientos de estimacin robustos.
Modelos Multivariantes

11

Cmo detectarlos?
A nivel univariante:
Numricamente (IQR)
Grficos de Caja (BOXPLOT)
Grficos de Tallo y Hojas

A nivel bivariado: Grficos de Dispersin

A nivel multivariado:
Residuos (tipificados, studentizados, etc.)
Distancia de Mahalanobis
Distancia de Cook
Modelos Multivariantes

12

El BOXPLOT
600000

500000
10

400000

300000
9

200000

100000

0
N=

20

INGRESOS

Modelos Multivariantes

13

BOXPLOT
MUCHA INFORMACIN:

Extremos y outliers
Percentiles 75 y 25
IQR
Mediana
Asimetra
Comparar la distribucin de 2 o ms variables
Comparar la distribucin de 2 o ms grupos en una misma
variable
Modelos Multivariantes

14

Comparar la distribucin de dos o ms


variables
600000

500000
10

400000

300000

10
9

19

200000

100000

-100000
N=

20

20

INGRESOS

GASTOS

Modelos Multivariantes

15

Comparar la distribucin de dos o


ms grupos
600000

500000
10

400000

300000

INGRESOS

200000

100000

0
N=

10

10

HOMBRE

MUJER

SEXO

Modelos Multivariantes

16

La comprobacin de supuestos
Para elegir la prueba estadstica adecuada en cada caso
Optar por Pruebas Paramtricas No Paramtricas
Garantizar la Estabilidad del modelo

Ejemplos:
t de Student Mann-Withney
Anova Kruskal-Wallis
Discriminante o Regresin Logstica

Modelos Multivariantes

17

Cules son esos SUPUESTOS?


NORMALIDAD, que la VD se distribuya normalmente
ALEATORIEDAD o Independencia de las medidas: que
los sujetos hayan sido seleccionados al azar (ANOVA)

HOMOCEDASTICIDAD u Homogeneidad de varianzas:


que los distintos grupos posean una variabilidad similar

LINEALIDAD: Relacin lineal entre las variables


analizadas
OTROS: ausencia colinealidad, normalidad de los residuos
Modelos Multivariantes

18

Cmo se comprueban?
NORMALIDAD: Prueba K-S con correccin de Lilliefors
(muestras pequeas: Shapiro-Wilk)
ALEATORIEDAD: Prueba de las Rachas
HOMOCEDASTICIDAD: Prueba de Levene
Se parte siempre de que se cumplen los supuestos salvo que las
pruebas sean significativas (p< 0.05)

LINEALIDAD: Grfico de dispersin y/o correlacin

Modelos Multivariantes

19

Y... si no es NORMAL
2 ALTERNATIVAS:
TRANSFORMAR LA VARIABLE
Posibles transformaciones
Asimetra Positiva FUERTE: -1/X3, -1/X
SUAVE: log X X
Asimetra Negativa FUERTE: antilog X
SUAVE: X2 X3

Recurrir a una prueba no paramtrica o a tcnicas


multivariantes ms robustas
Modelos Multivariantes

20