Anda di halaman 1dari 78

Anlisis estadstico bsico: t-test,

anova, pruebas no paramtricas,


regresin...
Jos Ros

Es cierto el bostezo inducido?

Jos Ros

IUSC - 2009

Hoy toca
estadstica

Jos Ros

IUSC - 2009

Por que claro conociendo toda la informacin


somos capaces de saber como se llega a los
resultados

Jos Ros

IUSC - 2009

Pero antes hablemos de variables

Tiempo

Presencia

Ocurrencia

No lo consideran

Obligan a determinarlo

Enfermedad
-Prevalencia

-Incidencia

-Estado opinin

Exposicin

(poblacin)

Encuestas

-Recurrencia

Densidad de
incidencia

(individuo)
No interesa la evolucin temporal

Estudio
Jos Ros

transversal

longitudinal
IUSC - 2009

y de la importancia metodolgica
del tamao de la muestra

Jos Ros

IUSC - 2009

Resumen de datos

Tres tipos bsicos

Posicin: tambin llamadas medidas de tendencia central.

Dispersin: conocidas tambin como medidas de escala

Forma: sirven para el estudio de la asimetra y


apuntamiento comparado con la curva gaussiana

Jos Ros

IUSC - 2009

Resumen de datos
Medidas de Posicin

Media aritmtica
xi
X i 1

n
n

Jos Ros

En el caso de datos agrupados en intervalos, la


media se calcular con el valor medio de intervalo

nicamente tiene sentido para variables


cuantitativas

IUSC - 2009

Resumen de datos
Medidas de Posicin

Mediana
1,3,3,4,6,13,14,14,18
6
1,3,3,4,6,13,14,14,17,18
6 y 13
Mediana=(6+13)/2=9.5

Jos Ros

Deja a ambos lados la misma poblacin.


El valor de la mediana no tiene por que existir en la
muestra

Para su clculo slo se requiere que las clases sean


ordenables, podemos, por tanto, calcularla tanto
para variables cuantitativas como cualitativas
ordinales
IUSC - 2009

Resumen de datos
Medidas de Posicin
Moda

Jos Ros

Es el valor ms frecuente en nuestros datos


En el caso de variables que tomen muchos
valores, el clculo de la moda es preferible con
los datos agrupados, obtendremos el intervalo
modal
Su clculo tiene sentido para cualquier tipo de
variable. Slo usa el valor de las frecuencias

IUSC - 2009

10

Resumen de datos
Medidas de Posicin
Cuantiles.

Son de orden (). Dejan el 100% de la


poblacin por debajo.
Los percentiles dividen la poblacin en
porcentajes, los terciles, cuartiles y quintiles
fracciones.

El segundo cuartil coincide con la Mediana

Jos Ros

IUSC - 2009

11

Resumen de datos
Medidas de Posicin

Propiedades.

La Media es sensible a los valores extremos, la Mediana


no lo es.

Media 1

Media 2
Nuevo valor en
la muestra

Mediana 1
Mediana 2

Jos Ros

Especial atencin en estudios de anlisis de supervivencia


IUSC - 2009

12

Pero entonces?

Media
Moda
Mediana

Jos Ros

IUSC - 2009

13

Resumen de datos
Medidas de Posicin

Atencin, siempre es mejor visualizar los datos antes de


trabajar con ellos.

Es posible que ni la Media ni la Mediana representen bien el


comportamiento central de la variable

En este caso, Media y Mediana tienen el mismo valor, algn


comentario?

Jos Ros

IUSC - 2009

14

Resumen de datos
Medidas Escala (dispersin)

Dos

Grandes Familias

Recorridos

Varianzas

Jos Ros

IUSC - 2009

15

Resumen de datos
Medidas Escala (dispersin)

Jos Ros

Rangos y amplitudes: valores pequeos en


recorridos o rangos dan idea de poco dispersin,
valores grandes indican mucha dispersin o
presencia de valores extremos.
El Rango (Mn Mx) se ve extremadamente
afectado por valores extremos, no es, por tanto, una
buena medida.
El recorrido intercualtlico (1er Cuartil 3er Cuartil)
tambin indica dispersin.
Ambos valores combinados pueden dar buena idea
de cmo son los datos
IUSC - 2009

16

Resumen de datos
Medidas Escala (dispersin)

Veamos un ejemplo de clculo

Jos Ros

IUSC - 2009

17

Resumen de datos
Medidas Escala (dispersin)

Qu ocurre si sumamos todas las distancias?

Las distancias negativas son compensadas con las


positivas. La suma es siempre cero

Def.: la media es el centro de gravedad de la distribucin


muestral

Jos Ros

IUSC - 2009

18

Resumen de datos
Medidas Escala (dispersin)

1 n 2

xi 2

n 1 i 1
2

Jos Ros

La varianza es la media
de la suma de las
desviaciones respecto a
la media elevadas al
cuadrado.

La Desviacin estandar
es la raz del anterior

El Coeficiente de
variacin usa las
medidas de posicin y
escala

1
n 1

DE

x
n

i 1

1
n 1

x
n

i 1

x *100

CV
IUSC - 2009

19

Resumen de datos
Medidas Escala (dispersin)

Pregunta:

Por qu si tenemos la varianza acabamos utilizando la


DE? Complicamos los estadsticos intilmente los
clculos?

El problema de la varianza es que no se mide en las


mismas unidades que los datos de la muestra, es por
eso que se define la DE

Jos Ros

IUSC - 2009

20

Resumen de datos
Medidas Escala (dispersin)

Bien.... Pero qu medida es la


buena?

Por si sola ninguna. Siempre es


preferible ver todas ellas, visualizar
los datos siempre ayuda mucho a
detectar posibles problemas en los
datos

Nos podemos ayudar de


Histogramas y Diagramas de cajas
(Box-Plot)

Jos Ros

IUSC - 2009

21

Resumen de datos
Medidas Escala (dispersin)
El

diagrama de caja (Box-Plot), interpretacin:


Nos presenta el Rango y el recorrido intercuartlico (ojo
con el programa utilizado)
Valores fuera de lmites son representados con crculos se
consideran normales
Valores presentados como astersticos se podran
estudiar como atpicos

Jos Ros

OJO CON DESCARTAR ALEGREMENTE VALORES ATPICOS

IUSC - 2009

22

Resumen de datos
Medidas Escala (dispersin)

El diagrama de caja (Box-Plot)


Mximo

190
142
141

180

50% de la
muestra

170

Aqu se
espera
encontrar la
mayora de
la muestra

Mediana

160

150

140

Mnimo
130
N=

142

TALLA

Jos Ros

IUSC - 2009

23

Resumen de datos
Medidas de forma
Medida

de asimetra

n
Coef .asimetra
(n 1)(n 2)

( x i x) 3
s

Medida de apuntamiento o kurtosis

n(n 1)
Kurtosis
(n 1)(n 2)(n 3)

Jos Ros

( x i x) 4
3(n 1) 2

s
(n 2)(n 3)

IUSC - 2009

24

Resumen de datos
Medidas de forma
Medida

de asimetra

Simtrica
Coef.=0

Jos Ros

Asimtrica positiva
Coef. > 0

IUSC - 2009

Asimtrica negativa
Coef. < 0

25

Descripcin grfica
90

80

L a rg o s e p a lo

70

60

ESPECIE

19

Setosa
50

113

Versicol
Virginic

40
N=

50

50

50

especie

Jos Ros

Se comparan el largo del sepalo de tres variedades de


lirios: setosa, versicola y virginica
IUSC - 2009

26

Descripcin grfica
Grfico

de dispersin (Scatter Plot)

80

70

L a r g o s e p a lo

60

ESPECIE
50

Virginica
Versicolor

40

Setosa
0

10

20

30

40

50

60

70

Largo ptalo

Jos Ros

IUSC - 2009

27

Pudiendo resultar til

setosa
versicolor

virginica
Jos Ros

IUSC - 2009

28

Descripcin grfica

Una posible evaluacin grfica de los Odds Ratio (OR)

Evento

Jos Ros

IUSC - 2009

BMI

No

Odds

OR

<20

1.50

2.65

(20-25]

23

27

1.17

2.07

(25-30]

30

17

0.57

>=30

0.78

1.37
29

Estadsitica inferencial
P-valor
Intervalo

de confianza
Paramtricas vs. No
paramtricas

Gnesis de las ideas


1934: La lgica de la investigacin
cientfica. Cmo fundamentar el
conocimiento cientfico, por definicin
universal y necesario, en la experiencia
emprica, por definicin particular?
Hasta entonces
Descartes confa en las leyes eternas
de la razn
Karl Raimund Popper (1902-1994)
Hume en las leyes que se extraen de la
experiencia
En contra del positivismo: Cmo realizar
una ley universal a partir de un nmero
particular de experimentos?
A favor del falibilismo (o falsacin): el
POR TANTO:
conocimiento
cientfico
no puedeleyes
avanzar
La labor del cientfico
consiste
en criticar
confirmando nuevas leyes, sino descartando
para ir reduciendo el
nmero de teoras compatibles
leyes que contradicen la experiencia.

con observaciones experimentales.


CONSECUENCIA:
Una proposicin cientfica lo ser si es posible
crear un experimento que la pudiese contradecir.

Jos Ros

IUSC - 2009

31

Pruebas de hiptesis
Unilateral (una cola)
Ho: E - C 0
H1: E - C > 0
Bilateral (dos colas)
Ho: E - C = 0
H1: E - C > 0 E - C < 0
Jos Ros

IUSC - 2009

32

p?

Probabilidad de observar, por azar, una diferencia


como la de la muestra o mayor, cuando H0 es cierta

Es una medida de la evidencia en contra de la H 0


Es el azar una explicacin posible de las diferencias
observadas?

Supongamos que as es (H0).


Con qu probabilidad observaramos unas diferencias
de esa magnitud, o incluso mayor? P-valor
Si P-valor pequeo, rechazamos H0.

Difcil?... No, es como un juicio!

Jos Ros

IUSC - 2009

33

p?

Se acepta un valor mximo de 5% (0,05).


Si p0,05 diferencias estadsticamente significativas.

Si p>0,05 diferencias estadsticamente NO


significativas.

NO

implica importancia clnica.

NO

implica magnitud de efecto!!

Influenciada por el tamao de la muestra. Si n p

Jos Ros

IUSC - 2009

34

Pero el mo es mejor.

Para un mismo
resultado
cuantitativo el
investigador
avispado puede
hacer SU
interpretacin
cualitativa
simplemente
inundando el
artculo de valores
de p
Jos Ros

Mayor tamao de muestr


Misma magnitud de efecto
Misma relevancia clnica Menor valor de p
(habitualmente)
?

Mayor relevancia clnic


IUSC - 2009

35

Y Arguiano nos dice:

Jos Ros

IUSC - 2009

36

Y Arguiano nos dice:

Jos Ros

IUSC - 2009

37

Y Arguiano nos dice:

Jos Ros

IUSC - 2009

38

Intervalos de confianza

Si repetimos el intervalo de confianza a lo largo


del tiempo sobre la misma poblacin, los
intervalos de confianza al 95% calculados para
cada muestra deberan incluir el verdadero valor
de la poblacin en el 95% de las veces.

Una persona normal es aquella que no ha sido


lo suficientemente investigada.

Jos Ros

IUSC - 2009

39

Amplitud del IC
Tambin

depende de la informacin que la


muestra proporciona sobre el verdadero valor
poblacional

Mayor tamao de muestra ->


mayor precisin -> IC ms estrecho

Mayor dispersin de la medida ->


IC ms amplio

Jos Ros

IUSC - 2009

40

Por ejemplo

OR entre casos y controles de consumo de tabaco y EP. Intervalos de confianza del 90%.

Fuente: Vies, R. Larumbe, M.T. Artzcoz, I. Gaminde, D. Guerrero, J.V. Ferrer Estudio epidemiolgico de la
enfermedad de Parkinson en Navarra. Revista ANALES del Sistema Sanitario de Navarra, Vol. 22,
Suplemento 3, 1999
Jos Ros

IUSC - 2009

41

Estimacin

Pero hemos de tener en cuenta que todo intervalo de


confianza conlleva dos noticias, la buena y la mala

Jos Ros

La buena: hemos usado una tcnica que en % alto de casos


acierta.
La mala: no sabemos si ha acertado en nuestro caso.
IUSC - 2009

42

Pruebas paramtricas y no-paramtricas

Una prueba paramtrica requiere la estimacin de


uno o ms parmetros (estadsticos) de la poblacin

Ej.: Una estimacin de la diferencia entre la media antes y


despus de una intervencin

Las pruebas no-paramtricas no involucran ningn


tipo de estimacin de parmetros

Ej.: Facilitarnos la una estimacin de la P[X>Y],


probabilidad de que, selecionando un paciente despus
del tratamiento, su valor sea mayor que antes del
tratamiento

Jos Ros

IUSC - 2009

43

Pruebas paramtricas y noparamtricas

Ventajas de las pruebas no-paramtricas

No se asume nada sobre la distribucin de nuestros datos.

Se pueden usar en multitud de tipos de variables

Inconvenientes

A propsito de los datos

Las pruebas no-paramtricas acostumbran a tener un poder estadstico


menor que su equivalente paramtrico.
Utiliza rangos (ordenaciones), no da resultados en las unidades de las
variables originales.
El efecto de los valores extremos se diluye (buena noticia o mala)

Se deberan utilizar cuando los requerimientos para las pruebas


paramtricas no se cumplan.

Jos Ros

IUSC - 2009

44

Estadsitica inferencial
Regresin

y Supervivencia

Regresin lineal

Describe como un variable respuesta y cambia en


funcin de otra (tpicamente diseada) factor x de
forma estrictamente lineal

Formalmente se asume que:

Jos Ros

X no es una variable aleatoria (no tiene por qu cumplirse


siempre)
Para cada valor xi de X existe una v.a. Y|xi cuya media me
predice el modelo lineal
Todas las variables Y|xi son Normales, independientes y de
igual varianza

IUSC - 2009

46

Ejemplos macabros
Los

llamar macabros ya que son ilustrativos


de que el abuso debido a su simplicidad de
ejecucin e interpretacin puede tener
resultados nefastos

Jos Ros

IUSC - 2009

47

Ejemplos macabros

Jos Ros

IUSC - 2009

48

Ejemplos macabros
Y mucho cuidado con la correlacin

a proporcin de variabilidad explicada por la regresin es el r2 * 1


Jos Ros

IUSC - 2009

49

Ejemplos macabros
Por que los abusos no son nada buenos

Jos Ros

IUSC - 2009

50

J Allergy Clin Immunol 2006;117:989-94.)


Jos Ros

IUSC - 2009

51

Ejemplo sencillo
El

hbito tabquico es un buen predictor


lineal para los niveles de tiocianato?

Jos Ros

IUSC - 2009

52

Correlations

Pearson Correlation
Sig. (1-tailed)
N

Rec.:

Jos Ros

IUSC - 2009

thiocyanato serico
fuma_cig
thiocyanato serico
fuma_cig
thiocyanato serico
fuma_cig

thiocyanato
serico
1.000
-.540
.
.000
320
320

fuma_cig
-.540
1.000
.000
.
320
320

Y = a + b*X

53

ANOVAb
Model
1

Regression
Residual
Total

Sum of
Squares
294721.1
717690.6
1012412

df
1
318
319

Mean Square
294721.071
2256.889

F
130.587

Sig.
.000a

a. Predictors: (Constant), fuma_cig


b. Dependent Variable: thiocyanato serico

Coefficientsa

Model
1

(Constant)
fuma_cig

Unstandardized
Coefficients
B
Std. Error
202.840
11.467
-70.456
6.165

Standardized
Coefficients
Beta
-.540

t
17.688
-11.427

Sig.
.000
.000

95% Confidence Interval for B


Lower Bound
Upper Bound
180.278
225.401
-82.586
-58.325

a. Dependent Variable: thiocyanato serico

Por tanto, la funcin que me indicara la


prediccin lineal sera: Y = 202.84
70.46*X

Jos Ros

IUSC - 2009

54

A que pareca una buena opcin?

Jos Ros

IUSC - 2009

55

Otro ms para acabar


La

TAS es un buen predictor lineal para la


TAD?

Correlations
Pearson Correlation
Sig. (1-tailed)
N

Jos Ros

PADmedia
PASmed
PADmedia
PASmed
PADmedia
PASmed

PADmedia
1.000
.628
.
.000
1245
1245

IUSC - 2009

PASmed
.628
1.000
.000
.
1245
1245

56

Otro ejemplo
ANOVAb
Model
1

Regression
Residual
Total

Sum of
Squares
7458229
11479900
18938129

df
1
1243
1244

Mean Square
7458228.588
9235.640

F
807.549

Sig.
.000a

a. Predictors: (Constant), PASmed


b. Dependent Variable: PADmedia

Coefficientsa

Model
1

(Constant)
PASmed

Unstandardized
Coefficients
B
Std. Error
386.210
18.509
.347
.012

Standardized
Coefficients
Beta
.628

t
20.866
28.417

Sig.
.000
.000

95% Confidence Interval for B


Lower Bound
Upper Bound
349.898
422.522
.323
.370

a. Dependent Variable: PADmedia

Por cada mmHg que aumenta la PAS, la PAD experimenta un


aumento, en promedio, de 0.347 mmHg

Jos Ros

IUSC - 2009

57

Qu conclusin real se puede


obtener?

Jos Ros

IUSC - 2009

58

Anlisis de la supervivencia:
Motivos para su uso

En ocasiones importa tanto el tiempo hasta que se produce el


evento que su consecucin.
Por ejemplo (por no ser ms morboso): Evaluar el tiempo que se
tarda en la mejora o curacin

Estudiar n individuos
Ti ser el tiempo que tarda el i-simo paciente en curarse
El problema viene cuando no se conoce Ti censura

Por tanto pueden existir variables que explican este tiempo.


Muy til cuando el seguimiento es incompleto o muy variable

Jos Ros

IUSC - 2009

59

Cuando usar estas tcnicas

Deseamos un modelo para explicar tiempo hasta un


evento

Evento es dicotmico (regresin lineal no sirve)


Nos interesa el tiempo hasta evento (regresin logstica no
sirve)

Deseamos comparar supervivencia entre grupos


Podremos evaluar la relacin entre covariables y el
tiempo de supervivencia

Jos Ros

IUSC - 2009

60

Cuando usar estas tcnicas (II)


No

es efectivo ni tico esperar a que se


presenten todos los eventos para finalizar el
estudio.

Los

individuos entran en el estudio a tiempos


diferentes.

Jos Ros

IUSC - 2009

61

Por qu no otras?

Jos Ros

IUSC - 2009

62

Qu estimamos?

Jos Ros

IUSC - 2009

63

Posibles ejemplos de diseo (o no)

Evaluar la mortalidad en el post-operatorio


Reclutamos durante 5 aos a 350 pacientes y los
seguimos durante un tiempo de seis meses
Se seleccionan a 100 pacientes y se aleatorizan a
dos brazos de tratamiento. La aparicin del evento
se evala en consecutivas visitas programadas
durante tres aos
Miramos la aparicin espontnea de un evento en el
trascurso de un estudio de cohortes

Jos Ros

IUSC - 2009

64

Yo os doy una de las soluciones


Mortalidad

postoperatoria

Al no haber un seguimiento prolongado no tiene sentido


hablar de censuras y se dispone de toda la informacin de
los sujetos.

Surgical Priority
Emergency
Non-Emergency
Total

Discharge Status
Dead
Alive
Total
24
9
33
289
100
389
313
109
422

Chi-Square = 0.04
Degrees of Freedom = (2-1)(2-1) = 1
p = 0.084
Jos Ros

IUSC - 2009

65

Y las censuras?

Existen de varios tipos, pero aqu hablaremos slo de las


que se producen de forma aleatoria por la derecha
http://www.ms.uky.edu/~mai/java/stat/KapMei.html

Jos Ros

IUSC - 2009

66

Por qu censuras?
Se

produce por la imposibilidad prctica de tener


informacin precisa del momento del evento en la
totalidad de los sujetos.

El da de cierre no se ha presentado el evento


Hemos perdido el seguimiento del sujeto

Motivos

Jos Ros

Acontecimiento adverso
Cierre del estudio/seguimiento
Prdida de seguimiento
Evento por causa diferentes a la del estudio

IUSC - 2009

67

Pero existe una clasificacin

Tipo I.
Todos los individuos se siguen
hasta una fecha fin de estudio

Jos Ros

Por la derecha:
Pacientes vivos al finalizar el estudio
Pacientes perdidos o abandonos
En intervalo:
Las visitas de control son espaciadas
Por la izquierda:
Se desconoce la fecha de inicio

Tipo II.

Los individuos se siguen hasta


que han ocurrido r eventos
IUSC - 2009

68

Falta de seguimiento?

Jos Ros

IUSC - 2009

69

Qu pas con el ltimo paciente?

Jos Ros

IUSC - 2009

70

Por ejemplo

Jos Ros

IUSC - 2009

71

Y si el evento es repetido?
Los

modelos generales de Cox se realizan


contra un evento nico

El seguimiento del paciente se trunca en el primer


evento
Es suficiente para evaluar eventos no repetibles
como la mortalidad

Es

este tipo de anlisis suficiente en todos


los casos?

Jos Ros

IUSC - 2009

72

En EC quizs no mucho
El

modelo general de Cox lo que pretende es


ver como una caracterstica inicial modifica la
presencia de un evento

En EC, el tratamiento aleatorizado.

Hay

variables que se modifican a lo largo del


seguimiento que pueden propiciar el evento

Cox con covariables tiempo-dependiente


Jos Ros

IUSC - 2009

73

Esquemticamente
Modelo

AG
Evento

Modelo

Evento

PWP

Evento

Evento

Evento

Evento

Evento

mezclas
Evento

Evento

Evento

Evento

l grosor de la flecha indica el riesgo potencial de presentar el e


Jos Ros

IUSC - 2009

74

Pero hay muchos mtodos para


analizar este tipo de datos

Jos Ros

IUSC - 2009

75

Jos Ros

IUSC - 2009

76

Los mtodos estadsticos no son un sustituto


del sentido comn y la objetividad. Nunca
deberan estar dirigidos a confundir al lector,
sino que deben ser una contribucin
importante a la claridad de los argumentos
cientficos
SJ Pocock. Br J Psychiat 1980; 137:188-190

Jos Ros

IUSC - 2009

77

Jos Ros

IUSC - 2009

78

Anda mungkin juga menyukai