Anda di halaman 1dari 363

N I IC ED 3

Elementos de

Bioestadstica

Coleccin manuales uex - 79

Agustn Garca Nogales

79
NDICE

N I IC ED 3

AGUSTN GARCA NOGALES

ELEMENTOS DE BIOESTADSTICA

2011
ndice

GARCA NOGALES, Agustn


Elementos de Bioestadstica / Agustn Garca Nogales. Cceres : Universidad de Extremadura, Servicio de Publicaciones, 2011 363 pp.; 17x24 cm. - (Manuales UEX, ISSN 1135-870-X; 79) ISBN 978-84-694-9432-5 1. Biometra. 2. Estadstica mdica. I. Tt. II. Serie. III. Universidad de Extremadura, Servicio de Publicaciones, ed. 519.22:61 61:519.22

El autor Universidad de Extremadura para esta 3 edicin Edita: Universidad de Extremadura. Servicio de Publicaciones C/ Caldereros, 2 - Planta 2. 10071 Cceres (Espaa) Tel. 927 257 041 ; Fax 927 257 046 E-mail: publicac@unex.es http://www.unex.es/publicaciones ISSN 1135-870-X ISBN 978-84-694-9432-5 Depsito Legal CC-???-2011
Cualquier forma de reproduccin, distribucin, comunicacin pblica o transformacin de esta obra slo puede ser realizada con la autorizacin de sus titulares, salvo excepcin prevista por la ley. Dirjase a CEDRO (Centro Espaol de Derechos Reprogrficos, www.cedro.org) si necesita fotocopiar o escanear algn fragmento de esta obra.

ndice

ELEMENTOS de BIOESTADSTICA

ELEMENTOS
Agustn Garca Nogales

de

BIOESTADSTICA

Departamento de Matemticas Facultad de Medicina Universidad de Extremadura

Agustn Garca Nogales


Departamento de Matemticas Facultad de Medicina Universidad de Extremadura
ndice

A Mara Jos y Carlos

A mis padres

ndice

Tal vez la realidad no sea ms que una utopa ms

ndice

Prlogo a esta edicin

Tal vez, lo que llamamos realidad, sea lo que sta sea, no pueda ser para el hombre ms que una utopa, inalcanzable, por tanto, en buena medida, al menos, a su limitada, aunque siempre sorprendente, inteligencia, pero tambin, como cualquier utopa, estmulo ltimo, y til, que hace avanzar el conocimiento, en el sentido de que parece existir un amplio consenso en que los modelos que, como especie, vamos construyendo para explicarla se adaptan a ella cada vez mejor; el mtodo cientco, en general, y el estadstico, en particular, se han consolidado como herramientas ecientes para el diseo de esas aproximaciones a la realidad, y, en denitiva, para recorrer el agotador, pero apasionante, camino que, eso nos gustara y nos motiva, conduce a ella. Este libro contiene un buen puado de tcnicas estadsticas elementales apropiadas para la extraccin de la informacin que contienen los datos obtenidos de experimentos diseados con el propsito de descubrir nuevas (o de conrmar sospechadas) relaciones entre variables de inters en ciencias de la salud. Sus contenidos han sido especialmente seleccionados para impartir un curso de sesenta horas de duracin en el primer curso del Grado en Medicina por la Universidad de Extremadura. Entre ellas, cuarenta y cinco corresponden a clases tericas, nueve a la resolucin de ejercicios similares a los que se incluyen en este manual y las seis restantes a clases prcticas, en las que el alumno hace uso de las tcnicas estadsticas estudiadas con la ayuda de algn programa estadstico. Nos vemos, pues, obligados a prescindir de otros muchos mtodos estadsticos habitualmente utilizados en la investigacin biomdica, como pueden ser las tcnicas de regresin mltiple, regresin logstica, anlisis multivariante o anlisis de supervivencia, por ejemplo, que el lector puede localizar, entre otros temas de inters, en la bibliografa recomendada. Sin embargo, esa limitacin temporal nos ha permitido presentar un material didctico que ha sido contrastado en clase ante alumnos brillantes y exigentes, y depurado de acuerdo con la lectura que, sobre su asimilacin, hemos ido haciendo a lo largo de los ltimos quince aos. Esta obra se ha beneciado tambin, en varios aspectos, de muchas conversaciones con varios compaeros del Departamento de Matemticas y de

viVII

ndice

Agustn Garca Nogales


la Facultad de Medicina de la Universidad de Extremadura a quines, aunque sea as, de forma genrica, quiero mostrar mi agradecimiento. Es obvio que es tanto ms difcil aportar originalidad a un tema cuanto ms bsico es, y eso es lo que ocurre con este manual, cuyos contenidos aparecen de uno u otro modo en buena parte de los tratados ms usados de bioestadstica. Los conceptos bsicos son introducidos con la ayuda de ejemplos concretos tomados de las ciencias de la salud y con un aparato matemtico muy elemental, que sustituye las demostraciones de los resultados lejos del alcance de este texto por justicaciones intuitivas. No obstante, se ha procurado al mismo tiempo que sus deniciones aparezcan en la forma ms prxima posible a la denicin matemtica original, con la intencin de conservar al mximo su precisin, sacricando slo aquellas componentes que verdaderamente estn fuera del alcance del alumno de primer curso del Grado en Medicina como puede ser el concepto de -lgebra. Un ejemplo llamativo de lo que decimos es el concepto de variable aleatoria, que es presentado normalmente en la literatura como algo diferente del concepto matemtico de funcin, a pesar de que ste es bien conocido por el alumno que llega a esta titulacin. Algo anlogo ocurre con los conceptos de distribucin de probabilidad o de muestra. Creemos que la concisin de las deniciones matemticas aliviadas de sus componentes ms abstractos facilita su asimilacin por parte del alumno, procurando evitar que largas parrafadas aclaratorias necesarias, a menudo, por otra parte reemplacen a deniciones que no tienen otra aspiracin que la de ser sencillas, inequvocas y matemticamente rigurosas en lo posible. Este manual viene a sustituir a otro anterior, del que aparecieron dos ediciones bajo la denominacin Bioestadstica Bsica, que fue diseado para la asignatura de Bioestadstica de primer curso de la Licenciatura en Medicina de la Universidad de Extremadura. La adaptacin de los estudios de Medicina al Espacio Europeo de Educacin Superior justica la necesidad de adaptar los contenidos del texto original a las nuevas circunstancias. De una presencialidad de 75 horas se pasa a una de 60 horas y eso obliga a recortar el programa de la asignatura y, por ende, a modicar los contenidos de la obra original. De hecho, se han modicado y aadido ejemplos y comentarios, y se han aadido incluso algunos nuevos mtodos estadsticos. En realidad, ms que recortar contenido, se han marcado con el

VIII vi i

ndice

IX viii

Elementos de Bioestadstica
smbolo ( ) aquellos epgrafes o ejercicios que quedan fuera del programa de la asignatura y cuyo estudio puede ser omitido por el alumno de la misma. No obstante, debido la magnitud de los cambios realizados, hemos considerado oportuno, adems, cambiar el ttulo de la obra. El libro ha sido dividido en dos partes: la primera dedicada a la estadstica descriptiva y al clculo de probabilidades (captulos 0, 1 y 2) y la segunda, a la inferencia estadstica (captulos 3, 4, 5 y 6). Al nal de cada captulo, y de cada una de las dos partes, el lector puede encontrar colecciones de ejercicios, entre los que podemos distinguir dos tipos bsicos: en los del primer tipo se hace una armacin y el lector debe pronunciarse razonadamente sobre su certeza o falsedad, con el objetivo de que pueda valorar su grado de asimilacin de los conceptos estudiados; los ejercicios del segundo tipo son problemas que, adems y en general, pretenden adiestrar al lector en el uso de los mtodos probabilsticos y estadsticos presentados. Badajoz, otoo de 2011

ndice

ndice general

Prlogo a esta edicin

VIIvi

PRIMERA PARTE: Estadstica Descriptiva y Clculo de Probabilidades


0. Preliminares y Estadstica Descriptiva 0.0. Introduccin a la Estadstica en las Ciencias de la Salud . . . . . . . . . . . . . . . . . . . . . . . . . . . . 0.0.1. Algunas deniciones e ideas bsicas . . . . . . . . . . . . . . . . . . . 0.0.2. Utilidad de la estadstica en las ciencias de la salud . . . . . . . . . . 0.0.3. Breve repaso de la teora de conjuntos . . . . . . . . . . . . . . . . . 0.1. Estadstica Descriptiva . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 0.1.1. Sntesis de datos: principales estadsticos descriptivos . . . . . . . . . 0.1.2. ( ) Resumen de datos agrupados en clases . . . . . . . . . . . . . . 0.1.3. Mtodos grcos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Verdadero o falso? Captulo 0. . . . . . . . . . . . . . . . . . . . . . . . . . Problemas del Captulo 0 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1. Introduccin al Clculo de Probabilidades 1.1. Espacios de Probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . .

9 11

12 12 15 16 22 22 26 28 36 38 41 42 42

1.1.1. Fenmenos aleatorios . . . . . . . . . . . . . . . . . . . . . . . . . . .

Elementos de Bioestadstica
1.1.2. Espacio muestral. Sucesos . . . . . . . . . . . . . . . . . . . . . . . . 1.1.3. Denicin de probabilidad. Propiedades . . . . . . . . . . . . . . . . 1.2. Dependencia e Independencia de Sucesos. El Teorema de Bayes: Aplicaciones al Diagnstico Clnico . . . . . . . . . . . . . . . . . . . . . . . 1.2.1. Probabilidad condicionada . . . . . . . . . . . . . . . . . . . . . . . . 1.2.2. Independencia de sucesos . . . . . . . . . . . . . . . . . . . . . . . . 1.2.3. Teorema de Bayes. Aplicacin al diagnstico clnico . . . . . . . . . . Verdadero o falso? Captulo 1. . . . . . . . . . . . . . . . . . . . . . . . . . Problemas del Captulo 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2. Variables Aleatorias. Distribucin de Probabilidad 2.1. Denicin de Variable Aleatoria . . . . . . . . . . . . . . . . . . . . . . . . . 2.1.1. Variable aleatoria. Distribucin de probabilidad . . . . . . . . . . . . 2.1.2. Independencia de variables aleatorias . . . . . . . . . . . . . . . . . . 2.2. Variables Aleatorias Discretas: La Distribucin Binomial . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2.1. Variable aleatoria discreta. Funcin de probabilidad 2.2.2. Distribuciones de Bernoulli, binomial y uniforme discreta . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2.3. Momentos de una distribucin discreta . . . . . . . . . . . . . . . . . 2.3. Variables Aleatorias Continuas: La Distribucin Normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.3.1. Variable aleatoria continua: Funcin de densidad. Momentos . . . . . . . . . . . . . . . . . . . . . 2.3.2. La distribucin normal. Propiedades . . . . . . . . . . . . . . . . . . 2.3.3. Aplicacin al diagnstico clnico: intervalos de normalidad . . . . . . . . . . . . . . . . . . . . . . . . . 2.4. Aproximacin Probabilstica al Concepto de Muestra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90 87 79 81 79 72 73 . . . . . . . . . 71 71 51 51 52 54 61 63 65 66 66 68 43 45

Agustn Garca Nogales


2.4.1. Muestreo aleatorio simple . . . . . . . . . . . . . . . . . . . . . . . . 2.4.2. Concepto de muestra . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.4.3. Momentos muestrales: sus distribuciones . . . . . . . . . . . . . . . . 2.4.4. Teorema del lmite central . . . . . . . . . . . . . . . . . . . . . . . . 2.4.5. Aproximacin de la distribucin binomial por la normal . . . . . . . 90 92 94 98 99

2.4.6. Muestreo estraticado . . . . . . . . . . . . . . . . . . . . . . . . . . 103 Verdadero o falso? Captulo 2. . . . . . . . . . . . . . . . . . . . . . . . . . 105 Problemas del Captulo 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108 Verdadero o falso? PRIMERA PARTE PROBLEMAS DE LA PRIMERA PARTE 114 120

SEGUNDA PARTE: Inferencia Estadstica.


3. Introduccin a la Inferencia Estadstica 3.1. Clculo de Probabilidades

128 129

e Inferencia Estadstica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130 3.1.1. Distincin entre Probabilidad y Estadstica: Parmetros de una distribucin . . . . . . . . . . . . . . . . . . . . . 130 3.1.2. Estructura estadstica. Estadsticos . . . . . . . . . . . . . . . . . . . 132 3.1.3. Los dos grandes problemas de la Inferencia Estadstica . . . . . . . . 133 3.2. Estimacin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135 3.2.1. Estimacin puntual. Estimador . . . . . . . . . . . . . . . . . . . . . 135 3.2.2. Estimacin de los parmetros de una distribucin normal y de una proporcin . . . . . . . . . . . . . . . . . . . . . . . 136 3.2.3. Estimacin conjuntista. Intervalos de conanza . . . . . . . . . . . . 139 3.2.4. Intervalo de conanza para la media de una distribucin normal de varianza conocida . . . . . . . . . . . . . . . 140

Elementos de Bioestadstica
3.2.5. Determinacin del tamao de muestra necesario para conseguir una cierta precisin . . . . . . . . . . . . . . . . . . . 143 3.2.6. Cotas superior e inferior de conanza . . . . . . . . . . . . . . . . . . 144 3.3. Contraste de Hiptesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146 3.3.1. Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146 3.3.2. Cuatro etapas en la ejecucin de un test de hiptesis . . . . . . . . . 147 3.3.3. Valor P o nivel mnimo de signicacin de un test . . . . . . . . . . 153 3.3.4. Tests unilaterales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154 4. Problemas de Inferencia Estadstica sobre una o dos Muestras 161

4.1. Problemas de Inferencia Estadstica sobre una Muestra . . . . . . . . . . . . 162 4.1.1. Inferencia sobre la media de una distribucin normal . . . . . . . . . 162 4.1.2. Inferencia sobre la varianza de una distribucin normal . . . . . . . . 166 4.1.3. ( ) Comprobando la normalidad: Test de normalidad DAgostino . . . . . . . . . . . . . . . . . . . . . 167 4.1.4. Inferencia sobre una proporcin . . . . . . . . . . . . . . . . . . . . . 168 4.2. Comparacin de dos Muestras . . . . . . . . . . . . . . . . . . . . . . . . . . 172 4.2.1. Introduccin: muestras independientes y muestras relacionadas . . . . . . . . . . . . . . . . . . . . . . . . . 172 4.2.2. Comparacin de dos varianzas . . . . . . . . . . . . . . . . . . . . . . 174 4.2.3. Test t de Student de comparacin de dos medias: Muestras independientes y varianzas iguales . . . . . . . . . . . . . . 177 4.2.4. Test de Welch de comparacin de dos medias: Muestras independientes y varianzas distintas . . . . . . . . . . . . . 178 4.2.5. ( ) Test no paramtrico de suma de rangos de Mann-Whitney-Wilcoxon de comparacin de dos muestras independientes . . . . . . . . . . . . . . . . . . . . . . . 180 4.2.6. Test t de Student de comparacin de dos medias en el caso de muestras relacionadas . . . . . . . . . . . . . . . . . . . 183

Agustn Garca Nogales


4.2.7. ( ) Test no paramtrico de rangos con signo de Wilcoxon de comparacin de dos muestras relacionadas . . . . . . . . . . . . . . . . . . . . . . . . . . 184 4.2.8. Comparacin de dos proporciones: muestras independientes . . . . . . . . . . . . . . . . . . . . . . . . . 186 4.2.9. Test de McNemar de comparacin de dos proporciones: muestras relacionadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 188 Verdadero o falso? Captulos 3 y 4 . . . . . . . . . . . . . . . . . . . . . . . 191 Problemas de los Captulos 3 y 4 . . . . . . . . . . . . . . . . . . . . . . . . 194 5. Comparacin de Varias Muestras 5.1. Comparacin de Varias Muestras Cuantitativas: Modelo de Clasicacin Simple en Anlisis de la Varianza . . . . . . . . . . . . . . . . . . . . . . . . 202 5.1.1. Comparacin de varias medias: muestras independientes y varianzas iguales . . . . . . . . . . . . . . 202 5.1.2. Comparaciones mltiples . . . . . . . . . . . . . . . . . . . . . . . . . 210 5.1.3. ( ) Solucin no paramtrica al problema de comparacin de k muestras: Test de Kruskal-Wallis . . . . . . . . . . . . . . . . . . . . . . . . . . 214 5.1.4. ( ) Modelo de clasicacin doble en anlisis de la varianza sin interacciones y una observacin por celda o diseo de bloques al azar: test F (paramtrico) y test de Friedman (no paramtrico) . . . . . . . . . 217 5.2. Comparacin de Varias Muestras Cualitativas . . . . . . . . . . . . . . . . . 220 5.2.1. Tablas de contingencias . . . . . . . . . . . . . . . . . . . . . . . . . 220 5.2.2. Comparacin de varias muestras cualitativas . . . . . . . . . . . . . . 221 5.2.3. Comparacin de varias proporciones: muestras independientes . . . . . . . . . . . . . . . . . . . . . . . . . 223 5.2.4. ( ) Comparacin de varias proporciones: muestras relacionadas . . . . . . . . . . . . . . . . . . . . . . . . . . 224 201

Elementos de Bioestadstica
Verdadero o falso? Captulo 5. . . . . . . . . . . . . . . . . . . . . . . . . . 226 Problemas del Captulo 5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 227 6. Relacin entre Variables 6.1. Relacin entre dos Variables Cuantitativas: Regresin Lineal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 232 6.1.1. El problema de regresin . . . . . . . . . . . . . . . . . . . . . . . . . 232 6.1.2. Regresin lineal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 233 6.1.3. Estimacin puntual en el modelo de regresin lineal . . . . . . . . . . 237 6.1.4. Contraste de hiptesis e intervalos de conanza sobre la pendiente de regresin . . . . . . . . . . . . . . . . . . . . . 240 6.1.5. Inferencia sobre la media de Y dado un valor de X y sobre la ordenada en el origen . . . . . . . . . . . . . . . . . . . . . 243 6.1.6. Intervalos de prediccin . . . . . . . . . . . . . . . . . . . . . . . . . 244 6.2. Relacin entre dos Variables Cuantitativas: Correlacin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 247 6.2.1. Coeciente de correlacin de Pearson y coeciente de determinacin . . . . . . . . . . . . . . . . . . . . . . 247 6.2.2. ( ) Correlacin no paramtrica: Coeciente de correlacin de Spearman . . . . . . . . . . . . . . . . . . . . . . . . . 251 6.3. Relacin entre dos Variables Cualitativas . . . . . . . . . . . . . . . . . . . . 253 6.3.1. Test de independencia de dos variables cualitativas . . . . . . . . . . 253 6.3.2. Medidas de asociacin de dos variables cualitativas . . . . . . . . . . 258 6.3.3. Otras medidas de asociacin en el caso 2 2: Riesgo relativo y razn del producto cruzado . . . . . . . . . . . . . 259 6.3.4. Inferencia sobre el riesgo relativo y la razn del producto cruzado . . . . . . . . . . . . . . . . . . . . . . 260 Verdadero o falso? Captulo 6. . . . . . . . . . . . . . . . . . . . . . . . . . 264 Problemas del Captulo 6 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 267 231

Agustn Garca Nogales


Verdadero o falso? SEGUNDA PARTE PROBLEMAS DE LA SEGUNDA PARTE Eplogo: Qu hacer con los datos? 271 277 287

Primera etapa: entrada de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . 287 Segunda etapa: estadstica descriptiva . . . . . . . . . . . . . . . . . . . . . . . . 288 Tercera etapa: inferencia estadstica Bibliografa Apndice: Tablas estadsticas. . . . . . . . . . . . . . . . . . . . . . . . . . 291 299 300

Tabla I: 3000 dgitos aleatorios . . . . . . . . . . . . . . . . . . . . . . . . . . . . 301 Tabla II: Distribucin binomial B (n, p) . . . . . . . . . . . . . . . . . . . . . . . . 302 Tabla III.1: Distribucin N (0, 1). Cuantiles . . . . . . . . . . . . . . . . . . . . . 309 Tabla III.2: Distribucin N (0, 1). Funcin de distribucin . . . . . . . . . . . . . 310 Tabla IV: Distribucin t de Student . . . . . . . . . . . . . . . . . . . . . . . . . 313

Tabla V: Distribucin chi-cuadrado 2 (n) . . . . . . . . . . . . . . . . . . . . . . 315 Tabla VI: Distribucin F (m, n) de Fisher . . . . . . . . . . . . . . . . . . . . . . 317 Tabla VII: Test de normalidad de DAgostino . . . . . . . . . . . . . . . . . . . . 330 Tabla VIII: Test de Mann-Whitney-Wilcoxon: regin de aceptacin . . . . . . . . 331 Tabla IX: Distribucin T de Wilcoxon para muestras relacionadas . . . . . . . . . 332 Tabla X: Distribucin q de Tukey para comparaciones mltiples . . . . . . . . . . 333 Tabla X: Distribucin Q para comparaciones mltiples no paramtricas . . . . . . 336 Tabla XII: Distribucin de Bonferroni . . . . . . . . . . . . . . . . . . . . . . . . 337 Tabla XIII: Valores crticos para el coeciente de correlacin de Spearman . . . . 339 Tabla XIV: Factores K para lmites de tolerancia bilaterales para distribuciones normales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 340 Soluciones para algunas de las cuestiones Verdadero o Falso? Soluciones para algunos de los problemas 341 342

8
ndice Alfabtico

Elementos de Bioestadstica
343

PRIMERA PARTE Estadstica Descriptiva y Clculo de Probabilidades

ndice

10

ndice

Cap tulo

Preliminares y Estadstica Descriptiva

11

ndice

12

Elementos de Bioestadstica

0.0.

Introduccin a la Estadstica en las Ciencias de la Salud

0.0.1.
Id 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 N 9,0 9,0 8,3 7,2 7,2 8,2 8,7 3,9 1,3 8,2 2,7 5,5 7,5 9,0 7,9 8,7 6,7 8,8 9,5 6,4 8,0

Algunas deniciones e ideas bsicas


S 0 0 1 0 1 0 1 0 1 0 0 0 0 0 0 1 0 1 1 0 0 Id 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 N 4,1 7,2 8,4 7,1 7,2 9,6 7,4 5,9 7,9 4,1 9,0 7,2 3,1 8,0 2,7 9,0 10 9,4 9,2 7,3 8,6 S 1 0 1 0 0 0 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 Id 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 N 6,7 5,8 3,4 10 6,6 9,1 7,0 7,5 7,2 7,8 9,0 5,5 8,6 9,0 10 5,4 7,8 9,0 7,6 3,2 3,1 S 0 0 1 1 1 1 0 0 0 0 1 0 0 1 0 0 0 1 1 0 0 Id 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 N 1,0 6,0 6,3 7,7 3,5 7,1 7,0 7,4 7,8 8,0 5,4 6,5 7,7 3,7 8,2 8,3 6,0 8,6 8,7 6,5 10 S 0 0 0 0 0 1 0 1 0 0 0 1 0 1 1 0 1 0 1 0 0 Id 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 N 5,5 8,5 7,1 8,3 8,3 7,7 6,4 5,7 8,7 6,7 6,7 6,4 7,5 7,7 8,5 6,2 6,5 10 3,8 7,5 10 S 0 1 0 0 1 1 0 0 0 0 1 0 0 1 0 1 0 0 1 0 0 Id 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 N 5,6 1,9 7,0 5,0 10 9,0 8,5 6,4 5,8 8,2 1,2 8,4 7,6 9,1 1,4 9,7 9,1 5,9 7,7 7,7 10 S 0 1 0 0 0 0 0 1 0 0 1 0 1 0 1 1 0 0 0 0 0

Calicaciones de un examen nal de Bioestadstica

Los ingredientes bsicos de un problema de estadstica aplicada son los datos, y hemos

ndice

Agustn Garca Nogales


querido reservar para un conjunto de datos reales las primeras lneas de este libro. La columna N recoge las calicaciones de un examen nal de la asignatura de bioestadstica celebrado hace algunos aos en la Facultad de Medicina de la Universidad de Extremadura, mientras que las columnas Id y S recogen el nmero de identicacin del alumno y el sexo, respectivamente, donde 0 =mujer y 1 =hombre. Este conjunto de datos, aunque relativamente pequeo, ya muestra la dicultad que entraa el anlisis de datos. Cabra preguntarse, por ejemplo, si esas notas son razonablemente buenas o si existe relacin entre las calicaciones y el sexo. La estadstica ha diseado determinadas tcnicas que ayudan a interpretar los datos y a obtener conclusiones de ellos, y el objetivo de este libro es hacer una introduccin a algunos de los mtodos estadsticos ms sencillos. Pero antes de eso, intentaremos, aunque sea de forma intuitiva, jar una terminologa que utilizaremos con frecuencia en lo sucesivo. No parece sencillo denir en pocas palabras y con precisin cules son los objetivos de una determinada ciencia, en general, ni de la estadstica, en particular; una primera aproximacin aparece en la siguiente denicin. DEFINICIN 0.1. (Estadstica) La estadstica es una ciencia que se interesa por la recogida, presentacin y resumen de datos y la obtencin de informacin a partir de ellos con el propsito de estudiar posibles relaciones entre variables de inters para el hombre. Una primera clasicacin de la estadstica, acorde con la denicin anterior, distingue entre el diseo de experimentos, la estadstica descriptiva y la inferencia estadstica. DEFINICIN 0.2. (Diseo de experimentos) El diseo de experimentos tiene por objeto la planicacin de la recogida de los datos de forma que queden garantizadas las suposiciones que requieren los mtodos estadsticos que vayamos a utilizar en el anlisis de los mismos. DEFINICIN 0.3. (Estadstica descriptiva) La estadstica descriptiva estudia diversas tcnicas tiles en la presentacin y el resumen de un conjunto de datos. DEFINICIN 0.4. (Inferencia estadstica) La inferencia estadstica presenta ciertos mtodos que nos permiten tomar decisiones sobre relaciones entre variables en un gran conjunto de datos a partir del estudio de una pequea y apropiada parte de los mismos.

13

ndice

14

Elementos de Bioestadstica
Una segunda clasicacin de la estadstica la considera dividida en dos grandes reas: la estadstica matemtica y la estadstica aplicada. DEFINICIN 0.5. (Estadstica matemtica) La estadstica matemtica tiene por objeto el desarrollo de nuevos mtodos estadsticos con la ayuda de, a menudo, complejas tcnicas matemticas. DEFINICIN 0.6. (Estadstica aplicada) La estadstica aplicada consiste en la aplicacin de los mtodos de la estadstica matemtica en otras reas como pueden ser la economa, psicologa, sociologa, biologa o medicina. DEFINICIN 0.7. (Bioestadstica) La bioestadstica puede ser denida como la rama de la estadstica aplicada que corresponde a la aplicacin de los mtodos estadsticos en ciencias de la salud y en biologa. Observacin 0.8. (Poblacin) En trminos intuitivos, se habla de poblacin en estadstica en un sentido amplio para referirnos, por ejemplo, a un conjunto de personas o animales o mquinas o, en general, al conjunto de todos los objetos a los que afecta nuestro estudio y sobre los que deseamos obtener alguna informacin. Sus elementos suelen llamarse individuos, tambin en un sentido amplio. Observacin 0.9. (Muestra) Una primera aproximacin al concepto de muestra nos la presenta como una parte de la poblacin que podamos considerar representativa de ella. El objetivo de la inferencia estadstica consiste, precisamente, en obtener informacin sobre toda la poblacin a partir de los datos obtenidos para una muestra de la misma. Observacin 0.10. (Variable) Podemos estar interesados en el estudio de una o varias caractersticas (numricas o no) de los individuos de esa poblacin, y se habla de variable para hacer alusin a la aplicacin que asigna a cada individuo de la poblacin el valor o los valores que de l nos interesan. Una variable que toma valores numricos suele llamarse variable cuantitativa (ej.: el peso, el nmero de piezas dentales con caries, el nivel de colesterol,. . . ); se habla de variable cualitativa cuando la caracterstica que nos interesa de los individuos de la poblacin no es descrita por un nmero en el mismo sentido que lo es el peso o la edad sino que, de acuerdo con esa caracterstica, el individuo es clasicado en una de varias posibles categoras (ej.: clase social a la que pertenece, partido poltico por el que vot en las ltimas elecciones,. . . ). Entre las variables cuantitativas suelen distinguirse a veces dos tipos principales: las discretas y la continuas; las primeras son aquellas que toman una cantidad nita de valores numricos; las variables continuas son variables cuantitativas que, en principio, pueden tomar cualquier valor dentro de un cierto intervalo. Si las variables cuantitativas discretas se usan habitualmente para contar (ej.: el nmero de admisiones diarias en un cierto hospital, el nmero de piezas dentales con caries en los alumnos de un

ndice

Agustn Garca Nogales


cierto colegio,. . . ), las continuas se suelen usar para medir (ej.: el peso o la altura de un individuo, su nivel de colesterol,. . . ) A veces, cuando slo nos interesa el estudio de una cierta caracterstica en los individuos de una poblacin, se identica la poblacin con el conjunto de los valores posibles de la variable que describe esa caracterstica.

15

0.0.2.

Utilidad de la estadstica en las ciencias de la salud

Durante las ltimas dcadas, las ciencias de la salud han experimentado un importante proceso de cuanticacin: adems del uso tradicional de informacin cualitativa, como puede ser el aspecto de una herida, o el estado general del enfermo, se ha aprovechado el desarrollo de la tecnologa para la determinacin de ciertas cantidades numricas que pudieran tener alguna relacin con la salud del paciente, como pueden ser la presin sangunea, el nivel de glucosa en suero, etctera. Si, salvo anomalas, algunas de esas cantidades permanecen invariantes de un individuo a otro (nmero de ojos, o de brazos, por ejemplo), otras reejan lo que se suele conocer como variabilidad biolgica, es decir, el hecho de que una persona es siempre diferente de otra persona (e, incluso, un ser humano es diferente a s mismo en distintas etapas de su vida); como consecuencia, dos personas diferentes tendrn, en general, diferentes niveles de glucosa (o de colesterol,. . . ) en suero sanguneo. La estadstica posee un conjunto de tcnicas que nos permiten profundizar en el estudio de la variabilidad que pueda presentar un conjunto de datos de esta naturaleza, y distinguir, por ejemplo, si el valor de una cierta variable para un individuo concreto se puede considerar normal o, por el contrario, podra ser un indicio de la presencia de una cierta enfermedad. Conscientes de ese hecho, las revistas de investigacin en el campo biomdico exigen un tratamiento estadstico riguroso de los datos. Algo anlogo se puede decir de la investigacin en biologa. Otro campo de aplicacin de la estadstica en las ciencias de la salud tiene que ver con su dimensin social, pues las autoridades sanitarias de un pas necesitan tener una idea clara de las caractersticas de la poblacin a la que se quiere aplicar una cierta poltica sanitaria y, siendo usualmente imposible o muy costoso estudiar a todos y cada uno de los individuos de la poblacin, se puede hacer uso de la estadstica para conseguir esa informacin a partir de una muestra representativa de la poblacin.

ndice

16

Elementos de Bioestadstica
Debido a ello, el mtodo estadstico se hace cada da ms necesario para el profesional de la salud, tanto en su dimensin clnica, como en la administrativa o la investigadora. Observacin 0.11. Una situacin tpica en la que resultan tiles los mtodos estadsticos es en la comparacin de dos o ms tratamientos, o la comparacin de dos o ms grupos o poblaciones con relacin a una caracterstica de inters; por ejemplo, podemos estar interesados en comparar las presiones sanguneas sistlicas (PSS) en un grupo de vegetarianos y en un grupo de individuos que siguen una dieta normal, con el n de decidir si esos niveles son los mismos en ambos grupos o si, por el contrario, existen diferencias signicativas entre las PSS de ambos grupos. Puede ocurrir perfectamente que elegido un par de personas de forma que una sea vegetariana y la otra con una dieta normal se obtenga una PSS mayor en la primera que en la segunda, mientras que para otro par elegido en las mismas condiciones se obtenga justo lo contrario. No parece pues apropiado basar nuestra decisin en un slo par de personas, y la manera razonable de llegar a una decisin nal es haciendo uso del mtodo estadstico a partir de muestras sucientemente amplias y convenientemente seleccionadas en las dos poblaciones que deseamos comparar.

0.0.3.

Breve repaso de la teora de conjuntos

Con el n de jar las notaciones, repasamos a continuacin algunos conceptos bsicos de la teora de conjuntos. Esta teora comienza con los trminos primitivos(1 ) de conjunto, elemento y la idea de pertenencia. Si a es un elemento de un conjunto A escribiremos a A y leeremos a pertenece al conjunto A. Denotaremos por N el conjunto de los nmeros naturales, es decir, N = {1, 2, 3, . . . } y por R el conjunto de todos los nmeros reales (racionales e irracionales), que identicaremos en la forma usual con los puntos de una recta. Si a < b son nmeros reales, los intervalos cerrado y abierto con extremos a y b se denen como sigue: [a, b] = {x R : a x b} ]a, b[ = {x R : a < x < b}
1

Un trmino primitivo en una teora es un concepto que no se dene; resultan necesarios desde

un punto de vista formal pues, siendo nito el lenguaje, es imposible denir todos los conceptos sin terminar cayendo en el error de utilizar lo denido en la denicin.

ndice

Agustn Garca Nogales


Recordemos que se suele denotar por e el nmero 2.71728..., la base de los logaritmos neperianos, y por el nmero 3.141592..., razn entre la longitud de la circunferencia y su dimetro. (2 ) Los conjuntos se pueden describir de dos modos: encerrando entre llaves todos y cada uno de sus elementos separados por comas (A = {1, 2, 3}) o escribiendo entre llaves una proposicin vericada por todos y cada uno de los elementos de ese conjunto y slo por ellos (por ejemplo, el conjunto de los nmeros pares se puede escribir en la forma {n N : n = 2m para algn m N}, que se lee as: conjunto de los nmeros naturales n tales que n = 2m para algn otro nmero natural m). DEFINICIN 0.12. (Inclusin) Dados dos conjuntos A y B , diremos que A est incluido en B y escribiremos A B si cada elemento de A es tambin un elemento de B ; diremos tambin que A es subconjunto de B . DEFINICIN 0.13. (Conjunto vaco) El conjunto vaco (que no posee ningn elemento) se denotar por . DEFINICIN 0.14. (Unin de conjuntos) La unin de dos subconjuntos A y B de un conjunto es un nuevo conjunto que se denotar por A B y que est formado por todos los elementos de A y de B : A B = {x : x A o x B }. DEFINICIN 0.15. (Interseccin de conjuntos) La interseccin de dos subconjuntos A y B de un conjunto es un nuevo conjunto que se denotar por A B y que est formado por todos los elementos que estn simultneamente en A y en B : A B = {x : x A y x B }. DEFINICIN 0.16. (Complementario de un conjunto) El complementario (en ) de un
2

17

Redondeo: Si, operando con nmeros reales, se desea trabajar con una precisin de, por ejemplo,

dos cifras decimales, aproximaremos el nmero por el que forman su parte entera y las dos primeras cifras decimales cuando la tercera cifra decimal es 0, 1, 2, 3 o 4, y por el que forman su parte entera, la primera cifra decimal, y la segunda aumentada en una unidad cuando la tercera cifra decimal es 5 o superior. Por ejemplo, aproximaciones del nmero con una, dos, tres y cuatro cifras decimales son 3.1, 3.14, 3.142 y 3.1416.

ndice

18 A B A

Elementos de Bioestadstica B

e u e eA B

e u e eA B

A Ac

'

A\B

Figura 1: Interseccin, unin, complementario y diferencia de conjuntos


subconjunto A de se dene como el conjunto Ac formado por todos los puntos de que no estn en A: Ac = {x : x / A}. DEFINICIN 0.17. (Diferencia de dos conjuntos) La diferencia de dos conjuntos A y B se denota por A \ B y se dene como el conjunto formado por todos los elementos que estn en A y no en B , es decir, A \ B = A B c . DEFINICIN 0.18. (Conjunto producto o producto cartesiano de dos o ms conjuntos) Dados dos conjuntos no vacos A1 y A2 se dene el conjunto producto A1 A2 como el conjunto de pares (a1 , a2 ) tales que a1 A1 y a2 A2 : A1 A2 = {(a1 , a2 ) : a1 A1 , a2 A2 }. Dado un conjunto A, A A se escribe tambin A2 . Anlogamente, dados n conjuntos no vacos A1 , . . . , An , se dene el conjunto producto A1 A2 An como el conjunto de n-uplas (a1 , a2 , . . . , an ) tales que a1 A1 , a2 A2 ,. . . , an An : A1 A2 An = {(a1 , a2 , . . . , an ) : a1 A1 , a2 A2 , . . . , an An }. DEFINICIN 0.19. (Correspondencia entre dos conjuntos) Una correspondencia X entre los conjuntos no vacos A y B es un subconjunto del conjunto producto A B que se denota normalmente en la forma X : A B ; si (a, b) X suele escribirse b = X (a) y decirse que b es una imagen de a por la correspondencia X y que a es una contraimagen de b.

ndice

Agustn Garca Nogales A ' X E ' B$ $

19

  hh hhhh hhh X 1 (C ) h q - q
a

b = X (a)

 & %

C & %

Figura 2: Contraimagen de un conjunto C


DEFINICIN 0.20. (Aplicacin o funcin) Una aplicacin o funcin entre dos conjuntos A y B es una correspondencia X : A B en la que cada elemento del conjunto origen A tiene una y slo una imagen en el conjunto de llegada B . Si, adems, cada elemento de B es imagen de uno y slo un elemento de A, diremos que la aplicacin es biyectiva. DEFINICIN 0.21. (Contraimagen de un conjunto por una aplicacin) Si X : A B

es una aplicacin y C es un subconjunto de B , denotaremos por X 1 (C ) la contraimagen de C , es decir, el subconjunto de A formado por todos los elementos cuya imagen est en C: X 1 (C ) = {a A : X (a) C } A menudo se escribe tambin {X C } en lugar de X 1 (C ). Observacin 0.22. (Representaciones grcas de correspondencias y aplicaciones) Una correspondencia X (y una aplicacin, en particular) de un conjunto nito A en un conjunto B se puede representar grcamente utilizando un diagrama de Venn para el conjunto A (es decir, un recinto cerrado en cuyo interior se dibujan tantos puntos como elementos tiene el conjunto A con el smbolo utilizado para cada elemento al lado de uno de los puntos) y otro para el conjunto B a la derecha de aquel, y uniendo mediante una echa cada elemento a A con cada una de sus imgenes en el conjunto B . Otra representacin de esa correspondencia utiliza un diagrama cartesiano con una lnea horizontal (llamada eje de abscisas) en el que se sitan los elementos del conjunto A y otra vertical (llamada eje de ordenadas) en el que se sitan los elementos del conjunto B ; a continuacin se traza una lnea vertical sobre cada elemento de A y una lnea horizontal sobre cada elemento de B y se marcan los puntos de la malla as formada que corresponden a pares (a, b) tales que b = X (a). El grco anterior muestra la contraimagen de un subconjunto C de B por la correspondencia X . Un conjunto se dice innito si existe una aplicacin biyectiva entre l y algn subconjunto propio suyo (un subconjunto de un conjunto A se dice subconjunto propio si es no vaco y

ndice

20

Elementos de Bioestadstica
distinto de A). Por ejemplo, N es un conjunto innito pues la aplicacin n N 2n P es una biyeccin entre N y el subconjunto P de N formado por los nmeros pares. Un conjunto se dice nito si no es innito. Un conjunto innito A se dice numerable si existe una biyeccin entre N y A; por ejemplo, P y el conjunto Q de todos los nmeros racionales son conjuntos numerables. Pero el conjunto R de todos los nmeros reales es un conjunto innito no numerable. Recordemos ahora la denicin de nmero combinatorio. Si n N y 0 k n se dene el nmero combinatorio n sobre k mediante: n k = n! k !(n k )!

donde n! = n (n 1) . . . 3 2 1 (se lee n factorial y es el nmero de permutaciones en el conjunto {1, . . . , n}, es decir, el nmero de aplicaciones biyectivas de {1, . . . , n} en s mismo). Por convenio, 0!=1!=1 y
n 0

= 1. El nmero combinatorio

n k

es el nmero

de combinaciones de n elementos tomados de k en k , siendo dos combinaciones diferentes cuando una de ellas contiene un elemento que no contiene la otra, es decir, de subconjuntos de {1, . . . , n} que tienen k elementos. Es obvio que
n k n k

es el nmero .

n nk

Ejemplo 0.23. ( ) El nmero de aplicaciones biyectivas (o permutaciones) del conjunto {1, 2, 3, 4} en s mismo es igual a 4! = 4 3 2 1 = 24. Un ejemplo de permutacin en ese conjunto es (3, 1, 4, 2), forma abreviada sta de describir la aplicacin biyectiva que lleva el 1 en el 3 (que aparece en primer lugar en la permutacin), el 2 en el 1 (que aparece en segundo lugar en la permutacin), el 3 en el 4 y el 4 en el 2. Esa permutacin se puede escribir tambin en la forma 3142, identicndose as con un nmero de cuatro cifras. Podemos, por tanto, armar que con las cifras 1, 2, 3 y 4 se pueden escribir 4! = 24 nmeros de cuatro cifras diferentes. Como vemos, en cada permutacin en un conjunto se utiliza cada elemento de ste una y slo una vez, y una permutacin se diferencia de otra en el orden en que aparecen colocados los elementos. Por otra parte, el conjunto {1, 2, 3, 4} tiene 4 2 = 6 subconjuntos con 2 elementos: {1, 2}, {1, 3}, {1, 4}, {2, 3}, {2, 4} y {3, 4}. Se dice que hay 6 combinaciones de 4 elementos tomados de 2 en 2. Por ejemplo, hay 6 formas distintas de asignar dos manzanas idnticas a 4 nios si las manzanas no se pueden partir y cada nio recibe a lo sumo una manzana. As, en una combinacin en un conjunto no pueden aparecer elementos repetidos, y el orden no inuye en la combinacin, de tal suerte que dos combinaciones son diferentes cuando una de ellas contiene un elemento que no contiene la otra. Veamos un ejemplo ms. En un ensayo clnico para vericar la ecacia de un tratamiento contra una enfermedad, podemos seleccionar 20 individuos enfermos que dividiremos en dos grupos de 10: los individuos de uno de los grupos (grupo de tratamiento) recibirn el tratamiento y

ndice

Agustn Garca Nogales


los del otro no (grupo de control); para evitar preferencias por parte del investigador, la asignacin de 10 individuos al grupo de tratamiento se har al azar (por sorteo), pues los 10 restantes irn al grupo de control. Existen 20 10 formas posibles de asignar 10 de los 20 individuos al grupo de tratamiento. Si x1 , . . . , xn son nmeros reales, la suma x1 + + xn se denota tambin por
n

21

xi
i=1

El smbolo

se conoce con el nombre de sumatorio. En ocasiones un conjunto nito de

nmeros reales aparece descrito con la ayuda de dos subndices i y j ; en ese caso, la suma de todos ellos se escribe con la ayuda de un doble sumatorio: si xij , 1 i m, 1 j n, son nmeros reales (exactamente, m n nmeros), su suma se denota por
m n

xij
i=1 j =1

ndice

0.1.

Estadstica Descriptiva

0.1.1.

Sntesis de datos: principales estadsticos descriptivos

Como ya hemos comentado, la estadstica descriptiva disea tcnicas que puedan resultar tiles en la presentacin y el resumen de un conjunto de datos. Los datos que encontramos en la prctica se suelen dividir en dos tipos, que se corresponden con los dos tipos de variables consideradas anteriormente: cualitativos (tambin llamados categricos) y cuantitativos (que pueden ser, a su vez, discretos o continuos). Ejemplo 0.24. Volvamos a los datos de la tabla 0.1. Recordemos que, junto con el nmero de identicacin Id (dato cuantitativo discreto) y el sexo S (dato cualitativo), siendo 1=hombre y 0=mujer, se recogen las notas N (dato cuantitativo continuo) en un examen nal de la asignatura de bioestadstica. Podemos considerar Id, N y S como tres variables que, a cada individuo de la poblacin formada por los alumnos que realizaron el examen nal de bioestadstica, asignan su nmero de identicacin, su calicacin y su sexo, respectivamente.

A la hora de resumir un conjunto de datos cuantitativos x1 , . . . , xn se suelen utilizar diversas cantidades, que llamaremos estadsticos descriptivos,(3 ) que nos proporcionan informacin parcial sobre ellos, acerca de, por ejemplo, la posicin de esos datos en la recta real, o la dispersin o variabilidad de los mismos. DEFINICIN 0.25. (Media de un conjunto de datos cuantitativos) La media del conjunto de datos x1 , . . . , xn es una medida de posicin (la ms utilizada) que denotaremos por x y se dene como la media aritmtica de los datos: 1 x = n
3

xi
i=1

En este contexto, entindase el trmino estadstico como una funcin de los datos. En la

Segunda Parte volveremos sobre este concepto.

22

ndice

Agustn Garca Nogales


Observacin 0.26. La media se considera tambin como una medida de tendencia central de ese conjunto de datos, en el sentido de que proporciona una denicin intuitivamente razonable de centro del mismo; de hecho, si imaginamos un cuerpo de masa 1 dividido en n masas puntuales iguales (por tanto, con masa 1/n cada una de ellas) situadas en los puntos de abscisas x1 , . . . , xn , la media seala el lugar que ocupa el centro de gravedad de ese cuerpo. Se verica adems que
n i=1 n

23

(xi x )2

i=1

(xi a)2

para cualquier nmero a; se dice por ello que la media es el valor que mejor aproxima a ese conjunto de datos en el sentido de los mnimos cuadrados. La alta sensibilidad de la media a valores extremos (valores excesivamente grandes o excesivamente pequeos) puede hacer aconsejable, en ocasiones, el uso de otras medidas de tendencia central, entre las que debemos destacar la mediana, que se dene a continuacin. DEFINICIN 0.27. (Mediana de un conjunto de datos cuantitativos) La mediana de un conjunto de datos cuantitativos se dene como un valor tal que no ms de la mitad de los datos son menores que l y no ms de la mitad de los datos son mayores que l. Para calcular la mediana se considera la sucesin x(1) x(n) obtenida al ordenar de menor a mayor los datos x1 , . . . , xn . Si n es impar, la mediana es x( 1 (n+1))
2

Si n es par, cualquier valor entre los dos datos centrales x( 1 n) y x( 1 n+1) es una mediana de 2 2 ese conjunto de datos; por conveniencia, en ese caso, se suele llamar mediana al valor medio de los dos datos centrales. Observacin 0.28. ( ) La mediana m de ese conjunto de datos verica que
n i=1 n

|xi m|

i=1

|xi a|

para cualquier otro valor a. Junto a la media y la mediana, otras medidas de posicin que se utilizan con frecuencia son los cuantiles.

ndice

24

Elementos de Bioestadstica
DEFINICIN 0.29. (Cuantiles, percentiles, cuartiles) Si es un nmero entre 0 y 1, el cuantil de orden es el dato tal que no ms del 100 % de los datos son menores que l y no ms del 100 (1 ) % de los datos son mayores que l.(4 ) El cuantil de orden se llama tambin percentil 100. Los percentiles 25 y 75 se suelen llamar primer y tercer cuartil, respectivamente, o, tambin, cuartiles inferior y superior. Observacin 0.30. La mediana es el percentil 50. Observacin 0.31. Entre los cuartiles inferior y superior se sita el 50 % central del conjunto de datos. Ejemplo 0.32. ( ) Consideremos el siguiente conjunto de datos ordenados de menor a mayor: 1, 3, 5, 5, 6, 7, 8. La media y la mediana son iguales a 5, el percentil 25 (o cuantil de orden 0.25) es 3 (pues el 25 % de 7 es 1.75 y el 75 % de 7 es 5.25, y hay un slo dato < 3 y 5 datos > 3. El percentil 10 es 1. Ntese como el hecho de reemplazar el valor 8 por 15 no tiene efecto sobre la mediana, mientras que la media, ms sensible a valores extremos, pasa a ser igual a 6. La medida de dispersin para un conjunto de datos ms conocida es la varianza. DEFINICIN 0.33. (Varianza de un conjunto de datos cuantitativos) La varianza s2 de un conjunto de datos x1 , . . . , xn se dene por 1 s = n1
2 n i=1

1 (xi x ) = n1
2

n i=1

x2 2 i nx

es decir, es la suma de los cuadrados de las desviaciones a la media de cada uno de los datos dividida por n 1. Su raz cuadrada s se conoce como desviacin tpica. Observacin 0.34. La desviacin tpica presenta sobre la varianza la ventaja de estar expresada en la misma unidad de medida que los datos. Observacin 0.35. La varianza, como medida de la variabilidad de un conjunto de datos, debe ser pequea (respectivamente, grande) si los datos estn prximos a (respectivamente, 1 2 lejos de) la media. Algunos autores preeren denir la varianza muestral como n n s , expresin que coincide con la varianza, salvo que la suma de las desviaciones cuadrticas respecto a la media se divide por n en lugar de dividir por n 1, con lo cual se convierte
4

A pesar de que hemos insistido en que el cuantil es uno de los datos, como en el caso de la

mediana, si la denicin es vericada por dos datos, se suele tomar como cuantil el valor medio de ambos. Intuitivamente, pensaremos que un 100 % de los datos se sita por debajo del cuantil de orden y que un (1 ) 100 % de los datos son mayores que l.

ndice

Agustn Garca Nogales


en la desviacin cuadrtica media de los datos respecto a la media; la justicacin de la denicin presentada quedar clara en los temas sptimo (ver observacin en la pgina 94) y noveno (vase la primera observacin en la pgina 137). Aqu denominaremos quasi-varianza 1 2 muestral a n n s . Observacin 0.36. ( ) Se puede probar que, cualesquiera que sean los datos, a una distancia de dos desviaciones tpicas de la media se encuentran, como mnimo, el 75 % de los datos; a tres desviaciones tpicas de la media podemos encontrar al menos el 88.88 % de los datos. Observacin 0.37. ( ) Si el anlogo fsico de la media de un conjunto de datos x1 , . . . , xn se corresponde con el centro de gravedad de un cuerpo de masa 1 dividido n masas puntuales 1 2 situadas en los puntos de abscisa x1 , . . . , xn , la quasi-varianza muestral n n s se corresponde con el momento de inercia de ese mismo cuerpo alrededor de su centro de gravedad, y se interpreta como una medida de la resistencia de es cuero a girar entorno a un eje situado en el centro de gravedad. Observacin 0.38. ( ) Si y m son la media y la mediana de un conjunto de datos y s es su desviacin tpica, se verica que |m | s. Ejemplo 0.39. (Ejemplo 0.24, continuacin) Los estadsticos descriptivos que acabamos de introducir nos permiten resumir el conjunto de datos de la variable N del siguiente modo: Datos vlidos 100 Varianza 4.4 Media 7.1 Desv. Tp. 2.1 Mediana 7.5 Cuartil Inf. 6.2 Mn. 1 Cuartil Sup. 8.6 Mx. 10 Rango 9

25

Para la variable S basta notar que hay 39 chicos y 87 chicas. Tambin puede resultar de inters conocer los estadsticos descriptivos de la variable N para cada uno de los valores de la variable S (es decir, categorizados por los valores de S ). La tabla siguiente contiene algunos de esos estadsticos: S=0 S=1 Datos vlidos 87 39 Media 7.2 6.8 Desv. Tp.. 1.9 2.5 Mediana 7.5 7.6 Mn. 1 1.2 Mx. 10 10

Observacin 0.40. En inferencia estadstica, los datos x1 , . . . , xn se suponen a menudo una realizacin concreta de una muestra de tamao n, es decir, valores tomados por n variables aleatorias independientes e idnticamente distribuidas (vanse las deniciones de estos conceptos en el Captulo 2). En ese caso, los estadsticos descriptivos denidos anteriormente (media, mediana, varianza, etc...) se suelen acompaar del calicativo muestral. Los datos podran ser, por ejemplo, los resultados de n mediciones de una misma cantidad, quedando explicada la variabilidad observada en los mismos por la imprecisin del aparato de medida utilizado; la variabilidad presente en un experimento como ese se atribuye a lo que genricamente se denomina azar, aludiendo con ello al elevado nmero de factores incontrolables que dan lugar a diferentes resultados para un experimento que se ha procurado realizar bajo idnticas condiciones.

ndice

26

Elementos de Bioestadstica
Observacin 0.41. Como hemos dicho antes, una medida de posicin como la media y una medida de dispersin como la varianza contienen informacin parcial sobre un conjunto de datos (evidentemente, slo en casos triviales es posible recuperar el conjunto de datos original una vez conocida su media y su varianza), pero constituyen una buena primera sntesis de los mismos en la medida en que nos permiten situar su centro y conocer su variabilidad alrededor del mismo: (a) Los conjuntos de datos 3,4,5 y 2,4,9 tienen distintas medias (4 y 5, respectivamente) y distintas varianzas (1 y 13, respectivamente). (b) Los conjuntos de datos 3,4,5 y 2,4,6 tienen la misma media (4) y distintas varianzas (1 y 4, respectivamente). (c) Los conjuntos de datos 3,4,5 y 7,8,9 tienen distintas medias (4 y 8, respectivamente) y la misma varianza (1). 15 (d) Los conjuntos de datos 3,4,5 y 15 4 (1 + 13), 4 (1 13), 4.5 tienen la misma media (4) y la misma varianza (1). Proposicin 0.42. Si a todos los datos le sumamos una misma cantidad, la media queda aumentada en esa misma cantidad, pero la varianza permanece inalterable. Si todos los datos se multiplican por una misma cantidad a, la media queda multiplicada por a y la varianza queda multiplicada por a2 .

0.1.2.

( ) Resumen de datos agrupados en clases

En ocasiones, el tamao n del conjunto de datos es excesivamente grande y conviene agrupar los datos en tablas de frecuencia que nos permiten una mejor visualizacin de los mismos. DEFINICIN 0.43. (Tabla de frecuencias, clases, frecuencias absoluta y relativa de una clase) Una tabla de frecuencias es un despliegue ordenado de los valores que aparecen en un conjunto de datos junto con las frecuencias de esos valores. Considerando los datos como valores concretos tomados por una cierta variable, el conjunto de valores posibles de esa variable se divide en un cierto nmero de clases; en la tabla de frecuencias aparecen cada una de esas clases junto con su frecuencia absoluta (nmero de datos que estn en esa clase) y su frecuencia relativa (que se dene como la frecuencia absoluta de la clase dividida

ndice

Agustn Garca Nogales


por el nmero total n de datos); se pueden aadir tambin las frecuencias (absoluta y relativa) acumuladas de cada clase, que se obtienen sumando las frecuencias de todas las clases anteriores, incluida ella misma. Si la variable es cualitativa o cuantitativa discreta, es habitual considerar como clase cada valor posible de la variable, aunque tambin se pueden agrupar varios valores en una sola clase cuando hay demasiados valores posibles. Para variables cuantitativas continuas, las clases suelen ser intervalos de la recta que llamaremos intervalos de clase, y el punto medio del intervalo se denomina marca de la clase. Ejemplo 0.44. (Ejemplo 0.24, continuacin) La primera de las tablas de frecuencias siguientes (divididas en 4 clases cada una, clases que han sido elegidas debido a la naturaleza de los datos) corresponden al conjunto de todos los datos de la variable N , mientras que las dos siguientes corresponden a los datos de la variable N para cada uno de los dos valores posibles de la variable S , es decir, son tablas de frecuencias de calicaciones categorizadas por sexos. Todos 0N <5 5N <7 7N <9 9 N 10 S=0 0N <5 5N <7 7N <9 9 N 10 S=1 0N <5 5N <7 7N <9 9 N 10 Frec. Abs. 9 21 41 16 Frec. Abs. 17 28 59 22 Frec. Abs. 8 7 18 6 Frec. Abs. Acum. 9 30 71 87 Frec. Abs. Acum. 17 45 104 126 Frec. Abs. Acum. 8 15 33 39 Frec. Rel. 0.13 0.22 0.47 0.18 Frec. Rel. 0.10 0.24 0.47 0.19 Frec. Rel. 0.21 0.18 0.46 0.15 Frec. Rel. Ac. 0.13 0.35 0.82 1 Frec. Rel. Ac. 0.10 0.34 0.81 1 Frec. Rel. Ac. 0.21 0.39 0.85 1

27

Observacin 0.45. ( ) Un problema importante en la elaboracin de una tabla de frecuencias para datos cuantitativos es la eleccin del nmero de intervalos de clase y la longitud de los mismos. Como regla general, se elegir un nmero de clases no menor que 5 (un nmero menor de clases supondra una excesiva prdida de la informacin contenida en el conjunto original de datos) ni mayor que 20 (un nmero mayor de clases podra oscurecer la visualizacin de los datos). A falta de un mejor criterio, Sturges propuso en 1926 que, para un nmero de datos n superior a 50, se utilice un nmero de clases igual al entero ms prximo a 1 + 3.322 log10 n. En ocasiones, se aconseja tambin el entero ms prximo a n. Una vez elegido el nmero k de intervalos de clases, se suelen tomar intervalos de

ndice

28

Elementos de Bioestadstica
clase contiguos y disjuntos con la misma longitud (igual al rango dividido por k ); a veces, el extremo inferior del primer intervalo de clase se reemplaza por y el extremo superior del ltimo intervalo de clase se reemplaza por +. Observacin 0.46. ( ) Una vez construida la tabla de frecuencias, los datos originales han desaparecido y slo se conservan las clases y el nmero de datos de cada clase; a todos los efectos, los datos dentro de un intervalo de clase se identican con lo que llamaremos marca de clase, que se dene como el punto medio del intervalo correspondiente. Puesto que no conservamos los datos originales, no es posible tampoco calcular a partir de los datos agrupados estadsticos descriptivos como la media, la mediana o la varianza. En ese caso, la k 1 media se aproxima por n i=1 fi xi , donde xi denota la marca de clase del intervalo de clase i-simo y fi la frecuencia absoluta del mismo. En nuestro Ejemplo 0.24, para el conjunto de todos los datos la media es igual a 7.094. A partir de la primera tabla de frecuencias ese k 1 valor se aproxima por 7.075. La varianza se aproxima por n )2 . i=1 fi (xi x 1 Observacin 0.47. ( ) De acuerdo con lo dicho en la observacin anterior, la mediana debera aproximarse por la marca de la clase en la que por primera vez la frecuencia relativa acumulada supera 0.5, que en el ejemplo sera 8; no obstante, es preferible hacer una interpolacin lineal del siguiente modo: si la frecuencia relativa acumulada hasta 7 es 0.35 y hasta 9 es 0.82, asumiendo un comportamiento lineal dentro de ese intervalo, la frecuencia 97 relativa acumulada sera igual a 0.5 en el punto 7 + 0.82 0.35 (0.5 0.55) = 7.64. Vase una descripcin ms detallada del mtodo de interpolacin en la pgina 97.

0.1.3.

Mtodos grcos

La estadstica descriptiva tambin tiene por objeto el diseo de ciertos grcos que nos permitan obtener una rpida impresin del conjunto de datos. Describimos a continuacin algunos grcos que se utilizan con frecuencia en la prctica. DEFINICIN 0.48. (Diagrama de barras) El diagrama de barras se utiliza preferentemente para datos categricos o para datos numricos no agrupados. Para cada valor posible de la variable cualitativa o cada grupo se construye un rectngulo de altura proporcional a la frecuencia; los rectngulos, generalmente, no son contiguos, tienen la misma base y estn igualmente separados unos de otros. Para datos numricos agrupados se suele utilizar el histograma. DEFINICIN 0.49. (Histograma) Un histograma es una representacin grca de datos numricos agrupados en el que sobre cada intervalo de clase se construye un rectngulo

ndice

Agustn Garca Nogales


100 90 80 70
50 70

29

69%
60 47%

Nmero de casos

Nmero de casos

60 50 40 30 31%

40

30

22% 17%

20

20 10 0 0 Sexo 35 26%
45

13%

10

0 Suspenso Aprobado
20

Notable

Sobresaliente

47%

30 22%

40

18

46%

16
35

25
14

Nmero de casos (Chicas: S=0)

Nmero de casos (Chicos: S=1)

30

Nmero de casos

20 13% 15 10% 10 6%

15%

12

25

10

24% 20

21% 18%

18% 15

15%

10

10%

4% 2% 2%
5

0% 1 2 3 4 5 Nota 6 7 8 9 10
0 Suspenso Aprobado Notable Sobresaliente

0 Suspenso Aprobado Notable Sobresaliente

Figura 3: Diagrama de barras e histogramas


cuya base es ese intervalo y cuyo rea (no necesariamente la altura) es proporcional a la frecuencia del intervalo de clase. Para los datos de la tabla 0.1., la Figura 3 contiene un diagrama de barras para la variable Sexo, dos histogramas para la variable Nota con diferentes nmeros de clases (obsrvese cmo inuye el nmero de clases inuye en la impresin visual que produce el histograma) y un histograma para la variable Nota categorizada por la variable Sexo. Un tipo de grco, introducido por Tukey en el desarrollo de lo que se ha dado en llamar anlisis exploratorio de datos, que es cada vez ms utilizado, es el diagrama de caja (en ingls, box plot). DEFINICIN 0.50. (Diagrama de caja) El diagrama de caja de un conjunto de datos numricos consta de un rectngulo vertical que va desde el cuartil inferior al cuartil superior (el ancho del rectngulo no tiene signicado alguno) que se atraviesa con una raya horizontal

ndice

30
12

Elementos de Bioestadstica
12

10

10

Nota
Mediana = 7,5 25%-75% = (6,2, 8,6) Min-Max = (1, 10) Nota

0 0 Sexo 1

Mediana 25%-75% Min-Max

Figura 4: Diagrama de caja


(u otro tipo de marca) a la altura de la mediana y que se completa aadiendo una lnea que une el centro de la base del rectngulo con un punto a la altura del menor de los datos y con otra lnea anloga en la parte superior del rectngulo. Para la variable N , los diagramas de caja, incluyendo categorizaciones por sexo, son los siguientes: Observacin 0.51. El diagrama de caja nos proporciona una primera imagen sobre la distribucin del conjunto de datos, la simetra de la misma y su rango, pues contiene los cuatro puntos correspondientes a los valores mnimo y mximo (ver tambin observacin siguiente sobre datos anmalos) y los cuartiles inferior y superior, y entre cada dos consecutivos de ellos se sita el 25 % de los datos. En el ejemplo de las notas de bioestadstica, ntese como el diagrama de caja de todas las calicaciones presenta una ligera asimetra, pues el 50 % de los datos que son menores que la mediana est ms disperso que el 50 % de datos mayores que la mediana; incluso, el primer y segundo 25 % de los datos est ms disperso que el cuarto y el tercero, respectivamente. Ntese tambin que esa asimetra es fundamentalmente debida a la distribucin de las calicaciones en el grupo S = 0, pues la distribucin de las notas en el grupo de las chicas es prcticamente simtrica. Observacin 0.52. ( ) En la denicin original de box plot dada por Tukey, en lugar de los cuartiles inferior y superior se utilizan las que podemos traducir del ingls como bisagras inferior y superior, pero, para nuestras necesidades, es ms sencilla y fcil de interpretar la denicin que hemos dado, no habiendo, en cualquier caso mucha diferencia entre ambas.

ndice

Agustn Garca Nogales


Observacin 0.53. (Datos anmalos y datos anmalos extremos) En ocasiones, un dato puede parecer demasiado discrepante del resto. Podemos calicar como anmalo cualquier dato mayor que el cuartil superior ms 1,5 veces la diferencia entre los cuartiles superior e inferior o menor que el cuartil inferior menos 1,5 veces la diferencia entre los cuartiles superior e inferior. Si se reemplaza el factor 1,5 por 3 se habla a veces de dato anmalo extremo. Un diagrama de caja ms completo se obtiene aadiendo una lnea que une el centro de la base del rectngulo con un punto a la altura del menor de los datos no anmalos y se traza una lnea anloga en la parte superior del rectngulo, y se identican los datos anmalos con un 0 y los datos anmalos extremos con un *. Conviene sealar que diferentes autores proponen diferentes deniciones de datos anmalos (u observaciones extremas). Antes de depurar nuestros datos eliminando datos anmalos, conviene notar que las consecuencias pueden resultar decisivas (sobre todo cuando hacemos inferencia estadstica a partir de ellos, es decir, cuando extrapolamos conclusiones extradas de los datos a una poblacin mucho ms grande que contiene a los individuos que los proporcionaron). Los datos anmalos se rechazarn slo cuando existan fundadas sospechas de que no corresponden a un valor de la variable que estudiamos. Observacin 0.54. ( ) (Coeciente de asimetra) Como medida de la posible asimetra n 1 del conjunto de datos se utiliza a veces la cantidad m3 = n )3 ; con la idea de i=1 (xi x usar una cantidad sin unidades, es preferible utilizar el coeciente de asimetra m3 /s3 , donde s es la desviacin tpica del conjunto de datos. La asimetra del conjunto de datos es tanto ms grande cuanto ms distinto de cero es dicho coeciente, lo cual se utiliza a veces como indicio de la no normalidad de los datos, segn comentaremos en el tema 9. Si el coeciente de asimetra es nulo, los datos se distribuyen simtricamente entorno a la media, que, en este caso, coincide con la mediana. Si el coeciente de asimetra es menor que cero se dice que el conjunto de datos es sesgado hacia la izquierda o negativamente sesgado (es decir, el 50 % de los datos situado a la izquierda de la mediana presenta una mayor dispersin que el 50 % de los datos mayores que la mediana); en ese caso, la media es menor que la mediana. Imaginemos una barra de hierro homognea con una sola pesa; si la pesa se sita en el punto medio de la barra, la masa total se distribuye simtricamente y el centro de gravedad -la media- coincide con el punto m que deja a su izquierda la misma masa que a la derecha -la mediana-; si la pesa se desplaza hacia la izquierda, tanto como m se desplazan hacia la izquierda, pero ocurre que m < . Si el coeciente de asimetra es mayor que cero se dice que el conjunto de datos es sesgado hacia la derecha o positivamente sesgado (es decir, el 50 % de los datos menores que la mediana est menos disperso que el 50 % de los datos mayores que la mediana); en ese caso, la media es mayor que la mediana. El grco precedente, en el que el histograma ha sido aproximado por el rea comprendida entre el eje X y las curvas, nos muestra ambas situaciones; en el Ejemplo 5, el histograma de la variable N indica un ligero sesgo hacia la izquierda (el coeciente de asimetra es igual a 0.212) debido especialmente al grupo S = 0 (el coeciente de asimetra en ese grupo es igual a 0.48). Observacin 0.55. ( ) (Curtosis) Otra medida de forma que se utiliza tambin con el objetivo de vericar la posible normalidad de los datos es el coeciente de curtosis que se

31

ndice

32

Elementos de Bioestadstica

Figura 5: Asimetra de un conjunto de datos


n 1 )4 y s4 mediante una expresin que, por dene a partir de las cantidades m4 = n i=1 (xi x compleja, no recogemos aqu. Este coeciente es nulo para un conjunto de datos procedentes de una distribucin normal (conjunto que se dice mesocrtico), distribucin para la que un 68 % aproximadamente de los valores se encuentran a menos de una desviacin tpica de la media (vase la pgina 84). Un conjunto de datos que a menos de una desviacin tpica de la media contiene menos valores que la normal tendr un coeciente de curtosis menor que cero y se dir platicrtico. Un conjunto de datos que a menos de una desviacin tpica de la media concentre ms del 68 % de los mismos tendr un coeciente de curtosis mayor que cero y se dir leptocrtico. As pues, un coeciente de curtosis muy distinto de cero debe interpretarse como un indicio de no normalidad de los datos.

Observacin 0.56. ( ) (Diagrama de tallos y hojas) Un mtodo pseudogrco para datos numricos alternativo al histograma es el llamado diagrama de tallos y hojas que describimos a continuacin en varios pasos: a) Cada dato es dividido en dos partes: el ltimo dgito a la derecha, llamado hoja del dato, y el resto, llamado tallo (as, el tallo de 546 es 54 y su hoja es 6). b) Se determinan los tallos menor t1 y mayor, y en una columna se escriben de arriba a abajo el tallo menor t1 y los nmeros t1 + 1, t1 + 2, . . . hasta alcanzar el tallo mayor. c) Se traza una lnea vertical justo a la derecha de la columna de tallos y a la derecha de sta se van escribiendo todas y cada una de las hojas en la la de su tallo correspondiente y unas a continuacin de otras ordenadas de menor a mayor en cada una de las las. Por ejemplo, el conjunto de datos 78, 23, 21, 44, 48, 49, 57, 20, 23, 78, 29, 77

ndice

Agustn Garca Nogales


se representara del siguiente modo: 2 3 4 5 6 7 0 4 7 7 1 8 3 9 3 9

33

Presenta este diagrama frente al histograma la ventaja de ser fcilmente construible y de conservar el valor de todos y cada uno de los datos, al tiempo que nos permite una rpida visualizacin de la distribucin de los datos, y el inconveniente de ser menos exible que aquel. Para otros conjuntos de datos puede ser preferible utilizar otras variaciones de este diagrama: (a) Si los datos presentan una gran variabilidad, podemos permitir que las hojas tengan dos o ms dgitos, en cuyo caso los dgitos de cada hoja aparecern subrayados: por ejemplo, para el conjunto de datos 2105, 3223, 3280, 3254, 2327, 3111, 2999, 2114, 2600 obtendramos el siguiente diagrama de tallos y hojas: 21 22 23 24 25 26 27 28 29 30 31 32 05 27 14

00

99 11 23

54

80

(b) Cuando hay muchas hojas por tallo, podemos dividir cada tallo en dos las consecutivas, que podemos marcar con dos signos distintos (un y un , por ejemplo): en la superior se colocan las hojas 0,1,2,3,4 y en la inferior se colocan las hojas 5,6,7,8,9. As, podemos representar el conjunto de datos 23, 21, 23, 22, 28, 32, 33, 38, 25, 27, 26, 25, 35, 33, 30, 31 mediante el siguiente diagrama 2* 2 3* 3 1 5 0 5 2 5 1 5 3 6 2 8 3 7 3 8 3

ndice

34

Elementos de Bioestadstica
(c) Para el conjunto de notas de la tabla 0.1, suponiendo que slo conservamos una cifra decimal de cada nota, el tallo sera la parte entera de la calicacin y la hoja sera la parte decimal. Se obtiene as un diagrama como el siguiente, 1 2 3 4 5 6 7 8 9 10 1 1 0 0 1 0 0 0 0 0 3 5 1 0 1 0 0 0 2 0 3 9 2 1 2 0 0 2 3 0 3 3 3 3 0 0 2 4 0 4 3 3 0 0 4 5 5 5 4 0 0 5 5 7 7 9 9 5 5 5 7 5 5 5 5 1124 0 1 1 1 6 8 6 6 4 3 10 10 6 6 7 7 8 8 16 4 5 5 5 6 7 7 8 18 2 3 4 5 5 7 7 8 9 19 8 8 4 4 7 17 27 43 61 80 88 96 100

en el que hemos aadido dos columnas a la derecha que contienen la frecuencia absoluta y la frecuencia absoluta acumulada de cada tallo, respectivamente. De esta forma es sencillo determinar la mediana (6.1) como el valor medio de los datos que ocupan las posiciones 50 y 51 (aparecen en negrita en el diagrama). Observacin 0.57. ( ) Se utilizan en la prctica otros muchos tipos de grcos, como pueden ser los diagramas de sectores (un crculo es dividido en tantos sectores como clases tenemos y el rea de aquel es proporcional a la frecuencia de esta) o el polgono de frecuencias (a cada clase se le asigna un punto del plano cuya abscisa es la marca de la clase y cuya ordenada es la frecuencia -absoluta o relativa- de la misma, y los puntos correspondientes a dos clases consecutivas se unen mediante una recta). Observacin 0.58. (Grcos engaosos) Cambios de escala en alguno de los ejes coordenados (en una observacin de la pgina 84 veremos un ejemplo), o el hecho de que los ejes se corten en un punto distinto del (0, 0) tienen una importante repercusin en la impresin que el grco produce en el lector. La Figura 6 contiene dos diagramas de barras, que, aunque no lo parezca (la diferencia entre los nmeros de chicas y chicos parece mucho mayor en el segundo grco que en el primero), representan el mismo conjunto de datos (vanse adems las guras 6.2 y 6.3, correspondientes tambin a un mismo conjunto de datos). Son stos trucos que se utilizan indebidamente con la intencin de transmitir una impresin equivocada del conjunto de datos. La prensa diaria est plagada de grcos engaosos (evolucin en el tiempo de las cifras de paro, o del gasto farmacutico, etc), acorde probablemente con los argumentos utilizados por el autor del artculo. No queremos decir que lo correcto sea siempre utilizar la misma longitud para el intervalo unidad en ambos ejes, pues el simple hecho de cambiar la unidad de medida (de centmetros a metros, por ejemplo) en uno de los ejes provoca un cambio de escala y un grco aparentemente diferente; ms bien queremos llamar la atencin sobre este asunto para que el grco que nalmente se presente permita una adecuada visualizacin de los datos y una impresin honesta en el lector. Observacin 0.59. ( ) Otras medidas de centralizacin menos utilizadas son la media 1 geomtrica de un conjunto de datos positivos x1 , . . . , xn , que se dene como (x1 xn ) n ,

ndice

Agustn Garca Nogales


100 90 80 70
Nmero de casos

35
90 69%

69%

80

70
Nmero de casos

60 50 40 30 20 10 0 0 Sexo 1 31%

60

50

40

31%

30 0 Sexo 1

Figura 6: Grcos engaosos


y la media armnica, que se dene como el inverso de la media de los inversos de los datos. Cuando, a la hora de evaluar la media aritmtica, no concedemos la misma relevancia a todos n los datos, podemos pensar en utilizar una media ponderada de la forma ( n i=1 pi xi )/ i=1 pi donde los coecientes p1 , . . . , pn son nmeros positivos llamados pesos. Observacin 0.60. ( ) Otras medidas de dispersin que se utilizan a veces son el rango de un conjunto de datos (diferencia entre el mayor y el menor de ellos), el rango intercuartlico (diferencia entre los cuartiles superior e inferior), la desviacin media, que se dene como la media de los valores absolutos de las desviaciones absolutas a la media de los datos, es decir, n 1 |xi x | n
i=1

y la meda, que se dene como la mediana de las desviaciones absolutas de los datos respecto a su mediana. Para ciertas variables cabe esperar un aumento de la variabilidad cuando la media aumenta. Por ello y por que una desviacin tpica de 5 unidades se interpretar de distinta forma cuando la media es 10 que cuando es 1000, puede resultar til como medida de dispersin relativa el coeciente de variacin CV = 100 s x

que se expresa en porcentaje (por ejemplo, podemos decir que un conjunto de datos tiene un coeciente de variacin del 20 % si s/x = 0.2) y es adimensional, pues s y x se expresan en las mismas unidades de medida. Otros estadsticos descriptivos y mtodos grcos sern introducidos en temas posteriores en un contexto ms apropiado.

ndice

Verdadero o Falso? Captulo 0


Decidir si cada una de las proposiciones siguientes es verdadera (V) o falsa (F), justicando la respuesta. 0.1 0.2 0.3 Si xij = i + j , 1 i 4, 1 j 3, entonces Si x, y R, (x + y )2 = x2 + y 2 . ( ) Dos permutaciones distintas en el conjunto {a, b, c, d} se diferencian solamente en el orden en que aparecen sus elementos. Solucin: Pg. 341 0.4 La negacin de la proposicin este individuo es hipertenso y fumador es este individuo ni es hipertenso ni es fumador. 0.5 ( ) Si un conjunto de datos numricos es agrupado en clases, su media coincide con la media calculada a partir de los datos agrupados. 0.6 El diagrama de barras resulta apropiado para la presentacin grca de datos cualitativos. Solucin: Pg. 341 0.7 Si en un conjunto de datos numricos, al menor de los datos se le resta una unidad, la varianza aumenta. 0.8 Si en un conjunto de tres o ms datos numricos, al mayor de los datos se le suma una unidad, la mediana aumenta. 0.9 La media de un conjunto de datos numricos es ms sensible a valores extremos que la mediana. Solucin: Pg. 341 0.10 ( 0.11 La media de un conjunto de datos numricos x1 , . . . , xn es el nmero m tal que
n i=1 xi 3 j =1 x4j

= 18.

m)2 (

n i=1 xi

a)2 , para cada nmero real a.

El percentil 10 de un conjunto de 10 datos numricos dos a dos distintos es el menor de esos datos.

36

ndice

Agustn Garca Nogales


0.12 Los conjuntos de datos x1 , . . . , xn y 2x1 , . . . , 2xn tienen la misma desviacin tpica. Solucin: Pg. 341 0.13 La mediana de un conjunto de datos numricos proporciona una buena medida de la dispersin del mismo. 0.14 De un grupo de 10 voluntarios para participar en un ensayo clnico para valorar la ecacia de un cierto tratamiento mdico, se desean elegir 5 para el grupo de tratamiento (los 5 restantes constituirn el grupo de control). Hay 252 formas de hacerlo.

37

ndice

Problemas del Captulo 0


0.1 Consideremos los conjuntos A = {1, 2, 4, 8, 16, 32}, B = {n N : 1 n 10}, A B , A C , B \ A, C 2 y D.

C = {a, b, c} y D = {n N : 2n2 A}. Describe explcitamente los conjuntos A B ,

0.2 Un hospital tiene siete plantas con 2 alas cada una y 10 habitaciones para acoger enfermos en cada ala; en cada habitacin hay una cama al lado de la puerta y otra al lado de la ventana. a) Cuntas camas hay en el hospital? b) Inspirndote en la idea de conjunto producto, disea una forma de etiquetar las camas del hospital que nos permita ubicar su posicin inmediatamente. 0.3 ( ) En un cierto hospital existen 3 consultas externas de traumatologa y en plantilla existen 7 traumatlogos. a) Cuntas planillas diferentes pueden hacerse para traumatologa si las consultas estn igualmente equipadas? b) Cuntas planillas diferentes podran hacerse si las consultas fuesen 2 a 2 distintas? c) Cuntas planillas diferentes podran hacerse si dos de las consultas fuesen idnticas y diferentes de la tercera? d) Cuntas planillas diferentes podran hacerse si adems de atender las 3 consultas, hay que atender 2 alas de la planta de traumatologa, cada una de las cuales necesita un traumatlogo? Suponemos que a los traumatlogos les da igual ocupar una consulta que otra, o atender un ala u otra de la planta, pero no les da igual ir a consulta o a planta. Solucin: Pg. 342 0.4 ( ) El grco siguiente contiene los diagramas de caja de 5 conjuntos de datos de 10 datos cada uno. a) Qu informacin puedes extraer de cada uno de esos diagramas sobre los conjuntos de datos respectivos? b) Construye 5 conjuntos de datos con 10 datos cada uno cuyos diagramas de caja correspondan con los de la siguiente gura.

38

ndice

Agustn Garca Nogales


12

39

10

2 Mediana 25%-75% Min-Max 0

ndice

40

ndice

Cap tulo

Introduccin al Clculo de Probabilidades

41

ndice

42

Elementos de Bioestadstica

1.1.

Espacios de Probabilidad

1.1.1.

Fenmenos aleatorios

Como advertamos en el tema anterior si, tras la obtencin de los datos, el investigador slo est interesado en resumirlos y presentarlos de forma adecuada, las tcnicas de la estadstica descriptiva son ms que sucientes. Si, en cambio, pretende obtener de esos datos conclusiones generales sobre una clase amplia de individuos del mismo tipo de los que han sido estudiados, entonces las tcnicas descriptivas slo son el comienzo del anlisis. Para obtener conclusiones vlidas y hacer predicciones correctas sobre una poblacin a partir de la observacin de una parte de la misma necesitaremos los mtodos de la inferencia estadstica. La herramienta bsica de la inferencia estadstica es el clculo de probabilidades que introducimos en este tema. Debe tenerse presente que la inferencia estadstica parte de la informacin proporcionada por los datos de la muestra para tomar una decisin sobre toda la poblacin. Puesto que no hemos estudiado toda la poblacin, nunca tendremos la certeza absoluta sobre si la decisin nalmente adoptada es o no correcta; as pues, en un problema de inferencia estadstica ni siquiera tiene sentido preguntarse sobre si hemos cometido o no un error, y lo ms que podemos preguntarnos es por la probabilidad de cometer un error. La mayor parte de los mtodos estadsticos que presentaremos a lo largo del libro han sido diseados con el objetivo de que la probabilidad de cometer un error sea lo ms pequea posible. Posteriormente volveremos sobre esta cuestin, pero de las ltimas armaciones (en las que se habla de probabilidad en trminos intuitivos) se desprende la importancia del concepto de probabilidad en estadstica. Tendremos tambin ocasin de comprobar que el clculo de probabilidades, adems de una herramienta fundamental en la inferencia estadstica, tiene sus propias aplicaciones en las ciencias de la salud.

ndice

Agustn Garca Nogales


En la naturaleza podemos considerar fenmenos que, realizados en las mismas condiciones, dan lugar a idnticos resultados. Por ejemplo, en el movimiento uniforme, todo aumento de la velocidad (v ) de un cuerpo da lugar a un aumento del espacio (e) recorrido por el mismo en un mismo intervalo de tiempo (t) de acuerdo con la ecuacin e = v t. La repeticin del experimento en diferentes ocasiones siempre conduce al mismo resultado. Son los llamados fenmenos deterministas. Existen otros fenmenos en la naturaleza en los que no se puede predecir el resultado nal, incluso cuando se hace todo lo posible para que las condiciones en que se realiza el experimento sean las mismas, como puede ocurrir en el lanzamiento al aire de una moneda, o en la curacin de un enfermo tras la aplicacin de un cierto tratamiento. Son los llamados fenmenos aleatorios. A pesar de lo dicho, los fenmenos deterministas tienen tambin una componente aleatoria debida a la imprecisin de los aparatos de medida utilizados en la experiencia.

43

1.1.2.

Espacio muestral. Sucesos

Si queremos proporcionar una base matemtica para el estudio de los fenmenos aleatorios, tendremos que apoyarnos en la teora de conjuntos como se explica a continuacin. DEFINICIN 1.1. (Espacio muestral de un fenmeno aleatorio, sucesos elementales) El conjunto de todos los resultados posibles de un fenmeno aleatorio se llama espacio muestral o espacio de las observaciones, y se denotar por . Cada elemento de se llamar suceso elemental.(1 ) Ejemplo 1.2. En el lanzamiento de una moneda, el espacio muestral sera = {0, 1} (supongamos que 0=cruz y 1=cara, y eliminemos la posibilidad de que la moneda caiga de canto); en el lanzamiento de un dado, el espacio de las observaciones es = {1, 2, 3, 4, 5, 6} (eliminando la posibilidad de que el dado quede apoyado sobre una de sus aristas o sus vrtices); en el experimento aleatorio que consiste en lanzar dos veces al aire una moneda tendramos = {(0, 0), (0, 1), (1, 0), (1, 1)}; si consideramos el fenmeno aleatorio que consiste en la determinacin de la cantidad de pacientes que demandan los servicios de urgencia de un hospital en un da, podemos considerar como espacio muestral el conjunto
1

Se procurar, al menos, que el espacio muestral contenga todos los resultados posibles del

experimento.

ndice

44

Elementos de Bioestadstica
N0 = {0, 1, 2, 3, . . . }, pues esa cantidad ser un nmero natural indeterminado de antemano; si el experimento consiste en la medicin del nivel de colesterol de los individuos de una poblacin, podemos considerar como espacio muestral el conjunto R de todos los nmeros reales. DEFINICIN 1.3. (Suceso) Un suceso es un subconjunto del espacio muestral . DEFINICIN 1.4. (Suceso seguro) A le llamaremos suceso seguro. DEFINICIN 1.5. (Suceso imposible) A le llamaremos suceso imposible. DEFINICIN 1.6. (Sucesos incompatibles o disjuntos) Dos sucesos A, B se dicen Observacin 1.7. En un experimento concreto, podemos estar interesados simplemente en un aspecto parcial de la experiencia, lo que nos conduce a la consideracin de otros sucesos distintos a los elementales; en el caso del dado, por ejemplo, podramos estar interesados exclusivamente en si el resultado va a ser un nmero par, es decir, en el suceso obtener un nmero par; en el caso del servicio de urgencias del hospital, podramos estar interesados en si la demanda va a superar un cierto nmero N que se considera como tope para que el servicio sea de calidad, es decir, en el suceso la demanda ha superado el tope N . En el caso del dado slo nos interesa la ocurrencia del suceso {2, 4, 6} (se dice que ha ocurrido un suceso cuando el resultado del experimento es uno de los sucesos elementales que constituyen el suceso), y en el caso del hospital slo estamos interesados en la ocurrencia del suceso {N + 1, N + 2, . . . }. Parece razonable identicar un suceso con un subconjunto del espacio muestral . No obstante, llamar suceso a cualquier subconjunto de es matemticamente apropiado en ciertas ocasiones e inapropiado en otras por razones que quedan muy lejos del alcance de esta obra; a efectos prcticos, debe quedarnos la tranquilidad de que cualquier suceso cuya probabilidad pueda interesarnos queda perfectamente considerado en la teora matemtica que se ha desarrollado para el clculo de probabilidades. Observacin 1.8. (Operaciones con sucesos) Puesto que, sea cual sea el resultado del experimento, siempre ocurre, parece lgico llamar a suceso seguro. Es lgico tambin llamar suceso imposible a ya que, sea cual sea el resultado del experimento, ese suceso nunca ocurre. Las operaciones conjuntistas habituales de unin, interseccin, paso al complementario, . . . , tienen su contrapartida en trminos de sucesos. As, si A y B son dos sucesos, decir que han ocurrido los sucesos A y B simultneamente es tanto como decir que ha ocurrido el suceso A B = {x : x A y x B }; decir que ha ocurrido el suceso A o el suceso B es lo mismo que decir que ha ocurrido el suceso A B = {x : x A o x B }; decir que no ha ocurrido el suceso A es tanto como decir que ha ocurrido el suceso Ac = {x : x / A} complementario de A. Decir que ocurre A pero no B es tanto como decir que ha ocurrido el suceso diferencia A \ B = A B c . Si A B (se dice que A est incluido en B ) entonces el suceso B ocurre siempre que ocurra el suceso A. Que dos sucesos A y B sean incompatibles (o disjuntos) signica que no pueden ocurrir simultneamente. incompatibles o disjuntos si A B = .

ndice

Agustn Garca Nogales

45

1.1.3.

Denicin de probabilidad. Propiedades

En un experimento aleatorio concreto podemos estar interesados en calcular la probabilidad de que ocurra un cierto suceso. Podemos pensar, de momento, en la probabilidad de un suceso como una medida del grado de incertidumbre que poseemos sobre la ocurrencia del mismo en una realizacin futura del experimento; esa medida debe satisfacer ciertas propiedades que veremos posteriormente y que son anlogas a las que verica la medida del rea de guras en el plano (no en vano, el matemtico ruso A.N. Kolmogorov j la misma base matemtica para el clculo de probabilidades que para la parte de la matemtica que llamamos Teora de la Medida, entre cuyos objetivos se encuentra el clculo de longitudes, reas, volmenes, etc). Empricamente, el concepto de probabilidad surge como una abstraccin de la idea de frecuencia relativa de un suceso en una larga serie de pruebas independientes del experimento. Por ejemplo, si lanzamos al aire una moneda un cierto nmero n de veces, la frecuencia relativa del suceso cara en esos n lanzamientos (es decir, el cociente entre el nmero c(n) de caras obtenidas y el nmero n de pruebas realizadas) nos da una idea de la probabilidad de sacar cara y puede constatarse empricamente que, cuando n se hace ms y ms grande, la frecuencia relativa c(n)/n del suceso cara tiende a estabilizarse alrededor de un nmero que conocemos como probabilidad del suceso cara. En la gura siguiente, los tres primeros grcos de la Figura 1.1 muestran la evolucin de la frecuencia relativa del suceso cara en lanzamientos independientes sucesivos (en realidad, con la ayuda de un ordenador, se ha simulado el lanzamiento de una moneda perfecta 1000 veces y esos tres primeros grcos muestran la evolucin de la frecuencia relativa del suceso cara en los 10, 100 y 1000 primeros lanzamientos, respectivamente) de una moneda perfecta, mientras que el cuarto grco recoge la frecuencia relativa en 1000 nuevas realizaciones del experimento; ntese cmo la frecuencia relativa del suceso cara, cuando el nmero de lanzamientos aumenta, tiende a estabilizarse en torno al valor 1/2, probabilidad de sacar cara. En general, ocurre que, para cualquier fenmeno aleatorio y cualquier suceso A, la frecuencia relativa del suceso A tiende a un cierto nmero P (A) cuando el nmero de pruebas del experimento tiende a innito; el lmite P (A) se llama probabilidad del suceso

ndice

46

Elementos de Bioestadstica

1,00 0,75 0,50 0,25 0,00 1 2 3 4 5 6 7 8 9 10 11

1,00 0,75 0,50 0,25 0,00 1 11 21 31 41 51 61 71 81 91

1,00 0,75 0,50 0,25 0,00 1 101 201 301 401 501 601 701 801 901

1,00 0,75 0,50 0,25 0,00 1 101 201 301 401 501 601 701 801 901

Figura 1.1: Frecuencia relativa suceso cara en funcin del nmero de lanzamientos

ndice

Agustn Garca Nogales


A. sta es la llamada denicin frecuentista de la probabilidad. Ms que una denicin rigurosa, que, desde un punto de vista formal, presentara ciertos inconvenientes que no vamos a comentar, debe considerarse como un hecho comprobable experimentalmente y, al mismo tiempo, como un resultado (consecuencia de la llamada ley de los grandes nmeros) de la teora matemtica desarrollada por Kolmogorov para el clculo de probabilidades. Esta aproximacin frecuentista de la probabilidad puede servir de punto de partida intuitivo para una aproximacin matemticamente ms apropiada como es la llamada denicin axiomtica de probabilidad debida a Kolmogorov que veremos posteriormente. DEFINICIN 1.9. (Denicin axiomtica de probabilidad) Una probabilidad en un conjunto es una aplicacin P que asigna a cada suceso A un nmero P (A) de forma que se veriquen los tres axiomas siguientes: I. P (A) 0 . II. P () = 1. III. (Aditividad) Si A y B son sucesos incompatibles (o disjuntos) entonces P (A B ) = P (A) + P (B ) Observacin 1.10. Quede claro que esos tres axiomas son propiedades que exigimos a una aplicacin o funcin de sucesos como P para que sea una probabilidad; como hemos dicho anteriormente quedan intuitivamente justicados por la aproximacin frecuentista a la probabilidad del siguiente modo: el axioma I queda justicado por el hecho de que la frecuencia relativa es siempre un nmero positivo; el segundo se justica porque el suceso seguro ocurrir tantas veces como realicemos el experimento y, por tanto, la frecuencia relativa del suceso seguro es siempre 1; el tercer axioma queda justicado porque, segn se prueba sin dicultad, la frecuencia relativa de la unin de dos sucesos incompatibles es la suma de las frecuencias relativas de cada uno de ellos. Ntese que, salvo en el axioma II, la denicin anterior puede servir tambin para el clculo del rea de guras planas (o de volmenes de cuerpos en el espacio), ya que el rea es siempre positiva y el rea de la unin de dos guras planas disjuntas es la suma de las reas de cada una de ellas. Observacin 1.11. Si consideramos, como habamos dicho, la probabilidad de un suceso como una medida del grado de incertidumbre que tenemos sobre la ocurrencia del mismo en una realizacin del experimento, entonces esa medida es un nmero entre 0 y 1 de forma que sucesos con probabilidad prxima a cero se consideran poco probables mientras que sucesos con probabilidad prxima a 1 se consideran como muy probables, y ante sucesos con probabilidad 1/2 consideraremos que es igualmente probable que ocurra como que no ocurra.

47

ndice

48

Elementos de Bioestadstica
Observacin 1.12. En realidad, razones matemticas convierten el tercer axioma de la denicin de probabilidad en algo ms complejo que el que hemos considerado, pues exige la propiedad de aditividad no slo para el caso de dos sucesos incompatibles, sino tambin para una cantidad numerable de sucesos incompatibles. La distincin entre ambos axiomas queda nuevamente lejos de los propsitos de este libro. Haciendo uso de esos tres axiomas podemos deducir una serie de propiedades de la probabilidad que recogemos a continuacin (para las que tambin podemos usar la interpretacin frecuentista y establecer su analoga con el clculo de reas): Proposicin 1.13. (P1) Para cualquier suceso A, P (Ac ) = 1 P (A) (P2) La probabilidad del suceso imposible es 0. (P3) Si A B , P (A) P (B ). (P4) Si A1 , . . . , An son sucesos dos a dos incompatibles entonces
n

P (A1 An ) = (P5) Para dos sucesos cualesquiera A y B se verica

P (Ai )
i=1

P (A B ) = P (A) + P (B ) P (A B ) (P6) La probabilidad de cualquier suceso es un nmero entre 0 y 1. (P7) P (A B ) = 1 P (Ac B c ).


c (P8) ( ) P (A1 An ) = 1 P (Ac 1 An ).

(P9) ( ) (Desigualdad de Bonferroni) Si A1 , . . . , An son sucesos arbitrarios, entonces


n

P (A1 An )

P (Ai )
i=1

ndice

Agustn Garca Nogales


Ejemplo 1.14. (Denicin de probabilidad de Laplace) La denicin clsica de probabilidad debida a Laplace considera nicamente el caso en que el espacio muestral es nito (supongamos que = {1 , . . . , n }) y en el que todos los sucesos elementales son equiprobables, es decir, P (i ) = 1/n, para cada 1 i n. La probabilidad de un suceso en este caso se obtiene mediante la frmula de Laplace, es decir, nmero de casos favorables nmero de casos posibles donde se consideran favorables los elementos de ese suceso y posibles todos los elementos de ; eso es consecuencia inmediata de la propiedad (P4). En el caso del lanzamiento de un dado, admitiremos que ste es perfecto si todos los sucesos elementales tienen la misma probabilidad y, puesto que esas probabilidades tienen que sumar 1, todas ellas son iguales a 1/6. La probabilidad de sacar un nmero par es entonces 3/6=1/2 y la de sacar un dos o un 5 es 2/6=1/3. Si ese dado se lanza dos veces, existen 36 resultados posibles ((1,1),. . . ,(1,6),. . . ,(6,1),. . . ,(6,6)) todos ellos equiprobables (con probabilidad 1/36), y la probabilidad de que la suma de ambos resultados sea igual a 7 es 6/36=1/6, mientras que la probabilidad de que la suma sea igual a 6 es 5/36. En el caso de dos lanzamientos de una moneda perfecta (en la que la probabilidad de sacar cara es igual a la de sacar cruz e igual a 1/2) existen cuatro resultados posibles ((0,0),(0,1),(1,0) y (1,1)) equiprobables (cada uno con probabilidad 1/4), y la probabilidad de que se obtenga una y slo una cara es 2/4=1/2, mientras que la probabilidad de que se obtengan dos cruces es 1/4. Esas probabilidades se calculan sin dicultad haciendo uso de la frmula de Laplace; ntese que la hiptesis de equiprobabilidad es fundamental en esos ejemplos y que esa hiptesis no se puede admitir sin una justicacin apropiada: por ejemplo, elegido un individuo al azar de una poblacin puede ocurrir que tenga una cierta enfermedad o no la tenga pero la hiptesis de equiprobabilidad (la mitad de los individuos de la poblacin estn enfermos) en este caso no parece razonable. Veamos un ejemplo ms concreto: supongamos conocido que en Espaa el 41 % de la poblacin son del grupo sanguneo A, el 9 % son del grupo B, el 4 % son del grupo AB y el 46 % restante son del grupo O; si pretendemos calcular la probabilidad de que un individuo elegido al azar en Espaa sea de alguno de los tipos A, B o AB, el espacio muestral correspondiente sera ={A,B,AB,O} en el que los sucesos elementales no son equiprobables (lo que nos impide usar la denicin de Laplace); para calcular la probabilidad buscada basta hacer uso de la propiedad (P4) para obtener P ({A,B,AB}) = 0.41 + 0.09 + 0.04 = 0.54. DEFINICIN 1.15. (Espacio de probabilidad) Un espacio de probabilidad es un par (, P ) formado por un conjunto no vaco y una probabilidad P sobre l. Observacin 1.16. As pues, a la hora de calcular probabilidades conviene tener claro cul es el espacio muestral e identicar perfectamente el suceso que nos interesa con un subconjunto del mismo (posteriormente veremos algunos modelos probabilsticos tericos que se utilizan como modelos matemticos para el estudio de ciertos fenmenos aleatorios, lo que nos permitir calcular probabilidades de sucesos relacionados con ese fenmeno). Basta ya conocer las probabilidades de los sucesos elementales si el espacio muestral es nito o numerable (usando la denicin de Laplace en el caso nito con sucesos elementales equiprobables)

49

ndice

50

Elementos de Bioestadstica
o conocer el modelo de probabilidad terico que describe el fenmeno. Haciendo uso de las propiedades de la probabilidad podremos calcular probabilidades de ciertos sucesos a partir de las probabilidades conocidas de otros sucesos. Debe quedar claro en cualquier caso que, para calcular probabilidades, necesitamos un espacio muestral y una probabilidad P sobre l; as pues, desde un punto de vista matemtico, el par (, P ) contiene todos los ingredientes necesarios para calcular probabilidades de sucesos en . Observacin 1.17. Las siguientes armaciones han sido realizadas en el ejemplo anterior: (a) la probabilidad de sacar cara en un lanzamiento de una moneda perfecta es igual a 1/2, (b) la probabilidad de sacar una cara en dos lanzamientos de esa misma moneda es igual a 1/2 y (c) la probabilidad de que un espaol elegido al azar sea del grupo sanguneo A es igual a 0.41. Estas expresiones, y otras similares, pueden llevarnos errneamente a pensar que existe una probabilidad universal que lo rige todo y que nos permite calcular probabilidades de que ocurran ciertos sucesos en cualquier fenmeno aleatorio que se nos ocurra; el hecho de utilizar la misma letra P para designar la probabilidad en distintos fenmenos aleatorios puede tambin contribuir a ello. No obstante, conviene tener claro que a fenmenos aleatorios distintos se deben asignar espacios de probabilidad distintos, en el sentido de que, o bien los espacios muestrales asociados son distintos (en cuyo caso las probabilidades asociadas tambin lo son necesariamente), o bien los espacios muestrales coinciden pero las probabilidades correspondientes son distintas. Y esa distincin debe quedar reejada en la notacin cuando haya lugar a confusin. Por ejemplo, en el caso de la armacin (a) estamos considerando el espacio de probabilidad (1 , P1 ), donde 1 = {0, 1} y P1 (0) = P1 (1) = 1/2, pero si la moneda no es perfecta y la probabilidad de sacar cara es, digamos, 1/3, el espacio de probabilidad sera (1 , P2 ), donde P2 (0) = 2/3 y P2 (1) = 1/3; en la armacin (b) estamos considerando el espacio de probabilidad (3 , P3 ), donde 3 = {(0, 0), (0, 1), (1, 0), (1, 1)} y P3 (i, j ) = 1/4, i, j = 0, 1; el espacio de probabilidad correspondiente a la armacin (c) es ({A,B,AB,O}, P4 ), donde P4 (A) = 0.41, P4 (B) = 0.09, P4 (AB) = 0.04 y P4 (O) = 0.46. Observacin 1.18. ( ) En textos con un contenido matemtico ms riguroso, el espacio de probabilidad contiene un tercer ingrediente: la familia de los subconjuntos de que sern considerados sucesos. Recordemos que nosotros hemos decidido llamar suceso a cualquier subconjunto de , aun a sabiendas de que eso no es siempre matemticamente adecuado.

ndice

1.2.

Dependencia e Independencia de Sucesos. El Teorema de Bayes: Aplicaciones al Diagnstico Clnico

1.2.1.

Probabilidad condicionada

Ahora consideramos dos sucesos A y B y pretendemos denir la probabilidad del suceso A condicionada por el suceso B o probabilidad condicionada de A dado B , que denotaremos por P (A|B ). Se busca un nmero entre 0 y 1 que mida la probabilidad del suceso A supuesto conocido que ha ocurrido el suceso B . DEFINICIN 1.19. (Probabilidad condicionada de un suceso respecto a otro) Dados dos sucesos A y B tales que P (B ) > 0, se dene la probabilidad condicionada de A respecto a B por P (A|B ) = P (A B ) P (B )

Ejemplo 1.20. Consideremos una poblacin formada por 1000 personas y, en ella, el suceso A formado por aquellas que son del grupo sanguneo A y el suceso V formado por todos los varones de esa poblacin. Supongamos que hay 600 varones (suceso V ) y 400 mujeres (suceso M ), y que 200 varones y 180 mujeres son del grupo sanguneo A. Mientras que la probabilidad de que una persona elegida al azar de esa poblacin sea del grupo A es P (A) = (200 + 180)/1000 = 0.38, la probabilidad de que un varn elegido al azar sea de ese grupo es P (A|V ) = 200/600 = 1/3. Anlogamente, P (A|M ) = 180/400 = 0.45. Se sigue inmediatamente de la denicin anterior la siguiente propiedad: Proposicin 1.21. (P10) P (A B ) = P (B ) P (A|B ) = P (A) P (B |A). Ejemplo 1.22. Consideremos el experimento aleatorio que consiste en la extraccin de dos cartas de una baraja espaola,(2 ) y consideremos los sucesos A: la primera carta es un as y
40 cartas divididas en cuatro palos -oros, copas, espadas y bastos- con 10 cartas cada uno -as, dos, tres,. . . , siete, sota, caballo y rey-.
2

51

ndice

52

Elementos de Bioestadstica
B : la segunda carta es un as. El experimento se puede realizar con o sin reemplazamiento; en el primer caso, se extrae la primera carta, se mira y se devuelve a la baraja, de tal suerte que puede volver a ser extrada en una segunda ocasin, y en el caso sin reemplazamiento la primera carta no se devuelve a la baraja. En el caso con reemplazamiento, se verica que P (A B ) = P (A) P (B |A) = (4/40) (4/40) = 1/100 en el caso sin reemplazamiento se tiene que P (A B ) = P (A) P (B |A) = (4/40) (3/39) = 12/1560 En realidad se trata de dos fenmenos aleatorios diferentes con espacios de probabilidad diferentes. Descrbanse como ejercicio esos dos espacios de probabilidad.

1.2.2.

Independencia de sucesos

Relacionado con la denicin de probabilidad condicional, aparece el concepto de independencia de dos sucesos, que presentamos a continuacin. DEFINICIN 1.23. (Independencia de sucesos) Dos sucesos A y B se dicen independientes si P (A B ) = P (A) P (B ) Si A y B son independientes y P (B ) = 0 entonces se verica que P (A|B ) = P (A). Ejemplo 1.24. Continuando con un ejemplo anterior, hemos armado que, en general, la proporcin de hombres que son del grupo sanguneo A no tiene por qu ser la misma que la de personas que son de ese grupo sanguneo. Eso ocurrir cuando y slo cuando los sucesos ser hombre y tener el grupo sanguneo A sean independientes en esa poblacin de 1000 personas. Dos sucesos no independientes se dicen dependientes, pues a la hora de calcular la probabilidad de A no da lo mismo condicionar o no condicionar respecto al suceso B . Ejemplo 1.25. Supongamos conocido que, entre los individuos adultos de una cierta poblacin, el 45 % son fumadores (suceso A), el 20 % son hipertensos (suceso B ) y el 50 % son fumadores o hipertensos (suceso A B ). Nos preguntamos si ser fumador es independiente de ser hipertenso en esa poblacin. Puesto que P (A B ) = P (A) + P (B ) P (A B ) = 0.45 + 0.20 0.50 = 0.15, se sigue que P (B |A) = 0.1/0.4 = 0.33. Siendo P (B ) = 0.20 se tiene que P (B |A) = P (B ) y A y B no son independientes. De hecho se ha visto que en la poblacin total hay un 20 % de hipertensos mientras que entre los fumadores hay un 33 % de hipertensos, con lo cual existe una dependencia entre ambos sucesos (el hecho de que una persona sea fumadora aumenta la probabilidad de tener hipertensin).

ndice

Agustn Garca Nogales


Ejemplo 1.26. En el ejemplo del lanzamiento de un dado perfecto se comprueba fcilmente que los sucesos {1, 2} y {1, 3} no son independientes, pero s lo son los sucesos {1, 2} y {1, 3, 4}. Ejemplo 1.27. En el experimento aleatorio que consiste en lanzar una moneda perfecta al aire dos veces, los sucesos {(0, 0), (0, 1)} y {(0, 0), (1, 0)} son independientes. Es decir, los sucesos sacar cruz en el primer lanzamiento y sacar cruz en el segundo lanzamiento son independientes. Ejemplo 1.28. El concepto de independencia jugar un papel determinante en el uso de los mtodos estadsticos que estudiaremos en esta obra. De los comentarios precedentes se deduce que dos sucesos son independientes cuando la ocurrencia de uno de ellos no condiciona en modo alguno la ocurrencia del otro en lo que al clculo de sus probabilidades se reere. Una situacin tpica en la que se tiene independencia es la que describe el ejemplo siguiente: supongamos que el experimento aleatorio consiste en dos lanzamientos al aire de un dado y consideremos dos sucesos A y B de forma que A slo depende del resultado de la primera tirada (por ejemplo: el resultado del primer lanzamiento es un 1 o un 2) mientras que B slo depende del resultado de la segunda tirada (por ejemplo: en el segundo lanzamiento se obtendr un uno o un tres); puesto que el resultado que se obtenga en la primera tirada no condiciona el que se obtenga en la segunda, los sucesos A y B son independientes; ntese, en efecto, que para el experimento considerado se tiene = {(1, 1), . . . , (1, 6), . . . , (6, 1), . . . , (6, 6)},

53

A B = {(1, 1), (1, 3), (2, 1), (2, 3)} ,

B = {(1, 1), . . . , (6, 1), (1, 3), . . . , (6, 3)},

A = {(1, 1), . . . , (1, 6), (2, 1), . . . , (2, 6)},

P (A) = 12/36 = 1/3

P (B ) = 12/36 = 1/3

P (A B ) = 4/36 = P (A) P (B )

que prueba que A y B son independientes, como habamos armado. Hemos comprobado en el ejemplo 1.26 anterior que al lanzar una vez un dado perfecto los sucesos sacar un 1 o un 2 y sacar un 1 o un 3 no son independientes y acabamos de ver que al lanzar dos veces un dado perfecto los sucesos sacar un 1 o un 2 en el primer lanzamiento y sacar un 1 o un 3 en el segundo lanzamiento s son independientes. Observacin 1.29. En el ejemplo 1.27 anterior uno de los sucesos slo depende del primer lanzamiento de la moneda y el otro slo depende del segundo lanzamiento, y los sucesos son independientes. sta es una situacin ms general de lo que en principio pueda parecer, pues, anlogamente, se verica que, si un mismo experimento aleatorio se realiza en varias ocasiones y consideramos dos sucesos que dependen de los resultados obtenidos en diferentes realizaciones del experimento, entonces esos dos sucesos son independientes. Por ejemplo, supongamos que elegimos al azar y con reemplazamiento dos individuos de una poblacin; los sucesos el primer individuo tiene nivel de colesterol mayor que 200 y el segundo individuo tiene nivel de colesterol mayor que 200 son independientes, pues el primero de ellos slo depende de la primera realizacin del experimento (extraer un individuo de la poblacin) y el segundo slo depende de la segunda. Sin embargo, los sucesos el primer individuo tiene nivel de colesterol mayor que 200 y el primer individuo tiene los ojos azules, en

ndice

54

Elementos de Bioestadstica
general, no sern independientes, pues la independencia en ese caso vendra a decir que las proporciones de individuos con nivel de colesterol mayor que 200 en toda la poblacin y en la subpoblacin formada por los individuos con ojos azules coinciden, cosa que, en general, no tiene por qu ser cierta.

1.2.3.

Teorema de Bayes. Aplicacin al diagnstico clnico

Veamos a continuacin el llamado teorema de Bayes, del que extraeremos una aplicacin al diagnstico clnico. TEOREMA 1.30. (Teorema de Bayes) Sean A1 , . . . , An sucesos de probabilidad no nula, dos a dos disjuntos y que recubren , es decir, = A1 An . Sea B otro suceso de probabilidad no nula. Entonces, si 1 k n, P (Ak |B ) = P (Ak ) P (B |Ak ) n i=1 P (Ai ) P (B |Ai )

Este resultado es consecuencia inmediata del siguiente TEOREMA 1.31. (Teorema de la probabilidad total) Sean A1 , . . . , An sucesos dos a dos disjuntos y que recubren . Sea B otro suceso. Entonces,
n

P (B ) =
i=1

P (Ai ) P (B |Ai )

Ejemplo 1.32. Una ciudad est dividida en 2 zonas de salud A y B que atienden al 40 % y el 60 % de la poblacin, respectivamente. Un estudio llevado a cabo en ambas zonas de salud revela que un 30 % de los individuos de la zona A y un 40 % de los de la zona B fueron infectados por el virus de la gripe estacional en 2010. Nos preguntamos por la probabilidad de que un individuo elegido al azar en esa ciudad hubiera tenido el virus de la gripe en 2010: denotemos por G el suceso correspondiente. De acuerdo con el teorema de la probabilidad total: P (G) = P (G A) + P (G B ) = P (A) P (G|A) + P (B ) P (G|B ) = 0 4 0 3 + 0 6 0 4 = 0 36, es decir, un 36 % de los habitantes de la ciudad fueron infectados por el virus de la gripe estacional en 2010. Ntese como la probabilidad buscada es una media ponderada de las probabilidades 03 y 04 de ser infectado por el virus en las zonas A y B , donde los pesos utilizados en la ponderacin, 04 y 06, son las probabilidades de que el individuo pertenezca a cada una de las zonas de salud consideradas. Concretando algo ms, si la ciudad tiene

ndice

Agustn Garca Nogales


100000 habitantes, 40000 pertenecen a la zona A y 60000 a la B ; 12000 individuos de la zona A (el 30 %) y 24000 de la zona B (el 40 %) fueron infectados por el virus de la gripe estacional en 2010. Por tanto, un total de 36000 habitantes de la ciudad (un 36 %) fueron infectados por el virus en 2010. Si se elige un individuo de esa ciudad que fue infectado por el virus de la gripe en 2010, el teorema de Bayes nos permite calcular la probabilidad de que proceda de la zona de salud A: P (A) P (G|A) 0403 1 P (A|G) = = = . P (A) P (G|A) + P (B ) P (G|B ) 0403+0604 3 En la prctica, el mdico se cuestiona si un determinado paciente tiene una cierta enfermedad. Llamemos E al suceso el paciente tiene esa enfermedad y E c al suceso complementario el paciente no tiene la enfermedad. Antes de examinar al paciente el mdico podr armar que, por ejemplo, dicho paciente padece esa enfermedad con una probabilidad P (E ) = 0.01, si es conocido por medio de ciertas estadsticas sanitarias que el 1 % de los individuos de la poblacin general tienen la enfermedad. Posteriormente, el mdico realiza al paciente una serie de pruebas o test de diagnstico anotando si el test da positivo (suceso T ) o negativo (suceso T c ). Tras examinar al paciente, el mdico puede modicar su opinin a priori y se interesa por la probabilidad condicionada P (E |T ) de que el paciente posea la enfermedad una vez conocido que el test ha resultado positivo o por la probabilidad P (E c |T c ) de que no posea la enfermedad si el test ha resultado negativo (usualmente, si el conjunto de sntomas que dene el test tiene algo que ver positivamente con la enfermedad, tendremos P (E ) < P (E |T )). Para calcular esas probabilidades condicionadas, utilizaremos el teorema de Bayes. Puesto que el mtodo de diagnstico no es normalmente perfecto, el test puede resultar positivo o negativo tanto en los individuos que poseen la enfermedad como en los que no la poseen. En ese sentido, se introducen las cantidades siguientes: DEFINICIN 1.33. (a) A P (E ) se le llama prevalencia de la enfermedad.

55

(b) La probabilidad condicionada P (T c |E ) se llama probabilidad de falso negativo, mientras que P (T |E ) se conoce como sensibilidad del test de diagnstico. (c) La probabilidad condicionada P (T |E c ) se llama probabilidad de falso positivo mientras que P (T c |E c ) se conoce como especicidad del test de diagnstico.

ndice

56
Observacin 1.34. Ntese que

Elementos de Bioestadstica

sensibilidad + probabilidad de falso negativo = 1 especicidad + probabilidad de falso positivo = 1 Es claro que un test de diagnstico con una sensibilidad alta (pocos falsos negativos) resulta til para descartar la enfermedad, mientras que un test con una especicidad alta (pocos falsos positivos) resulta til para conrmar la enfermedad. As pues, en una primera etapa del proceso de diagnstico de una enfermedad necesitaremos tests muy sensibles que nos permitan decidir con abilidad si podemos descartar la enfermedad; si no la podemos descartar, en una segunda etapa del proceso utilizaremos tests muy especcos que nos permitan conrmar con abilidad la enfermedad. No obstante, como veremos ms adelante, en una poblacin concreta, el conocimiento de la prevalencia de la enfermedad nos permitir determinar los valores predictivos positivo y negativo que nos permitirn graduar la utilidad del test a la hora de conrmar o descartar la enfermedad en esa poblacin. La prevalencia de una enfermedad suele obtenerse de la literatura mdica, mientras que la determinacin de la especicidad y de la sensibilidad de un nuevo test de diagnstico requieren un experimento a propsito. Estos datos resultan tiles al mdico y al enfermo para calcular las probabilidades que realmente le interesan: si el test da positivo interesa conocer qu probabilidad existe de que el paciente tenga la enfermedad (es decir, interesa conocer la probabilidad condicionada P (E |T ) de que el individuo posea la enfermedad en ese caso), y si el test da negativo interesa conocer qu probabilidad hay de que el paciente est realmente sano (es decir, interesa conocer la probabilidad condicionada P (E c |T c )). Estas probabilidades se obtienen a partir del teorema de Bayes como sigue: Proposicin 1.35. P (E ) P (T |E ) P (E ) P (T |E ) + P (E c ) P (T |E c ) P (E c ) P (T c |E c ) P (E c |T c ) = P (E c ) P (T c |E c ) + P (E ) P (T c |E ) P (E |T ) = DEFINICIN 1.36. La probabilidad condicionada P (E |T ) se llama valor predictivo positivo del test (o valor predictivo de un test positivo). La probabilidad condicionada P (E c |T c ) se llama valor predictivo negativo del test (o valor predictivo de un test negativo). Las cantidades P (E |T ) P (E ) y P (E c |T c ) P (E c ) suelen conocerse como ganancia del positivo y ganancia del negativo.

ndice

Agustn Garca Nogales


Observacin 1.37. La ganancia del positivo (respectivamente, del negativo) mide el incremento de la probabilidad de padecer la enfermedad si el test dio positivo (respectivamente, el incremento de la probabilidad de no padecer la enfermedad si el test dio negativo) al realizar el test de diagnstico. Observacin 1.38. (Errores de diagnstico) Ntese que P (E c |T ) = 1 P (E |T ) es la proporcin de diagnsticos positivos errneos y P (E |T c ) = 1 P (E c |T c ) es la proporcin de diagnsticos negativos errneos. Ejemplo 1.39. Un investigador desea evaluar un cierto test de diagnstico que l mismo ha diseado para la deteccin de una cierta enfermedad. El test ha sido aplicado a 400 pacientes de los que un estudio ms profundo revela que son enfermos y a 600 personas no enfermas elegidas independientemente y se han obtenido los resultados que recoge la tabla siguiente: Positivo 390 20 Negativo 10 580 Total 400 600

57

Enfermo No enfermo

Las columnas recogen el resultado del test y las las el diagnstico previo de las personas consideradas. A partir de estos resultados, la sensibilidad del test se estima por 0.975=390/400, mientras que la especicidad se estima por 0.967=580/600. El test aparece as como razonablemente sensible y especco, aunque lo de razonablemente depende del uso que se quiere dar al test. Para calcular el valor predictivo positivo del test P (E |T ) (la probabilidad de que una persona para la que el test da positivo est realmente enferma) necesitamos calcular previamente la probabilidad P (T |E ) de obtener un resultado positivo en enfermos y la probabilidad P (T |E c ) de obtener un resultado positivo en personas no enfermas: P (T |E ) = 390/400 = 0.975, Entonces 0.975 P (E ) , 0.975 P (E ) + 0.033 P (E c ) 0.967 P (E c ) P (E c |T c ) = 0.967 P (E c ) + 0.025 P (E ) P (E |T ) = En las frmulas precedentes la prevalencia P (E ) de la enfermedad permanece desconocida pues no puede ser estimada a partir de los datos de que disponemos: ntese que la cantidad 400/(400 + 600) no es una estimacin de esa probabilidad, pues los tamaos de muestra 400 y 600 han sido elegidos por el investigador y las muestras se han seleccionado en grupos de enfermos y no enfermos, respectivamente. Por ejemplo, si suponemos conocido que la prevalencia es P (E ) = 0.1 entonces P (E |T ) = 0.765 y P (E c |T c ) = 0.997, es decir, si el test resulta positivo hay una probabilidad de 0.765 de que el individuo posea la enfermedad, y si el test es negativo, la probabilidad de que no la posea es 0.997. La ganancia del positivo para ese test es 0.665 y la ganancia del negativo es 0.097. P (T |E c ) = 20/600 = 0.033

ndice

58

Elementos de Bioestadstica
Ms all de la sensibilidad y la especicidad de un test de diagnstico, su posible utilidad a la hora de conrmar o descartar una enfermedad en los individuos de una cierta poblacin depender tambin de su prevalencia en esa poblacin: si P (E |T ) y P (E c |T c ) representan probabilidades de acierto en el proceso de diagnstico en la poblacin considerada, P (E c |T ) y P (E |T c ) representan probabilidades de error del test en la misma. En el ejemplo considerado, P (E c |T ) = 1 0.765 = 0.235 (es decir, el 23.5 % de los individuos que sean declarados enfermos en esa poblacin estarn realmente sanos) y P (E |T c ) = 1 0.997 = 0.003 (es decir, el 0.3 % de los individuos de esa poblacin que son declarados sanos poseen realmente la enfermedad).(3 ) En ese sentido, en la poblacin concreta considerada, el test propuesto resulta especialmente til para descartar la enfermedad (slo un 0.3 % de error cuando se descarta la enfermedad), y menos til a la hora de conrmarla (un 23.5 % de error en ese caso). Quede claro, pues, que este criterio para valorar la utilidad de un test de diagnstico depende de la poblacin en que se aplique; concretamente, a travs de la prevalencia de la enfermedad en la misma. La Figura 1.2 muestra cmo varan los valores predictivos (positivo y negativo) del test de diagnstico considerado en funcin de la prevalencia; ntese, por ejemplo, como, a medida que aumenta la prevalencia de la enfermedad en la poblacin, el mismo test de diagnstico va siendo cada vez ms til para conrmarla y menos para descartarla. Interesa tambin que esas ganancias sean grandes. La Figura 1.3 muestra el comportamiento de la ganancia del positivo (lnea continua) y del negativo (lnea de puntos) frente a la prevalencia. Veamos un ejemplo ms de aplicacin del teorema de Bayes. Ejemplo 1.40. En un estudio sobre afecciones cardacas en individuos entre 40 y 50 aos de edad en una cierta regin, se han considerado como factores de riesgo el hecho de ser fumador (suceso F ) y un consumo excesivo de grasas saturadas en la dieta habitual (suceso G), habindose detectado que las probabilidades de los sucesos F c Gc , F Gc , F c G y F G son 0.05, 0.1, 0.35 y 0.5 entre los individuos con algn tipo de afeccin cardaca (suceso E ), y 0.5, 0.3, 0.15 y 0.05 entre los individuos que no poseen problemas cardacos. Las tablas 22 siguientes resumen la distribucin conjunta de los dos factores de riesgo en las subpoblaciones E y E c : E G Gc F 0.5 0.1 Fc 0.35 0.05 Ec G Gc F 0.05 0.3 Fc 0.15 0.5

La probabilidad de que un individuo con algn tipo de afeccin cardaca sea fumador es P (F |E ) = P (F G|E ) + P (F Gc |E ) = 0.5 + 0.1 = 0.6
El error de declarar enfermo a un individuo sano puede acarrear trastornos derivados del seguimiento de un tratamiento innecesario; ms grave parece el error de declarar sano a un individuo que realmente posea la enfermedad.
3

ndice

Agustn Garca Nogales


1,0 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0,0 0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0

59
1,0 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0,0 0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0

Figura 1.2: Valores predictivos positivo (izquierda) y negativo (derecha) en funcin de la prevalencia
1,0 0,9

Ganancias del positivo y del negativo

0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0,0 -0,1 -0,1

0,0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

1,0

1,1

Prevalencia

Figura 1.3: Ganancias del positivo (lnea continua) y del negativo (lnea punteada) en funcin de la prevalencia

ndice

60

Elementos de Bioestadstica
Anlogamente, P (F |E c ) = 0.35, P (G|E ) = 0.85 y P (G|E c ) = 0.2. Supongamos conocido que un 10 % de los individuos entre 40 y 50 aos de esa regin posee algn tipo de afeccin cardaca; es decir, P (E ) = 0.1. Entonces, de acuerdo con el teorema de Bayes, la probabilidad de que un fumador tenga algn tipo de afeccin cardaca es P (E ) P (F |E ) 0.1 0.6 P (E |F ) = = = 0.16, P (E ) P (F |E ) + P (E c ) P (F |E c ) 0.1 0.6 + 0.9 0.35 mientras que la probabilidad de que un consumidor habitual de grasas saturadas tenga ese tipo de enfermedad es P (E |G) = 0.1 0.85 P (E ) P (G|E ) = = 0.32. P (E ) P (G|E ) + P (E c ) P (G|E c ) 0.1 0.85 + 0.9 0.2

Podemos concluir que, entre los individuos entre 40 y 50 aos de esa regin, consumir grasas saturadas es un factor de riesgo ms importante que fumar a la hora de desarrollar algn tipo de afeccin cardaca. (Ver Problema I.8)

ndice

Verdadero o Falso? Captulo 1


Decidir si cada una de las proposiciones siguientes es verdadera (V) o falsa (F), justicando la respuesta. 1.1 1.2 Si A y B son sucesos tales que A B c entonces P (A|B ) = 0. En un test de diagnstico cualquiera se verica que la suma de su sensibilidad y su especicidad es igual a 1. 1.3 La probabilidad de falso negativo de un test de diagnstico para una enfermedad en una poblacin es la proporcin de individuos que poseen la enfermedad para los que el test resulta negativo. Solucin: Pg. 341 1.4 En una ciudad A de 100000 habitantes, 12000 son hipertensos; un porcentaje de la poblacin tiene factor Rh negativo y, entre stos ltimos, el 10 % son hipertensos. En esa ciudad, los sucesos tener factor Rh negativo y ser hipertenso son independientes. 1.5 1.6 Cualesquiera que sean los sucesos A y B , se verica que P (A|A B ) = 1. El teorema de Bayes nos permite calcular el valor predictivo positivo de un test de diagnstico a partir de la prevalencia, la sensibilidad y la especicidad del mismo. Solucin: Pg. 341 1.7 1.8 Si Ac es el complementario de un suceso A entonces P (Ac ) = 1/P (A). La especicidad de un test de diagnstico para una enfermedad en una poblacin es la proporcin de individuos con diagnstico negativo entre aquellos que no poseen la enfermedad. 1.9 La sensibilidad de un test de diagnstico para una enfermedad en una poblacin es la probabilidad de que un individuo que posee la enfermedad reciba un diagnstico positivo. Solucin: Pg. 341

61

ndice

62
1.10

Elementos de Bioestadstica
Cualquier suceso A en un espacio de probabilidad (, P ) es independiente del suceso complementario Ac . 1.11 Supongamos que utilizamos fumar como test de diagnstico para predecir el cncer de pulmn en una determinada poblacin. Si sabemos que el 90 % de las personas con cncer de pulmn y que el 55 % de las personas sin cncer de pulmn son fumadores, la especicidad del test es 0.45. 1.12 ( ) El percentil 10 de un conjunto de 10 datos numricos dos a dos distintos es el menor de esos datos. Solucin: Pg. 341 1.13 Los tests de diagnstico con una especicidad alta resultan tiles a la hora de conrmar la enfermedad. 1.14 1.15 1.16 Si A y B son sucesos incompatibles entonces P (A) + P (B ) 1. Si A B , entonces P (A|B ) P (A). Solucin: Pg. 341 Cualquier suceso A en el espacio de probabilidad (, P ) es independiente del suceso imposible . 1.17 El valor predictivo negativo de un test de diagnstico es la probabilidad de que, para un individuo sano, el test resulte positivo. 1.18 Si la prevalencia de la enfermedad de Alzheimer en personas mayores de 85 aos en una poblacin es del 30 %, la probabilidad de que 3 personas de ms de 85 aos elegidas al azar tengan Alzheimer es 0,27. Solucin: Pg. 341 1.19 Si el valor predictivo positivo de un test de diagnstico para una enfermedad es igual a 0,7, un 30 % de los diagnsticos positivos son errneos.

ndice

Problemas del Captulo 1


1.1 Se sabe que entre los individuos que poseen una cierta enfermedad en una poblacin, el 30 % poseen el sntoma S1, el 60 % posee el sntoma S2 y el 72 % posee al menos uno de los dos sntomas. La presencia de uno de los dos sntomas es independiente de la del otro? 1.2 En una cierta ciudad hay 3 centros de salud A, B y C con 10000, 9000 y 11000 personas adscritas, respectivamente. Se sabe que son varones el 45 % en el A, el 50 % en el B y el 60 % en el C. a) Cul es la probabilidad de que un individuo (adscrito a algn centro de salud) elegido al azar sea varn? b) Si se elige al azar un individuo entre esos 3 centros de salud y resulta ser mujer, cul es la probabilidad de que proceda del centro de salud A? c) Haz lo mismo que en el apartado b) para los centros de salud B y C y decide qu centro de salud es con mayor probabilidad el de procedencia de esa mujer. d) Si se selecciona una persona al azar de cada centro de salud, cul es la probabilidad de que las 3 sean varones? Y la de que exactamente dos de las 3 sean varones? 1.3 La tabla siguiente contiene las distribuciones categorizadas por sexo de los grupos sanguneos para los individuos de una poblacin (p. ej., la probabilidad de ser varn y del grupo A es 0.352): A Varn Mujer Total 0.352 0.054 0.406 B 0.064 0.048 0.112 AB 0.024 0.008 0.032 O 0.360 0.090 0.450 Total 0.80 0.20 1.00

a) Son independientes los sucesos Grupo sanguneo O y Varn? b) Cul es la probabilidad de que una mujer sea del grupo A? Solucin: Pg. 342

63

ndice

1.4 Supongamos que una mquina para medir la presin sangunea clasica como hipertensos al 84 % de los individuos hipertensos y al 23 % de los individuos con tensin normal. a) Determina la sensibilidad y la especicidad de la mquina. b) Asumiendo que el 20 % de los individuos de la poblacin son hipertensos, determina los valores predictivo positivo y predictivo negativo de la mquina. 1.5 Supongamos que en un hospital materno A nacen en un da 120 bebs, mientras que en otro hospital B nacen 12 bebs. Admitamos que en ambos la probabilidad de que un beb sea nio es la misma que la de que sea nia. a) Calcula la probabilidad de que en el hospital A en ese da hayan nacido exactamente el doble de nios que de nias. b) Haz lo mismo para el hospital B. c) Si desconoces el nmero de nios nacidos en cada uno de los dos hospitales, pero te aseguran que en uno de ellos han nacido exactamente el doble de nios que de nias, en cul de los dos hospitales diras que ha ocurrido eso? Observacin: En la resolucin del apartado (c) has utilizado el llamado principio de mxima verosimilitud en inferencia estadstica que, ante la necesidad de tomar una decisin a partir de unos ciertos datos, sugiere tomar la opcin que maximiza la probabilidad de obtener el resultado realmente obtenido.(4 ) 1.6 Un test de diagnstico que ha sido diseado para la deteccin del cncer de colon en una cierta poblacin posee una sensibilidad del 55 % y una especicidad del 80 %. Calcula los valores predictivos positivo y negativo del test si la prevalencia de la enfermedad es del 0.5 % en esa poblacin. Solucin: Pg. 342

El principio de mxima verosimilitud que acabamos de describir en un caso especialmente

sencillo es una de las justicaciones habituales de muchos mtodos estadsticos estimadores y test de hiptesis, entre ellos algunos de los que estudiaremos en la segunda parte de este libro.

64

ndice

Cap tulo

Variables Aleatorias. Distribucin de Probabilidad

65

ndice

66

Elementos de Bioestadstica

2.1.

Denicin de Variable Aleatoria

2.1.1.

Variable aleatoria. Distribucin de probabilidad

En el tema anterior hemos denido (axiomticamente) una probabilidad como una aplicacin del conjunto de los sucesos (recordar que hemos identicado un suceso con un subconjunto del espacio muestral ) a valores en el intervalo [0, 1] que satisface ciertas propiedades. A una probabilidad en el espacio muestral se le llama tambin distribucin de probabilidad en . Ha quedado claro tambin que, para calcular probabilidades, necesitamos un espacio muestral y una probabilidad P sobre l, es decir, un espacio de probabilidad (, P ). En ocasiones, en lugar de interesarnos por el resultado concreto de un experimento aleatorio, slo nos interesamos por una cierta funcin de ese resultado, lo que nos conduce al concepto de variable aleatoria. DEFINICIN 2.1. (Variable aleatoria) Dado un espacio de probabilidad (, P ), llamaremos variable aleatoria (brevemente, v.a.) sobre l a una aplicacin X : (, P ) que asocia a cada suceso elemental un elemento X ( ) . Si = R diremos que X es una variable aleatoria real (v.a.r.). Cuando = Rn se suele hablar tambin de vector aleatorio o de variable aleatoria n-dimensional. DEFINICIN 2.2. (Distribucin de probabilidad de una v.a.) La distribucin de probabilidad (o, simplemente, distribucin) de una v.a. X : (, P ) es una nueva probabilidad P X denida en sobre un suceso A mediante: P X (A ) = P (X 1 (A )) donde X 1 (A ) = { : X ( ) A }. Normalmente escribiremos P (X A ) en lugar de P (X 1 (A )). Observacin 2.3. Muchos libros de bioestadstica presentan el concepto de variable aleatoria de una forma confusa, atribuyendo al concepto de variable un signicado aparentemente

ndice

Agustn Garca Nogales


distinto del concepto matemtico de funcin, y sin distinguir el concepto de variable aleatoria de lo que es la distribucin de probabilidad de esa variable. Conviene notar aqu tambin que la denicin que hemos presentado de v.a. no es totalmente correcta desde un punto de vista estrictamente matemtico, pero ser ms que suciente para los objetivos de esta obra. Observacin 2.4. En la denicin anterior hemos utilizado la letra P para la probabilidad considerada en y, de acuerdo con la observacin 1.16 de la pgina 50, una notacin diferente P X para la probabilidad en que hemos llamado distribucin de probabilidad de la v.a. X . Veamos algunos ejemplos de variables aleatorias y sus distribuciones. Ejemplo 2.5. Consideremos, como ya hemos hecho anteriormente, una poblacin con N individuos en la que el 41 % de ellos son del grupo sanguneo A, el 9 % del grupo B, el 4 % del grupo AB y el 46 % restante del grupo O. Si P es la probabilidad en que atribuye a cada individuo probabilidad 1/N , la v.a. X : (, P ) {A, B, AB, O} que asigna a cada individuo su grupo sanguneo tiene distribucin de probabilidad P X denida por P X (A) = P (X = A) = 0.41, P X (B ) = P (X = B ) = 0.09, P X (AB ) = P (X = AB ) = 0.04 y P X (O) = P (X = O) = 0.46. Esa distribucin de probabilidad P X nos dice cmo se distribuye el grupo sanguneo en esa poblacin . Ejemplo 2.6. Consideremos una poblacin formada por 1000 individuos y consideremos el experimento aleatorio que consiste en elegir uno de ellos al azar; se entiende entonces que tomamos en la probabilidad P para la cual todos los individuos tienen la misma probabilidad de salir elegidos (esa probabilidad ser entonces igual a 1/1000). Consideremos una v.a. X : {0, 1} que asigna a cada individuo el valor 1 o el 0 segn que posea o no una cierta enfermedad, respectivamente. Si suponemos conocido que existen 50 individuos enfermos en esa poblacin es claro que la distribucin P X de X es una probabilidad en {0, 1} que verica P X (1) = P (X = 1) = 50/1000 = 0.05 y P X (0) = P (X = 0) = 0.95. De una v.a. como sta que slo toma dos valores posibles (0 y 1 que pueden representar cruz y cara, enfermo o sano, xito o fracaso en un experimento,. . . ) y que toma el valor 1 con probabilidad un cierto nmero p [0, 1] (y, entonces, el valor 0 con probabilidad q = 1 p) se dice que tiene una distribucin de Bernoulli de parmetro p. Observacin 2.7. Dado un espacio de probabilidad (, P ) como modelo para un experimento aleatorio, entendemos que es el conjunto de resultados posibles del experimento y que P determina las probabilidades de que ocurra cualquier posible suceso de . Al considerar una v.a. X : (, P ) decidimos olvidarnos del resultado obtenido realmente en el experimento para conservar solamente el valor X ( ). De ese modo, el conjunto de resultados posibles pasa a ser el de los posibles valores de la v.a. X , es decir, . As, considerar la v.a. X signica realmente utilizar el espacio de probabilidad ( , P X ) como modelo para el fenmeno considerado, en lugar del modelo original (, P ). Los nuevos sucesos elementales seran ahora los elementos de .

67

ndice

68

Elementos de Bioestadstica

2.1.2.

Independencia de variables aleatorias

En el tema anterior hemos hablado de independencia de sucesos. A continuacin hablaremos de independencia de v.a. DEFINICIN 2.8. (Independencia de v.a.) Sean (, P ) un espacio de probabilidad y Xi : (, P ) i , 1 i n, v.a. Diremos que esas variables son independientes si cualesquiera que sean los sucesos Ai i , 1 i n, se verica que P ({X1 A1 } {Xn An }) = P (X1 A1 ) P (Xn An ) Observacin 2.9. La hiptesis de independencia de v.a. juega un papel muy importante en el desarrollo del clculo de probabilidades y de la inferencia estadstica. Una situacin tpica en la que se asume la hiptesis de independencia es en la realizacin de pruebas sucesivas de un mismo experimento cuando a la hora de anotar el resultado de una de las pruebas no tenemos en cuenta los resultados de las pruebas precedentes (se habla en ese caso de realizacin de pruebas independientes). Concretando algo ms, supongamos que es un conjunto nito de personas (por ejemplo, de los alumnos de primer curso del Grado en Medicina) y que disponemos de un mecanismo para seleccionar alumnos al azar (es decir, garantizando que cada alumno tiene la misma probabilidad de ser elegido, y que cada par de alumnos, posiblemente repetidos, tiene la misma probabilidad de ser elegido que cualquier otro par); dos variables cualesquiera X e Y (por ejemplo, el grupo sanguneo -A, B, AB o O- y el color de los ojos -claros u oscuros-) determinadas en un mismo individuo no sern, normalmente, independientes, por poco que parezca que tengan que ver una con la otra; pudieran serlo, pero es difcil que eso ocurra. Pero, elegidos dos individuos al azar (y con reemplazamiento), la variable X determinada para el primer individuo y la variable Y determinada para el segundo individuo, sean cules sean estas variables, son automticamente independientes. Matemticamente, dos v.a. X : X ( ) 1 e Y : Y ( ) 2 (en el ejemplo 1 = {A,B,AB,O} y 2 = {claro,oscuro}) : (, ) 2 difcilmente sern independientes, pero sean cules sean X e Y , las v.a. X 2 X (, ) = X ( ) 1 y Y : (, ) Y (, ) = Y ( ) 2 son automticamente independientes. Veamos algunos ejemplos ms: Ejemplo 2.10. (3 lanzamientos independientes de una moneda) Supongamos ahora que disponemos de una moneda en la que la probabilidad de sacar cara (=1) es 0.05 y la de sacar cruz (=0) es 0.95. Si lanzamos al aire la moneda tres veces, los sucesos elementales son de la forma (i, j, k ), i, j, k = 0, 1, y el espacio muestral es = {0, 1}3 , es decir, = {(0, 0, 0), (0, 0, 1), (0, 1, 0), (1, 0, 0), (0, 1, 1), (1, 0, 1), (1, 1, 0), (1, 1, 1)} En este caso, puesto que la probabilidad de sacar cara no es la misma que la de sacar cruz, no podemos suponer que todos los sucesos elementales en son equiprobables. Para calcular

ndice

Agustn Garca Nogales


las probabilidades de los sucesos elementales, denotemos por X, Y, Z los tres lanzamientos, es decir, son variables aleatorias denidas por X (i, j, k ) = i, Y (i, j, k ) = j y Z (i, j, k ) = k . Ya habamos mencionado anteriormente que una situacin tpica en la que se tiene independencia es en la rplica de un mismo experimento un cierto nmero de veces como ocurre en el caso de los lanzamientos; de acuerdo con eso, parece razonable suponer que los lanzamientos X , Y y Z son independientes y, por ejemplo, la probabilidad P en del suceso elemental (0, 1, 0), es decir, la probabilidad de que en el primer lanzamiento se obtenga cruz, en el segundo cara y en el tercero otra vez cruz es el producto de las probabilidades correspondientes, es decir, P (0, 1, 0) = 0.95 0.05 0.95. Anlogamente, se tiene P (0, 0, 0) = 0.95 0.95 0.95 = 0.953 P (0, 0, 1) = 0.95 0.95 0.05 = 0.05 0.952 P (0, 1, 0) = 0.95 0.05 0.95 = 0.05 0.952 P (1, 0, 0) = 0.05 0.95 0.95 = 0.05 0.952 P (0, 1, 1) = 0.95 0.05 0.05 = 0.052 0.95 P (1, 0, 1) = 0.05 0.95 0.05 = 0.052 0.95 P (1, 1, 0) = 0.05 0.05 0.95 = 0.052 0.95 P (1, 1, 1) = 0.05 0.05 0.05 = 0.053 Se prueba sin dicultad que las distribuciones de probabilidad de X , Y y Z coinciden y P X (0) = P Y (0) = P Z (0) = 0.95 y P X (1) = P Y (1) = P Z (1) = 0.05. Consideremos la v.a. S denida en que a cada terna (i, j, k ) le asigna la suma i + j + k ; S cuenta, en realidad, el nmero de caras que se obtienen en los tres lanzamientos. Es claro que S toma valores en {0, 1, 2, 3}. Adems 3 0.050 0.953 0 3 P S (1) = P ({(1, 0, 0), (0, 1, 0), (0, 0, 1)}) = 0.051 0.952 1 3 P S (2) = P ({(1, 1, 0), (0, 1, 1), (1, 0, 1)}) = 0.052 0.951 2 3 P S (3) = P (1, 1, 1) = 0.053 = 0.053 0.950 3 P S (0) = P (S = 0) = P (0, 0, 0) = 0.953 = En este ejemplo hemos considerado tres lanzamientos de una moneda para la que la probabilidad de sacar cara es 0.05, y hemos considerado la v.a. S que describe el nmero de caras obtenidas en esos lanzamientos. En probabilidad se habla frecuentemente de monedas, dados,. . . Ello es debido a que los orgenes del clculo de probabilidades se encuentran en los juegos de azar (a raz de ciertas cuestiones que el jugador profesional Caballero de Mr plante al matemtico Pascal); no obstante, estos ejemplos sobre monedas y dados constituyen adems modelos fcilmente comprensibles para otros fenmenos aleatorios que s tienen un inters prctico. Por ejemplo, el caso de la moneda sirve de modelo para el estudio de ciertas situaciones dicotmicas en las que slo estamos interesados en si ha ocurrido o no

69

ndice

70

Elementos de Bioestadstica
un cierto suceso, como pudiera ser que el individuo seleccionado al azar posea o no la enfermedad. Volvamos ahora al ejemplo 2 en el que estbamos interesados en una poblacin de 1000 individuos de los que 50 padecen una cierta enfermedad. Supongamos que extraemos al azar 3 individuos de esa poblacin; esta situacin es totalmente equivalente a la que hemos descrito en este ejemplo, reemplazando el suceso sacar cara por el suceso estar enfermo (la probabilidad es en ambos casos 0.05) y la variable S describira el nmero de enfermos entre los tres seleccionados. La distribucin del nmero de enfermos es la que hemos descrito anteriormente. Ejemplo 2.11. (n lanzamientos independientes de una moneda) Generalicemos algo ms el ejemplo anterior. Supongamos ahora que disponemos de una moneda en la que la probabilidad de sacar cara es un cierto nmero p [0, 1], y consideremos el experimento aleatorio que consiste en el lanzamiento de esa moneda un cierto nmero n de veces. El espacio muestral sera el producto cartesiano = {0, 1}n . Denotemos por Xi el resultado del lanzamiento i-simo (es decir, Xi vale 0 o 1 segn que en el i-simo lanzamiento se haya obtenido cruz o cara, respectivamente) Denotemos q = 1 p y tomemos k1 , . . . , kn {0, 1}. Bajo la hiptesis de independencia de los lanzamientos, la probabilidad de que el resultado del experimento sea la n-upla (k1 , . . . , kn ) es P (k1 , . . . , kn ) = pk1 q 1k1 . . . pkn q 1kn = p
n i=1

ki n

n i=1

ki

Supongamos ahora que slo estamos interesados en el nmero de caras obtenidas en los n lanzamientos (despreciando el orden en el que aparecieron esas caras); estamos interesados solamente en la v.a. S = n i=1 Xi denida en y a valores en {0, 1, 2, . . . , n}. Argumentos anlogos a los del ejemplo anterior (basados en la hiptesis de independencia de los lanzamientos) prueban ahora que la distribucin de la v.a. S asigna al suceso elemental k {0, 1, . . . , n} probabilidad P S (k ) = P (S = k ) = n k nk p q k

La distribucin de la v.a. S es una de las ms importantes del clculo de probabilidades: se conoce como distribucin binomial de parmetros n y p, y la denotaremos por B (n, p). Es, como hemos visto, una probabilidad en el conjunto {0, 1, . . . , n} y las probabilidades de los sucesos elementales se obtienen a partir de la frmula precedente. Podemos decir, entonces, que la distribucin de la suma S de n variables aleatorias independientes X1 , . . . , Xn cada una de ellas con distribucin de Bernoulli de parmetro p es una distribucin binomial de parmetros n y p. La distribucin del ejemplo anterior es la distribucin binomial B (3, 0.05).

ndice

2.2.

Variables Aleatorias Discretas: La Distribucin Binomial

2.2.1.

Variable aleatoria discreta. Funcin de probabilidad

Aunque tambin se llama discreta a una v.a. que toma una cantidad innita numerable de valores numricos, la denicin siguiente ser ms que suciente para nuestros objetivos. DEFINICIN 2.12. (V.a. discreta) Una v.a. discreta es una v.a. que toma una cantidad nita de valores numricos. DEFINICIN 2.13. (Funcin de probabilidad) La aplicacin f : xi {x1 , . . . , xn } f (xi ) = pi , que asocia a cada suceso elemental xi su probabilidad pi , se llama funcin de probabilidad de la v.a. discreta X . Observacin 2.14. Si X : (, P ) es una v.a. discreta entonces es un subconjunto nito de R; supongamos, por ejemplo, que = {x1 , . . . , xn }. La distribucin de X es una probabilidad P X en {x1 , . . . , xn } que quedar perfectamente determinada por las probabilidades de los sucesos elementales xi , 1 i n, es decir, por los nmeros pi = P X (xi ) = P (X = xi )
n n p1 , . . . , pn son nmeros 0 que suman 1 pues i=1 pi = i=1 P (X = xi ) = P (X {x1 , . . . , xn }) = P () = 1. Conocidos esos valores ya podemos calcular la probabilidad de que X tome valores en cualquier subconjunto A : basta sumar los pi correspondientes a los sucesos elementales xi que estn en A, es decir, n

P (A) = P (X A) =

pi IA (xi )
i=1

donde IA (xi ) = 1 si xi A y IA (xi ) = 0 si xi / A. Por tanto, la funcin de probabilidad de una v.a. discreta determina completamente la distribucin de esa v.a.

71

ndice

72

Elementos de Bioestadstica

2.2.2.

Distribuciones de Bernoulli, binomial y uniforme discreta

Todos los ejemplos de v.a. considerados en el tema anterior son v.a. discretas, pues son las ms sencillas. Entre las distribuciones de probabilidad discretas ms importantes vamos a destacar tres, todas ellas conocidas ya de uno u otro modo. En los tres casos consideramos una v.a. X : (, P ) . DEFINICIN 2.15. Distribucin de Bernoulli) Diremos que la v.a. X tiene distribucin de Bernoulli de parmetro p [0, 1] si = {0, 1} y P (X = 1) = p y P (X = 0) = 1 p. DEFINICIN 2.16. (Distribucin binomial) Diremos que X tiene distribucin binomial de parmetros n N y p [0, 1] si = {0, 1, . . . , n} y P (X = k ) = n k p (1 p)nk , k k = 0, 1, . . . , n

DEFINICIN 2.17. (Distribucin uniforme en un conjunto nito) Sea n N. Diremos que X tiene distribucin uniforme en el conjunto nito {1, . . . , n} si = {1, . . . , n} y P (X = k ) = 1 , n k = 1, . . . , n

k nk , Observacin 2.18. Notar que las probabilidades binomiales n k = 0, 1, . . . , n, k p (1p) son nmeros positivos y que suman 1 pues, de acuerdo con la frmula del binomio de Newton,(1 ) la suma de esas probabilidades coincide con [p +(1 p)]n = 1n = 1. Esta distribucin se denotar por B (n, p). La distribucin binomial ya fue introducida como ejemplo en el tema anterior. En realidad, la distribucin de Bernoulli de parmetro p es un caso particular de la binomial: concretamente es la distribucin B (1, p). La distribucin binomial aparece siempre que se considera una v.a. que describe el nmero de individuos de entre n elegidos al azar que verican una cierta caracterstica dicotmica (como puede ser estar o no enfermo); se entiende que, una vez seleccionado un individuo y estudiada de l la caracterstica que nos interesa, el individuo es devuelto a la poblacin de tal suerte que podra volver a ser elegido posteriormente (se habla entonces de muestreo con reemplazamiento).(2 ) Dicho ms tcnicamente, la distribucin de la suma de n v.a. independientes con distribucin de Bernoulli de parmetro p es la distribucin binomial B (n, p) (recordar el ltimo ejemplo del tema anterior); de hecho, se puede probar que la distribucin binomial es aditiva en el

De ah el nombre de distribucin binomial! En un tema posterior volveremos sobre esta cuestin, pues en la prctica suele utilizarse en poblaciones nitas el muestreo sin reemplazamiento que, en lugar de a la binomial, conduce a la llamada distribucin hipergeomtrica que no estudiaremos aqu.
2

ndice

Agustn Garca Nogales

73

0.35 0.30 s 0.25 0.20 0.15 0.10 0.05 s s s s s

s s s s s s s s s s s s s s s 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

Figura 2.1: Distribucin binomial B (20, 0,1)


sentido de que si X1 , . . . , Xm son v.a. independientes y si Xi tiene distribucin binomial m B (ni , p), 1 i m, entonces la suma m i=1 Xi tiene distribucin binomial B ( i=1 ni , p). Su funcin de probabilidad en el caso n = 20 y p = 0.1 es la de la Figura 2.1: La tabla II contiene las probabilidades para la distribucin binomial B (n, p) para valores de n menor o igual que 20 y ciertos valores de p inferiores a 0.5; no se incluyen valores de p mayores que 0.5 pues, si X es una v.a. con distribucin B (n, p) e Y es una v.a. con distribucin B (n, 1 p), entonces, para cada 1 k n, P (X = k ) = P (Y = n k ). Observacin 2.19. La distribucin uniforme en un conjunto nito de puntos corres-ponde al caso clsico en que se considera un nmero nito n de sucesos elementales equiprobables (la probabilidad comn no puede ser otra que 1/n). Su funcin de probabilidad es la de la Figura 2.2

2.2.3.

Momentos de una distribucin discreta

Asociados a la distribucin de probabilidad de una v.a.r. (discreta o no) se consideran una serie de valores, llamados momentos de esa distribucin, que nos proporcionan informacin parcial sobre la misma. Entre ellos destacaremos en principio dos: la media y la varianza, que, en el caso discreto, se denen a continuacin.

ndice

74
0.20 0.15 0.10 0.05 s s s s s s s s s s s

Elementos de Bioestadstica

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

Figura 2.2: Distribucin uniforme sobre {1, . . . , 20}


DEFINICIN 2.20. Consideremos para ello una v.a. discreta X : (, P ) R que toma una cantidad nita de valores x1 , . . . , xn con probabilidades respectivas P (X = x1 ) = p1 , , . . . , P (X = xn ) = pn . i) La media = E(X ) de esa v.a. (o de la distribucin de esa v.a.) se dene por
n

=
i=1

xi p i

ii) La varianza 2 = Var(X ) de esa v.a. (o de la distribucin de esa v.a.) se dene por
n

2 =
i=1

(xi )2 pi

La raz cuadrada de la varianza 2 se llama desviacin tpica. Observacin 2.21. La media de la distribucin de una v.a. es simplemente una media ponderada de los valores xi que toma esa v.a., donde los pesos son las probabilidades con que la variable toma esos valores; se considera como una medida de posicin de esa distribucin. Para una v.a. que toma los valores -1 y 1 con probabilidad 1/2 cada uno (ver la Figura 2.3), podemos pensar en un cuerpo formado por dos bolas, cada una de ellas de masa 1/2, situadas en los puntos -1 y 1 de la recta real. En esta imagen la media de esa v.a. se corresponde exactamente con el centro de gravedad de ese cuerpo; si el valor 1 fuese tomado con probabilidad mayor que el -1 la media se desplazara hacia la derecha de la misma manera que lo hara el centro de gravedad si la bola de la derecha fuese ms pesada que la de la izquierda. Esta imagen grca justica expresiones como la de pesos para referirnos a probabilidades. La varianza de la distribucin de una v.a. es simplemente una media ponderada del cuadrado de las desviaciones a la media de los valores que toma la variable; se considera como una medida de dispersin de esa distribucin. Para interpretar la desviacin tpica, podemos pensar que, aproximadamente, el 95 % de la distribucin de una

ndice

Agustn Garca Nogales


| | | |

75

x1 = 1 x2 = 1 p1 = 1/2 p2 = 1/2 = 0 2 = 1
| |

x1 = 4 x2 = 6 p1 = 1/2 p2 = 1/2 = 5 2 = 1
u ~

x1 = 2 x2 = 2 p1 = 1/2 p2 = 1/2 = 0 2 = 4

x1 = 4 x2 = 6 p1 = 0,25 p2 = 0,75 = 5,5 2 = 0,75

Figura 2.3: Imagen grca de la localizacin y dispersin de una distribucin


v.a. se encuentra a un mximo de dos desviaciones tpicas de la media; eso es exactamente as para la distribucin normal que estudiaremos ms adelante, y aproximadamente vlido para otras muchas distribuciones (vanse la propiedad (P4) en la pgina 83 y la observacin 2.42). En la Observacin 0.37 habamos establecido la analoga existente entre la quasivarianza de un conjunto de datos y el concepto fsico de momento de inercia; esa analoga es igualmente vlida para la varianza de una variable discreta. El grco precedente representa las distribuciones de cuatro v.a. discretas cada una de las cuales toma solamente dos valores posibles (-1 y 1 para la primera, -2 y 2 para la tercera y 4 y 6 para la segunda y la cuarta) cada uno de ellos con probabilidad 1/2 en los tres primeros casos y con probabilidades 0.25 y 0.75 en el cuarto caso. Una imagen fsica de esas distribuciones consiste en un cuerpo de masa 1 dividido en dos trozos (masas puntuales) colocados en los valores de la v.a. correspondiente con masas proporcionales a las probabilidades con que la v.a. toma esos valores; la media de la distribucin nos da la posicin del centro de gravedad del cuerpo. Las dos distribuciones de arriba tienen la misma varianza (sus masas estn igualmente dispersas) pero diferente media (al sumar 5 unidades a cada uno de los valores de la primera variable para obtener la segunda, la media ha quedado aumentada en esas mismas 5 unidades). Las dos distribuciones de la izquierda en el grco poseen la misma media (ambas se encuentran distribuidas alrededor de la misma media = 0) pero tienen distintas varianzas (la masa de la distribucin de abajo est ms dispersa que la de la de arriba). Las dos distribuciones de la derecha en el grco poseen distintas medias (ntese que, como indicbamos anteriormente, al desplazarse parte de la masa de una bola hacia la otra, el centro de gravedad del cuerpo se desplaza en esa misma direccin, siendo la interpretacin probabilstica anloga); ntese que, como cabra esperar, la dispersin de la de abajo es menor que la de arriba. Observacin 2.22. En el tema 1 habamos denido la media y la varianza de un conjunto 1 1 2 de datos numricos x1 , . . . , xn como x = n )2 . Ntese que i xi y s = n1 i (xi x estas no son ms que la media y la varianza de una v.a.r. que toma los valores x1 , . . . , xn con probabilidad 1/n cada uno (salvo que, por razones que aclararemos en las pginas 94 y 137, el denominador de la varianza es n 1 y no n). Eso queda justicado por el hecho de que, aunque en estadstica descriptiva los datos x1 , . . . , xn nos interesan por s mismos, en inferencia estadstica acostumbran a ser valores de una cierta variable medida en

ndice

76

Elementos de Bioestadstica
individuos que han sido seleccionados al azar de una poblacin (constituyendo una muestra representativa de esta) y parece razonable que todos esos individuos sean ponderados del mismo modo (con el factor 1/n) a la hora de calcular el valor medio de esa muestra. Las siguientes son propiedades de la media y la varianza de una v.a. real que no probaremos: Proposicin 2.23. i) La media de la suma de v.a. reales (v.a.r.) es la suma de las medias, es decir, si X1 , . . . , Xn son v.a.r., entonces E
n i=1 Xi

n i=1 E(Xi ).

ii) La suma de las varianzas de v.a.r. independientes es la suma de las varianzas, es decir, si X1 , . . . , Xn son v.a. reales independientes, entonces Var
n i=1 Xi

n i=1 Var(Xi ).

iii) Si a R, E(a + X ) = a + E(X ) y E(a X ) = a E(X ). iv) Si a R, Var(a + X ) = Var(X ) y Var(aX ) = a2 Var(X ). v) En general, Var(X ) = E[(X E(X ))2 ] = E(X 2 ) E(X )2 . Ejemplo 2.24. Al experimento aleatorio que consiste en el lanzamiento al aire de un dado perfecto hemos asignado el espacio de probabilidad ({1, 2, 3, 4, 5, 6}, P ) donde P (i) = 1/6, 1 i 6. Se nos propone el siguiente juego: lanzamos el dado y recibimos dos euros si sacamos un 6, un euro si sacamos un 4 o un 5 y pagamos dos euros si sacamos un 1, un 2 o un 3. La v.a. X : {1, 2, 3, 4, 5, 6} {2, 1, 2}, denida por X (1) = X (2) = X (3) = 2, X (4) = X (5) = 1 y X (6) = 2, recoge las ganancias que obtenemos en un lanzamiento del dado. En este caso = {2, 1, 2} y la distribucin P X de X es una probabilidad en que a los sucesos elementales {2}, {1} y {2} asigna probabilidades: P X ({2}) = P (X = 2) = P ({1, 2, 3}) = P ({1}) + P ({2}) + P ({3}) = P X ({1}) = P (X = 1) = P ({4, 5}) = P ({4}) + P ({5}) = P X ({2}) = P (X = 2) = P ({6}) = 1 6 1 3 1 2

pues X 1 ({2}) = { {1, 2, 3, 4, 5, 6} : X ( ) = 2} = {1, 2, 3} y, anlogamente, X 1 ({1}) = {4, 5} y X 1 ({2}) = {6}. Esa distribucin P X nos indica cmo se distribuyen nuestras ganancias en un lanzamiento. La media de X (ganancia media, o esperada, en un lanzamiento del dado) es E(X ) = 1 1 2 1 (2) 1 2 + 1 3 + 2 6 = 1 + 3 = 3 , que nos indica que el juego es desfavorable para nosotros, pues en media en cada partida perdemos un tercio de euro. En una partida concreta puede ocurrir cualquier cosa, pero, jugando partidas sucesivas de ese juego, a la larga terminaremos perdiendo un tercio de euro por partida jugada; este hecho queda justicado por la llamada ley fuerte de los grandes nmeros, resultado debido a Kolmogorov que enunciaremos informalmente en una observacin de la pgina 139.

ndice

Agustn Garca Nogales


A continuacin recogemos la media y la varianza de las distribuciones discretas que hemos considerado anteriormente. Proposicin 2.25. i) La media y la varianza de la distribucin de Bernoulli de parmetro p son =p y 2 = p(1 p)

77

ii) La media y la varianza de la distribucin binomial B (n, p) son = np y 2 = np(1 p)

iii) La media y la varianza de la distribucin uniforme sobre un nmero nito n de puntos son n+1 (n + 1)(2n + 1) y 2 = 2 6 Observacin 2.26. Para la armacin referente a la distribucin de Bernoulli, ntese que = 0 (1 p) + 1 p = p y 2 = (0 p)2 (1 p) + (1 p)2 p = [p + (1 p)]p(1 p) = p(1 p). Para la demostracin de las armaciones relativas a la distribucin binomial, tngase en cuenta que B (n, p) es la distribucin de la suma de n v.a. independientes con distribucin de Bernoulli de parmetro p y hgase uso de las propiedades precedentes de la media y la varianza. = Concluimos el tema con un ejemplo. Ejemplo 2.27. Supongamos conocido que un traumatlogo tiene un 80 % de xito en sus intervenciones quirrgicas para implantar prtesis de rodilla a pacientes con artrosis. Un individuo con problemas de artrosis en sus dos rodillas desea operarse de ambas. Consideremos la v.a. X1 (respectivamente, X2 ) que toma los valores 1 o 0 segn que la intervencin de la primera rodilla (respectivamente, la segunda rodilla) resulte exitosa o no. Entonces X1 y X2 tienen distribuciones de Bernoulli B (1, 0.8). Si esas dos variables se suponen independientes (que podemos interpretar como que el hecho de que la primera intervencin resulte o no exitosa no inuye en modo alguno en el resultado de la segunda intervencin), la v.a. X = X1 + X2 , que describe el nmero de rodillas exitosamente operadas, tiene distribucin binomial B (2, 0.8). Su funcin de probabilidad es: f (0) = P (X = 0) = P (X1 = 0, X2 = 0) = P (X1 = 0)P (X2 = 0) f (1) = P (X = 1) = P (X1 = 1, X2 = 0) + P (X1 = 0, X2 = 1) = P (X1 = 1)P (X2 = 0) + P (X1 = 0)P (X2 = 1) f (2) = P (X = 2) = P (X1 = 1, X2 = 1) = P (X1 = 1)P (X2 = 1) = 0.8 0.8 = 0.64 = 0.8 0.2 + 0.2 0.8 = 0.32 = 0.2 0.2 = 0.04

ndice

78

Elementos de Bioestadstica
en particular, la probabilidad de que ambas intervenciones resulten exitosas es P (X = 2) = f (2) = 0.64, y la probabilidad de que al menos una de las dos intervenciones resulte exitosa es P (X 1) = f (1)+f (2) = 0.96. La media de X es E(X ) = np = 20.8 = 1.6 (haciendo uso de la denicin de media ese valor es E(X ) = 0 0.04 + 1 0.32 + 2 0.64 = 1.6, que podemos interpretar diciendo que, en media, 1.6 de cada 2 intervenciones de artrosis de rodilla le resultan exitosas a ese traumatlogo o, si se preere, una media de 16 rodillas de cada 20 resultarn exitosamente operadas y la varianza es Var(X ) = npq = 2 0.8 0.2 = 0.32 (como ejercicio, intntese calcular la varianza de X haciendo uso de la denicin de varianza).

ndice

2.3.

Variables Aleatorias Continuas: La Distribucin Normal

2.3.1.

Variable aleatoria continua: Funcin de densidad. Momentos

Entre las v.a. que toman valores numricos hemos distinguido dos tipos principales: aquellas que toman una cantidad nita de valores (que hemos llamado v.a. discretas) y las v.a. continuas que estudiamos en este tema. Las v.a. continuas toman una cantidad no numerable de valores; en principio, podemos pensar que pueden tomar cualquier valor de un cierto intervalo de la recta real. En este caso, la complejidad matemtica es mayor que en el caso discreto. Suelen considerarse como continuas variables como pueden ser la estatura, el peso, la presin sangunea sistlica, el nivel de colesterol en suero, etc, en grandes poblaciones. Una situacin tpica es que para una v.a. continua X , la probabilidad de que X tome un cierto valor x es nula (pensar, por ejemplo, en la probabilidad de que la estatura de un individuo elegido al azar de una poblacin sea exactamente x = 1.7500 . . . ). Puede argumentarse, por ejemplo, que siendo nito el nmero de espaoles, la v.a. que mide la estatura de un espaol elegido al azar es discreta. Debe tenerse en cuenta que esa variable, as considerada, es efectivamente discreta; pero debe quedar claro tambin que en la prctica uno de los principales usos de las v.a. continuas es la de aproximar a variables discretas que resultan poco manejables por tomar un nmero de valores que, aunque nito, es excesivamente grande. Como hemos dicho anteriormente, la probabilidad de que una v.a. continua tome un valor concreto es nula (sta es de hecho la denicin de v.a. continua que podemos encontrar en libros avanzados de probabilidad). Resultan en este caso ms interesantes el clculo de probabilidades como las siguientes: dados dos nmeros a < b, cul es la probabilidad de que

79

ndice

80

Elementos de Bioestadstica
X tome valores entre a y b?, es decir, cmo podemos calcular P X ([a, b]) = P (a X b)? Para calcular esas probabilidades se usa normalmente el concepto de funcin de densidad que denimos a continuacin. DEFINICIN 2.28. (Funcin de densidad) Diremos que una v.a. continua X : (, P ) R tiene funcin de densidad (o que su distribucin P X tiene funcin de densidad) si existe una aplicacin no negativa f : R [0, +[ tal que, cualesquiera que sean a < b,
b

P (a X b) =

f (x) dx
a

Observacin 2.29. Lo dicho en la denicin anterior es tambin vlido en los casos a = b y b = +, de tal suerte que P (X b) = P ( X b) = f (x) dx y + P (a X ) = P (a X +) = a f (x) dx. Adems f (x) dx = 1, pues esa integral coincide con la probabilidad de que X tome valores en R =] , +[, lo cual ocurre siempre. Recprocamente, cualquier funcin real no negativa con integral 1 es la funcin de densidad de una distribucin de probabilidad en R. Observacin 2.30. La funcin de densidad desempea para v.a. continuas el mismo papel que la funcin de probabilidad en el caso discreto. La funcin de densidad determina completamente la distribucin de esa v.a. continua. Observacin 2.31. La probabilidad de que a X b no es, entonces, otra cosa que el rea que queda bajo la curva y = f (x) sobre el intervalo [a, b]. Observacin 2.32. ( ) No toda v.a. continua posee funcin de densidad; las que s la admiten son las llamadas v.a. absolutamente continuas, un subconjunto de las continuas. Pero todas las v.a. continuas que consideraremos en este libro son, de hecho, absolutamente continuas. Como hemos dicho anteriormente, asociados a la distribucin de probabilidad de una v.a.r. (discreta o no) se consideran una serie de nmeros, llamados momentos de esa distribucin, que nos proporcionan informacin parcial sobre la misma. Hemos destacado dos momentos principales: la media y la varianza; en el caso continuo se denen a continuacin. DEFINICIN 2.33. Sea X : (, P ) R una v.a. continua con funcin de densidad f : R [0, +[. Entonces la media = E(X ) y la varianza 2 = Var(X ) de esa v.a. X (o de la distribucin de esa v.a.) se denen por
+

= 2 =
+

x f (x) dx

(x )2 f (x) dx

ndice

Agustn Garca Nogales


La raz cuadrada de la varianza 2 se llama desviacin tpica. Observacin 2.34. En el caso continuo, la media y la varianza reciben una interpretacin anloga a la que ya habamos dado en el caso discreto como medidas de posicin y de dispersin, respectivamente, de la distribucin de la v.a. X . De hecho, la denicin de media en el caso continuo recuerda a la que dimos en el caso discreto, pues no es ms que una suma continua (integral) de los valores x que toma la variable ponderados por el valor f (x) de la funcin de densidad, que desempea ahora el papel que la funcin de probabilidad jugaba en el caso discreto. Las propiedades de la media y la varianza que recogamos en el tema anterior para el caso discreto son tambin ciertas en el caso continuo: la media de la suma es la suma de las medias, la varianza de la suma de v.a. independientes es la suma de las varianzas, etc. . .

81

2.3.2.

La distribucin normal. Propiedades

La mayor parte de los mtodos estadsticos bsicos que se usan en la prctica requieren solamente el conocimiento de cuatro distribuciones de probabilidad continuas: la normal, la t de Student, la chi-cuadrado de Pearson y la F de Fisher. Las tres ltimas aparecen de forma natural en problemas de inferencia estadstica sobre muestras de una distribucin normal. De momento, presentaremos la distribucin normal o de Gauss. DEFINICIN 2.35. (Distribucin normal) Sean R y 2 > 0. Diremos que una v.a. X : (, P ) R tiene distribucin normal N (, 2 ) de parmetros y 2 si tiene como funcin de densidad la aplicacin
1 2 1 x R f (x) = e 22 (x) 2

Observacin 2.36. Se comprueba que esa funcin f as denida es no negativa y tiene integral 1 y, por tanto, es la densidad de una distribucin de probabilidad que hemos llamado normal de parmetros y 2 . La representacin grca de esa densidad tiene la forma de campana que podemos apreciar en la gura siguiente, razn por la cual se llama campana de Gauss a la representacin grca de la densidad de la distribucin normal N (0, 1). Algunas de las principales propiedades de la representacin grca de la densidad de la distribucin normal son las siguientes: (P1) (Media y varianza de la distribucin normal) Se prueba que la media de una v.a. X con distribucin N (, 2 ) es E(X ) = y la varianza es Var(X ) = 2 . Se suele decir

ndice

82
0,45

Elementos de Bioestadstica

0,40

0,35

0,30

0,25

0,20

0,15

0,10

0,05

0,00 -1,5

-1,0

-0,5

0,0

0,5

1,0

1,5

2,0

2,5

3,0

3,5

4,0

4,5

Figura 2.4: Funcin de densidad de la distribucin N (1.5, 1)


por ello que N (, 2 ) es la distribucin normal de media y varianza 2 . La posicin relativa de la curva en el eje de abscisas lo determina el valor de la media (ms a la derecha cuanto mayor es ); por ello hemos interpretado como un parmetro de posicin. Alcanza un mximo en el punto . El mayor o menor aplastamiento de la curva lo determina el valor de la desviacin tpica (la curva es ms aplastada cuanto mayor es ); por ello hemos interpretado 2 como un parmetro de dispersin. La curva tiene dos puntos de inexin: las abscisas correspondientes son y + . (P2) (Mediana y simetra de la normal) Es simtrica respecto a la vertical trazada sobre la media . En particular, a la derecha y a la izquierda de esa vertical queda bajo la curva el mismo rea, que es, por tanto, igual a 1/2. Se dice, por ello, que es tambin mediana de la distribucin N (, 2 )). Anlogamente, si x R, a la izquierda del punto x queda bajo la curva el mismo rea que a la derecha de + x. (P3) (Tipicacin) Una propiedad interesante de la distribucin normal es que si la v.a. X : (, P ) R tiene distribucin N (, 2 ) y si a, b R entonces la v.a. aX + b tiene distribucin N (a + b, a2 2 ). Se sigue de ello que si X tiene distribucin N (, 2 ),

ndice

Agustn Garca Nogales


1,8 1,6 1,4 1,2 1,0 0,8 0,6 0,4 0,2 0,0 -0,2 -6 -4 -2 0 2 4 6

83

N(0,0'52)

N(0,1) N(0,1'52)

Figura 2.5: Distribuciones normales con media cero y desviaciones tpicas 0.5, 1 y 1.5
entonces la v.a. X tiene distribucin N (0, 1). El clculo de probabilidades del tipo P (X a) para una v.a. X con distribucin N (0, 1) puede hacerse con la ayuda de la tabla III.2 en la que aparecen esas probabilidades para ciertos valores de a o con la ayuda de algn programa estadstico para ordenador; si X , en lugar de tener distribucin N (0, 1), tiene distribucin N (, 2 ) entonces, de acuerdo con lo dicho, se tiene P (X a) = P X a

y esta ltima probabilidad se puede calcular usando las tablas de la distribucin N (0, 1). El proceso descrito en el que hemos convertido una distribucin N (, 2 ) en una N (0, 1) sin ms que restar y dividir por recibe el nombre de tipicacin de la v.a. X . (P4) El eje de las equis es asntota horizontal a la curva tanto en como en +. As

pues, una v.a. con distribucin N (, 2 ) puede tomar tericamente cualquier valor

real, es decir, asigna probabilidad positiva a cualquier intervalo de la recta, aunque

ndice

84
4,0 3,5 3,0 2,5 2,0 1,5 1,0 0,5

Elementos de Bioestadstica
Aspecto real de la distribucin N(0,1)

68%
0,0 -4 -2.57 -1.96 -1 0 1 1.96 2.57 4

95% 99%

Figura 2.6: Aspecto real de la distribucin N (0, 1)


esa probabilidad sea muy pequea si el intervalo est lejos de la media. De hecho se verica que si X tiene distribucin N (, 2 ) entonces
P ( 0.67 X + 0.67 ) = 0.5 P ( X + ) = 0.6827

P ( 1.96 X + 1.96 ) = 0.95 P ( 2 X + 2 ) = 0.9544 P ( 2.57 X + 2.57 ) = 0.99 P ( 3 X + 3 ) = 0.9973

Observacin 2.37. La expresin aspecto real de la distribucin N (0, 1) en la Figura 2.6 alude al hecho de que en los ejes de abscisas y ordenadas se ha utilizado la misma longitud para el intervalo unidad, aunque en la mayora de los libros de estadstica (y en este tambin) la funcin de densidad de la distribucin normal estndar aparece mucho ms pronunciada. He aqu un ejemplo ms (vase la observacin sobre grcos engaosos en la pgina 34) de cmo cambios de escala en algunos de los ejes inuyen decisivamente en la impresin que el grco nos proporciona. (P5) (Cuantiles de la distribucin normal) Para ciertos valores de x, la tabla III.2 nos permite calcular probabilidades del tipo F (x) = P (X x) cuando X tiene distribucin N (0, 1) y, mediante la tipicacin, tambin podemos calcular esas probabilidades cuando X tiene una distribucin normal cualquiera. Precisemos algo ms esta ar-

ndice

Agustn Garca Nogales


0,60

85

0,45

0,30 0,15

0,00

-3

-2

-1 -z

Figura 2.7: Cuantiles de la distribucin N (0, 1)


macin. Dado un nmero ]0, 1[ denotaremos por z el nmero real para el que el intervalo [z , z ] contiene un (1 )100 % de la distribucin N (0, 1). Dicho de otro modo, z queda denido por N (0, 1)([z , z ]) = 1 . Se dene el cuantil de orden ]0, 1[ (llamado tambin percentil 100 ) de una distribucin continua como el nmero real que deja a su izquierda un 100 % de la distribucin. De acuerdo con esa denicin, z es el cuantil de orden 1 /2 de la distribucin N (0, 1), pues fuera del intervalo [z , z ] queda un rea igual a y, por simetra, sobre cada una de las colas ] , z ] y [z , +[ quedar un rea exactamente igual a /2. Para valores usuales de , esos cuantiles aparecen tabulados en la tabla III.1. Observacin 2.38. Histricamente, la distribucin normal apareci en el estudio de modelos probabilsticos para errores aleatorios: supongamos que deseamos determinar un cierto valor usando un instrumento de medida para el que errores positivos y negativos ocurren con la misma frecuencia y para el que valores prximos al valor ocurren con mayor frecuencia que valores alejados de . Los valores observados en diferentes realizaciones del experimento pueden interpretarse como valores de una cierta v.a. cuya distribucin es la normal.

ndice

86

Elementos de Bioestadstica
Observacin 2.39. La distribucin normal suele usarse como modelo probabilstico para el estudio de ciertas variables biolgicas (por ejemplo, varios estudios epidemiolgicos a gran escala sugieren el uso de la distribucin normal en el estudio del nivel de colesterol en suero para grandes poblaciones); en otros casos puede ocurrir que una sencilla funcin, como el logaritmo, de una cierta variable biolgica siga una distribucin normal (por ejemplo, esos mismos estudios sugieren que el logaritmo de los niveles de triglicridos en suero se distribuye normalmente). Observacin 2.40. Pero la principal razn del amplio uso de la distribucin normal en inferencia estadstica es el llamado teorema del lmite central que comentaremos ms adelante (pg. 98). Observacin 2.41. Tambin en el caso continuo podemos proponer una imagen fsica que nos ayude a comprender el concepto de distribucin de probabilidad continua. Con ese objetivo, nos apoyaremos en la densidad de la distribucin normal. Pensemos en una barra metlica imaginaria de masa 1, longitud innita y grosor nulo (en el caso discreto habamos considerado masas puntuales). Suponemos que la masa est continua y desigualmente repartida a lo largo de la barra, de tal suerte que sta es ms densa en unos tramos que en otros. La funcin de densidad nos permite visualizar cmo est repartida la masa: concretamente, la masa de un cierto intervalo o tramo de la barra es igual al rea que queda sobre ese intervalo bajo la grca de la funcin de densidad; es, por tanto, esta funcin la que nos permite averiguar cmo de densa de ah el nombre de funcin de densidad es la barra en cada tramo que nos interese. Anlogamente, la distribucin de probabilidad de una v.a. continua se encuentra, en general, desigualmente repartida a lo largo de la recta real, de tal suerte que la probabilidad de que la variable tome valores en un cierto intervalo vara, en general, cuando el mismo se desplaza sobre la recta; por ejemplo, la probabilidad de que la estatura de una persona adulta de una cierta poblacin se encuentre entre 160 cm y 190 cm, intervalo de longitud 30, es muy superior a la de que se encuentre entre 220 cm y 250 cm, intervalo ste tambin de longitud 30. Tambin ahora, la media de esa distribucin de probabilidad continua se corresponde con el centro de gravedad de la barra, y la varianza de la distribucin se corresponde con el momento de inercia de la barra alrededor de su centro de gravedad. Observacin 2.42. ( ) Para una v.a.r. cualquiera X con media y desviacin tpica se verica la siguiente desigualdad (llamada de Chebyshev): Si k > 0, P ( k < X < + k ) 1 k 2 . En particular, para k = 2 (respectivamente, k = 3) se verica que a una distancia mxima de dos desviaciones tpicas (respectivamente, tres desviaciones tpicas) de la media podemos encontrar al menos el 75 % (respectivamente, el 88.88 %) de la distribucin de X . La armacin que hacamos en la observacin 0.36 es un caso particular de esta. Como acabamos de ver, en el caso de la distribucin normal podemos mejorar con mucho esa armacin, pues esos porcentajes son, respectivamente, el 95.44 % y el 99.73 %.

ndice

Agustn Garca Nogales

87

2.3.3.

Aplicacin al diagnstico clnico: intervalos de normalidad

Describimos a continuacin una aplicacin de la distribucin normal al diagnstico clnico. En la prctica mdica se usan con frecuencia intervalos que nos permiten clasicar a un individuo como normal o patolgico segn que una cierta caracterstica numrica de ese individuo caiga dentro o fuera de ese intervalo. Son los llamados intervalos o lmites de normalidad o de tolerancia. Esos intervalos pueden ser de tres tipos: 1) si se considera el nivel de glucosa en sangre, interesa buscar un lmite superior de forma que a un individuo que lo supere se le declare diabtico; 2) si se considera el nmero de espermatozoides por mm3 interesa conocer un lmite inferior por debajo del cual el individuo ser declarado estril; 3) si se trata de la concentracin de potasio en plasma interesa conocer tanto un lmite inferior como un lmite superior, fuera de los cuales la vida del individuo corre peligro. Los individuos son considerados normales cuando la caracterstica de inters cae dentro del intervalo de normalidad. Asumiendo que la caracterstica numrica que nos interesa sigue una distribucin normal en la poblacin, podemos determinar los lmites de tolerancia como se explica en el ejemplo siguiente. Ejemplo 2.43. Consideremos en primer lugar un ejemplo correspondiente al primer caso. Supongamos conocido que el nivel de colesterol en los individuos normales es una v.a. X con distribucin normal N (175, 132 ), y que estamos interesados en determinar un valor mximo para la v.a. X . Puesto que, bajo la distribucin normal, es positiva la probabilidad de que la variable tome valores mayores que cualquier nmero jado de antemano (aunque muy pequea si el nmero es mucho mayor que la media), la pregunta as formulada no tiene sentido. Eso nos obliga a estar dispuestos a aceptar un pequeo error, y podemos estar interesados en determinar un valor M de forma que, por ejemplo, el 95 % de los individuos normales de la poblacin tengan su nivel de colesterol inferior a M . De la tabla III.1 se deduce que M = 175 + 1.645 13 = 196.385. Si a continuacin adoptamos el criterio de declarar enfermo (hipercolesteronmico, en este caso) a todos los individuos que tengan nivel de colesterol superior a M , debemos tener en cuenta que un 5 % de los individuos normales son declarados enfermos errneamente. Ese 5 % es el error del intervalo de normalidad. En general, una expresin para el lmite superior de normalidad M es M = + z2

ndice

88
0,04

Elementos de Bioestadstica

N(175,132)
0,03

M=196,385
0,02

=0,05
0,01

=0,121
N(255,502)

0,00 100

150

200

250

300

350

400

Figura 2.8: Criterio de diagnstico y errores del mismo


si se desea un error ]0, 1[ para el intervalo de normalidad, siendo y la media y la desviacin tpica de la caracterstica de inters para los individuos normales. Anlogamente, un lmite inferior de tolerancia es m = z2 y un intervalo de tolerancia con lmites inferior y superior y con error es [ z , + z ] Hasta ahora slo hemos considerado uno de los dos errores posibles: el error de declarar enfermo a un individuo normal. Obtenemos as un test de diagnstico para esa enfermedad con un porcentaje del 100 % de falsos positivos. Podemos considerar tambin el error de que un individuo enfermo sea declarado indebidamente normal; ese error se denota por , y 100 % es el porcentaje de falsos negativos. En este ejemplo, supongamos que el nivel de colesterol de los individuos hipercolesteronmicos es una v.a. Y con distribucin normal N (255, 502 ). Entonces, el error coincide con la probabilidad P (Y 196.385) = P Y 255 196.385 255 50 50 = P (Z 1.17) = 0.121

de que un individuo hipercolesteronmico tenga nivel de colesterol inferior a 196.385 y sea, por tanto, declarado normal. El test de diagnstico de la hipercolesteronemia as diseado tiene un 5 % de falsos positivos y un 12.1 % de falsos negativos; por tanto, la especicidad es

ndice

Agustn Garca Nogales


del 95 % y la sensibilidad, del 87.9 %. Debe notarse que el 5 % de falsos positivos lo hemos jado nosotros, mientras que el porcentaje de falsos negativos viene condicionado por ese hecho. Observacin 2.44. Mejor que jar el porcentaje de falsos positivos en un 5 % y obtener a partir de ah el porcentaje de falsos negativos (12.1 % en el ejemplo), en la prctica, antes de jar denitivamente el valor del lmite superior de normalidad, se acostumbra a desplazar el valor de M sobre la recta a derecha e izquierda hasta encontrar un test con sensibilidad y especicidad que parezcan simultneamente razonables, teniendo en cuenta que, como se observa en la gura, una ganancia en una de ellas conlleva una prdida en la otra. Observacin 2.45. La tabla siguiente recoge algunas variables cuantitativas de inters en anlisis clnicos junto con intervalos de normalidad para las mismas facilitados por los Servicios de Bioqumica y Hematologa de un hospital universitario espaol.
Bioqumica Glucosa (mg/dl) Urea (mg/dl) Acido rico (mg/dl) Creatinina (mg/dl) Colesterol (mg/dl) Triglicridos (mg/dl) Protenas totales (g/dl) Calcio en suero (mg/dl) Fsforo en suero (mg/dl) Colinesterasa (mg/dl) Transaminasa GPT (UI/l) Int. normal. [70, 110] [10, 40] [3.5, 7] [0.5, 1.1] [150, 200] [70, 170] [6.5, 8] [8.5, 10.5] [3, 4.5] [4600, 14400] [10, 40] Hemograma Leucocitos (por l.) Hemates (por l.) Hemoglobina (g/dl) Hematocrito ( %) Plaquetas (por l.) Neutrlos ( %) Linfocitos ( %) Monocitos ( %) Eosinlos ( %) Baslos ( %) Fibringeno (mg/dl) Int. normal. [4.4 109 , 11.3 109 ] [4.1 1012 , 5.1 1012 ] [12, 15.3] [36, 46] [150 109 , 410 109 ] [40.5, 71.8] [20, 45.5] [2.8, 9.2] <4 < 1.5 [150, 475]

89

Tabla 6.1. Intervalos de normalidad para ciertas variables de inters.

ndice

2.4.

Aproximacin Probabilstica al Concepto de Muestra

2.4.1.

Muestreo aleatorio simple

En el tema de introduccin a esta obra nos habamos referido al concepto de muestra como un subconjunto de una cierta poblacin . Al proceso de extraccin de una muestra de una poblacin se le suele llamar muestreo. Ms adelante comentaremos distintos tipos de muestreo. De momento pretendemos hacer una aproximacin probabilstica al concepto de muestra. Supongamos que estamos interesados en el estudio de una cierta caracterstica de los individuos de una poblacin y que esa caracterstica viene denida por la v.a. X : . Siendo a veces muy costoso (o, incluso, imposible) estudiar todos los individuos de la poblacin, cabe pensar en seleccionar adecuadamente un cierto nmero n de ellos, estudiar para ellos la caracterstica que nos interesa y extrapolar las conclusiones extradas a toda la poblacin. Por ejemplo, si pretendemos obtener informacin sobre la estatura media de los espaoles de 18 aos, cabe pensar en seleccionar una muestra del conjunto de espaoles que tienen esa edad y aproximar la estatura media buscada por la estatura media de los individuos de la muestra (es decir, la media muestral). El adverbio adecuadamente hace alusin al hecho de que, para que la extrapolacin de conclusiones sea vlida, en el proceso de seleccin de individuos no debe aparecer ningn tipo de preferencias por parte del seleccionador; en lugar de hablar de seleccionar adecuadamente hablaremos de seleccionar al azar, en un sentido que precisaremos posteriormente. DEFINICIN 2.46. (Muestreo aleatorio simple) Para el caso de poblaciones nitas, el muestreo aleatorio simple queda caracterizado por el hecho de que cada muestra posible de n individuos tiene la misma probabilidad de ser extrada de la poblacin.

90

ndice

Agustn Garca Nogales


Podemos distinguir dos tipos de muestreo aleatorio simple: el muestreo aleatorio simple con reemplazamiento (en el que cada individuo seleccionado es devuelto a la poblacin tras haber sido estudiado y puede volver a ser seleccionado) y el muestreo aleatorio simple sin reemplazamiento (en el que un individuo que haya sido seleccionado en la muestra es retirado de la poblacin y no podr ser seleccionado en lo sucesivo). Consideraremos ahora solamente el muestreo con reemplazamiento. Elegir con reemplazamiento n individuos de la poblacin nita equivale a elegir un elemento = (1 , . . . , n ) de n ; si a la hora de elegir el individuo i-simo de la poblacin no se tiene en cuenta cules fueron las elecciones precedentes (es decir, si los n individuos se extraen independientemente los unos de los otros) y si la probabilidad de elegir un individuo cualquiera de la poblacin no se modica de una extraccin a otra, la probabilidad P en induce en el conjunto producto n una probabilidad P n (que llamaremos probabilidad producto) denida por P n (1 , . . . , n ) = P (1 ) P (n ) Suponiendo adems que todos los individuos de la poblacin nita tienen la misma probabilidad de ser elegidos (esa probabilidad ser entonces igual a 1/N si N es el nmero de individuos de la poblacin ), entonces P n (1 , . . . , n ) = P (1 ) P (n ) = 1 Nn

91

y todas las n-uplas (1 , . . . , n ) n tienen la misma probabilidad (1/N n ) de ser seleccionadas; por tanto, el espacio de probabilidad (n , P n ) corresponde al muestreo aleatorio simple con reemplazamiento de n individuos de la poblacin . Ntese que, como no poda ser de otro modo, el espacio de probabilidad correspondiente a muestras de tamao n es diferente al espacio de probabilidad (, P ) correspondiente a la eleccin al azar de un nico individuo de la poblacin: en el caso del muestreo aleatorio simple con reemplazamiento, el nuevo espacio de probabilidad es el espacio producto (n , P n ). Estudiar las caractersticas X (i ) de los individuos i , 1 i n, equivale a considerar las v.a. Xi , 1 i n, denidas en n por Xi (1 , . . . , n ) = X (i ). Se prueba que (considerando en n la probabilidad producto P n ) las v.a. Xi , 1 i n, son independientes e

ndice

92

Elementos de Bioestadstica
idnticamente distribuidas, y que cada Xi tiene la misma distribucin que X (se dice por ello que las Xi son copias independientes de la v.a. X ; en el tema 4 habamos visto cmo los tres lanzamientos X , Y y Z de una moneda, que como aplicaciones son diferentes, tienen la misma distribucin). As pues, las v.a. X1 , . . . , Xn son independientes e idnticamente distribuidas. Observacin 2.47. ( ) La denicin de la probabilidad producto P n dada anteriormente tiene perfecto sentido incluso en el caso de que no todos los sucesos elementales sean equiprobables y aunque sea nito o innito numerable. La probabilidad producto se puede denir tambin en el caso continuo (en que es R y la probabilidad P viene denida por un densidad) pero eso queda lejos del alcance de esta obra; mencionaremos, sin embargo, que incluso en ese caso el espacio de probabilidad producto (n , P n ) es el que corresponde al muestreo aleatorio simple con reemplazamiento en una poblacin innita no numerable como es en el que los individuos son elegidos independientemente unos de otros.

2.4.2.

Concepto de muestra

La introduccin precedente nos conduce a la siguiente denicin probabilstica de muestra. DEFINICIN 2.48. (Muestra de tamao n) Llamaremos muestra de tamao n a una coleccin de n v.a. X1 , . . . , Xn independientes e idnticamente distribuidas denidas en un mismo espacio de probabilidad (, P ) y a valores en un conjunto . Puesto que todas las v.a. Xi tienen la misma distribucin, diremos tambin que se trata de una muestra de tamao n de esa distribucin. Observacin 2.49. Tras un muestreo aleatorio simple con reemplazamiento en una poblacin , se obtiene una n-upla (1 , . . . , n ) n , y si slo estamos interesados en una caracterstica numrica descrita por la v.a. X : R de los individuos de la poblacin, la muestra es, en realidad, una n-upla (x1 , . . . , xn ) Rn de nmeros reales, donde xi = X (i ) = Xi (1 , . . . , n ); esa n-upla (x1 , . . . , xn ) se considera como una realizacin concreta de la muestra X1 , . . . , Xn . Tras otra extraccin de n individuos de la misma poblacin , se obtendr una n-upla (x1 , . . . , xn ) en principio diferente de la anterior, pero que se considera asimismo como otra realizacin concreta de la misma muestra X1 , . . . , Xn . Observacin 2.50. (Tablas de nmeros aleatorios) La obtencin de una muestra requiere, en primer lugar, la identicacin de toda la poblacin a estudiar; una vez enumerados todos

ndice

Agustn Garca Nogales


los individuos de la poblacin, mediante un procedimiento anlogo a un sorteo se pueden extraer al azar una serie de nmeros, y los individuos correspondientes constituyen una muestra aleatoria de la poblacin. La realizacin de un sorteo de ese tipo puede resultar tedioso; con el objeto de simplicar ese proceso se han construido las llamadas tablas de nmeros aleatorios. Una tabla de nmeros aleatorios es una lista de dgitos del 0 al 9 que se suponen dispuestos al azar de forma que todos los dgitos del 0 al 9 tienen la misma probabilidad (1/10) de aparecer, todos los pares de dgitos desde el 00 hasta el 99 tienen la misma probabilidad (1/100) de aparecer, todas las ternas de dgitos desde el 000 hasta el 999 tienen la misma probabilidad (1/1000) de aparecer,. . . Puesto que la tabla es necesariamente nita (la mayor que se conoce tiene un milln de dgitos aleatorios y fue construida por la Rand Corporation), nos conformaremos con que eso sea aproximadamente as para grupos de n dgitos con n pequeo. Esas tablas se manejan del siguiente modo: ante una poblacin nita con N individuos, lo primero que debemos hacer es asignar a cada individuo de la poblacin un nmero entre 0 y N 1; si queremos extraer una muestra de tamao n de esa poblacin y n es una cifra con 3 dgitos, se eligen de la tabla n bloques consecutivos de tres cifras teniendo en cuenta que 000 es 0, que 087 es 87, etc; si slo queremos nmeros al azar entre el 99 y el 450, rechazaremos los bloques de tres cifras que no estn entre ambos y seguiremos tomando bloques de 3 dgitos hasta completar los n deseados; si se desea un muestreo sin reemplazamiento, se desechan los nmeros repetidos. Si se desean nmeros al azar del intervalo [0, 1] con una precisin de, por ejemplo, cuatro cifras decimales, se eligen de la tabla bloques consecutivos de cuatro dgitos que sern los decimales de los nmeros buscados, siendo 0 la parte entera. Actualmente, existen programas estadsticos que generan nmeros aleatorios (o, ms precisamente, nmeros pseudoaleatorios). La tabla I contiene 3000 dgitos pseudoaleatorios generados con la ayuda del programa estadstico STATISTICA. Observacin 2.51. Desgraciadamente, en las ciencias de la salud el muestreo aleatorio simple, aunque es un objetivo ideal a cumplir, rara vez se verica, pues el investigador se ve condicionado a elegir sus datos entre los individuos que le llegan al hospital, o entre los animales de experimentacin que le proporcionan, etc. Conviene pues distinguir entre la poblacin objetivo (sobre la que queremos informacin) y la poblacin de muestreo (aquella subpoblacin de la poblacin objetivo de la que realmente se extrajo la muestra) y estudiar la muestra obtenida para ver si todas aquellas caractersticas relevantes para el objeto de nuestro estudio son conformes a lo que ocurre en la poblacin objetivo; por ejemplo, conviene comprobar si en la muestra las distribuciones por sexo, por edades y por otras variables que consideremos relevantes para nuestro estudio son anlogas a las de la poblacin objetivo. Observacin 2.52. Se habla, a veces, de muestreo probabilstico cuando se seleccionan al azar y con reemplazamiento individuos de una poblacin que no tiene por qu ser nita y que, aunque lo fuese, no considere a todos sus individuos equiprobables; slo es imprescindible la hiptesis de independencia en la seleccin de los individuos lo que queda garantizado si a la hora de elegir al individuo i-simo no tenemos en cuenta lo ocurrido en elecciones precedentes y la hiptesis de que la probabilidad de elegir a un individuo se mantenga inalterable de una eleccin a otra.

93

ndice

94

Elementos de Bioestadstica
Ejemplo 2.53. No sera un muestreo aleatorio simple un caso como el siguiente: para seleccionar 10 individuos de una clase de cien alumnos, se colocan estos por orden alfabtico, se enumeran del uno al cien, se elige un nmero del uno al cien al azar y se eligen el alumno correspondiente y los nueve siguientes.

2.4.3.

Momentos muestrales: sus distribuciones

Anteriormente hemos considerado la media E(X ) y la varianza Var(X ) de una v.a. X : R como los principales momentos de esa v.a. (o de su distribucin P X ). En este tema consideramos una muestra X1 , . . . , Xn de tamao n de una distribucin de probabilidad en R y deniremos a partir de ella dos nuevas v.a. que llamaremos media muestral y varianza muestral. DEFINICIN 2.54. Sea X1 , . . . , Xn : (, P ) R una muestra de tamao n.

denida por 1) (Media muestral) Se dene la media muestral de esa muestra como la v.a. X = X1 + + Xn X n 2) (Varianza muestral) Se dene la varianza muestral para esa muestra como la v.a. S 2 denida por S2 = 1 n1
n i=1

)2 = (Xi X

1 n1

n i=1

2 Xi2 nX

Observacin 2.55. Dividir la suma de cuadrados por n 1 y no por n a la hora de denir la varianza muestral S 2 queda justicado por el apartado (iii) del siguiente teorema, pues, en la terminologa que introduciremos en el tema de estimacin en la Segunda Parte, eso signica que S 2 es un estimador insesgado de la varianza 2 . Otros autores preeren reservar 1 2 el nombre de varianza muestral para n n S . De esas dos nuevas v.a. (o de sus distribuciones) denidas a partir de las n v.a. que constituyen la muestra nos interesan algunos resultados como el siguiente. TEOREMA 2.56. Con las notaciones de la denicin anterior, se verican las proposiciones siguientes:

ndice

Agustn Garca Nogales


(i) Puesto que las Xi tienen la misma distribucin, tienen tambin la misma media . La media de la media muestral es tambin igual a , es decir, ) = E(X (ii) Puesto que las Xi tienen la misma distribucin, tienen tambin la misma varianza es 2 . La varianza de la media muestral X ) = Var(X 2 n

95

(iii) La varianza muestral S 2 tiene media 2 , es decir, E(S 2 ) = 2 Para muestras de una distribucin normal, el resultado precedente puede ser mejorado. TEOREMA 2.57. Sea X1 , . . . , Xn una muestra de una distribucin normal N (, 2 ) (es decir, las Xi son v.a. independientes e idnticamente distribuidas con distribucin comn N (, 2 )). Entonces: tiene distribucin N (, 2 /n). (i) X (ii) (Distribucin 2 de Pearson) La distribucin de la v.a. (n 1)S 2 2 es la llamada distribucin 2 de Pearson con n 1 grados de libertad, que denotaremos por (iii) (Distribucin t de Student) La distribucin de la v.a. X n S es la llamada distribucin t de Student con n 1 grados de libertad, que denotaremos por t(n 1). (iv) (Distribucin F de Fisher) Supongamos ahora que tenemos dos muestras de tamaos
2 ) y N ( , 2 ), respectivan1 y n2 independientes de dos distribuciones normales N (1 , 1 2 2 2 y S 2 las varianzas muestrales correspondientes a la primera y a mente, y denotemos por S1 2

2 (n 1).

ndice

96

Elementos de Bioestadstica

Pro 1,0 1,0

0,8

0,8

0,6

0,6

0,4

0,4

0,2

0,2

Mediana Media

0,0 0 2 4 6 8 10 12 14 16 18 20 22 24

0,0 0 2 4

Figura 2.9: Densidad de la distribucin 2 (6)

y=student(x;5) 0,5 1,0

0,4

0,8

0,3

0,6

0,2

0,4

0,1

0,2

0,0 -3 -2 -1 0 1 2 3

0,0 -3

-2

Figura 2.10: Densidad de la distribucin t(5)

ndice

Agustn Garca Nogales


1,0 1,0

97

Prob

0,8

0,8

0,6

0,6

Mediana
0,4 0,4

Media
0,2 0,2

0,0 0,0

0,5

1,0

1,5

2,0

2,5

3,0

3,5

4,0

0,0 0,0

0,5

Figura 2.11: Densidad de la distribucin F (7, 5)


la segunda muestras, respectivamente. La distribucin de la v.a.
2 / 2 S1 1 2 / 2 S2 2

es la llamada distribucin F de Fisher con (n1 1, n2 1) grados de libertad, que denotaremos por F (n1 1, n2 1). Observacin 2.58. Ntese que la densidad de la distribucin t(n), aunque no es una campana de Gauss, recuerda la densidad de la distribucin N (0, 1); de hecho, a medida que aumenta el nmero n de grados de libertad esa densidad se aproxima ms y ms a la campana de Gauss. La tabla IV contiene ciertos cuantiles de la distribucin t para valores de n inferiores a 100; para tamaos muestrales superiores a 100 podemos utilizar los cuantiles z de la distribucin N (0, 1) en lugar de t (n). Para valores de n no tabulados, pero comprendidos entre dos valores que s han sido tabulados, en sta y en otras tablas podemos aproximar los cuantiles por interpolacin lineal, como se explica a continuacin con un ejemplo: el mtodo de interpolacin lineal acta como si t0.05 (n) fuese una funcin lineal a trozos de n; puesto que en la tabla IV de la distribucin t no aparece el valor t0.05 (42), pero s los valores t0.05 (40) = 2.021 y t0.05 (45) = 2.014, aproximaremos t0.05 (42) por el valor en el punto 42 de la recta que une los puntos (40, 2.021) y (45, 2.014), 2.021 cuya ecuacin es y 2.021 = 2.014 (x 40); la aproximacin deseada es, por tanto, 4540 0.007 y = 2.021 + 5 (42 40) = 2.0182; el valor real, calculado con la ayuda de un programa estadstico, es 2.018082. Observacin 2.59. Las densidades de las distribuciones 2 y F son densidades de v.a. positivas y, por tanto, dan probabilidad nula al intervalo ] , 0[.

ndice

98

Elementos de Bioestadstica
Observacin 2.60. La distribucin F tambin se suele conocer como distribucin de Snedecor o, incluso, de Fisher-Snedecor.

2.4.4.

Teorema del lmite central

La importancia de la distribucin normal en estadstica queda plenamente justicada por el siguiente resultado. TEOREMA 2.61. (Teorema del lmite central) Sea X1 , X2 , . . . una muestra de una distribucin real con media y varianza 2 . Si n es sucientemente grande, la media muestral de X1 , . . . , Xn verica que X X n

tiene aproxitiene aproximadamente distribucin normal N (0, 1); o bien, para n grande, X madamente distribucin N (, 2 /n); o bien, para n grande, distribucin N (n, n 2 ). Observacin 2.62. El teorema del lmite central es uno de los principales del clculo de probabilidades y convierte a la distribucin normal en la distribucin ms importante de la estadstica pues, adems del uso que anteriormente le hemos atribuido en teora de errores y como modelo avalado por estudios epidemiolgicos para ciertas variables biolgicas, nos permite utilizar la distribucin normal para aproximar la distribucin de otras variables de las que sabemos positivamente que no son normales (porque sean, por ejemplo, discretas) cuando el tamao de la muestra es grande. Tengamos en cuenta que de la distribucin comn de las Xi slo suponemos que tiene media y varianza nita, y por lo dems puede ser cualquier distribucin (podra ser discreta, como la binomial, la uniforme, etc..., o cualquier distribucin continua), y nos asegura que la media muestral obtenida a partir de una muestra de tamao sucientemente grande de esa distribucin tiene distribucin aproximadamente normal. Observacin 2.63. Buena parte de los mtodos estadsticos que presentaremos a lo largo de esta obra se basan en la suposicin de normalidad de las observaciones. Lo dicho en el apartado anterior nos permite utilizar con xito esos mismos mtodos, incluso en el caso de que la hiptesis de normalidad no est garantizada, si disponemos de tamaos de muestra sucientemente grandes. La distribucin normal se convierte as en una distribucin especialmente sencilla (slo depende de dos parmetros: la media y la varianza 2 ), y los mtodos estadsticos diseados para ella pueden usarse para otras distribuciones en el caso de grandes muestras.
n i=1 Xi

tiene aproximadamente

ndice

Agustn Garca Nogales


Observacin 2.64. El teorema del lmite central viene tambin a justicar el uso de la distribucin normal como modelo apropiado para muchas variables biolgicas de inters o en teora de errores del siguiente modo: si el resultado numrico de un experimento aleatorio depende de una gran cantidad de factores (digamos, es la media de una gran cantidad de factores) que actan independientemente unos de otros (eso justicara la hiptesis de independencia) y contribuyendo cada uno de ellos en la misma forma al resultado nal (eso justicara la hiptesis de que las Xi tienen la misma distribucin), entonces el valor obtenido puede considerarse aproximadamente como una observacin concreta de una v.a.r. que sigue una distribucin normal.

99

2.4.5.

Aproximacin de la distribucin binomial por la normal

Veamos ahora cmo podemos aproximar la distribucin binomial por la normal haciendo uso del teorema del lmite central. La necesidad de esas aproximaciones viene justicada por el hecho de que trabajar con la distribucin binomial B (n, p) cuando n es grande resulta excesivamente engorroso. Puesto que la distribucin binomial B (n, p) se puede describir como la suma de v.a. independientes de Bernoulli de parmetro p, el teorema del lmite central prueba que, si n es grande, es posible aproximar la distribucin binomial por una distribucin normal de la misma media y la misma varianza que la binomial. Concretamente, si X es una v.a. con distribucin binomial B (n, p) e Y es una v.a. con distribucin N (np, np(1 p)), entonces la distribucin de X se aproxima por la de Y del siguiente modo: Si k = 1, . . . , n 1, la probabilidad P (X = k ) no se aproxima por P (Y = k ), que es nula, sino por P (k 1/2 Y k + 1/2); P (X = 0) se aproxima por P (Y 1/2) y P (X = n) se aproxima por P (Y n 1/2); dados dos nmeros reales a b, la probabilidad P (a X b) puede aproximarse por el rea bajo la densidad de la distribucin N (np, np(1 p)) entre los puntos a 1/2 y b + 1/2, es decir, por P (a 1/2 Y b + 1/2). En el grco siguiente se observa la aproximacin de la distribucin binomial B (25, 0.4) (cuya funcin de probabilidad est representada por pequeos crculos negros) por la distribucin normal N (10, 6). El rectngulo del grco sobre el punto k {0, 1, . . . , 25}, de base 1, tiene rea igual a su altura, que coincide con la probabilidad de que X = k ; esa probabilidad se aproxima por el rea que queda bajo la

ndice

100
0,18

Elementos de Bioestadstica

0,16

X~B(25,0.4) Y~N(10,6) P(X=8)=0.1199797 P(7.5<Y<8.5)=0.116429 Error < 0.140 npq

0,14

0,12

0,10

0,08

0,06

0,04

0,02

0,00 0 2 4 6 8 10 12 14 16 18 20 22 24

Figura 2.12: Aproximacin de la binomial por la normal


densidad de la normal en el intervalo [k 1/2, k + 1/2]. Observacin 2.65. (Correccin por continuidad) El hecho de sumar y restar 1/2 en la aproximacin suele llamarse correccin por continuidad. Se ha calculado que una cota superior para el error cometido en esa aproximacin con correccin por continuidad es 0.140/ np(1 p). Observacin 2.66. (Condiciones de validez de la aproximacin) A la hora de aplicar la aproximacin de la binomial por la normal suele exigirse en la prctica la siguiente condicin: np(1 p) 5. Observacin 2.67. (Distribucin binomial y distribucin hipergeomtrica) Una ltima aproximacin que nos interesa es la aproximacin del muestreo sin reemplazamiento por el muestreo con reemplazamiento, es decir, la aproximacin de la distribucin hipergeomtrica por la binomial segn se explica a continuacin. Hemos comentado en temas precedentes que la distribucin binomial se usa, por ejemplo, como modelo para el nmero de individuos que poseen una cierta enfermedad entre n individuos seleccionados al azar de una poblacin. Hay que tener en cuenta que eso es exactamente as en el caso de que cada individuo, una vez decidido si posee o no la enfermedad en cuestin, sea devuelto a la poblacin de manera que pueda ser seleccionado posteriormente (se habla en ese caso de muestreo con reemplazamiento); si la poblacin total tiene un nmero nito N de individuos y los individuos tras ser examinados no se devuelven a la poblacin (se habla entonces de muestreo sin reemplazamiento), la distribucin del nmero de individuos enfermos entre los n seleccionados de ese modo no sera ya la distribucin binomial, sino que es una distribucin discreta llamada hipergeomtrica que no estudiaremos en detalle; no obstante, se prueba que la distribucin

ndice

Agustn Garca Nogales


hipergeomtrica puede aproximarse por la binomial cuando el cociente n/N es pequeo y N es grande (en la prctica suelen exigirse las siguientes condiciones para que la aproximacin se considere aceptable: n/N 0.1 y N > 40). Observacin 2.68. (Mquina de Galton) La imagen anterior representa una mquina (llamada de Galton) en la que se introducen bolas por el embudo superior; tras sucesivos choques con los pernos dispuestos en las de la mquina, cada bola cae en uno de los 8 depsitos en la parte inferior. Si, en cada perno, cada bola tiene probabilidad 1/2 de ir a la derecha o a la izquierda, cada bola cae en el depsito k -simo con probabilidad 7 7 2 , donde f es la funcin de probabilidad de la distribucin B (7, 1/2). Si se f (k ) = k lanza un nmero grande de bolas, stas terminarn dibujando en la parte inferior algo parecido a una campana de Gauss, poniendo de maniesto el llamado efecto lmite central, es decir, la aproximacin de la binomial B (7, 1/2) por la distribucin normal N (3 5, 1 75)(3 ) (pues el nmero de bolas en el depsito k -simo es proporcional a f (k )). De hecho, si son 64 las bolas que introducimos por el embudo superior y, en cada perno, se fuesen a derecha e izquierda exactamente la mitad de las bola que llegan a l, obtendramos la siguiente distribucin:

101

64 32 16 8 4 2 1 6 10 15 16 20 20 24 24 20 15 32 24 16 10 6 32 16 8 4 2 1

La tabla siguiente, conocida como tringulo de Tartaglia (tambin llamado de Pascal), recoge en cada perno el nmero de caminos diferentes que, partiendo del embudo, conducen al mismo. Concretamente, al perno k -simo de la la n-sima (n = 0, 1, . . . , k = 0, 1, . . . , n) llegan exactamente n k caminos:
Se trabaja con 7 las por no complicar el ejemplo, aunque para garantizar las condiciones de validez de aproximacin de la binomial por la normal que hemos jado necesitaramos un nmero de las superior a 20.
3

ndice

102

Elementos de Bioestadstica

d i e e e e e e e i e e e e e e e e e e e e e e i e e e i e e e e e e i e e e ii iii ii i iii iii i iii iii iii iii iii i iii iii iii ii i iii iii iii iii ii i i i i i i i i i i i i i

d d

Figura 2.13: Mquina de Galton

ndice

Agustn Garca Nogales

103

1 1 1 1 1 1 1 6 5 15 4 10 20 3 6 10 15 2 3 4 5 6 1 1 1 1 1 1

2.4.6.

Muestreo estraticado

Ya hemos comentado que el problema de seleccin de muestras de una poblacin es, en general, un problema importante y difcil. El mtodo de muestreo utilizado debe garantizar la muestra representatividad de la muestra, para que las conclusiones obtenidas de sta sean extrapolables a la poblacin objeto de estudio. Los modelos estadsticos que proponemos en la segunda parte de esta obra para llevar a cabo la extrapolacin pueden ser ms o menos sensibles a las suposiciones (como las de normalidad, igualdad de varianzas, etc) que hacemos sobre las variables que generan los datos obtenidos en la experimentacin, pero son dramticamente sensibles a la presencia inadvertida (o, lo que es ms grave, ignorada) en la poblacin objetivo de subpoblaciones heterogneas en lo que a la distribucin de las variables de inters se reere. Parece obvio, por ejemplo, que suponer normalidad para la distribucin de la estatura de los jvenes de una poblacin es cuestionable, y no tanto por la naturaleza de la variable estatura como por la inuencia de sobre ella de otras variables como pudieran ser la edad y el sexo; ms razonable sera la suposicin de normalidad para la estatura de los varones de 20 aos de esa poblacin.

ndice

104

Elementos de Bioestadstica
En ocasiones la poblacin aparece dividida de manera natural en subpoblaciones o estratos. La poblacin de jvenes a que nos referamos puede ser dividida en varones y hembras si entendemos que el sexo es una variable relevante en el estudio que deseamos realizar, o en varios estratos atendiendo adems a la variable edad, de forma que los estratos sean homogneos en cuanto a sexo y edad; un pas aparece naturalmente dividido en regiones (o en provincias); un rea de salud est dividida en varias zonas de salud con caractersticas econmicas y socioculturales peculiares. En ese caso, podemos aprovechar la informacin disponible sobre los diferentes estratos a la hora de extraer la muestra y, ms que realizar un muestreo aleatorio simple en toda la poblacin, podemos repartir el tamao muestral deseado entre los diferentes estratos, de tal suerte que los datos obtenidos nos permitan hacer inferencia estadstica tanto sobre la poblacin en general como sobre cada uno de los estratos considerados. Un muestreo de este tipo, en el que se realiza un muestreo aleatorio simple sobre cada uno de los estratos, recibe el nombre de muestreo estraticado. En la medida en que los estratos sean homogneos (en relacin a las variables incluidas en el estudio), las inferencias que podamos llevar a cabo en cada uno de ellos sern ables, y tanto ms cuanto mayor sea el tamao muestral en el estrato en cuestin. Pero, para que la inferencia en la poblacin total sea able, conviene ser cuidadoso a la hora de repartir el tamao muestral global entre los diferentes estratos, con la intencin de que un estrato tenga en la muestra un peso similar al que de hecho tiene en la poblacin general. En cualquier caso, estraticando conseguimos eliminar posibles fuentes de variabilidad en la muestra. Es conveniente, por ejemplo, en estudios multicntricos (en los que aparecen implicados varios hospitales), estraticar por centro. Distinguiremos aqu tres formas posibles de reparto (se suele hablar tcnicamente de ajacin) del tamao muestral: la ajacin uniforme, en la que la muestra se reparte por igual entre los distintos estratos, la ajacin proporcional, en la que la muestra se reparte entre los estratos proporcionalmente al tamao que stos tienen en la poblacin total, y la ajacin ptima, en la que, adems del tamao de los estratos, se tiene en cuenta la variabilidad de los estratos.

ndice

Verdadero o Falso? Captulo 2


Decidir si cada una de las proposiciones siguientes es verdadera (V) o falsa (F), justicando la respuesta. 2.1 Una pregunta de un examen de Bioestadstica contiene 5 proposiciones sobre las que el alumno debe decir si son verdaderas o falsas (supongamos que no se puede dejar sin respuesta ninguna pregunta); cada respuesta acertada suma dos puntos y cada respuesta errnea resta 1 punto. Si a cada una de las armaciones responde V o F segn que salga cara o cruz, resp., en lanzamientos consecutivos de una moneda equilibrada, la puntuacin media obtenida es igual a 5 puntos. 2.2 Dos v.a.r. normales que tienen la misma media y la misma varianza tienen tambin la misma distribucin. 2.3 Si estamos dispuestos a admitir el error de declarar no normales a un 5 % de los individuos normales, un lmite inferior de normalidad para una v.a. X con distribucin N (2.5, 2) es 0.174. Solucin: Pg. 341 2.4 2.5 2.6 Si X tiene distribucin N (5, 1.12 ) entonces P (X 3.9) = 0.8413. Si X es una v.a.r. con distribucin t(n), entonces P (X a) + P (X a) = 1. Sean X una v.a.r. con distribucin N (4, 4 2 ) e Y una v.a.r. con distribucin N (0, 1). Entonces P (X 4 < 2 ) = P (Y < 1). Solucin: Pg. 341 2.7 Sea X una v.a.r. con distribucin normal N (2, 1). Entonces P (2X 1 2) > 0.275. 2.8 Sea a > 0. Si X es una v.a.r. con distribucin N (2, a), entonces P (X 5) + P (X > 1) = 1. 2.9 Si X1 , . . . , Xn es una muestra de tamao n de una distribucin real, la v.a. S 2 tiene distribucin 2 (n 1). Solucin: Pg. 341

105

ndice

106
2.10

Elementos de Bioestadstica
El intervalo [ , + ] contiene aproximadamente el 95 % de la distribucin

N (, 2 ). 2.11

La funcin de probabilidad de una v.a. numrica discreta X asigna a cada valor x de la variable la probabilidad de que X tome un valor menor o igual que x.

2.12

Si X e Y son dos v.a.r. independientes cada una de ellas con distribucin N (0, 1), entonces P ({X 1} {Y 1}) = 0.7078. Solucin: Pg. 341

2.13 2.14

Sea X una v.a.r. con distribucin normal N (2, 1). Entonces P (X = 2) = 1/2. Sean a > 0 y X una v.a. con distribucin normal de media 8; entonces P (X >
1 8 + a) < 2 .

2.15

2 ). Solucin: Pg. 341 2.16 2.17

Si X es una v.a. con distribucin N (, 2 ), entonces P (X 2 ) = P (X

Si X es una v.a.r. cualquiera, entonces P (X 1) + P (X > 1) < 1. Es razonable suponer independientes dos v.a. que describen dos caractersticas numricas diferentes en un mismo individuo elegido al azar en una cierta poblacin.

2.18

Se eligen 15 alumnos al azar y con reemplazamiento de un colegio en el que el 70 % de los alumnos han pasado la varicela. El nmero medio de alumnos que han pasado la varicela entre los 15 elegidos es igual a 7. Solucin: Pg. 341

2.19

Si X es una v.a.r. con distribucin normal N (1, 4), entonces P (X 1.7) = 0.0885.

2.20

En una poblacin , denotaremos por X ( ) la presin sangunea de un individuo . Consideremos los sucesos A = {X 90} y B = {75 X 100}. Entonces A B = {X 90}.

2.21

Sea X una v.a.r. con distribucin normal N (2, 2). Entonces la v.a. 3X 2 tiene distribucin N (4, 18). Solucin: Pg. 341

ndice

Agustn Garca Nogales


2.22 Si X es una v.a.r. con distribucin normal de media 5, entonces P (X < 10) > P (X > 1). 2.23 Sea X es la v.a. que describe el nivel en suero de una cierta sustancia en los individuos normales de una poblacin y supongamos que tiene distribucin N (5, 1.12 ). Entonces la v.a. 5X + 2 tiene distribucin N (27, 8.05). 2.24 Sea X1 , . . . , X10 una muestra de tamao 10 de una distribucin N (10, 100). La 10|/S 2,228 es igual a 0.95. Solucin: Pg. 341 probabilidad de que 10 |X Supongamos que el nivel de glucosa en suero tiene distribucin normal N (90, 100) en una cierta poblacin. Un lmite inferior de normalidad con error del 10 % para el nivel de glucosa en suero es igual a 73.55. 2.26 La distribucin de la presin intraocular en la poblacin general es aproximadamente normal N (16, 9). La probabilidad de que la presin intraocular sea superior a 17.5 es igual a 0.6915. 2.27 La distribucin de la presin intraocular en la poblacin general es aproximadamente normal N (16, 9). Un intervalo de normalidad para la presin intraocular con un error de intervalo del 5 % es [10,12, 21,88]. Solucin: Pg. 341 2.28 La varianza de la media muestral de una muestra de tamao n de una distribucin real es siempre mayor o igual que la varianza de esa distribucin.

107

2.25

ndice

Problemas del Captulo 2


2.1 Se ha estimado que, entre los hombres de una cierta poblacin con edad entre 30 y 40 aos que fumaron alguna vez, el nmero medio de aos que estuvieron fumando es 12.8 con una desviacin tpica de 5 aos. a) Asumiendo normalidad para los tiempos observados, qu proporcin de hombres en ese grupo de edad han fumado durante ms de 15 aos? b) En esa poblacin se eligen al azar 80 individuos con edad entre 30 y 40 aos que fumaron alguna vez. Cul es la probabilidad de que al menos 20 de ellos hayan fumado durante ms de 15 aos? 2.2 Sea X una v.a. que describe el nmeros de casos de otitis en el odo medio en los dos primeros aos de vida de los nios de una cierta poblacin. Se supone conocido que la funcin de probabilidad de X es la aplicacin f : {0, 1, 2, 3, 4, 5, 6} [0, 1] denida por: f (0) = 0.129, f (1) = 0.264, f (2) = 0.271, f (3) = 0.185, f (4) = 0.095, f (5) = 0.039, f (6) = 0.017. a) Calcula E(X ) e interpreta el valor obtenido. b) Cul es la probabilidad de que, entre 40 nios de ms de 2 aos elegidos al azar de esa poblacin, al menos 30 hayan sufrido 2 o menos episodios de otitis en el odo medio en sus dos primeros aos de vida? 2.3 Se sabe que entre los individuos que poseen una cierta enfermedad en una poblacin, el 30 % poseen el sntoma S. Entre los individuos de la poblacin que poseen esa enfermedad se eligen 20 al azar. Cul es la probabilidad de que haya 5 o menos individuos con el sntoma S entre esos 20? Solucin: Pg. 342 2.4 Consideremos el espacio de probabilidad correspondiente al experimento aleatorio que consiste en un slo lanzamiento al aire de un dado perfecto denido por el conjunto = {1, 2, 3, 4, 5, 6} y la probabilidad P que asigna el valor 1/6 a cada uno de los sucesos elementales de . Consideremos tambin dos v.a. X e Y denidas en y a valores en {0, 1} del siguiente modo: si 1 i 6, X (i) = 0 si i es un nmero primo

108

ndice

Agustn Garca Nogales


y X (i) = 1 si i no es primo; Y (i) = 0 si i es un nmero par e Y (i) = 1 si i es impar. (Nota: se recuerda que un nmero primo es aquel que no tiene ms divisores que l mismo y la unidad; p.ej.: el 13 es primo y el 27 no). a) Describe explcitamente los sucesos {X = 1} e {Y = 0} y las distribuciones P X y P Y de X e Y . b) Son independientes las v.a. X e Y ? (La independencia de esas v.a. equivaldra a que lo sean los sucesos ser primo y ser par). c) Imagina que, en lugar de un dado, tenemos un tetraedro regular perfecto (cuatro caras numeradas del 1 al 4 equiprobables). Son independientes los sucesos ser primo y ser par? 2.5 Supongamos que el peso X en Kg de los nias de 6 aos de una cierta poblacin tiene distribucin normal de media 20 y desviacin tpica 2. a) Calcula P (18 < X < 22) y P (X > 16). b) Calcula los percentiles 10 y 40 de esa distribucin y sus cuantiles 0.25 y 0.75. c) Determina un intervalo de normalidad para el peso de esas nias con un error del 10 %. d) Se extrae una muestra aleatoria de 10 nias de 6 aos de edad. Calcula las proba < 22) y P (S 2 > 1.2). bilidades P (18 < X 20)/S ? Calcula P (X [20 1.833 e) Qu distribucin tiene la variable 10(X S/ 10, 20 + 1.833 S/ 10]) y decide si f) Determina el intervalo que contiene el 95 % central de los valores de X 17 Kg es un valor inslito para el peso medio de una muestra aleatoria de 10 nias de 6 aos. 2.6 Para elegir 10 personas al azar de una poblacin de 780 personas, se enumeran stas desde el 0 hasta el 779 y se preparan tres bombos de lotera con bolas del mismo peso y tamao numeradas del 0 al 7 en el primer bombo, del 0 al 7 en el segundo y del 0 al 9 en el tercero. Para seleccionar un individuo, se saca una bola de cada bombo

109

ndice

110

Elementos de Bioestadstica
y, tras anotar el resultado, las bolas son devueltas al bombo; esta operacin se repite nueve veces ms. Se trata de un muestreo aleatorio simple? Solucin: Pg. 342 2.7 Supongamos conocido que el coeciente de inteligencia (CI) se distribuye en una cierta poblacin segn una distribucin N (100, 225) y que de una persona con CI superior a 115 se dice que tiene un CI alto. Trabaja a lo largo de este problema con una precisin de dos cifras decimales. a) Cul es la probabilidad de que un individuo de la poblacin tenga CI alto? b) Se eligen al azar 80 individuos de la poblacin. Cul es el nmero medio de individuos con CI alto? Calcula la probabilidad de que a lo ms un 15 % de esos 80 individuos tenga un CI alto. 2.8 Para elegir 3 nmeros entre el 0 y el 99999 mediante un muestreo aleatorio simple sin reemplazamiento, podemos proceder del siguiente modo?: se utilizan cinco bombos de lotera y en cada uno de ellos se introducen 10 bolas exactamente iguales y numeradas del 0 al 9; se extrae una bola de cada bombo y se anota el nmero de cinco cifras obtenido; sin devolver las bolas extradas a los bombos respectivos, se extraen dos bolas ms de cada uno de ellos, obteniendo as los otros dos nmeros buscados. Justica la respuesta. 2.9 Se ha estimado que, para un cierto tipo de cncer, la probabilidad de que un individuo sobreviva seis meses tras un tratamiento de quimioterapia es del 60 %, mientras que la de que sobreviva un ao es del 45 %. a) Calcula la probabilidad de que un paciente que ha sobrevivido seis meses sobreviva tambin un ao. b) Calcula la probabilidad de que de cinco pacientes elegidos al azar al menos 3 de ellos sobrevivan seis meses.Solucin: Pg. 342 2.10 Imagina que queremos elegir una muestra de n personas mayores de edad en la ciudad de Badajoz para que respondan a una encuesta sobre la atencin sanitaria que reciben y que para ello salimos a la calle a las diez de la maana y pasamos la encuesta a

ndice

Agustn Garca Nogales


las n primeras personas mayores de edad que nos cruzamos en un da determinado. Crees que se trata de un muestreo aleatorio simple? Justica la respuesta exponiendo diversas razones que te hagan creer eso. 2.11 Supongamos conocido que el 20 % de los varones mayores de 14 aos de la ciudad de Badajoz han sido declarados bebedores de riesgo mediante un test diseado por Altisent y otros relativo al consumo de alcohol. Supondremos tambin que en la ciudad de Badajoz hay 45000 individuos varones mayores de 14 aos y que, entre ellos, 10000 estn adscritos al centro de salud de La Paz, de los cuales 2500 han sido declarados bebedores de riesgo. En el centro de salud de la Zona Centro se encuentran adscritos 4500 varones mayores de 14 aos. a) Cul es la probabilidad de que a lo sumo 20 entre 100 individuos elegidos al azar de esa poblacin sean bebedores de riesgo? b) Cul es la probabilidad de que como mnimo 2 de 10 varones mayores de 14 aos elegidos al azar en el centro de salud de La Paz sean declarados bebedores de riesgo? 2.12 Sobre el conjunto = {0, 1, 2, 3, 4, 5}, que podra hacer las veces de espacio de las observaciones para el experimento aleatorio que consiste en lanzar al aire un dado (no necesariamente perfecto) con caras numeradas del 0 al 5, construir una probabilidad P (ntese que, para ello, es suciente determinar las probabilidades de los sucesos elementales) en cada uno de los casos siguientes, y calcula de acuerdo con ella la probabilidad de sacar un nmero impar: a) El dado es perfecto. b) El resultado del lanzamiento sigue una distribucin binomial B (5, 0.5). c) El resultado del lanzamiento sigue una distribucin binomial B (5, 0.1). Solucin: Pg. 342 2.13 Supongamos conocido que el contenido medio de glucosa en sangre en un grupo de ratas diabticas es 1.8 mg/ml, con una desviacin tpica = 0.2, y que la glucosa se distribuye normalmente en esa poblacin.

111

ndice

112

Elementos de Bioestadstica
a) Se extrae una muestra de tamao 40 de esa poblacin. Calcula la probabilidad de que al menos 5 de esas ratas tengan un nivel de glucosa inferior a 1.6. < 1.6). b) Se extrae una muestra de tamao 4 de esa poblacin. Calcula P (X 2.14 Queremos elegir una muestra de n personas mayores de edad en la ciudad de Badajoz para que respondan a una encuesta sobre la atencin sanitaria que reciben. Para ello elegimos de la gua telefnica n nmeros al azar y pasamos la encuesta a la persona que coge el telfono (si es que sta es mayor de edad). Crees que se trata de un muestreo aleatorio simple? Justica la respuesta exponiendo diversas razones que te hagan creer eso. 2.15 Un test de diagnstico que ha sido diseado para la deteccin del cncer de colon en una cierta poblacin posee una sensibilidad del 55 % y una especicidad del 80 %, mientras que la prevalencia del cncer de colon en esa poblacin es del 15 %. a) Entre 100 individuos con cncer de colon, cul es la probabilidad de que el test resulte positivo para al menos 45 de ellos? b) Si se eligen al azar 4 individuos para los que el test result positivo, cul es la probabilidad de que a lo sumo dos de ellos posean verdaderamente la enfermedad? Solucin: Pg. 342 2.16 Supongamos que el 10 % de individuos hipertensos que toman el frmaco antihipertensivo A padecen molestias gastrointestinales (GI), mientras que para los que toman el frmaco B las molestias se producen en un 20 % de los casos. (a) Si las molestias GI de ambos frmacos se producen de forma independiente, cul es la probabilidad de que un paciente que toman simultneamente ambos frmacos tenga molestias GI? (b) Cul es la probabilidad de que, de 100 individuos hipertensos tratados con el frmaco B, menos de la mitad tenga molestias GI?

2.17 Supongamos que los varones espaoles sanos entre 65 y 79 aos de edad el nivel de cido rico en la sangre es aproximadamente normal de media 340mol/l y desviacin

ndice

Agustn Garca Nogales


tpica = 80mol/l. a) Qu proporcin de esos individuos tiene nivel de cido rico en sangre entre 300 y 400? b) Qu proporcin de muestras de tamao 4 en esa poblacin tiene media muestral entre 300 y 400?

113

ndice

Verdadero o Falso? PRIMERA PARTE


Decidir si cada una de las proposiciones siguientes es verdadera (V) o falsa (F), justicando la respuesta. I.1 I.2 I.3 Si xij = i + j , 1 i 4, 1 j 3, entonces Si xij = i + j , 1 i 4, 1 j 3, entonces
3 j =1 x4j 3 j =1 (x4j

1 = 15. 1) = 15.

Dos combinaciones de orden 2 en el conjunto {a, b, c, d} son distintas si una de ellas contiene un elemento que no contiene la otra o si sus elementos aparecen en distinto orden.

I.4

En una poblacin , sean H el subconjunto formado por los individuos hipertensos y F el formado por los individuos fumadores. Entonces (H F )c = H c F c .

I.5

La desviacin tpica de un conjunto de datos numricos es una medida de dispersin del mismo expresada en las mismas unidades de medida que los datos.

I.6

Si en un conjunto de datos numricos, al menor de los datos se le resta una unidad, la media disminuye.

I.7

En un histograma sobre intervalos de clase de diferente longitud, la altura de cada rectngulo es proporcional a la frecuencia de la clase correspondiente.

I.8

Los conjuntos de datos numricos x1 , . . . , xn y x1 + c, . . . , xn + c tienen la misma desviacin tpica.

I.9

Si en un conjunto de datos numricos x1 , . . . , xn , a todos los datos se le suma la misma cantidad, la varianza no cambia.

I.10

La media de un conjunto de datos numricos es el nmero que mejor aproxima esos datos en el sentido de los mnimos cuadrados.

I.11

La varianza de un conjunto de datos numricos se mide en las mismas unidades que ellos.

114

ndice

Agustn Garca Nogales


I.12 I.13 I.14 Dos conjuntos de datos con idntico diagrama de caja coinciden. Sean x1 = 2, x2 = 1 y x3 = 3. Entonces (
3 2 i=2 xi )

115

3 i=1 xi .

Sea X la variable que registra el nivel de colesterol de los individuos de la poblacin espaola. Los sucesos {X 140} y {X < 180} son incompatibles.

I.15

De un colectivo formado por 1000 individuos esquizofrnicos (de los que el 40 % estaban casados), 60 de ellos terminaron suicidndose durante los 10 aos siguientes al comienzo del estudio; entre ellos, 24 estaban casados. Si C y S denotan los sucesos estar casado y haberse suicidado, entonces P (C |S ) = P (C ).

I.16

Cualquier suceso A en el espacio de probabilidad (, P ) es independiente del suceso seguro .

I.17 I.18

Si A es un suceso en el espacio de probabilidad (, P ) entonces P (A|) = P (A). En el experimento aleatorio que consiste en dos lanzamientos de un dado con caras numeradas del 1 al 6, los sucesos A =la suma de los resultados es 5 y B =el primer lanzamiento es 5 son incompatibles.

I.19 I.20

Dados dos sucesos cualesquiera A y B , P (A B ) + P (A B ) = P (A) + P (B ). Sean A, B y C sucesos y supongamos que A B = y A B = . Entonces P (C ) = P (A) P (C |A) + P (B ) P (C |B ).

I.21

De los mil alumnos de un colegio, 400 son nios y 600 nias. La mitad de las nias tienen algn problema de visin. Si tambin la mitad de los alumnos del colegio tienen algn problema de visin, podemos armar que en ese colegio los sucesos ser nia y presentar algn problema de visin son dependientes.

I.22

En una poblacin de 1200 habitantes, 450 personas sufrieron la gripe el pasado invierno, 240 de las cuales eran varones. Sabiendo que hay 640 varones en la poblacin podemos armar que los sucesos ser mujer y haber sufrido la gripe en esa poblacin son independientes.

ndice

116
I.23

Elementos de Bioestadstica
Los tests de diagnstico con pocos falsos negativos resultan tiles a la hora de conrmar la enfermedad. I.24 I.25 I.26 P (A|B ) = P (B |A) si P (A), P (B ) > 0. Sean A y B sucesos tales que A B . Entonces P (B |A) = 1. En el experimento aleatorio que consiste en dos lanzamientos de una moneda perfecta, los sucesos sacar dos caras y sacar una cara y una cruz son equiprobables. I.27 El valor predictivo positivo de un test de diagnstico es la probabilidad de que el test resulte positivo para un paciente del que se sabe que tiene la enfermedad. I.28 En una poblacin de 1600 habitantes, 650 son del grupo sanguneo A, 340 de los cuales son mujeres. Sabiendo que hay 840 mujeres en la poblacin podemos armar que los sucesos ser mujer y no ser del grupo A en esa poblacin no son independientes. I.29 Consideremos una urna que contiene bolas del mismo peso, forma y tamao de las que 4 son blancas, 1 negra, 4 rojas y una azul. Los sucesos A =sacar bola blanca o roja y B =sacar bola negra o roja en una extraccin son independientes. I.30 Si A y B son sucesos tales que P (B |A) = P (B ), entonces A y B son independientes. I.31 Utilizamos consumo elevado de grasas como test de diagnstico para predecir el desarrollo de una enfermedad cardiovascular (ECV) en una determinado sector de una poblacin. Si sabemos que tienen un elevado consumo de grasas el 80 % de las personas con ECV y el 35 % de las personas sin ECV, la probabilidad de falso negativo del test es 0.2. I.32 En un lanzamiento de un dado equilibrado, los sucesos {3, 4} y {3, 5, 6} son independientes. I.33 En el conjunto de las familias de un pas con padre, madre y 2 hijos, la unin de los sucesos el padre tiene gripe y la madre tiene gripe es el suceso ambos padres tienen gripe.

ndice

Agustn Garca Nogales


I.34 Se seleccionan 10 alumnos de una clase de 100 ordenados alfabticamente del siguiente modo: se elige un nmero k al azar del 1 al 10 y se seleccionan los alumnos k, k + 10, k + 20, . . . , k + 90. Se trata de un muestreo aleatorio simple sin reemplazamiento. I.35 Cuanto mayor es la varianza de una distribucin normal ms aplastada es su funcin de densidad. I.36 Si X es una v.a. con distribucin normal de media 5 entonces P (X 0.5) < P (X 10). I.37 I.38 Si X es una v.a.r. con distribucin N (2.5, 4) entonces P (X > 0) = 0.8944. Sean a, 2 > 0. Si X es una v.a.r. con distribucin N (0, 2 ), entonces P (X a) + P (X a) > 1. I.39 Si X1 , . . . , Xn es una muestra de tamao n de una distribucin N (, 2 ) y a R,
a2 2 n .

117

) = entonces V ar(aX I.40

Se lanzan dos dados perfectos al aire n veces. La distribucin del nmero de ocasiones en que la suma es igual a 7 es la distribucin binomial B (n, 1/6).

I.41

Si X1 y X2 son v.a.r. independientes e idnticamente distribuidas con distribucin N (0, 1), entonces X1 + X2 tiene distribucin N (0, 2).

I.42 I.43

Dos v.a.r. con distinta distribucin tienen tambin medias distintas. Si X1 , . . . , X20 es una muestra de tamao 20 de una distribucin N (, 2), entonces ) = 0.1 Var(X

I.44 I.45

Una v.a. discreta X que slo toma dos valores tiene distribucin de Bernoulli. Tipicar una v.a. X con distribucin normal N (, 2 ) consiste en restar a X su media y dividir la diferencia por la varianza.

ndice

118
I.46

Elementos de Bioestadstica
En el experimento que consiste en el lanzamiento de dos dados perfectos, sea X la v.a. suma de los resultados obtenidos. La contraimagen del suceso {X es par} es el

conjunto de pares (i, j ) {1, . . . , 6}2 tales que i = j . I.47

Sean X e Y v.a. discretas independientes con distribuciones respectivas B (10, 0.4) y uniforme sobre el conjunto {1, 2, 3, 4}. Entonces P ({X 2} {Y > 2}) = 0.167.

I.48

Dos v.a.r. con la misma distribucin tienen tambin la misma media y la misma varianza.

I.49

Sean X una v.a. con distribucin N (, 2 ) e Y una v.a.r. con distribucin N (0, 1). Entonces P (|X | ) = P (1 Y 1).

I.50

Sean R y X e Y v.a.r. con distribuciones respectivas N (, 1) y N (, 4). Entonces P ( 2 Y + 2) = P ( 1 X + 1).

I.51

Si en una cierta poblacin el cinco por ciento de los nios desarrollan una bronquitis crnica en el primer ao de vida, la distribucin del nmero de nios entre veinte elegidos al azar de esa poblacin que desarrollaron esa enfermedad en su primer ao de vida es una distribucin uniforme discreta en el conjunto {1, 2, . . . , 20}.

I.52

Sea X una v.a.r. con distribucin normal N (2, 4). Entonces la v.a. distribucin N (0, 1).

X 2 2

tiene

I.53

Se propone el siguiente juego: pagamos 3 euros por lanzar un dado equilibrado, y ganamos 1 euro si obtenemos un 1, 2 euros si obtenemos un dos, etc. El juego es desfavorable para el jugador.

I.54

Dos v.a.r. que tienen la misma media y la misma varianza tienen tambin la misma distribucin.

I.55

La media de una v.a.r. discreta con distribucin uniforme es la media aritmtica de los valores de la variable.

I.56

Es razonable suponer independientes dos v.a. que describen una misma caracterstica numrica en diferentes individuos elegidos al azar en una cierta poblacin.

ndice

Agustn Garca Nogales


I.57 Supongamos que la temperatura (tomada bajo el brazo y en grados centgrados) de los individuos no enfermos de una poblacin sigue una distribucin normal N (36.8, 0.03). Sabiendo que una temperatura de C grados centgrados equivale a F := 32 + 9 5 C grados fahrenheit, se verica que la temperatura en grados fahrenheit sigue una distribucin normal N (98.24, 0.0972). I.58 Si el nivel de colesterol de los individuos de una poblacin sigue una distribucin normal de media 175 y desviacin tpica 25, aprox. un 68 % de los individuos de la poblacin tendrn nivel de colesterol comprendido entre 150 y 200. I.59 La distribucin binomial B (100, 0,2) se puede aproximar por la distribucin normal N (20, 16). I.60 El colegio ocial de odontlogos y estomatlogos de una regin espaola ha realizado un estudio aleatorio entre los pacientes que acudieron a sus consultas la semana pasada. De 1000 chas analizadas, 500 haban realizado al menos una visita el ao anterior. Se puede concluir que un 50 % de la poblacin de esa regin acude al dentista al menos una vez al ao.

119

ndice

PROBLEMAS DE LA PRIMERA PARTE


I.1 En un juego con una baraja espaola de 40 cartas, cada jugador recibe 4 cartas. Cuntos grupos distintos de 4 cartas se pueden formar? I.2 Cuatro individuos forman parte de un ensayo clnico y cada uno de ellos recibir uno y slo uno de cuatro frmacos diferentes. Cuntas posibilidades tenemos de asignar un frmaco a cada individuo? I.3 a) Sean x1 = 2, x2 = 1, x3 = 1, x4 = 2 y x5 = 3. Calcula a.1)
4 2 i=2 xi , 5 i=1 xi ,

a.2) x , a.3)

a.4)

5 i=1 xi

3, a.5)

5 i=1 (xi

3), a.6)

3 i=1

4 j =2 xi xj .

b) Sea xi = i + 1, i = 0, 1, . . . , 6. Calcula b.1)


4 xi i=1 xi +1 .

6 2 i=0 xi ,

b.2)

4 xi i=1 xi+1

y b.3)

I.4 ( ) Realiza una estadstica descriptiva para los siguientes conjuntos de datos que incluya media, mediana, desviacin tpica, rango intercuartlico, valores mnimo y mximo, histograma (con 5 intervalos de clase) o diagrama de barras, y diagrama de caja. a) 1, 2, 3, 4, 5, 6, 7, 8, 9 y 10. b) 1, 1, 3, 3, 5, 5, 7, 7, 10 y 10. c) 1, 1, 1, 1, 1, 10, 10, 10, 10 y 10. d) 1, 1, 1, 1, 1, 1, 1, 1, 1 y 10. e) 1, 5, 5, 5, 5, 5, 5, 5, 5 y 10. f) 51.6, 48.7, 42.6, 38, 50.1, 60.2, 41.3, 47.6, 40.6, 49.5, 42, 55.1, 46.2, 52.1. I.5 Los 720 alumnos de un colegio han sido clasicados segn su color de pelo (claro u oscuro) y segn las notas de la primera evaluacin (aprobado o suspenso), habindose observado los siguientes hechos: 1) esas dos variables dicotmicas son independientes en esa poblacin; 2) 600 alumnos aprobaron la primera evaluacin; 3) 540 alumnos tienen el pelo oscuro. Cuntos alumnos con el pelo claro han suspendido?

120

ndice

Agustn Garca Nogales


I.6 En un juego con una baraja espaola de 40 cartas, cada jugador recibe 4 cartas. Cul es la probabilidad de que un jugador reciba los cuatro ases? I.7 Se ha estimado que, para un cierto tipo de cncer, la probabilidad de que un individuo sobreviva seis meses tras un tratamiento de quimioterapia es del 60 %, mientras que la de que sobreviva un ao es del 45 %. Calcula la probabilidad de que un paciente que ha sobrevivido seis meses sobreviva tambin un ao. I.8 (Continuacin del Ejemplo 1.40) En un estudio sobre afecciones cardiacas en individuos entre 40 y 50 aos de edad en una cierta poblacin, se han considerado como factores de riesgo el hecho de ser fumador (suceso F ) y un consumo excesivo de grasas saturadas en la dieta habitual (suceso G), habindose detectado que las probabilidades de los sucesos F c Gc , F Gc , F c G y F G son 0.05, 0.1, 0.35 y 0.5 entre los individuos con algn tipo de afeccin coronaria (suceso E ), y 0.5, 0.3, 0.15 y 0.05 entre los individuos que no poseen problemas cardiacos. a) Calcula las probabilidades de los siguientes sucesos: ser fumador, consumo excesivo de grasas saturadas, ser fumador y consumir demasiadas grasas saturadas. b) Son independientes los sucesos F y G? Compara P (F ) y P (F |G) e interpreta el resultado. I.9 Supongamos conocido que el 20 % de los varones mayores de 14 aos de la ciudad de Badajoz han sido declarados bebedores de riesgo mediante un test diseado por Altisent y otros relativo al consumo de alcohol. Supondremos tambin que en la ciudad de Badajoz hay 45000 individuos varones mayores de 14 aos y que, entre ellos, 10000 estn adscritos al centro de salud de La Paz, de los cuales 2500 han sido declarados bebedores de riesgo. En el centro de salud de la Zona Centro se encuentran adscritos 4500 varones mayores de 14 aos. a) Son independientes los sucesos ser bebedor de riesgo y estar adscrito al centro de salud de La Paz? Justica la respuesta e interprtala en trminos del consumo de alcohol entre varones de ms de 14 aos en el rea de salud de La Paz y en la ciudad de Badajoz.

121

ndice

122

Elementos de Bioestadstica
b) Cuntos varones mayores de 14 aos de la Zona Centro seran declarados bebedores de riesgo si los sucesos ser bebedor de riesgo y estar adscrito al centro de salud de la Zona Centro fuesen independientes? c) Son independientes los sucesos estar adscrito al centro de salud de la Zona Centro y estar adscrito al centro de salud de la La Paz? d) Se han elegido al azar 5 individuos varones mayores de 14 aos de un mismo centro de salud y se ha observado que tres de ellos son bebedores de riesgo; si se sabe que ese centro es el de La Paz o el de la Zona Centro, a qu centro de salud crees que pertenecen esos 5 individuos? (Indicacin: utiliza el principio de mxima verosimilitud esbozado en el problema 5). I.10 Cuatro individuos forman parte de un ensayo clnico y cada uno de ellos recibir uno y slo uno de cuatro frmacos diferentes. Si eres uno de esos cuatro individuos y preeres recibir el frmaco A, cul es la probabilidad de que ello ocurra? I.11 Supongamos que el dimetro en micras (denotmoslo por X ) de los hemates de los individuos normales de una poblacin sigue una distribucin N (7.5, 0.04) y que nos interesa conocer un valor mximo para el dimetro de los hemates de los individuos normales. a) Determina un lmite superior M de normalidad para X con un error del 5 %. b) Supongamos ahora que adoptamos el criterio de declarar enfermo (cirrtico, en este caso) a todo individuo con dimetro de hemates superior a M ; qu porcentaje de individuos normales sern declarados cirrticos incorrectamente con este nuevo test de diagnstico? c) Supongamos conocido que el dimetro de los hemates de los individuos cirrticos de la poblacin sigue una distribucin N (8.5, 0.36); qu porcentaje de individuos cirrticos sern declarados incorrectamente normales? d) Qu sensibilidad y especicidad tiene el test de diagnstico que acabamos de construir?

ndice

Agustn Garca Nogales


e) Si la prevalencia de la cirrosis en esa poblacin es del 10 %, determina los valores predictivos positivo y negativo del test. f) Qu ocurre con la sensibilidad y la especicidad del test de diagnstico que acabamos de disear si el error del lmite superior de normalidad es del 10 %? I.12 El contenido de una cierta sustancia por cada cpsula de un medicamento sigue una distribucin normal de media 15 mg y desviacin tpica 3 mg. a) Si la cpsula es efectiva cuando el contenido de esa sustancia es superior a 12 mg, cul es la probabilidad de que la cpsula sea efectiva? b) En un frasco de 20 unidades, cul es la probabilidad de que haya como mximo una cpsula no efectiva? c) Cul es la probabilidad de que el contenido de sustancia sea inferior a 15 mg entre las cpsulas efectivas? I.13 Se desea extraer una muestra con reemplazamiento de tamao 12 de un grupo de 60 pacientes. Para ello se numeran los pacientes desde el 00 hasta el 59 y se eligen 12 bloques consecutivos de dos dgitos de una tabla de nmeros aleatorios y se procede del siguiente modo: si el nmero obtenido est entre 00 y 59, el paciente correspondiente es elegido; si no, al nmero extrado se le resta 59 y se elige el paciente correspondiente a la diferencia. Es ste un muestreo aleatorio simple? I.14 Los 720 alumnos de un colegio han sido clasicados segn su color de pelo (claro u oscuro) y segn las notas de la primera evaluacin (aprobado o suspenso), habindose observado los siguientes hechos: 1) esas dos variables dicotmicas son independientes en esa poblacin; 2) 600 alumnos aprobaron la primera evaluacin; 3) 540 alumnos tienen el pelo oscuro. Se eligen al azar y con reemplazamiento 64 alumnos del colegio. Cul es la probabilidad de que 25 de ellos tengan el pelo claro o hayan suspendido? I.15 Para extraer una muestra de tamao 10 de una poblacin de 1500 personas, se enumeran stas desde el 0 hasta el 1499 y se preparan tres bombos de lotera con bolas

123

ndice

124

Elementos de Bioestadstica
exactamente iguales numeradas del 0 al 14 en el primer bombo y del 0 al 9 en los otros dos. Para seleccionar un individuo, se saca una bola de cada bombo y, tras anotar el resultado, las bolas son devueltas al bombo; esta operacin se repite nueve veces ms. Se trata de un muestreo aleatorio simple?

I.16 De una baraja espaola de 40 cartas se eligen 4 al azar con reemplazamiento. Denotemos por X la v.a. que describe el nmero de oros que aparecen entre esas cuatro cartas. a) Cul es la distribucin de la v.a. X ? b) Si f denota la funcin de probabilidad de la v.a. X , determina los valores f (0) y f (1).

I.17 Se considera el experimento aleatorio que consiste en extraer una carta de una baraja espaola de 40 cartas. Denotemos por X (respectivamente, por Y ) la v.a. que asigna a cada carta el palo (respectivamente, el nmero) de la misma (supongmoslas numeradas del 1 al 10, en lugar de 1, 2,...,7, 10, 11 y 12). a) Describir el espacio de probabilidad que corresponde a ese experimento aleatorio (antes de extraer una carta se baraja el mazo, de tal suerte que todas las cartas se pueden suponer equiprobables). Cul es la distribucin de probabilidad de X ? b) Son independientes las v.a. X e Y ? Nota: para probar que X e Y son independientes habr que probar que, cualesquiera que sean i =oro,copa,espada,bastos y j = 1, 2, ..., 10, P ({X = i} {Y = j }) = P (X = i)P (Y = j ); para probar que no son independientes, basta encontrar i {oro,copa,espada,bastos} y j {1, 2, ..., 10} tal que P ({X = i} {Y = j }) = P (X = i)P (Y = j ). I.18 La tabla siguiente contiene las distribuciones categorizadas por sexo de los grupos sanguneos para los individuos de una poblacin (p. ej., la probabilidad de ser varn y del grupo A es 0.352):

ndice

Agustn Garca Nogales


A Varn Mujer Total 0.352 0.054 0.406 B 0.064 0.048 0.112 AB 0.024 0.008 0.032 O 0.360 0.090 0.450 Total 0.80 0.20 1.00

125

Son independientes las v.a. que asignan a cada individuo su sexo y su grupo sanguneo? I.19 Se dispone de un tetraedro irregular cuyas caras estn numeradas del 1 al 4. Se ha comprobado que el 1 se obtiene con probabilidad 1/2, el 2 con probabilidad 1/4, el 3 con probabilidad 1/6 y el 4 con probabilidad 1/12. Se efectan dos lanzamientos independientes del tetraedro y se denota por X el resultado del primer lanzamiento y por Y el resultado del segundo lanzamiento. a) Describe el espacio de probabilidad correspondiente a ese experimento. b) Determina todos y cada uno de los sucesos elementales de los sucesos A = {X Y = 2}, B = {X + Y > 5} y C = {|X Y | = 2}. c) Decide si los sucesos A y B del apartado (b) son independientes. I.20 Imagina que queremos elegir una muestra de n personas mayores de edad en la ciudad de Badajoz para que respondan a una encuesta sobre la atencin sanitaria que reciben y que para ello salimos a la calle a las diez de la maana y pasamos la encuesta a las n primeras personas mayores de edad que nos cruzamos en un da determinado. Crees que se trata de un muestreo aleatorio simple? Justica la respuesta exponiendo diversas razones que te hagan creer eso. I.21 En una cierta poblacin, [150, 200] es un intervalo de normalidad con un error del 5 % para el nivel de colesterol en suero (en mg/dl). Supongamos que el nivel de colesterol sigue una distribucin normal. a) Determina la media y la desviacin tpica de esa distribucin. b) Qu porcentaje de individuos de la poblacin tienen nivel de colesterol superior a 225?

ndice

126

Elementos de Bioestadstica
c) Para una muestra de tamao 50 de esa poblacin, determina las distribuciones de la media y varianza muestrales. I.22 Se dispone de una moneda de la que se sabe que la probabilidad de sacar cara (=1) es 1/3 y la de sacar cruz (=0) es 2/3. a) Describe el espacio de probabilidad que corresponde al experimento aleatorio que consiste en dos lanzamientos independientes de esa moneda. b) Si X (respectivamente, Y ) es la v.a. que describe el resultado del primer (respectivamente, del segundo) lanzamiento, determina las distribuciones de las v.a. X + Y y X Y. c) Decide si las v.a. X + Y y X Y son independientes. I.23 Se dispone de una moneda con canto gordo de la que se sabe que la probabilidad de sacar cruz (=0) es 0.4, la de sacar cara (=1) es 0.4 y la probabilidad de que caiga de canto (=2) es 0.2. a) Describir el espacio de probabilidad que corresponde al experimento aleatorio que consiste en dos lanzamientos independientes de esa moneda. b) Si X (respectivamente, Y ) es la v.a. que describe el resultado del primer (respectivamente, del segundo) lanzamiento, determina la distribucin de la v.a. X + Y . c) Decide si los sucesos {X + Y 2} y {X Y = 1} son independientes. I.24 En 30 lanzamientos independientes de un dado perfecto, cul es la probabilidad de obtener 15 o menos nmeros primos? Nota: recuerda que un nmero se dice primo si no posee otros divisores que l mismo y la unidad. I.25 Un tetraedro regular tiene sus caras numeradas del 1 al 4; supongamos que el tetraedro es perfecto en el sentido de que los sucesos elementales 1, 2, 3 y 4 son equiprobables. Se lanza al aire dos veces el tetraedro y se denota por X la suma de los dos resultados obtenidos. a) Cul es la funcin de probabilidad de la v.a. X ?

ndice

Agustn Garca Nogales


b) Cul es la media de X ? c) Son independientes los sucesos A = {X es impar} y B = {X 3}? I.26 En unas elecciones a delegado de alumnos en primer curso del Grado en Medicina, se encuentran presentes 100 alumnos: 70 chicas y 30 chicos. a) Se han de seleccionar, al azar y sin reemplazamiento, dos vocales entre los alumnos. Cul es la probabilidad de que los dos vocales sean chicos? b) Decide si, en esa clase, son independientes los sucesos ser fumador y ser chica si se sabe que fuman 14 chicas y 6 chicos. Justica la respuesta. c) Se eligen al azar y con reemplazamiento 20 alumnos de la clase. Calcula la probabilidad de que 3 o ms de ellos sean fumadores. d) De los cien alumnos, 50 han pasado alguna vez por tutoras de Bioestadstica: 30 chicas, de las que 6 son fumadoras, y 20 chicos, de los que 2 son fumadores. El hecho de haber pasado por tutoras, afecta a la relacin entre los sucesos ser fumador y ser chica establecida en el apartado b)?; y a la relacin entre los sucesos ser fumador y ser chico? Justicar ambas respuestas. I.27 Un gineclogo con pocos escrpulos arma poseer un mtodo, basado exclusivamente en la exploracin visual del rostro de la embarazada, para detectar, por el mdico precio de 50 euros, el sexo del beb en la primera visita a su consulta; tanto es as que se declara dispuesto a devolver el dinero en caso de equivocacin. En realidad, se juega a cara o cruz si decidir nio o nia. Justica matemticamente por qu se le acusa de tener pocos escrpulos.

127

ndice

SEGUNDA PARTE Inferencia Estadstica

128

ndice

Cap tulo

Introduccin a la Inferencia Estadstica

129

ndice

130

Elementos de Bioestadstica

3.1.

Clculo de Probabilidades e Inferencia Estadstica

3.1.1.

Distincin entre Probabilidad y Estadstica: Parmetros de una distribucin

Hemos comentado anteriormente que el clculo de probabilidades, adems del inters que tiene en s mismo (tambin desde el punto de vista de la bioestadstica), es una herramienta fundamental para la inferencia estadstica y que la inferencia estadstica es el objetivo ltimo de este libro de bioestadstica. Recprocamente, de algn modo, la inferencia estadstica, adems de justicar la extrapolacin de las conclusiones obtenidas a partir de una muestra al resto de la poblacin de la que se extrajo, puede considerarse tambin como un paso previo para el clculo de probabilidades. Intentaremos a continuacin justicar esta armacin, al mismo tiempo que pretendemos dejar clara la diferencia entre ambas disciplinas. Formalmente, el clculo de probabilidades comienza con un espacio de probabilidad (, P ), de tal suerte que, dado un suceso A , conocemos perfectamente su probabilidad P (A); en la prctica, la dicultad en el clculo de P (A) puede estribar en la correcta identicacin del suceso A con un determinado subconjunto de , o en la habilidad de uso de las propiedades de la probabilidad. En ocasiones, el suceso A queda identicado como el conjunto de sucesos elementales para los que una cierta v.a. X : toma valores en un cierto subconjunto A , en cuyo caso P (A) = P (X A ) = P X (A ) queda perfectamente determinada por la distribucin P X de la v.a. X ; si esta distribucin es conocida (por ejemplo, binomial B (n, p) de parmetro p, o normal N (, 2 ) de parmetros y 2 ), el clculo de la probabilidad de A es sencillo, sin ms que usar la funcin de probabilidad en el caso discreto o la funcin de densidad en el caso continuo.

ndice

Agustn Garca Nogales


Por ejemplo, la distribucin binomial B (n, p) de parmetro p (n suele ser determinado de antemano por el investigador y no lo consideraremos como parmetro) ha sido introducida como la distribucin del nmero de caras en n lanzamientos independientes de una moneda si la probabilidad de sacar cara en un lanzamiento es p (o, ms generalmente, la distribucin del nmero de xitos en n realizaciones independientes de un mismo experimento si la probabilidad de xito en una realizacin del experimento es p y la de fracaso 1 p). Conocida esa probabilidad p ]0, 1[, podemos calcular la probabilidad de que una v.a. con distribucin B (n, p) tome valores en algn subconjunto de {0, 1, . . . , n} haciendo uso de la funcin de probabilidad de esa distribucin (en un ejemplo continuo como el de la normal, haremos uso de la funcin de densidad para calcular probabilidades); en la prctica, basta saber usar las tablas de la binomial y de la normal (vanse las tablas II y III al nal de este manual). Pero, en una situacin real, el parmetro suele ser desconocido, y esto es lo que diferencia el clculo de probabilidades de la inferencia estadstica; en el caso de la moneda, ante una moneda concreta, nada nos asegura a priori cul es la probabi-lidad p de sacar cara en un lanzamiento. El objetivo de la inferencia estadstica es precisamente se, obtener informacin sobre el parmetro desconocido tras una serie de realizaciones del experimento. Tras lanzar la moneda al aire n veces, anotamos el nmero k de caras obtenidas y, a partir de ese valor experimental y con el uso adecuado de la inferencia estadstica, pretendemos obtener informacin sobre el parmetro desconocido p (la probabilidad desconocida p de sacar cara). Si, tras la aplicacin del mtodo estadstico correspondiente, admitimos que la probabilidad de sacar cara es efectivamente 1/2, ya podemos de nuevo calcular probabilidades haciendo uso de la distribucin binomial. En resumen, en inferencia estadstica se suele suponer que los resultados del fenmeno aleatorio que nos interesa son valores de una cierta v.a. de cuya distribucin podemos admitir que es de un tipo conocido (binomial, normal,. . . ), pero se supone desconocida, en el sentido de que se desconocen los parmetros concretos (p, , 2 ,. . . ). El trmino parmetro se suele utilizar en estadstica para designar una cantidad obtenida a partir de la distribucin de probabilidad de la variable que nos interesa estudiar en una poblacin, como pueden ser la media o la varianza de la misma, y que, en ocasiones, determinan esa distribucin,

131

ndice

132

Elementos de Bioestadstica
como ocurre con el parmetro p de la distribucin binomial, o los parmetros y 2 de la distribucin normal. Puesto que habitualmente no tenemos acceso a toda la poblacin, rara vez podemos calcular exactamente un parmetro; pero, a partir de una muestra de la poblacin, y con la ayuda de un estadstico adecuado, es decir, de una funcin apropiada de los datos u observaciones, podemos estimar ese parmetro. Cuando slo se suponen desconocidos uno, dos o, en general, un nmero nito de parmetros de la distribucin se suele hablar de inferencia paramtrica. Pero en otras ocasiones se supone desconocido, no slo un nmero nito de parmetros de la distribucin de la v.a. que se observa, sino que tambin se supone desconocido el tipo de la distribucin de la v.a. (slo se asume, por ejemplo, que esa distribucin tiene densidad); se habla en ese caso de inferencia no paramtrica.

3.1.2.

Estructura estadstica. Estadsticos

Desde un punto de vista formal, la diferencia entre el clculo de probabilidades y la inferencia estadstica es que, mientras aquel comienza con un espacio de probabilidad (, P ) donde P es una probabilidad en , la inferencia estadstica comienza con lo que llamaremos estructura estadstica (tambin llamada espacio estadstico, experimento estadstico o, simplemente, modelo estadstico). DEFINICIN 3.1. (Estructura estadstica) Una estructura estadstica (o modelo estadstico) es un par (, P ), donde P es una familia o conjunto de probabilidades en el conjunto . Los elementos de , en este contexto, se llamarn observaciones. Observacin 3.2. A diferencia del espacio de probabilidad, la segunda componente del par que dene una estructura estadstica, en lugar de una probabilidad en , es una familia P de probabilidades en que se obtiene al considerar todos los posibles valores que pueda tomar el parmetro desconocido. Hacemos la suposicin fundamental de que P contiene la verdadera distribucin de la variable que observamos. Ejemplo 3.3. Por ejemplo, si la proporcin p de individuos que poseen una cierta enfermedad en una poblacin (a p se le llama tambin prevalencia de la enfermedad en esa poblacin) es igual a 0.35, el espacio de probabilidad asociado al nmero de individuos enfermos entre 150 extrados al azar (y con reemplazamiento) de esa poblacin es ({0, 1, . . . , 149, 150}, B (150, 0.35)). Si la prevalencia p de la enfermedad es desconocida en

ndice

Agustn Garca Nogales


esa poblacin, en lugar de ese espacio de probabilidad debemos considerar la estructura estadstica ({0, 1, 2, . . . , 148, 149, 150}, {B (150, p) : p [0, 1]}). Ejemplo 3.4. Si la distribucin de la caracterstica que nos interesa se considera normal N (, 2 ) de parmetros R y 2 > 0 desconocidos, la estructura estadstica vendra dada por = R y P = {N (, 2 ) : R, 2 > 0}. Por ejemplo, la estructura estadstica apropiada para el nivel de colesterol de un espaol elegido al azar sera (R, {N (, 2 ) : R, 2 > 0}), pues el nivel de colesterol de un espaol elegido al azar es un nmero real que se considera como valor concreto tomado por una v.a. de cuya distribucin en toda la poblacin estamos suponiendo que es normal con media y varianza 2 desconocidos. El parmetro representa el nivel medio de colesterol en toda la poblacin, mientras que la varianza desconocida 2 es una medida de la dispersin de los niveles de colesterol de los espaoles alrededor de su media. Observacin 3.5. ( ) Del mismo modo que habamos introducido el espacio de probabilidad producto podemos introducir ahora la estructura estadstica producto como la correspondiente a una muestra de tamao n de esa distribucin desconocida; por ejemplo, la estructura estadstica producto (Rn , {N (, 2 )n : R, 2 > 0}) viene a ser el modelo apropiado para el estudio de los niveles de colesterol de n espaoles elegidos al azar (y con reemplazamiento) de la poblacin. Aunque estas son cuestiones que quedan lejos de las sencillas pretensiones de este libro. DEFINICIN 3.6. (Estadstico) Un estadstico es una aplicacin X : (, P ) . Observacin 3.7. A veces se usa en inferencia estadstica una terminologa diferente a la del clculo de probabilidades para referirnos a conceptos anlogos. Por ejemplo, a los elementos de les hemos llamado sucesos elementales en clculo de probabilidades y se les suele llamar observaciones en inferencia estadstica. En clculo de probabilidades hemos llamado variable aleatoria a una aplicacin X : (, P ) , mientras que en inferencia estadstica hablamos de estadstico. As pues, un estadstico no es ms que una funcin de las observaciones. Como ejemplos concretos de estadsticos, mencionemos aqu la media y y S 2 de una muestra X1 , . . . , Xn de una distribucin real desconocida varianza muestrales X denidas como sabemos por = 1 X n
n

133

Xi
i=1

y S2 =

1 n1

n i=1

)2 (Xi X

3.1.3.

Los dos grandes problemas de la Inferencia Estadstica

As pues, la inferencia estadstica comienza con una estructura estadstica (, P ), donde es el conjunto de las observaciones o resultados posibles del fenmeno aleatorio que estudiamos y cuya distribucin suponemos desconocida; pero hacemos la hiptesis fundamental

ndice

134

Elementos de Bioestadstica
de que es una de las probabilidades de la familia P ; el objetivo de la inferencia estadstica consiste en la obtencin de informacin sobre ese parmetro desconocido haciendo uso del resultado concreto obtenido en el experimento con la intencin de tomar una decisin, que puede ser de dos tipos: dar una estimacin de ese parmetro, junto con una medida del error cometido en la estimacin, o decidir entre una hiptesis que ha sido formulada sobre el parmetro y su contraria (por ejemplo, podemos estar interesados en decidir si la probabilidad desconocida p de sacar cara es o no igual a 1/2). Eso nos conduce a los dos grandes problemas de la inferencia estadstica: la estimacin (en sus dos variantes: estimacin puntual y estimacin conjuntista) y el contraste de hiptesis. Conviene dejar claro que nunca debe tomarse como denitiva la decisin tomada a partir de la observacin , pues, debido a la naturaleza aleatoria de las observaciones, en una segunda realizacin del experimento podemos obtener otra observacin que puede dar lugar a una decisin diferente. As pues, en inferencia estadstica tomamos decisiones a partir de observaciones aleatorias y nunca podremos tener la certeza absoluta de haber acertado en la decisin tomada. Siendo la verdadera distribucin desconocida, ni siquiera tiene sentido preguntarse si en esa decisin hemos cometido o no un error; no obstante, s podemos preguntarnos por la probabilidad de cometer un error, y la mayor parte de los mtodos estadsticos que presentaremos en este texto han sido diseados con el objetivo de que la probabilidad de cometer un error sea lo ms pequea posible. Notemos, en n, que no slo la naturaleza aleatoria de las observaciones nos invita a ser cautos en la interpretacin de la decisin que nalmente tomamos sobre la distribucin desconocida que observamos; hay que ser conscientes de que esa decisin depende tambin de las suposiciones que hemos hecho para asignar un modelo estadstico (es decir, una estructura estadstica) al fenmeno aleatorio que estudiamos.

ndice

3.2.

Estimacin

3.2.1.

Estimacin puntual. Estimador

Dentro de la teora de estimacin podemos distinguir entre la estimacin puntual, que tiene como objetivo proporcionar una estimacin del parmetro desconocido, y la estimacin conjuntista (tambin llamada, en el caso ms sencillo, estimacin por intervalos de conanza), cuyo objetivo es proporcionar una idea del error cometido en la estimacin en un sentido a precisar posteriormente. En este tema haremos una primera introduccin a la estimacin puntual. DEFINICIN 3.8. (Estimador y estimacin) Si es un parmetro real desconocido de la distribucin de la variable que observamos y es el conjunto de los resultados posibles (u observaciones) del experimento, un estimador del parmetro es un estadstico T : R. Para cada resultado posible del experimento, T ( ) es una estimacin de . Observacin 3.9. Si en inferencia estadstica se pretende obtener informacin sobre la distribucin desconocida (por ejemplo, sobre un parmetro desconocido de esa distribucin) que estamos observando a partir de las observaciones, en estimacin puntual en concreto se pretende obtener una estimacin sobre un parmetro desconocido de esa distribucin, es decir, se pretende obtener a partir de las observaciones un valor aproximado de ese parmetro desconocido. Para ello buscamos un estimador del parmetro desconocido, es decir, una funcin de las observaciones que utilizaremos para obtener la estimacin concreta del parmetro. Hemos escrito la palabra aproximado entre comillas pues queremos distinguir la idea de estimacin de la de aproximacin del siguiente modo: mientras que en una aproximacin a un valor que nos interesa es posible encontrar una cota tan pequea como queramos del error cometido en la aproximacin (pensemos, p.ej., en el nmero , que habitualmente aproximamos por 3.1416, aunque tericamente es posible conseguir valores tan aproximados al nmero como deseemos), en la estimacin de un parmetro desconocido slo podemos hablar de la probabilidad de haber cometido un error de cierta magnitud, debido a la naturaleza aleatoria de las observaciones en las que se apoya la estimacin. Observacin 3.10. Nos limitaremos a presentar los estimadores usuales de ciertos parmetros que son especialmente interesantes, como pueden ser los del parmetro p de una binomial o los de la media y la varianza de una distribucin normal. Quede claro de momento que, si

135

ndice

136

Elementos de Bioestadstica
es el conjunto de las observaciones del experimento aleatorio que estamos considerando ( puede ser R si estamos interesados en una caracterstica real de los individuos de una cierta poblacin y slo seleccionamos un individuo, o = Rn si seleccionamos una muestra de tamao n de esa poblacin, o = {0, 1, . . . , n} si slo estamos interesados en el nmero de veces que ocurre un cierto suceso en n repeticiones del experimento), y si T : R es el estimador que usaremos para el parmetro , entonces, una vez realizado el experimento y observado el valor , consideraremos T ( ) como estimacin de ; si el experimento aleatorio se realiza en otra ocasin podemos obtener un resultado diferente y la estimacin T ( ) de sera distinta.

3.2.2.

Estimacin de los parmetros de una distribucin normal y de una proporcin

(a) Estimacin de la media y la varianza 2 de una distribucin normal: Para estimar la media de una distribucin normal N (, 2 ) de parmetros y 2 desconocidos a partir de una muestra X1 , . . . , Xn de tamao n de esa distribucin, utilizaremos como estimador la media muestral = 1 X n
n

Xi
i=1

Para estimar la varianza desconocida 2 , utilizaremos como estimador la varianza muestral S2 = 1 n1


n i=1

)2 (Xi X

Observacin 3.11. Por ejemplo, si asumimos que el nivel de colesterol se distribuye normalmente en una cierta poblacin, aunque con media y varianza 2 desconocidas, seleccionados n individuos al azar de esa poblacin y determinados sus niveles de colesterol x1 , . . . , xn , la media aritmtica x = (x1 + + xn )/n es una estimacin del nivel medio n 1 poblacional de colesterol y s2 = n )2 es una estimacin de la varianza i=1 (xi x 1 poblacional 2 . Observacin 3.12. ( ) La media muestral es tambin el estimador que se suele utilizar para estimar la media desconocida de otras distribuciones distintas de la normal; incluso es, desde distintos puntos de vista, el estimador de la media preferido en inferencia no paramtrica donde slo se asume de la distribucin desconocida que tiene densidad y media nita. No obstante, para cierto tipo de distribuciones es preferible el uso de otros estimadores de la media diferentes de la media muestral.

ndice

Agustn Garca Nogales


(b) Estimacin de una proporcin p (o del parmetro p de una distribucin binomial): Supongamos que estamos interesados en decidir si los individuos de una poblacin presentan o no una cierta caracterstica (son rubios o no, son altos o no,. . . suponiendo que, ante un individuo cualquiera de la poblacin, es posible determinar sin ambigedad si posee o no esa caracterstica). La proporcin p de individuos que presentan esa caracterstica se supone desconocida y es el objetivo de nuestro estudio. Para ello seleccionamos una muestra de tamao n de la poblacin y determinamos el nmero x {0, 1, . . . , n} de individuos de la muestra que poseen esa caracterstica. x se considera como una observacin particular de una v.a. X con distribucin binomial B (n, p) de parmetro desconocido p. x/n es la proporcin de individuos de la muestra que poseen esa caracterstica, y se utilizar como estimador de la proporcin desconocida p. As pues, el estimador del parmetro desconocido p de una distribucin binomial B (n, p) es la proporcin muestral p = X/n donde X es la variable que representa el nmero de individuos con esa caracterstica presentes en la muestra de tamao n. Observacin 3.13. En inferencia estadstica existen diversos criterios, que no estudiaremos aqu en detalle, a la hora de elegir el mejor estimador de un parmetro desconocido. S nos interesa destacar que los estimadores que presentaremos en esta obra son buenos estimadores desde diferentes puntos de vista. Por ejemplo, los estimadores de los parmetros , 2 y p descritos anteriormente son estimadores insesgados de mnima varianza: sin entrar en detalles, que un estimador sea insesgado signica que su media coincide con el parmetro que se quiere estimar, con el n de que las sobreestimaciones producidas por el estimador sean compensadas con las subestimaciones; y que sea insesgado de mnima varianza signica que es un estimador insesgado que posee menor varianza que la de cualquier otro estimador insesgado, lo que hace que las estimaciones, adems de insesgadas, sean lo ms precisas posibles. Una imagen fsica de lo que acabamos de decir puede ser la siguiente: imaginemos que se desea estimar el centro de una diana -que supondremos unidimensional, por simplicidadmediante disparos con una escopeta de aire comprimido, que hace las veces de estimador; los diferentes disparos -estimaciones- se sitan entorno a un valor medio, y ste ser distinto del centro de la diana cuando la escopeta sea sesgada; entre todas las escopetas insesgadas, preferiremos aquella en la que la dispersin de los disparos ha sido menor. El n 1 en el denominador de la denicin de la varianza muestral, en lugar de n que podra parecer ms natural, queda explicado por el hecho de que as la varianza muestral es un estimador insesgado de 2 .

137

ndice

138

Elementos de Bioestadstica

230

230

220

220

210

210

200

200

190

190

180

180

170

10

170

10

20

30

40

50

60

70

80

90

100

230

230

220

220

210

210

200

200

190

190

180

180

170

170
1 100 200 300 400 500 600 700 800 900 1000

100

200

300

400

500

600

700

800

900

1000

Figura 3.1: Convergencia de la media muestral a la media poblacional

ndice

Agustn Garca Nogales


Observacin 3.14. (Ley fuerte de los grandes nmeros) Los estimadores anteriores, y otros que veremos posteriormente, presentan adems un buen comportamiento asinttico (es decir, estimadores que tienen propiedades deseables cuando el tamao de la muestra se hace ms y ms grande); la Figura 3.1 recoge las medias muestrales de tamaos 1, 2, . . . , 1000 obtenidas a partir de 1000 observaciones independientes de una distribucin N (200, 252 ) que, aunque han sido obtenidas por simulacin, podran ser consideradas como los niveles de colesterol de 1000 individuos elegidos al azar de una poblacin grande en la que el nivel de colesterol tenga (aproximadamente) distribucin N (200, 252 ). Los tres primeros grcos corresponden a una misma muestra de tamao 1000 (presentando la evolucin de la media muestral hasta los tamaos 10, 100 y 1000), mientras que el cuarto grco corresponde a una segunda muestra de tamao 1000 de esa misma poblacin. No es casualidad que, cuando el tamao n de la muestra aumenta, la media muestral se aproxime a la media poblacional (200, en este caso), sino que es consecuencia de un teorema matemtico que se conoce como ley fuerte de los grandes nmeros, debida a Kolmogorov, y que, grosso modo, viene a decir que, con probabilidad 1 (que no es lo mismo que siempre, pero casi), cuando el tamao de la muestra tiende a innito, la media muestral tiende a la media poblacional. Es esa misma ley la que explica la estabilizacin de las frecuencias relativas (medias muestrales de una muestra de una distribucin de Bernoulli) de un suceso entorno a su probabilidad (media de esa distribucin de Bernoulli).

139

3.2.3.

Estimacin conjuntista. Intervalos de conanza

Los estimadores puntuales, una vez realizado el experimento aleatorio y observado un valor , nos dan una estimacin (valor aproximado) del verdadero valor del parmetro a estimar. Pero una respuesta de este tipo no es del todo satisfactoria, pues no contiene referencia alguna al error cometido en la estimacin. Ya hemos dicho anteriormente que no tiene sentido intentar buscar cotas exactas de ese error. Lo que s tiene sentido es proporcionar, alrededor de la estimacin del parmetro, un conjunto que contenga ese parmetro con probabilidad alta. ste es el objetivo de la estimacin conjuntista o estimacin por intervalos. Por ejemplo, si la caracterstica que nos interesa de los individuos de una cierta poblacin sigue una distribucin normal N (, 625) de media desconocida y varianza conocida 625 (pensar en el ejemplo del colesterol en la poblacin espaola considerado anteriormente pero ahora con varianza que se supone conocida e igual a 625), hemos propuesto como estimador de tal suerte que tras la realizacin del experimento (seleccin de de la media muestral X

ndice

140

Elementos de Bioestadstica
n espaoles al azar y medida de los niveles de colesterol de cada uno de ellos) se obtienen n
1 nmeros reales x1 , . . . , xn cuya media x = n (x1 + + xn ) (media muestral) es la estimacin

propuesta para la media poblacional . Dado un nmero real c > 0, la cuestin de si x dista de menos que c no tiene sentido, por ser desconocida. No obstante, es posible hacer armaciones de tipo probabilstico sobre ese error; por ejemplo, podemos armar que con probabilidad 0.95 el verdadero y desconocido valor del parmetro se encuentra en un cierto intervalo alrededor de la media muestral. se es un intervalo cuyos extremos dependen de la observacin obtenida en el experimento y que llamaremos intervalo de conanza para la media desconocida .

3.2.4.

Intervalo de conanza para la media de una distribucin normal de varianza conocida

Con la intencin de jar mejor los conceptos que vamos a introducir, nos interesamos en primer lugar por un problema sencillo: el de construir un intervalo de conanza para la media de una distribucin normal de varianza conocida a partir de una muestra de tamao n de esa distribucin.
2 ) de Consideremos el caso de una muestra de tamao n de una distribucin N (, 0 2 > 0 (suponer conocida la varianza mientras media desconocida R y varianza conocida 0

que la media se supone desconocida no es, en general, una situacin realista, pero, desde un punto de vista pedaggico, es una situacin lo sucientemente sencilla como para que las deniciones que presentaremos sean ms fcilmente comprensibles; suponer tambin desconocida la varianza complica algo el problema de determinar un intervalo de conanza para ).(1 ) correspondiente a una Fijemos un valor R. Sabemos que la media muestral X

2 ) tiene distribucin N (, 2 /n). muestra X1 , . . . , Xn de una distribucin normal N (, 0 0

2 ) La estructura estadstica correspondiente a una muestra de tamao n de la distribucin N (, 0

2 n considerada es, entonces, (Rn , {N (, 0 ) : R}).

ndice

Agustn Garca Nogales


Tipicando se obtiene que X X = n 0 0 / n tiene distribucin N (0, 1). Puesto que el intervalo [1.96, 1.96] concentra el 95 % de la distribucin N (0, 1), se deduce que la probabilidad de que n X est en el intervalo 0 [1.96, 1.96] es igual a 0.95. Pero decir que 1.96 es equivalente a decir que 0 0 1.96 + 1.96 X X n n por tanto, el intervalo 0 0 1.96 X , X + 1.96 n n contiene a la media con probabilidad 0.95; como eso es cierto cualquiera que sea (que lo hemos jado desde un principio), podemos armar que eso tambin es cierto para el verdadero y desconocido valor del parmetro. Se dice por ello que se es un intervalo de conanza para la media al nivel de conanza 0.95 (o al 95 % de conanza). Algo ms generalmente, haciendo uso de los cuantiles z de la distribucin normal, dado un nmero 0 < < 1 (interesa normalmente tomar valores de pequeos; el valor = 0.05 es el que habitualmente se utiliza en la literatura cientca, pero tambin suelen considerarse como valores de los nmeros 0.01 y 0.1 entre otros), el intervalo 0 0 z , X + z X n n es un intervalo de conanza para la media desconocida al nivel de conanza 1 . Observacin 3.15. Ntese que, ms que de un intervalo, se trata de una familia de intervalos: un intervalo para cada muestra x1 , . . . , xn ; el intervalo puede ser diferente de haberse extrado otra muestra. La armacin de que se es un intervalo de conanza para la media (pensar, por ejemplo, en el nivel medio de colesterol) desconocida al nivel de conanza 0.95 debe entenderse del siguiente modo: sea cual sea la media desconocida y suponiendo que el experimento de extraer una muestra de tamao n se realiza un nmero grande de veces, el 95 % de las ocasiones que extraigamos una muestra de tamao n de la poblacin obtendremos niveles de colesterol x1 , . . . , xn que dan lugar a un intervalo [ x 1.960 / n, x + 1.960 / n] X n 1.96 0

141

ndice

142

Elementos de Bioestadstica

185 175 165

rrr r r r r r r r

rr

r r r r r r r r r r r r r r rr r r r r r r r rr r r r r r r r r r r r rr r rr r r rr r r r r r r r r r r r r rr r r rr r r r r r r r r r r r r r r r r r r r rr r

Figura 3.2: Interpretacin emprica simulada del concepto de intervalo de conanza


que contiene al parmetro ; slo un 5 % de las veces que extraigamos una muestra de tamao n, la media puede quedar fuera del intervalo. As que, a menos que tengamos la mala suerte de haber obtenido una de ese 5 % de muestras conictivas, obtendremos un intervalo que contiene a la media desconocida, lo cual nos da una buena informacin sobre esta: concretando algo ms, supongamos que sabemos que, en el caso del colesterol, 2 = 625 y que n = 25 y que, tras la determinacin de los niveles de colesterol de 25 0 espaoles elegidos al azar, se ha obtenido el valor medio muestral x = 178.03; entonces, el intervalo concreto al 95 % de conanza obtenido viene a ser [178.03 1.96 5, 178.03+1.96 5] y nos queda una conanza del 95 % en que la media desconocida (el nivel medio de colesterol en Espaa) est entre los valores 168.23 y 187.83, que no es poca informacin, y nos da (con probabilidad alta) una medida del error que estamos cometiendo al estimar el nivel medio de colesterol poblacional mediante el nivel medio muestral x = 178.03. No tendra, sin embargo, sentido armar que el parmetro desconocido est en el intervalo concreto [178.03 9.8, 178.03 + 9.8] con probabilidad 0.95, y por eso decimos que tenemos una conanza del 95 % de que eso es as. Para conrmar los comentarios precedentes, se ha realizado un ejercicio de simulacin (con la ayuda de un programa estadstico) que ha consistido en la extraccin de 100 muestras de tamao 25 de una distribucin N (175, 625). La Figura 3.2 contiene los 100 intervalos de conanza correspondientes, donde se puede comprobar experimentalmente que un alto porcentaje de esos intervalos contiene a la verdadera media 175; si el nmero de realizaciones del experimento, en lugar de 100 como en este caso, tiende a , el porcentaje de intervalos que contiene a la verdadera media 175 tiende al 95 %, de acuerdo con la interpretacin frecuentista de la probabilidad. Observacin 3.16. ( ) En general, podemos dar la siguiente denicin de intervalo de conanza: Consideremos una estructura estadstica (, P ) en la que la familia de probabilidades queda descrita con la ayuda de un parmetro , es decir, P = {P : }, y que queremos estimar una funcin real del parmetro f : R. Un intervalo de conanza para f al nivel de conanza 1 es una familia de intervalos {[a( ), b( )] : } que, para cada , verica lo siguiente P ({ : a( ) f () b( )}) = 1

ndice

Agustn Garca Nogales


En el caso considerado en este tema, = Rn , = (x1 , . . . , xn ), el parmetro es la media desconocida , el espacio de parmetros es = R y f () = .

143

3.2.5.

Determinacin del tamao de muestra necesario para conseguir una cierta precisin

Continuando con el ejemplo de la seccin anterior, es claro que la informacin que proporciona el intervalo es tanto ms precisa cuanto ms pequea es su longitud, que, en este caso, es 0 2z n A la vista de esta expresin, queda claro que esa longitud depende de tres cantidades:
2 y n. Fijando dos de esas cantidades y variando la tercera se obtienen las siguientes , 0

conclusiones: 1) si deseamos una mayor conanza, tendremos que tomar valores de ms pequeos, lo que da lugar a mayores valores de z y mayor longitud del intervalo, con lo que una ganancia en la conanza supone una prdida en la precisin de la estimacin, hasta el punto de que, para conseguir un nivel de conanza del 100 %, necesitamos un intervalo
2 se ha considerado conocida, pero es evidente que de longitud innita; 2) la varianza 0

una varianza mayor hubiera dado lugar a un intervalo de mayor longitud, con lo que un aumento en la variabilidad de los datos tiene como consecuencia una menor precisin en la estimacin; 3) por ltimo, parece lgico exigir en inferencia estadstica que, al aumentar el tamao de la muestra, se consiga una mejor informacin sobre la distribucin desconocida; en el caso del intervalo de conanza eso es evidente, pues un mayor valor de n tiene como consecuencia una disminucin de la longitud del intervalo (y, por tanto, un aumento de la precisin en la estimacin). En el caso que estamos considerando (muestra de tamao n de una distribucin normal de varianza conocida) hemos podido observar que la longitud del intervalo de conanza propuesto no depende de la observacin concreta (x1 , . . . , xn ) obtenida. Eso es algo que no suele ocurrir en otras situaciones y que ahora nos permite plantear sencillamente un

ndice

144

Elementos de Bioestadstica
problema interesante siempre en inferencia estadstica: el de la determinacin del tamao de muestra n necesario para que la informacin proporcionada por la muestra sobre el parmetro desconocido sea sucientemente buena. En nuestro caso, ese problema se plantea del siguiente modo: cul es el tamao n de muestra necesario para poder garantizar con una conanza del 100 (1 ) % que la estimacin x no dista de la media desconocida ms de una cierta cantidad d > 0 jada de antemano? Se trata evidentemente de determinar n de modo que 0 z d n lo cual se consigue sin ms que tomar n z 0 d
2

Puesto que el coste de la investigacin suele aumentar con el tamao de la muestra n, conviene tomar el menor valor de n que satisface la desigualdad anterior. En la bibliografa pueden encontrarse soluciones parciales al problema del clculo del tamao de muestra para otras situaciones diferentes a la que hemos considerado aqu, aunque nosotros no estudiaremos esos casos.

3.2.6.

Cotas superior e inferior de conanza

Hasta el momento slo hemos considerado intervalos de conanza bilaterales en los que nos interesa tanto una cota inferior como una cota superior para el verdadero valor del parmetro desconocido. Eventualmente podemos estar interesados en determinar solamente una cota superior de conanza al nivel 1 . En el mismo caso de una muestra de tamao tiene distribucin considerando, ya sabemos que, jado un valor de , la media muestral X
2 /n) y, por tanto, N (, 0

2 que estamos n de una distribucin normal de media desconocida y varianza conocida 0

X n 0 X n z2 0

tiene distribucin N (0, 1); as pues, dado 0 < < 1, la probabilidad de que

ndice

Agustn Garca Nogales


es 1 . Entonces

145

0 + z2 , X n

es un intervalo de conanza unilateral para al nivel 1 . Del mismo modo, si deseamos una cota inferior de conanza, se tiene que 0 z2 X , + n es un intervalo de conanza unilateral para al nivel 1 . Observacin 3.17. (Extensin al caso no normal) Los intervalos de conanza que hemos obtenido anteriormente (no slo en esta seccin) se basan en la hiptesis de que estamos observando una muestra de tamao n de una distribucin normal; consecuencia de ello es tiene tambin distribucin normal, lo que nos ha conducido a los que la media muestral X intervalos de conanza que hemos obtenido. Nos preguntamos ahora hasta qu punto los intervalos precedentes son aun vlidos en el caso no normal. An cuando falle la hiptesis de normalidad de las observaciones, el teorema del lmite central puede garantizarnos todava cuando n es grande (a efectos prcticos, la normalidad aproximada de la media muestral X la aproximacin la venimos considerando aceptable si n 60); los intervalos precedentes proporcionan entonces un nivel de conanza aproximado de 1 .

ndice

3.3.

Contraste de Hiptesis

3.3.1.

Introduccin

En el tema anterior se ha estudiado el primer gran problema de la inferencia estadstica: estimacin. Este captulo est dedicado al otro gran problema de la inferencia estadstica: el contraste de hiptesis. Ambos problemas pretenden tomar una decisin sobre una poblacin a partir de una muestra extrada de la misma. En estimacin se pretende tomar una decisin sobre el valor de un parmetro poblacional a partir de lo observado en la muestra. En contraste de hiptesis se hace una armacin (es decir, se formula una hiptesis) sobre algn parmetro poblacional y se pretende tomar una de dos decisiones posibles a partir de lo observado en la muestra: aceptar o rechazar esa hiptesis. Un anlisis minucioso del experimento aleatorio puede conducir al investigador a la formulacin de una hiptesis cuya validez desea contrastar haciendo uso de los datos. As, por ejemplo, un mdico puede estar interesado en comparar un nuevo tratamiento para una enfermedad diseado por l con el tratamiento tradicional; o en decidir si el nivel de colesterol medio en una cierta poblacin es igual a 175 o no; o si la proporcin de individuos que posee una cierta enfermedad es 0.1 o no. Para tomar la decisin de aceptar o rechazar la hiptesis formulada, el investigador realizar lo que se llama un test de hiptesis. DEFINICIN 3.18. (Hiptesis) Una hiptesis puede denirse como una proposicin sobre la distribucin, desconocida desde el punto de vista estadstico, de la variable que observamos, normalmente relacionada con uno o ms parmetros de la misma. En un problema de contraste de hiptesis hay dos hiptesis claramente denidas: la hiptesis formulada por el investigador, que recibe el nombre de hiptesis nula y se suele denotar por H0 , y la negacin de la hiptesis nula, que llamaremos hiptesis alternativa y se denota por H1 . DEFINICIN 3.19. (Test de hiptesis) Un test para contrastar la hiptesis nula H0 contra la hiptesis alternativa H1 es un estadstico : {0, 1}. Si es el resultado

146

ndice

Agustn Garca Nogales


del experimento y ( ) = 0 aceptaremos la hiptesis nula H0 , y si ( ) = 1 aceptaremos la hiptesis alternativa H1 , lo que equivale a rechazar la hiptesis nula. Al conjunto { /( ) = 1} se le llama regin crtica del test , y al conjunto { /( ) = 0} se le llama regin de aceptacin del test . Observacin 3.20. Un test de hiptesis puede describirse como un procedimiento estadstico que nos permite tomar la decisin de aceptar o rechazar la hiptesis formulada a partir de las observaciones. En realidad, un test, ms que en forma de estadstico (dependiente, por tanto, nicamente de los datos u observaciones), suele presentarse por medio de su regin crtica (o su regin de aceptacin), de tal suerte que, una vez realizado el experimento y observado el valor , slo tenemos que comprobar si cae o no en esa regin para saber qu decisin debemos tomar. En el epgrafe siguiente se describe en varias etapas el proceso que seguiremos a la hora de resolver un problema de contraste de hiptesis. Debemos sealar aqu que el contraste de hiptesis no conduce a una demostracin de la hiptesis formulada; simplemente, indica cundo la hiptesis es o no compatible con los datos u observaciones obtenidos en el experimento.

147

3.3.2.

Cuatro etapas en la ejecucin de un test de hiptesis

El procedimiento de ejecucin de un test de hiptesis se dividir en cuatro etapas. Para jar las ideas, consideraremos un problema especialmente sencillo: el contraste de la media de una distribucin normal de varianza conocida a partir de una muestra de tamao n de esa distribucin. Supongamos que estamos interesados en la siguiente cuestin: Puede admitirse que el nivel medio desconocido de glucosa en suero en una poblacin (una ciudad, un pas,...) es igual a 90? Se ha formulado la hiptesis de que el nivel medio de glucosa es igual a 90 y se desea contrastarla. El problema puede quedar motivado por diferentes hechos: supongamos conocido, por ejemplo, que hace 20 aos, en un estudio similar en esa poblacin, se lleg a la conclusin de que el nivel medio de glucosa es igual a 90, y se desea saber si en la actualidad se puede sostener esa armacin; o bien, puede ocurrir que tengamos conocimiento de estudios en otra poblacin armando que el nivel medio de glucosa es igual a 90 y deseamos estudiar si eso tambin es as en esta poblacin. Aprovechemos este ejemplo concreto para describir los cuatro pasos del procedimiento:

ndice

148

Elementos de Bioestadstica
1) Estructura estadstica: Antes de realizar un contraste de hiptesis, jaremos un modelo estadstico (una estructura estadstica) para el experimento aleatorio que estudiamos. Para ello debemos comprender la naturaleza de los datos obtenidos en el experimento y hacer un anlisis riguroso de las condiciones en que ste se realiza, pues esa informacin ser necesaria a la hora de elegir el test que vamos a utilizar. Pensaremos normalmente que las observaciones obtenidas son valores posibles de una variable aleatoria y debe, por ejemplo, distinguirse si es una variable aleatoria discreta (por ejemplo, si cuenta el nmero de individuos que poseen una cierta caracterstica dicotmica entre n elegidos al azar) o continua (por ejemplo, si mide una cierta cantidad, como puede ser el nivel de colesterol). En inferencia estadstica diferentes suposiciones en el modelo terico (estructura estadstica) conducen a diferentes soluciones (por ejemplo, distintos intervalos de conanza en la estimacin por intervalos). En particular, en la teora de contraste de hiptesis ocurre lo mismo: un cambio en las suposiciones del modelo dan lugar a diferentes tests. Suposiciones habituales son, por ejemplo, las de independencia de las observaciones, normalidad de la distribucin de la variable que observamos, etc. Supongamos que, en el ejemplo del nivel de glucosa, se han realizado 10 mediciones a otros tantos individuos elegidos al azar de la poblacin de inters, siendo la media muestral x = 84.02. Esos diez datos se considerarn una realizacin concreta de una muestra de tamao 10 de una distribucin continua (la v.a. que observamos mide el nivel de glucosa), que supondremos normal con varianza conocida 100. La hiptesis de normalidad puede quedar justicada por estudios previos a gran escala, en que el teorema del lmite central permita suponer normalidad para la distribucin del nivel de glucosa; existen mtodos estadsticos (en este libro veremos alguno de ellos) que permiten comprobar la bondad de ajuste a una distribucin normal de los datos obtenidos. Sin embargo, no parece muy razonable suponer desconocida la media y conocida la varianza. Posteriormente veremos cmo tratar el caso de varianza desconocida; de momento son razones de tipo pedaggico las que justican la suposicin de varianza conocida (igual a 100, en este caso). 2) Hiptesis: Hay dos hiptesis involucradas en un problema de contraste de hiptesis que deben ser explcitamente establecidas. La primera es la hiptesis que desea contrastarse;

ndice

Agustn Garca Nogales


recibe el nombre de hiptesis nula y suele denotarse por H0 . La otra hiptesis es a menudo, aunque no siempre, la negacin de la hiptesis nula; se conoce como hiptesis alternativa y se denotar por H1 . Al nal del procedimiento tendremos que decidir si aceptamos la hiptesis nula o la rechazamos (lo que supondr la aceptacin de H1 ). Pero la aceptacin de una u otra hiptesis se interpretar de distinta manera. Si la hiptesis nula es aceptada diremos que los datos en los que se ha basado el test no contienen evidencias sucientes para rechazar esa hiptesis; en cambio, si se rechaza la hiptesis nula diremos que los datos no son compatibles con la hiptesis nula. En general, una decisin por H1 es ms able que una decisin por H0 . Las hiptesis para el caso del nivel de glucosa las escribiremos en forma compacta como sigue: H0 : = 90 , H1 : = 90

149

3) Estadstico de Contraste. Su distribucin bajo la hiptesis nula: El estadstico de contraste es, como cualquier estadstico, una funcin de las observaciones (datos o muestra) obtenidas; su valor depende de la muestra (otra realizacin del experimento da lugar a datos diferentes y a un valor distinto para el estadstico de contraste) y la decisin de aceptar o rechazar la hiptesis nula se basar en el valor del estadstico de contraste para los datos obtenidos. Ese valor se llamar valor o cantidad experimental. En la etapa siguiente necesitaremos conocer la distribucin del estadstico de contraste cuando la hiptesis nula se supone cierta. En el ejemplo que venimos estudiando, puesto que estamos contrastando una hiptesis sobre la media de una distribucin normal con varianza conocida y que la media muestral es un estimador del parmetro desconocido , consideraremos el siguiente estadstico de contraste: 90 X Z= 100/ 10 de y el valor que propone para que mide la discrepancia que existe entre la estimacin X la hiptesis nula. El valor experimental es zexp =
84.02 90 100/ 10

= 1.89. La distribucin del

estadstico de contraste Z , si la hiptesis nula se supone cierta, es normal de media 0 y varianza 1.

ndice

150

Elementos de Bioestadstica
4) Regla de decisin: Para tomar esa decisin, el valor del estadstico de contraste se compara con otro valor o valores, que nos proporcionan ciertas tablas estadsticas (o ciertos programas estadsticos) como las que presentamos al nal de este libro, y que dependen de la distribucin del estadstico de contraste supuesta cierta la hiptesis nula y de lo que llamaremos el nivel de signicacin que deseamos para el test. El valor o valores proporcionados por la tabla dividen el conjunto de valores posibles del estadstico de contraste en dos regiones: la regin de aceptacin y la regin de rechazo o regin crtica; si el valor del estadstico de contraste cae en la primera se aceptar la hiptesis nula y si cae en la regin crtica se rechazar la hiptesis nula. El nivel de signicacin de un test suele denotarse por la letra griega y es un nmero elegido por el investigador antes de realizar el experimento; el valor ms frecuentemente utilizado para es 0.05, aunque tambin suelen usarse otros valores como 0.01 y 0.1. Al tomar la decisin podemos cometer dos tipos de error, que nos interesa distinguir: rechazar la hiptesis nula cuando es cierta (error que suele llamarse de tipo I) o aceptar la hiptesis nula cuando es falsa (error que suele llamarse de tipo II y se denotar por ; 1 es la llamada potencia del test). H0 cierta Aceptar H0 Decisin correcta (1 ) Aceptar H1 Error de Tipo I () H1 cierta Error de Tipo II ( ) Decisin correcta (1 )

La regin crtica o de rechazo del test se elige de modo que la probabilidad de cometer un error de tipo I sea igual que el nivel de signicacin . Como es pequeo, la probabilidad de rechazar la hiptesis cuando es cierta es pequea; por tanto, cuando la decisin es rechazar, pueden darse dos casos: o bien la decisin es correcta, o bien la decisin es errnea y hemos cometido un error de tipo I, cosa que ocurre con probabilidad pequea (en el caso = 0.05, una de cada 20 veces rechazaremos por error una hiptesis nula que es cierta); por eso las decisiones por H1 se consideran ables, como hemos indicado anteriormente. En cambio, la probabilidad de cometer un error de tipo II (de aceptar H0 incorrectamente), que no es controlada por el investigador, porque no se pueden controlar simultneamente las probabilidades de los dos tipos de error, puede ser relativamente grande, aunque suele disminuir aumentando el tamao de la muestra segn veremos ms adelante. As pues,

ndice

Agustn Garca Nogales


si la decisin es aceptar H0 , tambin se pueden dar dos situaciones: o bien la decisin es correcta, o bien la decisin es errnea y se ha cometido un error de tipo II, cuya probabilidad, a tamao de muestra jo, no est controlada y podra ser eventualmente grande, lo que nos lleva a aceptar la hiptesis nula con cierta cautela, armando que los datos obtenidos no nos permiten rechazar la hiptesis nula. Una vez obtenido el valor experimental y obtenida la regin crtica del test, se decidir aceptar la hiptesis nula H0 (con reservas) si ese valor experimental no est en la regin crtica (es decir, si est en la regin de aceptacin); en ese caso se dice que el test no es signicativo al nivel . Se decidir rechazar la hiptesis nula H0 (sin reservas), o aceptar H1 , si el valor experimental est en la regin crtica; en ese caso se dice tambin que el test es signicativo al nivel . En la seccin 10.4 se presenta un ejemplo concreto para distinguir las consecuencias de los dos tipos de error considerados. En el estudio del nivel de glucosa que usamos como ejemplo, jaremos = 0.05. Necesitamos tambin determinar la regin crtica. Para ello observemos la denicin del estadstico es una estimacin de la media desconocida de contraste. Puesto que la media muestral X , valores demasiado pequeos o demasiado grandes del estadstico de contraste Z deberan hacernos pensar que la hiptesis nula no es cierta, pues si 90 fuese la verdadera media poblacional, la media muestral x = 84.02 debera estar prxima a se valor 90. Es decir, valores de Z alejados de 0 nos obligarn a rechazar la hiptesis. Cun lejos de cero debe estar el valor de Z (valor experimental) para que la decisin sea rechazar la hiptesis?: eso es algo que, como veremos, depende del nivel de signicacin elegido. De momento, lo dicho nos lleva a considerar una regin crtica (o de rechazo) para este problema de la forma 90| |X >C 100/ 10 donde C es una cierta constante que determinaremos en funcin del nivel de signicacin deseado. Puesto que hemos elegido = 0.05, se pretende que la regin de rechazo tenga probabilidad 0.05 supuesto que la hiptesis nula es cierta. Podemos preguntarnos cul es la probabilidad de tomar una muestra de tamao 10 de una distribucin N (90, 100) y obtener una media muestral tan distinta de 90 como es x = 84.02. Si esa probabilidad es pequea entindase, inferior a 0.05 rechazaremos la hiptesis nula H0 : = 90. Puesto que la regin

151

ndice

152
0,60

Elementos de Bioestadstica

0,45

0,30 -z0.05=-1.96 z0.05=1.96

0,15

0.025

REGIN DE ACEPTACIN

1.89

0.025

0,00

-3,2

-2,4

-1,6

-0,8

0,0

0,8

1,6

2,4

3,2

Figura 3.3: Regin de aceptacin del test


de rechazo tiene dos colas (es decir, tanto valores grandes como pequeos del estadstico de contraste Z nos sugieren rechazar la hiptesis nula), exigiremos que cada una de esas colas tenga probabilidad /2 = 0.025; las tablas de la distribucin normal de media 0 y varianza 1 (tabla III.1), que es la distribucin del estadstico de contraste Z si la hiptesis nula es cierta, nos proporcionan el valor C = z = 1.96 como el nmero a la derecha del cual queda un rea igual a /2 = 0.025 bajo la curva de esa distribucin normal; por simetra, el rea bajo la curva a la izquierda de z = 1.96 es de 0.025. As pues, la regin de aceptacin (ver Figura 3.3) es el intervalo [1.96, 1.96] y la regin de rechazo su complementario. Como el valor experimental zexp = 1.89 (es decir, el valor del estadstico de contraste Z para la muestra obtenida) queda dentro de la regin de aceptacin, concluimos que los datos obtenidos no presentan evidencias en contra de la hiptesis nula, lo que nos lleva a aceptar (siempre con las debidas reservas) H0 . Se dice tambin que el test no es signicativo al nivel 0.05. Observacin 3.21. Los temas siguientes estn esencialmente dedicados a la resolucin de ciertos problemas particulares de inferencia estadstica, en general, y de contraste de hiptesis, en particular. Observacin 3.22. Hemos notado anteriormente de pasada que, jado el tamao n de la muestra, no es posible controlar los dos tipos de error simultneamente. Como hemos indicado, se ja siempre pequeo y el error de tipo I queda controlado por ese valor.

ndice

Agustn Garca Nogales


Otra posibilidad que no consideraremos aqu, salvo en un caso muy simple, consiste en jar nmeros y pequeos e intentar despus determinar el tamao de muestra n apropiado para que las probabilidades de error de tipo I y tipo II queden acotadas por esos valores, respectivamente. El deseo de hacer able tambin la decisin por H0 puede tener como consecuencia un tamao de muestra excesivamente grande, lo que aumentara el coste de la experimentacin. Observacin 3.23. En general, si 0 es un nmero real dado, para el problema de contrastar la hiptesis nula H0 : = 0 contra H1 : = 0 al nivel de signicacin a partir 2 ) de media desconocida de una muestra de tamao n de una distribucin normal N (, 0 2 , utilizaremos la regin crtica y varianza conocida 0 0 | |X > z 0 / n

153

3.3.3.

Valor P o nivel mnimo de signicacin de un test

Existe otra manera de presentar los resultados de un test de hiptesis, que explicamos a continuacin. Hemos visto que la constante C = z que determina la regin crtica del test (llamada, por ello, valor crtico o valor terico del test) depende del nivel de signicacin elegido. Si disminuye, las colas de la gura disminuyen, C = z aumenta, la regin de aceptacin crece y el test seguir siendo no signicativo. Por el contrario, si aumenta, C = z disminuye, la regin de aceptacin se estrecha y el valor experimental obtenido llega a quedar fuera de la regin de aceptacin, con lo que el test pasara a ser signicativo. Esa reexin nos lleva a la siguiente denicin. DEFINICIN 3.24. (Nivel mnimo de signicacin, probabilidad de signicacin o valor P ) Llamaremos nivel mnimo de signicacin P , probabilidad de signicacin P o valor P al ms pequeo valor de para el cual se rechaza la hiptesis nula con los datos obtenidos. Observacin 3.25. Debe notarse que la probabilidad de signicacin P depende del resultado (muestra) obtenido en el experimento y debe entenderse como una medida de la disconformidad de los datos con la hiptesis nula. El valor P para un test de hiptesis es la probabilidad de obtener, cuando H0 es cierta, un valor del estadstico de contraste tan extremo o ms que el actualmente obtenido. Aadir a un trabajo de investigacin el valor P es ms informativo que decir simplemente si la hiptesis nula es o no rechazada al nivel de signicacin 0.05. En el ejemplo anterior la probabilidad de signicacin P para el valor

ndice

154

Elementos de Bioestadstica
experimental zexp = 1.89 obtenido se obtiene calculando la probabilidad que queda fuera del intervalo [-1.89,1.89] y es igual a 0.0588 (valor que se obtiene de las tablas de una distribucin normal de media 0 y varianza 1, que es la distribucin del estadstico de contraste Z si la hiptesis nula es cierta). Observacin 3.26. Conocido el nivel mnimo de signicacin P y dado el nivel de signicacin deseado se decidir por H0 si < P y por H1 si P . En ocasiones se grada la posible signicacin de un test del siguiente modo: si 0.01 P 0.05 el test se dice signicativo, si 0.001 P < 0.01 el test se dice muy signicativo y si P < 0.001 el test se dice altamente signicativo; si P > 0.05 el test es no signicativo (aunque, a veces, para valores P entre 0.05 y 0.1 se hace notar una tendencia a la signicacin).

3.3.4.

Tests unilaterales

El test considerado en el ejemplo anterior es un test bilateral o test de dos colas debido a que hay alternativas a ambos lados de la hiptesis nula;(2 ) ello tiene como consecuencia, en este caso, que la regin crtica ocupa las dos colas de la distribucin del estadstico de contraste. Un test de hiptesis puede ser tambin unilateral o de una cola en el caso de que todas las alternativas se siten a un mismo lado de la hiptesis nula; en el caso considerado, la regin crtica ocupa slo una cola de la distribucin del estadstico de contraste. La naturaleza de la cuestin planteada por el investigador determinar si se usa el test bilateral o el unilateral. Si la hiptesis nula es rechazada tanto por grandes como por pequeos valores del estadstico de contraste, el test es bilateral. Si slo grandes o slo pequeos valores del estadstico de contraste rechazan la hiptesis, el test es unilateral. El ejemplo siguiente pretende aclarar cul debe ser la hiptesis nula en el caso unilateral. Ejemplo 3.27. En el caso unilateral, se suele jar como alternativa aquella hiptesis sobre la que queremos abilidad en caso de ser aceptada. Por ejemplo, si representa el nmero medio de microorganismos por cm3 en el agua para beber y si 90 es el nmero a partir del cual el agua es declarada no potable, interesa considerar como hiptesis alternativa H1 : < 90. Con ello nos aseguramos de que sea pequea la probabilidad de cometer un error -que ser de tipo I- al declarar potable el agua; un error de tipo I de declarar potable un agua que no lo es puede tener consecuencias dramticas y por eso conviene asegurarse
2

De cualquier valor del parmetro que se encuentre en la hiptesis alternativa H1 se dice que es

una alternativa a la hiptesis nula.

ndice

Agustn Garca Nogales


de que la probabilidad de cometerlo es pequea. Sin embargo, si la decisin es aceptar la hiptesis nula de que el agua no es potable, la probabilidad de cometer un error -que en este caso ser de tipo II- no est controlada; pero las consecuencias de un error de este tipo quedan limitadas al rechazo de un agua que bien pudiera haber sido declarada potable. Conviene notar en este punto que los tests que aqu se describirn suelen proporcionar una probabilidad de error de tipo II que, a tamao de muestra jo, es lo ms pequea posible y que disminuye a medida que el tamao de la muestra tiende a , segn tendremos ocasin de comprobar ms adelante en un caso especialmente sencillo. Supongamos que la cuestin de inters para el investigador hubiera sido si H0 : 90 o, por el contrario, H1 : < 90. Sigamos los mismos pasos del caso anterior: 1) Estructura estadstica: La misma del caso anterior. 2) Hiptesis: H0 : 90 , H1 : < 90

155

3) Estadstico de contraste. Su distribucin bajo la hiptesis nula: 0 X Z= 100/ 10 y el valor experimental es zexp =
84.02 90 100/ 10

= 1.89. La distribucin del estadstico

de contraste Z es normal de media 0 y varianza 1 si la hiptesis nula es cierta. 4) Regla de decisin: En primer lugar comprobaremos si x es o no compatible con H1 . As, si la hiptesis alternativa es H1 : < 0 , debe suceder que x < 0 , pues, en otro caso, se acepta H0 directamente. Si x < 0 , jaremos el nivel de signicacin = 0.05. Necesitamos tambin determinar la regin crtica. Para ello observemos la denicin del estadstico de contraste. Puesto que la media muestral x es una estimacin de la media desconocida , valores demasiado pequeos del estadstico de contraste Z deberan hacernos pensar que la hiptesis nula no es cierta, pues, si la verdadera media poblacional fuese 90, la media muestral x = 84.02 debera ser 90 o estar prxima a 90. Es decir, valores de Z mucho ms pequeos que 0 nos obligarn a rechazar la hiptesis. Cunto ms pequeo que 0 debe ser el valor experimental es algo que depende del nivel de signicacin elegido. Lo dicho nos lleva a elegir una regin crtica o de rechazo para este problema de la forma

ndice

156

Elementos de Bioestadstica

90 X <C 100/ 10 donde C es una cierta constante que determinaremos de acuerdo con el nivel de signicacin deseado. Puesto que hemos elegido = 0.05 se pretende que la regin de rechazo tenga probabilidad 0.05 supuesto que la hiptesis es cierta; puesto que la regin de rechazo tiene una cola (es decir, slo valores pequeos del estadstico de contraste nos obligan a rechazar la hiptesis), exigiremos que esa cola tenga probabilidad = 0.05; las tablas de la distribucin normal de media 0 y varianza 1 (tabla III.1), que es la distribucin del estadstico de contraste Z si la hiptesis nula es cierta, nos proporcionan el valor C = z2 = 1.645 como el nmero a la izquierda del cual queda un rea igual a 0.05 bajo la curva de esa distribucin normal. As pues, la regin de aceptacin es el intervalo [-1.645,+[, y la regin de rechazo es su complementario. Como el valor experimental zexp = 1.89 (es decir, el valor del estadstico de contraste para la muestra obtenida) queda fuera de la regin de aceptacin, debemos concluir que los datos obtenidos no son compatibles con la hiptesis nula, lo que nos lleva a rechazar H0 . Ntese que, en este caso, el valor P es 0.0294, que es la probabilidad de que Z 1.89 supuesto conocido que la hiptesis nula H0 es cierta. Observacin 3.28. Ntese como, a pesar de haber trabajado con los mismos valores, las decisiones en los casos unilateral (rechazar la hiptesis nula) y bilateral (aceptarla) son diferentes. Por ello, hay que decidir si se va a llevar a cabo un test bilateral o unilateral antes de obtener los datos. Observacin 3.29. (Extensin al caso no normal para muestras grandes) Lo dicho anteriormente es vlido debido a la hiptesis de normalidad de las variables que estamos observando, tiene distribucin N (, 2 /n). Cuando la distribucin pues se usa que la media muestral X 0 de la variable observada no es normal pero el tamao n de la muestra es sucientemente grande (a efectos prcticos suele bastar n 60), el teorema del lmite central garantiza se distribuye aproximadamente como una normal, y todo lo dicho que la media muestral X anteriormente es aproximadamente vlido. Observacin 3.30. ( ) (Tamao de muestra necesario para detectar alternativas no muy prximas a la hiptesis nula) Hemos advertido anteriormente que no es posible controlar simultneamente las probabilidades y de los dos tipos de error a un tamao de muestra n dado, pero que aumentando este podemos hacer tambin able una decisin por H0 . Veamos de qu forma en el problema unilateral de contrastar la hiptesis nula H0 : 0

ndice

Agustn Garca Nogales


0,60

157

0,45

0,30

0,15

0,00

Figura 3.4: Errores y en un test de hiptesis


contra H1 : > 0 . Ntese que, para cada alternativa concreta 1 > 0 , podemos hablar de una probabilidad de error de tipo II (probabilidad de aceptar la hiptesis nula cuando el verdadero valor del parmetro es 1 ). De acuerdo con lo dicho anteriormente, si el valor cae fuera del intervalo ] , 0 + z2 0 /n], que es lo mismo que decir que experimental X n(X 0 )/0 > z2 , entonces se rechaza la hiptesis nula. Sea 1 una alternativa a H0 (es decir 1 > 0 ) y hagamos L = 0 + z2 0 / n. Entonces, la probabilidad de cometer un error de tipo II para esa alternativa 1 es la rayada en la gura siguiente. Se deduce de ello que tambin L = 1 z2 0 / n. Igualando ambas expresiones para L y despejando n se obtiene z2 + z2 2 2 n= 0 donde = 1 0 . As pues, tomando un tamao de muestra n como se podemos garantizar, no slo que la probabilidad de cometer un error de tipo I es inferior o igual a , sino que, adems, las probabilidades de error de tipo II para alternativas 1 que distan de la hiptesis nula 0 una cantidad superior o igual a son inferiores o iguales a (jado de antemano). La frmula obtenida para n muestra claramente que el tamao de muestra aumenta cuando disminuye, es decir, que nos veremos obligados a aumentar el tamao de la muestra si queremos distinguir de la hiptesis nula alternativas que se aproximan ms y ms a ella. Por otra parte, la tabla siguiente y la Figura 3.5 se reeren al problema de contrastar H0 : 0 contra H1 : > 0 a partir de una muestra de tamao n de una distribucin 2 = 1. normal de varianza conocida 0

ndice

158
n=9 4,0 3,5 3,0 2,5 2,0 1,5 1,0 0,5 0,0 -2,0 -1,5 -1,0 n=25 -0,5 0,0 alternativa=0,3 0,5 1,0 beta=0,56 1,5 2,0
1,5

Elementos de Bioestadstica
alternativa=0,3 beta=0,77
4,0 3,5 3,0 2,5 2,0 n=9 alternativa=0,5 beta=0,56

n=9 4,0 3,5 3,0 2,5 2,0 1,5 1,0 0,5

alternativa=0,7

beta=0,32

1,0 0,5 0,0 -2,0 -1,5 -1,0 n=25 -0,5 0,0 0,5 1,0 alternativa=0,5 beta=0,2 1,5 2,0

0,0 -2,0
4,0 3,5 3,0 2,5 2,0 1,5 1,0 0,5 0,0 -2,0

-1,5

-1,0 n=25

-0,5 0,0 alternativa=0,7

0,5 1,0 beta=0,03

1,5

2,0

4,0 3,5 3,0 2,5 2,0 1,5 1,0 0,5 0,0 -2,0 -1,5 -1,0 n=100 4,0 3,5 3,0 2,5 2,0 1,5 1,0 0,5 0,0 -2,0 -1,5 -1,0 -0,5 0,0 0,5 1,0 1,5 2,0 -0,5 0,0 0,5 1,0 1,5 2,0

4,0 3,5 3,0 2,5 2,0 1,5 1,0 0,5 0,0 -2,0 -1,5 -1,0 -0,5 0,0 0,5 1,0 1,5 2,0

-1,5

-1,0

-0,5

0,0

0,5

1,0

1,5

2,0

alternativa=0,3

beta=0,32
4,0 3,5 3,0 2,5 2,0 1,5 1,0 0,5 0,0 -2,0 -1,5

n=100

alternativa=0,5

beta=0,03

n=100 4,0 3,5 3,0 2,5 2,0 1,5 1,0 0,5

alternativa=0,7

beta=0,00

-1,0

-0,5

0,0

0,5

1,0

1,5

2,0

0,0 -2,0

-1,5

-1,0

-0,5

0,0

0,5

1,0

1,5

2,0

Figura 3.5: Potencia del test unilateral sobre una media contra diferentes alternativas para diferentes tamaos muestrales
(n, 1 ) n=9 n = 25 n = 100 1 = 0.3 0.77 0.56 0.09 1 = 0.5 0.56 0.19 0.00 1 = 0.7 0.32 0.03 0.00

En ellas se presentan la probabilidad de error de tipo II para diferentes alternativas a la hiptesis nula (concretamente, se consideran las alternativas 1 = 0.3, 1 = 0.5 y 1 = 0.7) y diferentes tamaos muestrales (concretamente, se consideran los tamaos muestrales n = 9, n = 25 y n = 100). En los distintos grcos, se representa con una lnea continua la densidad cuando = 0 y con lnea punteada la densidad de la media muestral de la media muestral X X cuando = 1 . En cada caso, la probabilidad de error de tipo I se ha jado igual a 0.05 y viene dada por el rea que queda a la derecha de la lnea vertical bajo la curva de Gauss continua, mientras que la probabilidad de error de tipo II depende del tamao de muestra y de la alternativa, y coincide con el rea que queda bajo la campana de Gauss punteada a la izquierda de la lnea vertical. Ntese como, en general, disminuye a medida que la alternativa se aleja de cero y a medida que el tamao de muestra aumenta. Observacin 3.31. (Intervalos de conanza y contraste de hiptesis) Los intervalos de conanza resultan tiles a la hora de matizar las conclusiones obtenidas por un test de hiptesis. Consideremos, por ejemplo, el problema de decidir si la media desconocida es o no igual a 90. Se trata, en concreto, de contrastar la hiptesis nula H0 : = 90

ndice

contra H1 : = 90. Si, realizado el experimento, el test descrito anteriormente proporciona signicacin, cabe preguntarse cmo de distinta es de 90 la media desconocida. Un intervalo de conanza para arrojara algo de luz sobre esa cuestin. Incluso, en el caso de que se aceptase la hiptesis nula H0 , sera conveniente presentar un intervalo de conanza para , pues ya sabemos que una decisin por H0 es menos able que una decisin por H1 y que debe entenderse ms bien como que no hemos podido rechazar la hiptesis nula. Por otra parte, el procedimiento descrito para realizar un test de hiptesis consiste en elegir un estadstico de contraste y, para este, un intervalo de aceptacin bajo H0 , comprobando despus si el valor experimental cae o no dentro de ese intervalo de aceptacin. Un procedimiento alternativo, que no estudiaremos en detalle, consistira en construir un intervalo de conanza para el parmetro desconocido y decidir si el valor propuesto por la hiptesis nula cae o no dentro de l.

159

ndice

160

Elementos de Bioestadstica

ndice

Cap tulo

Problemas de Inferencia Estadstica sobre una o dos Muestras

161

ndice

162

Elementos de Bioestadstica

4.1.

Problemas de Inferencia Estadstica sobre una Muestra

4.1.1.

Inferencia sobre la media de una distribucin normal

Ya hemos comentado anteriormente que, en el problema de contrastar la media de una distribucin normal, no es razonable suponer desconocida la media y conocida la varianza. Esa suposicin slo nos ha servido para simplicar el primer ejemplo de intervalo de conanza y de contraste de hiptesis, y para introducir conceptos como los de nivel mnimo de signicacin y de test o intervalo de conanza. Ahora supondremos que la varianza es tambin desconocida. Consideremos en primer lugar el problema de contrastar la hiptesis nula H0 : = 0 contra la hiptesis alternativa bilateral H1 : = 0 a partir de una muestra de tamao n de una distribucin normal N (, 2 ) de media y varianza desconocidas. En este caso no podemos usar el estadstico de contraste Z= 0 X / n

pues depende del parmetro desconocido , y un estadstico slo es funcin de las observaciones; utilizaremos, sin embargo, el estadstico de contraste t= 0 X n S

que se obtiene del anterior reemplazando la varianza desconocida 2 por la varianza muestral S2 =
1 n1 n i=1 (Xi

)2 . ste es un estadstico de contraste diferente del anterior y tiene X

una distribucin diferente bajo la hiptesis = 0 . La regin crtica para el problema bilateral de contrastar H0 : = 0 contra H1 : = 0 es de la forma |t| > C

ndice

Agustn Garca Nogales


s s

163

0 0

0
s

x
s

Figura 4.1: Importancia de la dispersin para el contraste de la media


(estimacin de la verdadera media poblacional pues |t| es el cociente de la distancia de X ) a 0 y un mltiplo de la desviacin tpica muestral S (que nos da una idea sobre si la y 0 es debida al azar o a que la hiptesis nula no es cierta). diferencia observada entre X es un Podemos justicar intuitivamente el uso de ese estadstico de contraste. Puesto que X 0 | es grande. estimador de , podemos pensar en rechazar la hiptesis nula = 0 si |X Si esa distancia es, por ejemplo, igual a 3, nos encontramos con el problema de decidir si 3 es o no grande. Concretamente, cabe preguntarse si esa discrepancia de 3 unidades puede quedar explicada por el azar (como ocurre en la parte de abajo de la Figura 4.1) o no (como ocurre en la parte de arriba de esa misma gura). 0 | debe compararse con una medida de la variabilidad Es por ello que la distancia |X de los datos, como hace el estadstico t, que la compara con un mltiplo de la desviacin tpica muestral. Si ese cociente es grande (es decir, mayor que una cierta constante C ) rechazaramos la hiptesis nula y si no la aceptaramos. La constante C queda tambin determinada por el nivel de signicacin elegido y por la distribucin del estadstico de contraste cuando la hiptesis nula es cierta. Esa distribucin es la llamada distribucin t de Student con n 1 grados de libertad. Por tanto, la constante C es igual a t (n 1), siendo este el valor de la tabla de la distribucin t con n 1 grados de libertad (tabla IV) para el que la regin crtica tiene probabilidad . Para resumir lo dicho, consideremos un nuevo ejemplo. Ejemplo 4.1. Supongamos que se dispone de 10 determinaciones de glucosa en suero para otros tantos individuos extrados al azar de la poblacin; estamos interesados en decidir si el valor medio de glucosa en suero para esa poblacin es o no diferente de 90. El planteamiento sugiere el uso de un test bilateral. Los cuatro pasos del procedimiento son en este caso los siguientes: 1) Estructura estadstica: Los datos obtenidos se han resumido en dos: la media muestral

ndice

164

Elementos de Bioestadstica
x = 84.02 mg/dl y la desviacin tpica muestral s = 10 mg/dl. Las 10 determinaciones constituyen una muestra aleatoria de una poblacin en la que el nivel de glucosa se supone normalmente distribuido. La varianza de esa distribucin se supone tambin desconocida. 2) Hiptesis: H0 : = 90 , H1 : = 90

3) Estadstico de contraste. Su distribucin bajo la hiptesis nula: Puesto que la varianza es desconocida, el estadstico de contraste es t= y el valor experimental es texp = 10 90 X S

84.02 90 10/ 10

contraste t es la distribucin t de Student t(9) con 9 grados de libertad, si la hiptesis nula es cierta. 4) Regla de decisin: Fijaremos el nivel de signicacin = 0.05. La regin crtica es, segn hemos dicho anteriormente, |t| > t0.05 (9)

= 1.89. La distribucin del estadstico de

donde t0.05 (9) = 2.26 (vase la tabla IV de la distribucin t de Student). Puesto que el valor experimental texp = 1.89 tiene valor absoluto menor que 2.26, podemos aceptar la hiptesis nula al nivel de signicacin = 0.05. Debe notarse aqu que cualquier hiptesis nula puede ser aceptada con slo jar un nivel de signicacin lo bastante pequeo (recurdese nuestro compromiso de elegir normalmente = 0.05). Segn se ha advertido anteriormente, es siempre conveniente proporcionar el nivel mnimo de signicacin P ; en nuestro ejemplo, la tabla IV de la distribucin t no es lo bastante precisa como para proporcionarnos el valor exacto del P . Cuando eso ocurre, proporcionaremos una cota inferior y una cota superior para ese valor P ; en el ejemplo, a la vista de la tabla, se tiene 0.05 < P < 0.1, y conviene sealar indicios de signicacin. En este ejemplo, como en el ejemplo que en la seccin 10.2 nos sirvi para introducir los cuatro pasos del procedimiento de ejecucin de un test de hiptesis, se han considerado 10 determinaciones de glucosa que dan lugar a una media muestral x = 84.02 y se desea contrastar la misma hiptesis nula = 90; la diferencia entre ambos casos es que en aquel la varianza se supone conocida e igual a 100 mientras que en ste la varianza se supone desconocida y se estima por la varianza muestral, que hemos supuesto igual a 100; ello tiene como consecuencia que el valor absoluto del valor experimental del test (1.89 en ambos casos) se compara en aquel caso con el valor z = 1.96 y en ste con el valor t (9) = 2.26, debido a que los estadsticos de contraste son diferentes y tienen bajo la hiptesis nula distribuciones diferentes; de hecho, si el valor absoluto del valor experimental hubiera sido igual a 2.1 (como hubiramos obtenido si la media muestral hubiera sido x = 83.36), la decisin hubiera

ndice

Agustn Garca Nogales


sido rechazar la hiptesis nula en el caso de varianza conocida y aceptarla en el caso de varianza desconocida. Podemos decir que el hecho de suponer desconocida la varianza nos hace ser ms cautos a la hora de considerar signicativa la discrepancia observada entre la media muestral y el valor de la media poblacional propuesto por la hiptesis nula. Observacin 4.2. (Test unilateral: varianza desconocida) Si en el ejemplo anterior hubiramos considerado el problema de contrastar la hiptesis unilateral H0 : 90 contra H1 : < 90, el procedimiento establecido nos conducira a la regin crtica unilateral t < t2 (n 1) pues toda la regin crtica est en la cola inferior y debe dar lugar a un rea bajo la densidad de la distribucin del estadstico de contraste. Anlogamente, para el problema de contrastar la hiptesis unilateral H0 : 90 contra H1 : > 90, el procedimiento nos conduce a la regin crtica unilateral t > t2 (n 1). Observacin 4.3. (Intervalo de conanza para la media de una distribucin normal de varianza desconocida) Para determinar un intervalo de conanza para la media desconocida de una distribucin normal de varianza desconocida 2 haremos uso del hecho que, supuesto que es el verdadero valor de la media, n(X )/S tiene distribucin t(n 1). Entonces, dado 0 < < 1, la probabilidad de que t (n 1) es 1 . Se deduce de ello que S S t (n 1) X , X + t (n 1) n n es un intervalo de conanza para la media desconocida al nivel de conanza 1 . Observacin 4.4. (Extensin al caso no normal para muestras grandes) Lo dicho anteriormente (tanto para el test como para el intervalo de conanza para una media) es vlido debido a la hiptesis de normalidad de las variables que estamos observando, pues se usa que tiene distribucin N (, 2 /n). Cuando la distribucin de la variable la media muestral X observada no es normal pero el tamao n de la muestra es sucientemente grande (a efectos prcticos suele bastar n 60), el teorema del lmite central garantiza que la media muestral se distribuye aproximadamente como una normal y todo lo dicho en el apartado anterior X es aproximadamente vlido, con tal de que las cantidades t (n 1) sean reemplazadas por las z de la tabla de la distribucin normal (tabla III.1). El argumento intuitivo que lo justica es que el estadstico de contraste Z = n(X 0 )/ tiene distribucin aproximada N (0, 1) si n es grande; como es desconocida se estima por la desviacin tpica muestral S. Observacin 4.5. (Intervalos de normalidad o tolerancia en el caso de parmetros desconocidos) En el tema 6 habamos considerado el intervalo [ z , + z ] como intervalo de normalidad o tolerancia para una variable con distribucin N (, 2 ) de parmetros conocidos, en el sentido de que ese intervalo contiene el 100 (1 ) % de los individuos normales X n t (n 1) S

165

ndice

166

Elementos de Bioestadstica
de la poblacin (declarando no normales los individuos que quedan fuera de ese intervalo y cometiendo el error de declarar no normales al 100 % de los individuos normales). Cuando la media y la varianza son desconocidas, podemos pensar en sustituir sus valores por sus y S 2 para obtener un intervalo de la forma [X KS, X + KS ]. La constante estimaciones X K se obtiene de la tabla XIV en funcin de tres cantidades: el tamao n de la muestra, la proporcin de individuos que queremos caiga dentro del intervalo y la conanza 1 con que se desea hacer esa armacin.

4.1.2.

Inferencia sobre la varianza de una distribucin normal

Si observamos una muestra de tamao n de una distribucin normal N (, 2 ) de media y varianza desconocidas, podemos estar interesados en contrastar una hiptesis del tipo H0 : = 0 contra la alternativa bilateral H1 : = 0 ; un problema de este tipo se presenta, por ejemplo, cuando buscamos informacin sobre la precisin de un aparato de medida, pues nos permite conrmar si la dispersin de las observaciones tomadas con ese
2 o no. Puesto que buscamos informacin sobre la varianza aparato son del orden de 0

desconocida 2 , parece razonable basar nuestra decisin en el estadstico de contraste S 2


2 (varianza muestral): valores demasiado grandes o demasiado pequeos del cociente S 2 /0

nos aconsejaran rechazar la hiptesis nula. Cmo de grande o pequeo ha de ser ese cociente para que la decisin sea el rechazo de H0 es algo que, como siempre, depender del nivel de signicacin deseado para el test y de la distribucin de S 2 bajo la hiptesis nula. Sabemos
2 ), la distribucin de que, supuesta cierta H0 (es decir, supuesto que la varianza es igual a 0 2 es la distribucin 2 (n 1) (chi-cuadrado con (n 1) grados de libertad). Dado (n 1)S 2 /0

2 ]0, 1[, denotemos por 2 (n 1) el cuantil de orden 1 de la distribucin (n 1)

(es decir, el nmero real que deja a su izquierda un rea igual a 1 bajo la densidad de la distribucin 2 (n 1)); estos valores aparecen tabulados en la tabla V. Entonces, el test
2 2 0 1/2 (n 1) 2 2 (n 1) 0 /2

al nivel para el problema considerado queda denido por la regin de aceptacin S


2

n1

n1

Por otra parte, para determinar un intervalo de conanza para la varianza desconocida 2 , usaremos el hecho de que, dado un valor 2 de la varianza, (n 1)S 2 / 2 tiene distribucin

ndice

Agustn Garca Nogales


2 (n 1); en ese caso, dado ]0, 1[, la probabilidad de que (n 1)S 2 / 2 est en el intervalo
2 [2 1/2 (n 1), /2 (n 1)] es 1 y

167

(n 1)S 2 (n 1)S 2 , 2 2 /2 (n 1) 1/2 (n 1) es un intervalo de conanza para 2 al nivel 1 . Observacin 4.6. Ntese que para los parmetros de una distribucin normal los tests y los intervalos de conanza que hemos presentado estn relacionados del siguiente modo: se acepta la hiptesis nula considerada para uno de esos parmetros si el valor propuesto por la hiptesis nula cae dentro del intervalo de conanza que hemos presentado para ese parmetro. Esa relacin entre el test y el intervalo de conanza no tendr lugar en el caso de una proporcin que estudiamos posteriormente.

4.1.3.

( ) Comprobando la normalidad: Test de normalidad DAgostino

La hiptesis de normalidad de una variable es muy frecuente en los mtodos clsicos de la inferencia estadstica y queda, a menudo, justicada probabilsticamente por el teorema del lmite central. No obstante, se han propuesto diversos tests y procedimientos grcos en la literatura que pretenden comprobar esa hiptesis a partir de una muestra. Tradicionalmente se usaba un test 2 de bondad de ajuste para ello (vase pg. 171). Aqu presentaremos un test debido a DAgostino que presenta una potencia razonable y una relativa facilidad de clculos. Sean x1 , . . . , xn los valores observados y

x(1) x(n) esos mismos valores escritos en orden creciente. El test de DAgostino se apoya en el estadstico de contraste D= n
i ix(i)

n+1 2

i xi 2 i xi ) /n]

n[

2 i xi

cuyo valor se compara con los lmites de signicacin que proporciona la tabla publicada por DAgostino (tabla VII). Valores grandes o pequeos del estadstico de DAgostino sugieren

ndice

168

Elementos de Bioestadstica
rechazar la hiptesis de normalidad. Concretamente, la tabla de DAgostino proporciona en funcin del tamao n de la muestra y del nivel de signicacin dos valores a1 (n, ) < a2 (n, ), y la hiptesis de normalidad se rechazar si el valor D experimental del test queda fuera del intervalo abierto determinado por ellos. Observacin 4.7. Los programas estadsticos habituales proporcionan otros tests para contrastar la hiptesis de normalidad, como pueden ser el test de bondad de ajuste de Kolmogorov-Smirnov que permite describir en qu medida una distribucin concreta -por ejemplo, una distribucin normal de parmetros conocidos- ajusta bien a un cierto conjunto de datos; o la modicacin de Lilliefors del test de Kolmogorov-Smirnov para el caso de parmetros desconocidos que se utiliza para contrastar la hiptesis de normalidad; o el test de Shapiro-Wilks, que resulta algo ms potente que el de DAgostino contra cierto tipo de alternativas, pero que queda seriamente afectado en el caso de datos repetidos. Zar (1999) propone un test para contrastar la hiptesis de normalidad, llamado de DAgostino-Pearson, basado simultneamente en los llamados coecientes de asimetra y de curtosis y que rechaza la hiptesis de normalidad cuando la simetra y/o la curtosis del conjunto de datos dieren bastante de las que cabra esperar en el caso normal. Observacin 4.8. Entre los mtodos grcos que se usan para comprobar a ojo la normalidad se encuentran el histograma, que ya estudiamos en el tema 1, y el grco de probabilidad normal, en el que se representan los cuantiles muestrales en el eje X frente a los correspondientes cuantiles de la distribucin normal N (0, 1), debiendo quedar los puntos as obtenidos sobre una lnea recta si el ajuste por la normal es aceptable; este ltimo grco resulta til tambin a la hora de detectar posibles datos anmalos.

4.1.4.

Inferencia sobre una proporcin

A continuacin consideramos una v.a. X con distribucin binomial B (n, p) de parmetro p desconocido, de la que se ha tomado una observacin que denotaremos por x. Fijamos un valor concreto p0 entre 0 y 1 y consideramos la hiptesis nula H0 : p = p0 . Para resolver ese problema, describiremos un test basado en la aproximacin de la binomial por la normal, para lo cual exigiremos la siguiente condicin de validez: np0 q0 5, donde q0 = 1 p0 . En ese caso cabe admitir que el estadstico p = X/n (p es la proporcin muestral) tiene, supuesta cierta la hiptesis nula, distribucin aproximada normal N (p0 , p0 q0 /n). El problema considerado se convierte en el problema de contrastar la hiptesis = p0 sobre la media de una distribucin normal, problema que ya hemos estudiado anteriormente.

ndice

Agustn Garca Nogales


Si consideramos la alternativa bilateral H1 : p = p0 , la regin crtica al nivel del test ser > z p0 q0 /n A efectos de clculo, la regin crtica suele escribirse en la forma |X np0 | > z np0 q0 Observacin 4.9. ( ) (Correccin por continuidad) En realidad, se suele utilizar en la literatura la regin crtica |p p0 |
1 2n

169

|p p0 |

p0 q0 /n

> z

o, lo que es lo mismo,

|X np0 | 0.5 > z np0 q0

donde el 0.5 del numerador es una correccin por continuidad que queda justicada por el hecho de que estamos aproximando una distribucin discreta (como es la binomial) por una continua, como es la distribucin normal, segn habamos sealado en una observacin de la pgina 100. No obstante, por simplicidad, en un libro bsico de bioestadstica, preferimos expresar la regin crtica tal y como lo hemos hecho. En el caso unilateral, comprobaremos en primer lugar si p es o no compatible con H1 . As, si la hiptesis alternativa es H1 : p < p0 , debe suceder que p < p0 , pues, en otro caso, se acepta H0 directamente. En el caso considerado, rechazaremos la hiptesis nula cuando X np0 < z2 np0 q0 donde se ha tomado el nivel crtico z2 para que la nica cola que queda tenga exactamente rea . Si queremos obtener un intervalo de conanza para el parmetro p haciendo uso de la aproximacin a la normal, exigiremos las condiciones de validez siguientes: np q 5. En esas condiciones la v.a. X tiene distribucin aproximada N (np, npq ) y, dividiendo por n, p tiene distribucin aproximada N (p, pq/n). De acuerdo con lo obtenido en el caso de la media de una normal, un intervalo de conanza aproximado para p al nivel 1 es p z p q ,p + z n p q n pq/n por

donde se han sustituido los valores desconocidos p y q en la desviacin tpica sus estimaciones p y q .

ndice

170

Elementos de Bioestadstica
Ejemplo 4.10. Con el n de comparar dos tratamientos A y B para una enfermedad, se eligen al azar 102 individuos que han recibido ambos tratamientos y se constata que 58 preeren el tratamiento A y 44 el B. Estamos interesados en decidir si esos datos presentan evidencias de que un tratamiento sea preferido al otro. Si p es la probabilidad desconocida de que un individuo de la poblacin preera el tratamiento A, la v.a. X que describe el nmero de individuos entre los 102 seleccionados que preeren ese tratamiento tiene distribucin binomial B (102, p) y deseamos contrastar la hiptesis nula p = 0.5 contra p = 0.5; se comprueba que estamos en las condiciones exigidas para usar la aproximacin normal, que el valor experimental es 1.386, lo que da un valor P superior a 0.16, y no hay evidencias de que un tratamiento sea preferido al otro. Por lo dems, un estimador de p es p = 58/102 = 0.5686 y un intervalo al 95 % de conanza para p es [0.473, 0.665]. Observacin 4.11. ( ) (Bondad de ajuste a una distribucin dada de la distribucin de una variable cualitativa) Supongamos ahora que X es una v.a. cualitativa que toma un nmero nito de valores a1 , . . . , am y que estudios precedentes arman que la distribucin de X en una poblacin viene dada por las probabilidades P (X = a1 ) = p01 , . . . , P (X = am ) = p0m ; obviamente, debe ocurrir que i p0i = 1. Queremos conrmar si las probabilidades actuales p1 , . . . , pm siguen siendo esas (o si las probabilidades p1 , . . . , pm en otra poblacin coinciden con esas), es decir, se trata de contrastar la hiptesis nula H0 : p1 = p01 , . . . , pm = p0m contra que alguna de esas igualdades no es cierta. Para ello, seleccionamos N individuos al azar y determinamos los valores de la variable para cada uno de ellos (es decir, los clasicamos en alguna de las clases disjuntas y excluyentes a1 , . . . , am ). Dado 1 i m, denotaremos por Oi el nmero de individuos observados en la clase ai ; ntese que Oi tiene m distribucin binomial B (N, pi ) y que i=1 Oi = N . Si la hiptesis nula fuese cierta, la proporcin de individuos de la clase ai sera p0i y cabra esperar que en esa clase ai hubiera Ei = N p0i individuos; tambin las cantidades esperadas verican que i Ei = N . La discrepancia entre los valores observados Oi y los esperados Ei si H0 se supone cierta nos ayudar a tomar la decisin de aceptar o rechazar esa hiptesis. Para medir esa discrepancia utilizaremos la llamada distancia 2 denida por
m

2 =
i=1

(Oi Ei )2 Ei

Valores grandes de este estadstico sugieren rechazar la hiptesis nula. Concretamente, la regin crtica al nivel es 2 > 2 (m 1) pues la distribucin del estadstico de contraste es aproximadamente la distribucin 2 (m 1) cuando se verican las siguientes condiciones de validez: ninguna de las cantidades esperadas Ei es estrictamente menor que 1 y no ms del 20 % de ellas son menores o iguales que 5. En el caso m = 2, X es una variable dicotmica y se trata en realidad de contratar la hiptesis nula p1 = p01 (pues si aceptamos esa hiptesis, deberemos tambin aceptar que p2 = p02 ya que p1 + p2 = 1 y p01 + p02 = 1). Se prueba que, en ese caso, el test coincide con el que ya hemos estudiado para contrastar una proporcin.

ndice

Agustn Garca Nogales


Observacin 4.12. ( ) (Bondad de ajuste a una distribucin dada de la distribucin de una variable cuantitativa) El test explicado en la observacin anterior se adapta sin modicacin alguna al caso de una variable cuantitativa discreta. Pero tambin se puede utilizar para contrastar que la distribucin de una variable cuantitativa sigue una distribucin dada; por ejemplo, si queremos contrastar la hiptesis de que una v.a. X tiene distribucin N (0, 1) podemos proceder del siguiente modo: (a) dividimos la recta real en un nmero nito de intervalos disjuntos a1 , . . . , am ; (b) calculamos las probabilidades p01 , . . . , p0m que la distribucin N (0, 1) asigna a cada uno de ellos; (c) se toma una muestra de tamao N de la poblacin y se determinan los valores x1 , . . . , xN de la variable X para cada individuo de la muestra; (d) para 1 i m, se determina la cantidad Oi de valores que caen en el intervalo ai . No hemos hecho nada ms que transformar una variable cuantitativa en otra cualitativa; a partir de aqu, se procede como en la observacin anterior; si se acepta la hiptesis nula, aceptaremos que la variable X tiene distribucin N (0, 1).

171

ndice

4.2.

Comparacin de dos Muestras

4.2.1.

Introduccin: muestras independientes y muestras relacionadas

Buena parte de los problemas bsicos que aparecen en bioestadstica tienen que ver con los trminos comparacin y relacin: comparacin de un mismo parmetro en dos o ms poblaciones (o la misma poblacin cuando cambian las condiciones de experimentacin) y relacin entre dos o ms variables determinadas para un mismo individuo. Esos dos trminos realmente se pueden resumir en uno solo, relacin, pues la comparacin de los valores de una misma variable en dos poblaciones no es ms que el estudio de la relacin entre esa variable y la variable cualitativa que asigna a cada individuo la poblacin a la que pertenece. Pero mantendremos la terminologa habitual. En este tema abordamos el problema de comparar dos muestras extradas de sendas poblaciones. Cabe, por ejemplo, preguntarse si dos tipos de medicamentos son igualmente efectivos, o si dos tcnicas de medida son igualmente precisas, o si la presin sangunea sistlica cambia tras la administracin de una cierta droga, etc. Usualmente, el investigador estar interesado en comprobar si las medias de las dos poblaciones son o no las mismas (ejemplo de la presin sangunea sistlica); tambin puede estar interesado en la comparacin de dos proporciones (por ejemplo, si la proporcin de personas satisfechas con la atencin sanitaria que reciben es o no la misma en Espaa que en Portugal) o en la comparacin de dos varianzas (ejemplo de la comparacin de la precisin de dos aparatos de medida). Interesa especialmente el problema de comparar dos medias o dos proporciones. Un ejemplo nos ayudar a introducir una tcnica frecuentemente utilizada en bioestadstica con el n de eliminar fuentes de variabilidad en los resultados del experimento. Imaginemos que deseamos contrastar la ecacia de un frmaco en el tratamiento de la

172

ndice

Agustn Garca Nogales


hipertensin en una cierta poblacin de individuos hipertensos. La presin sangunea sistlica (PSS) media en esa poblacin es una cierta cantidad desconocida 1 y cabe pensar que si a esa poblacin se le administrase el citado frmaco la PSS media de la poblacin quedara, en principio, modicada y pasara a ser una cierta cantidad 2 . Se pretende contrastar la hiptesis nula H0 : 1 = 2 (que viene a signicar que el frmaco no tiene efectos signicativos sobre la PSS de la poblacin) contra la hiptesis alternativa H1 : 1 = 2 . Con ese objetivo seleccionamos al azar 20 individuos de la poblacin. A partir de aqu podemos considerar dos posibles diseos del experimento: 1) Muestras independientes: La primera consiste en aplicar el frmaco a un subgrupo de 10 individuos (que llamaremos grupo de tratamiento) mientras que con los 10 restantes se forma el que llamaremos grupo de control y no recibirn el tratamiento; al cabo de un tiempo prudencial se tomar la PSS de los 20 individuos y se compararn los resultados obtenidos para ambos grupos. Se trata, en realidad, de dos muestras independientes extradas de la poblacin una de las cuales recibi el tratamiento y la otra no. 2) Muestras relacionadas: Una segunda planicacin consiste en determinar la PSS a los 20 individuos antes y despus de aplicarles el tratamiento a todos ellos. En este segundo caso los datos aparecen por parejas: PSS antes y PSS despus para cada individuo. Se habla entonces de muestras relacionadas o muestras apareadas. Bajo el primer diseo, si el test resulta signicativo admitiremos que 1 = 2 , pero puede quedarnos la duda sobre si las diferencias de tensin observadas pueden deberse a diferencias existentes a priori entre los grupos de tratamiento y control (debidas quizs a la inuencia de factores como edad, sexo,. . . ); el investigador siempre conar en que el azar distribuya los individuos de la muestra de forma anloga a como se distribuyen de hecho en la poblacin general (y eso es tanto ms as cuanto mayor es la muestra seleccionada), pero en tamaos pequeos la presencia de otros factores ajenos al tratamiento que nos interesa puede inuir en el resultado. En cambio, en el experimento relacionado la variabilidad es menor puesto que los datos aparecen por pares que han sido obtenidos del mismo individuo con lo cual, factores no considerados como edad, sexo,. . . , no repercuten en el resultado: la

173

ndice

174

Elementos de Bioestadstica
nica diferencia entre las presiones sanguneas sin y con tratamiento es el tratamiento en s, con lo cual la signicacin del test, caso de producirse, slo puede ser debida al tratamiento. Por ello, el experimento con muestras independientes suele ser discutible si es posible realizar un experimento relacionado. Observacin 4.13. (Apareamiento articial) Un apareamiento como el considerado se llama natural por que los datos de las muestras se aparean por su pertenencia a un mismo bloque natural. En otras ocasiones el apareamiento natural no es posible y se efecta un apareamiento articial. Por ejemplo, si queremos comparar dos frmacos contra la hipertensin, aplicar ambos al mismo individuo puede oscurecer los resultados de la investigacin por la superposicin de los efectos de ambos frmacos; puesto que la edad inuye en la presin sangunea sistlica (y con el objetivo de reducir la variabilidad de los datos debida al factor edad), podramos pensar en elegir n individuos al azar de la poblacin objeto de estudio y, para cada uno de ellos, elegir un individuo con su misma edad para construir un par articial. Observacin 4.14. Debe tenerse en cuenta que los dos datos de un mismo par no se pueden suponer independientes por ser mediciones realizadas en un mismo individuo; pero los pares se pueden suponer independientes entre s si la extraccin de los n primeros individuos se ha hecho realmente al azar. Observacin 4.15. (Efecto placebo y aleatorizacin) En el caso de dos muestras independientes y cuando trabajamos con seres humanos, para evitar posibles efectos psicolgicos en la variable respuesta conviene aplicar a los individuos del grupo de control (sin que estos los sepan) un tratamiento similar al que reciben los del grupo de tratamiento, pero eliminando cualquier principio activo en la medicacin utilizada; esto es lo que se conoce como efecto placebo. Por otra parte, para evitar posibles preferencias por parte del investigador, si ste ya conoce a los m + n individuos que formarn parte del estudio, conviene asignar los individuos aleatoriamente a uno u otro grupo.

4.2.2.

Comparacin de dos varianzas

Ms interesante es el problema de comparacin de dos medias, pero comenzaremos abordando el problema de contrastar dos varianzas debido, adems del inters que tiene el problema en s mismo, a que en el problema de comparar dos medias uno de los mtodos que describiremos (concretamente, el test de Student de comparacin de dos medias) hace uso de la hiptesis de igualdad de varianzas de las dos poblaciones consideradas. Esa hiptesis

ndice

Agustn Garca Nogales


podra quedar justicada si al menos, en un test de comparacin de varianzas, no hemos podido rechazar la hiptesis de homogeneidad de las mismas. (1 ) Nos situaremos en el caso de dos muestras independientes. Para describir los pasos del procedimiento descrito en el tema anterior, nos apoyaremos en el siguiente ejemplo. Ejemplo 4.16. Se desea comparar la variabilidad de dos mtodos de medida de la catalasa en teros de ratas tras dos tratamientos diferentes A y B. Para ello se han seleccionado dos grupos de 15 y 13 ratas, respectivamente, y se ha determinado la catalasa con el primer mtodo en el primer grupo y con el segundo mtodo en el segundo. Los datos del primer grupo se han resumido en su media x = 46.09 y su desviacin tpica S1 = 8.16, y los del segundo en su media y = 20.26 y su desviacin tpica S2 = 4.9. Nos preguntamos si las varianzas tras ambos tratamientos se pueden considerar iguales. Describimos a continuacin el procedimiento que seguiremos para resolver el problema: 1) Estructura estadstica: Disponemos de dos muestras x1 , ..., xm e y1 , ..., yn de dos poblaciones. Los datos se resumen en las medias muestrales x e y y en las desviaciones tpicas muestrales S1 y S2 . Supondremos que las dos muestras observadas son independientes, que la primera muestra se extrae de una distribucin normal de media
2 y que la segunda se extrae de una distribucin normal de media 1 y varianza 1 2 2. y varianza 2

175

2) Hiptesis: Consideremos primero el problema bilateral


2 2 H0 : 1 = 2

2 2 H1 : 1 = 2

3) Estadstico de contraste. Su distribucin bajo la hiptesis nula: Usaremos el estadstico de contraste F =


2 S1 2 S2

Su distribucin supuesta cierta la hiptesis nula, es la distribucin F (m 1, n 1) de Fisher con (m 1, n 1) grados de libertad.
1

Aunque algunos autores preeren el uso de un mtodo alternativo al test de Student como

pueden ser el test de Welch o el test no paramtrico de suma de rangos de Wilcoxon, que veremos ms adelante antes que realizar dos test consecutivos primero un test de comparacin de varianzas y, despus, si ste es no signicativo, el test de comparacin de dos medias, con la correspondiente propagacin del error de tipo I.

ndice

176

Elementos de Bioestadstica
4) Regla de decisin: Fijaremos el nivel de signicacin = 0.05. De acuerdo con lo dicho, la regin de aceptacin del test ser de la forma C1 F C2 pues tanto valores demasiado grandes como demasiado pequeos de F indican una diferencia signicativa entre las varianzas muestrales de ambas muestras. Las constantes C1 y C2 dependen del nivel de signicacin elegido y de la distribucin de F bajo la hiptesis nula. ste es un test bilateral y para determinar esas constantes asignaremos rea /2 a cada una de las colas, con lo que obtenemos C1 = F1/2 (m 1, n 1) = F/2 (n 1, m 1)1 y C2 = F/2 (m 1, n 1), donde F (m 1, n 1) denota el punto que deja a su derecha un rea igual a en la distribucin F (m 1, n 1), valores estos que se obtienen de la tabla VI de la distribucin F . Tngase en cuenta que esa tabla no proporciona los valores F1/2 , pues pueden calcularse haciendo uso de la relacin F1/2 (m, n) = 1 F/2 (n, m)

El test puede simplicarse obligando a la mayor varianza muestral a estar en el numerador (si fuera preciso, la primera muestra pasara a ser la segunda y la segunda pasara a ser la primera, intercambiando tambin los papeles de m y n), con lo cual el valor experimental Fexp se compara solamente con F/2 (m 1, n 1). Ejemplo 4.17. (Ejemplo 4.16, continuacin) En el ejemplo considerado, m = n = 15, y Fexp = (8.16/4.9)2 = 2.77 y F/2 (14, 12) = F0.025 (14, 12) = 3.21; puesto que Fexp F0.5/2 (14, 12), el test no es signicativo al nivel 0.05. Se comprueba que s es signicativo al nivel 0.1, con lo cual debemos sealar indicios de signicacin. Observacin 4.18. Las modicaciones a hacer en el test en el caso unilateral son obvias. Observacin 4.19. (Intervalo de conanza para el cociente de dos varianzas) Si deseamos 2 / 2 de las varianzas de dos distribuciones un intervalo de conanza para el cociente 1 2 2 2 normales notemos que, dados 1 y 2 , el cociente
2 / 2 2 /S 2 S1 S1 1 2 = 2 / 2 2 / 2 S2 2 1 2

ndice

Agustn Garca Nogales


tiene distribucin F (m 1, n 1); dado ]0, 1[, la probabilidad de que ese cociente est en el intervalo [F1/2 (m 1, n 1), F/2 (m 1, n 1)] es 1 . Se sigue de ah que un 2 / 2 es: intervalo de conanza al nivel 1 para el cociente 1 2
2 2 2 1 S1 1 S1 1 2 2 2 S2 F/2 (m 1, n 1) 2 S2 F1/2 (m 1, n 1)

177

Puesto que 1/F1/2 (m 1, n 1) = F/2 (n 1, m 1), ese intervalo de conanza se escribe en la forma siguiente:
2 2 2 S1 1 1 S1 2F 2 2 F/2 (n 1, m 1) S2 2 S2 /2 (m 1, n 1)

4.2.3.

Test t de Student de comparacin de dos medias: Muestras independientes y varianzas iguales

Estudiamos a continuacin el problema de comparacin de medias para el caso de muestras independientes y el de muestras relacionadas. Comenzamos considerando el caso de muestras independientes en el caso de que las varianzas de las dos poblaciones se suponen iguales, aunque desconocidas. Despus modicaremos el test para el caso general en que las varianzas no tienen por qu ser iguales. En cualquier caso puede ser conveniente realizar previamente el test de comparacin de varianzas de la seccin anterior antes de decidir qu suposicin vamos a hacer sobre las varianzas. Un ejemplo nos ayudar a jar las ideas. Ejemplo 4.20. La tabla siguiente contiene los niveles de potasio en tero para dos grupos de ratas: un grupo de 9 ratas que ha recibido un cierto tratamiento (T) y otro de 10 ratas que permanece como grupo de control (C). T 3786 4556 3564 4121 3890 4478 4876 3719 4324 C 3990 4655 5112 4987 4233 4354 4223 5207 4887 4775 Tabla: Niveles de potasio en dos grupos de ratas Disponemos, pues, de m + n = 9 + 10 datos x1 , . . . , xm , y1 , . . . , yn que representan los niveles de potasio en tero de las ratas consideradas y se resumen como sigue: x = 4146, y = 4642.3, S1 = 441.55 y S2 = 420.04. Suponemos que los datos constituyen dos muestras independientes de dos distribuciones normales con medias 1 y 2 y varianzas desconocidas.

ndice

178

Elementos de Bioestadstica
Las varianzas se suponen iguales a 2 (una aplicacin del test de comparacin de varianzas de la seccin anterior a los datos obtenidos resuelve que no podemos rechazar la hiptesis nula al nivel de signicacin = 0.2). Se trata de contrastar la hiptesis nula H0 : 1 = 2 contra H1 : 1 = 2 . Puesto que, bajo la hiptesis nula, las varianzas se suponen iguales, consideraremos la varianza muestral combinada S2 =
2 + (n 1)S 2 (m 1)S1 2 = m+n2 i (Xi

)2 + X

j (Yj

m+n2

)2 Y

como estimacin de la varianza comn desconocida y basaremos nuestra decisin en el estadstico de contraste Y X t= 1 1 S m +n que tiene, bajo H0 , distribucin t(m + n 2) (t de Student con m + n 2 grados de Y | como medida de la discrepancia entre libertad). Ntese que no bastara con tomar |X ambas medias, sino que esa cantidad debe compararse con la variabilidad S presentada por los datos para decidir si la diferencia observada entre las dos medias muestrales es slo debida al azar o al hecho de que las medias poblacionales son diferentes. En nuestro caso el valor experimental es texp = 2.51. Valores grandes del estadstico de contraste deben hacernos sospechar que la diferencia entre las dos medias es grande. La regin crtica al nivel = 0.05 es, entonces |t| > t (m + n 2) La tabla de la distribucin t de Student para el caso de 17 grados de libertad (tabla IV) proporciona un valor 0.01 < P < 0.05, es decir, la diferencia entre los niveles de potasio comparados es signicativa.

4.2.4.

Test de Welch de comparacin de dos medias: Muestras independientes y varianzas distintas

Si el test de comparacin de varianzas es signicativo, las varianzas no se pueden considerar iguales y no se conoce ninguna solucin exacta al problema; pero s disponemos de soluciones aproximadas. El test de Welch que describimos a continuacin es una de ellas. Ese test propone el estadstico de contraste t= Y X
2 S1 m

2 S2 n

ndice

Agustn Garca Nogales


2 y 2 conocidas, el estadstico de contraste natural Si hubisemos supuesto las varianzas 1 2

179

hubiera sido

Y X
2 1 m

2 2 n

y el propuesto por Welch lo nico que hace es reemplazar las varianzas desconocidas por las varianzas muestrales. La regin crtica propuesta por Welch es |t| > t (f ) donde el nmero f de grados de libertad a considerar es f=
2 /m + S 2 /n)2 (S1 2
2 /m)2 (S1 m1

2 /n)2 (S2 n1

valor que no tiene por qu ser un entero; suele aproximarse f por el entero ms prximo. Ejemplo 4.21. (Ejemplo 4.20, continuacin) Supongamos que en una situacin anloga a la del ejemplo precedente, tuvisemos los siguiente valores: m = 30, n = 40, x = 4146, y = 4642.3, S1 = 441.55 y S2 = 250.04. En este caso, el test de comparacin de varianzas resulta muy signicativo (necesitamos las tablas de la distribucin F (29, 39) y slo aparecen las tablas de las distribuciones F (29, 30) y F (29, 40), pero en ambos casos el valor experimental Fexp = 3.11 es mayor que el valor crtico F0.005 , por lo que tambin Fexp > F0.005 (29, 39)). El valor experimental del test de Welch es t = 2.97; con las notaciones precedentes, f = 12.37 y el valor P correspondiente est entre 0.01 y 0.02 (haciendo uso de la tabla IV de la distribucin t, eso es lo que ocurre tanto para 12 grados de libertad como para 13). Si se desea calcular el valor terico t0.05 (f ), mejor que aproximar por el entero ms prximo a f (12, en nuestro ejemplo), es hacer una interpolacin lineal para aproximar t0.05 (f ) como se explica en la pgina 97 a partir de los valores t0.05 (12) y t0.05 (13). Observacin 4.22. (Tests unilaterales) Slo hemos descrito los tests de Student y de Welch en el caso bilateral. Las modicaciones que deben hacerse en los mismos en el caso unilateral son obvias. Por ejemplo, si bajo la hiptesis de igualdad de varianzas se pretende contrastar la hiptesis nula H0 : 1 2 contra la alternativa unilateral H1 : 1 > 2 , la regin crtica del test de Student sera Y X t= > t2 (m + n 2) 1 1 S m +n El punto crtico es ahora t2 (m + n 2) pues slo consideramos una cola a la derecha que debe tener rea . Observacin 4.23. (Intervalos de conanza para la diferencia de medias) Si alguno de los tests precedentes de comparacin de dos medias resulta signicativo, cabe preguntarse cmo de diferentes son las medias 1 y 2 . Si las varianzas fuesen conocidas, el hecho de

ndice

180

Elementos de Bioestadstica
Y tiene distribucin normal de media 1 2 y varianza ( 2 /m) + ( 2 /n) prueba que X 1 2 que un intervalo de conanza para 1 2 al nivel de conanza 1 es Y ) z 1 2 ( X
2 1 2 + 2 m n

Puesto que la hiptesis de suponer conocidas las varianzas no es razonable, un intervalo de conanza para 1 2 al nivel de conanza 1 es Y ) t (m + n 2)S 1 2 (X en el caso de que las varianzas se supongan iguales, y Y ) t (f ) 1 2 (X
2 S1 S2 + 2 m n

1 1 + m n

si las varianzas no se suponen iguales, donde f es el nmero de grados de libertad que proporciona el test de Welch. Observacin 4.24. (Variables no normales) Los mtodos estadsticos anteriores han sido obtenidos bajo la hiptesis de normalidad. Si las variables observadas no siguen una distribucin normal, pero los tamaos m y n de las muestras son sucientemente grandes (valores 60 suelen ser aceptables en la prctica) se prueba que las medias muestrales siguen aproximadamente una distribucin normal y los mtodos descritos son aproximadamente vlidos, slo que deben reemplazarse las cantidades t de las tablas de la distribucin t de Student por las z correspondientes a la distribucin normal (tabla III.1).

4.2.5.

( ) Test no paramtrico de suma de rangos de Mann-Whitney-Wilcoxon de comparacin de dos muestras independientes

Los tests anteriores de comparacin de dos medias en el caso de muestras independientes estn basados en la hiptesis de normalidad (tanto en el caso de varianzas iguales como en el de varianzas desiguales). Describimos a continuacin un test no paramtrico para el problema de comparacin de dos muestras independientes en el caso de que la hiptesis de normalidad no est bien justicada (es incluso un buen competidor de los tests precedentes en el caso normal): es el test de suma de rangos de Wilcoxon, tambin llamado test de

ndice

Agustn Garca Nogales


Mann-Whitney. Se habla de test no paramtrico para aludir al hecho de que, a diferencia de lo que ocurra en el caso normal, el test no est relacionado con parmetros concretos de las poblaciones consideradas. Se dispone de m + n nmeros reales x1 , . . . , xm , y1 , . . . , yn , que suponemos realizaciones concretas de dos muestras independientes X1 , . . . , Xm e Y1 , . . . , Yn de la distribucin de una misma caracterstica numrica en dos poblaciones (o en una misma poblacin cuando cambian las condiciones en que se realiza el experimento). Se trata de contrastar la hiptesis nula de que la distribucin comn de las X s coincide con la distribucin comn de las Y s.

181

Observacin 4.25. ( ) Para concretar algo ms la hiptesis nula, necesitaremos el concepto de funcin de distribucin: Si X es una v.a.r. en un espacio de probabilidad (, P ), se dene su funcin de distribucin F como la aplicacin F : x R F (x) = P (X x); se prueba que dos v.a.r. tienen la misma funcin de distribucin si, y slo si, tienen la misma distribucin de probabilidad. En el problema de contraste de hiptesis que consideramos, suponemos que las distribuciones de las X s y las Y s slo se diferencian, quiz, en la posicin; es decir: si la funcin de distribucin comn a las Xi es F1 y la funcin de distribucin comn a las Yj es F2 , se supone que existe R tal que F1 (x) = F2 (x + ), para cada x R, con lo que F2 se obtiene desplazando la funcin de distribucin F1 una cantidad . Finalmente, la hiptesis nula H0 se puede escribir en la forma H0 : F1 = F2 , o, lo que es equivalente, H0 : = 0. Supondremos en lo que sigue que m n (cambinse las muestras de orden en otro caso). Esos m + n valores se ordenan de menor a mayor para obtener la muestra combinada en orden creciente u1 um um+1 um+n (1)

Supongamos en primer lugar que los valores obtenidos son dos a dos distintos (se dice entonces que no hay empates). Se asignan rangos a cada uno de los elementos de la primera muestra del siguiente modo: el rango R1 de x1 es la posicin que ocupa el valor x1 en la muestra combinada (1), . . . , el rango Rm de xm es la posicin que ocupa el valor xm en la muestra combinada (1). Denotaremos por R la suma de los rangos correspondientes a los valores de la primera muestra, es decir, R = R1 + + Rm . Que R sea demasiado grande signica que las xi tienen tendencia a ser mayores que las yj pues tienden a aparecer a la derecha en la sucesin reordenada (1); que R sea demasiado pequeo signica que las xi

ndice

182

Elementos de Bioestadstica
tienen tendencia a ser menores que las yj pues tienden a aparecer a la izquierda en la sucesin reordenada (1). En ambos casos deberamos rechazar la hiptesis nula. Cmo de grande o de pequeo tiene que ser R es algo que depende, como siempre, del nivel de signicacin que deseamos para el test y de la distribucin del estadstico de contraste bajo la hiptesis nula. Esa distribucin aparece tabulada para valores pequeos de m y n: la tabla VIII proporciona dos valores vi () y vs () separados por un guin para m + n 30 y para diferentes valores de ; si el valor de R obtenido se encuentra en el intervalo abierto ]vi (), vs ()[ determinado por esos dos valores, se acepta la hiptesis nula al nivel de signicacin , y se rechaza en otro caso. En el caso m + n > 30 no podemos usar la tabla VIII de la distribucin de Wilcoxon, pero podemos utilizar la aproximacin normal del siguiente modo: la media de R bajo la hiptesis nula es E(R) = (m + n + 1)m/2 y su varianza es Var(R) = (m + n + 1)mn/12, y la hiptesis nula se rechaza si |R E(R)| Var(R) > z

Lo dicho es vlido en el caso de que no haya empates. Supongamos ahora que hay r grupos de empates en la muestra combinada y reordenada (1) con t1 empates en el primer grupo,. . . , tr empates en el r-simo grupo. A cada dato en un grupo de empates se le asignar el rango medio de los rangos que corresponderan a los datos de ese grupo si estos fueran distintos; por ejemplo, si x1 = 2, x2 = 5, x3 = 1, x4 = 2, x5 = 4, y1 = 1, y2 = 6, y3 = 2 e y4 = 3, la sucesin reordenada es 1 1 2 2 2 3 4 5 6, y hay dos grupos de empates, uno con dos elementos y otro con 3 elementos; el rango del valor 1 es (1 + 2)/2 = 1.5 y el rango del valor 2 es (3 + 4 + 5)/3 = 4, con lo que R1 = 4, R2 = 8, R3 = 1.5, R4 = 4, R5 = 7.(2 ) Se determina la suma R de los rangos de los elementos de la primera muestra. Si m + n 30 se busca en la tabla VIII de la distribucin de Wilcoxon y, si m + n > 30, se utiliza la aproximacin normal como lo hemos hecho antes, pero teniendo en cuenta que ahora Var(R) =
2

(m + n)[(m + n)2 1] 12(m + n)

r i=1 Ti

mn m+n1

En general, si el primer grupo de empates en (1) comienza con el dato uk1 , entonces uk1 =

uk1 +1 = = uk1 +t1 1 y a ese valor comn se le asigna rango [k1 + (k1 + 1) + + (k1 + t1 1)]/t1 =
1 k1 + 2 (t1 1).

ndice

Agustn Garca Nogales


donde Ti = t3 i ti , 1 i r (E(R) es ahora igual que antes). Ejemplo 4.26. (Ejemplo 4.20, continuacin) Con los datos de la tabla 12.1, los rangos de los datos de la primera muestra son 3,12,1,6,4,11,15,2 y 9, respectivamente, con lo que se obtiene una suma de rangos R = 63. Para = 0.05, la tabla VIII muestra que el intervalo ]vi (), vs ()[ es igual a ]65, 115[ y, para = 0.01, es ]58, 122[. Luego 0.01 < P < 0.05. Observacin 4.27. ( ) (Tests unilaterales) El test de suma de rangos de Wilcoxon se puede utilizar para contrastar la hiptesis unilateral de que los datos de la primera muestra tienen tendencia a ser menores que los de la segunda, o viceversa. Para ello reemplazaremos por 2 en la forma habitual. As, para contrastar la hiptesis nula unilateral de que la primera variable tiene tendencia a tomar valores menores que la segunda al nivel , rechazaremos dicha hiptesis si R vs (2) en el caso m + n 30, y, en el caso m + n > 30, si R E(R) > z2 Var(R) Para contrastar la hiptesis nula unilateral de que la primera variable tiene tendencia a tomar valores mayores que la segunda al nivel , rechazaremos dicha hiptesis si R vi (2) en el caso m + n 30, y si R E(R) < z2 Var(R) en el caso m + n > 30. Observacin 4.28. ( ) (Correccin por continuidad) En realidad, se suele utilizar tambin en este caso una correccin por continuidad debido a que la distribucin de R es discreta y se est aproximando por una distribucin continua como es la normal; la regin crtica quedara expresada en la forma (|R E(R)| 0.5)/ Var(R) > z aunque los argumentos utilizados en una observacin de la pgina 169 son tambin aplicados aqu para justicar la supresin de esa correccin.

183

4.2.6.

Test t de Student de comparacin de dos medias en el caso de muestras relacionadas

Supongamos que elegimos n individuos alcohlicos al azar y que medimos sus presiones sanguneas sistlicas antes (variable X ) y despus (variable Y ) de dos meses de haber dejado la bebida. Se desea contrastar la hiptesis nula de que no varan las presiones medias antes

ndice

184

Elementos de Bioestadstica
y despus de dejar el alcohol contra la hiptesis bilateral de que s varan. A partir de los n pares (xi , yi ), 1 i n, obtenidos calcularemos los valores diferencia di = xi yi , 1 i n, y en su varianza muestral S 2 . La media de la variable que sern resumidos en su media D D diferencia D = X Y es 1 2 ; supondremos que la diferencia D tiene distribucin normal
2 . La hiptesis a contrastar H : = se puede con media D = 1 2 y varianza D 0 1 2

escribir tambin en la forma H0 : D = 0 con lo que, considerando la variable diferencia, el problema queda reducido al de contrastar la hiptesis de que la media de una distribucin normal de varianza desconocida es nula, problema que ya fue resuelto en el tema anterior. El test se basar en el estadstico de contraste t= D D = n SD SD / n

2 es la varianza muestral calculada a partir de d , . . . , d , y la regin crtica al nivel donde SD 1 n

ser |t| > t (n 1) ste es el llamado test de Student para muestras relacionadas. El caso unilateral se trata de la forma habitual. Un intervalo de conanza para la diferencia de medias es t (n 1)SD / n D = 1 2 D Observacin 4.29. (Caso no normal) Si la hiptesis de normalidad de la variable diferencia D no se verica, pero el nmero de pares es mayor o igual que 60, podemos asumir que D tiene distribucin aproximadamente normal y todo lo dicho es aproximadamente vlido.

4.2.7.

( ) Test no paramtrico de rangos con signo de Wilcoxon de comparacin de dos muestras relacionadas

Dadas m parejas de datos como en la seccin anterior, si no podemos asumir normalidad de las diferencias, se puede utilizar el test de rangos con signo de Wilcoxon. Para ello se obtienen las m diferencias entre las componentes primera y segunda de cada par, se rechazan

ndice

Agustn Garca Nogales


las diferencias nulas (supongamos que hay n diferencias no nulas) y se ordenan de menor a mayor los valores absolutos de las diferencias restantes; se asignan despus rangos a las diferencias no nulas en la forma habitual y se calculan las sumas R(+) y R() de los rangos correspondientes a las diferencias positivas y negativas, respectivamente. Ntese que basta calcular una de esas sumas, pues R(+) + R() = n(n + 1)/2. Supongamos primero que n 100. Para el test bilateral, rechazaremos la hiptesis nula si R(+) o R() es menor o igual que el valor crtico bilateral T (n) que proporciona la tabla IX de la distribucin T de Wilcoxon para muestras relacionadas. En el problema unilateral de contrastar la hiptesis nula de que los valores de la variable X son menores o iguales que los de la variable Y contra que aquellos son mayores que estos, rechazaremos la hiptesis nula si R() T2 (n). En el problema unilateral de contrastar la hiptesis nula de que los valores de la variable X son mayores o iguales que los de la variable Y contra que aquellos son menores que estos, rechazaremos la hiptesis nula si R(+) T2 (n). Si n > 100, utilizaremos que R(+) (el resultado sera exactamente el mismo si utilizamos R() en lugar de R(+)) tiene aproximadamente distribucin normal de media E(R(+)) = n(n + 1)/4 y varianza Var(R(+)) = n(n + 1)(2n + 1)/24 si no hay empates, y Var(R(+)) = 2n(n + 1)(2n + 1) 48
r i=1 Ti

185

si hay r grupos de empates con ti datos en el i-simo grupo de empates, donde Ti = t3 i ti . Se compara el estadstico Var(R(+)) con z en el caso bilateral; en el caso unilateral se compara el valor de Z con z2 en la forma habitual. Observacin 4.30. ( ) (Correccin por continuidad) Tambin ahora deberamos incluir una correccin por continuidad (no lo haremos por el motivo expuesto en la observacin de la pgina 169) en el estadstico de contraste, que quedara expresado en la forma Z= |R(+) E(R(+))| 0.5 Var(R(+)) Z= |R(+) E(R(+))|

ndice

186

Elementos de Bioestadstica

Ejemplo 4.31. La tabla siguiente contiene los niveles de colesterol de catorce hombres mayores de 30 aos tomados antes y dos horas despus de desayunar. Antes Despus Antes Despus 180 180 184 202 195 185 183 203 175 190 187 182 190 210 192 207 192 192 198 193 185 200 193 199 188 208 210 219

Las diferencias entre los datos antes y despus son 0, 10, 15, 20, 0, 15, 20, 18, 20, 5, 15, 5, 6 y 9. Escribiendo las 12 diferencias no nulas en orden creciente de sus valores absolutos obtenemos 5, 5, 6, 9, 10, 15, 15, 15, 18, 20, 20, 20 Entonces R(+) = 1.5 + 1.5 + 5 = 8 y R() = 3 + 4 + 7 + 7 + 7 + 9 + 11 + 11 + 11 = 70. En la tabla IX se observa que T0.05 (12) = 13. Puesto que R(+) 13, debemos admitir que hay una diferencia signicativa entre los niveles de colesterol antes y despus del desayuno. Puesto que T0.01 (12) = 9 y T0.001 (12) = 4, esa diferencia es muy signicativa (0.001 < P < 0.01). Si a esos datos aplicamos el test t de Student para muestras relacionadas obtenemos un valor P entre 0.01 y 0.02.

4.2.8.

Comparacin de dos proporciones: muestras independientes

En esta seccin consideramos dos observaciones x1 y x2 de sendas variables X1 y X2 independientes con distribuciones respectivas B (n1 , p1 ) y B (n2 , p2 ) de parmetros p1 y p2 desconocidos, y pretendemos contrastar la hiptesis nula de que esos dos parmetros son iguales. Consideremos un ejemplo concreto. Ejemplo 4.32. En dos centros de salud A y B de la ciudad de Badajoz se han seleccionado al azar n1 = 173 y n2 = 86 individuos varones mayores de 14 aos, respectivamente, a los que se ha pasado un cuestionario diseado por Altisent y otros con el n de decidir quines de ellos son bebedores de riesgo, habindose obtenido que x1 = 50 del centro de salud (CS) A y x2 = 10 del centro de salud B lo son. Nos preguntamos si estos datos son compatibles con la hiptesis nula de que la proporcin de bebedores de riesgo es la misma en ambos centros de salud. Las proporciones de bebedores de riesgo para los centros A y B son parmetros desconocidos p1 y p2 (de los que lo nico que conocemos a priori es que son nmeros entre 0 y 1). x1 (respectivamente, x2 ) se considera una realizacin concreta de una v.a. X1

ndice

Agustn Garca Nogales


(respectivamente, X2 ) con distribucin binomial B (173, p1 ) (respectivamente, B (86, p2 )). Las proporciones muestrales son p 1 = x1 /n1 = 50/173 = 0.29 y p 2 = 10/86 = 0.12, y cabe preguntarse si ambas son distintas por azar o porque en un centro de salud hay ms bebedores de riesgo que en el otro. Conviene poner los datos en forma de una tabla 22 como sigue: Bebedor de riesgo No bebedor de riesgo x1 = 50 n1 x1 = 123 x2 = 10 n2 x2 = 76 x1 + x2 = 60 n1 + n2 x1 x2 = 199 Tabla 22 Consideraremos el problema bilateral de contrastar la hiptesis nula H0 : p1 = p2 contra la alternativa H1 : p1 = p2 en el caso de que la aproximacin a la normal es vlida. En ese caso sabemos que p 1 tiene distribucin aproximada N (p1 , p1 q1 /n1 ) y que p 2 tiene distribucin aproximada N (p2 , p2 q2 /n2 ), donde qi = 1 pi , i = 1, 2. La independencia de las muestras prueba que la distribucin aproximada de p 1 p 2 es N p1 p2 , p 1 q1 p 2 q2 + n1 n2 Totales n1 = 173 n2 = 86 N = 259

187

CS A CS B Totales

con lo cual, bajo H0 : p1 = p2 , p 1 p 2 tiene distribucin aproximada N (0, pq (1/n1 + 1/n2 )) donde p = p1 = p2 y q = 1 p. Por analoga con lo dicho para el caso de una muestra de la distribucin normal, para comparar p1 con p2 cabe pensar en la cantidad |p 1 p 2 |/ pq (1/n1 + 1/n2 ). Siendo el parmetro p desconocido, lo sustituiremos por una estimacin del mismo. Bajo la hiptesis nula, disponemos de dos estimaciones posibles, p 1 y p 2 , para p. Para no perder informacin, ser preferible usar una media ponderada de ambos, es decir, p = n1 p 1 + n2 p 2 x1 + x2 = n1 + n2 n1 + n2

As pues, la regin crtica del test es: |p 1 p 2 | p q


1 n1

> z

1 n2

ndice

188

Elementos de Bioestadstica
Observacin 4.33. ( ) (Correccin por continuidad) Teniendo en cuenta la correccin por continuidad (que no consideraremos por los motivos expuestos en una observacin de la pgina 169), la regin crtica se expresara en la forma |p 1 p 2 | p q
1 2 1 n1

1 n2

> z

1 n1

1 n2

El test obtenido es doblemente aproximado, pues se usa la aproximacin de la binomial por la normal y la sustitucin de p por su estimacin y, sin embargo, el test funciona bastante bien en la prctica. Las condiciones de validez del test son las siguientes: n1 p q , n2 p q 5. Por analoga con lo dicho en otras ocasiones, un intervalo de conanza para la diferencia de proporciones es p1 p2 ( p1 p 2 ) z p 1 q 1 p 2 q 2 + n1 n2

Se exigen las condiciones de validez n1 p 1 q 1 , n2 p 2 q 2 5 para que la aproximacin por la normal sea aceptable. Ejemplo 4.34. (Ejemplo 4.32, continuacin) Aplicado el test al ejemplo considerado, se obtiene signicacin (P = 0.0026), es decir, los datos no son compatibles con la hiptesis nula de que las proporciones de bebedores de riesgo son iguales en ambos centros de salud. Por otra parte, un intervalo al 95 % de conanza para la diferencia de proporciones es [0.07, 0.27]. Se comprueba que se verican las condiciones de validez exigidas en ambos casos.

4.2.9.

Test de McNemar de comparacin de dos proporciones: muestras relacionadas

Consideramos ahora el problema de comparacin de dos proporciones relacionadas. Este problema consiste en lo siguiente: se eligen al azar n individuos de la poblacin y se exige de cada uno de ellos un par de respuestas entre dos valores posibles, que pueden ser 0 y 1, o S y NO, etc. Se trata de decidir si los porcentajes de respuestas de un tipo (0, pongamos por caso) coinciden para las dos cuestiones formuladas. Veamos un ejemplo aclaratorio.

ndice

Agustn Garca Nogales


Ejemplo 4.35. Con el n de comparar las preferencias de los individuos de una poblacin sobre la sanidad pblica y la sanidad privada, se disea el siguiente experimento relacionado: se seleccionan al azar 125 individuos de la poblacin y se les invita a pronunciarse a favor (S) o en contra (NO) de cada uno de esos dos modelos sanitarios. Se obtienen de ese modo 125 pares de ses y/o noes. Como slo hay cuatro tipos de respuestas posibles ((S,S),(S,NO),(NO,S),(NO,NO)) es ms apropiado recoger los datos como se hace en la tabla siguiente:

189

Sanidad Privada

S NO Totales

Sanidad S n11 = 27 n21 = 43 70

Pblica NO n12 = 35 n22 = 20 55

Totales 62 63 125

Tabla. Entrada de datos para un test de McNemar

Si p1 y p2 denotan las proporciones poblacionales (desconocidas) de respuestas S a la primera cuestin (a favor de la sanidad privada, en el ejemplo) y a la segunda (a favor de la sanidad pblica, en el ejemplo) respectivamente, se trata de contrastar la hiptesis nula H0 : p1 = p2 contra H1 : p1 = p2 . Pero p1 es suma de p11 (proporcin de respuestas S-S) y p12 (proporcin de respuestas S-NO), y p2 es suma de p11 (proporcin de respuestas S-S) y p21 (proporcin de respuestas NO-S). Entonces p1 p2 = p12 p21 , y el problema anterior es equivalente al de contrastar H0 : p12 = p21 contra H1 : p12 = p21 . Esas proporciones no contemplan a los individuos con respuesta homognea (S-S o NO-NO), los cuales no ayudan a distinguir entre los dos tipos de atencin sanitaria considerados. Retendremos por tanto, los n12 + n21 individuos con respuesta dispar. Denotemos por p la probabilidad de que un individuo con respuesta dispar sea del tipo S-NO, y por X12 la v.a. que describe el nmero de individuos S-NO entre los que tienen respuesta dispar; entonces X12 tiene distribucin B (n12 + n21 , p). Pero si H0 : p12 = p21 es cierta, ser p = 1/2. Por tanto, el test anterior es equivalente al test para una proporcin H0 : p = 1/2 contra H1 : p = 1/2. En el caso de que la aproximacin a la normal sea aceptable (exigiremos para ello que n12 + n21 20), y la regin crtica al nivel del test viene a ser (n12 + n21 )(1/2)(1/2) n12
n12 +n21 2

> z

ndice

190

Elementos de Bioestadstica
o, multiplicando numerador y denominador del estadstico de contraste por 2, |n n21 | 12 > z n12 + n21 El test recibe el nombre de test de McNemar. Comprubese que, en nuestro ejemplo, no hay evidencias de que un modelo sanitario sea preferido al otro en la poblacin de referencia. Observacin 4.36. ( ) (Correccin por continuidad) Con la correspondiente correccin de continuidad, la regin crtica se escribira en la forma |n12 n21 | 1 > z n12 + n21 pero los motivos expuestos en una observacin de la pgina 169 tambin son considerados aqu. Un intervalo de conanza usado habitualmente para la diferencia de proporciones en el caso relacionado es: p1 p2 1 (n12 n21 ) z n (n12 + n21 ) (n12 n21 )2 n

vlido si n12 , n21 > 5. En el ejemplo, el intervalo al 95 % de conanza que se obtiene es [0.2, 0.07].

ndice

Verdadero o Falso? Captulos 3 y 4


Decidir si cada una de las proposiciones siguientes es verdadera (V) o falsa (F), justicando la respuesta. 3-4.1 En un test de hiptesis, un error de tipo I se comete cuando se rechaza incorrectamente la hiptesis nula. 3-4.2 En un contraste sobre la media de una distribucin normal de varianza conocida, si la varianza aumenta el valor P del test aumenta. 3-4.3 Supongamos conocido que para contrastar la hiptesis = 0 contra = 0 a partir de una muestra de una distribucin normal se ha obtenido un nivel mnimo de signicacin P = 0.07. Entonces, el nivel mnimo de signicacin para el problema de contrastar 0 contra > 0 es igual a 0.035. 3-4.4 Si realizamos un test de hiptesis a un nivel ]0, 1[ y la decisin es aceptar la hiptesis nula H0 , podemos asegurar con una conanza del (1 ) 100 % que la decisin tomada es correcta. 3-4.5 Si deseamos realizar un test de hiptesis a un nivel ]0, 1[ y conocemos el nivel mnimo de signicacin P , aceptaremos la hiptesis nula al nivel si < P . 3-4.6 En un contraste sobre la media de una distribucin normal de varianza conocida, si el tamao muestral aumenta y la media muestral permanece constante, el nivel mnimo de signicacin del test disminuye. 3-4.7 En un test de hiptesis, un error de tipo II se comete cuando se acepta incorrectamente la hiptesis alternativa. 3-4.8 La longitud del intervalo de conanza para la media de una distribucin normal aumenta con el tamao de la muestra. 3-4.9 Un estadstico es una funcin de las observaciones que, eventualmente, puede depender tambin del parmetro.

191

ndice

192
3-4.10

Elementos de Bioestadstica
La longitud del intervalo de conanza para la media de una distribucin normal de varianza conocida decrece a medida que aumenta la varianza.

3-4.11

En estadstica, una hiptesis es una armacin sobre la distribucin desconocida de la variable que observamos.

3-4.12

Diferentes estructuras estadsticas para un mismo problema real y unos mismos datos conducen siempre a una misma decisin estadstica.

3-4.13

Un estimador de un parmetro desconocido es una funcin de los datos y del parmetro en cuestin.

3-4.14

El nivel mnimo de signicacin de un test es la probabilidad de obtener un valor de la variable que observamos tan extremo o ms que el realmente obtenido supuesta cierta la hiptesis nula.

3-4.15

Se observa una muestra de tamao n de una distribucin normal con varianza conocida. Cualquier diferencia, por pequea que sea, entre la media muestral y el valor de la media propuesto por la hiptesis nula puede terminar siendo signicativa si n es lo sucientemente grande (y el valor de la media muestral permanece constante).

3-4.16

Si un test de hiptesis rechaza la hiptesis nula, queda demostrado que esta es falsa.

3-4.17

Si en el problema de comparacin de dos medias de dos distribuciones normales la hiptesis nula es H0 : 1 2 , la hiptesis nula se rechazar siempre que la media muestral de la primera muestra sea estrictamente mayor que la de la segunda.

3-4.18

La longitud del intervalo de conanza para el cociente de dos varianzas de dos distribuciones normales en el caso de muestras independientes aumenta con el nivel de conanza 1 deseado.

3-4.19

Con el objetivo de comparar dos medicamentos A y B para el tratamiento de una enfermedad, se seleccionan al azar 100 enfermos de los cuales 60 reciben el medicamento A y los 40 restantes el B. La comparacin se llevar a cabo a partir del nmero

ndice

Agustn Garca Nogales


de enfermos que sanan en cada caso. Se trata, en realidad, de un problema de comparacin de dos medias en el caso de muestras independientes. 3-4.20 Para comparar las presiones sanguneas de los brazos izquierdo y derecho de las personas de una cierta poblacin es posible y preferible un experimento relacionado. 3-4.21 ( ) El estadstico de contraste del test de Mann-Whitney-Wilcoxon de comparacin de dos muestras independientes no utiliza exactamente los valores de los datos obtenidos: slo hace uso de las posiciones que ocupan los datos de la primera muestra en la muestra combinada y reordenada. 3-4.22 Un test de McNemar no signicativo a un nivel de signicacin ]0, 1[, puede ser signicativo al nivel de signicacin /2. 3-4.23 Si el test de comparacin de dos varianzas de dos distribuciones normales resulta signicativo a un nivel de signicacin ]0, 1[, entonces sigue siendo signicativo para cualquier nivel de signicacin superior a . 3-4.24 ( ) En el test de Wilcoxon de homogeneidad de dos muestras relacionadas, la varianza del estadstico R(+) (suma de los rangos de las diferencias positivas en la muestra reordenada de los valores absolutos de las diferencias no nulas) disminuye a medida que aumenta el nmero de empates. 3-4.25 Supongamos que en un test de McNemar se tiene que n12 > n21 , y que n12 (nmero de respuestas (SI,NO)) aumenta en la misma cantidad en que disminuye n21 (nmero de respuestas (NO,SI)). Entonces el valor P del test tambin aumenta. 3-4.26 ( ) En un problema de comparacin de dos muestras relacionadas en ausencia de normalidad, la suma de los rangos de las diferencias positivas del test de Wilcoxon toma el valor 25. Sabiendo que el nmero de diferencias no nulas es igual a 18, el test resulta no signicativo. 3-4.27 Cuanto mayor es la longitud del intervalo de conanza sobre un parmetro real desconocido de una distribucin, menor es la informacin que proporciona sobre el mismo.

193

ndice

Problemas de los Captulos 3 y 4


3-4.1 Se desea decidir si existen diferencias entre las presiones sanguneas de las personas cuando estn sentadas en una silla y cuando estn tumbadas en una cama. a) Qu diseo consideras preferible para tomar esa decisin: el de muestras independientes o el de muestras relacionadas? Justicar la respuesta. b) Toma nalmente la decisin asumiendo normalidad y teniendo en cuenta que, tras elegir diez personas al azar y determinar sus presiones sanguneas en ambas posiciones, se han obtenido los siguientes resultados: Persona Sentado Tumbado 1 142 154 2 100 100 3 112 110 4 92 100 5 104 112 6 100 100 7 108 120 8 94 90 9 104 104 10 98 114

3-4.2 La anemia por deciencia de hierro es un importante problema de salud nutricional. Un estudio ha sido realizado con 51 chicos de entre 9 y 12 aos cuyas familias estn por debajo del nivel de pobreza. El consumo medio diario de hierro obtenido para esos chicos es de 12.50 mg con una desviacin estndar de 4.75 mg. Supongamos conocido que el consumo medio diario de hierro en una poblacin ms grande de chicos de entre 9 y 12 aos es de 14.44 mg. a) Contrasta al nivel = 0.05 la hiptesis de que el consumo medio de hierro en el grupo de bajo consumo es menor que el de la poblacin general, aclarando las suposiciones que se hacen para resolver esa cuestin. b) Cul es el valor P para ese test? 3-4.3 Se formula la hiptesis de que la probabilidad de que una mujer haya tenido su primer hijo con 30 o ms aos es superior entre las mujeres que han desarrollado un cncer de mama que entre las que no lo han desarrollado, lo que vendra a establecer una asociacin positiva entre el hecho de desarrollar un cncer de mama y la edad con que la mujer tiene su primer hijo. Se ha realizado un estudio internacional para contrastar esa hiptesis y se han obtenido los siguientes datos: 683 de un total de 3220 mujeres

194

ndice

Agustn Garca Nogales


con cncer de mama seleccionadas al azar tuvieron su primer hijo con una edad 30, y 1498 de un total de 10245 mujeres sin cncer de mama seleccionadas al azar tuvieron su primer hijo con una edad 30. Avalan estos datos la hiptesis formulada? Realiza un test apropiado para justicar la respuesta. Solucin: Pg. 342 3-4.4 Con el objeto de estudiar la posible inuencia del uso de anticonceptivos en la presin sangunea sistlica (PSS) se seleccionan al azar 10 mujeres y se determinan sus PSS un mes antes de empezar a tomar anticonceptivos (variable X ) y seis meses despus de ello (variable Y ), obtenindose los siguientes datos: Mujer nm. PSS Antes (X ) 1 2 3 4 5 6 7 8 9 10

195

115 112 107 119 115 138 126 105 104 115

PSS Despus (Y ) 128 115 106 128 122 145 132 109 102 117 a) Puede suponerse que las PSS antes siguen una distribucin normal? Justica la respuesta aplicando un test apropiado aadiendo el valor p. b) Asumiendo normalidad, contienen esos datos evidencia de que el tratamiento inuye realmente en la PSS? Presenta un intervalo al 95 % de conanza para la diferencia de PSS medias antes y despus. 3-4.5 Con el objeto de estudiar la relacin entre el uso de anticonceptivos y la malformacin del nio al nacer se llev a cabo un estudio caso-control seleccionando 1430 madres de nios malformados; para cada una de esas mujeres (casos) se seleccion como control una madre de un nio sin malformaciones de la misma edad maternal, obteniendo de este modo 1430 pares de mujeres en las que la primera es madre de un nio con malformaciones y la segunda tuvo un hijo sin malformaciones a la misma edad que la primera. Todas esas mujeres respondieron a la cuestin de si haban tomado anticonceptivos antes de la concepcin del nio en cuestin. Los resultados obtenidos se recogen en la siguiente tabla

Control

ndice

196
SI Caso SI NO 39 138

Elementos de Bioestadstica
NO 154 1099

Existe alguna relacin entre el uso de anticonceptivos y la malformacin de los nios al nacer? 3-4.6 Se desean comparar dos tratamientos quirrgicos para el cncer de mama: mastectoma simple (S) y mastectoma radical (R). Se han formado pares de mujeres con cncer de mama dentro de la misma dcada y con similares condiciones clnicas, y cada una de ellas ha recibido un tratamiento diferente. Se ha monitorizado su supervivencia dentro de los 5 aos siguientes, habindose obtenido los resultados siguientes (V=vivi al menos 5 aos, F=falleci antes de los cinco aos): Par S R Par S R 1 F V 16 F F 2 V F 17 V F 3 V V 18 V V 4 V V 19 V F 5 V F 20 V F 6 F V 21 V V 7 V V 22 V F 8 V F 23 V F 9 V F 24 F V 10 V F 25 V F 11 F F 26 V V 12 V F 27 V F 13 V V 28 V F 14 V F 29 V V 15 V F 30 V F

Qu test deberamos utilizar para analizar estos datos? Qu conclusiones nos proporciona ese test sobre los dos tratamientos comparados? Solucin: Pg. 342 3-4.7 La tabla siguiente contiene determinaciones en tero de catalasa (CAT) y malondialdehido (MDA) de 14 ratas. Rata CAT MDA Rata CAT MDA 1 51.6 24.8 8 47.6 22.8 2 48.7 25 9 40.6 22.9 3 42.6 23.8 10 49.5 20.6 4 38 23.5 11 42 24 5 50.1 27.2 12 55.1 24.7 6 60.2 21.3 13 46.2 23.2 7 41.3 24.2 14 52.1 25.1

ndice

Agustn Garca Nogales


a) Calcula media, mediana y varianza de cada una de las variables CAT y MDA. b) Usa el test de DAgostino para contrastar su normalidad. 3-4.8 Una muestra aleatoria de 50 personas presenta una contenido medio de glucosa en suero de 100 mg/dl. Supongamos conocido que el contenido de glucosa sigue una distribucin normal con varianza conocida 2 = 100. a) Contrasta la hiptesis nula H0 : 90 contra > 90. b) Determina un intervalo al 95 % de conanza para la media poblacional. c) Determina el tamao de muestra necesario para reducir la longitud del intervalo de conanza al 95 % a la tercera parte. 3-4.9 La tabla siguiente contiene las presiones sanguneas sistlicas (PSS) de un grupo de ratas normotensas y otro de hipertensas. Normotensas 114 104 97 102 108 112 100 121 99 109

197

111 115 114 105 104 107 Hipertensas 128 135 130 120 126 140 133 132 139 150

a) Podemos asumir normalidad en ambos grupos? b) Podemos asumir la igualdad de varianzas de los dos grupos? c) Asumiendo normalidad e igualdad de varianzas, son las PSS de los dos grupos de ratas signicativamente diferentes? d) Proporciona un intervalo al 99 % de conanza para la diferencia de medias. e) ( ) Un test no paramtrico modicara la decisin tomada en el apartado c)? Solucin: Pg. 342 3-4.10 Compara las calicaciones en los grupos S = 0 y S = 1 de la tabla 0.1 (pgina 12). 3-4.11 Se ha llevado a cabo un estudio dental en nios de 4 aos en dos centros de salud de una ciudad, uno situado en el centro de la misma y otro en una zona suburbana. Se han tomado dos muestras de tamaos 110 y 85, respectivamente, de esas poblaciones

ndice

198

Elementos de Bioestadstica
habindose observado que 90 entre los del primer grupo y 80 de los del segundo no posean ninguna caries. a) Son signicativas las diferencias observadas entre los dos grupos? b) Facilita un intervalo de conanza para la diferencia de proporciones.

3-4.12 En un estudio sobre 193 pares de mellizos se observaron 56 casos en los que ambos eran varones y 65 casos en que ambos eran hembras. (a) Avalan esos datos la hiptesis de que observar una pareja de distinto sexo en parejas de mellizos es menos probable que observar una pareja del mismo sexo? Facilita en este caso un intervalo de conanza adecuado al resultado obtenido. (b) Entre las parejas de mellizos del mismo sexo, alguno de los dos sexos es ms frecuente que el otro? Comenta el P -valor del test utilizado. Solucin: Pg. 342 3-4.13 Este problema est basado en la tabla 0.24 del tema 1. Asumiremos que las calicaciones de los 100 alumnos considerados provienen de una distribucin normal. a) Haz uso de una tabla de nmeros aleatorios para extraer una muestra de tamao 15 de la clase. b) A partir de los datos de esa muestra, estima la media y la desviacin tpica de la variable N suponiendo que sta sigue una distribucin normal, y proporciona intervalos a 95 % de conanza para esos parmetros. c) Estima a partir de esa misma muestra las proporciones de hombres y mujeres en la clase y proporciona intervalos al 95 % de conanza para esos parmetros. d) Sostienen esos 15 datos la hiptesis de que la calicacin media es 6.13? Y la de que la desviacin tpica es 2.14? e) Compara las calicaciones medias de chicos y chicas en ese examen parcial y proporciona un intervalo de conanza para la diferencia de medias. f) Contrasta la hiptesis de normalidad de las calicaciones de esos alumnos. g) Da una estimacin del porcentaje de aprobados en ese primer parcial.

ndice

Agustn Garca Nogales


3-4.14 Para comparar dos antibiticos A y B en el tratamiento de una cierta enfermedad, se seleccionan 79 parejas de personas con esa enfermedad procurando que los dos componentes de un mismo par sean similares en dos aspectos que se han considerado relevantes para el estudio: no se diferencien en ms de cinco aos y tengan el mismo sexo. Tras una semana de tratamiento se obtuvieron los siguientes datos: para 40 parejas ambos tratamientos fueron exitosos, para 20 parejas el tratamiento A fue efectivo pero el B no, para 16 parejas fue efectivo el B pero no el A, y para las 3 restantes no fueron efectivos ninguno de los dos tratamientos. a) Contrasta la hiptesis nula de que ambos tratamientos son igualmente efectivos. b) Proporciona un intervalo de conanza para completar la conclusin del test anterior. 3-4.15 De 65 muertes ocurridas entre trabajadores varones de centrales nucleares con edad comprendida entre 55 y 64 aos de edad, 25 fueron debidas a algn tipo de cncer. (a) Estima la proporcin de muertes por cncer para ese tipo de trabajadores y proporciona un intervalo al 95 % de conanza para ella; interpreta los resultados obtenidos. (b) Si es conocido, por las estadsticas de mortalidad de la poblacin general, que el 20 % de las muertes de varones entre 55 y 64 aos de edad son atribuibles al cncer, podemos armar que el hecho de trabajar en una central nuclear incrementa el porcentaje de muertes por cncer? Justica la respuesta realizando un test apropiado y comentando la conclusin. Solucin: Pg. 342 3-4.16 Se lleva a cabo un estudio para contrastar el efecto del etanol en la dilatacin de los vasos sanguneos de la retina tras la aplicacin de metanol. Se aplica metanol (1 g/Kg) por va nasogstrica a 9 caballos y se cuentan las venas de la retina que se han dilatado. Dos semanas despus se repite el experimento con la diferencia de que, 30 minutos despus de la aplicacin del metanol, se aplica una dosis oral de etanol (1.4 g/Kg). La tabla siguiente recoge los datos del estudio. Aplica un test paramtrico para decidir si el etanol produce algn efecto en el nmero de venas retinales dilatadas. Facilita tambin un intervalo al 95 % de conanza adecuado y comenta las conclusiones del

199

ndice

estudio. Nm. caballo Metanol Metanol+etanol 1 10 6 2 9 5 3 7 5 4 10 1 5 7 6 6 4 7 7 8 5 8 4 5 9 10 7

200

ndice

Cap tulo

Comparacin de Varias Muestras

201

ndice

202

Elementos de Bioestadstica

5.1.

Comparacin de Varias Muestras Cuantitativas: Modelo de Clasicacin Simple en Anlisis de la Varianza

5.1.1.

Comparacin de varias medias: muestras independientes y varianzas iguales

Consideremos un ejemplo que nos ayude a introducir el que llamaremos modelo de clasicacin simple en anlisis de la varianza, o modelo de anlisis de la varianza de una va. Ejemplo 5.1. Se sospecha que cierto tipo de dolores tras una pequea intervencin quirrgica pueden aliviarse con slo administrar un medicamento, potente o no. Un grupo de 15 pacientes a los que se acaba de extirpar las amgdalas son divididos en 3 grupos de 5 individuos: al primero de ellos se le aplica un analgsico A, a otro un analgsico B y al tercero un placebo. Se determina el tiempo en horas hasta que el paciente se queja de dolor. La tabla siguiente contiene los resultados de la experiencia: Placebo A B 2.2 2.8 1.1 0.3 1.4 4.2 1.1 1.7 3.8 2.0 4.3 2.6 3.4 4.3 0.5

Se pretende decidir si el tiempo medio transcurrido es el mismo para los 3 tratamientos considerados o existen diferencias signicativas entre al menos dos de ellos. En general, el problema es el siguiente: se supone que estamos interesados en comparar el efecto producido por k tratamientos sobre el valor medio (desconocido desde el punto de vista estadstico) de una cierta caracterstica numrica de una poblacin; la media quedara afectada por el tratamiento aplicado, pasando a ser un valor i tras haber recibido el i-simo tratamiento, 1 i k . Estas nuevas medias poblacionales son parmetros desconocidos pero, en principio, diferentes unos de otros. Precisamente, el objetivo del

ndice

Agustn Garca Nogales


problema es contrastar la hiptesis nula H0 : 1 = = k contra la alternativa H1 : i = j , para algn i y j de que al menos dos de las medias son diferentes. Rechazar la hiptesis nula indicara que no todos los tratamientos considerados son iguales, en tanto que una decisin por la hiptesis nula nos indicara que, a la luz de los datos, no es posible rechazar la hiptesis de homogeneidad de las medias. Con ese objetivo se eligen al azar N individuos de la poblacin que se dividen aleatoriamente en k grupos de tamaos n1 , . . . , nk (que obviamente deben sumar N ), aplicando a cada subgrupo un tratamiento diferente. Observacin 5.2. Los trminos una va o clasicacin simple se reeren al hecho de que slo se estudia la inuencia sobre la media de un factor que acta a k niveles diferentes (en el ejemplo, el nico factor que se considera en el estudio es el tratamiento contra el dolor aplicado, factor que acta a tres niveles; ningn otro factor, tal como las condiciones en que se realiza la intervencin, sexo u otras que pudieran parecer relevantes para el problema, es tenido en cuenta). El modelo de clasicacin simple en anlisis de la varianza se conoce tambin como diseo completamente aleatorio con efectos jos. El trmino diseo completamente aleatorio se reere al hecho de que no se ha hecho ningn intento de aparear unidades experimentales de las distintas muestras. El trmino efectos jos alude al hecho de que el experimentador selecciona especcamente los niveles del factor implicado, pues son estos los niveles que interesan, y no se seleccionan al azar de un grupo ms grande de niveles posibles. Los datos obtenidos de la experimentacin se denotarn por xij , 1 j ni , 1 i k , cantidades que se suponen observaciones concretas de variables Xij que supondremos independientes y normalmente distribuidas con varianza comn 2 (varianza desconocida que se supone no afectada por el nivel del factor); se supone que Xij tiene media i (desconocida y dependiente del nivel i del factor). Podemos pensar tambin que se disponen de k muestras independientes Nivel del factor Observaciones 1 X11 . . . X1n1 k Xk1 . . . Xknk

203

ndice

204
Necesitaremos los siguientes estadsticos: i = 1 X ni
ni j =1

Elementos de Bioestadstica

Xij = media muestral para el nivel i-simo, 1 i k


k ni

= 1 X N

Xij = media muestral combinada


i=1 j =1

Ntese que en las notaciones precedentes, el punto sustituye al ndice sobre el que se calcula la media. La siguiente identidad (que llamaremos identidad de la suma de cuadrados para el modelo de clasicacin simple), y que se prueba sin dicultad, es clave en la resolucin del problema:
k ni k k ni

i=1 j =1

)2 = (Xij X

i=1

i X )2 + ni (X

i=1 j =1

i )2 (Xij X

Cada uno de los trminos de esa identidad tiene una interpretacin prctica interesante. El primer trmino
k i=1 ni j =1 (Xij

que llamaremos variacin total y denotaremos por VT . alrededor de la media general X El sumando
k 2 i=1 ni (Xi X )

)2 es una medida de la variabilidad de todos los datos X

es una suma ponderada de las desviaciones de las medias de

cada muestra respecto a la media general y se interpreta como la parte de la variacin total debida a la diferencia entre los k tratamientos (niveles) considerados; se llamar variacin entre y se denotar por Ve . Para cada i {1, . . . , k }, el sumando variacin dentro de la muestra i-sima, y el sumando
k i=1 ni j =1 (Xij

i , o la desviacin de los valores observados en la muestra i-sima respecto a su media X


ni j =1 (Xij

i )2 mide X

i )2 se llamar X

variacin dentro, se denotar por Vd y se interpreta como la parte de la variacin total debida a las uctuaciones aleatorias entre sujetos dentro del mismo nivel del factor. Es esa descomposicin de la variacin total en dos componentes lo que justica el nombre de anlisis de la varianza. Con esas notaciones se tiene VT = Ve + Vd Esas interpretaciones sugieren el uso del cociente Ve /Vd , pues compara la parte de la variacin total debida a la diferencia entre tratamientos con la parte de la variacin total debida al azar con el n de decidir si el azar puede explicar tambin la diferencia observada

ndice

Agustn Garca Nogales


entre los tratamientos (en cuyo caso no hay motivos para rechazar la hiptesis nula de homogeneidad de las medias) o si, por el contrario, la diferencia observada entre los tratamientos es demasiado grande en comparacin con la variacin debida al azar (en cuyo caso habra que rechazar la hiptesis de homogeneidad de las medias). En lugar de ese cociente, basaremos nuestra decisin en el estadstico de contraste F mltiplo del anterior y cociente de las
2 = mc = V /(N k ) (que se medias cuadrticas entre mce = Ve /(k 1) y dentro Sd d d

205

obtienen dividiendo las variaciones correspondientes por sus grados de libertad); concretamente F = Ve /(k 1) Vd /(N k )

La distribucin de F bajo la hiptesis nula de homogeneidad de las medias es la distribucin F (k 1, N k ) de Fisher con (k 1, N k ) grados de libertad. La regin crtica al nivel para el test es F > F (k 1, N k ) donde el valor crtico F (k 1, N k ) se obtiene de la tabla VI de la distribucin de Fisher y es el punto que deja a su derecha una cola de rea en la distribucin F (k 1, N k ). La tabla siguiente resume los clculos necesarios para llevar a cabo el anlisis de la varianza:
Variacin Entre Dentro Total Suma Cuadrados Ve = Vd = VT =
k i=1 k i=1 i

G.L. Media Cuadrtica

ni [ xi x ]2
ni j =1 [xij j [xij

2 = Vd /(N k ) x i ]2 N k Sd

k 1 mce = Ve /(k 1) F = mce /mcd

x ]2

N 1

Tabla de anlisis de la varianza Observacin 5.3. (Clculo de VT , Vd y Ve ) A la hora de calcular expresamente las variaciones total, dentro y entre con una calculadora son ms sencillas las siguientes expresiones:
k ni

VT =
i=1 j =1 k

x2 ij

1 2 T N

Vd =
i=1

1 2 1 2 Ti T ni N

Ve = VT Vd

ndice

206
F(2, 12)=200 p=,00000 MS entre=5 MS dentro=0.025 7

Elementos de Bioestadstica
F(2, 12)=2 MS entre=5 7 p=0,17798 MS dentro=2.5

Figura 5.1: Importancia de la dispersin en el test F


donde se ha denotado T =
i=1 j =1

ni

ni

xij ,

Ti =
j =1

xij .

Observacin 5.4. (Estimacin en el modelo de clasicacin simple en anlisis de la var i del grupo i-simo, ianza) Como estimador de la media i usaremos la media muestral X 2 mientras que el denominador Sd = Vd /(N k ) del estadstico de contraste F es un estimador insesgado de la varianza 2 comn a los k grupos. Un intervalo de conanza para i al nivel 1 es i t (N k )Sd /ni X Ejemplo 5.5. (Interpretacin grca del test F ) Consideremos los dos conjuntos de datos siguientes, dividido cada uno de ellos en 3 grupos (A,B,C y D,E,F, respectivamente) con 5 datos cada uno. A B C 2.8 4.8 3.8 2.9 4.9 3.9 3 5 4 3.1 5.1 4.1 3.2 5.2 4.2 D E F 1 3 2 2 4 3 3 5 4 4 6 5 5 7 6

Las medias de los grupos A y D son iguales a 3, las de los grupos B y E son iguales a 5 y las de los grupos C y F son iguales a 4; sin embargo, el test F seala diferencias signicativas entre las medias del primer conjunto, pero no entre las del segundo, debido a la diferente dispersin de los datos.

ndice

Agustn Garca Nogales

207

A B C

3 5 4

3 5 4

D E F

Figura 5.2: Importancia de la dispersin en la realizacin de un test F


Volvamos al ejemplo considerado en la introduccin. Ejemplo 5.6. (Ejemplo 5.1, continuacin) Para el problema de comparacin de los tiempos medios de espera hasta que el paciente se queja de dolor se tiene que k = 3, n1 = 5, 1 = 1.8, X 2 = 2.9, X 3 = 2.44, X = 2.38, Ve = 3.052, Vd = 23.652 y n2 = 5, n3 = 5, X 2 Sd = 23.652/12 = 1.971. El valor experimental es Fexp = 3.052/(3 1) = 0.774 23.652/(15 3)

La tabla VI de la distribucin F de Fisher proporciona los valores F0.05 (2, 12) = 3.89 y F0.1 (2, 12) = 2.81. Por tanto, el nivel mnimo de signicacin P verica 0.1 < P y el test es no signicativo; no existen, por tanto, diferencias signicativas entre los tiempos de espera hasta que el paciente se queja de dolor para los 3 tratamiento considerados.(1 ) La tabla siguiente resume el anlisis de la varianza realizado, en la que se ha incluido tambin el valor P del test:
Variacin Entre Dentro Total Suma Cuadrados 3.052 23.652 26.704 G.L. 2 12 14 Media Cuadrtica 1.526 1.971 F 0.774 P 0.483

Tabla. Anlisis de la varianza. La Figura 5.3 presenta la posicin relativa de los tiempos medios de los 3 grupos, junto con los intervalos al 95 % de conanza para cada una de ellas. Veamos un segundo ejemplo.
El cociente r2 = Ve /VT se llama coeciente de determinacin, y mide la fraccin de variabilidad de la variable de inters explicada por la inuencia del factor considerado. En el ejemplo ese cociente es igual a 0.1143, lo que viene a decir que el 11.43 % de la variabilidad en el tiempo de espera hasta que el paciente se queja de dolor queda explicada por el tratamiento analgsico.
1

ndice

208
6

Elementos de Bioestadstica

Tiempo
2 1 0 -1 Placebo A B Var2

Figura 5.3: Test F : F (2, 12) = 0,774, P = 0,483


Ejemplo 5.7. Para estudiar el efecto que produce el ruido en la eciencia en el trabajo, se han elegido 21 jvenes al azar y se han dividido en tres grupos de 7 jvenes cada uno. Se ha determinado para cada uno de esos individuos el nmero de errores cometidos en ciertas tareas aritmticas mientras las realizaban bajo tres diferentes niveles de ruido: ruido bajo continuo (RBC), ruido intermedio continuo (RIC) y ruido intermedio intermitente (RII). La tabla siguiente contiene los resultados de la experiencia: RBC RIC RII 7 9 8 8 10 14 11 8 10 10 9 12 9 11 14 8 8 13 7 9 16

Se pretende decidir si el nmero medio de errores cometidos es el mismo para los 3 niveles de ruido considerados o existen diferencias signicativas entre al menos dos de ellos. En este 1 = 8.57, X 2 = 9.14, X 3 = 12.43, caso, se tiene que k = 3, n1 = 7, n2 = 7, n3 = 7, X 2 X = 10.05, Ve = 60.67, Vd = 64.29 y Sd = 64.29/18 = 3.57. El valor experimental es Fexp = 60.67/(3 1) = 8.49 64.29/(21 3)

La tabla VI de la distribucin F de Fisher proporciona los valores F0.05 (2, 18) = 3.55, F0.01 (2, 18) = 6.01 y F0.001 (2, 18) = 10.39. Por tanto, el nivel mnimo de signicacin P verica 0.001 < P < 0.01 y el test es muy signicativo; existen, por tanto, diferencias

ndice

Agustn Garca Nogales


15 14

209

Nm. de errores aritmticos

13 12 11 10 9 8 7 6 RBC RIC Tipo de ruido RII

Figura 5.4: Test F : F (2, 18) = 8,55, P = 0,0025


signicativas entre el nmero medio de errores cometidos bajo los 3 diferentes niveles de ruido considerados.(2 ) La tabla siguiente resume el anlisis de la varianza realizado, en la que se ha incluido tambin el valor P del test:
Variacin Entre Dentro Total Suma Cuadrados 60.67 64.29 124.96 G.L. 2 18 20 Media Cuadrtica 30.33 3.57 F 8.49 P 0.0025

Tabla. Anlisis de la varianza La Figura 5.4 presenta la posicin relativa de las medias de los 3 grupos, junto con los intervalos al 95 % de conanza para cada una de ellas. Observacin 5.8. ( ) Los programas estadsticos habituales suelen tener implementados diversos mtodos estadsticos que nos permiten comprobar las suposiciones de independencia, normalidad e igualdad de varianzas que se hacen en el modelo de clasicacin simple en anlisis de la varianza: la independencia quedar garantizada por la eleccin al azar de los individuos; se utilizar algn mtodo grco (histograma, grco de probabilidad normal) o algn test de hiptesis (como los de DAgostino, Kolmogorov-Smirnov o la modicacin
El cociente r2 = Ve /VT se llama coeciente de determinacin, y mide la fraccin de variabilidad de la variable de inters explicada por la inuencia del factor considerado. En el ejemplo ese cociente es igual a 0.4823, lo que viene a decir que el 40.23 % de la variabilidad en el nmero de errores aritmticos queda explicada por el nivel de ruido.
2

ndice

210

Elementos de Bioestadstica
del mismo propuesta por Lilliefors, o el de Shapiro-Wilks) para comprobar la normalidad de los residuos rij = xij xi ; la suposicin de igualdad de varianzas se puede contrastar con el test de Bartlett (vase la observacin siguiente), el test de Levene o el test C de Cochran. Si la suposicin de normalidad o de igualdad de varianzas no se verica, podemos pensar en realizar un test no paramtrico como el de Kruskal-Wallis que veremos en la seccin 13.3. Observacin 5.9. ( ) (Test de Bartlett de comparacin de varias varianzas) Se dispone de r muestras independientes de tamaos n1 , . . . , nr de otras tantas distribuciones normales con 2 , 1 i r , y se desea contrastar la hiptesis H : 2 = = 2 varianzas desconocidas i 0 r 1 2 sus correspondientes varianzas muestrales. de igualdad de esas varianzas. Sean s2 , . . . , s r 1 Los tests que explicamos a continuacin son vlidos cuando la mayora de los ni son 6. Distinguiremos dos casos: Si todos los ni son iguales (digamos, a m) entonces la regin crtica del test de Bartlett es: (m 1)[r log s2 log s2 i] 2 = > 2 exp (r 1), r+1 1 + 3r(m1) donde s2 = s2 i /r . [ (ni 1) log s2 1+ donde s2 = [ (ni 1)s2 i ]/[
1 ni 1

Si los ni no son todos iguales, la regin crtica es 2 exp = ni log s2 i]


1 (ni 1)

> 2 (r 1),

3(r1)

(ni 1)].

5.1.2.

Comparaciones mltiples

El anlisis de la varianza es slo un primer paso en el anlisis de los datos. Si el test descrito resulta signicativo, el grupo de k medias se declara no homogneo y cabe preguntarse por las causas de la signicacin examinando las medias de cada muestra y la magnitud de las diferencias entre ellas. Son varios los mtodos de comparaciones mltiples propuestos. Describimos a continuacin el test de Tukey-Kramer, que es una modicacin de Kramer de un test similar propuesto por Tukey en el caso de que todas las muestras tengan el mismo tamao. El procedimiento se resume en los pasos siguientes: 1) Sean m1 mk las k medias muestrales ordenadas de menor a mayor, 1 , . . . , k las medias poblacionales correspondientes y n1 , . . . , nk los tamaos muestrales. Sea N = n1 + + nk . Hagamos i = 1 y j = k .

ndice

Agustn Garca Nogales


2) Se comparan las medias i y j utilizando el estadstico de rango estudentizado qij = mj mi
1 nj

211

2 Sd 2

1 ni

en cuyo denominador, llamado error estndar para la comparacin de i y j , aparece


2 como estimador de la varianza comn desconocida 2 . Si n = = n = n, el Sd 1 k

test de Tukey-Kramer se conoce como test de Tukey (llamado tambin test de la diferencia honestamente signicativa), y qij admite la expresin ms simple qij = mj mi n Sd

3) Las medias i y j se declaran homogneas si qij q (N k, k ) (vase la tabla X de la distribucin q de Tukey). Se declaran igualmente homogneas todas las medias comprendidas entre ellas, y no es necesario comparar dos medias dentro de un grupo homogneo. 4) Las medias i y j se declaran no homogneas si qij > q (N k, k ). En ese caso, se vuelve al paso 2 reemplazando i por i + 1 para comparar las medias i+1 con j . 5) Si j se declara no homognea a i para todo i < j , concluiremos que existen diferencias signicativas al nivel entre j y todas las medias menores que ella. Se reemplaza j por j 1 y se vuelve al paso 2. 6) El proceso contina hasta que no quede nada que comparar. 1 = Ejemplo 5.10. (Ejemplo 5.7, continuacin) En este ejemplo se verica que m1 = X 8,57, m2 = X2 = 9,14 y m3 = X3 = 12,43. La tabla X.2 proporciona el valor crtico q0,05 (18, 3) = 3,61. (a) m1 frente a m3 : q13 = (b) m2 frente a m3 : q23 = m3 m2 12,43 9,14 = = 4,61 > 3,61 2 = 3 Sd / 7 3,57/7 12,43 8,57 m3 m1 = = 5,41 > 3,61 1 = 3 Sd / 7 3,57/7

ndice

212
(c) m1 frente a m2 : q12 =

Elementos de Bioestadstica

m2 m1 9,14 8,57 = = 0,8 3,61 1 = 2 Sd / 7 3,57/7

Se concluye pues que las dos primeras medias se pueden declarar homogneas, mientras que la tercera es signicativamente diferente de ellas. Observacin 5.11. El mtodo de comparaciones mltiples descrito est basado en las mismas suposiciones de normalidad e igualdad de varianzas del modelo de clasicacin simple en anlisis de la varianza. Observacin 5.12. En general, se acostumbra a sugerir el uso del test de Tukey-Kramer una vez que el test F ha resultado signicativo. En ese caso, conviene a posteriori comparar todas las medias dos a dos tal y como se ha explicado anteriormente. Observacin 5.13. Una vez realizadas las comparaciones mltiples, el grupo original de medias queda dividido en subgrupos homogneos que no tienen por qu ser disjuntos. Por ejemplo, si tenemos un total de 3 medias 1 , 2 y 3 , puede ocurrir que terminemos aceptando que 1 = 2 y 2 = 3 , pero que 1 = 3 ; eso no debe entenderse como una contradiccin, pues, segn hemos dicho anteriormente, no debemos considerar la aceptacin de la hiptesis nula como una demostracin de la misma, y bien pudiera ocurrir que las discrepancias observadas entre la primera y la segunda medias muestrales y entre la segunda y la tercera no sean estadsticamente signicativas, pero s lo sea la discrepancia entre la primera y la tercera. Podemos decir en ese caso que existen dos subgrupos homogneos de medias entre las 3 medias consideradas, uno que contiene a la primera media y otro a la tercera, mientras que los datos obtenidos no nos permiten decidir a cul de ellos pertenece la segunda media. Observacin 5.14. (Intervalos de conanza simultneos) Los k (k 1)/2 intervalos siguientes son intervalos de conanza para las diferencias entre medias con un nivel de conanza simultneo igual a 1 : i j xi xj q (N k, k )
2 Sd 2

1 1 + , ni nj

1i<jk

Observacin 5.15. ( ) (Mtodo de Bonferroni) Si el test de Tukey es usualmente aceptado en el caso de que las muestras tengan el mismo tamao cuando se quieren comparar todas las medias dos a dos, otros autores sugieren para el caso de tamaos de muestra desiguales el uso del mtodo de Bonferroni que describimos a continuacin, mtodo que tambin podemos utilizar cuando slo queremos comparar algunos pares de medias. El mtodo de Bonferroni (llamado as por estar basado en la desigualdad de Bonferroni que vimos en el tema 1), propone lo siguiente: para realizar s tests de hiptesis simultneos (se desea contrastar que las s hiptesis nulas son ciertas contra que alguna de ellas no lo es) a un nivel global de signicacin , cada uno de los tests individuales se realizar a un nivel de signicacin

ndice

Agustn Garca Nogales


/s; de ese modo, si las hiptesis nulas de los s tests se suponen ciertas, la desigualdad de Bonferroni garantiza que la probabilidad de error de tipo I es menor o igual que , pues la probabilidad de rechazar incorrectamente la hiptesis nula global de que todas las hiptesis nulas individuales son ciertas coincide con la probabilidad de que alguna de esas hiptesis nulas sea falsa, probabilidad que es menor o igual que la suma de las probabilidades de error de tipo I particulares, en virtud de la propiedad (P9) de la pgina 48. Este mtodo lo podemos aplicar para realizar un cierto nmero de comparaciones de medias planicadas de antemano (bien entendido que, si se desean comparar todas las medias dos a dos, es preferible el mtodo de Tukey en el caso de que todos los tamaos muestrales sean iguales). Como hemos dicho anteriormente, se puede utilizar tambin como alternativa al test de Tukey en el caso de que no todas las muestras tengan el mismo tamao, teniendo en cuenta que en ese caso hay que comparar s = k (k 1)/2 pares de medias. La tabla XII contiene los valores crticos b (N k, s) de la distribucin de Bonferroni para los niveles de signicacin globales = 0,1, 0,05 y 0,01; la primera columna de cada tabla contiene el valor N k , mientras que en la primera la leeremos el nmero s de comparaciones a realizar. Tambin ahora utilizaremos el estadstico de rango estudentizado mj mi qij = 2 Sd 1 1 +n 2 n
j i

213

para comparar las medias mi y mj . En este caso, a diferencia del mtodo de Tukey-Kramer, no se recomienda declarar homogneas dos medias situadas entre dos que ya han sido declaradas homogneas pues, debido a que los tamaos muestrales son diferentes, puede ocurrir que la diferencia entre ellas sea signicativa. Observacin 5.16. ( ) (Otros mtodos de comparaciones mltiples) Adems del mtodo de Tukey y el de Tukey-Kramer, indicados en el caso de que se deseen comparar las medias dos a dos, y del mtodo de Bonferroni, mtodo muy general indicado para realizar varios tests de hiptesis simultneamente que se puede utilizar en particular para comparaciones mltiples como hemos visto, son diversos los procedimientos de comparaciones mltiples que se han descrito en la literatura con diferentes objetivos, como pueden ser el mtodo de la mnima diferencia signicativa, indicado en el caso de que se deseen comparar slo algunas de las muestras habiendo seleccionado dichas muestras antes de realizar el experimento (comparaciones no sugeridas por los datos), o el mtodo de Dunnet, especialmente diseado para comparar k 1 de las medias con la restante (que podra corresponder a un grupo control). El lector puede encontrar, por ejemplo, en Woolson (1987) una exposicin ms detallada de estos y otros mtodos. Observacin 5.17. ( ) (Otros modelos en anlisis de la varianza) En este tema hemos estudiado la inuencia de un factor sobre la media de una distribucin normal: un factor que acta a diferentes niveles y que, suponemos, no afecta a la varianza de esa distribucin. En la literatura se describen otros modelos de anlisis de la varianza en los que, por ejemplo, se considera la inuencia sobre la media de dos o ms factores, aunque su estudio queda lejos del alcance de este libro.

ndice

214

Elementos de Bioestadstica

5.1.3.

( ) Solucin no paramtrica al problema de comparacin de k muestras: Test de Kruskal-Wallis

Para comparar k muestras utilizando un mtodo no paramtrico, se combinan todas las muestras para obtener una muestra combinada de tamao N = n1 + + nk . Se asignan rangos a cada una de las observaciones individuales (la muestra combinada se ordena de menor a mayor y el rango de una observacin es el lugar que ocupa en la sucesin ordenada; se utilizar el rango medio en el caso de empates, como se explica en la seccin 12.6). Para 1 i k , denotaremos por Ri la suma de los rangos de las observaciones de la muestra isima. Consideremos el estadstico 12 H = N (N + 1)
k i=1 2 Ri 3(N + 1) ni

Si no hay empates, se utiliza como estadstico de contraste H = H , que coincide con 12 N (N + 1) donde R = de contraste H= donde 1 C =1 3 N N H C
r k i=1 Ri . k

ni
i=1

R Ri ni N

Si hay empates (digamos, r grupos de empates), se utiliza el estadstico

Tj
j =1

siendo Tj = t3 j tj y tj el nmero de observaciones en el j -simo grupo de empates, 1 j r . La regin crtica del test de KruskalWallis es, en cualquier caso, H > 2 (k 1) El valor P del test viene a ser la probabilidad de que 2 (k 1) > Hexp . La aproximacin

2 utilizada para la distribucin de H es vlida cuando los tamaos de las muestras no

son muy pequeos: suele exigirse en la prctica que todas las muestras tengan, al menos, tamao 5. Existen tablas para algunos casos en los que este requisito no se da.

ndice

Agustn Garca Nogales


Si el test de KruskalWallis resulta signicativo, podemos pensar en hacer comparaciones mltiples entre las muestras siguiendo un procedimiento anlogo (mtodo de Dunn) al mtodo de Tukey-Kramer descrito anteriormente, pero utilizando ahora para comparar las muestras i y j el estadstico de contraste qij =
Ri ni

215

Rj nj 1 ni

CN (N +1) 12

1 nj

que compararemos con el valor Q (k ) proporcionado en la tabla XI si k 25. Ejemplo 5.18. ( ) (Ejemplo 5.7, continuacin) Analizamos a continuacin los datos del ejemplo sobre la inuencia del ruido en el nmero de errores aritmticos cometidos mediante el test de Kruskal-Wallis que acabamos de describir. Reordenados de menor a mayor esos datos se obtiene la sucesin: 7, 7, 8, 8, 8, 8, 8, 9, 9, 9, 9, 10, 10, 10, 11, 11, 12, 13, 14, 14, 16 La tabla siguiente contiene, adems de los datos obtenidos, el rango de cada uno de ellos entre parntesis, y en la columna de la derecha la suma de los rangos del grupo correspondiente: RBC 7(1.5) 8(5) 11(15.5) 10(13) 9(9.5) 8(5) 7(1.5) R1 = 51 RIC 9(9.5) 10(13) 8(5) 9(9.5) 11(15.5) 8(5) 9(9.5) R2 = 67 RII 8(5) 14(19.5) 10(13) 12(17) 14(19.5) 13(18) 16(21) R3 = 113 Entonces H = 1 21 22 512 672 1132 + + 7 7 7

3 22 = 7.69

y, puesto que hay 6 grupos de empates con 2, 5, 4, 3, 2 y 2 datos cada uno en la sucesin reordenada precedente, C =1 Luego, 1 (23 2) + (23 2) + (53 2) + (43 2) + (33 2) 21 + (23 2) = 0.98 213 H=

H = 7.88 C Puesto que el valor crtico es 2 0.05 (2) = 5.99, rechazaremos la hiptesis nula de homogeneidad de los 3 grupos considerados. Siendo 2 0.01 (2) = 9.21, se verica que 0.01 < P < 0.05. Recordemos que el test F result muy signicativo. (3 ) Procedemos tambin en este caso a realizar comparaciones mltiples; necesitaremos el valor crtico Q0.05 (3) = 2.394:
Con la ayuda de un programa estadstico podemos calcular exactamente el valor P en ambos casos: mientras que P = 0.0025 para el test F , para el de Kruskal-Wallis P = 0.0195.
3

ndice

216
18

Elementos de Bioestadstica

Nmero de errores aritmticos

16

14

12

10

8 Median 25%-75% Min-Max

RBC

RIC Tipo de ruido

RII

Figura 5.5: Test Kruskal-Wallis: H = 7.88, P = 0.0195


(a) Muestra 1 frente a muestra 3: son no homogneas pues
R1 n1

q13 =

R3 n3 1 n1

= +
1 n3

CN (N +1) 12

16.14 7.29 = 2.7 > 2.394 3.28

(b) Muestra 2 frente a muestra 3: son declaradas homogneas pues


R2 n2

q23 =

R3 n3 1 n2

= +
1 n3

CN (N +1) 12

16.14 9.57 = 2.01 < 2.394 3.28

(c) Muestra 1 frente a muestra 2: son declaradas homogneas pues


R1 n1

q12 =

R2 n2 1 n1

= +
1 n2

CN (N +1) 12

9.57 7.29 = 0.7 < 2.394 3.28

Ntese como la decisin de tratar unos mismos datos con mtodos estadsticos diferentes puede dar lugar a conclusiones diferentes. Aunque tanto el test F como el de KruskalWallis sugieren rechazar la homogeneidad de las 3 muestras, los valores P son diferentes, y las comparaciones mltiples subsiguientes son ligeramente distintas, pues mientras en el caso paramtrico las muestras 1 y 2 constituyen un subgrupo homogneo signicativamente

ndice

Agustn Garca Nogales


distinto del formado por la tercera, en el caso no paramtrico los datos no nos permiten precisar a qu subgrupo pertenece la segunda muestra: al de la primera o al de la tercera, que desde luego estn en diferentes subgrupos. En el caso no paramtrico puede ser preferible utilizar un diagrama de caja en cada grupo como el de la gura para visualizar la diferencia entre ellos.

217

5.1.4.

( ) Modelo de clasicacin doble en anlisis de la varianza sin interacciones y una observacin por celda o diseo de bloques al azar: test F (paramtrico) y test de Friedman (no paramtrico)

Se consideran dos factores (que actan a r y t niveles) que inuyen sobre la media (pero no sobre la varianza) de una distribucin normal. Se eligen al azar rt individuos y a cada uno de ellos se le aplica una de las rt posibles combinaciones de los niveles de los dos factores (cada combinacin (i, j ) posible se aplica a uno y slo un individuo: de ah lo de una observacin por celda), obteniendo rt respuestas xij , 1 i r, 1 j t que consideraremos como observaciones independientes de otras tantas distribuciones normales de medias ij , 1 i r, 1 j t, y varianza comn 2 (que no queda afectada por ninguno de los dos factores considerados). Supondremos adems que los factores actan aditivamente, en el sentido de que cada media ij , aunque desconocida, se supone suma de dos componentes i y j , dependiente cada una de ellas de un nico factor y llamadas efectos debidos a los niveles i y j en que se encuentran los factores (se dice tambin que no existen interacciones entre los factores). Es preferible descomponer en ese caso la media ij como suma de una media general y de dos componentes i y j que conoceremos como efectos principales con las restricciones son equivalentes). Observacin 5.19. El modelo considerado se utiliza tambin para situaciones en las que el diseo experimental elegido es el llamado diseo de bloques al azar: este diseo fue utilizado por primera vez por Fisher en 1925 cuando buscaba mtodos para mejorar la experimentacin en agricultura; el trmino diseo reeja su origen en experimentos agrcolas
i i

j = 0 (ambos planteamientos

ndice

218

Elementos de Bioestadstica
donde la tierra era dividida en bloques homogneos y los bloques eran divididos en parcelas que reciban los tratamientos bajo investigacin. El diseo de bloques al azar es un diseo en el que las unidades experimentales que recibirn los distintos tratamientos son subdivididas en grupos homogneos llamados bloques; el nmero de unidades experimentales en cada bloque es igual al nmero de tratamientos de inters y los distintos tratamientos son asignados al azar a las unidades experimentales dentro de cada bloque. Siendo las parcelas dentro de cada bloque homogneas, este diseo es una generalizacin del diseo de muestras apareadas estudiado en el caso de comparacin de dos tratamientos (en el que cada individuo recibe los dos tratamientos, como ahora cada uno de los t bloques recibe todos y cada uno de los r tratamientos considerados); podra usarse este diseo incluso cuando se dispone de t individuos (cada individuo es un bloque) y cada uno de ellos recibe todos y cada uno de los r tratamientos considerados en el caso de que no haya superposicin de efectos en la aplicacin de los distintos tratamientos a un mismo individuo. Tenemos pues un conjunto de datos xij , 1 i r, 1 j t. Denotaremos por xi la media de la la i-sima, por xj la media de la columna j -sima, y por x la media general. Consideraremos los estadsticos siguientes: - Suma de cuadrados entre las (r 1 grados de libertad):
r

Vef = t
i=1

[xi x ]2

- Suma de cuadrados entre columnas (t 1 grados de libertad):


t

Vec = r
j =1

[xj x ]2

- Suma de cuadrados dentro o error ((r 1)(t 1) grados de libertad):


r t

Vd = r
i=1 j =1

[xij xi xj + x ]2

- Variacin total:
i j

[xij x ]2 = Vef + Vec + Vd

- Estimador de la varianza desconocida 2 : s2 d = mcd = Vd (r 1)(t 1)

Consideremos ahora el problema de contrastar la hiptesis de que el primer factor no inuye sobre la media, es decir, H0 : 1 = = r . La regin crtica del test es: Fexp =
1 r1 Vef 1 (r1)(t1) Vd

> F (r 1, (r 1)(t 1)).

ndice

Agustn Garca Nogales


Anlogamente se contrastara la hiptesis de que el segundo factor no inuye sobre la media. Los resultados se suelen recoger en una tabla como la siguiente:
Variacin Entre las Entre columnas Dentro (error) Total Vd = Suma Cuadrados Vef = t Vec = r
r i=1 r i=1 [xi t j =1 [xj

219

G.L. r1
2

Media Cuadrtica mcef = Vef /(r 1) mcec = Vec /(t 1) mcd = Vd /[(r 1)(t 1)]

x ]2

t j =1 [xij

x ]2

t1 (r 1) (t 1) rt 1

xi xj + x ]

VT = Vef + Vec + Vd =

2 ij (xij x )

Tabla de Anlisis de la Varianza Observacin 5.20. ( ) (Solucin no paramtrica: test de Friedman) El test de Friedman es la solucin no paramtrica al modelo de clasicacin doble sin interacciones en anlisis de la varianza. Como habamos explicado anteriormente, el modelo de clasicacin doble sin interacciones y una observacin por celda es una generalizacin a ms de dos muestras del problema de comparacin de dos muestras apareadas y, por tanto, el test de Friedman es la generalizacin del test de Wilcoxon para muestras apareadas. Supongamos que estamos interesados en contrastar la hiptesis nula H0 de que la media no depende realmente del primer factor (si hablamos de tratamientos en lugar de primer factor y de bloques en lugar de segundo factor, se trata de contrastar la hiptesis de que ningn tratamiento tiende a dar valores ms altos o ms bajos que los otros). Los datos se disponen en un cuadro de doble entrada en el que el primer factor (r tratamientos) aparece en las las y el segundo (t bloques) en las columnas. Se asignan rangos (teniendo en cuenta los posibles empates) a los r datos de la primera columna (anotaremos al lado de cada dato en la tabla su rango entre parntesis); procederemos de igual modo con las restantes columnas (asignando rangos a los datos de cada columna, independientemente de los rangos asignados en otras columnas). Denotaremos por R1 , . . . , Rr las sumas de los rangos correspondientes a los tratamientos 1, . . . , r. Debe ocurrir que i Ri = tr(r + 1)/2. El test de Friedman viene denido por la regin crtica: 12 Ri 3t(r + 1) rt(r+1) > 2 (r 1), 1 1 (r1)r(r+1)t i j Tij donde Tij = (tij 1)tij (tij + 1), siendo tij el nmero de empates ocurridos en el j -simo grupo de empates del bloque i. El test descrito es vlido para muestras grandes; a efectos prcticos suele exigirse que rt > 25. En el caso r = 2 este test coincide con el de Wilcoxon para muestras apareadas.

ndice

5.2.

Comparacin de Varias Muestras Cualitativas

5.2.1.

Tablas de contingencias

Consideramos en este tema el problema de la comparacin de varias muestras cualitativas. Concretamente, se consideran r muestras cuyos individuos pueden clasicarse en s clases disjuntas. Los datos suelen recogerse en una tabla r s, llamada tabla de contingencias, cuya entrada Oij , 1 i r, 1 j s, indica el nmero de individuos de la muestra i-sima que estn en la clase j -sima. En los mrgenes de la tabla consignaremos las cantidades Fi =
j

Oij (tamao de la muestra i-sima) y Cj =

i Oij

(nmero de individuos

en la clase j ). Denotaremos por T el nmero total de individuos seleccionados. 1 1 . . . i . . . r Totales O11 . . . Oi1 . . . Or1 C1 ... ... . . . ... . . . ... ... j O1j . . . Oij . . . Orj Cj ... ... . . . ... . . . ... ... s O1s . . . O1s . . . Ors Cs Totales F1 . . . Fi . . . Fr T

Tabla de contingencias r s Estamos interesados en contrastar la hiptesis nula H0 de que la proporcin de individuos que cae en una cierta clase es la misma para todas las muestras (es decir, que no hay diferencias signicativas entre las r muestras en lo que a su clasicacin en alguna de las s clases consideradas se reere). Un ejemplo nos ayudar a comprender el planteamiento del problema. Ejemplo 5.21. Se ha llevado a cabo un estudio en 4 regiones espaolas (1, 2, 3 y 4) con la intencin de comparar la opinin que sus ciudadanos tienen sobre la atencin sanitaria

220

ndice

Agustn Garca Nogales


pblica que reciben. Para ello, se han seleccionado en esas regiones muestras de tamaos respectivos 510, 1305, 492 y 223. Los datos obtenidos son los de la siguiente tabla de contingencias, y nos preguntamos si, a la luz de esos datos, podemos aceptar la hiptesis nula de que la distribucin de los individuos segn su opinin sobre la atencin sanitaria que reciben es la misma en esas 4 regiones o si, por el contrario, existen diferencias signicativas en al menos dos de ellos. Buena O11 = 400 O21 = 927 O31 = 300 O41 = 129 C1 = 1756 Regular O12 = 70 O22 = 310 O32 = 150 O42 = 79 C2 = 609 Mala O13 = 40 O23 = 68 O33 = 42 O43 = 15 C3 = 165 Totales F1 = 510 F2 = 1305 F3 = 492 F4 = 223 T = 2530

221

Regin 1 Regin 2 Regin 3 Regin 4 Totales

Cantidades observadas

5.2.2.

Comparacin de varias muestras cualitativas

Supongamos cierta la hiptesis nula y calculemos la cantidad Eij esperada de individuos en la clase (i, j ) bajo esa suposicin. Consideremos, por ejemplo, la casilla (2, 3), es decir, el nmero esperado de individuos con un inters medio por la estadstica y alta capacidad para las matemticas si no hubiera diferencias entre los 3 niveles de inters por la estadstica; si H0 es cierta, la proporcin p3 desconocida de individuos con alta capacidad para las matemticas puede ser estimada por la proporcin muestral p 3 , cociente entre el nmero total de C3 = 100 individuos con alta capacidad matemtica por el nmero total de individuos T = 2530 y, puesto que hay F2 = 1305 en la segunda muestra (individuos con inters medio por la estadstica), cabe esperar que, entre ellos, F2 p 3 = F2 C3 /T = 85,11 tengan alta capacidad matemtica. En general, si la hiptesis nula se supone cierta, la cantidad esperada para la casilla (i, j ) es Eij = Fi Cj /T . La discrepancia entre los valores realmente observados Oij y los valores esperados bajo la hiptesis nula Eij se mide con el estadstico 2 =
i j

(Oij Eij )2 = Eij

2 Oij T Eij

ndice

222

Elementos de Bioestadstica
Ese estadstico tiene bajo ciertas condiciones y bajo la hiptesis nula distribucin aproximada 2 ((r 1)(s 1)), lo que sugiere el uso de la regin crtica: 2 > 2 ((r 1)(s 1)) Las condiciones de validez del test anterior han sido jadas por Cochran del siguiente modo: 1) ninguna de las cantidades esperadas Eij es < 1; 2) no ms del 20 % de las cantidades esperadas es < 5. Ejemplo 5.22. (Ejemplo 5.21, continuacin) La tabla siguiente, junto a las cantidades observadas Oij , contiene entre parntesis las cantidades esperadas correspondientes Eij : Buena O11 = 400(353,98) O21 = 927(905,76) O31 = 300(341,48) O41 = 129(154,78) C1 = 1756 Regular O12 = 70(122,76) O22 = 310(314,13) O32 = 150(118,43) O42 = 79(53,68) C2 = 609 Mala O13 = 40(33,26) O23 = 68(85,11) O33 = 42(32,09) O43 = 15(14,54) C3 = 165 Totales F1 = 510 F2 = 1305 F3 = 492 F4 = 223 T = 2530

Regin 1 Regin 2 Regin 3 Regin 4 Totales

Cantidades observadas y esperadas Se deduce de ello que el valor experimental del test 2 es
4 3

2 =
i=1 j =1

2 Oij T = 66.79 Eij

Es claro que se verican las condiciones de validez del test. Puesto que 2 0.05 ((4 1) (3 1)) = ((4 1)(31)) = 22.46, 12.59, los datos son incompatibles con la hiptesis nula. Siendo 2 0.001 debemos sealar diferencias altamente signicativas entre las 4 regiones considerados en lo que se reere a la opinin que sus ciudadanos tienen sobre la atencin sanitaria pblica recibida. Observacin 5.23. (El caso 2 2) En el caso especial de una tabla 22, suelen exigirse las condiciones de validez siguientes: 1) los marginales Fi y Cj son todos mayores que T /10; 2) todas las Eij son mayores que 5. La regin crtica del test es, en este caso, 2 = (O11 O22 O12 O21 )2 T > 2 (1) F1 F2 C1 C2

Este test coincide, salvo en las condiciones de validez, con el test de comparacin de dos proporciones en el caso de dos muestras independientes mediante las identicaciones O11 = x1 , O12 = x2 , O21 = n1 x1 y O22 = n2 x2 , en las que se han utilizado las notaciones de la seccin 12.8. Ello es debido a que el cuadrado de una v.a. con distribucin N (0, 1) tiene distribucin 2 (1).

ndice

Agustn Garca Nogales


Observacin 5.24. ( ) (Correccin por continuidad de Yates) En el caso 2 2, muchos autores continan utilizando la correccin por continuidad de Yates en el estadstico de contraste 2 descrito anteriormente; esta correccin por continuidad propone reemplazar (Oij Eij )2 por (|Oij Eij | 0.5)2 en la denicin del estadstico 2 , o, lo que es lo mismo, considerar la regin crtica
1 (|O11 O22 O12 O21 | 2 T )2 = T > 2 (1) F1 F2 C1 C2 2

223

Esta correccin por continuidad proporciona, en general, valores P mayores y es discutida por muchos autores. Nosotros no haremos uso de ella en este libro. Es, sin embargo, habitual en la literatura no considerar la correccin por continuidad en tablas de contingencia de dimensin superior. Observacin 5.25. ( ) (Particin de tablas) Cuando el test 2 de comparacin de varias proporciones (o, ms generalmente, el test 2 de comparacin de varias muestras cualitativas) resulta signicativo, cabe preguntarse por las causas de la signicacin, es decir, qu proporciones o muestras cualitativas o tratamientos son diferentes y cules pueden considerarse iguales. ste es un problema anlogo al de las comparaciones mltiples considerado en anlisis de la varianza y que, en este caso, se resuelve haciendo una particin de la tabla r s. A la hora de hacer una particin de la tabla de datos podemos apoyarnos en una tabla auxiliar r s que contenga la contribucin (Oij Eij )2 /Eij de cada casilla (i, j ) al estadstico 2 y contenga en el margen izquierdo la suma de las contribuciones correspondientes a cada la. Esos totales marginales pueden hacernos sospechar que una de las r las contribuye mucho ms a la signicacin que los dems, lo cual puede comprobarse analizando una tabla (r 1) s obtenida de la original eliminando la la correspondiente. Si el test 2 para la tabla reducida resulta no signicativo, los tratamientos correspondientes se declaran homogneos y el que habamos eliminado se declara discrepante del resto. Si en alguna subtabla el test 2 resulta signicativo se procede para ella como se hizo anteriormente. Si para una subtabla el test resulta no signicativo, a veces se agrupan las las correspondientes en una sola (pues se consideran provenientes de una misma poblacin) y se contina adelante con la particin. Una vez concluido el proceso de particin de la tabla por las, dejando claro qu tratamientos pueden ser considerados iguales y cules no, puede continuarse haciendo algo anlogo con las columnas, con el n de dejar claro en qu columnas dieren dos las que han sido declaradas distintas.

5.2.3.

Comparacin de varias proporciones: muestras independientes

El problema de comparacin de varias proporciones en el caso de muestras independientes es un caso particular del problema de comparacin de varias muestras cualitativas en

ndice

224

Elementos de Bioestadstica
el que s = 2 (o r = 2, si las poblaciones muestreadas aparecen en la primera la de la tabla). Las tablas r 2 y 2 r pueden considerarse como una generalizacin de las tablas 22, pues si en stas se comparan dos proporciones, en una tabla r 2 se comparan r proporciones simultneamente. Ejemplo 5.26. (Ejemplo 5.21, continuacin) Supongamos que se declara como satisfactoria una opinin buena e insatisfactoria una opinin regular o mala sobre la atencin sanitaria recibida. Los tabla queda en la forma: Satisfactoria O11 = 400 O21 = 927 O31 = 300 O41 = 129 C1 = 1756 Insatisfactoria O12 = 110 O22 = 378 O32 = 192 O42 = 94 C2 = 774 Totales F1 = 510 F2 = 1305 F3 = 492 F4 = 223 T = 2530

Regin 1 Regin 2 Regin 3 Regin 4 Totales

Si denotamos por pi la proporcin de individuos que consideran satisfactoria la atencin sanitaria pblica que recibe en la regin i-sima (1 i 4), podemos estar interesados en contrastar la hiptesis nula H0 : p1 = p2 = p3 = p4 de homogeneidad de esas 4 proporciones, que podramos interpretar como que no hay diferencias signicativas entre la opinin que los ciudadanos de esas 4 regiones sobre la atencin sanitaria pblica recibida, contra la hiptesis alternativa de que, al menos, 2 de esas proporciones son diferentes. Puede comprobarse que se verican las condiciones de validez del test chi-cuadrado y que el valor experimental 2 del mismo es 2 exp = 51,69. Puesto que 0,05 (3) = 7,82, rechazamos la hiptesis nula de homogeneidad de las 4 proporciones; incluso p < 0,001. Observacin 5.27. En el caso 2 2, este test coincide, salvo en las condiciones de validez, con el test de comparacin de dos proporciones en el caso de dos muestras independientes mediante las identicaciones O11 = x1 , O12 = x2 , O21 = n1 x1 y O22 = n2 x2 , en las que se han utilizado las notaciones de la seccin 12.8. Ello es debido a que el cuadrado de una v.a. con distribucin N (0, 1) tiene distribucin 2 (1).

5.2.4.

( ) Comparacin de varias proporciones: muestras relacionadas

En el problema de comparacin de varias proporciones tambin podemos distinguir dos tipos de diseos: el de muestras independientes y el de muestras relacionadas. Como hemos comentado anteriormente, el problema de comparacin de varias proporciones en el caso

ndice

Agustn Garca Nogales


de muestras independientes es un caso particular del problema de comparacin de varias muestras cualitativas. Presentaremos a continuacin el test de Cochran para la comparacin de varias proporciones relacionadas. Se dispone de r tratamientos que queremos comparar del siguiente modo: t individuos elegidos al azar reciben todos y cada uno de los tratamientos (con la debida separacin de tiempo para evitar la superposicin de efectos), exigindoles una opinin favorable (1) o desfavorable NO (0) sobre cada tratamiento. Si pi denota la proporcin de individuos de la poblacin favorable al tratamiento i-simo, pretendemos contrastar la hiptesis nula H0 : p1 = = pr de que todos los tratamientos son igualmente preferidos contra la alternativa de que no todos los tratamientos son igualmente preferidos. Los datos pueden presentarse en una tabla r t cuya entrada (i, j ) es 1 o 0 segn la respuesta del individuo i-simo al tratamiento j -simo. Denotemos por Fi la suma de la la i-sima, por Cj la suma de la columna j -sima y por T la suma de las Fi (que coincide tambin con la de las Cj ). La regin crtica del test de Cochran es Q= r Fi2 T 2 2 2 (r 1) > (r 1) rT Cj

225

Los clculos pueden simplicarse si eliminamos todos los individuos con respuesta homognea a todos los tratamientos (todos 1s o todos 0s). El nmero t de individuos que restan debe vericar que rt > 25 para poder utilizar el test de Cochran. En el caso r = 2 el problema se reduce al de comparar dos proporciones relacionadas que ya ha sido resuelto; se comprueba que en ese caso el test de Cochran coincide con el test de McNemar all obtenido, slo que ahora las condiciones de validez del test son algo ms exigentes que all.

ndice

Verdadero o Falso? Captulo 5


Decidir si cada una de las proposiciones siguientes es verdadera (V) o falsa (F), justicando la respuesta. 5.1 Si en un ANOVA para comparar tres medias 1 , 2 y 3 , el test F resulta signicativo, al hacer las comparaciones mltiples puede ocurrir que 1 y 2 , por una parte, y 2 y 3 , por otra, sean declaradas homogneas. 5.2 En el modelo de clasicacin simple en anlisis de la varianza, la variacin entre dividida por sus grados de libertad constituye un estimador de la varianza comn de las variables que observamos. 5.3 En un problema de comparacin de cinco proporciones para muestras independientes el valor observado del estadstico de contraste es igual a 17.34. Podemos concluir entonces que el test es altamente signicativo. 5.4 En un problema de comparacin de 5 proporciones a partir de otras tantas muestras independientes, el valor del estadstico de contraste es igual a 14.1. El test resulta no signicativo, pero deben sealarse indicios de signicacin. 5.5 En el modelo de clasicacin simple en anlisis de la varianza, si la parte de la variacin total explicada por la diferencia entre los distintos niveles del factor aumenta y la parte de la variacin total explicada por el azar se mantiene constante, entonces el nivel mnimo de signicacin del test F de homogeneidad de las medias disminuye. 5.6 En el modelo de clasicacin simple en anlisis de la varianza (o ANOVA de una va), la suma de cuadrados dentro se interpreta como la parte de la variacin total que queda explicada por el azar. 5.7 ( ) El test de Kruskal-Wallis se aplica en problemas como los considerados en el modelo de clasicacin simple en anlisis de la varianza si la suposicin de normalidad es cuestionable.

226

ndice

Problemas del Captulo 5


5.1 Con el objetivo de comparar cuatro tratamientos oculares A, B, C y D, se seleccionan 24 conejos que se dividen en cuatro grupos de 6 unidades; cada grupo recibe un tratamiento diferente. Tras la aplicacin de los tratamientos se determina para cada uno de los conejos una variable que mide el poder antiinamatorio de los mismos y cuya distribucin no puede suponerse normal, obtenindose los siguientes datos: A B C D 2 1 3 1 3 3 1 0 3 1 2 0 3 2 1 0 3 2 3 0 0 3 3 -1

Pueden considerarse igualmente efectivos los tratamientos en lo que a la variable considerada se reere? Calcula y comenta la probabilidad de signicacin. 5.2 Se desean comparar los efectos de tres frmacos A, B y C en la reduccin de la ebre; para ello se seleccionan 12 pacientes con una ebre entre 38.5 C y 39 C y se dividen en tres grupos de 4, administrando un frmaco a cada grupo. Tras cuatro horas se anotaron las siguientes reducciones en la ebre Frmaco A Frmaco B Frmaco C 2.0 0.5 1.1 1.6 1.2 -1.0 2.1 0.3 -0.2 0.6 0.2 0.2

Asumiendo normalidad, analiza esos datos y decide si existen diferencias entre los tres frmacos, comentando el nivel mnimo de signicacin P . 5.3 En un estudio llevado a cabo en varones mayores de 14 aos en la ciudad de Badajoz con el objetivo de estimar el porcentaje de bebedores de riesgo (BR) y su distribucin por grupos de edad y por centro de salud (CS), se ha extrado una muestra de 856 individuos y se ha aplicado a cada uno de ellos una encuesta a partir de la cual se toma la decisin de declarar o no bebedor de riesgo al individuo haciendo uso de un

227

ndice

228

Elementos de Bioestadstica
criterio elaborado por Altisent y otros. Los datos obtenidos se resumen en las tablas siguientes categorizados por grupos de edad y por centro de salud: Edad BR Total CS BR Total La Paz 47 198 14 a 29 62 268 30 a 64 85 440 S. Roque 15 133 > 64 11 148 Total 158 856 Centro 10 86 Total 158 856

S. Fernando 50 173

Anexo 36 266

a) Existen diferencias signicativas entre las proporciones de bebedores de riesgo entre los grupos de edad 1429, 3064 y > 64? b) Responde a una cuestin anloga a la anterior para los diferentes centros de salud considerados. Solucin: Pg. 342 5.4 Para decidir si existe una estrecha relacin entre la presin sangunea sistlica (PSS) y la ocurrencia de accidentes vasculares cerebrales (AVC), se lleva a cabo un estudio de 5 aos de duracin con 1000 varones con edad comprendida entre los 45 y los 60 aos. La tabla siguiente contiene los datos obtenidos. (AVC) SI 70-80 (PSS) 80-90 90-100 > 100 5 20 30 65 NO 245 230 220 185

Efecta un test apropiado para tomar esa decisin y facilita alguna medida de la posible relacin entre las variables consideradas.

ndice

229

ndice

230

Elementos de Bioestadstica

ndice

Cap tulo

Relacin entre Variables

231

ndice

232

Elementos de Bioestadstica

6.1.

Relacin entre dos Variables Cuantitativas: Regresin Lineal

6.1.1.

El problema de regresin

Si en temas anteriores se ha considerado una nica variable cualitativa o cuantitativa cuyos valores en una, dos o ms poblaciones sugieren ciertos problemas de contraste de hiptesis de comparacin, estamos ahora interesados en considerar dos variables en un mismo individuo y decidir si existe o no algn tipo de relacin entre ellas, es decir, si los valores que tome alguna de ellas condicionan de algn modo los que tome la otra. En este tema abordaremos este problema para el caso de que esas variables sean cuantitativas. En realidad, la comparacin de los valores de una misma variable en dos o ms poblaciones distintas es tambin un estudio de relacin entre dos variables: la variable que nos interesa y la variable cualitativa que asigna a cada individuo la poblacin a la que pertenece. De hecho, el conocimiento cientco avanza siempre estableciendo nuevas relaciones entre variables, y todos los mtodos estadsticos estudiados y por estudiar pueden considerarse como instrumentos tiles a la hora de evaluar esas relaciones. Para el estudio de la relacin entre dos variables cuantitativas se usan en estadstica dos tcnicas principalmente: la tcnica de regresin y la tcnica de correlacin. Ambas tcnicas proporcionan mtodos que pretenden detectar la existencia de asociacin o dependencia entre las variables consideradas, pero la tcnica de regresin nos permite incluso ir un poco ms lejos y nos puede ser til a la hora de estudiar cmo vara una de las variables observando la variacin de la otra y a la hora de predecir los valores de una de las variables cuando se sabe que la otra ha tomado un cierto valor. Estudiaremos en este tema el problema de regresin lineal y en el prximo las tcnicas de correlacin.

ndice

Agustn Garca Nogales


Consideremos dos v.a. X e Y que miden ciertas caractersticas numricas de inters sobre los individuos de una cierta poblacin. Nuestro objetivo primero es el estudio de la posible dependencia entre esas dos variables. Ejemplos: 1) X podra ser el peso de un individuo e Y su altura; 2) X podra ser la edad de un individuo e Y su presin sangunea sistlica; 3) X podra ser la longitud del brazo derecho de un individuo e Y la de su pierna derecha,. . . A menudo, X es una variable que el investigador puede controlar (edad del individuo, temperatura a la que se realiza el experimento,. . . ) y su objetivo es predecir los valores de Y a partir de los de X ; en este caso, la tcnica de correlacin es cuestionable. Podemos empezar preguntndonos si existe entre ambas variables una dependencia funcional, es decir, si existe una cierta funcin f de modo que Y = f (X ) pues, de ser as, una vez conocido X , no nos cabra duda alguna de cual sera el valor de Y . La respuesta a esa pregunta suele ser negativa debido a la presencia, adems del valor de X , de otros muchos factores, controlables o no, que inuyen en el valor de Y . As las cosas, podemos plantearnos el problema de encontrar una funcin f de forma que f (X ) aproxime lo mejor posible a la variable Y ; de ese modo, conocido el valor x que toma la variable X , aproximando el valor de la variable Y por f (x) haramos todo cuanto est en nuestra mano para resolver el problema planteado. A una funcin f como sa la llamaramos curva de regresin de Y sobre X .

233

6.1.2.

Regresin lineal

Determinar exactamente la curva de regresin de Y sobre X no suele ser un problema sencillo. Para simplicarlo se exige de la funcin f que sea de una forma determinada (una recta, una parbola, una funcin polinmica de grado k ,. . . ) y el problema se replantea, por ejemplo, como sigue: cul es la recta f tal que f (X ) aproxima lo mejor posible a Y ? Es decir, cules son las constantes , tales que + X aproxima a Y lo mejor posible? Esas constantes son los llamados coecientes de regresin; concretamente, es la llamada pendiente de regresin y es la ordenada en el origen de la recta de regresin. Queda claro que buscamos la mejor recta y que, por tanto, puede haber una funcin g (que no sea una recta) de forma que g (X ) aproxime a Y mejor que + X . El caso de la recta es

ndice

234

Elementos de Bioestadstica
especialmente importante y el problema considerado se llama problema de regresin lineal. Observacin 6.1. (Regresin no lineal) Cuando la nube de puntos obtenida a partir de los datos no sugiere una relacin lineal entre las dos variables, sino una relacin curvilnea, el modelo lineal de regresin no es apropiado. Debido a que el modelo lineal es ms simple que otros modelos de regresin no lineal y es el mejor estudiado y el ms sencillo de interpretar, los investigadores tienen tendencia a adoptarlo a costa de lo que sea; eso ha tenido como consecuencia los cambios de escala no lineales que en esencia pretenden obtener, no la regresin de Y sobre X , sino la de una cierta funcin de Y sobre una cierta funcin de X . Debe cuidarse en ese caso que el cambio de escala no afecte a las otras suposiciones del modelo de regresin. Este problema de linealizacin no ser abordado en este texto. Observacin 6.2. ( ) (Modelos de regresin mltiple) Si disponemos de una variable dependiente Y y varias variables independientes X1 , . . . , Xk , podemos estar interesados en determinar constantes , 1 , . . . , k de forma que + k i=1 i Xi aproxime a Y lo mejor posible en el sentido de los mnimos cuadrados. Se trata del llamado problema de regresin lineal mltiple que, desde un punto de vista estadstico, supone que, dados valores concretos x1 , . . . , xk de X1 , . . . , Xk , la variable Y tiene distribucin normal de media + k i=1 i xi y varianza 2 , siendo , 1 , . . . , k y 2 los parmetros desconocidos del modelo de regresin mltiple. Este problema, que queda fuera del alcance de este libro, puede resultar de utilidad, por ejemplo, si queremos expresar la presin sangunea en funcin de la edad y el peso del individuo.

En apoyo del caso lineal se encuentra el siguiente resultado: si la distribucin del par (X, Y ) es normal bidimensional, entonces la recta de regresin coincide con la curva de regresin, es decir, la mejor funcin f coincide con la mejor recta. La distribucin normal bidimensional o bivariante es una generalizacin de la distribucin normal ya conocida al caso de una distribucin bidimensional. Su funcin de densidad es una funcin de dos variables que, representada en el espacio, tiene el aspecto de una campana tridimensional o sombrero de bombero, como en la gura siguiente. Esa distribucin, adems de las medias y varianzas
2 , 2 de ambas variables, depende de un quinto parmetro que denotaremos por X , Y , X Y

y llamaremos coeciente de correlacin entre X e Y ; este coeciente toma valores entre -1 y 1 y constituye una medida del grado de dependencia entre las variables X e Y . Desde el punto de vista estadstico, la distribucin del par (X, Y ) es desconocida; la hiptesis de que ese par tiene distribucin normal bidimensional queda justicada en muchos casos de modo anlogo a como quedaba justicada en el caso univariante, lo que convierte el problema de regresin lineal en algo ms interesante de lo que pudiera parecer de entrada.

ndice

Agustn Garca Nogales Densidad de una distribucin normal bivariante

235

N(0,1)xN(0,2)

Figura 6.1: Distribucin normal bivariante N (0, 1) N (0, 2)


En un problema de regresin, la terminologa clsica propone llamar a la X variable independiente o controlada, y a Y , variable dependiente, aunque los papeles son, a menudo, reversibles y a veces podemos estar interesados en la recta de regresin de X sobre Y . Desde un punto de vista descriptivo, la mejor manera de hacerse una idea sobre la distribucin bidimensional desconocida del par (X, Y ) consiste en obtener una muestra (xi , yi ), 1 i n, de extensin n de esa distribucin y dibujar esos puntos en el plano, para obtener lo que llamaremos una nube de puntos. La forma de esa nube de puntos en el plano puede sugerir una relacin lineal entre X e Y , o una relacin curvilnea, o una ausencia de relacin (ver Figura 6.2). El llamado principio de los mnimos cuadrados nos permite calcular inmediatamente la recta que mejor aproxima a esa nube de puntos: se trata en concreto de determinar las constantes a y b que hacen mnima la expresin
n i=1

(yi a bxi )2

Las soluciones a este problema son los llamados coecientes de la recta de regresin mnimo cuadrtica o coecientes de regresin muestrales (b es la pendiente de regresin muestral y

ndice

236

Elementos de Bioestadstica

Independencia 1,5 1,0


Y

Dependencia lineal dbil 4 3 2 1 0 -0,2 0,0 0,2 0,4 X 0,6 0,8 1,0 1,2
Y

0,5 0,0 -0,2 0,0 0,2 0,4 0,6 0,8 1,0 1,2 X

Independencia 1,5 1,0 0,5 0,0 -0,5 -1,0 -1,5 -1,5 12 10 8 6 4 2 0 -0,2 0,0

Dependencia no lineal fuerte

-1,0

-0,5

0,0 X

0,5

1,0

1,5

0,2

0,4 X

0,6

0,8

1,0

1,2

Dependencia lineal fuerte 3 2


Y Y

Dependencia no lineal dbil 12 10 8 6 4 2 0 -2 -0,2 0,0

1 0 -0,2 0,0 0,2 0,4 0,6 0,8 1,0 1,2 X

0,2

0,4 X

0,6

0,8

1,0

1,2

Figura 6.2: Nubes de puntos

ndice

Agustn Garca Nogales


a es la ordenada en el origen de la recta de regresin muestral) y son concretamente b= Sxy Sxx

237

a=y bx donde Sxy =


i

(xi x )(yi y ) =

xi yi

1 n

xi
i 2 i

yi

y Sxx = (xi x ) =
2

x2 i
i

1 n

xi
i 2 i yi 1 n ( 2 i yi ) .

Anlogamente, denotaremos en lo que sigue Syy =

(yi y )2 =

La ecuacin de la recta de regresin muestral es, por tanto, yy = b(x x ) ecuacin que pone de maniesto que esta es una recta que tiene pendiente b y pasa por el punto ( x, y ).

6.1.3.

Estimacin puntual en el modelo de regresin lineal

A parte del tratamiento descriptivo del problema que acabamos de considerar, interesa ver qu uso hace la inferencia estadstica de los datos obtenidos para resolver los problemas de regresin antes mencionados. Para ello necesitamos describir previamente el modelo de regresin lineal, es decir, las suposiciones que admitiremos en los problemas de inferencia (estimacin y test de hiptesis) que consideraremos ms adelante. El modelo de regresin lineal supone que la distribucin de Y , una vez conocido que X = x, es una distribucin normal univariante N ( + x, 2 ) con media +x dependiente linealmente de x y varianza 2 desconocida pero independiente del valor x de X ; los parmetros y son los llamados coecientes de regresin poblacionales

ndice

238

Elementos de Bioestadstica
y se suponen desconocidos, pues slo tenemos acceso a una muestra de la poblacin. El concepto matemtico que dene rigurosamente lo que acabamos de decir queda muy lejos del alcance de esta obra. Tambin podemos describir el modelo diciendo que la distribucin de Y dado X = x es la de la variable + x + donde es una variable con distribucin normal N (0, 2 ) que representa el error cometido en la aproximacin de Y por + X . Con objeto de hacer inferencia estadstica sobre la recta de regresin poblacional, se extrae una muestra de la distribucin bidimensional. Es decir, se seleccionan al azar n individuos de la poblacin para los que se obtienen las caractersticas X e Y ; a veces, cuando la variable X es controlable, tambin pueden jarse previamente los valores de X y, para cada uno de esos valores, se obtienen uno o ms valores de Y . En cualquier caso, tras realizar el experimento, dispondremos de n pares (xi , yi ), 1 i n, en los que basaremos nuestras decisiones sobre los parmetros poblacionales desconocidos. As, los coecientes de regresin poblacionales (ordenada en el origen poblacional) y (pendiente poblacional) se estiman mediante los coecientes de regresin muestrales a (ordenada en el origen muestral) y b (pendiente muestral) obtenidos anteriormente. Para estimar la varianza de regresin desconocida 2 tengamos en cuenta que, dado X = x, la v.a. = Y x sigue una di = 0, el estimador de

distribucin normal N (0, 2 ), con lo cual, la varianza muestral obtenida de los residuos di = yi a bxi , 1 i n, ser un buen estimador de 2 ; como la varianza de regresin 2 ser S2 = 1 n2 d2 i = 1 n2

1 [(yi y ) b(xi x )]2 n2 1 1 = [Syy 2bSxy + b2 Sxx ] = [Syy bSxy ] n2 n2 (yi y i )2 =

donde se ha denotado y i = a + bxi (son las predicciones o valores de la recta de regresin en los xi ). El n 2 del denominador (en lugar del n 1 tradicional) queda justicado porque se han debido estimar dos parmetros y (en lugar del nico tradicional por x ). Ejemplo 6.3. Se ha llevado a cabo un estudio para analizar la inuencia del consumo medio de sal en gramos por da (variable X ) en la presin sangunea sistlica (variable Y )

ndice

Agustn Garca Nogales


Y = -178,689+37,4633*X 0,95 Int. Conf. 110

239

105

100
Y: PS Sistlica (mm Hg)

95

90

85

80

75 6,8

6,9

7,0

7,1

7,2

7,3

7,4

7,5

7,6

X: Consumo de sodio (gr/da)

Figura 6.3: Recta de regresin de ecuacin: y = 178.69 + 37.46 x


de los individuos adultos de una poblacin. Para ello, se ha seleccionado una muestra de 20 individuos y se han obtenido los datos siguientes: Ind. xi yi y i Ind. xi yi y i 1 6.96 78.37 82.05 11 6.87 81.33 78.68 2 7.51 98.29 102.66 12 7.24 83.88 92.54 3 7.17 89.67 89.92 13 7.12 83.86 88.04 4 7.15 89.42 89.17 14 7.07 88.65 86.17 5 6.94 77.32 81.30 15 7.29 97.63 94.41 6 6.91 86.70 80.18 16 6.95 79.50 81.68 7 7.22 92,67 91.79 17 7.56 103.97 104.53 8 6.98 79.36 82.80 18 7.40 101.73 98.53 9 7.07 85.34 86.17 19 7.52 105.79 103.03 10 6.88 80.06 79.05 20 7.18 99.53 90.29

En este caso se tiene x = 143/20 = 7.15, y = 1783/20 = 89.15, Sxx = 0.90, Sxy = 33.82 e Syy = 1596.56. La pendiente de la recta de regresin muestral es entonces b = Sxy /Sxx = 33.82/0.9 = 37.46 y la ordenada en el origen a = y bx = 178.689. La varianza alrededor 1 2 de la lnea ajustada es S = 202 [1596.56 37.46 33.83] = 18.31. La pendiente b indica el aumento que se produce en la recta de regresin cuando el valor de X aumenta en una unidad; en nuestro caso, cabe pensar que, en trmino medio, un aumento de un gramo en el consumo diario de sal conlleva un incremento de 37.46 mm Hg en la presin sangunea sistlica. Se ha denotado por y i el valor de la recta de regresin en el punto xi , que llamaremos prediccin del valor de la variable Y cuando X toma el valor xi . Ntese que en la Figura 6.3, con el n de obtener una mejor visualizacin de la nube de puntos, se han utilizado diferentes escalas en los ejes de abscisas y ordenadas: uno de esos ejes comienza en el valor 6.8 y otro en 75 (ninguno de ellos en 0, como es habitual). Adems, mientras que las abscisas aumentan de 0.1 en 0.1, las ordenadas aumentan de 5 en 5; como consecuencia se obtiene una falsa idea de la pendiente de la recta de regresin. Una imagen de la recta de regresin despus de corregir esto aparece en la Figura 6.4, en la que, por el contrario, resulta ms difcil distinguir unos puntos de otros.

ndice

240
Y = -178,689+37,4633*X 0,95 Int. Conf.

Elementos de Bioestadstica

100

80
Y: PS Sistlica (mm Hg)

60

40

20

0 0 20 40 60 80 100 X: Consumo de sodio (gr/da)

Figura 6.4: Aspecto real de la regresin de Y sobre X


En este sentido, a pesar de lo dicho en la observacin de la pgina 34, la primera gura puede ser preferible a la segunda, debido al efecto lupa que ejerce sobre la nube de puntos y porque no altera la impresin fundamental sobre la relacin entre ambas variables, es decir, una fuerte dependencia lineal directa entre ambas.

6.1.4.

Contraste de hiptesis e intervalos de conanza sobre la pendiente de regresin

De la expresin S 2 =

1 n2 [Syy

bSxy ] se obtiene la siguiente descomposicin: Syy = bSxy + (n 2)S 2 (1)

Notar que, puesto que y i = a + bxi = y bx + bxi , se tiene que


n i=1 n

( yi y )2 =

i=1

b2 (xi x )2 = b2 Sxx =

2 Sxy Sxx = bSxy 2 Sxx

ndice

Agustn Garca Nogales


110

241

105

100

(xi,yi) yi-yi _ yi-y

95
Y

^ yi-y

90 (x,y) 85

80

75 6,8

6,9

7,0

7,1

7,2 X

7,3

7,4

7,5

7,6

Figura 6.5: Anlisis de la varianza para el modelo de regresin lineal


y (1) se puede escribir en la forma
n i=1 n n

(yi y ) =

i=1

( yi y ) +

i=1

(yi y i )2

Esta descomposicin de la variacin total Syy =


n yi i=1 (

(yi y )2 de la variable Y se conoce

como anlisis de la varianza para la regresin lineal. El primer sumando de esa descomposicin es bSxy = y )2 se interpreta como la parte de la variacin total que queda
n i=1 (yi

explicada por la regresin lineal de Y sobre X y se llama suma de cuadrados debida a la regresin lineal. El segundo sumando (n 2)S 2 = y i )2 se interpreta como la

parte de la variacin total debida a la desviacin de las observaciones respecto a la recta de regresin y se llama suma de cuadrados residual o error. Dicho de otro modo, ante la pregunta de por qu las yi son distintas de la media y , responderemos que por dos razones: porque las yi tienden a aumentar con x (efecto debido a la regresin lineal) y porque en la variabilidad de Y , adems del azar y otras variables no consideradas en el estudio, debemos considerar una posible dependencia no lineal de la variable X , y aparece, por tanto, una variabilidad alrededor de la recta de regresin (efecto debido a la desviacin de la recta de regresin). Una medida interesante de la importancia de la v.a. X en la prediccin lineal

ndice

242

Elementos de Bioestadstica
de Y es el llamado coeciente de determinacin r2 que estudiaremos en el prximo tema y queda denido por
2 Sxy bSxy r = = = Sxx Syy Syy 2 n yi i=1 ( n ( i=1 yi

y )2 y )2

Se trata de un nmero entre 0 y 1 que nos da la proporcin de la variabilidad de Y que queda explicada por su regresin lineal en X ; cuanto ms prximo a 1 est r2 , mejor predictor lineal de Y ser la v.a. X . En particular, si b = 0, la suma de cuadrados residual es la variacin total y la regresin lineal en X no inuye en la variacin de Y . Si b = 0 los datos detectan la existencia de una cierta relacin lineal entre ambas variables; esa relacin lineal se dice directa si la pendiente muestral b es positiva (pues Y tiende a crecer cuando X crece) e inversa si b es negativa (pues Y tiende a decrecer cuando X crece). Ntese tambin que, si = 0, la distribucin de Y una vez conocido que X = x es la distribucin N (, 2 ), que no depende del valor x de la v.a. X y, por tanto, Y es independiente de X . Lo dicho en el prrafo anterior justica que el problema de contrastar la hiptesis de independencia lineal de las variables X e Y consideradas contra la alternativa de que existe dependencia (o asociacin) lineal entre ellas queda convertido en el problema de contrastar la hiptesis nula H0 : = 0 contra la alternativa H1 : = 0. En general, para resolver el problema de contrastar la hiptesis nula H0 : = 0 , tendremos en cuenta que, dado X = x y supuesta cierta la hiptesis nula, la pendiente de regresin muestral b tiene distribucin N (0 , 2 /Sxx ), por lo que la regin crtica al nivel es |b 0 | > t (n 2) S/ Sxx En particular, la regin crtica al nivel para el problema de contrastar la hiptesis de independencia lineal de las dos variables H0 : = 0 contra la alternativa de dependencia lineal H1 : = 0 es |b| > t (n 2) S/ Sxx Para establecer un intervalo de conanza para la pendiente de regresin al 100 (1 ) % de conanza, tendremos en cuenta que, dado X = x, b tiene distribucin normal N ( ; 2 /Sxx );

ndice

Agustn Garca Nogales


por tanto, el intervalo buscado es: b t (n 2) S Sxx

243

Ejemplo 6.4. (Ejemplo 6.3, continuacin) Continuando con el ejemplo considerado anteriormente, con una conanza del 95 % podemos armar que 37.46 2.101 18.31/0.9 = [27.63, 47.29] Por otra parte, para contrastar la hiptesis nula H0 : = 0 de independencia lineal entre las variables consumo de sodio y PSS calculamos el valor experimental texp = 18.31/0.9 |37.46| = 8.31

que, comparado con el valor crtico t0.05 (20 2) = 2.101, resulta signicativo (el valor P es 0.001, pues t0.001 (20 2) = 3.922). Debemos concluir entonces que consumo de sal y presin sangunea sistlica estn relacionadas. Observacin 6.5. ( ) Los programas estadsticos para ordenador suelen incorporar diversos mtodos estadsticos que permiten vericar si los datos disponibles son compatibles con las suposiciones que se hacen en el modelo de regresin lineal; en particular, nos permitirn comprobar la normalidad de los residuos y la suposicin de que la varianza no depende del valor de la variable independiente (que se suele conocer como homocedasticidad).

6.1.5.

Inferencia sobre la media de Y dado un valor de X y sobre la ordenada en el origen

Ejemplo 6.6. (Ejemplo 6.3, continuacin) Cabe preguntarse por la presin sangunea sistlica (PSS) media de los adultos que consumen 7 gramos de sal por da. Si no tuviramos en cuenta la relacin lineal entre Y y X , tendramos que tomar una muestra de individuos adultos que consuman 7 gramos de sal por da y obtener, a partir de ella, una estimacin (puntual y/o por intervalos) de la PSS media. Haciendo uso de la relacin lineal entre Y y X podemos dar esa estimacin aunque en la muestra seleccionada no haya ningn individuo que consuma 7 gramos de sal por da. De forma general, supuesto conocido que X toma el valor x, pretendemos estimar el valor + x. Evidentemente, su estimacin puntual es y = a + bx. Para obtener un intervalo de conanza para esa media, utilizaremos que, dado X = x, a + bx tiene distribucin N + x, 2 1 (x x )2 + n Sxx

ndice

244

Elementos de Bioestadstica
Por tanto, un intervalo de conanza para la media + x al nivel 1 es + x a + bx t (n 2)S 1 (x x )2 + n Sxx (2)

En particular, para x = 0 se obtiene un intervalo de conanza para la ordenada en el origen : a t (n 2)S 1 x 2 + n Sxx

Observacin 6.7. Variando x en (2), los extremos de los correspondientes intervalos determinan en el plano dos curvas que delimitan una banda alrededor de la recta de regresin. A medida que nos alejamos de la media x en uno u otro sentido, la banda se abre ms y ms; por ello, en regresin, las inferencias sobre el valor medio de Y para X = x son tanto ms precisas cuanto ms cerca de la media x est x. Anlogamente, para contrastar la hiptesis nula H0 : + x = h contra H1 : + x = h al nivel , utilizaremos la regin crtica |a + bx h| S
1 n

(xx )2 Sxx

> t (n 2)

En particular, tomando x = 0, la regin crtica para contrastar H0 : = 0 contra H1 : = 0 al nivel es |a 0 | S


1 n

x 2 Sxx

> t (n 2)

6.1.6.

Intervalos de prediccin

En muchas ocasiones el experimento de regresin se planica para predecir la variable dependiente Y a partir de un cierto valor x de la variable X . Ya sabemos que la prediccin sugerida para Y por la recta de regresin cuando X = x es y = a + bx Cabe preguntarse por la precisin con que podemos hacer esa armacin. Aprovechando el ejemplo que venimos considerando, la respuesta a esta cuestin depende de si queremos predecir la PSS de un determinado individuo a partir de su consumo de sodio por da o

ndice

Agustn Garca Nogales


si estamos interesados en la PSS media de todos los individuos que consumen una cierta cantidad de sodio por da. Este ltimo caso ya ha sido estudiado en la seccin anterior; la desviacin entre la estimacin y = a + bx y la media + x de Y dado X = x es y x. Para el primer caso, la desviacin entre la estimacin y = a + bx y el valor y de Y es y y ; se prueba que, condicionalmente en X = x, la distribucin de la variable y Y = a + bx x es N 0; 2 1 + 1 (x x )2 + n Sxx

245

Por tanto, un intervalo de prediccin para y al 100 (1 ) % de conanza es y (a + bx) t (n 2)S 1+ 1 (x x )2 + n Sxx

Observacin 6.8. Hablamos de intervalo de prediccin y no de intervalo de conanza puesto que el valor y de la variable Y no es un parmetro desconocido de la distribucin de Y , pero la interpretacin que debemos dar es anloga a la de un intervalo de conanza. Observacin 6.9. Igual que ocurra con los intervalos de conanza para la media de Y dado un valor de X , la longitud del intervalo de prediccin aumenta a medida que x se aleja de la media x . Por tanto, hacer predicciones a partir de la recta de regresin cuando x est muy lejos de x es peligroso, puesto que las predicciones pueden ser muy poco precisas. Como regla general, debera evitarse hacer predicciones para valores de X fuera del rango de sus valores observados. As, en el ejemplo que venimos considerando sobre la relacin entre el consumo de sal y la PSS, el modelo de regresin predice para un consumo nulo de sal una PSS igual a -178.69, sin sentido que queda explicado por el hecho de que hemos realizado una prediccin para un consumo nulo de sal utilizando un modelo de regresin que ha sido construido a partir de individuos que consumen entre 6.87 y 7.56 gr/da. Ejemplo 6.10. (Ejemplo 6.3, continuacin) En el ejemplo que consideramos en este tema, un intervalo de prediccin al 95 % de conanza para la PSS de un adulto que consume siete gr/da de sal es 178.69 + 37.46 7 2.101 18.31 1 + 1 (7 7.15)2 + 20 0.9

es decir, [74.21, 92.85]. Un adulto que consuma 7 gr/da de sal cuya PSS quede fuera de ese intervalo ser declarado no normal (su PSS es anormalmente grande o anormalmente pequea). La interpretacin de ese intervalo de prediccin es la misma que la que hemos dado en otras ocasiones para intervalos de conanza, es decir: supongamos que la experiencia de extraer una muestra de tamao n de adultos con un consumo de sal entorno a los 7 gr/da

ndice

246
110

Elementos de Bioestadstica

105

100

95

PSS
90 85 80 75 6,8

6,9

7,0

7,1

7,2 Sodio

7,3

7,4

7,5

7,6

Figura 6.6: Intervalo de conanza (rayas) y e intervalo de prediccin (puntos)


de sal (los valores mnimo y mximo en la muestra obtenida son 6.87 y 7.56) se realiza un nmero grande de veces; debemos pensar que para cada una de esas muestras (xi , yi ), 1 i n, se obtiene un intervalo de conanza diferente y el 95 % de esos intervalos contienen al valor y que mide la PSS del adulto con un consumo de 7 gr/da que nos interesa. La Figura 6.6 contiene el intervalo de conanza para la media de Y dado X = x y el intervalo de prediccin del valor de Y dado X = x.

ndice

6.2.

Relacin entre dos Variables Cuantitativas: Correlacin

6.2.1.

Coeciente de correlacin de Pearson y coeciente de determinacin

Ya hemos advertido que el estudio de la posible asociacin lineal entre dos variables cuantitativas se puede llevar a cabo con la tcnica de regresin lineal descrita anteriormente. Una medida del grado de asociacin lineal entre ellas es el coeciente de correlacin (que tambin nos servir para realizar un test de independencia, segn veremos). Buscando una medida del grado de asociacin entre dos variables cuantitativas, podra pensarse en la pendiente b de la recta de regresin muestral, pues es ella quin determina la posible dependencia lineal entre X e Y . Pero b posee dos inconvenientes: 1) queda afectado por un cambio lineal de escala (si las unidades de medida de Y pasan de centmetros a metros, b queda dividido por 100) y 2) la pendiente de la recta de regresin de Y sobre X es en general distinta de la pendiente de la recta de regresin de X sobre Y , y deseamos una medida simtrica del grado de asociacin entre ambas variables. Consideremos el llamado coeciente de determinacin muestral r2 =
2 Sxy Sxx Syy

que es simtrico en ambas variables y no queda afectado por cambios lineales de escala. Ntese tambin que r2 =
2 /S Sxy bSxy xx = Syy Syy

es decir, r2 es el cociente entre la variabilidad explicada por la regresin de Y sobre X y la variacin total de Y , o bien, r2 es la fraccin de la variabilidad de Y que queda explicada por su dependencia lineal de la variable X (en tanto que 1 r2 es la fraccin de variabilidad

247

ndice

248

Elementos de Bioestadstica
de Y no explicada por su dependencia lineal con X , y puede deberse a la inuencia de otras variables no consideradas en el problema o a una dependencia no lineal entre ambas). Como r2 no conserva la informacin sobre el signo de Sxy (que era tambin el signo de la pendiente b), se llama coeciente de correlacin muestral o coeciente de correlacin de Pearson la cantidad r= Sxy Sxx Syy

cantidad que s recoge el signo de Sxy , indicando dicho signo que el valor de Y crece (si r positivo) o decrece (si r negativo) cuando X crece. Se deduce de lo dicho en el tema anterior que el coeciente de correlacin muestral r toma valores entre -1 y 1 y que (n 2)S 2 = (yi y i )2 = Syy (1 r2 ), con lo cual, si r = 1, los valores yi coinciden con sus predicciones y la nube de puntos est sobre la recta de regresin y la dependencia es lineal; en el caso opuesto, r = 0 y (n 2)S 2 = Syy (que es lo mximo posible), la regresin de Y sobre X no rebaja en nada la variabilidad total de Y y las dos variables sern linealmente independientes. Para el ejemplo del consumo de sal y la presin sangunea sistlica considerado en el tema anterior, se verica que r = 33.82/ 0.9 1596.56 = 0, 8921 y r2 = 0, 796, lo que se interpreta diciendo que el 79.6 % de la variabilidad de la PSS de los adultos de la poblacin en cuestin queda justicada por su asociacin lineal con el consumo de sal, y el 20.4 % restante depende de otros factores (ambiente, alimentacin, etc) no contemplados en el estudio, del azar y de una posible relacin no lineal entre las dos variables. Ya habamos hablado anteriormente del coeciente de correlacin de la distribucin bidimensional de (X, Y ); es el coeciente de correlacin poblacional (o simplemente coeciente de correlacin) el cual es desconocido desde el punto de vista estadstico y del que el coeciente de correlacin muestral r es un estimador. En un problema particular, el investigador estar interesado en determinar si = 0 (variables linealmente independientes) o = 0 (variables dependientes), pero el verdadero valor de es desconocido. Para ello realizaremos un test de hiptesis para contrastar H0 : = 0 contra H1 : = 0. Recordemos que b = Sxy /Sxx y r = Sxy / Sxx Syy ; por tanto, b = 0 si y slo si r = 0. Del mismo modo se verica que = 0 si y slo si = 0, de

ndice

Agustn Garca Nogales


ah que el test para contrastar H0 : = 0 sea equivalente al test de independencia que ya habamos estudiado para contrastar = 0. Modicaremos el estadstico de contraste para que quede en trminos de r. El cuadrado del estadstico de contraste considerado en el caso de regresin es t2 = b2 Sxx /S 2 ; sustituyendo b y S 2 por sus valores se tiene t2 =
2 /S 2 Sxy xx Sxx (n 2) 2 /S Syy Sxy xx

249

y dividiendo numerador y denominador por Syy se obtiene que t2 = (n 2)r2 /(1 r2 ) La regin crtica al nivel para el problema de contrastar la hiptesis de independencia lineal H0 : = 0 contra H1 : = 0 es |t| = |r| n2 > t (n 2) 1 r2

Observacin 6.11. ( ) (Correlaciones espreas) En estudios prospectivos en busca de posibles relaciones entre variables conviene tener presente algunos hechos. Una correlacin alta entre dos variables no debe interpretarse sin ms como una estrecha relacin causaefecto de una variable sobre otra, a menos que haya una teora previamente establecida y avalada por estudios precedentes. Podra ocurrir que la presencia de una tercera variable no contemplada en el estudio estuviese distorsionando las conclusiones del mismo o que las suposiciones de independencia, normalidad,. . . que hemos hecho para el modelo de regresin lineal hayan sido seriamente violadas. Consideremos el siguiente ejemplo aclaratorio: en un estudio sobre alumnos de segundo de bachillerato se detect una correlacin negativa signicativa entre la estatura y la longitud del cabello, de tal suerte que podemos terminar malinterpretando los resultados diciendo que el hecho de mantener el pelo corto aumenta la altura. Un anlisis ms detallado que tenga en cuenta el sexo del alumno puede aclarar las cosas, habida cuenta de que s parece de acuerdo con nuestra experiencia que las chicas suelen ser ms bajas y llevar el pelo largo. La primera gura del grco siguiente, realizada con datos cticios, pretende ilustrar lo que acabamos de decir: en el grupo de los chicos (puntos redondos) una recta de regresin horizontal indica una correlacin prcticamente nula en ese grupo; algo anlogo ocurre en el grupo de las chicas (puntos cuadrados). Las conclusin que obtenemos al incluir la variable sexo en el estudio est ms acorde con nuestra experiencia que el caso en que el sexo no es tenido en cuenta, en el que aparece una recta de regresin con una marcada pendiente negativa que indica una correlacin negativa signicativa difcil de explicar. Se suele hablar de correlacin esprea entre dos variables para referirnos a una correlacin que, lejos de estar justicada por una relacin causa-efecto, es fundamentalmente debida a la dependencia comn de una tercera variable (en nuestro caso, el sexo).

ndice

250

Elementos de Bioestadstica

184 182 180 178 176

Estatura (cm)

174 172 170 168 166 164 162 0 2 4 6 8 Pelo (cm)


8

10

12

14

16

Sexo: V Sexo: H

Variable 2

Poblacin A+B+C+D Poblacin Poblacin Poblacin Poblacin A B C D

-1 -1 0 1 2 3 4 5 6 7 8 Variable 1

Figura 6.7: Correlaciones espreas

ndice

Agustn Garca Nogales


La presencia inadvertida de dos o ms poblaciones en la muestra puede tener el efecto de convertir en signicativa una dependencia prcticamente inexistente (como acabamos de ver), o el efecto contrario de convertir en no signicativas relaciones que pudieran ser de inters: mientras que en la muestra global la recta de regresin es prcticamente horizontal, que indicara una ausencia de relacin entre las dos variables consideradas, la dependencia entre ellas sera signicativa si ajustamos rectas de regresin a las nubes de puntos correspondientes a cada una de las poblaciones presentes en la muestra, como se ve en la segunda gura del grco anterior, en el que la gruesa recta horizontal corresponde a la muestra global (donde se ha ignorado que hay cuatro poblaciones A, B, C y D en la muestra), mientras que las 4 rectas ms nas, que sealan una dependencia signicativa entre las dos variables, corresponden a cada una de las cuatro poblaciones involucradas. Por otra parte, cuando aparecen involucradas un gran nmero de variables y estudiamos sistemticamente la correlacin entre cada dos de ellas, puesto que estamos dispuestos a asumir una probabilidad de error de tipo I del 5 %, lo que viene a decir que una de cada 20 veces que realicemos el experimento de estudiar la relacin entre dos variables incorreladas obtendremos por error una correlacin signicativamente no nula, puede ocurrir que se obtengan por azar algunas correlaciones signicativamente no nulas; por ejemplo, si disponemos de un total de 20 variables y estudiamos la relacin entre cada dos de ellas, tendremos que calcular un total de 20 19/2 = 190 coecientes de correlacin, entre los cuales, en el caso de que todos ellos fuesen nulos (cosa que, desde un punto de vista estadstico, desconocemos), pueden aparecer entre 9 y 10 correlaciones estadsticamente signicativas por azar.

251

6.2.2.

( ) Correlacin no paramtrica: Coeciente de correlacin de Spearman

El coeciente de correlacin descrito anteriormente, y los mtodos estadsticos presentados para l, funcionan bien bajo la hiptesis de normalidad; lejos de esa hiptesis puede ser preferible utilizar una alternativa no paramtrica. En la literatura se han propuesto diversas medidas no paramtricas de la correlacin entre dos variables. La ms usada es el coeciente de correlacin de Spearman. Dada una muestra (xi , yi ), 1 i n, de tamao n de la distribucin conjunta bidimensional de dos variables X e Y , se asignan rangos R1 , . . . , Rn a las xs y rangos R1 , . . . , Rn a las y s como se explica en la seccin 12.5. Se dene el coeciente de correlacin de Spearman rs como el coeciente de correlacin calculado para los n pares

ndice

252
de rangos (Ri , Ri ), es decir, rs =
n i=1 (Ri n i=1 (Ri

Elementos de Bioestadstica

)2 R

)(R R ) R i
n i=1 (Ri

)2 R

SRR SRR SR R

Una forma ms simple de calcular rs , cuando no hay empates, viene dada por la expresin rs = 1 6 2 n(n 1)
n i=1

(Ri Ri )2

Si hay empates (digamos, g grupos de empates en las xs con t1 , . . . , tg datos, respectivamente, y h grupos de empates en las y s con s1 , . . . , sh datos, respectivamente), entonces rs = (n3 n)
1 2 g 3 i=1 (ti

ti )
g 3 i=1 (ti

1 2

h 3 i=1 (si

si ) 6

n i=1 (Ri

Ri )2

[n3 n

ti )][n3 n

h 3 i=1 (si

si )]

Para contrastar la hiptesis nula H0 de independencia de X e Y , Spearman propone la regin crtica |rs | > r (n) donde los valores r (n) se obtienen de una tabla especial (Tabla XIII) para tamaos de muestra n inferiores a 50 a los niveles de signicacin usuales. Para tamaos de muestra grandes (la aproximacin se considera aceptable si n 10) podemos utilizar el estadstico ts = rs n2 2 1 rs

obtenido del anlogo para el caso normal, pero reemplazando r por rs . Su distribucin bajo la hiptesis nula de independencia es aproximadamente t(n 2); rechazaremos la hiptesis nula cuando |ts | > z

ndice

6.3.

Relacin entre dos Variables Cualitativas

6.3.1.

Test de independencia de dos variables cualitativas

En esta seccin abordaremos el problema de la relacin entre dos variables cualitativas, tambin llamadas caracteres; por ejemplo, el color de los ojos es independiente del grupo sanguneo? Para ello los datos se suelen presentar en una tabla de contingencias. Un ejemplo nos ayudar a plantear el problema. Ejemplo 6.12. Se ha llevado a cabo un estudio en una poblacin con 7306 individuos elegidos al azar para ver si el grupo sanguneo y el color de los ojos (se distinguen 3 categoras: azul, marrn y otros) estn relacionados. La tabla siguiente recoge los resultados obtenidos: Grupo A O12 = 558 O22 = 1711 O32 = 678 C2 = 2947 sanguneo B O13 = 84 O23 = 336 O33 = 125 C3 = 545

Color de ojos

Azul Marrn Otros Totales

O O11 = 920 O21 = 1817 O31 = 752 C1 = 3489

AB O14 = 48 O24 = 223 O34 = 54 C4 = 325

Totales F1 = 1610 F2 = 4087 F3 = 1609 T = 7306

Cantidades observadas

En general, una tabla de contingencias r s clasica los T individuos de una muestra con arreglo a los r niveles de una caracterstica cualitativa A y a los s niveles de otra caracterstica cualitativa B . Denotaremos por Oij (O por valor observado) el nmero de individuos de la muestra que se encuentran en el nivel i del carcter A y en el nivel j del carcter B , Fi (F por la) la suma de los Oij , 1 j s y por Cj (C por columna) la suma de los Oij , 1 i r. La cuestin que nos interesa es si el nivel en que se encuentre (o valor que tome) el carcter A condiciona a (o es condicionado por) el nivel en que se encuentre el carcter B o, por el contrario, ambos caracteres son independientes. La hiptesis nula H0 puede enunciarse de diversos modos:

253

ndice

254

Elementos de Bioestadstica
Los caracteres A y B son independientes (o A y B no estn relacionados, o tambin, A y B no estn asociados). El nivel en que se encuentre el carcter A no condiciona el nivel en que se encuentra el carcter B . Las proporciones de individuos que caen en el nivel j del carcter B para los diferentes niveles del carcter A coinciden, y eso para cada 1 j s. O, lo que equivalente, las proporciones de individuos que caen en el nivel i del carcter A para los diferentes niveles del carcter B coinciden, y eso para cada 1 i r. Matemticamente, si denotamos por Ai el suceso el carcter A est en el nivel i (o toma el valor i) y Bj el suceso el carcter B est en el nivel j , se trata de contrastar H0 : P (Ai Bj ) = P (Ai )P (Bj ), para todo par i, j contra H1 : P (Ai Bj ) = P (Ai )P (Bj ), para algn par i, j Si la hiptesis nula de independencia se supone cierta, el valor esperado Eij para la casilla (i, j ) de la tabla ser aproximadamente igual a T (Fi /T ) (Cj /T ) = Fi Cj /T , pues Fi /T es una estimacin de P (Ai ) y Cj /T es una estimacin de P (Bj ). As pues, si la hiptesis nula es cierta, los valores observados Oij deberan estar prximos a los valores esperados Eij . Usaremos el estadstico de contraste 2 =
i j

(Oij Eij )2 = Eij

2 Oij T Eij

para medir la discrepancia entre los valores observados y los esperados, que tiene bajo la hiptesis nula, para T grande, distribucin aproximada chi-cuadrado con (r 1) (s 1)

grados de libertad que venimos denotando por 2 ((r 1) (s 1)).

Observacin 6.13. (Condiciones de validez) Para que el test 2 descrito pueda aplicarse se exigen en la prctica las siguientes condiciones: ninguna de las cantidades esperadas Eij debe ser menor que 1 (pues el sumando correspondiente dara una contribucin excesiva al estadstico de contraste) y no ms del 20 % de ellas deben ser inferiores a 5.

ndice

Agustn Garca Nogales


La hiptesis nula de independencia de los dos caracteres se rechazar para valores grandes del estadstico de contraste. Concretamente, la regin crtica del test es 2 =
i j

255

(Oij Eij )2 > 2 ((r 1) (s 1)) Eij

donde el valor crtico 2 ((r 1) (s 1)) es el punto que deja a su derecha un rea igual a en la distribucin 2 con (r 1) (s 1) grados de libertad.

Ejemplo 6.14. (Ejemplo 6.12, continuacin) La tabla siguiente, junto a las cantidades observadas Oij , contiene entre parntesis las cantidades esperadas correspondientes Eij , con una precisin de 1 cifra decimal: Grupo A 558(649,4) 1711(1648,6) 678(649) 2947 sanguneo B 84(120,1) 336(304,9) 125(120) 545

Color de ojos

Azul Marrn Otros Totales

O 920(768,9) 1817(1951,8) 752(768,4) 3489

AB 48(71,6) 223(181,8) 54(71,6) 325

Totales 1610 4087 1609 7306

Cantidades observadas y esperadas Se deduce de ello que el valor experimental del test 2 es
3 4

2 =
i=1 j =1

2 Oij T = 91.6 Eij

Es claro que se verican las condiciones de validez del test. Puesto que 2 0.05 ((3 1) (4 1)) = 2 12.59, los datos son incompatibles con la hiptesis nula. Siendo 0.001 ((31)(31)) = 22.46, debemos sealar diferencias altamente signicativas entre los 4 grupos sanguneos en lo que a la distribucin del color de ojos se reere, es decir, debemos rechazar la hiptesis de independencia entre el color de ojos y el grupo sanguneo y aceptar que existe asociacin entre ellos. La tabla siguiente muestra los porcentajes por las de individuos que caen en cada casilla, con el n de visualizar las diferencias entre las distribuciones del grupo sanguneo para los diferentes colores de ojos considerados. Grupo A 34.7 % 41.9 % 42.1 % sanguneo B 5.2 % 8.2 % 7.8 %

Color de ojos

Azul Marrn Otros

O 57.1 % 44.5 % 46.7 %

AB 3% 5.5 % 3.4 %

Totales 100 % 100 % 100 %

Porcentajes por las

ndice

256

Elementos de Bioestadstica
Acabamos de ver que las diferencias que se observan entre los porcentajes de una misma columna son altamente signicativos. Anlogamente se puede construir una tabla de porcentajes por columnas con el n de visualizar las diferencias, altamente signicativas, entre las distribuciones del color de ojos entre los individuos de un mismo grupo sanguneo: Grupo O 26.4 % 52.1 % 21.6 % 100 % sanguneo B 15.4 % 61.7 % 22.9 % 100 %

Color de ojos

Azul Marrn Otros Total

A 18.9 % 58.1 % 23 % 100 %

AB 14.8 % 68.6 % 16.6 % 100 %

Porcentajes por columna Finalmente, con nes descriptivos, tiene inters la observacin de una tabla de porcentajes referidos al total de individuos que participan en el estudio, para visualizar la distribucin conjunta de las dos variables cualitativas consideradas: Grupo A 7.6 % 23.4 % 9.3 % 40.3 % sanguneo B 1.1 % 4.6 % 1.7 % 7.5 %

Color de ojos

Azul Marrn Otros

O 12.6 % 24.9 % 10.3 % 47.8 %

AB 0.7 % 3.1 % 0.7 % 4.4 %

Totales 22 % 55.9 % 22 % 100 %

Distribucin conjunta del grupo sanguneo y el color de ojos A partir de esta tabla se puede construir un diagramas de barras bidimensional en el que sobre una tabla 34 se levantan prismas sobre cada casilla de altura proporcional al porcentaje de la misma. Observacin 6.15. En el caso de una tabla de contingencias 22, el estadstico de contraste toma la forma (O11 O22 O12 O21 )2 2 = T F1 F2 C1 C2 y debe compararse con el valor 2 (1). Las condiciones de validez que suelen exigirse en el caso 22 son las siguientes: las Fi y las Cj deben ser mayores que T /10 y todas las Eij deben ser mayores que 5. Observacin 6.16. ( ) El test 2 de comparacin de varias muestras cualitativas que presentamos en el epgrafe 5.2, en el que se pretenda comparar una variable cualitativa en varias poblaciones, es un caso particular de ste: la segunda variable cualitativa es la que asigna a cada individuo su poblacin. Es conveniente, no obstante, tomar ciertas precauciones en este caso. No hay diferencia alguna entre estos dos tests si se seleccionan al azar T individuos de las poblaciones consideradas y se les clasica en la tabla de acuerdo a los valores de la variable cualitativa de inters y la poblacin a la que pertenece. Sin

ndice

Agustn Garca Nogales


embargo, si se seleccionan muestras de tamaos F1 , . . . , Fr elegidos por el investigador en las poblaciones 1, . . . , r que queremos comparar (as se ha hecho en el Tema ), la hiptesis nula debe formularse del siguiente modo: H0 : la distribucin de la variable cualitativa B es la misma en las r poblaciones consideradas; es decir, una vez construida la tabla de porcentajes por las, la hiptesis nula viene a decir que no existen diferencias signicativas entre los porcentajes que aparecen en una misma columna. No podramos, en este caso, construir la tabla de porcentajes por columnas y formular la hiptesis nula diciendo que no existen diferencias signicativas entre los porcentajes que guran en una misma la pues esos porcentajes por columnas no nos permiten estimar el porcentaje de individuos de cada poblacin en cada nivel del carcter B , ya que los tamaos muestrales en cada poblacin han sido elegidos arbitrariamente por el investigador. Por ejemplo, supongamos que, para estudiar una posible asociacin entre el color de los ojos y el desprendimiento de retina, se ha llevado a cabo un estudio con 100 individuos con desprendimiento de retina y otros 100 sin esa afeccin, y que la tabla siguiente recoge los resultados de la experiencia: Azul 32 37 69 Marrn 51 40 91 Otros 17 23 40 Totales 100 100 200

257

Desprendimiento retina No desprendimiento retina Totales

Ntese que la tabla observada coincide en este caso con la tabla de porcentajes por la, pues stas suman 100. Si par , pmr , por denotan las proporciones de individuos con desprendimiento de retina que tienen los ojos de color azul, marrn u otros, resp., y pan , pmn , pon denotan las correspondientes proporciones para los individuos sin desprendimiento de retina, la hiptesis nula debe formularse en la forma: H0 : par = pan , pmr = pmn , por = pon . La correspondiente tabla de porcentajes por columnas es: Azul 46.4 53.6 100 Marrn 56 44 100 Otros 42.5 57.5 100

Desprendimiento retina No desprendimiento retina Totales

Sin embargo, no debemos interpretar que un 46.4 % de los individuos con ojos azules tiene desprendimiento de retina, pues el investigador ha decidido seleccionar 100 individuos con desprendimiento de retina y otros 100 sin desprendimiento retina, sin que de ah se pueda colegir que el 50 % de los individuos de la poblacin tiene desprendimiento de retina. Por tanto, si denotamos por pa , pm , po las proporciones de individuos con ojos de color azul, marrn y otros, resp., no es apropiado utilizar esa tabla para contrastar la hiptesis nula H0 : pa = pm = p0 . Vase tambin la observacin 6.28; una situacin similar se encuentra en el ejemplo 1.39. Una precaucin similar debemos tener cuando lo que selecciona el investigador son los totales marginales por columnas C1 , . . . , Cs .

ndice

258

Elementos de Bioestadstica

6.3.2.

Medidas de asociacin de dos variables cualitativas

Si el test 2 resulta signicativo, admitiremos que existe una cierta asociacin (dependencia) entre los caracteres considerados. En ese caso puede resultar de inters determinar la fuerza con que la asociacin est presente. Con ese objetivo, diversas medidas de asociacin han sido propuestas en la literatura; aqu recogemos brevemente algunas de ellas, especialmente en el caso 22. a partir del estadstico de contraste 2 mediante la siguiente frmula 2 T + 2
q 1 q

El coeciente de contingencia de Pearson para una tabla de contingencias r s se dene

C=

que toma valores entre 0 (asociacin nula) y

(asociacin mxima) donde q = m n(r, s).

Ejemplo 6.17. (Ejemplo 6.12, continuacin) En el ejemplo considerado se verica que el coeciente de contingencia de Pearson es igual a 0.111; el valor mximo que podra haber alcanzado es 2/3 = 0.816, media que sugiere una dbil asociacin entre ambas variables cualitativas. Observacin 6.18. La cantidad 2 no constituye por s misma una buena medida de la asociacin entre los dos caracteres considerados debido a que queda afectado por cambios de escala; de hecho, al multiplicar los datos originales por una constante K , el estadstico de contraste queda tambin multiplicado por esa misma constante. Por tanto, la magnitud del estadstico de contraste 2 slo indica evidencia de asociacin, pero no es una buena medida de la misma. Tampoco lo pequeo que sea el valor P del test 2 mide el grado de asociacin entre los caracteres.

Una medida de asociacin muy popular en las ciencias del comportamiento para tablas de contingencias 22 es el coeciente phi que se dene por = donde 2 =
(O11 O22 O12 O21 )2 F1 F2 C1 C2

2 T

T . Este coeciente es un nmero comprendido entre 0 (aso-

ciacin nula) y 1 (asociacin mxima).

ndice

Agustn Garca Nogales

259

6.3.3.

Otras medidas de asociacin en el caso 2 2: Riesgo relativo y razn del producto cruzado

Denimos a continuacin otras medidas de asociacin para tablas 22 muy utilizadas en investigaciones epidemiolgicas. Consideraremos, concretamente, el problema de medir el grado de asociacin entre un factor de riesgo (descrito por una v.a. X ) y una enfermedad (descrito por una v.a. Y ) y supondremos que ambas variables son dicotmicas: X toma el valor 1 (respectivamente, el valor 2) si el factor de riesgo est presente (respectivamente, no est presente) en el individuo elegido; Y toma el valor 1 (respectivamente, el valor 2) si el individuo elegido ha desarrollado la enfermedad (respectivamente, no la ha desarrollado). Por ejemplo, la variable X puede describir si el individuo es o no fumador y la variable Y nos dir si ha desarrollado o no un cncer de pulmn. Denotaremos por pij la probabilidad de que X = i e Y = j , i, j = 1, 2, en la poblacin total. Denotaremos tambin pi+ = pi1 + pi2 la probabilidad de que X = i, i = 1, 2, y p+j = p1j + p2j la probabilidad de que Y = j , j = 1, 2. Podemos distinguir, adems de las consideradas anteriormente, las siguientes medidas de asociacin entre el factor de riesgo y la enfermedad: DEFINICIN 6.19. (Diferencia de riesgos) Esta medida de asociacin se dene como D = P (Y = 1|X = 1) P (Y = 1|X = 2) = p11 p21 p1+ p2+

Observacin 6.20. La diferencia de riesgos mide el incremento de tasa de enfermedad atribuible al factor de riesgo, o la proporcin esperada de individuos que no desarrollarn la enfermedad si el factor de riesgo fuese eliminado. Toma valores entre 1 y 1, correspondiendo el valor cero a la independencia entre la enfermedad y el factor de riesgo. Ejemplo 6.21. Si, entre los individuos con el factor de riesgo, el 20 % desarrollan la enfermedad, mientras que entre los que no poseen el factor de riesgo la desarrollan el 5 %, la diferencia de riesgos es igual a 0.15, lo que indica que la presencia del factor de riesgo produce un 15 % de aumento en el desarrollo de la enfermedad. DEFINICIN 6.22. (Riesgo relativo) El riesgo relativo, que se dene como R= P (Y = 1|X = 1) P (Y = 1|X = 2)

Observacin 6.23. Por tanto, R es el cociente entre la probabilidad de padecer la enfermedad cuando el factor de riesgo est presente y la probabilidad de padecerla cuando el

ndice

260

Elementos de Bioestadstica
factor de riesgo no est presente. Toma valores entre 0 y +, correspondiendo el valor 1 a la independencia entre la enfermedad y el factor de riesgo. Ejemplo 6.24. (Continuacin del ejemplo 6.21) En el ejemplo anterior, R = 4, lo que indica que entre los individuos que poseen el factor de riesgo la probabilidad de desarrollar la enfermedad es 4 veces superior que entre los que no lo poseen. DEFINICIN 6.25. (Razn del producto cruzado -en ingls, odds ratio-) Esta medida de asociacin se dene por OR =
P (Y =1|X =1) P (Y =2|X =1) P (Y =1|X =2) P (Y =2|X =2)

p22 p11 p12 p21

Observacin 6.26. La razn del producto cruzado representa la razn entre las proporciones de individuos enfermos (Y = 1) y no enfermos (Y = 2) cuando el factor de riesgo est presente (X = 1) frente a la razn entre las proporciones de individuos enfermos y no enfermos cuando no lo est (X = 2). A diferencia del riesgo relativo y la diferencia de riesgos, sta es una medida simtrica respecto a los papeles desempeados por X e Y , pues tambin OR =
P (X =1|Y =1) P (X =2|Y =1) P (X =1|Y =2) P (X =2|Y =2)

Toma valores entre 0 y +, correspondiendo el valor 1 a la independencia entre la enfermedad y el factor de riesgo. Ejemplo 6.27. (Continuacin del ejemplo 6.21) En el ejemplo que venimos considerando, OR = 4.75, lo que indica que, entre los individuos que poseen el factor de riesgo, la razn entre la probabilidad de desarrollar la enfermedad y la de no desarrollarla es 4.75 veces superior a la que se obtiene entre los individuos que no poseen el factor de riesgo.

6.3.4.

Inferencia sobre el riesgo relativo y la razn del producto cruzado

Para hacer inferencia estadstica sobre las medidas de asociacin introducidas en el epgrafe anterior, se lleva a cabo un estudio prospectivo, es decir, se seleccionan dos muestras independientes de tamaos F1 y F2 de individuos con el factor de riesgo y sin l, respectivamente, y se determina despus cuntos de ellos desarrollan la enfermedad y cuntos no.

ndice

Agustn Garca Nogales


Los datos obtenidos se representan en una tabla 22 como la siguiente: Y = 1 Y = 2 Total X=1 X=2 Total O11 O21 C1 O12 O22 C2 F1 F2 T

261

donde T es el nmero total de individuos estudiados, O11 es el nmero de individuos que poseen el factor de riesgo y han desarrollado la enfermedad, etc. Como estimador de la diferencia de riesgos poblacional utilizaremos la diferencia de riesgos muestral = O11 O21 D F1 F2 Ms utilizadas como medidas de asociacin en el caso 2 2 son el riesgo relativo y la razn del producto cruzado, cuyos estimadores respectivos son el riesgo relativo muestral, denido por = R
O11 F1 O21 F2

O11 F2 , O21 F1

y la razn del producto cruzado muestral, denida por OR =


O11 /F1 O12 /F1 O21 /F2 O22 /F2

O11 O22 O21 O12

Se verica que la varianza del logaritmo (neperiano) del riesgo relativo muestral = log O11 + log F2 log O21 log F1 log R se puede estimar por
2 Slog = R

O22 O12 + O11 F1 O21 F2

y, bajo la hiptesis nula de no asociacin (en cuyo caso el riesgo relativo es igual a 1 y su logaritmo igual a cero), el estadstico )2 (log R S2
log R

ndice

262

Elementos de Bioestadstica
tiene, para muestras grandes, distribucin aproximada 2 (1). Por tanto, la regin crtica al nivel para el problema de contrastar la hiptesis nula H0 : R = 1 de no asociacin entre factor de riesgo y enfermedad contra la hiptesis alternativa H1 : R = 1 es )2 (log R > 2 (1) S2
log R

Del mismo modo, un intervalo al 100 (1 ) % de conanza para el logaritmo del riesgo relativo es z S log R log R log R con lo que
elog Rz Slog R

se utilizar como intervalo de conanza para R. Por otra parte, el logaritmo de la razn del producto cruzado se estima por log OR = log y como estimador de su varianza utilizaremos
2 Slog = OR

O11 O22 O21 O12

1 1 1 1 + + + O11 O12 O21 O22

La regin crtica al nivel (aproximadamente para muestras grandes) para el problema de contrastar la hiptesis nula H0 : OR = 1 de no asociacin entre factor de riesgo y enfermedad contra la hiptesis alternativa H1 : OR = 1 es (log OR)2 > 2 (1) S2
log OR

y un intervalo al nivel de conanza 1 para OR es e


log ORz Slog OR

Observacin 6.28. Adems de los estudios prospectivos, se distinguen otros dos tipos de estudios: los retrospectivos y los cruzados. En los retrospectivos -o estudios caso control-, se extraen muestras independientes de tamaos C1 y C2 de individuos que han desarrollado la enfermedad y que no la han desarrollado, respectivamente, y el investigador mira en cada una de esas dos muestras cuntos individuos poseen el factor de riesgo y cuntos no. En

ndice

Agustn Garca Nogales


estudios cruzados se elige una muestra de tamao T de la poblacin general y sus individuos se clasican en una de las 4 clases determinadas por los valores de las variables X e Y . Los argumentos de la observacin 6.16.2 desaconsejan la estimacin de la diferencia de riesgos y del riesgo relativo en estudios restrospectivos. Sin embargo, la razn del producto cruzado puede ser estimada en cualquiera de los 3 tipos de estudio citados.

263

ndice

Verdadero o Falso? Captulo 6


Decidir si cada una de las proposiciones siguientes es verdadera (V) o falsa (F), justicando la respuesta. 6.1 El riesgo relativo es una medida simtrica respecto a los papeles desempeados por el factor de riesgo y la enfermedad. 6.2 Una recta de regresin horizontal denota ausencia de dependencia lineal entre las dos variables consideradas. 6.3 La longitud del intervalo de prediccin en un problema de regresin lineal aumenta a medida que el valor de la variable independiente se aleja de la media. 6.4 En el modelo de regresin lineal, la suma de cuadrados residual dividida por n 2 es un estimador de la varianza de regresin. 6.5 La suma de cuadrados
n yi y )2 i=1 (

en el modelo de regresin lineal se interpreta

como la parte de la variacin total de Y explicada por el azar. 6.6 En un estudio sobre la relacin entre dos variables cuantitativas X e Y medidas en un mismo individuo, es posible que el coeciente de correlacin muestral r y la pendiente de regresin muestral b veriquen que r b > 0? 6.7 La suma de cuadrados
n i )2 i=1 (yi y

en el modelo de regresin lineal se interpreta

como la parte de la variacin total de Y explicada por la regresin lineal en X . 6.8 La igualdad
n i=1 (yi

y )2 =

n yi i=1 (

y )2 +

n i=1 (yi

y i )2 se conoce como

anlisis de la varianza para el modelo de regresin lineal. 6.9 Si la razn del producto cruzado (odds ratio) toma el valor 1, no existe asociacin entre el factor de riesgo y la enfermedad. 6.10 Si la recta de regresin entre dos variables cuantitativas es decreciente, el coeciente de correlacin entre esas dos variables es negativo.

264

ndice

Agustn Garca Nogales


6.11 Si y = a + bx es la ecuacin de la recta de regresin muestral entre la variable dependiente Y =talla y la variable independiente X =edad calculada a partir de una muestra de nios entre 3 y 9 meses de edad, entonces a es la prediccin que podemos hacer para la talla de un nio de tres meses de edad. 6.12 En el modelo de regresin lineal, la suma de cuadrados residual (n 2)S 2 queda explicada exclusivamente por el azar. 6.13 ( ) El coeciente de correlacin de Spearman para una muestra (xi , yi ), 1 i n, de la distribucin de dos variables cuantitativas X e Y es el coeciente de correlacin de Pearson calculado a partir de los pares (Ri , Si ), 1 i n, siendo Ri el rango de xi y Si el de yi . 6.14 Cuando vale 1 el coeciente de determinacin r2 para una muestra (xi , yi ), 1 i n, de la distribucin de dos variables cuantitativas X e Y , todos los puntos (xi , yi ) estn alineados. 6.15 Si la diferencia de riesgos toma el valor 1, no existe asociacin entre el factor de riesgo y la enfermedad. 6.16 El riesgo relativo es el cociente entre las probabilidades de padecer la enfermedad cuando el factor de riesgo est presente y cuando no. 6.17 Dadas dos v.a.r. X e Y , la recta de regresin de Y sobre X es la funcin de X que mejor aproxima a Y en el sentido de los mnimos cuadrados. 6.18 Si en una tabla de contingencias r s el test 2 para contrastar la independencia dos variables cualitativas resulta signicativo, admitiremos que hay diferencias signicativas entre las cantidades marginales por las F1 , . . . , Fr 6.19 Si el riesgo relativo para el estudio de la relacin entre un factor de riesgo y una enfermedad es igual a 1.4, el porcentaje de individuos con el factor de riesgo que desarrollarn la enfermedad es un 40 % superior al correspondiente a los individuos sin el factor de riesgo.

265

ndice

266
6.20

Elementos de Bioestadstica
En un estudio en nios sobre la relacin entre el hecho de haber recibido una determinada vacuna y padecer en los meses siguientes una invaginacin intestinal, se ha facilitado una odds ratio igual a 1.1. Podemos concluir, entonces, que el cociente entre las probabilidades de sufrir una invaginacin y no sufrirla es un 10 % (es decir, 1.1 veces) superior en la poblacin de nios vacunados que en la de no vacunados.

ndice

Problemas del Captulo 6


6.1 Las presiones sanguneas de 20 matrimonios cuyos miembros tienen edades entre 25 y 34 aos elegidos al azar son recogidas en la tabla siguiente: Matrimonio X : Marido Y : Mujer Matrimonio X : Marido Y : Mujer 1 136 110 11 156 135 2 121 112 12 98 115 3 128 128 13 132 125 4 100 106 14 142 130 5 110 127 15 138 132 6 116 100 16 126 146 7 127 98 17 124 127 8 150 142 18 137 128 9 180 143 19 160 135 10 172 150 20 125 110

a) Contrasta la hiptesis de independencia lineal entre las presiones sanguneas de las mujeres y la de sus maridos. b) Qu porcentaje de la variabilidad de las presiones sanguneas de las mujeres queda explicada por su regresin lineal en X ? c) Si un nuevo matrimonio entre esas edades se considera en el estudio y se sabe que el marido tiene presin sangunea igual a 140, qu prediccin puede hacerse para la presin sangunea de la mujer? Da un intervalo de prediccin al 95 % de conanza. Indicacin: Utiliza que x = 133.9, y = 124.95,
20 i=1 (xi 20 i=1 (xi

x )(yi y ) = 4271.9,

20 i=1 (yi

y )2 = 4412.95.

x )2 = 8923.8,

6.2 El volumen expiratorio forzado (VEF) es una medida estndar de la funcin pulmonar. A partir del VEF de 655 chicos de entre 10 y 15 aos se obtuvieron los siguientes datos que relacionan la altura en cm con el VEF medio medido en litros: Altura (X ) VEF Medio (Y ) Altura (X ) VEF Medio (Y ) 134 1.7 158 2.7 138 1.9 162 3.0 142 2.0 166 3.1 146 2.1 170 3.4 150 2.2 174 3.8 154 2.5 178 3.9

(a) Determina la recta de regresin de Y sobre X .

267

ndice

268

Elementos de Bioestadstica
(b) Contrasta la hiptesis de independencia lineal entre ambas variables. (c) Qu proporcin de variabilidad del VEF medio queda explicado por su dependencia lineal de la altura? Nota:
2 = 93.11, yi

xi = 1872,

x2 i = 294320,

yi = 32.3,

xi yi = 5156.2.

6.3 En un estudio sobre una muestra de 264 personas con enfermedad depresiva unipolar se han registrado el sexo y si ha habido alguna hospitalizacin debida a la enfermedad, obtenindose los siguientes resultados: Hosp. s Hombre Mujer Total 48 32 80 Hosp. no 75 109 184 Total 123 141 264

a) Existe alguna asociacin entre las dos variables? Ind.: Respndase utilizando como medida de asociacin la razn del producto cruzado. b) Facilita una estimacin y un intervalo de conanza para esa medida de asociacin. Solucin: Pg. 342 6.4 Para decidir si la concentracin de amonaco en sangre aumenta durante su almacenaje a cuatro grados centgrados, se han seleccionado diversas muestras de sangre y se han registrado para cada una de ellas el nmero de das (X ) que llevan almacenadas y su concentracin de amonaco (Y ) en g/dL. La tabla siguiente contiene los resultados obtenidos, aunque debe tenerse en cuenta que a la muestra de sangre con 0 das de almacenamiento se le determin su concentracin de amonaco 2 horas despus de haber sido almacenada. Das (X ) 0 1 3 4 5 5 20 21 21 21

Amonaco (Y ) 128 167 244 185 194 214 685 770 930 620 a) Dibuja la nube de puntos y, por inspeccin, decidir si la relacin entre las variables X e Y puede ser aproximada por una lnea recta.

ndice

Agustn Garca Nogales


b) Ejecuta un test apropiado para responder estadsticamente a la cuestin planteada en a), y cuantica de algn modo la relacin entre esas dos variables. c) Estima la tasa de incremento de concentracin de amonaco y proporciona un intervalo de conanza al 95 % para ella. d) Se ha determinado que el nivel de amonaco en la sangre recin extrada es prcticamente nula. Los datos anteriores son compatibles con esta armacin? Explica el resultado. e) Utiliza los datos precedentes para predecir el contenido de amonaco a los 10 das de almacenamiento, y facilita un intervalo al 95 % para esa prediccin. f) Estima el nivel medio de amonaco en muestras de sangre que llevan 10 das almacenadas y facilita un intervalo al 95 % de conanza para l.

269

6.5 La tabla siguiente contiene el porcentaje de reticulocitos (variable X ) y el nmero de linfocitos por mm2 (variable Y ) de 9 pacientes con aplasia medular.

X Y

3,6 1700

2 3078

0,3 1820

0,3 2706

0,2 2086

3 2299

0 676

1 2088

2,2 2013

(a) Calcula el coeciente de determinacin entre Y y X e interprtalo. (b) A partir de ese valor, decide si la relacin lineal entre Y y X es estadsticamente signicativa; calcula y comenta el valor P .

6.6 Se ha llevado a cabo un estudio sobre 1000 nios para estudiar la posible relacin entre el grado de cumplimiento de su calendario de vacunaciones y el nivel socio-cultural de sus padres. La tabla de contingencias 33 siguiente recoge los datos obtenidos:

ndice

270

Elementos de Bioestadstica
Cumplimiento Alto Alto Nivel Medio Bajo Totales 65 318 170 558 Medio 23 147 171 346 Bajo 15 10 81 96 Totales 103 475 422 1000

Qu conclusiones se pueden obtener de esos datos? Proporciona una medida de asociacin entre ambas variables. Solucin: Pg. 342

ndice

Verdadero o Falso? SEGUNDA PARTE


Decidir si cada una de las proposiciones siguientes es verdadera (V) o falsa (F), justicando la respuesta. II.1 II.2 El nivel mnimo de signicacin de un test no depende de los datos obtenidos. Si X es una v.a. con distribucin binomial B (n, p) de parmetro desconocido p, entonces X/n es un estimador insesgado de mnima varianza de p. II.3 Si en el problema de comparacin de dos medias de dos distribuciones normales la hiptesis nula es H0 : 1 2 , la hiptesis nula se rechazar siempre que la media muestral de la primera muestra sea estrictamente mayor que la de la segunda. II.4 Si el test de comparacin de dos medias de dos distribuciones normales resulta no signicativo a un nivel de signicacin ]0, 1[, entonces sigue siendo no signicativo para cualquier nivel de signicacin inferior a . II.5 Se dispone de una muestra de tamao n de una distribucin normal de varianza
2 y media desconocida . Si [a, b] es un intervalo de conanza para al conocida 0

nivel de conanza 1 y ] , c] es un intervalo de conanza unilateral para al mismo nivel de conanza 1 entonces b < c. II.6 La longitud del intervalo de conanza para la media de una distribucin normal aumenta con el nivel de conanza que deseamos para el mismo. II.7 El nivel mnimo de signicacin de un test es la probabilidad de obtener un valor del estadstico de contraste tan extremo o menos que el realmente obtenido supuesta cierta la hiptesis nula. II.8 La longitud del intervalo de conanza para la media de una distribucin normal de varianza conocida aumenta con la varianza. II.9 El nivel mnimo de signicacin de un test es la probabilidad de obtener bajo la hiptesis nula un valor del estadstico de contraste tan o ms extremo que el realmente obtenido.

271

ndice

272
II.10

Elementos de Bioestadstica
Un intervalo de conanza para un parmetro desconocido es una estimacin conjuntista del mismo y, como tal, sus extremos, adems de depender de los datos, pueden depender del parmetro.

II.11

Un test de hiptesis es un mtodo estadstico que nos permite decidir si se acepta o no la hiptesis nula formulada a partir de los datos obtenidos de la experimentacin.

II.12

Un estadstico es una funcin de los datos o, lo que es lo mismo, una aplicacin denida en una estructura estadstica.

II.13

Dado un intervalo de conanza al nivel de conanza 1 para la media desconocida , entenderemos que a lo sumo un 100 % de las veces que realicemos el experimento obtendremos un intervalo que deja fuera a la media .

II.14

En un problema de contraste de hiptesis la decisin nal depende de las suposiciones que se hacen en la estructura estadstica de partida.

II.15

Un intervalo al 95 % de conanza para un parmetro es un intervalo que contiene el 95 % de los valores posibles del parmetro.

II.16

( ) Se usa el test de rangos con signo de Wilcoxon para muestras relacionadas para una suma de rangos igual a 121 basado en 17 diferencias no nulas. El valor P del test verica 0.01 < P < 0.05.

II.17

Consideremos el problema de contrastar la hiptesis 0 contra > 0 a partir de una muestra de una distribucin normal de media y varianza desconocidas. Siempre que la media muestral sea negativa aceptaremos la hiptesis nula.

II.18

En un problema de comparacin de dos muestras independientes de tamaos 9 y 14 en ausencia de normalidad, la suma de los rangos de los datos de la primera muestra toma el valor 69. El valor P del test est entre 0.01 y 0.05.

II.19

Supongamos que, en el problema bilateral de comparacin de dos medias a partir de dos muestras independientes de tamaos 17 y 15 de dos distribuciones normales

ndice

Agustn Garca Nogales


con varianzas desconocidas pero iguales, el valor experimental del test es igual a 3.16. Entonces el test es muy signicativo. II.20 El test de DAgostino pretende comprobar la hiptesis de independencia de los datos obtenidos de una muestra de la poblacin. II.21 Se quiere contrastar 3 contra > 3 a partir de una muestra de tamao 10 de

273

una distribucin normal con parmetros y 2 desconocidos. Si la varianza muestral toma el valor 18, la decisin es aceptar la hiptesis nula. II.22

Para calcular el estadstico de contraste del test de comparacin de dos proporciones en el caso de muestras independientes no necesitamos conocer exactamente las proporciones muestrales p 1 y p 2 de ambas muestras: basta conocer su diferencia p 1 p 2 .

II.23

Con el objetivo de comparar dos medicamentos A y B para el tratamiento de una enfermedad, se piensa en seleccionar 100 enfermos al azar y basar la comparacin en el porcentaje de enfermos que sanan con cada uno de ellos. El test de McNemar es un instrumento razonable para tomar una decisin de ese tipo.

II.24

En el problema de comparacin de dos medias para poblaciones normales en de las diferencias Xi Yi , el caso de muestras relacionadas, la media muestral D

Y de las medias muestrales. 1 i n, coincide con la diferencia X II.25

En la determinacin del intervalo de conanza para la diferencia de dos proporciones relacionadas slo se tienen en cuenta los individuos con respuesta dispar.

II.26

Admitamos que el peso (en Kg) de los individuos varones de 18 aos de una cierta poblacin sigue una distribucin normal de media desconocida y varianza conocida 400. Si la media muestral de una muestra de tamao 100 de varones de 18 aos es igual a 75, el peso del 95 % de los varones de 18 aos de la poblacin estar entre 71.08 y 78.92 Kg.

ndice

274
II.27

Elementos de Bioestadstica
En el modelo de clasicacin simple en anlisis de la varianza, si la variacin dentro aumenta y la variacin entre permanece constante, el nivel mnimo de signicacin del test F disminuye.

II.28

El modelo de clasicacin simple en anlisis de la varianza nos permite estudiar la relacin entre una variable cuantitativa y otra cualitativa.

II.29

( ) El test de Kruskal-Wallis est inspirado en la idea de que debe rechazarse la hiptesis de homogeneidad de las muestras comparadas si son pequeas las diferencias observadas entre los rangos medios de las mismas.

II.30

Si las varianzas de las diferentes muestras en un anlisis de la varianza son muy diferentes, es cuestionable la decisin proporcionada por el test F .

II.31

Si en el modelo de clasicacin simple en anlisis de la varianza la variacin entre es nula, entonces las medias muestrales de las distintas muestras coinciden entre s y con la media general de todos los datos obtenidos.

II.32

Si en una tabla de contingencias r s para la comparacin de varias muestras en el caso discreto se supone cierta la hiptesis nula de que todas las muestras han sido extradas de la misma poblacin, la cantidad esperada de individuos en la casilla (i, j ) es igual a Fi Cj T , siendo Fi el nmero de individuos en la la i, Cj el nmero de individuos en la columna j y T el nmero total de individuos.

II.33

En el modelo de clasicacin simple en anlisis de la varianza, la parte de la variacin total explicada por el azar dividida por sus grados de libertad constituye un estimador de la varianza comn de las variables que observamos.

II.34

La suma de cuadrados

n yi y )2 i=1 (

en el modelo de regresin lineal se interpreta

como la parte de la variacin total de Y explicada por la regresin lineal en X . II.35 La diferencia de riesgos se interpreta como la proporcin esperada de individuos que no desarrollarn la enfermedad si el factor de riesgo es eliminado.

ndice

Agustn Garca Nogales


II.36 El modelo de regresin lineal se puede utilizar para estimar la media de la variable dependiente Y a un valor dado de la variable independiente X aunque entre los datos disponibles no gure ningn valor de Y para ese valor de X . II.37 El modelo de regresin lineal presupone que, dado un valor x de la variable independiente X , la variable dependiente Y tiene distribucin normal de media + x y varianza 2 > 0, donde , y 2 son parmetros desconocidos. II.38 Las pendientes de las rectas de regresin muestrales de Y sobre X y de X sobre Y coinciden. II.39 Si en una tabla de contingencias r s para el estudio de la relacin entre dos

275

variables cualitativas todos los valores observados son iguales a 10, el test 2 rechaza la hiptesis de independencia entre esas dos variables. II.40

En un estudio sobre la relacin entre dos variables cuantitativas X e Y medidas en un mismo individuo, si el coeciente de determinacin r2 est prximo a 1, entonces Y tiende a crecer cuando X crece.

II.41 II.42

La pendiente de la recta de regresin muestral de X sobre Y es igual a Sxy /Syy . Supongamos conocido que el coeciente de determinacin muestral para una muestra de tamao 22 de la distribucin conjunta de dos variables cuantitativas es igual a 0.4. El valor P del test de independencia entre ambas variables verica que 0.001 < P < 0.01.

II.43

Si tras contrastar la hiptesis de independencia lineal = 0 entre X e Y en el modelo de regresin lineal, la decisin es rechazar la hiptesis nula entonces debemos aceptar que existen constantes a y b tales que Y = a + bX .

II.44

Si y = a + bx es la ecuacin de la recta de regresin muestral entre la variable dependiente Y =talla y la variable independiente X =edad calculada a partir de una muestra de nios entre 3 y 9 meses de edad, entonces 2b es la estimacin que ofrece el modelo de regresin lineal del aumento de talla de un nio que aumenta su edad en dos meses.

ndice

276
II.45

Elementos de Bioestadstica
Si el coeciente de correlacin de Pearson entre dos variables cuantitativas Y y X es igual a 0.5, entenderemos que el 50 % de la variabilidad de Y queda explicada por la regresin lineal en X .

II.46

Si en una tabla de contingencias r s para estudiar la relacin entre dos variables cualitativas X e Y el coeciente de contingencia de Pearson es igual a 0.5, entenderemos que el 50 % de la variabilidad de Y queda explicada por su asociacin con X.

II.47

En el estudio de la asociacin entre dos variables dicotmicas se obtiene una tabla de contingencias 22 en la que la segunda la es exactamente igual a la primera. Entonces se acepta la hiptesis de independencia de esas variables.

II.48

Si el coeciente de correlacin de Pearson de un conjunto de pares de datos numricos es muy alto entenderemos que existe una fuerte dependencia lineal entre las dos variables que generaron esos datos.

II.49

En una tabla de contingencias 5 4 para contrastar la hiptesis de independencia de las dos variables cualitativas consideradas, el valor del estadstico de contraste es igual a 32.76. Podemos concluir, por tanto, que el test es altamente signicativo.

II.50

La distribucin normal bivariante es la distribucin de probabilidad de un par de variables normales X e Y que depende solamente de 4 parmetros: las medias y las varianzas de X e Y .

II.51

Si en una tabla de contingencias las cantidades observadas coinciden con las esperadas, existe mxima asociacin entre las variables cualitativas consideradas.

II.52

Si la diferencia de riesgos para el estudio de la relacin entre un factor de riesgo y una enfermedad es igual a 0.3, el porcentaje de individuos con el factor de riesgo que desarrollarn la enfermedad es un 3 % superior al correspondiente a los individuos sin el factor de riesgo.

ndice

PROBLEMAS DE LA SEGUNDA PARTE


II.1 En un estudio realizado en 1985 sobre mujeres entre 30 y 39 aos de edad se obtuvo que el 20 % de las mujeres que utilizaban anticonceptivos se haban decidido por un mtodo anticonceptivo irreversible. Se sospechaba que eso podra haber cambiado en la dcada siguiente y en 1995 se eligieron al azar 100 mujeres entre 30 y 39 aos que usan anticonceptivos y se observ que 25 de ellas utilizan un mtodo irreversible. Con ese planteamiento, decide cules son las hiptesis nula H0 y alternativa H1 y determina el valor P del test correspondiente. II.2 Los niveles de testosterona en sangre de diez personas elegidas al azar de una poblacin son 15.49, 15.20, 20.98, 10.35, 28.30, 10.66, 19.78, 13.57, 14.38 y 20.51. (a) Decide si es asumible la hiptesis de normalidad para la distribucin de la que se han extrado esos datos. (b) Asumiendo normalidad, conrma si esos datos soportan la hiptesis de que el nivel medio de testosterona en la poblacin en cuestin es igual a 21. Calcula y comenta el valor P . II.3 Se desea comparar las precisiones de dos mtodos A y B de medida de la tiroxina libre, para lo cual se toma una muestra de tiroxina y se le mide 10 veces por el mtodo A y 9 por el mtodo B. Los datos se resumen en las medias muestrales x = 0.97 e y = 1.20 y en las desviaciones tpicas muestrales S1 = 0.067 y S2 = 0.118. Qu conclusin podemos obtener de esos datos? II.4 Con la intencin de obtener los lmites de normalidad o tolerancia para la presin sangunea sistlica en una poblacin se ha extrado de la misma una muestra de tamao 25 de la misma y se han calculado la media y varianza muestrales a partir de los datos obtenidos: x = 130 y S 2 = 729. Calcular esos lmites de tolerancia si pretendemos que entre ellos se encuentre el 90 % de la poblacin con una conanza del 95 %. II.5 Una muestra de 13 personas ha sido dividida al azar en dos grupos de 6 y 7 personas,

277

ndice

278

Elementos de Bioestadstica
respectivamente. Se ha administrado un frmaco A al primer grupo y un frmaco B al segundo. Despus se ha extrado sangre a cada una de esas personas y se ha determinado el tiempo en minutos que tarda en coagular la muestra de sangre extrada. Esos tiempos son los siguientes: Frmaco A: 8.8, 8.4, 7.9, 8.7, 9.1, 9.6; frmaco B: 9.9, 9.0, 11.1, 9.6, 8.7, 10.4, 9.5. (a) Asumiendo normalidad e igualdad de varianzas, podemos concluir que el tiempo medio de coagulacin para el frmaco A es superior al del frmaco B? (b) Es signicativo el test de comparacin de las varianzas de ambas muestras? II.6 En un estudio llevado a cabo en varones mayores de 14 aos en la ciudad de Badajoz con el objetivo de estimar el porcentaje de bebedores de riesgo (BR) y su distribucin por grupos de edad y por centro de salud (CS), se ha extrado una muestra de 856 individuos y se ha aplicado a cada uno de ellos una encuesta a partir de la cual se toma la decisin de declarar o no bebedor de riesgo al individuo haciendo uso de un criterio elaborado por Altisent y otros. Los datos obtenidos se resumen en las tablas siguientes categorizados por grupos de edad y por centro de salud: Edad BR Total CS BR Total La Paz 47 198 14 a 29 62 268 30 a 64 85 440 > 64 11 148 Total 158 856 Anexo 36 266 Centro 10 86 Total 158 856

San Fernando 50 173

San Roque 15 133

a) Estima la proporcin de bebedores de riesgo en la poblacin considerada y facilitar un intervalo de conanza al 95 % para ella. b) Contrasta la hiptesis nula bilateral de que el porcentaje de bebedores de riesgo es del 20 %. c) Existen diferencias signicativas entre las proporciones de bebedores de riesgo entre los grupos de edad 1429 y 30? Facilitar un intervalo de conanza para la

ndice

Agustn Garca Nogales


diferencia de proporciones. II.7 Uno de los modos de valorar un cemento dental consiste en comprobar si la pieza dental a la que fue aplicado ha sufrido algn deterioro a los 5 aos de su aplicacin. Con objeto de comparar dos cementos dentales A y B, fueron aplicados a 90 y 104 individuos, respectivamente, y al cabo de 5 aos se encontr que 21 de los que recibieron el cemento A y 32 de los que recibieron el B sufrieron algn deterioro en las piezas cementadas. A la luz de estos datos, podemos concluir que ambos cementos son igualmente efectivos? II.8 Un programa de desintoxicacin etlica para adultos posee un 70 por ciento de xito. En un grupo de 100 individuos que siguieron el programa, 79 dejaron denitivamente el alcohol. Representa este dato evidencia suciente de que el porcentaje de xito ha aumentado? II.9 Se ha llevado a cabo un estudio para estudiar el efecto del etanol en la vaso-dilatacin retinal tras la administracin de metanol (1 g/Kg) mediante un tubo nasogstrico. Se ha contado el nmero de venas dilatadas en la retina en las dos situaciones siguientes: la primera corresponde a la administracin de metanol tal y como se ha indicado, y la segunda experiencia se repiti dos semanas despus pero, en esta ocasin, tras la dosis de metanol se aadi media hora ms tarde una dosis oral de etanol (1.4 g/Kg). Los datos obtenidos son los siguientes: Metanol solo Metano+Etanol 10 6 9 5 7 5 10 1 7 6 4 7 8 5 4 5 10 7

279

Contrasta la hiptesis de igualdad de medias. II.10 Con el objetivo de decidir si el uso de medicacin tiroidea puede inuir en el desarrollo de un cncer de mama, se ha realizado un estudio sobre 1851 mujeres, de las cuales 974 fueron elegidas al azar entre mujeres que han desarrollado un cncer de mama y 877 entre mujeres que no han desarrollado cncer de mama. Se ha observado que 90 entre las primeras y 66 entre las segundas haban tomado tal medicacin. Analiza

ndice

280

Elementos de Bioestadstica
esos datos y comenta los resultados, realizando un test apropiado y presentando un intervalo al 95 % de conanza.

II.11 La tabla siguiente contiene las temperaturas de 12 nias de 4 aos afectadas de gripe antes y despus de haber ingerido aspirina.

Antes Despus Antes Despus

39.1 37.6 39.2 38.3

39.6 37.8 39.5 37.8

38.8 37.9 39.3 38.2

39.4 38.4 39.1 38.4

38.4 37.7 38.8 38.5

38.2 37.9 38.6 37.9

a) Podemos concluir que la aspirina es efectiva en la reduccin de la temperatura de nias de 4 aos con gripe? Ind.: Antes de seleccionar un test para responder a esa cuestin, verica si es asumible la hiptesis de normalidad y acta en consecuencia. b) Responde a la misma cuestin del apartado a) haciendo uso de un mtodo estadstico alternativo al utilizado all. c) Asumiendo normalidad, estima la reduccin media de temperatura tras la administracin de aspirina y facilita un intervalo al 95 % de conanza para la diferencia de medias. II.12 Con el objetivo de comparar las longitudes de los brazos derecho e izquierdo de una cierta poblacin, se seleccionan al azar 10 individuos de la misma, observndose las siguientes diferencias en mm entre la longitud del brazo derecho y la del brazo izquierdo: 5.5, -3.2, 3.9, -1.5, 0.8, 4.7, 2.8, -1.9, 4.4, 2.5. Puede sostenerse, a la luz de estos datos y asumiendo normalidad, que la longitud del brazo derecho es mayor que la del brazo izquierdo. Calcula y comenta el valor P . II.13 En un estudio realizado sobre recin nacidos se pretende decidir si el nmero de latidos de corazn por minuto depende de la raza del nio. Los datos obtenidos se resumen en la siguiente tabla:

ndice

Agustn Garca Nogales


Raza Blanca Negra Media muestral 125 133 Desviacin tpica muestral 11 12 n 218 156

281

Decide si existen o no diferencias entre el nmero medio de latidos en ambas razas, comprobando previamente la hiptesis de igualdad de varianzas. Proporciona cotas para el valor P en ambos casos. II.14 Se determinaron los niveles de testosterona en sangre a 10 personas supervivientes de infarto de miocardio y a 10 personas sanas, obtenindose las medias y desviaciones tpicas (en formato x s) siguientes: Grupo infarto: 15.84 4 Grupo control: 19.27 7.8 A la luz de esos datos, puede armarse que los individuos supervivientes de un infarto de miocardio tienen un dcit en sangre de testosterona? II.15 En un estudio realizado en EE.UU. sobre 300 mujeres entre 50 y 55 aos cuyas madres tuvieron cncer de mama, se observ que 12 haban padecido un cncer de mama en algn momento de sus vidas. Supuesto conocido que la prevalencia de cncer de mama en mujeres estadounidenses entre 50 y 55 aos es del 2 %, podemos armar que el hecho de que la madre haya sufrido cncer de mama aumenta la probabilidad de tener esa enfermedad? Realiza un test apropiado para responder a esa cuestin y construye un intervalo al 95 % de conanza adecuado. Comenta todos los resultados obtenidos. II.16 Para evaluar la inuencia del tipo de acidosis del recin nacido en los niveles de glucemia medidos en el cordn umbilical del mismo, se obtuvieron los siguientes datos: Controles Acidosis respiratoria Acidosis metablica Acidosis mixta 51 60 69 70 56 65 73 75 58 66 74 76 60 68 78 77 62 68 79 79 63 69 79 80 65 73 82 82 68 75 85 86 73 78 87 88 73 80 88 89

ndice

282

Elementos de Bioestadstica
Asumiendo normalidad, analiza esos datos y decide si el tipo de acidosis inuye realmente en el nivel de glucemia, comentando el nivel mnimo de signicacin P . Nota: la suma de los datos de las las 1, 2, 3 y 4 son, respectivamente, 628, 702, 794, 802. La suma de todos los datos es igual a 2926.

II.17 Se pretende contrastar una teora sobre el cncer de mama que arma que el tiempo que transcurre entre la primera menstruacin y el primer parto inuye en la probabilidad de desarrollar un cncer de mama. Para ello se lleva a cabo un estudio caso/control en el que interviene un total de 13465 mujeres que han tenido al menos un hijo; 3220 de ellas haban desarrollado un cncer de mama (caso) y 10245 no lo haban desarrollado (control). A cada una de ellas se le pregunt por la edad a la que tuvieron su primer hijo. Los datos obtenidos se recogen en la tabla siguiente: < 20 Caso Control Total 320 1422 1742 20-24 1206 4432 5638 25-29 1011 2893 3904 30-34 463 1092 1555 35 220 406 626 Total 3220 10245 13465

Podemos concluir a partir de esos datos si hay relacin entre la edad del primer parto y el desarrollo de cncer de mama? II.18 Un cirujano sospecha que determinados tipos de dolores se alivian slo con dar un medicamento, sea ste potente o no. Para contrastar esa hiptesis selecciona 15 pacientes a los que se acaba de extirpar las amgdalas y los asigna aleatoriamente a uno de 3 grupos; al primer grupo le administra un placebo, y al segundo y al tercero dos analgsicos A y B. Los tiempos (en horas) transcurridos hasta que los pacientes se quejaron de dolor son recogidos en la siguiente tabla: Placebo A B 2.2 2.8 1.1 0.3 1.4 4.2 1.1 1.7 3.8 2.0 .3 2.6 3.4 4.3 0.5

Conrman esos datos las sospechas del cirujano?

ndice

Agustn Garca Nogales


II.19 Un grupo de 28 pacientes que han sufrido una hemorragia a causa de un aneurisma intracraneal han sido asignados aleatoriamente a uno de cuatro posibles tratamientos: reposo en cama (RC), hipotensin inducida por medicacin (HIM), ligamento de cartida (LC) y ciruga intracraneal (CI). La tabla siguiente muestra el nmero de semanas hasta la muerte para esos pacientes. RC HIM LC CI 55 37 20 12 32 49 16 19 13 66 58 38 34 21 34 25 6 101 85 18 48 38 67 54 11 51 50 46

283

a) Realiza un test paramtrico para evaluar las posibles diferencias en los tiempos de supervivencia entre los 4 grupos. b) En caso de que las diferencias sean signicativas, compara esos grupos dos a dos. c) Facilita intervalos al 95 % de conanza para las diferencias de medias. d) Repite los apartados a) y b) utilizando un test no paramtrico. II.20 Estamos interesados en la posible relacin entre el infarto de miocardio y el consumo de caf en varones de edad comprendida entre 60 y 64 aos. Se eligen 200 individuos al azar de esa poblacin y se obtienen los siguientes resultados: Tazas de caf/da Infarto en los 5 ltimos aos Nm. personas 0 Si 3 0 No 57 1 Si 7 1 No 43 2 Si 8 2 No 42 3 Si 12 3 No 28

Realiza un test para investigar si existe relacin entre el nmero de tazas de caf consumidas por da y el hecho de haber sufrido o no un infarto de miocardio en los ltimos cinco aos. II.21 La tabla siguiente contiene determinaciones en tero de catalasa (CAT) y malondialdehido (MDA) de 14 ratas.

ndice

284
Rata CAT MDA Rata CAT MDA 1 51.6 24.8 8 47.6 22.8 2 48.7 25 9 40.6 22.9 3 42.6 23.8 10 49.5 20.6 4 38

Elementos de Bioestadstica
5 50.1 27.2 12 55.1 24.7 6 60.2 21.3 13 46.2 23.2 7 41.3 24.2 14 52.1 25.1

23.5 11 42 24

a) Determina la recta de regresin de CAT sobre MDA y decidir si existe dependencia lineal entre esas variables. b) Calcula el coeciente de correlacin entre ambas y cuanticar el porcentaje de variabilidad de CAT explicada por la regresin lineal en la variable CAT. II.22 En un hospital materno se han registrado los nacimientos prematuros y el consumo de tabaco de la madre durante un ao, habindose obtenido los resultados siguientes: 10 nacimientos prematuros se detectaron en madres fumadoras y 80 nacimientos prematuros en las no fumadoras; entre los nacimientos normales, se observaron 30 casos en fumadoras y 270 en las no fumadoras. a) Existe alguna asociacin entre las dos variables? Ind.: Respndase utilizando como medida de asociacin el riesgo relativo . b) Facilita una estimacin y un intervalo de conanza para esa medida de asociacin. II.23 Para un grupo de 27 individuos entre 19 y 65 aos de edad con cardiomiopata dilatada aguda se ha registrado su edad X y la fraccin de eyeccin del ventrculo izquierdo Y . Los datos obtenidos se resumen como sigue: xi = 1137, x2 i = 54749, yi = 6.05

2 yi = 1.522,

xi yi = 262.93

a) Estima los coecientes de la recta de regresin de Y sobre X , y proporciona intervalos al 95 % de conanza para ellos. b) Contrasta la signicacin del modelo de regresin.

ndice

Agustn Garca Nogales


c) Estima el valor medio de Y para un individuo de esas caractersticas con 45 aos de edad. d) Ofrece una medida de asociacin entre X e Y y cuantica la relacin lineal entre X e Y. e) Determina adems una medida de asociacin no paramtrica entre X e Y y contrasta su signicacin. II.24 En un estudio sobre tumores cerebrales se desea averiguar si existe alguna relacin (asociacin) entre la localizacin del tumor y la naturaleza del mismo. Para ello se eligieron al azar 141 pacientes afectados de tumor cerebral y los datos se clasicaron en la tabla de contingencias 33 siguiente, en la que la localizacin (que llamaremos carcter A) aparece en el margen izquierdo y la naturaleza del tumor (que llamaremos carcter B ) en la parte superior:

285

Benigno Lbulo frontal Lbulo temporal Otras reas Totales O11 = 23 O21 = 21 O31 = 34 C1 = 78

Maligno O12 = 9 O22 = 4 O32 = 24 C2 = 37

Otros O13 = 6 O23 = 3 O33 = 17 C3 = 26

Totales F1 = 38 F2 = 28 F3 = 75 T = 141

Decide si existe algn tipo de relacin entre la localizacin del tumor y la naturaleza del mismo y cuantica esa relacin con alguna medida de asociacin. II.25 Se ha llevado a cabo un estudio en 3 pases (1, 2 y 3) de la Unin Europea con la intencin de comparar la distribucin del color del cabello de sus individuos. Para ello, se han seleccionado en esos pases muestras de tamaos respectivos 282, 315 y 87. Los datos obtenidos son los de la siguiente tabla de contingencias, y nos preguntamos si, a la luz de esos datos, podemos aceptar la hiptesis nula de que la distribucin de los individuos por su color de pelo es la misma en esos 3 pases o si, por el contrario, existen diferencias signicativas en al menos dos de ellos.

ndice

286
Rubio Pas 1 Pas 2 Pas 3 Totales 177 95 12 284 Castao 81 139 44 264

Elementos de Bioestadstica
Moreno 19 75 29 123 Rojo 5 6 2 13 Totales 282 315 87 684

Qu conclusiones podemos extraer de esos datos? II.26 Se ha llevado a cabo un estudio con 300 individuos para ver si la capacidad para las matemticas (se distinguen 3 niveles, baja, media y alta, y se seleccionan 100 individuos en cada una de esas categoras) y el inters por la estadstica (3 niveles: bajo, medio, alto) estn relacionados. Capacidad Baja Inters por estadstica Bajo Medio Alto Totales 50 25 25 100 para Media 25 60 15 100 matemticas Alta 15 5 80 100 Totales 90 90 120 300

Plantea el problema de test de hiptesis apropiado para, a la luz de esos datos, decidir si existe asociacin entre ambas variables; facilita una medida de asociacin apropiada.

ndice

Eplogo: Qu hacer con los datos? Primera etapa: entrada de datos


Los datos son los ingredientes bsicos de cualquier problema de inferencia estadstica y, para resaltar su importancia, hemos querido comenzar este libro con un conjunto real de datos. Queremos tambin nalizarlo hablando de ellos, pues un investigador en ciencias de la salud se encuentra, tras el trabajo de campo, con un conjunto de datos al que quiere extraer el mayor provecho posible. Para el anlisis de datos es conveniente utilizar alguno de los muchos programas estadsticos para ordenador existentes en el mercado, como pueden ser STATISTICA, SPSS, SAS, MINITAB, etc. Esos programas exigen que los datos sean presentados en una tabla. Cada columna recoger los valores de una de las variables consideradas en el estudio. Cada la recoger los valores de esas variables para uno de los individuos (casos) que intervienen en el mismo. Ya hemos dicho (pg. 14) que las variables pueden ser cuantitativas (valores numricos) o cualitativas (valores de naturaleza no numrica), y que las primeras pueden ser discretas o continuas. Podemos utilizar una variable cualitativa para clasicar a un individuo en una de varias clases posibles; por ejemplo, la variable sexo es una variable cualitativa que toma los valores Hombre y Mujer (que pueden ser representados por 0 y 1, respectivamente, aunque la naturaleza de estos datos no es numrica), o si queremos comparar los valores de una variable cuantitativa (estatura, por ejemplo) en distintas clases sociales, deberemos incluir una variable cualitativa en la que se indique la clase social a que pertenece el individuo (con valores Alta, Media o Baja, por ejemplo). Igualmente, si se ha determinado una variable X para individuos de varios grupos, conviene escribir todos los valores de X en una sola columna e introducir una variable cualitativa que nos indique a qu grupo pertenece cada uno de esos valores. Las variables cuantitativas discretas se utilizan usualmente para contar (por ejemplo, el nmero de piezas dentales con caries, nmero de copas de cerveza consumidas por da, etc), mientras que las variables cuantitativas continuas se suelen utilizar para medir (nivel de colesterol, estatura, presin sangunea sistlica, etc). Una tabla de datos contendr al menos una variable y, en general, varias variables de alguno de los

287

ndice

288
tres tipos mencionados.

Elementos de Bioestadstica

Segunda etapa: estadstica descriptiva


Una vez introducidos los datos, la primera fase en el anlisis de los mismos corresponde a la estadstica descriptiva, cuya misin queda descrita con dos verbos: resumir y visualizar (vanse los temas 0 y 1). Los datos son, habitualmente, muy numerosos y es conveniente sintetizarlos en ciertas cantidades que nos proporcionen informacin comprensible sobre los mismos. Para cada variable cuantitativa conviene determinar estadsticos descriptivos que nos permitan localizar el conjunto de datos (media, mediana, valores mnimo y mximo y cuartiles inferior y superior son obligados) y hacernos una idea sobre su dispersin (desviacin tpica, rango intercuartlico y rango). Tambin es conveniente estudiar la presencia de datos anmalos para detectar posibles errores de transcripcin o experimentacin que debieran ser subsanados; es cuestionable la eliminacin de datos por el simple hecho de que parecen discrepar excesivamente del resto. Todo ello es tratado en el tema 1. Para una variable cualitativa suele ser suciente, en principio, determinar las frecuencias absoluta y relativa de cada clase. Pero interesa tambin obtener estadsticos descriptivos de la relacin entre variables. As, deberamos obtener alguna medida de correlacin (coeciente de correlacin de Pearson o de Spearman) entre variables cuantitativas; los coecientes de la recta de regresin y el coeciente de determinacin admiten una sencilla interpretacin; consltense los temas 16 y 17. Entre una variable cuantitativa y otra cualitativa podra resultar de inters determinar diferentes estadsticos descriptivos (media, mediana, varianza, cuartiles inferior y superior y valores mnimo y mximo) de la primera en cada una de las clases determinadas por la segunda. Entre dos variables cualitativas podemos construir una tabla de contingencias que recoge el nmero de datos para cada combinacin posible de valores de las dos variables y facilitar alguna medida de asociacin entre ellas (coeciente de contingencia de Pearson o, en el caso de tablas 2 2, el riesgo relativo y la razn del producto cruzado); vase el tema

ndice

Agustn Garca Nogales


17. El problema se complica -y, habitualmente, se sale de los lmites de este libro- cuando, en lugar de dos, se pretende estudiar la relacin entre 3 o ms variables; podra resultar de inters, por ejemplo, estudiar la correlacin entre dos variables cuantitativas en cada una de las clases en que el conjunto de individuos que forman parte del estudio ha quedado dividido de acuerdo con los valores de una cierta variable cualitativa; o estudiar la posible dependencia lineal entre tres o ms variables cuantitativas. Adems de resumir (o sintetizar) los datos mediante el uso de apropiados estadsticos descriptivos, la estadstica descriptiva ofrece una amplia gama de grcos cuyo objetivo es proporcionar una rpida visualizacin de los mismos. Entre ellos queremos destacar los siguientes: 1) Para una primera impresin de la distribucin de una variable cuantitativa, conviene presentar un diagrama de caja (pg. 29) que recoge las posiciones de la mediana, los cuartiles inferior y superior y los valores mnimo y mximo; estos valores dividen el conjunto de datos ordenados de menor a mayor en cuatro partes, cada una con un 25 % de los datos, y, mediante un simple vistazo, conseguimos informacin sobre la localizacin y dispersin de cada una de esas cuatro partes, la simetra del conjunto de datos, y, si se incluyen en el grco (los programas estadsticos suelen hacerlo), la posible existencia de datos anmalos (outliers, en ingls) que conviene revisar cuidadosamente uno a uno (ver pg. 31). 2) Con el mismo objetivo del punto anterior, una informacin ms detallada (y, por tanto, menos fcil de interpretar) sobre la distribucin de una variable aleatoria cuantitativa se puede obtener mediante un histograma (pg. 28) con un adecuado nmero de clases. Adems de los objetivos del punto anterior, podemos ahora obtener una primera impresin sobre la posible normalidad de los datos; muchos programas estadsticos superponen al histograma la funcin de densidad de la distribucin normal que mejor aproxima a esos datos (i.e., la distribucin normal que tiene la misma media y varianza que el conjunto de datos). La suposicin de normalidad est en la base de muchos de los mtodos estadsticos que podran utilizarse en una etapa posterior del anlisis de los datos; nos referimos a la etapa de inferencia estadstica. Un histograma excesivamente sesgado (a derecha o izquierda) sugerira rechazar esa hiptesis de normalidad; un histograma con dos jorobas podra ser

289

ndice

290

Elementos de Bioestadstica
un indicio de la presencia de dos grupos claramente distintos en el conjunto de datos que no han sido detectados a priori (como cuando mezclamos las alturas de un grupo de chicos de seis aos con otro grupo de chicos de 20 aos, en cuyo caso sera inapropiado en la etapa de inferencia suponer que esos son datos de una poblacin normal). 3) Para obtener una rpida impresin de la distribucin de una variable cualitativa (o, incluso, de una variable cuantitativa discreta con pocos valores posibles), la mejor opcin puede ser el diagrama de barras (ver pg. 28). Los valores de una variable cualitativa en un grupo de individuos suelen llamarse datos categricos. 4) Para visualizar la relacin entre dos variables cuantitativas, nada mejor que dibujar en el plano la nube de puntos (vase el tema 15) situando una variable en el eje de abscisas y la otra en el eje de ordenadas. Ms completo queda el grco si incluimos la recta de regresin, que nos marca la posible dependencia lineal entre ambas; cuando se utilizan escalas equivalentes en ambos ejes, una recta de regresin que forme un ngulo prximo a 45 o a 135 grados con la parte positiva del eje X ser indicio de una fuerte relacin lineal entre ambas variables, mientras que rectas de regresin casi horizontales vendran a indicar una dependencia lineal prcticamente nula, aunque en esta interpretacin hay que tener tambin en cuenta la distribucin de la nube de puntos en el plano. Una imagen de la distribucin conjunta de ambas variables puede obtenerse mediante un histograma tridimensional que divide en clases los valores de las dos variables y sita dichas clases en los ejes X e Y de un plano horizontal, y levanta sobre cada cuadrado de ese plano determinado por una combinacin de clases un prisma de volumen proporcional a la frecuencia absoluta de esa combinacin; hay programas estadsticos que incluyen la posibilidad de obtener diferentes perspectivas de este histograma tridimensional para facilitar su visualizacin. 5) Si una de las variables es cuantitativa y la otra cualitativa, una forma sencilla de visualizar la relacin entre ambas se obtiene mediante un grco que contenga un diagrama de caja de la variable cuantitativa para cada uno de los valores posibles de la variable cualitativa; pueden situarse estos ltimos en el eje de abscisas y dibujar sobre cada valor el diagrama de caja de los datos de la variable cuantitativa correspondientes al mismo; de ese modo podemos valorar, por ejemplo, cmo vara la mediana de la variable cuantitativa al

ndice

Agustn Garca Nogales


cambiar el valor de la cualitativa (por ejemplo, interesados en la estatura de un grupo de personas, convendra obtener dos diagramas de caja para las estaturas, uno para varones y otro para mujeres). Tambin podemos presentar un grco con mltiples histogramas (uno por cada valor de la variable cualitativa) para visualizar, por ejemplo, la posible normalidad de la variable cuantitativa en cada una de las clases denidas por la cualitativa. 6) Para el caso de dos variables cualitativas no hemos descrito ningn grco concreto. La tabla de contingencias puede considerarse tambin como un pseudogrco, que suele ser suciente si no es excesivamente grande. Existen mtodos grcos (por ejemplo, un diagrama de barras tridimensional que levantara sobre cada combinacin posible de valores de las dos variables un prisma de altura proporcional a la frecuencia absoluta de esa combinacin, o un grco superpuesto a la tabla de contingencias en la que las frecuencias absolutas que aparecen son reemplazadas por rectngulos de reas proporcionales a ellas), pero son poco utilizados. 7) Un mayor nmero de variables entraa desde luego una mayor complejidad grca. Consideraremos simplemente dos casos: la relacin lineal entre tres variables cuantitativas puede visualizarse dibujando en el espacio la nube de puntos (se asigna una variable a cada eje coordenado) y ajustando a ella el plano de regresin (disponible habitualmente en los programas estadsticos en el mdulo de regresin mltiple); si tenemos dos variables cuantitativas y una cualitativa, podemos dibujar la nube de puntos de las dos primeras variables para cada uno de los valores de la variable cualitativa, y ajustar una recta de regresin a cada una de las nubes de puntos obtenidas, para comprobar si la relacin lineal entre las dos variables cuantitativas queda afectada por el valor de la cualitativa.

291

Tercera etapa: inferencia estadstica


Observacin 6.29. (Aclaraciones previas sobre diseo de experimentos) Supongamos que los datos de que disponemos se reeren a 100 individuos para los que hemos determinado los valores de una o ms variables; los mtodos descriptivos que acabamos de mencionar nos ayudan a sintetizar ese conjunto de datos y a obtener una primera impresin grca de los mismos. Pero surge una cuestin inevitable: por qu tomarse tantas molestias en escudriar datos obtenidos de un conjunto de 100 individuos? A menos que esos individuos tengan algo que ver personalmente con el autor del estudio, es muy probable que la justicacin ltima

ndice

292

Elementos de Bioestadstica
de su afn se encuentre en la posibilidad de que las conclusiones extradas de esos 100 individuos puedan extrapolarse a una poblacin ms grande, y, para ello, necesitamos ir a una nueva etapa: la de inferencia estadstica. Los datos pasan a ser considerados realizaciones concretas de variables denidas en la poblacin objetivo del estudio y tendremos que hacer ciertas suposiciones (independencia, normalidad,. . . ) sobre la distribucin terica de las variables observadas para construir un modelo estadstico en el que nos apoyaremos para realizar esa extrapolacin, y, en la fase de diseo del experimento, previa a la seleccin de la muestra y obtencin de los datos, se deber hacer un anlisis riguroso de la condiciones de experimentacin que justique el cumplimiento de esas suposiciones. Para que la extrapolacin sea posible, los individuos que forman parte del estudio deben constituir una muestra representativa de la poblacin, y la representatividad se conseguir con un procedimiento que garantice que todos los individuos de la poblacin objetivo tengan la misma probabilidad de resultar elegidos, es decir, mediante un muestreo aleatorio simple (m.a.s.); la puesta en prctica de un m.a.s. puede entraar serias dicultades, y se procurar garantizar, al menos, que ciertas caractersticas que puedan parecer relevantes en el estudio se distribuyan en la muestra de forma similar a como lo hacen en la poblacin objetivo. Esta fase de diseo del experimento, previa a la obtencin de los datos, resulta fundamental a la hora de garantizar la representatividad de la muestra. En esta fase de diseo del experimento se suele abordar tambin la cuestin del tamao de la muestra. Conviene dejar claro que la estadstica nos proporciona instrumentos tiles para tomar decisiones sobre grandes poblaciones a partir de un pequeo conjunto de datos y ciertas suposiciones sobre la distribucin de las variables consideradas en la poblacin. Por tanto, sea cual sea el tamao de muestra disponible, el mtodo estadstico que utilicemos nos va a ofrecer una decisin (un mnimo nmero de individuos es requerido por muchos mtodos estadsticos para que sean posibles los clculos). Pero es igualmente claro que: 1) los mtodos estadsticos se van haciendo ms y ms precisos (y ms costosos) a medida que aumenta el tamao de muestra; 2) suposiciones cuestionables para tamaos de muestra pequeos pueden dejar de serlo para muestras grandes; 3) los problemas de determinacin del tamao muestral se plantean en trminos anlogos a los que se hicieron en la observacin 2 de la pgina 156, es decir, se trata de determinar el tamao de muestra necesario para conseguir una precisin dada, pero si nos conformamos con la precisin que obtengamos, podemos obviar el problema de determinacin del tamao muestral planteado en estos trminos.

1) En la etapa de inferencia estamos interesados en utilizar los datos para estimar (tema 9), puntualmente o por intervalos, o contrastar hiptesis (tema 10) sobre uno o ms parmetros -desconocidos, desde el punto de vista estadstico- de las variables consideradas en la poblacin objetivo: estos parmetros pueden ser medias, proporciones, varianzas, coecientes de correlacin, etc. La estimacin puntual de un parmetro poblacional nos proporcionar a partir de los datos un valor estimado del mismo, mientras que la estimacin por intervalos de ese parmetro nos proporcionar un intervalo de conanza alrededor del mismo que nos

ndice

Agustn Garca Nogales


permitir hacernos una idea del error cometido en la estimacin puntual. Los problemas de contraste de hiptesis sobre uno o ms parmetros poblacionales tienen como objetivo hacer uso de los datos para tomar una de dos decisiones posibles: aceptar como verdadera o rechazar una armacin (hiptesis nula, denotada por H0 ) que se ha formulado sobre los mismos. 2) Adems de los datos, para poder abordar un problema de inferencia estadstica, tenemos que jar un modelo terico -una estructura estadstica- para las variables consideradas en el estudio, es decir, tendremos que hacer algunas suposiciones sobre las distribuciones de esas variables: - 2.1) (Independencia) Una suposicin habitual en muchos mtodos estadsticos es, por ejemplo, la de considerar los datos x1 , . . . , xn de una variable X como valores concretos tomados por variables independientes X1 , . . . , Xn cada una de ellas con la misma distribucin que X ; la independencia es automtica cuando se determina una misma variable en individuos que han sido seleccionados al azar de una poblacin, pero no es razonable suponer independientes observaciones en un mismo individuo de una variable o de diferentes variables (como pueden ser las presiones sanguneas sistlicas tomadas mensualmente a una persona, o la estatura y el peso de un mismo individuo). - 2.2) (Normalidad) Otra suposicin habitual para variables cuantitativas es la de que tiene distribucin normal. Muchos de los mtodos estadsticos ms utilizados en la prctica estn basados en la suposicin de normalidad. La distribucin normal es la ms importante de la estadstica pues, adems de que estudios epidemiolgicos a gran escala han permitido conrmar como razonable el uso de la distribucin normal para muchas variables biolgicas (como puede ser el nivel de colesterol) en grandes poblaciones, los mtodos estadsticos basados en la suposicin de normalidad pueden ser aproximadamente vlidos en ausencia de esta si los tamaos muestrales son grandes. Es precisamente esta cualidad de la distribucin normal de aproximar en muestras grandes a otras muchas distribuciones (discretas, incluso) lo que la hace especialmente importante. Pero, adems de esto, podemos hacer uso de los datos para decidir si es

293

ndice

294

Elementos de Bioestadstica
razonable o no asumir normalidad: un histograma excesivamente sesgado a izquierda o derecha, un coeciente de asimetra muy distinto de cero o un coeciente de curtosis muy diferente de 0 seran indicios importantes de ausencia de normalidad. Los programas estadsticos suelen incluir otros mtodos descriptivos (como el grco de probabilidad normal, que representa en un plano los cuantiles muestrales frente a los cuantiles correspondientes a la distribucin normal estndar, siendo cuestionable la normalidad si los puntos as obtenidos estn lejos de estar alineados) y diversos tests de normalidad, como son los de Kolmogorov-Smirnov, Lilliefors, Shapiro-Wilks o DAgostino, que permiten contrastar si los datos obtenidos son compatibles con la suposicin de normalidad. - 2.3) (Mtodos no paramtricos) En ausencia de normalidad y en el caso de pequeas muestras puede ser preferible utilizar mtodos estadsticos no paramtricos; son mtodos que no asumen ninguna distribucin especial para las variables observadas y que compiten con xito con los mtodos tradicionales basados en la suposicin de normalidad. 3) Por tanto, puesto que para un mismo problema tenemos a nuestra disposicin diversos mtodos estadsticos, antes de decidirnos por uno de ellos conviene hacer un estudio detallado de las condiciones de experimentacin y de los datos obtenidos para garantizar que se cumplen las suposiciones en las que se basa el mtodo que nalmente vayamos a usar. 4) Supongamos que tenemos una variable cualitativa dicotmica, es decir, que solo toma dos valores que denotaremos por 1 y 0 (que pueden representar varn y hembra, o fracaso y xito en una prueba, o que ha ocurrido un cierto suceso y que no ha ocurrido, respectivamente). En este caso podemos estar interesados en estimar la probabilidad de xito (o proporcin de xitos) en futuras realizaciones del experimento, y en proporcionar un intervalo de conanza alrededor de esa estimacin. O, sabiendo que en otros estudios similares se ha obtenido una proporcin p0 de xitos, podramos estar interesados en contrastar la hiptesis p = p0 con nuestros datos (ver tema 11). 5) Para una variable cualitativa que tome ms de dos valores tambin podemos estimar la probabilidad de que la variable en la poblacin objetivo tome uno de los valores de la

ndice

Agustn Garca Nogales


variable, adems de dar un intervalo de conanza para esa probabilidad. Tambin podra interesarnos contrastar la hiptesis de que las proporciones de los n valores de la variable cualitativa son, respectivamente, p1 , . . . , pn (pg. 170). 6) Para una variable cuantitativa normalmente distribuida en la poblacin objetivo, pero con media y varianza desconocidas, podramos estar interesados en estimar puntualmente y por intervalos la media y/o la varianza, o, sabiendo que en otra poblacin se ha estimado que la media de la variable que nos interesa es un valor 0 , podramos estar interesados en contrastar la hiptesis nula bilateral H0 : = 0 contra H1 : = 0 (ver tema 11). Hay casos en los que en vez de realizar un test bilateral conviene realizar un test unilateral (ver pg. 154). 7) Si ms que hacer inferencia sobre una sola variable estamos interesados en estudiar conjuntamente dos o ms variables, hay dos problemas bsicos que pueden interesarnos y que tienen que ver con los trminos comparacin y relacin. 8) Supongamos que tenemos una variable X dicotmica (que toma los valores 0 y 1, que pueden corresponder a fracaso y xito, respectivamente, en un experimento aleatorio) cuyos valores en dos grupos (o poblaciones) A y B queremos comparar. Introduciremos en la tabla de datos una nueva variable cualitativa Y que asigna a cada individuo el grupo (A o B) al que pertenece, y cualquier programa estadstico nos permitir comparar las proporciones de xito en ambos grupos tal y como queda explicado en la pgina 186. Lo mismo podemos hacer si queremos comparar las proporciones de xito en ms de dos grupos (ver pg. 223). El test de McNemar (pg. 188) nos permite comparar las proporciones de xito para dos variables dicotmicas determinadas en un mismo individuo. 9) Si es una variable cuantitativa X la que queremos comparar en dos grupos (o poblaciones) A y B, introducimos una variable dicotmica Y en la tabla de datos como en el punto anterior; interesa habitualmente comparar las medias de la variable X en los dos grupos, pero, si vamos a suponer normalidad, convendra previamente comparar las varianzas para ver si aplicamos el test t de Student (en el caso de varianzas iguales) o el de Welch (en el caso de varianzas desiguales); si no suponemos normalidad, podemos utilizar el test no paramtrico de Mann-Whitney-Wilcoxon (ver tema 12, comparacin de dos muestras

295

ndice

296
independientes).

Elementos de Bioestadstica

10) Si una misma variable cuantitativa X se mide dos veces (antes y despus de aplicar un tratamiento, por ejemplo) en cada individuo de una poblacin, podemos estar interesados en comparar los valores medios de X antes con los valores despus. Para ello, bajo la suposicin de normalidad, podemos utilizar el test t de Student para muestras relacionadas o, sin esa suposicin, el test de Wilcoxon para muestras relacionadas (ver tema 12, comparacin de dos muestras relacionadas). 11) Si tenemos una variable cuantitativa X cuyos valores en tres o ms grupos queremos comparar, introduciremos en la tabla de datos una variable cualitativa Y que asigna a cada individuo de la muestra su grupo, y, bajo la suposicin de normalidad e igualdad de varianza de X en todos los grupos, el tema 13 nos ensea a realizar un anlisis de la varianza (ANOVA) seguido de un estudio de comparaciones mltiples en el caso de que el test resulte signicativo (y tengamos que declarar no homogneos esos grupos) para decidir qu subgrupos se pueden considerar homogneos. Podemos usar el test de Kruskal-Wallis (tema 13) si no se verican las condiciones para hacer un anlisis de la varianza. En realidad, estos son mtodos que permiten estudiar la relacin entre la variable cuantitativa X y la cualitativa Y . 12) La relacin entre dos variables cualitativas (que toman r y s valores, respectivamente) se puede estudiar mediante el test 2 en una tabla de contingencias r s (tema 17) que recoge el nmero de individuos de la muestra que hay en cada combinacin de valores de las dos variables. En este caso, se puede facilitar una medida del grado de asociacin (o de dependencia) que hay entre ambas variables (coeciente de contingencia de Pearson). El caso r 2 corresponde al problema de comparacin de r proporciones (la variable que toma dos valores es dicotmica y realmente estaramos comparando las proporciones de xito en cada una de las clases en que la poblacin queda dividida de acuerdo con la otra variable). El caso 2 2 es especialmente interesante en ciencias de la salud (por ejemplo, para estudiar la dependencia entre el desarrollo de una enfermedad y la presencia de un cierto factor de riesgo); unas medidas de asociacin interesantes en este caso son el riesgo relativo y la razn del producto cruzado, sobre las que tambin podra interesarnos hacer algn tipo de

ndice

Agustn Garca Nogales


inferencia (contrastar, por ejemplo, si son iguales a 1, lo que supondra que las dos variables son independientes). 13) La relacin entre dos variables cuantitativas X (llamada variable independiente) e Y (llamada variable dependiente) puede hacerse a travs del modelo de regresin lineal (tema 15) estimando puntualmente y por intervalos la pendiente de la recta de regresin, la ordenada en el origen y la varianza de regresin, y cuanticando el grado de relacin lineal entre ambas mediante el coeciente de correlacin de Pearson r (sobre el que tambin podemos plantear problemas de estimacin y contraste de hiptesis); el coeciente de determinacin r2 admite una sencilla interpretacin como fraccin de variabilidad de la variable Y explicada por su dependencia lineal de X (tema 16). El modelo de regresin lineal se puede aprovechar tambin para estimar el valor medio de la variable Y para un valor concreto de la variable X , y para predecir el valor de la variable Y en un nuevo individuo si conocemos su valor de X . 14) En todos los contrastes de hiptesis conviene facilitar su valor P (pg. 153), tambin llamado probabilidad de signicacin o nivel mnimo de signicacin. El test se dice signicativo si P 0.05 y no signicativo en otro caso. Por ejemplo, para comparar dos medias poblacionales (desconocidas desde el punto de vista estadstico pues no tenemos acceso a toda la poblacin), podemos jarnos en las medias muestrales (que son estimadores de aquellas); el hecho de que estas sean distintas no signica que aquellas lo sean, pues las diferencias observadas entre las medias muestrales podran ser debidas al azar (siempre presente en experimentos aleatorios); para evaluar en qu medida puedan ser debidas al azar, el estadstico de contraste compara esa diferencia con una medida de la variabilidad de los datos, y solo cuando la discrepancia entre las medias muestrales es grande en comparacin con la variabilidad de los datos decimos que las diferencias entre las medias poblacionales son (estadsticamente) signicativas. El trmino signicativo tiene otra connotacin que queremos mencionar: si el test es signicativo, la decisin es rechazar la hiptesis nula y esta decisin, aunque pudiera ser errnea, es able pues nos hemos asegurado de que la probabilidad de cometer un error sea pequea (5 %); pero si el test es no signicativo, aceptaremos la hiptesis nula con cautela, pues la probabilidad de haber cometido un error al tomar esa

297

ndice

298

Elementos de Bioestadstica
decisin no ha sido previamente controlada (aunque se hace ms y ms pequea a medida que aumenta el tamao de la muestra). Observacin 6.30. (Y qu ms?) Lo dicho en las secciones precedentes resume los mtodos estadsticos estudiados en este manual que, como su ttulo indica, solo incluye tcnicas estadsticas elementales. La misma lnea argumental desarrollada sugiere inmediatamente nuevas situaciones (comparacin y relacin entre tres o ms variables de diferentes tipos) para las que la estadstica nos propone nuevos mtodos (estadsticos descriptivos, grcos y soluciones a problemas de estimacin y contraste de hiptesis). Muchos de ellos aparecen implementados en los programas estadsticos habituales bajo el epgrafe genrico de mtodos multivariantes, como puedan ser la regresin mltiple multivariante o el anlisis multivariante de la varianza. Otras tcnicas multivariantes han sido diseadas para estudiar y simplicar la estructura de correlacin en uno o dos grupos de variables (anlisis de componentes principales, anlisis factorial y anlisis de correlaciones cannicas), o para clasicar individuos de acuerdo con los valores de varias variables (anlisis discriminante y anlisis cluster). El modelo log-lineal ha sido diseado para el anlisis de tablas de contingencias ms sosticadas que las que hemos considerado en este manual. El anlisis de series temporales tiene que ver con el anlisis de datos que se van generando peridicamente a lo largo del tiempo y que, por tanto, no pueden suponerse realizaciones concretas de variables independientes.

ndice

Bibliografa
Altman (1991), Practical Statistics for Medical Research, Chapman and Hall. Armitage, Berry (1992), Estadstica para la Investigacin Biomdica, Doyma. Daniel (1983), Biostatistics: a Foundation for Analysis in the Health Sciences, Wiley. Fisher, van Belle (1993), Biostatistics, a Methodology for the Health Sciences, Wiley. Martn Andrs, Luna del Castillo (2004), Bioestadstica para las Ciencias de la Salud, Norma. Remington, Schork (1974), Estadstica Biomtrica y Sanitaria, Prentice-Hall International. Rosner (2006), Fundamentals of Biostatistics, PWS Kent. Snedecor, Cochran (1973), Statistical Methods, The Iowa State University Press. Woolson (2002) Statistical Methods for the Analysis of Biomedical Data, Wiley. Zar (1999), Biostatistical Analysis, Prentice-Hall.

299

ndice

Apndice: Tablas estadsticas


Tabla I: Tabla II: 3000 dgitos aleatorios Distribucin binomial B (n, p)

Tabla III.1: Distribucin N (0, 1). Cuantiles Tabla III.2: Distribucin N (0, 1). Funcin de distribucin Tabla IV: Tabla V: Tabla VI: Distribucin t de Student Distribucin chi-cuadrado 2 (n) Tablas de la distribucin F (m, n) de Fisher

Tabla VII: Tabla para el test de normalidad de DAgostino Tabla VIII: Regin de aceptacin para el test de Mann-WhitneyWilcoxon: muestras independientes ( ) Tabla IX: Tabla X: Tabla XI: Distribucin T de Wilcoxon para muestras relacionadas ( ) Distribucin q de Tukey para comparaciones mltiples Distribucin Q para comparaciones mltiples no paramtricas ( ) Tabla XII: Distribucin de Bonferroni Tabla XIII: Valores crticos para el coeciente de correlacin de Spearman ( ) Tabla XIV: Factores K para lmites de tolerancia bilaterales para distribuciones normales

300

ndice

Agustn Garca Nogales

301

Tabla I: 3000 dgitos aleatorios (p. 92)


69898168892527450655470425121410389682144021024696 79645558483475759955728180681943877365849214028541 83634278988961254352925619781738134743560513064871 36364144628462947238174834416958600716972607590682 43769768892494134393414617395747037591525518249363 86922002175825321017632270925521334148108151018693 77286956065443946836000449919691307039415695699074 22963125853859552607338959432603927063257187515413 96352417849920127236243318809853904741959356441405 53569785538055964070183484062274403193740052398767 83053022621087525100881976800932535463281997253332 75483926519070418082769305502605862422888515493073 49467924791014478656881848089771318604740262809545 62875557310787695952606708000561481909591600417859 89479139905326952103405277834912140006404153723803 66438951708927735238101703303925892038069686302444 67231732075388849035166885287935007121248389804007 65610493926472161313766317745763205314904438724685 18001696337170257699162498031042089487673101824189 33962588229681071199945606053363231343038964113946 66232329061052202133995597453576884855575830555161 44253589019691929181444080493569176545564547676789 70313443182467690411418783713540719410392459000664 03448346339586950742376844153386619077766942085508 31155129753290712228330898213594948126977190738446 69860003975804353791375320175499106618721055128307 98083082740373164376085146162396459298520297217272 15740148480031279738721894692659008571001203131169 67986676614452756994856892180953318620580940481111 00005005137638218260212446162102311158993623191916 90936303408484716846540943138245815169056628916373 86833208325754056829957916328996466196810129875994 55234215225946760514960815046597010009298144591270 76880323334587865061273696437488288415924657292331 64916159389167552619971863034781241062134072578899 06399331693742686611676948586485837680552510797416 53820227817038735313174169402550787973100164122730 04127556101965940831835053918005031037380435255227 86547220644639337692042377474916677551529574210151 69310456456171617759287817329793607285918993791183 33907829496359501200827333200375313724326395533334 01944501251427415983891004638230611687228487190226 35276935776674545694054162932676699756992289257595 07824941706080055119744606243675125231649503578531 69313069189159519984151250553473468640681510175997 32549690292322851089999547225977772841304569469708 20046441196463894320652800196671427368316843235818 56974052635003223787890945461864853879156026090091 62820970963985755971222705635470579865840943257132 08960686000337337794712510543469244825974761316094 19622729941688279672426178307869707063067500478500 93313381541606137299102914397238883199473170416169 57115994071466073591767205953227325928892060948508 75441193510816095074964746566634558238197459075489 83666962660873487731711159230520488332143638913653 04947248533298295762544000251218465573481432476966 69451073528254799215700083108913661563367681699431 16889134791089893923384388918720414541245546127521 57508951907669126201232124269126632910351863546721 46049294442805784433490873911885099814783333982287

ndice

302

Elementos de Bioestadstica

Tabla II: Distribucin binomial B (n, p) (p. 73)


p n 2 2 2 3 3 3 3 4 4 4 4 4 5 5 5 5 5 5 6 6 6 6 6 6 6 7 7 7 7 7 7 7 7 k 0 1 2 0 1 2 3 0 1 2 3 4 0 1 2 3 4 5 0 1 2 3 4 5 6 0 1 2 3 4 5 6 7 0.050 0.903 0.095 0.003 0.857 0.135 0.007 0.000 0.815 0.171 0.014 0.000 0.0 00 0.774 0.204 0.021 0.001 0.000 0.000 0.735 0.232 0.031 0.002 0.000 0.000 0.000 0.698 0.257 0.041 0.004 0.000 0.000 0.000 0.000 0.100 0.810 0.180 0.010 0.729 0.243 0.027 0.001 0.656 0.292 0.049 0.004 0.000 0.590 0.328 0.073 0.008 0.000 0.000 0.531 0.354 0.098 0.015 0.001 0.0 00 0.000 0.478 0.372 0.124 0.023 0.003 0.000 0.000 0.000 0.150 0.723 0.255 0.023 0.614 0.325 0.057 0.003 0.522 0.368 0.098 0.011 0.001 0.444 0.392 0.138 0.024 0.002 0.000 0.377 0.399 0.176 0.041 0.005 0.000 0.000 0.321 0.396 0.210 0.062 0.011 0.001 0.000 0.000 0.200 0.640 0.320 0.040 0.512 0.384 0.096 0.008 0.410 0.410 0.154 0.026 0.002 0.328 0.410 0.205 0.051 0.006 0.0 00 0.262 0.393 0.246 0.082 0.015 0.002 0.000 0.210 0.367 0.275 0.115 0.029 0.004 0.000 0.000 0.250 0.563 0.375 0.063 0.422 0.422 0.141 0.0 16 0.316 0.422 0.211 0.047 0.004 0.237 0.396 0.264 0.088 0.015 0.001 0.178 0.356 0.297 0.132 0.033 0.004 0.0 00 0.133 0.311 0.311 0.173 0.058 0.012 0.001 0.000 0.300 0.490 0.420 0.0 90 0.343 0.441 0.189 0.027 0.240 0.412 0.265 0.076 0.008 0.168 0.360 0.309 0.132 0.028 0.002 0.118 0.303 0.324 0.185 0.060 0.010 0.001 0.082 0.247 0.318 0.227 0.097 0.025 0.004 0.000 0.350 0.423 0.455 0.123 0.275 0.444 0.239 0.043 0.179 0.384 0.311 0.111 0.0 15 0.116 0.312 0.336 0.181 0.049 0.005 0.075 0.244 0.328 0.235 0.095 0.020 0.002 0.049 0.185 0.298 0.268 0.144 0.047 0.008 0.001 0.400 0.360 0.480 0.160 0.216 0.432 0.288 0.064 0.130 0.346 0.346 0.154 0.026 0.078 0.259 0.346 0.230 0.077 0.010 0.047 0.187 0.311 0.276 0.138 0.037 0.004 0.028 0.131 0.261 0.290 0.194 0.077 0.017 0.002 0.450 0.303 0.495 0.203 0.166 0.408 0.334 0.091 0.092 0.299 0.368 0.200 0.041 0.050 0.206 0.337 0.276 0.113 0.018 0.028 0.136 0.278 0.303 0.186 0.061 0.008 0.015 0.087 0.214 0.292 0.239 0.117 0.032 0.004 0.500 0.250 0.500 0.250 0.125 0.375 0.375 0.125 0.062 0.250 0.375 0.250 0.063 0.031 0.156 0.313 0.313 0.156 0.0 31 0.016 0.094 0.234 0.313 0.234 0.094 0.016 0.008 0.055 0.164 0.273 0.273 0.164 0.055 0.008

ndice

Agustn Garca Nogales

303

Tabla II (continuacin): Distribucin binomial B (n, p)


p n 8 8 8 8 8 8 8 8 8 9 9 9 9 9 9 9 9 9 9 10 10 10 10 10 10 10 10 10 10 10 11 11 11 k 0 1 2 3 4 5 6 7 8 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 10 0 1 2 0.050 0.663 0.279 0.051 0.005 0.000 0.000 0.000 0.000 0.000 0.630 0.299 0.063 0.008 0.001 0.000 0.000 0.000 0.000 0.000 0.599 0.315 0.075 0.010 0.001 0.000 0.000 0.000 0.000 0.000 0.000 0.569 0.329 0.087 0.100 0.430 0.383 0.149 0.033 0.005 0.000 0.000 0.000 0.000 0.387 0.387 0.172 0.045 0.007 0.001 0.000 0.000 0.000 0.000 0.349 0.387 0.194 0.057 0.011 0.001 0.000 0.000 0.000 0.000 0.000 0.314 0.384 0.213 0.150 0.272 0.385 0.238 0.084 0.018 0.003 0.000 0.000 0.000 0.232 0.368 0.260 0.107 0.028 0.005 0.001 0.000 0.000 0.000 0.197 0.347 0.276 0.130 0.040 0.008 0.001 0.000 0.000 0.000 0.000 0.167 0.325 0.287 0.200 0.168 0.336 0.294 0.147 0.046 0.009 0.001 0.000 0.000 0.134 0.302 0.302 0.176 0.066 0.017 0.003 0.000 0.000 0.000 0.107 0.268 0.302 0.201 0.088 0.026 0.006 0.001 0.000 0.000 0.000 0.086 0.236 0.295 0.250 0.100 0.267 0.311 0.208 0.087 0.023 0.004 0.000 0.000 0.075 0.225 0.300 0.234 0.117 0.039 0.009 0.001 0.000 0.000 0.056 0.188 0.282 0.250 0.146 0.058 0.016 0.003 0.000 0.000 0.000 0.042 0.155 0.258 0.300 0.058 0.198 0.296 0.254 0.136 0.047 0.010 0.001 0.000 0.040 0.156 0.267 0.267 0.172 0.074 0.021 0.004 0.000 0.000 0.028 0.121 0.233 0.267 0.200 0.103 0.037 0.009 0.001 0.000 0.000 0.020 0.093 0.200 0.350 0.032 0.137 0.259 0.279 0.188 0.081 0.022 0.003 0.000 0.021 0.100 0.216 0.272 0.219 0.118 0.042 0.010 0.001 0.000 0.013 0.072 0.176 0.252 0.238 0.154 0.069 0.021 0.004 0.001 0.000 0.009 0.052 0.140 0.400 0.017 0.090 0.209 0.279 0.232 0.124 0.041 0.008 0.001 0.010 0.060 0.161 0.251 0.251 0.167 0.074 0.021 0.004 0.000 0.006 0.040 0.121 0.215 0.251 0.201 0.111 0.042 0.011 0.002 0.000 0.004 0.027 0.089 0.450 0.008 0.055 0.157 0.257 0.263 0.172 0.070 0.016 0.002 0.005 0.034 0.111 0.212 0.260 0.213 0.116 0.041 0.008 0.001 0.003 0.021 0.076 0.166 0.238 0.234 0.160 0.075 0.023 0.004 0.000 0.001 0.013 0.051 0.500 0.004 0.031 0.109 0.219 0.273 0.219 0.109 0.031 0.004 0.002 0.018 0.070 0.164 0.246 0.246 0.164 0.070 0.018 0.002 0.001 0.010 0.044 0.117 0.205 0.246 0.205 0.117 0.044 0.010 0.001 0.000 0.005 0.027

ndice

304

Elementos de Bioestadstica

Tabla II (continuacin): Distribucin binomial B (n, p)


p n 11 11 11 11 11 11 11 11 11 12 12 12 12 12 12 12 12 12 12 12 12 12 13 13 13 13 13 13 13 13 13 13 13 k 3 4 5 6 7 8 9 10 11 0 1 2 3 4 5 6 7 8 9 10 11 12 0 1 2 3 4 5 6 7 8 9 10 0.050 0.014 0.001 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.540 0.341 0.099 0.017 0.002 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.513 0.351 0.111 0.021 0.003 0.000 0.000 0.000 0.000 0.000 0.000 0.100 0.071 0.016 0.002 0.000 0.000 0.000 0.000 0.000 0.000 0.282 0.377 0.230 0.085 0.021 0.004 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.254 0.367 0.245 0.100 0.028 0.006 0.001 0.000 0.000 0.000 0.000 0.150 0.152 0.054 0.013 0.002 0.000 0.000 0.000 0.000 0.000 0.142 0.301 0.292 0.172 0.068 0.019 0.004 0.001 0.000 0.000 0.000 0.000 0.000 0.121 0.277 0.294 0.190 0.084 0.027 0.006 0.001 0.000 0.000 0.000 0.200 0.221 0.111 0.039 0.010 0.002 0.000 0.000 0.000 0.000 0.069 0.206 0.283 0.236 0.133 0.053 0.016 0.003 0.001 0.000 0.000 0.000 0.000 0.055 0.179 0.268 0.246 0.154 0.069 0.023 0.006 0.001 0.000 0.000 0.250 0.258 0.172 0.080 0.027 0.006 0.001 0.000 0.000 0.000 0.032 0.127 0.232 0.258 0.194 0.103 0.040 0.011 0.002 0.000 0.000 0.000 0.000 0.024 0.103 0.206 0.252 0.210 0.126 0.056 0.019 0.005 0.001 0.000 0.300 0.257 0.220 0.132 0.057 0.017 0.004 0.001 0.000 0.000 0.014 0.071 0.168 0.240 0.231 0.158 0.079 0.029 0.008 0.001 0.000 0.000 0.000 0.010 0.054 0.139 0.218 0.234 0.180 0.103 0.044 0.014 0.003 0.001 0.350 0.225 0.243 0.183 0.099 0.038 0.010 0.002 0.000 0.000 0.006 0.037 0.109 0.195 0.237 0.204 0.128 0.059 0.020 0.005 0.001 0.000 0.000 0.004 0.026 0.084 0.165 0.222 0.215 0.155 0.083 0.034 0.010 0.002 0.400 0.177 0.236 0.221 0.147 0.070 0.023 0.005 0.001 0.000 0.002 0.017 0.064 0.142 0.213 0.227 0.177 0.101 0.042 0.012 0.002 0.000 0.000 0.001 0.011 0.045 0.111 0.184 0.221 0.197 0.131 0.066 0.024 0.006 0.450 0.126 0.206 0.236 0.193 0.113 0.046 0.013 0.002 0.000 0.001 0.008 0.034 0.092 0.170 0.222 0.212 0.149 0.076 0.028 0.007 0.001 0.000 0.000 0.004 0.022 0.066 0.135 0.199 0.217 0.177 0.109 0.050 0.016 0.500 0.081 0.161 0.226 0.226 0.161 0.081 0.027 0.005 0.000 0.000 0.003 0.016 0.054 0.121 0.193 0.226 0.193 0.121 0.054 0.016 0.003 0.000 0.000 0.002 0.010 0.035 0.087 0.157 0.209 0.209 0.157 0.087 0.035

ndice

Agustn Garca Nogales

305

Tabla II (continuacin): Distribucin binomial B (n, p)


p n 13 13 13 14 14 14 14 14 14 14 14 14 14 14 14 14 14 14 15 15 15 15 15 15 15 15 15 15 15 15 15 15 15 k 11 12 13 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 0.050 0.000 0.000 0.000 0.488 0.359 0.123 0.026 0.004 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.463 0.366 0.135 0.031 0.005 0.001 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.100 0.000 0.000 0.000 0.229 0.356 0.257 0.114 0.035 0.008 0.001 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.206 0.343 0.267 0.129 0.043 0.010 0.002 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.150 0.000 0.000 0.000 0.103 0.254 0.291 0.206 0.100 0.035 0.009 0.002 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.087 0.231 0.286 0.218 0.116 0.045 0.013 0.003 0.001 0.000 0.000 0.000 0.000 0.000 0.000 0.200 0.000 0.000 0.000 0.044 0.154 0.250 0.250 0.172 0.086 0.032 0.009 0.002 0.000 0.000 0.000 0.000 0.000 0.000 0.035 0.132 0.231 0.250 0.188 0.103 0.043 0.014 0.003 0.001 0.000 0.000 0.000 0.000 0.000 0.250 0.000 0.000 0.000 0.018 0.083 0.180 0.240 0.220 0.147 0.073 0.028 0.008 0.002 0.000 0.000 0.000 0.000 0.000 0.013 0.067 0.156 0.225 0.225 0.165 0.092 0.039 0.013 0.003 0.001 0.000 0.000 0.000 0.000 0.300 0.000 0.000 0.000 0.007 0.041 0.113 0.194 0.229 0.196 0.126 0.062 0.023 0.007 0.001 0.000 0.000 0.000 0.000 0.005 0.031 0.092 0.170 0.219 0.206 0.147 0.081 0.035 0.012 0.003 0.001 0.000 0.000 0.000 0.350 0.000 0.000 0.000 0.002 0.018 0.063 0.137 0.202 0.218 0.176 0.108 0.051 0.018 0.005 0.001 0.000 0.000 0.000 0.002 0.013 0.048 0.111 0.179 0.212 0.191 0.132 0.071 0.030 0.010 0.002 0.000 0.000 0.000 0.400 0.001 0.000 0.000 0.001 0.007 0.032 0.085 0.155 0.207 0.207 0.157 0.092 0.041 0.014 0.003 0.001 0.000 0.000 0.000 0.005 0.022 0.063 0.127 0.186 0.207 0.177 0.118 0.061 0.024 0.007 0.002 0.000 0.000 0.450 0.004 0.000 0.000 0.000 0.003 0.014 0.046 0.104 0.170 0.209 0.195 0.140 0.076 0.031 0.009 0.002 0.000 0.000 0.000 0.002 0.009 0.032 0.078 0.140 0.191 0.201 0.165 0.105 0.051 0.019 0.005 0.001 0.000 0.500 0.010 0.002 0.000 0.000 0.001 0.006 0.022 0.061 0.122 0.183 0.209 0.183 0.122 0.061 0.022 0.006 0.001 0.000 0.000 0.000 0.003 0.014 0.042 0.092 0.153 0.196 0.196 0.153 0.092 0.042 0.014 0.003 0.000

ndice

306

Elementos de Bioestadstica

Tabla II (continuacin): Distribucin binomial B (n, p)


p n 15 16 16 16 16 16 16 16 16 16 16 16 16 16 16 16 16 16 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 k 15 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 0.050 0.000 0.440 0.371 0.146 0.036 0.006 0.001 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.418 0.374 0.158 0.041 0.008 0.001 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.100 0.000 0.185 0.329 0.275 0.142 0.051 0.014 0.003 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.167 0.315 0.280 0.156 0.060 0.017 0.004 0.001 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.150 0.000 0.074 0.210 0.277 0.229 0.131 0.056 0.018 0.005 0.001 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.063 0.189 0.267 0.236 0.146 0.067 0.024 0.007 0.001 0.000 0.000 0.000 0.000 0.000 0.000 0.200 0.000 0.028 0.113 0.211 0.246 0.200 0.120 0.055 0.020 0.006 0.001 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.023 0.096 0.191 0.239 0.209 0.136 0.068 0.027 0.008 0.002 0.000 0.000 0.000 0.000 0.000 0.250 0.000 0.010 0.053 0.134 0.208 0.225 0.180 0.110 0.052 0.020 0.006 0.001 0.000 0.000 0.000 0.000 0.000 0.000 0.008 0.043 0.114 0.189 0.221 0.191 0.128 0.067 0.028 0.009 0.002 0.001 0.000 0.000 0.000 0.300 0.000 0.003 0.023 0.073 0.146 0.204 0.210 0.165 0.101 0.049 0.019 0.006 0.001 0.000 0.000 0.000 0.000 0.000 0.002 0.017 0.058 0.125 0.187 0.208 0.178 0.120 0.064 0.028 0.009 0.003 0.001 0.000 0.000 0.350 0.000 0.001 0.009 0.035 0.089 0.155 0.201 0.198 0.152 0.092 0.044 0.017 0.005 0.001 0.000 0.000 0.000 0.000 0.001 0.006 0.026 0.070 0.132 0.185 0.199 0.168 0.113 0.061 0.026 0.009 0.002 0.001 0.000 0.400 0.000 0.000 0.003 0.015 0.047 0.101 0.162 0.198 0.189 0.142 0.084 0.039 0.014 0.004 0.001 0.000 0.000 0.000 0.000 0.002 0.010 0.034 0.080 0.138 0.184 0.193 0.161 0.107 0.057 0.024 0.008 0.002 0.000 0.450 0.000 0.000 0.001 0.006 0.022 0.057 0.112 0.168 0.197 0.181 0.132 0.075 0.034 0.011 0.003 0.001 0.000 0.000 0.000 0.001 0.004 0.014 0.041 0.087 0.143 0.184 0.188 0.154 0.101 0.052 0.021 0.007 0.002 0.500 0.000 0.000 0.000 0.002 0.009 0.028 0.067 0.122 0.175 0.196 0.175 0.122 0.067 0.028 0.009 0.002 0.000 0.000 0.000 0.000 0.001 0.005 0.018 0.047 0.094 0.148 0.185 0.185 0.148 0.094 0.047 0.018 0.005

ndice

Agustn Garca Nogales

307

Tabla II (continuacin): Distribucin binomial B (n, p)

p n 17 17 17 18 18 18 18 18 18 18 18 18 18 18 18 18 18 18 18 18 18 18 19 19 19 19 19 19 19 19 19 19 19 k 15 16 17 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 0 1 2 3 4 5 6 7 8 9 10 0.050 0.000 0.000 0.000 0.397 0.376 0.168 0.047 0.009 0.001 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.377 0.377 0.179 0.053 0.011 0.002 0.000 0.000 0.000 0.000 0.000 0.100 0.000 0.000 0.000 0.150 0.300 0.284 0.168 0.070 0.022 0.005 0.001 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.135 0.285 0.285 0.180 0.080 0.027 0.007 0.001 0.000 0.000 0.000 0.150 0.000 0.000 0.000 0.054 0.170 0.256 0.241 0.159 0.079 0.030 0.009 0.002 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.046 0.153 0.243 0.243 0.171 0.091 0.037 0.012 0.003 0.001 0.000 0.200 0.000 0.000 0.000 0.018 0.081 0.172 0.230 0.215 0.151 0.082 0.035 0.012 0.003 0.001 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.014 0.068 0.154 0.218 0.218 0.164 0.095 0.044 0.017 0.005 0.001 0.250 0.000 0.000 0.000 0.006 0.034 0.096 0.170 0.213 0.199 0.144 0.082 0.038 0.014 0.004 0.001 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.004 0.027 0.080 0.152 0.202 0.202 0.157 0.097 0.049 0.020 0.007 0.300 0.000 0.000 0.000 0.002 0.013 0.046 0.105 0.168 0.202 0.187 0.138 0.081 0.039 0.015 0.005 0.001 0.000 0.000 0.000 0.000 0.000 0.000 0.001 0.009 0.036 0.087 0.149 0.192 0.192 0.153 0.098 0.051 0.022 0.350 0.000 0.000 0.000 0.000 0.004 0.019 0.055 0.110 0.166 0.194 0.179 0.133 0.079 0.038 0.015 0.005 0.001 0.000 0.000 0.000 0.000 0.000 0.000 0.003 0.014 0.042 0.091 0.147 0.184 0.184 0.149 0.098 0.053 0.400 0.000 0.000 0.000 0.000 0.001 0.007 0.025 0.061 0.115 0.166 0.189 0.173 0.128 0.077 0.037 0.015 0.004 0.001 0.000 0.000 0.000 0.000 0.000 0.001 0.005 0.017 0.047 0.093 0.145 0.180 0.180 0.146 0.098 0.450 0.000 0.000 0.000 0.000 0.000 0.002 0.009 0.029 0.067 0.118 0.166 0.186 0.169 0.125 0.074 0.035 0.013 0.004 0.001 0.000 0.000 0.000 0.000 0.000 0.001 0.006 0.020 0.050 0.095 0.144 0.177 0.177 0.145 0.500 0.001 0.000 0.000 0.000 0.000 0.001 0.003 0.012 0.033 0.071 0.121 0.167 0.185 0.167 0.121 0.071 0.033 0.012 0.003 0.001 0.000 0.000 0.000 0.000 0.000 0.002 0.007 0.022 0.052 0.096 0.144 0.176 0.176

ndice

308

Elementos de Bioestadstica

Tabla II (continuacin): Distribucin binomial B (n, p)


p n 19 19 19 19 19 19 19 19 19 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 k 11 12 13 14 15 16 17 18 19 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 0.050 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.358 0.377 0.189 0.060 0.013 0.002 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.100 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.122 0.270 0.285 0.190 0.090 0.032 0.009 0.002 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.150 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.039 0.137 0.229 0.243 0.182 0.103 0.045 0.016 0.005 0.001 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.200 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.012 0.058 0.137 0.205 0.218 0.175 0.109 0.055 0.022 0.007 0.002 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.250 0.002 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.003 0.021 0.067 0.134 0.190 0.202 0.169 0.112 0.061 0.027 0.010 0.003 0.001 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.300 0.008 0.002 0.001 0.000 0.000 0.000 0.000 0.000 0.000 0.001 0.007 0.028 0.072 0.130 0.179 0.192 0.164 0.114 0.065 0.031 0.012 0.004 0.001 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.350 0.023 0.008 0.002 0.001 0.000 0.000 0.000 0.000 0.000 0.000 0.002 0.010 0.032 0.074 0.127 0.171 0.184 0.161 0.116 0.069 0.034 0.014 0.004 0.001 0.000 0.000 0.000 0.000 0.000 0.000 0.400 0.053 0.024 0.008 0.002 0.001 0.000 0.000 0.000 0.000 0.000 0.000 0.003 0.012 0.035 0.075 0.124 0.166 0.180 0.160 0.117 0.071 0.035 0.015 0.005 0.001 0.000 0.000 0.000 0.000 0.000 0.450 0.097 0.053 0.023 0.008 0.002 0.000 0.000 0.000 0.000 0.000 0.000 0.001 0.004 0.014 0.036 0.075 0.122 0.162 0.177 0.159 0.119 0.073 0.037 0.015 0.005 0.001 0.000 0.000 0.000 0.000 0.500 0.144 0.096 0.052 0.022 0.007 0.002 0.000 0.000 0.000 0.000 0.000 0.000 0.001 0.005 0.015 0.037 0.074 0.120 0.160 0.176 0.160 0.120 0.074 0.037 0.015 0.005 0.001 0.000 0.000 0.000

ndice

Agustn Garca Nogales

309

Tabla III.1: Distribucin N (0, 1). Cuantiles (p. 85)

/2

/2

-z

0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.10 0.11 0.12 0.13 0.14 0.15 0.16 0.17 0.18 0.19 0.20

z 2.576 2.326 2.170 2.054 1.960 1.881 1.812 1.751 1.695 1.645 1.598 1.555 1.514 1.476 1.440 1.405 1.372 1.341 1.311 1.282

0.21 0.22 0.23 0.24 0.25 0.26 0.27 0.28 0.29 0.30 0.31 0.32 0.33 0.34 0.35 0.36 0.37 0.38 0.39 0.40

z 1.254 1.227 1.200 1.175 1.150 1.126 1.103 1.080 1.058 1.036 1.015 0.994 0.974 0.954 0.935 0.915 0.896 0.878 0.860 0.842

0.41 0.42 0.43 0.44 0.45 0.46 0.47 0.48 0.49 0.50 0.51 0.52 0.53 0.54 0.55 0.56 0.57 0.58 0.59 0.60

z 0.824 0.806 0.789 0.772 0.755 0.739 0.722 0.706 0.690 0.674 0.659 0.643 0.628 0.613 0.598 0.583 0.568 0.553 0.539 0.524

0.61 0.62 0.63 0.64 0.65 0.66 0.67 0.68 0.69 0.70 0.71 0.72 0.73 0.74 0.75 0.76 0.77 0.78 0.79 0.80

z 0.510 0.496 0.482 0.468 0.454 0.440 0.426 0.412 0.399 0.385 0.372 0.358 0.345 0.332 0.319 0.305 0.292 0.279 0.266 0.253

0.81 0.82 0.83 0.84 0.85 0.86 0.87 0.88 0.89 0.90 0.91 0.92 0.93 0.94 0.95 0.96 0.97 0.98 0.99 1.00

z 0.240 0.228 0.215 0.202 0.189 0.176 0.164 0.151 0.138 0.126 0.113 0.100 0.088 0.075 0.063 0.050 0.038 0.025 0.013 0.000

ndice

310

Elementos de Bioestadstica

Tabla III.2: Funcin de Distribucin N (0, 1) (p. 84)


(F (x) = P (Z x) si Z es una variable con distribucin N (0, 1))
x F (x) x F (x) x F (x) x F (x) 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.10 0.11 0.12 0.13 0.14 0.15 0.16 0.17 0.18 0.19 0.20 0.21 0.22 0.23 0.24 0.25 0.26 0.27 0.28 0.29 0.30 0.5040 0.5080 0.5120 0.5160 0.5199 0.5239 0.5279 0.5319 0.5359 0.5398 0.5438 0.5478 0.5517 0.5557 0.5596 0.5636 0.5675 0.5714 0.5753 0.5793 0.5832 0.5871 0.5910 0.5948 0.5987 0.6026 0.6064 0.6103 0.6141 0.6179 0.31 0.32 0.33 0.34 0.35 0.36 0.37 0.38 0.39 0.40 0.41 0.42 0.43 0.44 0.45 0.46 0.47 0.48 0.49 0.50 0.51 0.52 0.53 0.54 0.55 0.56 0.57 0.58 0.59 0.60 0.6217 0.6255 0.6293 0.6331 0.6368 0.6406 0.6443 0.6480 0.6517 0.6554 0.6591 0.6628 0.6664 0.6700 0.6736 0.6772 0.6808 0.6844 0.6879 0.6915 0.6950 0.6985 0.7019 0.7054 0.7088 0.7123 0.7157 0.7190 0.7224 0.7257 0.61 0.62 0.63 0.64 0.65 0.66 0.67 0.68 0.69 0.70 0.71 0.72 0.73 0.74 0.75 0.76 0.77 0.78 0.79 0.80 0.81 0.82 0.83 0.84 0.85 0.86 0.87 0.88 0.89 0.90 0.7291 0.7324 0.7357 0.7389 0.7422 0.7454 0.7486 0.7517 0.7549 0.7580 0.7611 0.7642 0.7673 0.7704 0.7734 0.7764 0.7794 0.7823 0.7852 0.7881 0.7910 0.7939 0.7967 0.7995 0.8023 0.8051 0.8078 0.8106 0.8133 0.8159 0.91 0.92 0.93 0.94 0.95 0.96 0.97 0.98 0.99 1.00 1.01 1.02 1.03 1.04 1.05 1.06 1.07 1.08 1.09 1.10 1.11 1.12 1.13 1.14 1.15 1.16 1.17 1.18 1.19 1.20 0.8186 0.8212 0.8238 0.8264 0.8289 0.8315 0.8340 0.8365 0.8389 0.8413 0.8438 0.8461 0.8485 0.8508 0.8531 0.8554 0.8577 0.8599 0.8621 0.8643 0.8665 0.8686 0.8708 0.8729 0.8749 0.8770 0.8790 0.8810 0.8830 0.8849

ndice

Agustn Garca Nogales

311

Tabla III.2: Funcin de Distribucin N (0, 1) (cont.)


(F (x) = P (Z x) si Z es una variable con distribucin N (0, 1))
x F (x) x F (x) x F (x) x F (x) 1.21 1.22 1.23 1.24 1.25 1.26 1.27 1.28 1.29 1.30 1.31 1.32 1.33 1.34 1.35 1.36 1.37 1.38 1.39 1.40 1.41 1.42 1.43 1.44 1.45 1.46 1.47 1.48 1.49 1.50 0.8869 0.8888 0.8907 0.8925 0.8944 0.8962 0.8980 0.8997 0.9015 0.9032 0.9049 0.9066 0.9082 0.9099 0.9115 0.9131 0.9147 0.9162 0.9177 0.9192 0.9207 0.9222 0.9236 0.9251 0.9265 0.9279 0.9292 0.9306 0.9319 0.9332 1.51 1.52 1.53 1.54 1.55 1.56 1.57 1.58 1.59 1.60 1.61 1.62 1.63 1.64 1.65 1.66 1.67 1.68 1.69 1.70 1.71 1.72 1.73 1.74 1.75 1.76 1.77 1.78 1.79 1.80 0.9345 0.9357 0.9370 0.9382 0.9394 0.9406 0.9418 0.9429 0.9441 0.9452 0.9463 0.9474 0.9484 0.9495 0.9505 0.9515 0.9525 0.9535 0.9545 0.9554 0.9564 0.9573 0.9582 0.9591 0.9599 0.9608 0.9616 0.9625 0.9633 0.9641 1.81 1.82 1.83 1.84 1.85 1.86 1.87 1.88 1.89 1.90 1.91 1.92 1.93 1.94 1.95 1.96 1.97 1.98 1.99 2.00 2.01 2.02 2.03 2.04 2.05 2.06 2.07 2.08 2.09 2.10 0.9649 0.9656 0.9664 0.9671 0.9678 0.9686 0.9693 0.9699 0.9706 0.9713 0.9719 0.9726 0.9732 0.9738 0.9744 0.9750 0.9756 0.9761 0.9767 0.9772 0.9778 0.9783 0.9788 0.9793 0.9798 0.9803 0.9808 0.9812 0.9817 0.9821 2.11 2.12 2.13 2.14 2.15 2.16 2.17 2.18 2.19 2.20 2.21 2.22 2.23 2.24 2.25 2.26 2.27 2.28 2.29 2.30 2.31 2.32 2.33 2.34 2.35 2.36 2.37 2.38 2.39 2.40 0.9826 0.9830 0.9834 0.9838 0.9842 0.9846 0.9850 0.9854 0.9857 0.9861 0.9864 0.9868 0.9871 0.9875 0.9878 0.9881 0.9884 0.9887 0.9890 0.9893 0.9896 0.9898 0.9901 0.9904 0.9906 0.9909 0.9911 0.9913 0.9916 0.9918

ndice

312

Elementos de Bioestadstica

Tabla III.2: Funcin de Distribucin N (0, 1) (cont.)


(F (x) = P (Z x) si Z es una variable con distribucin N (0, 1))
x F (x) x F (x) x F (x) 2.41 2.42 2.43 2.44 2.45 2.46 2.47 2.48 2.49 2.50 2.51 2.52 2.53 2.54 2.55 2.56 2.57 2.58 2.59 2.60 0.9920 0.9922 0.9925 0.9927 0.9929 0.9931 0.9932 0.9934 0.9936 0.9938 0.9940 0.9941 0.9943 0.9945 0.9946 0.9948 0.9949 0.9951 0.9952 0.9953 2.61 2.62 2.63 2.64 2.65 2.66 2.67 2.68 2.69 2.70 2.71 2.72 2.73 2.74 2.75 2.76 2.77 2.78 2.79 2.80 0.9955 0.9956 0.9957 0.9959 0.9960 0.9961 0.9962 0.9963 0.9964 0.9965 0.9966 0.9967 0.9968 0.9969 0.9970 0.9971 0.9972 0.9973 0.9974 0.9974 2.81 2.82 2.83 2.84 2.85 2.86 2.87 2.88 2.89 2.90 2.91 2.92 2.93 2.94 2.95 2.96 2.97 2.98 2.99 3.00 0.9975 0.9976 0.9977 0.9977 0.9978 0.9979 0.9979 0.9980 0.9981 0.9981 0.9982 0.9982 0.9983 0.9984 0.9984 0.9985 0.9985 0.9986 0.9986 0.9987

ndice

Agustn Garca Nogales

313

Tabla IV: Distribucin t de Student (p. 97)


t (n) n 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 0.5 1.000 0.816 0.765 0.741 0.727 0.718 0.711 0.706 0.703 0.700 0.697 0.695 0.694 0.692 0.691 0.690 0.689 0.688 0.688 0.687 0.686 0.686 0.2 3.078 1.886 1.638 1.533 1.476 1.440 1.415 1.397 1.383 1.372 1.363 1.356 1.350 1.345 1.341 1.337 1.333 1.330 1.328 1.325 1.323 1.321 0.1 6.314 2.920 2.353 2.132 2.015 1.943 1.895 1.860 1.833 1.812 1.796 1.782 1.771 1.761 1.753 1.746 1.740 1.734 1.729 1.725 1.721 1.717 0.05 12.706 4.303 3.182 2.776 2.571 2.447 2.365 2.306 2.262 2.228 2.201 2.179 2.160 2.145 2.131 2.120 2.110 2.101 2.093 2.086 2.080 2.074 0.025 25.452 6.205 4.177 3.495 3.163 2.969 2.841 2.752 2.685 2.634 2.593 2.560 2.533 2.510 2.490 2.473 2.458 2.445 2.433 2.423 2.414 2.405 0.02 31.821 6.965 4.541 3.747 3.365 3.143 2.998 2.896 2.821 2.764 2.718 2.681 2.650 2.624 2.602 2.583 2.567 2.552 2.539 2.528 2.518 2.508 0.01 63.656 9.925 5.841 4.604 4.032 3.707 3.499 3.355 3.250 3.169 3.106 3.055 3.012 2.977 2.947 2.921 2.898 2.878 2.861 2.845 2.831 2.819 0.001 636.611 31.602 12.923 8.610 6.869 5.959 5.408 5.041 4.781 4.587 4.437 4.318 4.221 4.140 4.073 4.015 3.965 3.922 3.883 3.850 3.819 3.792

ndice

314

Elementos de Bioestadstica

Tabla IV: Distribucin t de Student (cont.)


t (n) n 23 24 25 26 27 28 29 30 35 40 45 50 55 60 65 70 75 80 85 90 95 100 0.5 0.685 0.685 0.684 0.684 0.684 0.683 0.683 0.683 0.682 0.681 0.680 0.679 0.679 0.679 0.678 0.678 0.678 0.678 0.677 0.677 0.677 0.677 0.674 0.2 1.319 1.318 1.316 1.315 1.314 1.313 1.311 1.310 1.306 1.303 1.301 1.299 1.297 1.296 1.295 1.294 1.293 1.292 1.292 1.291 1.291 1.290 1.282 0.1 1.714 1.711 1.708 1.706 1.703 1.701 1.699 1.697 1.690 1.684 1.679 1.676 1.673 1.671 1.669 1.667 1.665 1.664 1.663 1.662 1.661 1.660 1.645 0.05 2.069 2.064 2.060 2.056 2.052 2.048 2.045 2.042 2.030 2.021 2.014 2.009 2.004 2.000 1.997 1.994 1.992 1.990 1.988 1.987 1.985 1.984 1.960 0.025 2.398 2.391 2.385 2.379 2.373 2.368 2.364 2.360 2.342 2.329 2.319 2.311 2.304 2.299 2.295 2.291 2.287 2.284 2.282 2.280 2.277 2.276 2.241 0.02 2.500 2.492 2.485 2.479 2.473 2.467 2.462 2.457 2.438 2.423 2.412 2.403 2.396 2.390 2.385 2.381 2.377 2.374 2.371 2.368 2.366 2.364 2.326 0.01 2.807 2.797 2.787 2.779 2.771 2.763 2.756 2.750 2.724 2.704 2.690 2.678 2.668 2.660 2.654 2.648 2.643 2.639 2.635 2.632 2.629 2.626 2.576 0.001 3.768 3.745 3.725 3.707 3.690 3.674 3.659 3.646 3.591 3.551 3.520 3.496 3.476 3.460 3.447 3.435 3.425 3.416 3.409 3.402 3.396 3.390 3.291

ndice

Agustn Garca Nogales

315

Tabla V: Distribucin chi-cuadrado 2(n) (p. 166)


2 (n) n 0.001 0.005 0.01 0.025 0.05 1 10.83 7.88 6.64 5.02 7.38 3.84 5.99 7.82 0.1 2.71 4.61 6.25 7.78 0.2 1.64 3.22 4.64 5.99 7.29 0.8 0.06 0.45 1.01 1.65 2.34 3.07 3.82 0.9 0.95 0.975 0.99 0.995

0.02 0.00 0.00 0.00 0.00 0.21 0.10 0.05 0.02 0.01 0.58 0.35 0.22 0.11 0.07 1.06 0.71 0.48 0.30 0.21 1.61 1.15 0.83 0.55 0.41 2.20 1.64 1.24 0.87 0.68 2.83 2.17 1.69 1.24 0.99 3.49 2.73 2.18 1.65 1.34 4.17 3.32 2.70 2.09 1.73 4.87 3.94 3.25 2.56 2.16 5.58 4.57 3.82 3.05 2.60 6.30 5.23 4.40 3.57 3.07 7.04 5.89 5.01 4.11 3.56 7.79 6.57 5.63 4.66 4.07

2 13.82 10.60 9.21

3 16.27 12.84 11.35 9.35

4 18.47 14.86 13.28 11.14 9.49

5 20.52 16.75 15.09 12.83 11.07 9.24

6 22.46 18.55 16.81 14.45 12.59 10.65 8.56 7 24.33 20.28 18.48 16.01 14.07 12.02 9.80

8 26.13 21.96 20.09 17.54 15.51 13.36 11.03 4.59 9 27.88 23.59 21.67 19.03 16.92 14.68 12.24 5.38 10 29.59 25.19 23.21 20.49 18.31 15.99 13.44 6.18 11 31.27 26.76 24.73 21.92 19.68 17.28 14.63 6.99 12 32.92 28.30 26.22 23.34 21.03 18.55 15.81 7.81 13 34.54 29.83 27.69 24.74 22.36 19.81 16.99 8.63 14 36.13 31.33 29.15 26.12 23.69 21.07 18.15 9.47

15 37.71 32.81 30.58 27.49 25.00 22.31 19.31 10.31 8.55 7.26 6.26 5.23 4.60 16 39.26 34.27 32.01 28.85 26.30 23.54 20.47 11.15 9.31 7.96 6.91 5.81 5.14 17 40.80 35.73 33.41 30.20 27.59 24.77 21.62 12.00 10.08 8.67 7.56 6.41 5.70 18 42.32 37.16 34.81 31.53 28.87 25.99 22.76 12.86 10.86 9.39 8.23 7.01 6.26

ndice

316

Elementos de Bioestadstica

Tabla V: Distribucin chi-cuadrado 2(n) (cont.)


2 (n) n 0.001 19 43.83 20 45.33 21 46.81 22 48.28 23 49.74 24 51.19 25 52.64 26 54.07 27 55.49 28 56.91 29 58.32 30 59.72 40 73.43 50 86.69 60 99.65 0.005 38.59 40.01 41.41 42.81 44.19 45.57 46.94 48.30 49.66 51.01 52.35 53.69 66.79 79.52 91.98 0.01 36.20 37.57 38.94 40.30 41.65 42.99 44.32 45.65 46.97 48.29 49.60 50.90 63.71 76.18 88.41 0.025 32.86 34.18 35.48 36.79 38.08 39.37 40.65 41.93 43.20 44.47 45.73 46.99 59.35 71.44 83.32 0.05 30.15 31.41 32.68 33.93 35.18 36.42 37.66 38.89 40.12 41.34 42.56 43.78 55.77 67.52 79.10 90.55 0.1 27.21 28.41 29.62 30.82 32.01 33.20 34.39 35.57 36.75 37.92 39.09 40.26 51.81 63.18 74.41 85.54 0.2 0.8 0.9 0.95 0.975 0.99 0.995 7.63 8.26 6.84 7.43 8.03 8.64

23.90 13.72 11.65 10.12 8.91 25.04 14.58 12.44 10.85 9.59

26.17 15.44 13.24 11.59 10.28 8.90 27.30 16.31 14.04 12.34 10.98 9.54

28.43 17.19 14.85 13.09 11.69 10.19 9.26 29.56 18.06 15.66 13.85 12.40 10.86 9.89 30.68 18.94 16.47 14.61 13.12 11.52 10.52 31.80 19.82 17.29 15.38 13.84 12.20 11.16 32.91 20.70 18.11 16.15 14.57 12.88 11.81 34.03 21.59 18.94 16.93 15.31 13.56 12.46 35.14 22.47 19.77 17.71 16.05 14.25 13.12 36.25 23.36 20.60 18.49 16.79 14.95 13.78 47.27 32.34 29.05 26.51 24.43 22.16 20.70 58.17 41.45 37.68 34.76 32.35 29.70 27.99 68.98 50.64 46.45 43.18 40.47 37.48 35.53 79.72 59.89 55.32 51.73 48.75 45.43 43.26 90.42 69.20 64.27 60.38 57.14 53.53 51.16

70 112.37 104.25 100.46 95.05

80 124.90 116.37 112.37 106.66 101.90 96.60

90 137.28 128.35 124.16 118.17 113.17 107.59 101.07 78.55 73.28 69.11 65.63 61.74 59.18 100 149.53 140.23 135.86 129.60 124.37 118.52 111.68 87.94 82.35 77.91 74.20 70.05 67.31

ndice

Agustn Garca Nogales

317

Tabla VI: Distribucin F (m, n) de Fisher (p. 95)

F (m,n)

Nota: En cada una de las tablas de la distribucin F (m, n) siguientes, los grados de libertad m del numerador aparecen en la primera columna, mientras que los grados de libertad n del denominador aparecen en la primera la. Las tablas proporcionan los valores F (m, n).

ndice

318

Elementos de Bioestadstica

Tabla VI.1: Distribucin F (m, n). = 0.1


1 39.86 49.50 53.59 55.83 57.24 58.20 58.91 59.44 59.86 60.20 60.47 60.71 60.90 61.07 61.22 61.35 61.46 61.57 61.66 61.74 61.81 61.88 61.95 62.00 62.05 62.10 62.15 62.19 62.23 62.26 62.53 62.69 62.79 62.87 62.93 62.97 63.01 63.06 63.32 2 8.53 9.00 9.16 9.24 9.29 9.33 9.35 9.37 9.38 9.39 9.40 9.41 9.41 9.42 9.42 9.43 9.43 9.44 9.44 9.44 9.44 9.45 9.45 9.45 9.45 9.45 9.45 9.46 9.46 9.46 9.47 9.47 9.47 9.48 9.48 9.48 9.48 9.48 9.49

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 50 60 70 80 90 100 120

a 1a la= g.l. denominador. 1 3 4 5 6 7 8 9 10 5.54 4.54 4.06 3.78 3.59 3.46 3.36 3.29 5.46 4.32 3.78 3.46 3.26 3.11 3.01 2.92 5.39 4.19 3.62 3.29 3.07 2.92 2.81 2.73 5.34 4.11 3.52 3.18 2.96 2.81 2.69 2.61 5.31 4.05 3.45 3.11 2.88 2.73 2.61 2.52 5.28 4.01 3.40 3.05 2.83 2.67 2.55 2.46 5.27 3.98 3.37 3.01 2.78 2.62 2.51 2.41 5.25 3.95 3.34 2.98 2.75 2.59 2.47 2.38 5.24 3.94 3.32 2.96 2.72 2.56 2.44 2.35 5.23 3.92 3.30 2.94 2.70 2.54 2.42 2.32 5.22 3.91 3.28 2.92 2.68 2.52 2.40 2.30 5.22 3.90 3.27 2.90 2.67 2.50 2.38 2.28 5.21 3.89 3.26 2.89 2.65 2.49 2.36 2.27 5.20 3.88 3.25 2.88 2.64 2.48 2.35 2.26 5.20 3.87 3.24 2.87 2.63 2.46 2.34 2.24 5.20 3.86 3.23 2.86 2.62 2.45 2.33 2.23 5.19 3.86 3.22 2.85 2.61 2.45 2.32 2.22 5.19 3.85 3.22 2.85 2.61 2.44 2.31 2.22 5.19 3.85 3.21 2.84 2.60 2.43 2.30 2.21 5.18 3.84 3.21 2.84 2.59 2.42 2.30 2.20 5.18 3.84 3.20 2.83 2.59 2.42 2.29 2.19 5.18 3.84 3.20 2.83 2.58 2.41 2.29 2.19 5.18 3.83 3.19 2.82 2.58 2.41 2.28 2.18 5.18 3.83 3.19 2.82 2.58 2.40 2.28 2.18 5.17 3.83 3.19 2.81 2.57 2.40 2.27 2.17 5.17 3.83 3.18 2.81 2.57 2.40 2.27 2.17 5.17 3.82 3.18 2.81 2.56 2.39 2.26 2.17 5.17 3.82 3.18 2.81 2.56 2.39 2.26 2.16 5.17 3.82 3.18 2.80 2.56 2.39 2.26 2.16 5.17 3.82 3.17 2.80 2.56 2.38 2.25 2.16 5.16 3.80 3.16 2.78 2.54 2.36 2.23 2.13 5.15 3.80 3.15 2.77 2.52 2.35 2.22 2.12 5.15 3.79 3.14 2.76 2.51 2.34 2.21 2.11 5.15 3.79 3.14 2.76 2.51 2.33 2.20 2.10 5.15 3.78 3.13 2.75 2.50 2.33 2.20 2.09 5.15 3.78 3.13 2.75 2.50 2.32 2.19 2.09 5.14 3.78 3.13 2.75 2.50 2.32 2.19 2.09 5.14 3.78 3.12 2.74 2.49 2.32 2.18 2.08 5.13 3.76 3.11 2.72 2.47 2.29 2.16 2.06

columna= g.l. numerador


11 3.23 2.86 2.66 2.54 2.45 2.39 2.34 2.30 2.27 2.25 2.23 2.21 2.19 2.18 2.17 2.16 2.15 2.14 2.13 2.12 2.12 2.11 2.11 2.10 2.10 2.09 2.09 2.08 2.08 2.08 2.05 2.04 2.03 2.02 2.01 2.01 2.01 2.00 1.97 12 3.18 2.81 2.61 2.48 2.39 2.33 2.28 2.24 2.21 2.19 2.17 2.15 2.13 2.12 2.10 2.09 2.08 2.08 2.07 2.06 2.05 2.05 2.04 2.04 2.03 2.03 2.02 2.02 2.01 2.01 1.99 1.97 1.96 1.95 1.95 1.94 1.94 1.93 1.90 13 3.14 2.76 2.56 2.43 2.35 2.28 2.23 2.20 2.16 2.14 2.12 2.10 2.08 2.07 2.05 2.04 2.03 2.02 2.01 2.01 2.00 1.99 1.99 1.98 1.98 1.97 1.97 1.96 1.96 1.96 1.93 1.92 1.90 1.90 1.89 1.89 1.88 1.88 1.85 14 3.10 2.73 2.52 2.39 2.31 2.24 2.19 2.15 2.12 2.10 2.07 2.05 2.04 2.02 2.01 2.00 1.99 1.98 1.97 1.96 1.96 1.95 1.94 1.94 1.93 1.93 1.92 1.92 1.92 1.91 1.89 1.87 1.86 1.85 1.84 1.84 1.83 1.83 1.80 15 3.07 2.70 2.49 2.36 2.27 2.21 2.16 2.12 2.09 2.06 2.04 2.02 2.00 1.99 1.97 1.96 1.95 1.94 1.93 1.92 1.92 1.91 1.90 1.90 1.89 1.89 1.88 1.88 1.88 1.87 1.85 1.83 1.82 1.81 1.80 1.80 1.79 1.79 1.76 16 3.05 2.67 2.46 2.33 2.24 2.18 2.13 2.09 2.06 2.03 2.01 1.99 1.97 1.95 1.94 1.93 1.92 1.91 1.90 1.89 1.88 1.88 1.87 1.87 1.86 1.86 1.85 1.85 1.84 1.84 1.81 1.79 1.78 1.77 1.77 1.76 1.76 1.75 1.72 17 3.03 2.64 2.44 2.31 2.22 2.15 2.10 2.06 2.03 2.00 1.98 1.96 1.94 1.93 1.91 1.90 1.89 1.88 1.87 1.86 1.86 1.85 1.84 1.84 1.83 1.83 1.82 1.82 1.81 1.81 1.78 1.76 1.75 1.74 1.74 1.73 1.73 1.72 1.69 18 3.01 2.62 2.42 2.29 2.20 2.13 2.08 2.04 2.00 1.98 1.95 1.93 1.92 1.90 1.89 1.87 1.86 1.85 1.84 1.84 1.83 1.82 1.82 1.81 1.80 1.80 1.80 1.79 1.79 1.78 1.75 1.74 1.72 1.71 1.71 1.70 1.70 1.69 1.66 19 2.99 2.61 2.40 2.27 2.18 2.11 2.06 2.02 1.98 1.96 1.93 1.91 1.89 1.88 1.86 1.85 1.84 1.83 1.82 1.81 1.81 1.80 1.79 1.79 1.78 1.78 1.77 1.77 1.76 1.76 1.73 1.71 1.70 1.69 1.68 1.68 1.67 1.67 1.63 20 2.97 2.59 2.38 2.25 2.16 2.09 2.04 2.00 1.96 1.94 1.91 1.89 1.87 1.86 1.84 1.83 1.82 1.81 1.80 1.79 1.79 1.78 1.77 1.77 1.76 1.76 1.75 1.75 1.74 1.74 1.71 1.69 1.68 1.67 1.66 1.65 1.65 1.64 1.61

ndice

Agustn Garca Nogales

319

Tabla VI.1 (cont.): Distribucin F (m, n). = 0.1


21 2.96 2.57 2.36 2.23 2.14 2.08 2.02 1.98 1.95 1.92 1.90 1.87 1.86 1.84 1.83 1.81 1.80 1.79 1.78 1.78 1.77 1.76 1.75 1.75 1.74 1.74 1.73 1.73 1.72 1.72 1.69 1.67 1.66 1.65 1.64 1.63 1.63 1.62 1.59 22 2.95 2.56 2.35 2.22 2.13 2.06 2.01 1.97 1.93 1.90 1.88 1.86 1.84 1.83 1.81 1.80 1.79 1.78 1.77 1.76 1.75 1.74 1.74 1.73 1.73 1.72 1.72 1.71 1.71 1.70 1.67 1.65 1.64 1.63 1.62 1.62 1.61 1.60 1.57

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 50 60 70 80 90 100 120

a 1a la= g.l. denominador. 1 23 24 25 26 27 28 29 30 2.94 2.93 2.92 2.91 2.90 2.89 2.89 2.88 2.55 2.54 2.53 2.52 2.51 2.50 2.50 2.49 2.34 2.33 2.32 2.31 2.30 2.29 2.28 2.28 2.21 2.19 2.18 2.17 2.17 2.16 2.15 2.14 2.11 2.10 2.09 2.08 2.07 2.06 2.06 2.05 2.05 2.04 2.02 2.01 2.00 2.00 1.99 1.98 1.99 1.98 1.97 1.96 1.95 1.94 1.93 1.93 1.95 1.94 1.93 1.92 1.91 1.90 1.89 1.88 1.92 1.91 1.89 1.88 1.87 1.87 1.86 1.85 1.89 1.88 1.87 1.86 1.85 1.84 1.83 1.82 1.87 1.85 1.84 1.83 1.82 1.81 1.80 1.79 1.84 1.83 1.82 1.81 1.80 1.79 1.78 1.77 1.83 1.81 1.80 1.79 1.78 1.77 1.76 1.75 1.81 1.80 1.79 1.77 1.76 1.75 1.75 1.74 1.80 1.78 1.77 1.76 1.75 1.74 1.73 1.72 1.78 1.77 1.76 1.75 1.74 1.73 1.72 1.71 1.77 1.76 1.75 1.73 1.72 1.71 1.71 1.70 1.76 1.75 1.74 1.72 1.71 1.70 1.69 1.69 1.75 1.74 1.73 1.71 1.70 1.69 1.68 1.68 1.74 1.73 1.72 1.71 1.70 1.69 1.68 1.67 1.74 1.72 1.71 1.70 1.69 1.68 1.67 1.66 1.73 1.71 1.70 1.69 1.68 1.67 1.66 1.65 1.72 1.71 1.70 1.68 1.67 1.66 1.65 1.64 1.72 1.70 1.69 1.68 1.67 1.66 1.65 1.64 1.71 1.70 1.68 1.67 1.66 1.65 1.64 1.63 1.70 1.69 1.68 1.67 1.65 1.64 1.63 1.63 1.70 1.69 1.67 1.66 1.65 1.64 1.63 1.62 1.69 1.68 1.67 1.66 1.64 1.63 1.62 1.62 1.69 1.68 1.66 1.65 1.64 1.63 1.62 1.61 1.69 1.67 1.66 1.65 1.64 1.63 1.62 1.61 1.66 1.64 1.63 1.61 1.60 1.59 1.58 1.57 1.64 1.62 1.61 1.59 1.58 1.57 1.56 1.55 1.62 1.61 1.59 1.58 1.57 1.56 1.55 1.54 1.61 1.60 1.58 1.57 1.56 1.55 1.54 1.53 1.61 1.59 1.58 1.56 1.55 1.54 1.53 1.52 1.60 1.58 1.57 1.56 1.54 1.53 1.52 1.51 1.59 1.58 1.56 1.55 1.54 1.53 1.52 1.51 1.59 1.57 1.56 1.54 1.53 1.52 1.51 1.50 1.55 1.53 1.52 1.50 1.49 1.48 1.47 1.46

columna= g.l. numerador


40 2.84 2.44 2.23 2.09 2.00 1.93 1.87 1.83 1.79 1.76 1.74 1.71 1.70 1.68 1.66 1.65 1.64 1.62 1.61 1.61 1.60 1.59 1.58 1.57 1.57 1.56 1.56 1.55 1.55 1.54 1.51 1.48 1.47 1.46 1.45 1.44 1.43 1.42 1.45 50 2.81 2.41 2.20 2.06 1.97 1.90 1.84 1.80 1.76 1.73 1.70 1.68 1.66 1.64 1.63 1.61 1.60 1.59 1.58 1.57 1.56 1.55 1.54 1.54 1.53 1.52 1.52 1.51 1.51 1.50 1.46 1.44 1.42 1.41 1.40 1.39 1.39 1.38 1.44 60 2.79 2.39 2.18 2.04 1.95 1.87 1.82 1.77 1.74 1.71 1.68 1.66 1.64 1.62 1.60 1.59 1.58 1.56 1.55 1.54 1.53 1.53 1.52 1.51 1.50 1.50 1.49 1.49 1.48 1.48 1.44 1.41 1.40 1.38 1.37 1.36 1.36 1.35 1.43 70 2.78 2.38 2.16 2.03 1.93 1.86 1.80 1.76 1.72 1.69 1.66 1.64 1.62 1.60 1.59 1.57 1.56 1.55 1.54 1.53 1.52 1.51 1.50 1.49 1.49 1.48 1.47 1.47 1.46 1.46 1.42 1.39 1.37 1.36 1.35 1.34 1.34 1.32 1.42 80 2.77 2.37 2.15 2.02 1.92 1.85 1.79 1.75 1.71 1.68 1.65 1.63 1.61 1.59 1.57 1.56 1.55 1.53 1.52 1.51 1.50 1.49 1.49 1.48 1.47 1.47 1.46 1.45 1.45 1.44 1.40 1.38 1.36 1.34 1.33 1.33 1.32 1.31 1.41 90 2.76 2.36 2.15 2.01 1.91 1.84 1.78 1.74 1.70 1.67 1.64 1.62 1.60 1.58 1.56 1.55 1.54 1.52 1.51 1.50 1.49 1.48 1.48 1.47 1.46 1.45 1.45 1.44 1.44 1.43 1.39 1.36 1.35 1.33 1.32 1.31 1.30 1.29 1.40 100 2.76 2.36 2.14 2.00 1.91 1.83 1.78 1.73 1.69 1.66 1.64 1.61 1.59 1.57 1.56 1.54 1.53 1.52 1.50 1.49 1.48 1.48 1.47 1.46 1.45 1.45 1.44 1.43 1.43 1.42 1.38 1.35 1.34 1.32 1.31 1.30 1.29 1.28 1.40 110 2.75 2.35 2.13 2.00 1.90 1.83 1.77 1.73 1.69 1.66 1.63 1.61 1.59 1.57 1.55 1.54 1.52 1.51 1.50 1.49 1.48 1.47 1.46 1.45 1.45 1.44 1.43 1.43 1.42 1.42 1.37 1.35 1.33 1.31 1.30 1.29 1.28 1.27 1.39 120 2.75 2.35 2.13 1.99 1.90 1.82 1.77 1.72 1.68 1.65 1.63 1.60 1.58 1.56 1.55 1.53 1.52 1.50 1.49 1.48 1.47 1.46 1.46 1.45 1.44 1.43 1.43 1.42 1.41 1.41 1.37 1.34 1.32 1.31 1.29 1.28 1.28 1.26 1.38 2.71 2.30 2.08 1.95 1.85 1.77 1.72 1.67 1.63 1.60 1.57 1.55 1.52 1.51 1.49 1.47 1.46 1.44 1.43 1.42 1.41 1.40 1.39 1.38 1.38 1.37 1.36 1.35 1.35 1.34 1.34 1.33 1.33 1.32 1.32 1.31 1.31 1.30 1.03

ndice

320

Elementos de Bioestadstica

Tabla VI.2: Distribucin F (m, n). = 0.05


1 161.45 199.50 215.71 224.58 230.16 233.99 236.77 238.88 240.54 241.88 242.98 243.91 244.69 245.36 245.95 246.46 246.92 247.32 247.69 248.01 248.31 248.58 248.83 249.05 249.26 249.45 249.63 249.80 249.95 250.09 251.14 251.77 252.20 252.50 252.72 252.90 253.04 253.25 254.30

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 50 60 70 80 90 100 120

1a la= 2 3 4 18.51 10.13 7.71 19.00 9.55 6.94 19.16 9.28 6.59 19.25 9.12 6.39 19.30 9.01 6.26 19.33 8.94 6.16 19.35 8.89 6.09 19.37 8.85 6.04 19.38 8.81 6.00 19.40 8.79 5.96 19.40 8.76 5.94 19.41 8.74 5.91 19.42 8.73 5.89 19.42 8.71 5.87 19.43 8.70 5.86 19.43 8.69 5.84 19.44 8.68 5.83 19.44 8.67 5.82 19.44 8.67 5.81 19.45 8.66 5.80 19.45 8.65 5.79 19.45 8.65 5.79 19.45 8.64 5.78 19.45 8.64 5.77 19.46 8.63 5.77 19.46 8.63 5.76 19.46 8.63 5.76 19.46 8.62 5.75 19.46 8.62 5.75 19.46 8.62 5.75 19.47 8.59 5.72 19.48 8.58 5.70 19.48 8.57 5.69 19.48 8.57 5.68 19.48 8.56 5.67 19.48 8.56 5.67 19.49 8.55 5.66 19.49 8.55 5.66 19.50 8.53 5.63

g.l. denominador. 1a columna= g.l. numerador. 5 6 7 8 9 10 11 12 13 14 15 16 17 6.61 5.99 5.59 5.32 5.12 4.96 4.84 4.75 4.67 4.60 4.54 4.49 4.45 5.79 5.14 4.74 4.46 4.26 4.10 3.98 3.89 3.81 3.74 3.68 3.63 3.59 5.41 4.76 4.35 4.07 3.86 3.71 3.59 3.49 3.41 3.34 3.29 3.24 3.20 5.19 4.53 4.12 3.84 3.63 3.48 3.36 3.26 3.18 3.11 3.06 3.01 2.96 5.05 4.39 3.97 3.69 3.48 3.33 3.20 3.11 3.03 2.96 2.90 2.85 2.81 4.95 4.28 3.87 3.58 3.37 3.22 3.09 3.00 2.92 2.85 2.79 2.74 2.70 4.88 4.21 3.79 3.50 3.29 3.14 3.01 2.91 2.83 2.76 2.71 2.66 2.61 4.82 4.15 3.73 3.44 3.23 3.07 2.95 2.85 2.77 2.70 2.64 2.59 2.55 4.77 4.10 3.68 3.39 3.18 3.02 2.90 2.80 2.71 2.65 2.59 2.54 2.49 4.74 4.06 3.64 3.35 3.14 2.98 2.85 2.75 2.67 2.60 2.54 2.49 2.45 4.70 4.03 3.60 3.31 3.10 2.94 2.82 2.72 2.63 2.57 2.51 2.46 2.41 4.68 4.00 3.57 3.28 3.07 2.91 2.79 2.69 2.60 2.53 2.48 2.42 2.38 4.66 3.98 3.55 3.26 3.05 2.89 2.76 2.66 2.58 2.51 2.45 2.40 2.35 4.64 3.96 3.53 3.24 3.03 2.86 2.74 2.64 2.55 2.48 2.42 2.37 2.33 4.62 3.94 3.51 3.22 3.01 2.85 2.72 2.62 2.53 2.46 2.40 2.35 2.31 4.60 3.92 3.49 3.20 2.99 2.83 2.70 2.60 2.51 2.44 2.38 2.33 2.29 4.59 3.91 3.48 3.19 2.97 2.81 2.69 2.58 2.50 2.43 2.37 2.32 2.27 4.58 3.90 3.47 3.17 2.96 2.80 2.67 2.57 2.48 2.41 2.35 2.30 2.26 4.57 3.88 3.46 3.16 2.95 2.79 2.66 2.56 2.47 2.40 2.34 2.29 2.24 4.56 3.87 3.44 3.15 2.94 2.77 2.65 2.54 2.46 2.39 2.33 2.28 2.23 4.55 3.86 3.43 3.14 2.93 2.76 2.64 2.53 2.45 2.38 2.32 2.26 2.22 4.54 3.86 3.43 3.13 2.92 2.75 2.63 2.52 2.44 2.37 2.31 2.25 2.21 4.53 3.85 3.42 3.12 2.91 2.75 2.62 2.51 2.43 2.36 2.30 2.24 2.20 4.53 3.84 3.41 3.12 2.90 2.74 2.61 2.51 2.42 2.35 2.29 2.24 2.19 4.52 3.83 3.40 3.11 2.89 2.73 2.60 2.50 2.41 2.34 2.28 2.23 2.18 4.52 3.83 3.40 3.10 2.89 2.72 2.59 2.49 2.41 2.33 2.27 2.22 2.17 4.51 3.82 3.39 3.10 2.88 2.72 2.59 2.48 2.40 2.33 2.27 2.21 2.17 4.50 3.82 3.39 3.09 2.87 2.71 2.58 2.48 2.39 2.32 2.26 2.21 2.16 4.50 3.81 3.38 3.08 2.87 2.70 2.58 2.47 2.39 2.31 2.25 2.20 2.15 4.50 3.81 3.38 3.08 2.86 2.70 2.57 2.47 2.38 2.31 2.25 2.19 2.15 4.46 3.77 3.34 3.04 2.83 2.66 2.53 2.43 2.34 2.27 2.20 2.15 2.10 4.44 3.75 3.32 3.02 2.80 2.64 2.51 2.40 2.31 2.24 2.18 2.12 2.08 4.43 3.74 3.30 3.01 2.79 2.62 2.49 2.38 2.30 2.22 2.16 2.11 2.06 4.42 3.73 3.29 2.99 2.78 2.61 2.48 2.37 2.28 2.21 2.15 2.09 2.05 4.41 3.72 3.29 2.99 2.77 2.60 2.47 2.36 2.27 2.20 2.14 2.08 2.03 4.41 3.72 3.28 2.98 2.76 2.59 2.46 2.36 2.27 2.19 2.13 2.07 2.03 4.41 3.71 3.27 2.97 2.76 2.59 2.46 2.35 2.26 2.19 2.12 2.07 2.02 4.40 3.70 3.27 2.97 2.75 2.58 2.45 2.34 2.25 2.18 2.11 2.06 2.01 4.37 3.67 3.23 2.93 2.71 2.54 2.41 2.30 2.21 2.13 2.07 2.01 1.96

18 4.41 3.55 3.16 2.93 2.77 2.66 2.58 2.51 2.46 2.41 2.37 2.34 2.31 2.29 2.27 2.25 2.23 2.22 2.20 2.19 2.18 2.17 2.16 2.15 2.14 2.13 2.13 2.12 2.11 2.11 2.06 2.04 2.02 2.00 1.99 1.98 1.98 1.97 1.92

19 4.38 3.52 3.13 2.90 2.74 2.63 2.54 2.48 2.42 2.38 2.34 2.31 2.28 2.26 2.23 2.21 2.20 2.18 2.17 2.16 2.14 2.13 2.12 2.11 2.11 2.10 2.09 2.08 2.08 2.07 2.03 2.00 1.98 1.97 1.96 1.95 1.94 1.93 1.88

20 4.35 3.49 3.10 2.87 2.71 2.60 2.51 2.45 2.39 2.35 2.31 2.28 2.25 2.22 2.20 2.18 2.17 2.15 2.14 2.12 2.11 2.10 2.09 2.08 2.07 2.07 2.06 2.05 2.05 2.04 1.99 1.97 1.95 1.93 1.92 1.91 1.91 1.90 1.84

ndice

Agustn Garca Nogales

321

Tabla VI.2 (cont.): Distribucin F (m, n). = 0.05


21 4.32 3.47 3.07 2.84 2.68 2.57 2.49 2.42 2.37 2.32 2.28 2.25 2.22 2.20 2.18 2.16 2.14 2.12 2.11 2.10 2.08 2.07 2.06 2.05 2.05 2.04 2.03 2.02 2.02 2.01 1.96 1.94 1.92 1.90 1.89 1.88 1.88 1.87 1.81 22 4.30 3.44 3.05 2.82 2.66 2.55 2.46 2.40 2.34 2.30 2.26 2.23 2.20 2.17 2.15 2.13 2.11 2.10 2.08 2.07 2.06 2.05 2.04 2.03 2.02 2.01 2.00 2.00 1.99 1.98 1.94 1.91 1.89 1.88 1.86 1.86 1.85 1.84 1.78

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 50 60 70 80 90 100 120

1a 23 4.28 3.42 3.03 2.80 2.64 2.53 2.44 2.37 2.32 2.27 2.24 2.20 2.18 2.15 2.13 2.11 2.09 2.08 2.06 2.05 2.04 2.02 2.01 2.01 2.00 1.99 1.98 1.97 1.97 1.96 1.91 1.88 1.86 1.85 1.84 1.83 1.82 1.81 1.76

la= g.l. denominador. 1a 24 25 26 27 28 29 30 4.26 4.24 4.23 4.21 4.20 4.18 4.17 3.40 3.39 3.37 3.35 3.34 3.33 3.32 3.01 2.99 2.98 2.96 2.95 2.93 2.92 2.78 2.76 2.74 2.73 2.71 2.70 2.69 2.62 2.60 2.59 2.57 2.56 2.55 2.53 2.51 2.49 2.47 2.46 2.45 2.43 2.42 2.42 2.40 2.39 2.37 2.36 2.35 2.33 2.36 2.34 2.32 2.31 2.29 2.28 2.27 2.30 2.28 2.27 2.25 2.24 2.22 2.21 2.25 2.24 2.22 2.20 2.19 2.18 2.16 2.22 2.20 2.18 2.17 2.15 2.14 2.13 2.18 2.16 2.15 2.13 2.12 2.10 2.09 2.15 2.14 2.12 2.10 2.09 2.08 2.06 2.13 2.11 2.09 2.08 2.06 2.05 2.04 2.11 2.09 2.07 2.06 2.04 2.03 2.01 2.09 2.07 2.05 2.04 2.02 2.01 1.99 2.07 2.05 2.03 2.02 2.00 1.99 1.98 2.05 2.04 2.02 2.00 1.99 1.97 1.96 2.04 2.02 2.00 1.99 1.97 1.96 1.95 2.03 2.01 1.99 1.97 1.96 1.94 1.93 2.01 2.00 1.98 1.96 1.95 1.93 1.92 2.00 1.98 1.97 1.95 1.93 1.92 1.91 1.99 1.97 1.96 1.94 1.92 1.91 1.90 1.98 1.96 1.95 1.93 1.91 1.90 1.89 1.97 1.96 1.94 1.92 1.91 1.89 1.88 1.97 1.95 1.93 1.91 1.90 1.88 1.87 1.96 1.94 1.92 1.90 1.89 1.88 1.86 1.95 1.93 1.91 1.90 1.88 1.87 1.85 1.95 1.93 1.91 1.89 1.88 1.86 1.85 1.94 1.92 1.90 1.88 1.87 1.85 1.84 1.89 1.87 1.85 1.84 1.82 1.81 1.79 1.86 1.84 1.82 1.81 1.79 1.77 1.76 1.84 1.82 1.80 1.79 1.77 1.75 1.74 1.83 1.81 1.79 1.77 1.75 1.74 1.72 1.82 1.80 1.78 1.76 1.74 1.73 1.71 1.81 1.79 1.77 1.75 1.73 1.72 1.70 1.80 1.78 1.76 1.74 1.73 1.71 1.70 1.79 1.77 1.75 1.73 1.71 1.70 1.68 1.73 1.71 1.69 1.67 1.65 1.64 1.62

columna= g.l. numerador.


40 4.08 3.23 2.84 2.61 2.45 2.34 2.25 2.18 2.12 2.08 2.04 2.00 1.97 1.95 1.92 1.90 1.89 1.87 1.85 1.84 1.83 1.81 1.80 1.79 1.78 1.77 1.77 1.76 1.75 1.74 1.69 1.66 1.64 1.62 1.61 1.60 1.59 1.58 1.61 50 4.03 3.18 2.79 2.56 2.40 2.29 2.20 2.13 2.07 2.03 1.99 1.95 1.92 1.89 1.87 1.85 1.83 1.81 1.80 1.78 1.77 1.76 1.75 1.74 1.73 1.72 1.71 1.70 1.69 1.69 1.63 1.60 1.58 1.56 1.54 1.53 1.52 1.51 1.60 60 4.00 3.15 2.76 2.53 2.37 2.25 2.17 2.10 2.04 1.99 1.95 1.92 1.89 1.86 1.84 1.82 1.80 1.78 1.76 1.75 1.73 1.72 1.71 1.70 1.69 1.68 1.67 1.66 1.66 1.65 1.59 1.56 1.53 1.52 1.50 1.49 1.48 1.47 1.58 70 3.98 3.13 2.74 2.50 2.35 2.23 2.14 2.07 2.02 1.97 1.93 1.89 1.86 1.84 1.81 1.79 1.77 1.75 1.74 1.72 1.71 1.70 1.68 1.67 1.66 1.65 1.65 1.64 1.63 1.62 1.57 1.53 1.50 1.49 1.47 1.46 1.45 1.44 1.57 80 3.96 3.11 2.72 2.49 2.33 2.21 2.13 2.06 2.00 1.95 1.91 1.88 1.84 1.82 1.79 1.77 1.75 1.73 1.72 1.70 1.69 1.68 1.67 1.65 1.64 1.63 1.63 1.62 1.61 1.60 1.54 1.51 1.48 1.46 1.45 1.44 1.43 1.41 1.56 90 3.95 3.10 2.71 2.47 2.32 2.20 2.11 2.04 1.99 1.94 1.90 1.86 1.83 1.80 1.78 1.76 1.74 1.72 1.70 1.69 1.67 1.66 1.65 1.64 1.63 1.62 1.61 1.60 1.59 1.59 1.53 1.49 1.46 1.44 1.43 1.42 1.41 1.39 1.55 100 3.94 3.09 2.70 2.46 2.31 2.19 2.10 2.03 1.97 1.93 1.89 1.85 1.82 1.79 1.77 1.75 1.73 1.71 1.69 1.68 1.66 1.65 1.64 1.63 1.62 1.61 1.60 1.59 1.58 1.57 1.52 1.48 1.45 1.43 1.41 1.40 1.39 1.38 1.54 110 3.93 3.08 2.69 2.45 2.30 2.18 2.09 2.02 1.97 1.92 1.88 1.84 1.81 1.78 1.76 1.74 1.72 1.70 1.68 1.67 1.65 1.64 1.63 1.62 1.61 1.60 1.59 1.58 1.57 1.56 1.50 1.47 1.44 1.42 1.40 1.39 1.38 1.36 1.53 120 3.92 3.07 2.68 2.45 2.29 2.18 2.09 2.02 1.96 1.91 1.87 1.83 1.80 1.78 1.75 1.73 1.71 1.69 1.67 1.66 1.64 1.63 1.62 1.61 1.60 1.59 1.58 1.57 1.56 1.55 1.50 1.46 1.43 1.41 1.39 1.38 1.37 1.35 1.52 3.84 3.00 2.61 2.37 2.21 2.10 2.01 1.94 1.88 1.83 1.79 1.75 1.72 1.69 1.67 1.64 1.62 1.60 1.59 1.57 1.56 1.54 1.53 1.52 1.51 1.50 1.49 1.48 1.47 1.46 1.45 1.44 1.44 1.43 1.42 1.42 1.41 1.40 1.03

ndice

322

Elementos de Bioestadstica

Tabla VI.3: Distribucin F (m, n). = 0.025


1 647.79 799.50 864.16 899.59 921.85 937.11 948.22 956.66 963.29 968.62 973.02 976.70 979.83 982.54 984.86 986.93 988.73 990.35 991.80 993.10 994.28 995.36 996.35 997.25 998.08 998.85 999.55 1000.21 1000.84 1001.42 1005.60 1008.11 1009.80 1011.00 1011.90 1012.61 1013.17 1014.03 1018.21

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 50 60 70 80 90 100 120

a 1a la= g.l. denominador. 1 columna= g.l. numerador. 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 38.51 17.44 12.22 10.01 8.81 8.07 7.57 7.21 6.94 6.72 6.55 6.41 6.30 6.20 6.12 6.04 39.00 16.04 10.65 8.43 7.26 6.54 6.06 5.71 5.46 5.26 5.10 4.97 4.86 4.77 4.69 4.62 39.17 15.44 9.98 7.76 6.60 5.89 5.42 5.08 4.83 4.63 4.47 4.35 4.24 4.15 4.08 4.01 39.25 15.10 9.60 7.39 6.23 5.52 5.05 4.72 4.47 4.28 4.12 4.00 3.89 3.80 3.73 3.66 39.30 14.88 9.36 7.15 5.99 5.29 4.82 4.48 4.24 4.04 3.89 3.77 3.66 3.58 3.50 3.44 39.33 14.73 9.20 6.98 5.82 5.12 4.65 4.32 4.07 3.88 3.73 3.60 3.50 3.41 3.34 3.28 39.36 14.62 9.07 6.85 5.70 4.99 4.53 4.20 3.95 3.76 3.61 3.48 3.38 3.29 3.22 3.16 39.37 14.54 8.98 6.76 5.60 4.90 4.43 4.10 3.85 3.66 3.51 3.39 3.29 3.20 3.12 3.06 39.39 14.47 8.90 6.68 5.52 4.82 4.36 4.03 3.78 3.59 3.44 3.31 3.21 3.12 3.05 2.98 39.40 14.42 8.84 6.62 5.46 4.76 4.30 3.96 3.72 3.53 3.37 3.25 3.15 3.06 2.99 2.92 39.41 14.37 8.79 6.57 5.41 4.71 4.24 3.91 3.66 3.47 3.32 3.20 3.09 3.01 2.93 2.87 39.41 14.34 8.75 6.52 5.37 4.67 4.20 3.87 3.62 3.43 3.28 3.15 3.05 2.96 2.89 2.82 39.42 14.30 8.71 6.49 5.33 4.63 4.16 3.83 3.58 3.39 3.24 3.12 3.01 2.92 2.85 2.79 39.43 14.28 8.68 6.46 5.30 4.60 4.13 3.80 3.55 3.36 3.21 3.08 2.98 2.89 2.82 2.75 39.43 14.25 8.66 6.43 5.27 4.57 4.10 3.77 3.52 3.33 3.18 3.05 2.95 2.86 2.79 2.72 39.44 14.23 8.63 6.40 5.24 4.54 4.08 3.74 3.50 3.30 3.15 3.03 2.92 2.84 2.76 2.70 39.44 14.21 8.61 6.38 5.22 4.52 4.05 3.72 3.47 3.28 3.13 3.00 2.90 2.81 2.74 2.67 39.44 14.20 8.59 6.36 5.20 4.50 4.03 3.70 3.45 3.26 3.11 2.98 2.88 2.79 2.72 2.65 39.45 14.18 8.58 6.34 5.18 4.48 4.02 3.68 3.44 3.24 3.09 2.96 2.86 2.77 2.70 2.63 39.45 14.17 8.56 6.33 5.17 4.47 4.00 3.67 3.42 3.23 3.07 2.95 2.84 2.76 2.68 2.62 39.45 14.16 8.55 6.31 5.15 4.45 3.98 3.65 3.40 3.21 3.06 2.93 2.83 2.74 2.67 2.60 39.45 14.14 8.53 6.30 5.14 4.44 3.97 3.64 3.39 3.20 3.04 2.92 2.81 2.73 2.65 2.59 39.45 14.13 8.52 6.29 5.13 4.43 3.96 3.63 3.38 3.18 3.03 2.91 2.80 2.71 2.64 2.57 39.46 14.12 8.51 6.28 5.12 4.41 3.95 3.61 3.37 3.17 3.02 2.89 2.79 2.70 2.63 2.56 39.46 14.12 8.50 6.27 5.11 4.40 3.94 3.60 3.35 3.16 3.01 2.88 2.78 2.69 2.61 2.55 39.46 14.11 8.49 6.26 5.10 4.39 3.93 3.59 3.34 3.15 3.00 2.87 2.77 2.68 2.60 2.54 39.46 14.10 8.48 6.25 5.09 4.39 3.92 3.58 3.34 3.14 2.99 2.86 2.76 2.67 2.59 2.53 39.46 14.09 8.48 6.24 5.08 4.38 3.91 3.58 3.33 3.13 2.98 2.85 2.75 2.66 2.58 2.52 39.46 14.09 8.47 6.23 5.07 4.37 3.90 3.57 3.32 3.13 2.97 2.85 2.74 2.65 2.58 2.51 39.46 14.08 8.46 6.23 5.07 4.36 3.89 3.56 3.31 3.12 2.96 2.84 2.73 2.64 2.57 2.50 39.47 14.04 8.41 6.18 5.01 4.31 3.84 3.51 3.26 3.06 2.91 2.78 2.67 2.59 2.51 2.44 39.48 14.01 8.38 6.14 4.98 4.28 3.81 3.47 3.22 3.03 2.87 2.74 2.64 2.55 2.47 2.41 39.48 13.99 8.36 6.12 4.96 4.25 3.78 3.45 3.20 3.00 2.85 2.72 2.61 2.52 2.45 2.38 39.48 13.98 8.35 6.11 4.94 4.24 3.77 3.43 3.18 2.99 2.83 2.70 2.60 2.51 2.43 2.36 39.49 13.97 8.33 6.10 4.93 4.23 3.76 3.42 3.17 2.97 2.82 2.69 2.58 2.49 2.42 2.35 39.49 13.96 8.33 6.09 4.92 4.22 3.75 3.41 3.16 2.96 2.81 2.68 2.57 2.48 2.40 2.34 39.49 13.96 8.32 6.08 4.92 4.21 3.74 3.40 3.15 2.96 2.80 2.67 2.56 2.47 2.40 2.33 39.49 13.95 8.31 6.07 4.90 4.20 3.73 3.39 3.14 2.94 2.79 2.66 2.55 2.46 2.38 2.32 39.50 13.90 8.26 6.02 4.85 4.14 3.67 3.33 3.08 2.88 2.73 2.60 2.49 2.40 2.32 2.25

18 5.98 4.56 3.95 3.61 3.38 3.22 3.10 3.01 2.93 2.87 2.81 2.77 2.73 2.70 2.67 2.64 2.62 2.60 2.58 2.56 2.54 2.53 2.52 2.50 2.49 2.48 2.47 2.46 2.45 2.44 2.38 2.35 2.32 2.30 2.29 2.28 2.27 2.26 2.19

19 5.92 4.51 3.90 3.56 3.33 3.17 3.05 2.96 2.88 2.82 2.76 2.72 2.68 2.65 2.62 2.59 2.57 2.55 2.53 2.51 2.49 2.48 2.46 2.45 2.44 2.43 2.42 2.41 2.40 2.39 2.33 2.30 2.27 2.25 2.24 2.23 2.22 2.20 2.13

20 5.87 4.46 3.86 3.51 3.29 3.13 3.01 2.91 2.84 2.77 2.72 2.68 2.64 2.60 2.57 2.55 2.52 2.50 2.48 2.46 2.45 2.43 2.42 2.41 2.40 2.39 2.38 2.37 2.36 2.35 2.29 2.25 2.22 2.20 2.19 2.18 2.17 2.16 2.09

ndice

Agustn Garca Nogales

323

Tabla VI.3 (cont.): Distribucin F (m, n). = 0.025


21 5.83 4.42 3.82 3.48 3.25 3.09 2.97 2.87 2.80 2.73 2.68 2.64 2.60 2.56 2.53 2.51 2.48 2.46 2.44 2.42 2.41 2.39 2.38 2.37 2.36 2.34 2.33 2.33 2.32 2.31 2.25 2.21 2.18 2.16 2.15 2.14 2.13 2.11 2.04 22 5.79 4.38 3.78 3.44 3.22 3.05 2.93 2.84 2.76 2.70 2.65 2.60 2.56 2.53 2.50 2.47 2.45 2.43 2.41 2.39 2.37 2.36 2.34 2.33 2.32 2.31 2.30 2.29 2.28 2.27 2.21 2.17 2.14 2.13 2.11 2.10 2.09 2.08 2.00

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 50 60 70 80 90 100 120

1a 23 5.75 4.35 3.75 3.41 3.18 3.02 2.90 2.81 2.73 2.67 2.62 2.57 2.53 2.50 2.47 2.44 2.42 2.39 2.37 2.36 2.34 2.33 2.31 2.30 2.29 2.28 2.27 2.26 2.25 2.24 2.18 2.14 2.11 2.09 2.08 2.07 2.06 2.04 1.97

la= g.l. denominador. 1a 24 25 26 27 28 29 30 5.72 5.69 5.66 5.63 5.61 5.59 5.57 4.32 4.29 4.27 4.24 4.22 4.20 4.18 3.72 3.69 3.67 3.65 3.63 3.61 3.59 3.38 3.35 3.33 3.31 3.29 3.27 3.25 3.15 3.13 3.10 3.08 3.06 3.04 3.03 2.99 2.97 2.94 2.92 2.90 2.88 2.87 2.87 2.85 2.82 2.80 2.78 2.76 2.75 2.78 2.75 2.73 2.71 2.69 2.67 2.65 2.70 2.68 2.65 2.63 2.61 2.59 2.57 2.64 2.61 2.59 2.57 2.55 2.53 2.51 2.59 2.56 2.54 2.51 2.49 2.48 2.46 2.54 2.51 2.49 2.47 2.45 2.43 2.41 2.50 2.48 2.45 2.43 2.41 2.39 2.37 2.47 2.44 2.42 2.39 2.37 2.36 2.34 2.44 2.41 2.39 2.36 2.34 2.32 2.31 2.41 2.38 2.36 2.34 2.32 2.30 2.28 2.39 2.36 2.34 2.31 2.29 2.27 2.26 2.36 2.34 2.31 2.29 2.27 2.25 2.23 2.35 2.32 2.29 2.27 2.25 2.23 2.21 2.33 2.30 2.28 2.25 2.23 2.21 2.20 2.31 2.28 2.26 2.24 2.22 2.20 2.18 2.30 2.27 2.24 2.22 2.20 2.18 2.16 2.28 2.26 2.23 2.21 2.19 2.17 2.15 2.27 2.24 2.22 2.19 2.17 2.15 2.14 2.26 2.23 2.21 2.18 2.16 2.14 2.12 2.25 2.22 2.19 2.17 2.15 2.13 2.11 2.24 2.21 2.18 2.16 2.14 2.12 2.10 2.23 2.20 2.17 2.15 2.13 2.11 2.09 2.22 2.19 2.17 2.14 2.12 2.10 2.08 2.21 2.18 2.16 2.13 2.11 2.09 2.07 2.15 2.12 2.09 2.07 2.05 2.03 2.01 2.11 2.08 2.05 2.03 2.01 1.99 1.97 2.08 2.05 2.03 2.00 1.98 1.96 1.94 2.06 2.03 2.01 1.98 1.96 1.94 1.92 2.05 2.02 1.99 1.97 1.94 1.92 1.90 2.03 2.01 1.98 1.95 1.93 1.91 1.89 2.02 2.00 1.97 1.94 1.92 1.90 1.88 2.01 1.98 1.95 1.93 1.91 1.89 1.87 1.94 1.91 1.88 1.85 1.83 1.81 1.79

columna= g.l. numerador.


40 5.42 4.05 3.46 3.13 2.90 2.74 2.62 2.53 2.45 2.39 2.33 2.29 2.25 2.21 2.18 2.15 2.13 2.11 2.09 2.07 2.05 2.03 2.02 2.01 1.99 1.98 1.97 1.96 1.95 1.94 1.88 1.83 1.80 1.78 1.76 1.75 1.74 1.72 1.77 50 5.34 3.97 3.39 3.05 2.83 2.67 2.55 2.46 2.38 2.32 2.26 2.22 2.18 2.14 2.11 2.08 2.06 2.03 2.01 1.99 1.98 1.96 1.95 1.93 1.92 1.91 1.90 1.89 1.88 1.87 1.80 1.75 1.72 1.70 1.68 1.67 1.66 1.64 1.75 60 5.29 3.93 3.34 3.01 2.79 2.63 2.51 2.41 2.33 2.27 2.22 2.17 2.13 2.09 2.06 2.03 2.01 1.98 1.96 1.94 1.93 1.91 1.90 1.88 1.87 1.86 1.85 1.83 1.82 1.82 1.74 1.70 1.67 1.64 1.63 1.61 1.60 1.58 1.73 70 5.25 3.89 3.31 2.97 2.75 2.59 2.47 2.38 2.30 2.24 2.18 2.14 2.10 2.06 2.03 2.00 1.97 1.95 1.93 1.91 1.89 1.88 1.86 1.85 1.83 1.82 1.81 1.80 1.79 1.78 1.71 1.66 1.63 1.60 1.59 1.57 1.56 1.54 1.72 80 5.22 3.86 3.28 2.95 2.73 2.57 2.45 2.35 2.28 2.21 2.16 2.11 2.07 2.03 2.00 1.97 1.95 1.92 1.90 1.88 1.87 1.85 1.83 1.82 1.81 1.79 1.78 1.77 1.76 1.75 1.68 1.63 1.60 1.57 1.55 1.54 1.53 1.51 1.70 90 5.20 3.84 3.26 2.93 2.71 2.55 2.43 2.34 2.26 2.19 2.14 2.09 2.05 2.02 1.98 1.95 1.93 1.91 1.88 1.86 1.85 1.83 1.81 1.80 1.79 1.77 1.76 1.75 1.74 1.73 1.66 1.61 1.58 1.55 1.53 1.52 1.50 1.48 1.69 100 5.18 3.83 3.25 2.92 2.70 2.54 2.42 2.32 2.24 2.18 2.12 2.08 2.04 2.00 1.97 1.94 1.91 1.89 1.87 1.85 1.83 1.81 1.80 1.78 1.77 1.76 1.75 1.74 1.72 1.71 1.64 1.59 1.56 1.53 1.51 1.50 1.48 1.46 1.67 110 5.16 3.82 3.24 2.90 2.68 2.53 2.40 2.31 2.23 2.17 2.11 2.07 2.02 1.99 1.96 1.93 1.90 1.88 1.86 1.84 1.82 1.80 1.79 1.77 1.76 1.74 1.73 1.72 1.71 1.70 1.63 1.58 1.54 1.52 1.50 1.48 1.47 1.45 1.66 120 5.15 3.80 3.23 2.89 2.67 2.52 2.39 2.30 2.22 2.16 2.10 2.05 2.01 1.98 1.94 1.92 1.89 1.87 1.84 1.82 1.81 1.79 1.77 1.76 1.75 1.73 1.72 1.71 1.70 1.69 1.61 1.56 1.53 1.50 1.48 1.47 1.45 1.43 1.65 5.03 3.69 3.12 2.79 2.57 2.41 2.29 2.19 2.11 2.05 1.99 1.95 1.90 1.87 1.83 1.80 1.78 1.75 1.73 1.71 1.69 1.67 1.66 1.64 1.63 1.61 1.60 1.59 1.58 1.57 1.56 1.55 1.54 1.53 1.52 1.51 1.51 1.49 1.04

ndice

324

Elementos de Bioestadstica

Tabla VI.4: Distribucin F (m, n). = 0.01


1 4052.12 4999.45 5403.34 5624.56 5763.59 5858.98 5928.39 5981.16 6022.56 6055.85 6083.25 6106.38 6125.87 6142.71 6157.33 6170.11 6181.48 6191.42 6200.56 6208.67 6216.18 6222.88 6228.97 6234.65 6239.73 6244.60 6249.06 6253.12 6256.98 6260.63 6286.81 6302.44 6313.00 6320.50 6326.19 6330.65 6334.10 6339.38 6365.56

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 50 60 70 80 90 100 120

1a la= 2 3 4 98.50 34.12 21.20 99.00 30.82 18.00 99.17 29.46 16.69 99.25 28.71 15.98 99.30 28.24 15.52 99.33 27.91 15.21 99.36 27.67 14.98 99.37 27.49 14.80 99.39 27.35 14.66 99.40 27.23 14.55 99.41 27.13 14.45 99.42 27.05 14.37 99.42 26.98 14.31 99.43 26.92 14.25 99.43 26.87 14.20 99.44 26.83 14.15 99.44 26.79 14.11 99.44 26.75 14.08 99.45 26.72 14.05 99.45 26.69 14.02 99.45 26.66 13.99 99.45 26.64 13.97 99.45 26.62 13.95 99.46 26.60 13.93 99.46 26.58 13.91 99.46 26.56 13.89 99.46 26.55 13.88 99.46 26.53 13.86 99.46 26.52 13.85 99.47 26.50 13.84 99.47 26.41 13.75 99.48 26.35 13.69 99.48 26.32 13.65 99.48 26.29 13.63 99.49 26.27 13.61 99.49 26.25 13.59 99.49 26.24 13.58 99.49 26.22 13.56 99.50 26.13 13.46

g.l. denominador. 1a columna= g.l. numerador. 5 6 7 8 9 10 11 12 13 14 15 16 17 16.26 13.75 12.25 11.26 10.56 10.04 9.65 9.33 9.07 8.86 8.68 8.53 8.40 13.27 10.92 9.55 8.65 8.02 7.56 7.21 6.93 6.70 6.51 6.36 6.23 6.11 12.06 9.78 8.45 7.59 6.99 6.55 6.22 5.95 5.74 5.56 5.42 5.29 5.18 11.39 9.15 7.85 7.01 6.42 5.99 5.67 5.41 5.21 5.04 4.89 4.77 4.67 10.97 8.75 7.46 6.63 6.06 5.64 5.32 5.06 4.86 4.69 4.56 4.44 4.34 10.67 8.47 7.19 6.37 5.80 5.39 5.07 4.82 4.62 4.46 4.32 4.20 4.10 10.46 8.26 6.99 6.18 5.61 5.20 4.89 4.64 4.44 4.28 4.14 4.03 3.93 10.29 8.10 6.84 6.03 5.47 5.06 4.74 4.50 4.30 4.14 4.00 3.89 3.79 10.16 7.98 6.72 5.91 5.35 4.94 4.63 4.39 4.19 4.03 3.89 3.78 3.68 10.05 7.87 6.62 5.81 5.26 4.85 4.54 4.30 4.10 3.94 3.80 3.69 3.59 9.96 7.79 6.54 5.73 5.18 4.77 4.46 4.22 4.02 3.86 3.73 3.62 3.52 9.89 7.72 6.47 5.67 5.11 4.71 4.40 4.16 3.96 3.80 3.67 3.55 3.46 9.82 7.66 6.41 5.61 5.05 4.65 4.34 4.10 3.91 3.75 3.61 3.50 3.40 9.77 7.60 6.36 5.56 5.01 4.60 4.29 4.05 3.86 3.70 3.56 3.45 3.35 9.72 7.56 6.31 5.52 4.96 4.56 4.25 4.01 3.82 3.66 3.52 3.41 3.31 9.68 7.52 6.28 5.48 4.92 4.52 4.21 3.97 3.78 3.62 3.49 3.37 3.27 9.64 7.48 6.24 5.44 4.89 4.49 4.18 3.94 3.75 3.59 3.45 3.34 3.24 9.61 7.45 6.21 5.41 4.86 4.46 4.15 3.91 3.72 3.56 3.42 3.31 3.21 9.58 7.42 6.18 5.38 4.83 4.43 4.12 3.88 3.69 3.53 3.40 3.28 3.19 9.55 7.40 6.16 5.36 4.81 4.41 4.10 3.86 3.66 3.51 3.37 3.26 3.16 9.53 7.37 6.13 5.34 4.79 4.38 4.08 3.84 3.64 3.48 3.35 3.24 3.14 9.51 7.35 6.11 5.32 4.77 4.36 4.06 3.82 3.62 3.46 3.33 3.22 3.12 9.49 7.33 6.09 5.30 4.75 4.34 4.04 3.80 3.60 3.44 3.31 3.20 3.10 9.47 7.31 6.07 5.28 4.73 4.33 4.02 3.78 3.59 3.43 3.29 3.18 3.08 9.45 7.30 6.06 5.26 4.71 4.31 4.01 3.76 3.57 3.41 3.28 3.16 3.07 9.43 7.28 6.04 5.25 4.70 4.30 3.99 3.75 3.56 3.40 3.26 3.15 3.05 9.42 7.27 6.03 5.23 4.68 4.28 3.98 3.74 3.54 3.38 3.25 3.14 3.04 9.40 7.25 6.02 5.22 4.67 4.27 3.96 3.72 3.53 3.37 3.24 3.12 3.03 9.39 7.24 6.00 5.21 4.66 4.26 3.95 3.71 3.52 3.36 3.23 3.11 3.01 9.38 7.23 5.99 5.20 4.65 4.25 3.94 3.70 3.51 3.35 3.21 3.10 3.00 9.29 7.14 5.91 5.12 4.57 4.17 3.86 3.62 3.43 3.27 3.13 3.02 2.92 9.24 7.09 5.86 5.07 4.52 4.12 3.81 3.57 3.38 3.22 3.08 2.97 2.87 9.20 7.06 5.82 5.03 4.48 4.08 3.78 3.54 3.34 3.18 3.05 2.93 2.83 9.18 7.03 5.80 5.01 4.46 4.06 3.75 3.51 3.32 3.16 3.02 2.91 2.81 9.16 7.01 5.78 4.99 4.44 4.04 3.73 3.49 3.30 3.14 3.00 2.89 2.79 9.14 7.00 5.77 4.97 4.43 4.03 3.72 3.48 3.28 3.12 2.99 2.87 2.78 9.13 6.99 5.75 4.96 4.41 4.01 3.71 3.47 3.27 3.11 2.98 2.86 2.76 9.11 6.97 5.74 4.95 4.40 4.00 3.69 3.45 3.25 3.09 2.96 2.84 2.75 9.02 6.88 5.65 4.86 4.31 3.91 3.60 3.36 3.17 3.01 2.87 2.75 2.65

18 8.29 6.01 5.09 4.58 4.25 4.01 3.84 3.71 3.60 3.51 3.43 3.37 3.32 3.27 3.23 3.19 3.16 3.13 3.10 3.08 3.05 3.03 3.02 3.00 2.98 2.97 2.95 2.94 2.93 2.92 2.84 2.78 2.75 2.72 2.70 2.69 2.68 2.66 2.57

19 8.18 5.93 5.01 4.50 4.17 3.94 3.77 3.63 3.52 3.43 3.36 3.30 3.24 3.19 3.15 3.12 3.08 3.05 3.03 3.00 2.98 2.96 2.94 2.92 2.91 2.89 2.88 2.87 2.86 2.84 2.76 2.71 2.67 2.65 2.63 2.61 2.60 2.58 2.49

20 8.10 5.85 4.94 4.43 4.10 3.87 3.70 3.56 3.46 3.37 3.29 3.23 3.18 3.13 3.09 3.05 3.02 2.99 2.96 2.94 2.92 2.90 2.88 2.86 2.84 2.83 2.81 2.80 2.79 2.78 2.69 2.64 2.61 2.58 2.56 2.55 2.54 2.52 2.42

ndice

Agustn Garca Nogales

325

Tabla VI.4 (cont.): Distribucin F (m, n). = 0.01


21 8.02 5.78 4.87 4.37 4.04 3.81 3.64 3.51 3.40 3.31 3.24 3.17 3.12 3.07 3.03 2.99 2.96 2.93 2.90 2.88 2.86 2.84 2.82 2.80 2.79 2.77 2.76 2.74 2.73 2.72 2.64 2.58 2.55 2.52 2.50 2.49 2.48 2.46 2.36 22 7.95 5.72 4.82 4.31 3.99 3.76 3.59 3.45 3.35 3.26 3.18 3.12 3.07 3.02 2.98 2.94 2.91 2.88 2.85 2.83 2.81 2.78 2.77 2.75 2.73 2.72 2.70 2.69 2.68 2.67 2.58 2.53 2.50 2.47 2.45 2.43 2.42 2.40 2.31

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 50 60 70 80 90 100 120

1a 23 7.88 5.66 4.76 4.26 3.94 3.71 3.54 3.41 3.30 3.21 3.14 3.07 3.02 2.97 2.93 2.89 2.86 2.83 2.80 2.78 2.76 2.74 2.72 2.70 2.69 2.67 2.66 2.64 2.63 2.62 2.54 2.48 2.45 2.42 2.40 2.39 2.37 2.35 2.26

la= g.l. denominador. 1a 24 25 26 27 28 29 30 7.82 7.77 7.72 7.68 7.64 7.60 7.56 5.61 5.57 5.53 5.49 5.45 5.42 5.39 4.72 4.68 4.64 4.60 4.57 4.54 4.51 4.22 4.18 4.14 4.11 4.07 4.04 4.02 3.90 3.85 3.82 3.78 3.75 3.73 3.70 3.67 3.63 3.59 3.56 3.53 3.50 3.47 3.50 3.46 3.42 3.39 3.36 3.33 3.30 3.36 3.32 3.29 3.26 3.23 3.20 3.17 3.26 3.22 3.18 3.15 3.12 3.09 3.07 3.17 3.13 3.09 3.06 3.03 3.00 2.98 3.09 3.06 3.02 2.99 2.96 2.93 2.91 3.03 2.99 2.96 2.93 2.90 2.87 2.84 2.98 2.94 2.90 2.87 2.84 2.81 2.79 2.93 2.89 2.86 2.82 2.79 2.77 2.74 2.89 2.85 2.81 2.78 2.75 2.73 2.70 2.85 2.81 2.78 2.75 2.72 2.69 2.66 2.82 2.78 2.75 2.71 2.68 2.66 2.63 2.79 2.75 2.72 2.68 2.65 2.63 2.60 2.76 2.72 2.69 2.66 2.63 2.60 2.57 2.74 2.70 2.66 2.63 2.60 2.57 2.55 2.72 2.68 2.64 2.61 2.58 2.55 2.53 2.70 2.66 2.62 2.59 2.56 2.53 2.51 2.68 2.64 2.60 2.57 2.54 2.51 2.49 2.66 2.62 2.58 2.55 2.52 2.49 2.47 2.64 2.60 2.57 2.54 2.51 2.48 2.45 2.63 2.59 2.55 2.52 2.49 2.46 2.44 2.61 2.58 2.54 2.51 2.48 2.45 2.42 2.60 2.56 2.53 2.49 2.46 2.44 2.41 2.59 2.55 2.51 2.48 2.45 2.42 2.40 2.58 2.54 2.50 2.47 2.44 2.41 2.39 2.49 2.45 2.42 2.38 2.35 2.33 2.30 2.44 2.40 2.36 2.33 2.30 2.27 2.25 2.40 2.36 2.33 2.29 2.26 2.23 2.21 2.38 2.34 2.30 2.27 2.24 2.21 2.18 2.36 2.32 2.28 2.25 2.22 2.19 2.16 2.34 2.30 2.26 2.23 2.20 2.17 2.14 2.33 2.29 2.25 2.22 2.19 2.16 2.13 2.31 2.27 2.23 2.20 2.17 2.14 2.11 2.21 2.17 2.13 2.10 2.07 2.04 2.01

columna= g.l. numerador.


40 7.31 5.18 4.31 3.83 3.51 3.29 3.12 2.99 2.89 2.80 2.73 2.66 2.61 2.56 2.52 2.48 2.45 2.42 2.39 2.37 2.35 2.33 2.31 2.29 2.27 2.26 2.24 2.23 2.22 2.20 2.11 2.06 2.02 1.99 1.97 1.95 1.94 1.92 1.98 50 7.17 5.06 4.20 3.72 3.41 3.19 3.02 2.89 2.78 2.70 2.63 2.56 2.51 2.46 2.42 2.38 2.35 2.32 2.29 2.27 2.24 2.22 2.20 2.18 2.17 2.15 2.14 2.12 2.11 2.10 2.01 1.95 1.91 1.88 1.86 1.84 1.82 1.80 1.96 60 7.08 4.98 4.13 3.65 3.34 3.12 2.95 2.82 2.72 2.63 2.56 2.50 2.44 2.39 2.35 2.31 2.28 2.25 2.22 2.20 2.17 2.15 2.13 2.12 2.10 2.08 2.07 2.05 2.04 2.03 1.94 1.88 1.84 1.81 1.78 1.76 1.75 1.73 1.93 70 7.01 4.92 4.07 3.60 3.29 3.07 2.91 2.78 2.67 2.59 2.51 2.45 2.40 2.35 2.31 2.27 2.23 2.20 2.18 2.15 2.13 2.11 2.09 2.07 2.05 2.03 2.02 2.01 1.99 1.98 1.89 1.83 1.78 1.75 1.73 1.71 1.70 1.67 1.91 80 6.96 4.88 4.04 3.56 3.26 3.04 2.87 2.74 2.64 2.55 2.48 2.42 2.36 2.31 2.27 2.23 2.20 2.17 2.14 2.12 2.09 2.07 2.05 2.03 2.01 2.00 1.98 1.97 1.96 1.94 1.85 1.79 1.75 1.71 1.69 1.67 1.65 1.63 1.89 90 6.93 4.85 4.01 3.53 3.23 3.01 2.84 2.72 2.61 2.52 2.45 2.39 2.33 2.29 2.24 2.21 2.17 2.14 2.11 2.09 2.06 2.04 2.02 2.00 1.99 1.97 1.96 1.94 1.93 1.92 1.82 1.76 1.72 1.68 1.66 1.64 1.62 1.60 1.87 100 6.90 4.82 3.98 3.51 3.21 2.99 2.82 2.69 2.59 2.50 2.43 2.37 2.31 2.27 2.22 2.19 2.15 2.12 2.09 2.07 2.04 2.02 2.00 1.98 1.97 1.95 1.93 1.92 1.91 1.89 1.80 1.74 1.69 1.66 1.63 1.61 1.60 1.57 1.86 110 6.87 4.80 3.96 3.49 3.19 2.97 2.81 2.68 2.57 2.49 2.41 2.35 2.30 2.25 2.21 2.17 2.13 2.10 2.07 2.05 2.03 2.00 1.98 1.96 1.95 1.93 1.92 1.90 1.89 1.88 1.78 1.72 1.67 1.64 1.61 1.59 1.58 1.55 1.84 120 6.85 4.79 3.95 3.48 3.17 2.96 2.79 2.66 2.56 2.47 2.40 2.34 2.28 2.23 2.19 2.15 2.12 2.09 2.06 2.03 2.01 1.99 1.97 1.95 1.93 1.92 1.90 1.89 1.87 1.86 1.76 1.70 1.66 1.62 1.60 1.58 1.56 1.53 1.82 6.64 4.61 3.78 3.32 3.02 2.80 2.64 2.51 2.41 2.32 2.25 2.19 2.13 2.08 2.04 2.00 1.97 1.94 1.91 1.88 1.86 1.83 1.81 1.79 1.77 1.76 1.74 1.73 1.71 1.70 1.69 1.67 1.66 1.65 1.64 1.63 1.62 1.60 1.05

ndice

326

Elementos de Bioestadstica

Tabla VI.5: Distribucin F (m, n). = 0.005


1 16210.78 19998.73 21615.29 22499.60 23056.49 23436.65 23714.07 23925.73 24090.12 24223.70 24334.66 24427.14 24505.22 24570.98 24630.57 24681.95 24727.16 24766.20 24803.19 24836.07 24864.84 24891.55 24916.21 24938.82 24959.37 24979.92 24996.36 25013.82 25029.23 25043.62 25148.42 25211.10 25253.22 25284.05 25306.65 25323.09 25337.48 25358.03 25462.83

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 50 60 70 80 90 100 120

1a la= 2 3 4 198.50 55.55 31.33 199.00 49.80 26.28 199.17 47.47 24.26 199.25 46.19 23.15 199.30 45.39 22.46 199.33 44.84 21.97 199.36 44.43 21.62 199.37 44.13 21.35 199.39 43.88 21.14 199.40 43.69 20.97 199.41 43.52 20.82 199.42 43.39 20.70 199.43 43.27 20.60 199.43 43.17 20.51 199.43 43.08 20.44 199.43 43.01 20.37 199.44 42.94 20.31 199.44 42.88 20.26 199.45 42.83 20.21 199.45 42.78 20.17 199.45 42.73 20.13 199.45 42.69 20.09 199.46 42.66 20.06 199.46 42.62 20.03 199.46 42.59 20.00 199.46 42.56 19.98 199.47 42.54 19.95 199.47 42.51 19.93 199.47 42.49 19.91 199.47 42.47 19.89 199.47 42.31 19.75 199.48 42.21 19.67 199.48 42.15 19.61 199.48 42.10 19.57 199.49 42.07 19.54 199.49 42.04 19.52 199.49 42.02 19.50 199.49 41.99 19.47 199.50 41.83 19.33

g.l. 5 22.78 18.31 16.53 15.56 14.94 14.51 14.20 13.96 13.77 13.62 13.49 13.38 13.29 13.21 13.15 13.09 13.03 12.99 12.94 12.90 12.87 12.84 12.81 12.78 12.76 12.73 12.71 12.69 12.67 12.66 12.53 12.45 12.40 12.37 12.34 12.32 12.30 12.27 12.15

denominador. 1a columna= g.l. numerador. 6 7 8 9 10 11 12 13 14 15 16 17 18.63 16.24 14.69 13.61 12.83 12.23 11.75 11.37 11.06 10.80 10.58 10.38 14.54 12.40 11.04 10.11 9.43 8.91 8.51 8.19 7.92 7.70 7.51 7.35 12.92 10.88 9.60 8.72 8.08 7.60 7.23 6.93 6.68 6.48 6.30 6.16 12.03 10.05 8.81 7.96 7.34 6.88 6.52 6.23 6.00 5.80 5.64 5.50 11.46 9.52 8.30 7.47 6.87 6.42 6.07 5.79 5.56 5.37 5.21 5.07 11.07 9.16 7.95 7.13 6.54 6.10 5.76 5.48 5.26 5.07 4.91 4.78 10.79 8.89 7.69 6.88 6.30 5.86 5.52 5.25 5.03 4.85 4.69 4.56 10.57 8.68 7.50 6.69 6.12 5.68 5.35 5.08 4.86 4.67 4.52 4.39 10.39 8.51 7.34 6.54 5.97 5.54 5.20 4.94 4.72 4.54 4.38 4.25 10.25 8.38 7.21 6.42 5.85 5.42 5.09 4.82 4.60 4.42 4.27 4.14 10.13 8.27 7.10 6.31 5.75 5.32 4.99 4.72 4.51 4.33 4.18 4.05 10.03 8.18 7.01 6.23 5.66 5.24 4.91 4.64 4.43 4.25 4.10 3.97 9.95 8.10 6.94 6.15 5.59 5.16 4.84 4.57 4.36 4.18 4.03 3.90 9.88 8.03 6.87 6.09 5.53 5.10 4.77 4.51 4.30 4.12 3.97 3.84 9.81 7.97 6.81 6.03 5.47 5.05 4.72 4.46 4.25 4.07 3.92 3.79 9.76 7.91 6.76 5.98 5.42 5.00 4.67 4.41 4.20 4.02 3.87 3.75 9.71 7.87 6.72 5.94 5.38 4.96 4.63 4.37 4.16 3.98 3.83 3.71 9.66 7.83 6.68 5.90 5.34 4.92 4.59 4.33 4.12 3.95 3.80 3.67 9.62 7.79 6.64 5.86 5.31 4.89 4.56 4.30 4.09 3.91 3.76 3.64 9.59 7.75 6.61 5.83 5.27 4.86 4.53 4.27 4.06 3.88 3.73 3.61 9.56 7.72 6.58 5.80 5.25 4.83 4.50 4.24 4.03 3.86 3.71 3.58 9.53 7.69 6.55 5.78 5.22 4.80 4.48 4.22 4.01 3.83 3.68 3.56 9.50 7.67 6.53 5.75 5.20 4.78 4.45 4.19 3.98 3.81 3.66 3.53 9.47 7.64 6.50 5.73 5.17 4.76 4.43 4.17 3.96 3.79 3.64 3.51 9.45 7.62 6.48 5.71 5.15 4.74 4.41 4.15 3.94 3.77 3.62 3.49 9.43 7.60 6.46 5.69 5.13 4.72 4.39 4.13 3.92 3.75 3.60 3.47 9.41 7.58 6.44 5.67 5.12 4.70 4.38 4.12 3.91 3.73 3.58 3.46 9.39 7.57 6.43 5.65 5.10 4.68 4.36 4.10 3.89 3.72 3.57 3.44 9.37 7.55 6.41 5.64 5.08 4.67 4.34 4.09 3.88 3.70 3.55 3.43 9.36 7.53 6.40 5.62 5.07 4.65 4.33 4.07 3.86 3.69 3.54 3.41 9.24 7.42 6.29 5.52 4.97 4.55 4.23 3.97 3.76 3.58 3.44 3.31 9.17 7.35 6.22 5.45 4.90 4.49 4.17 3.91 3.70 3.52 3.37 3.25 9.12 7.31 6.18 5.41 4.86 4.44 4.12 3.87 3.66 3.48 3.33 3.21 9.09 7.28 6.15 5.38 4.83 4.41 4.09 3.84 3.62 3.45 3.30 3.18 9.06 7.25 6.12 5.36 4.80 4.39 4.07 3.81 3.60 3.43 3.28 3.15 9.04 7.23 6.10 5.34 4.79 4.37 4.05 3.79 3.58 3.41 3.26 3.13 9.03 7.22 6.09 5.32 4.77 4.36 4.04 3.78 3.57 3.39 3.25 3.12 9.00 7.19 6.06 5.30 4.75 4.34 4.01 3.76 3.55 3.37 3.22 3.10 8.88 7.08 5.95 5.19 4.64 4.23 3.91 3.65 3.44 3.26 3.11 2.99

18 10.22 7.21 6.03 5.37 4.96 4.66 4.44 4.28 4.14 4.03 3.94 3.86 3.79 3.73 3.68 3.64 3.60 3.56 3.53 3.50 3.47 3.45 3.42 3.40 3.38 3.36 3.35 3.33 3.32 3.30 3.20 3.14 3.10 3.07 3.04 3.02 3.01 2.99 2.87

19 10.07 7.09 5.92 5.27 4.85 4.56 4.34 4.18 4.04 3.93 3.84 3.76 3.70 3.64 3.59 3.54 3.50 3.46 3.43 3.40 3.37 3.35 3.33 3.31 3.29 3.27 3.25 3.24 3.22 3.21 3.11 3.04 3.00 2.97 2.95 2.93 2.91 2.89 2.78

20 9.94 6.99 5.82 5.17 4.76 4.47 4.26 4.09 3.96 3.85 3.76 3.68 3.61 3.55 3.50 3.46 3.42 3.38 3.35 3.32 3.29 3.27 3.24 3.22 3.20 3.18 3.17 3.15 3.14 3.12 3.02 2.96 2.92 2.88 2.86 2.84 2.83 2.81 2.69

ndice

Agustn Garca Nogales

327

Tabla VI.5 (cont.): Distribucin F (m, n). = 0.005


21 9.83 6.89 5.73 5.09 4.68 4.39 4.18 4.01 3.88 3.77 3.68 3.60 3.54 3.48 3.43 3.38 3.34 3.31 3.27 3.24 3.22 3.19 3.17 3.15 3.13 3.11 3.09 3.08 3.06 3.05 2.95 2.88 2.84 2.81 2.79 2.77 2.75 2.73 2.62 22 9.73 6.81 5.65 5.02 4.61 4.32 4.11 3.94 3.81 3.70 3.61 3.54 3.47 3.41 3.36 3.31 3.27 3.24 3.21 3.18 3.15 3.12 3.10 3.08 3.06 3.04 3.03 3.01 3.00 2.98 2.88 2.82 2.77 2.74 2.72 2.70 2.69 2.66 2.55

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 50 60 70 80 90 100 120

1a 23 9.63 6.73 5.58 4.95 4.54 4.26 4.05 3.88 3.75 3.64 3.55 3.47 3.41 3.35 3.30 3.25 3.21 3.18 3.15 3.12 3.09 3.06 3.04 3.02 3.00 2.98 2.97 2.95 2.94 2.92 2.82 2.76 2.71 2.68 2.66 2.64 2.62 2.60 2.49

la= g.l. denominador. 1a 24 25 26 27 28 29 30 9.55 9.48 9.41 9.34 9.28 9.23 9.18 6.66 6.60 6.54 6.49 6.44 6.40 6.35 5.52 5.46 5.41 5.36 5.32 5.28 5.24 4.89 4.84 4.79 4.74 4.70 4.66 4.62 4.49 4.43 4.38 4.34 4.30 4.26 4.23 4.20 4.15 4.10 4.06 4.02 3.98 3.95 3.99 3.94 3.89 3.85 3.81 3.77 3.74 3.83 3.78 3.73 3.69 3.65 3.61 3.58 3.69 3.64 3.60 3.56 3.52 3.48 3.45 3.59 3.54 3.49 3.45 3.41 3.38 3.34 3.50 3.45 3.40 3.36 3.32 3.29 3.25 3.42 3.37 3.33 3.28 3.25 3.21 3.18 3.35 3.30 3.26 3.22 3.18 3.15 3.11 3.30 3.25 3.20 3.16 3.12 3.09 3.06 3.25 3.20 3.15 3.11 3.07 3.04 3.01 3.20 3.15 3.11 3.07 3.03 2.99 2.96 3.16 3.11 3.07 3.03 2.99 2.95 2.92 3.12 3.08 3.03 2.99 2.95 2.92 2.89 3.09 3.04 3.00 2.96 2.92 2.88 2.85 3.06 3.01 2.97 2.93 2.89 2.86 2.82 3.04 2.99 2.94 2.90 2.86 2.83 2.80 3.01 2.96 2.92 2.88 2.84 2.80 2.77 2.99 2.94 2.89 2.85 2.82 2.78 2.75 2.97 2.92 2.87 2.83 2.79 2.76 2.73 2.95 2.90 2.85 2.81 2.77 2.74 2.71 2.93 2.88 2.84 2.79 2.76 2.72 2.69 2.91 2.86 2.82 2.78 2.74 2.70 2.67 2.90 2.85 2.80 2.76 2.72 2.69 2.66 2.88 2.83 2.79 2.75 2.71 2.67 2.64 2.87 2.82 2.77 2.73 2.69 2.66 2.63 2.77 2.72 2.67 2.63 2.59 2.56 2.52 2.70 2.65 2.61 2.57 2.53 2.49 2.46 2.66 2.61 2.56 2.52 2.48 2.45 2.42 2.63 2.58 2.53 2.49 2.45 2.42 2.38 2.60 2.55 2.51 2.47 2.43 2.39 2.36 2.58 2.53 2.49 2.45 2.41 2.37 2.34 2.57 2.52 2.47 2.43 2.39 2.36 2.32 2.55 2.50 2.45 2.41 2.37 2.33 2.30 2.43 2.38 2.33 2.29 2.25 2.21 2.18

columna= g.l. numerador.


40 8.83 6.07 4.98 4.37 3.99 3.71 3.51 3.35 3.22 3.12 3.03 2.95 2.89 2.83 2.78 2.74 2.70 2.66 2.63 2.60 2.57 2.55 2.52 2.50 2.48 2.46 2.45 2.43 2.42 2.40 2.30 2.23 2.18 2.15 2.12 2.10 2.09 2.06 2.15 50 8.63 5.90 4.83 4.23 3.85 3.58 3.38 3.22 3.09 2.99 2.90 2.82 2.76 2.70 2.65 2.61 2.57 2.53 2.50 2.47 2.44 2.42 2.39 2.37 2.35 2.33 2.32 2.30 2.29 2.27 2.16 2.10 2.05 2.02 1.99 1.97 1.95 1.93 2.12 60 8.49 5.80 4.73 4.14 3.76 3.49 3.29 3.13 3.01 2.90 2.82 2.74 2.68 2.62 2.57 2.53 2.49 2.45 2.42 2.39 2.36 2.33 2.31 2.29 2.27 2.25 2.23 2.22 2.20 2.19 2.08 2.01 1.96 1.93 1.90 1.88 1.86 1.83 2.09 70 8.40 5.72 4.66 4.08 3.70 3.43 3.23 3.08 2.95 2.85 2.76 2.68 2.62 2.56 2.51 2.47 2.43 2.39 2.36 2.33 2.30 2.28 2.25 2.23 2.21 2.19 2.17 2.16 2.14 2.13 2.02 1.95 1.90 1.86 1.84 1.81 1.80 1.77 2.06 80 8.33 5.67 4.61 4.03 3.65 3.39 3.19 3.03 2.91 2.80 2.72 2.64 2.58 2.52 2.47 2.43 2.39 2.35 2.32 2.29 2.26 2.23 2.21 2.19 2.17 2.15 2.13 2.11 2.10 2.08 1.97 1.90 1.85 1.82 1.79 1.77 1.75 1.72 2.04 90 8.28 5.62 4.57 3.99 3.62 3.35 3.15 3.00 2.87 2.77 2.68 2.61 2.54 2.49 2.44 2.39 2.35 2.32 2.28 2.25 2.23 2.20 2.18 2.15 2.13 2.12 2.10 2.08 2.07 2.05 1.94 1.87 1.82 1.78 1.75 1.73 1.71 1.68 2.01 100 8.24 5.59 4.54 3.96 3.59 3.33 3.13 2.97 2.85 2.74 2.66 2.58 2.52 2.46 2.41 2.37 2.33 2.29 2.26 2.23 2.20 2.17 2.15 2.13 2.11 2.09 2.07 2.05 2.04 2.02 1.91 1.84 1.79 1.75 1.72 1.70 1.68 1.65 1.99 110 8.21 5.56 4.52 3.94 3.57 3.30 3.11 2.95 2.83 2.72 2.64 2.56 2.50 2.44 2.39 2.35 2.31 2.27 2.24 2.21 2.18 2.15 2.13 2.11 2.09 2.07 2.05 2.03 2.02 2.00 1.89 1.82 1.77 1.73 1.70 1.68 1.66 1.63 1.97 120 8.18 5.54 4.50 3.92 3.55 3.28 3.09 2.93 2.81 2.71 2.62 2.54 2.48 2.42 2.37 2.33 2.29 2.25 2.22 2.19 2.16 2.13 2.11 2.09 2.07 2.05 2.03 2.01 2.00 1.98 1.87 1.80 1.75 1.71 1.68 1.66 1.64 1.61 1.95 7.88 5.30 4.28 3.72 3.35 3.09 2.90 2.75 2.62 2.52 2.43 2.36 2.30 2.24 2.19 2.14 2.10 2.07 2.03 2.00 1.97 1.95 1.92 1.90 1.88 1.86 1.84 1.82 1.81 1.79 1.78 1.76 1.75 1.74 1.72 1.71 1.70 1.68 1.05

ndice

328

Elementos de Bioestadstica

Tabla VI.6: Distribucin F (m, n). = 0.001


1 405317.5 499975.9 540423.4 562472.9 576376.7 585856.6 592808.5 598075.1 602288.4 605659 608397.6 610715 612610.9 614296.2 615770.9 617034.9 618088.2 619141.5 620194.8 620826.8 621669.5 622301.5 622933.5 623565.5 623986.8 624408.1 624829.4 625250.8 625672.1 626093.4 628621.4 630306.7 631360 631992 632624 633045.3 633466.7 634098.7 636626.6

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 50 60 70 80 90 100 120

1a la= 2 3 4 998.41 167.04 74.14 999.05 148.5 61.25 999.21 141.11 56.18 999.21 137.1 53.44 999.37 134.58 51.71 999.37 132.85 50.53 999.37 131.58 49.66 999.37 130.61 49 999.37 129.85 48.47 999.37 129.24 48.05 999.37 128.73 47.7 999.37 128.31 47.41 999.37 127.95 47.16 999.37 127.65 46.95 999.37 127.38 46.76 999.37 127.13 46.6 999.37 126.93 46.45 999.37 126.74 46.32 999.37 126.57 46.21 999.37 126.41 46.1 999.37 126.28 46.01 999.37 126.16 45.92 999.37 126.04 45.84 999.37 125.93 45.76 999.37 125.84 45.7 999.37 125.76 45.64 999.37 125.67 45.58 999.37 125.59 45.53 999.37 125.52 45.48 999.37 125.45 45.43 999.53 124.95 45.09 999.53 124.66 44.88 999.53 124.47 44.74 999.53 124.32 44.65 999.53 124.21 44.58 999.53 124.13 44.52 999.53 124.07 44.47 999.53 123.97 44.4 999.53 123.47 44.06

g.l. denominador. 1a columna= g.l. numerador. 5 6 7 8 9 10 11 12 13 14 15 16 17 47.18 35.51 29.25 25.41 22.86 21.04 19.69 18.64 17.82 17.14 16.59 16.12 15.72 37.12 27 21.69 18.49 16.39 14.91 13.81 12.97 12.31 11.78 11.34 10.97 10.66 33.2 23.7 18.77 15.83 13.9 12.55 11.56 10.8 10.21 9.73 9.34 9.01 8.73 31.09 21.92 17.2 14.39 12.56 11.28 10.35 9.63 9.07 8.62 8.25 7.94 7.68 29.75 20.8 16.21 13.48 11.71 10.48 9.58 8.89 8.35 7.92 7.57 7.27 7.02 28.83 20.03 15.52 12.86 11.13 9.93 9.05 8.38 7.86 7.44 7.09 6.8 6.56 28.16 19.46 15.02 12.4 10.7 9.52 8.66 8 7.49 7.08 6.74 6.46 6.22 27.65 19.03 14.63 12.05 10.37 9.2 8.35 7.71 7.21 6.8 6.47 6.2 5.96 27.25 18.69 14.33 11.77 10.11 8.96 8.12 7.48 6.98 6.58 6.26 5.98 5.75 26.92 18.41 14.08 11.54 9.89 8.75 7.92 7.29 6.8 6.4 6.08 5.81 5.58 26.65 18.18 13.88 11.35 9.72 8.59 7.76 7.14 6.65 6.26 5.94 5.67 5.44 26.42 17.99 13.71 11.19 9.57 8.45 7.63 7 6.52 6.13 5.81 5.55 5.32 26.22 17.82 13.56 11.06 9.44 8.32 7.51 6.89 6.41 6.02 5.71 5.44 5.22 26.06 17.68 13.43 10.94 9.33 8.22 7.41 6.79 6.31 5.93 5.62 5.35 5.13 25.91 17.56 13.32 10.84 9.24 8.13 7.32 6.71 6.23 5.85 5.54 5.27 5.05 25.78 17.45 13.23 10.75 9.15 8.05 7.24 6.63 6.16 5.78 5.46 5.2 4.99 25.67 17.35 13.14 10.67 9.08 7.98 7.17 6.57 6.09 5.71 5.4 5.14 4.92 25.57 17.27 13.06 10.6 9.01 7.91 7.11 6.51 6.03 5.66 5.35 5.09 4.87 25.48 17.19 12.99 10.54 8.95 7.86 7.06 6.45 5.98 5.6 5.29 5.04 4.82 25.4 17.12 12.93 10.48 8.9 7.8 7.01 6.4 5.93 5.56 5.25 4.99 4.78 25.32 17.06 12.87 10.43 8.85 7.76 6.96 6.36 5.89 5.51 5.21 4.95 4.73 25.25 17 12.82 10.38 8.8 7.71 6.92 6.32 5.85 5.48 5.17 4.91 4.7 25.19 16.95 12.78 10.34 8.76 7.67 6.88 6.28 5.81 5.44 5.13 4.88 4.66 25.13 16.9 12.73 10.3 8.72 7.64 6.85 6.25 5.78 5.41 5.1 4.85 4.63 25.08 16.85 12.69 10.26 8.69 7.6 6.81 6.22 5.75 5.38 5.07 4.82 4.6 25.03 16.81 12.66 10.22 8.66 7.57 6.78 6.19 5.72 5.35 5.04 4.79 4.57 24.99 16.77 12.62 10.19 8.63 7.54 6.76 6.16 5.7 5.32 5.02 4.76 4.55 24.94 16.74 12.59 10.16 8.6 7.52 6.73 6.14 5.67 5.3 4.99 4.74 4.53 24.91 16.7 12.56 10.13 8.57 7.49 6.71 6.11 5.65 5.28 4.97 4.72 4.5 24.87 16.67 12.53 10.11 8.55 7.47 6.68 6.09 5.63 5.25 4.95 4.7 4.48 24.6 16.44 12.33 9.92 8.37 7.3 6.52 5.93 5.47 5.1 4.8 4.54 4.33 24.44 16.31 12.2 9.8 8.26 7.19 6.42 5.83 5.37 5 4.7 4.45 4.24 24.33 16.21 12.12 9.73 8.19 7.12 6.35 5.76 5.3 4.94 4.64 4.39 4.18 24.25 16.15 12.06 9.67 8.13 7.07 6.3 5.71 5.26 4.89 4.59 4.34 4.13 24.2 16.1 12.01 9.63 8.09 7.03 6.26 5.68 5.22 4.86 4.56 4.31 4.1 24.15 16.06 11.98 9.6 8.06 7 6.23 5.65 5.19 4.83 4.53 4.28 4.07 24.11 16.03 11.95 9.57 8.04 6.98 6.21 5.63 5.17 4.81 4.51 4.26 4.05 24.06 15.98 11.91 9.53 8 6.94 6.18 5.59 5.14 4.77 4.48 4.23 4.02 23.79 15.75 11.7 9.34 7.81 6.76 6 5.42 4.97 4.61 4.31 4.06 3.85

18 15.38 10.39 8.49 7.46 6.81 6.35 6.02 5.76 5.56 5.39 5.25 5.13 5.03 4.94 4.87 4.8 4.74 4.68 4.63 4.59 4.55 4.51 4.48 4.45 4.42 4.39 4.37 4.34 4.32 4.3 4.15 4.06 4 3.95 3.92 3.89 3.87 3.84 3.67

19 15.08 10.16 8.28 7.27 6.62 6.18 5.85 5.59 5.39 5.22 5.08 4.97 4.87 4.78 4.7 4.64 4.58 4.52 4.47 4.43 4.39 4.35 4.32 4.29 4.26 4.23 4.21 4.18 4.16 4.14 3.99 3.9 3.84 3.79 3.76 3.73 3.71 3.68 3.52

20 14.82 9.95 8.1 7.1 6.46 6.02 5.69 5.44 5.24 5.08 4.94 4.82 4.72 4.64 4.56 4.49 4.44 4.38 4.33 4.29 4.25 4.21 4.18 4.15 4.12 4.09 4.07 4.05 4.03 4 3.86 3.77 3.7 3.66 3.62 3.6 3.58 3.54 3.38

ndice

Agustn Garca Nogales

329

Tabla VI.6 (cont.): Distribucin F (m, n). = 0.001


a 1a la= g.l. denominador. 1 columna= g.l. numerador.
21 14.59 9.77 7.94 6.95 6.32 5.88 5.56 5.31 5.11 4.95 4.81 4.7 4.6 4.51 4.44 4.37 4.31 4.26 4.21 4.17 4.13 4.09 4.06 4.03 4 3.97 3.95 3.93 3.9 3.88 3.74 3.64 3.58 3.54 3.5 3.48 3.46 3.42 3.26 22 14.38 9.61 7.8 6.81 6.19 5.76 5.44 5.19 4.99 4.83 4.7 4.58 4.49 4.4 4.33 4.26 4.2 4.15 4.1 4.06 4.02 3.98 3.95 3.92 3.89 3.86 3.84 3.82 3.8 3.78 3.63 3.54 3.48 3.43 3.4 3.37 3.35 3.32 3.15 23 14.19 9.47 7.67 6.7 6.08 5.65 5.33 5.09 4.89 4.73 4.6 4.48 4.39 4.3 4.23 4.16 4.1 4.05 4 3.96 3.92 3.89 3.85 3.82 3.79 3.77 3.74 3.72 3.7 3.68 3.53 3.44 3.38 3.34 3.3 3.28 3.25 3.22 3.06 24 14.03 9.34 7.55 6.59 5.98 5.55 5.23 4.99 4.8 4.64 4.51 4.39 4.3 4.21 4.14 4.07 4.02 3.96 3.92 3.87 3.83 3.8 3.77 3.74 3.71 3.68 3.66 3.63 3.61 3.59 3.45 3.36 3.29 3.25 3.22 3.19 3.17 3.14 2.97 25 13.88 9.22 7.45 6.49 5.89 5.46 5.15 4.91 4.71 4.56 4.42 4.31 4.22 4.13 4.06 3.99 3.94 3.88 3.84 3.79 3.76 3.72 3.69 3.66 3.63 3.6 3.58 3.56 3.54 3.52 3.37 3.28 3.22 3.17 3.14 3.11 3.09 3.06 2.89 26 13.74 9.12 7.36 6.41 5.8 5.38 5.07 4.83 4.64 4.48 4.35 4.24 4.14 4.06 3.99 3.92 3.86 3.81 3.77 3.72 3.68 3.65 3.62 3.59 3.56 3.53 3.51 3.49 3.46 3.44 3.3 3.21 3.15 3.1 3.07 3.04 3.02 2.99 2.82 27 13.61 9.02 7.27 6.33 5.73 5.31 5 4.76 4.57 4.41 4.28 4.17 4.08 3.99 3.92 3.86 3.8 3.75 3.7 3.66 3.62 3.58 3.55 3.52 3.49 3.47 3.44 3.42 3.4 3.38 3.23 3.14 3.08 3.04 3 2.98 2.96 2.92 2.76 28 13.5 8.93 7.19 6.25 5.66 5.24 4.93 4.69 4.5 4.35 4.22 4.11 4.01 3.93 3.86 3.8 3.74 3.69 3.64 3.6 3.56 3.52 3.49 3.46 3.43 3.41 3.38 3.36 3.34 3.32 3.18 3.09 3.02 2.98 2.94 2.92 2.9 2.86 2.7 29 13.39 8.85 7.12 6.19 5.59 5.18 4.87 4.64 4.45 4.29 4.16 4.05 3.96 3.88 3.8 3.74 3.68 3.63 3.59 3.54 3.5 3.47 3.44 3.41 3.38 3.35 3.33 3.31 3.29 3.27 3.12 3.03 2.97 2.92 2.89 2.86 2.84 2.81 2.64 30 13.29 8.77 7.05 6.12 5.53 5.12 4.82 4.58 4.39 4.24 4.11 4 3.91 3.82 3.75 3.69 3.63 3.58 3.53 3.49 3.45 3.42 3.39 3.36 3.33 3.3 3.28 3.26 3.24 3.22 3.07 2.98 2.92 2.87 2.84 2.81 2.79 2.76 2.59 40 12.61 8.25 6.59 5.7 5.13 4.73 4.44 4.21 4.02 3.87 3.75 3.64 3.55 3.47 3.4 3.34 3.28 3.23 3.19 3.14 3.11 3.07 3.04 3.01 2.98 2.96 2.93 2.91 2.89 2.87 2.73 2.64 2.57 2.53 2.49 2.47 2.44 2.41 2.54 50 12.22 7.96 6.34 5.46 4.9 4.51 4.22 4 3.82 3.67 3.55 3.44 3.35 3.27 3.2 3.14 3.09 3.04 2.99 2.95 2.91 2.88 2.85 2.82 2.79 2.76 2.74 2.72 2.7 2.68 2.53 2.44 2.38 2.33 2.3 2.27 2.25 2.21 2.5 60 11.97 7.77 6.17 5.31 4.76 4.37 4.09 3.86 3.69 3.54 3.42 3.32 3.23 3.15 3.08 3.02 2.96 2.91 2.87 2.83 2.79 2.75 2.72 2.69 2.67 2.64 2.62 2.6 2.57 2.55 2.41 2.32 2.25 2.21 2.17 2.14 2.12 2.08 2.46 70 11.8 7.64 6.06 5.2 4.66 4.28 3.99 3.77 3.6 3.45 3.33 3.23 3.14 3.06 2.99 2.93 2.88 2.83 2.78 2.74 2.7 2.67 2.64 2.61 2.58 2.56 2.53 2.51 2.49 2.47 2.32 2.23 2.16 2.12 2.08 2.05 2.03 1.99 2.42 80 11.67 7.54 5.97 5.12 4.58 4.2 3.92 3.7 3.53 3.39 3.27 3.16 3.07 3 2.93 2.87 2.81 2.76 2.72 2.68 2.64 2.61 2.57 2.54 2.52 2.49 2.47 2.45 2.43 2.41 2.26 2.16 2.1 2.05 2.01 1.98 1.96 1.92 2.39 90 11.57 7.47 5.91 5.06 4.53 4.15 3.87 3.65 3.48 3.34 3.22 3.11 3.02 2.95 2.88 2.82 2.76 2.71 2.67 2.63 2.59 2.56 2.53 2.5 2.47 2.44 2.42 2.4 2.38 2.36 2.21 2.11 2.05 2 1.96 1.93 1.91 1.87 2.35 100 11.5 7.41 5.86 5.02 4.48 4.11 3.83 3.61 3.44 3.3 3.18 3.07 2.99 2.91 2.84 2.78 2.73 2.68 2.63 2.59 2.55 2.52 2.49 2.46 2.43 2.41 2.38 2.36 2.34 2.32 2.17 2.08 2.01 1.96 1.92 1.89 1.87 1.83 2.32 110 11.43 7.36 5.82 4.98 4.45 4.07 3.79 3.58 3.41 3.26 3.14 3.04 2.95 2.88 2.81 2.75 2.69 2.65 2.6 2.56 2.52 2.49 2.46 2.43 2.4 2.37 2.35 2.33 2.31 2.29 2.14 2.04 1.98 1.93 1.89 1.86 1.83 1.8 2.29 120 11.38 7.32 5.78 4.95 4.42 4.04 3.77 3.55 3.38 3.24 3.12 3.02 2.93 2.85 2.78 2.72 2.67 2.62 2.58 2.53 2.5 2.46 2.43 2.4 2.37 2.35 2.33 2.3 2.28 2.26 2.11 2.02 1.95 1.9 1.86 1.83 1.81 1.77 2.26 10.83 6.91 5.43 4.62 4.11 3.75 3.48 3.27 3.1 2.96 2.85 2.75 2.66 2.58 2.52 2.46 2.4 2.35 2.31 2.27 2.23 2.2 2.17 2.14 2.11 2.08 2.06 2.04 2.01 1.99 1.97 1.96 1.94 1.92 1.91 1.89 1.88 1.85 1.06

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 50 60 70 80 90 100 120

ndice

330

Elementos de Bioestadstica

Tabla VII: Test de normalidad de DAgostino (p. 168)



ndice

Agustn Garca Nogales

331

Tabla VIII: ( ) Test de Mann-Whitney-Wilcoxon: regin aceptacin (p. 182)



ndice

332

Elementos de Bioestadstica

Tabla IX: ( ) Distribucin T de Wilcoxon para muestras relacionadas (p. 185)



ndice

Agustn Garca Nogales

333

Tabla X.1: Distribucin q de Tukey para comparaciones mltiples (p. 211)


= 0.1

ndice

334

Elementos de Bioestadstica

Tabla X.2: Distribucin q de Tukey para comparaciones mltiples


= 0.05

ndice

Agustn Garca Nogales

335

Tabla X.3: Distribucin q de Tukey para comparaciones mltiples


= 0.01

ndice

336

Elementos de Bioestadstica

Tabla XI: ( ) Distribucin Q para comparaciones mltiples no paramtricas (p. 215)



ndice

Agustn Garca Nogales

337

Tabla XII: ( ) Distribucin de Bonferroni (p. 212)


= 0.1

ndice

338

Elementos de Bioestadstica

Tabla XII (cont.): Distribucin de Bonferroni


= 0.01

ndice

Agustn Garca Nogales

339

Tabla XIII: ( ) Tabla para el coeciente de correlacin de Spearman(p. 252)



ndice

340

Elementos de Bioestadstica

Tabla XIV: Factores K para lmites de tolerancia bilaterales para distribuciones normales (p. 166)

ndice

Soluciones para Algunas de las Cuestiones Verdadero o Falso?

TEMA 0: VF0.3: V TEMA 1: VF1.3: V VF1.6: V VF1.9: V VF1.12: V VF1.15: V VF0.6: V VF0.9: V VF0.12: F

VF1.18: F TEMA 2: VF2.3: V VF2.6: V VF2.9: F VF2.12: V VF2.15: F

VF2.18: F

VF2.21: V

VF2.24: F

VF2.27: V

TEMAS 3 y 4: VF3y4.3: V VF3y4.6: V VF3y4.9: F VF3y4.12: F VF3y4.15: V

VF3y4.18: V TEMA 5: VF5.3: F

VF3y4.21: V

VF3y4.24: V

VF3y4.27: V

VF5.6: V

TEMA 6: VF6.3: V VF6.6: V VF6.9: V VF6.12: F VF6.15: F

VF6.18: F

341

ndice

Soluciones para Algunos de los Problemas

TEMA 0: Prob0.3: a) 35; b) 210; c) 105; d) 210. TEMA 1: Prob1.3: a) S; b) 0.27. Prob1.6: P (E |T ) = 0,126; P (E c |T c ) = 0,971 TEMA 2: Prob2.3: 0.417. Prob2.6: No. Prob2.9: a) 0.75; b) 0.683. Prob2.12:

a) P ({k }) = 1/6, 0 k 5 y P ({1, 3, 5}) = 0,5; b) P ({0}) = 0,031, P ({1}) = 0,156, P ({2}) = 0,313, P ({3}) = 0,313, P ({4}) = 0,156, P ({5}) = 0,031 y P ({1, 3, 5}) = 0,5; b) P ({0}) = 0,590, P ({1}) = 0,328, P ({2}) = 0,073, P ({3}) = 0,008, P ({4}) = 0,000, P ({5}) = 0,000 y P ({1, 3, 5}) = 0,336. Prob2.15: a) 0.9826; b) 0.895. TEMAS 3 y 4: Prob3y4.3: Comparacin de dos proporciones. Unilateral. Muestras independientes. Se rechaza la hiptesis de igualdad de las 2 proporciones comparadas. Los datos avalan la hiptesis formulada. Prob3y4.6: Test de McNemar. Hay diferencias esProb3y4.9: a) S; b) S; c)

tadsticamente muy signicativas entre ambos tratamientos. No; d) [31,35, 19]; e) No TEMA 5: Prob5.3: a) S; b) S

TEMA 6: Prob6.3: a) S; b) Estimacin puntual: OR = 2, 18, Intervalo de conanza: [1 28, 3 72]. Prob6.6: P < 0,001. C = 0,307.

342

ndice

ndice alfabtico

A
ajacin, 104 ajacin ptima, 104 ajacin proporcional, 104 ajacin uniforme, 104 aleatoriedad, 43 aleatorizacin, 174 anlisis de la varianza de una va, 203 anlisis de la varianza para el modelo de regresin lineal, 241 anlisis exploratorio de datos, 29 apareamiento articial, 174 apareamiento natural, 174 aplicacin biyectiva, 19 aplicacin entre dos conjuntos, 19 aproximacin del muestreo sin reemplazamiento por el muestreo con reemplazamiento, 100 asimetra, 294 asimetra, coeciente de, 31

Bartlett, test de comparacin de varias varianzas, 210 Bayes, teorema de, 54 Bernoulli, distribucin, 67, 72 bilateral, intervalo de conanza, 144 binomial, distribucin, 70, 72, 99 bioestadstica, 14 bondad de ajuste, 171 Bonferroni, mtodo de comparaciones mltiples, 212

C
2 , distribucin de Pearson, 95, 166, 254 2 , test de comparacin de varias proporciones, 222 2 , test de independencia de dos variables cualitativas, 254 2 . test de bondad de ajuste, 171 clculo de probabilidades e inferencia estadstica, 131 campana de Gauss, 81 cantidades esperadas en una tabla de contingencias, 221

B
Bartlett, test, 210

343

ndice

344
centro de gravedad, 23, 74, 86 Chebyshev, desigualdad, 86 Cochran, test C , 210 Cochran, test de comparacin de varias proporciones relacionadas, 225 cociente de dos varianzas, intervalo de conanza para el, 176 coeciente en tablas 22, 258 coeciente de asimetra, 31, 294 coeciente de contingencia de Pearson, 258 coeciente de correlacin de Spearman, 251 coeciente de correlacin entre dos v.a., 234, 248 coeciente de correlacin muestral o de Pearson, 248 coeciente de correlacin poblacional, 248 coeciente de curtosis, 31, 294 coeciente de determinacin en anlisis de la varianza, 207, 209 coeciente de determinacin muestral, 247 coeciente de variacin, 35 coecientes de regresin, 233 coecientes de regresin muestrales, 235 combinatoria, 20 comparacin de varias muestras cualitativas, 220 comparacin de dos proporciones, aproxi-

Elementos de Bioestadstica
macin normal en el caso de dos muestras independientes, 187 comparacin de dos varianzas, 176 comparacin de varias muestras independientes, 203 comparacin de varias proporciones independientes, 223 comparacin de varias proporciones relacionadas, 225 comparacin de varias proporciones, test 2 , 222 comparacin de varias varianzas, 210 comparaciones mltiples en anlisis de la varianza, 210 comparaciones mltiples en el caso no paramtrico, test de Dunn, 215 comparaciones mltiples, mtodo de Bonferroni, 212 comparaciones mltiples, mtodo de Dunnet, 213 comparaciones mltiples, mtodo de la mnima diferencia signicativa, 213 comparaciones mltiples, mtodo de Tukey, 210 comparaciones mltiples, mtodo de TukeyKramer, 210 complementario de un conjunto, 18 conanza, nivel de, 141 conjunto producto, 18

ndice

Agustn Garca Nogales


contraimagen de un conjunto por una aplicacin, 19 contraimagen de un elemento por una aplicacin, 18 contraste de hiptesis, 134, 146 contraste de la hiptesis de independencia de dos variables cualitativas, 254 contraste de la hiptesis de independencia lineal entre dos variables cuantitativas, 249 contraste de la hiptesis de normalidad: test de DAgostino, 167 contraste de la independencia lineal de dos variables cuantitativas, 242 contraste de la media de Y dado un valor de X , 244 contraste de la varianza de una distribucin normal, 166 contraste de una proporcin, aproximacin normal, 169 contraste no paramtrico de la hiptesis de independencia de dos variables cuantitativas, 252 correccin del test de Mann-Whitney-Wilcoxon en el caso de que haya empates, 182 correccin del test de rangos con signo de Wilcoxon en caso de empates, 185 correlacin, 234, 248 correlacin no paramtrica, 251 correlaciones espreas, 249 correspondencia entre conjuntos, 18 cota inferior de conanza, 145 cota superior de conanza, 144 cuantil de la distribucin 2 , 166 cuantil de la distribucin t, 352 cuantil de un conjunto de datos, 23 cuantil muestral, 294 cuartiles, 24 curtosis, 294 curtosis, coeciente de, 31

345

D
DAgostino, test, 209, 294 DAgostino, test de normalidad, 167 dato anmalo, 31 dato anmalo extremo, 31 datos categricos, 290 denicin axiomtica de probabilidad, 47 densidad, funcin de, 80 desigualdad de Chebyshev, 86 desviacin media de un conjunto de datos, 35 desviacin tpica de un conjunto de datos, 24 desviacin tpica de una distribucin continua, 81 desviacin tpica de una distribucin discreta, 74 determinismo, 43

ndice

346
diagrama de barras, 28 diagrama de caja, 29 diagrama de sectores, 34 diagrama de tallos y hojas, 32 diagrama de Venn, 19

Elementos de Bioestadstica
mltiples, 213

E
efecto lmite central, 101 efecto placebo, 174 equiprobabilidad, 49

diferencia de conjuntos, 18 error de tipo I, 150, 154 diferencia de riesgos, 259 diseo de bloques al azar, 217 diseo de experimentos, 13, 291 diseo de muestras independientes, 173 distribucin binomial, 70, 72 distribucin binomial: aproximacin normal, 99 distribucin 2 de Pearson, 95, 166, 254 error de tipo II, 150, 155 errores de diagnstico, 57 espacio de probabilidad, 49 espacio muestral de un experimento aleatorio, 43 especicidad de un test de diagnstico, 55 estadstica aplicada, 14 estadstica descriptiva, 13 estadstica matemtica, 14 estadstico, 132, 133 estadstico de contraste, 149 estadstico de rango estudentizado, 211 estadsticos descriptivos de un conjunto de datos, 22 estimacin conjuntista, 134, 139 estimacin de la media de una distribucin normal, 136 estimacin de un parmetro, 135 estimacin de una proporcin, 137 estimacin por intervalos, 139 estimacin puntual, 134, 135 estimador de la varianza comn en anlisis de la varianza, 206

distribucin de Bernoulli, 67, 72 distribucin de probabilidad de una variable aleatoria, 66 distribucin F de Fisher, 95, 175, 205 distribucin hipergeomtrica, 100 distribucin normal, 81 distribucin normal bidimensional, 234 distribucin t de Student, 95 distribucin T de Wilcoxon para muestras relacionadas, 185 distribucin uniforme en un conjunto nito de puntos, 72 Dunn, test de comparaciones mltiples en el caso no paramtrico, 215 Dunnet, mtodo de comparaciones

ndice

Agustn Garca Nogales


estimador de la varianza de regresin, 238 estimador de un parmetro, 135 estrato, 104 estructura estadstica, 132, 148 estudio prospectivo, 260 estudios caso control, 262 estudios retrospectivos, 262 funcin de distribucin, 181 funcin de probabilidad de una variable aleatoria discreta, 71 funcin entre dos conjuntos, 19

347

G
Galton, mquina de, 101 ganancia del negativo de un test de diagnstico, 56

F
, coeciente en tablas 22, 258 F , distribucin, 95, 175, 205 F , test de comparacin de dos varianzas, 176 F , test de comparacin de varias medias, 205 factor de riesgo, 259 factorial de un nmero, 20 falso negativo, 55 falso positivo, 55 fenmeno aleatorio, 43 fenmeno determinista, 43 frmula de Laplace, 49 frecuencia absoluta de una clase, 26 frecuencia relativa de una clase, 26 frecuencias acumuladas, 27 frecuencias, polgono de, 34 Friedman, test, 219 funcin de densidad de una variable aleatoria continua, 80

ganancia del positivo de un test de diagnstico, 56 Gauss, campana, 81 grco de probabilidad normal, 294 grcos engaosos, 34 grupo de control, 173 grupo de tratamiento, 173

H
hipergeomtrica, distribucin, 100 hiptesis, 146 hiptesis alternativa, 146, 149 hiptesis nula, 146, 149 histograma, 28 homocedasticidad, 243

I
imagen de un elemento por una aplicacin, 18 inclusin, 17 independencia, 293 independencia de sucesos, 52

ndice

348
independencia de variables aleatorias, 68 independencia lineal, test de, 249 indicios de signicacin, 154 individuo, 14 inferencia estadstica, 13 inferencia no paramtrica, 132 inferencia paramtrica, 132 inferencia sobre la media de la variable dependiente dado un valor de la variable independiente, 243 interpolacin lineal, 97 interseccin de conjuntos, 17 intervalo, 16

Elementos de Bioestadstica
varianza conocida, 140 intervalo de conanza para la media de una distribucin normal de varianza desconocida, 165 intervalo de conanza para la ordenada en el origen poblacional, 244 intervalo de conanza para la pendiente de regresin, 242 intervalo de conanza para la varianza de una distribucin normal, 166 intervalo de conanza para una proporcin, aproximacin normal, 169 intervalo de conanza unilateral, 145 intervalo de normalidad, 87, 165 intervalo de conanza bilateral, 144 intervalo de conanza para el cociente de dos varianzas, 176 intervalo de conanza para la diferencia de dos proporciones, 188 intervalo de conanza para la diferencia de dos proporciones en el caso de muestras relacionadas, 190 intervalo de conanza para la diferencia de las medias de dos distribuciones normales, caso de muestras independientes, 180 intervalo de conanza para la media de Y dado un valor de X , 243 intervalo de conanza para la media de una distribucin normal de intervalo de prediccin para el valor de Y dado un valor de X , 245 intervalos de clase, 27 intervalos de conanza y contraste de hiptesis, 158

K
Kolmogorov, 47, 139 Kolmogorov-Smirnov, test, 294 Kolmogorov-Smirnov-Lilliefors, test, 210 Kruskal-Wallis, test, 214

L
Laplace, frmula de, 49 leptocrtico, conjunto de datos, 32 Levene, test, 210 ley de los grandes nmeros, 47

ndice

Agustn Garca Nogales


ley fuerte de los grandes nmeros, 139 Lilliefors, test, 294 lmites de normalidad, 87, 165 mediana de un conjunto de datos, 23 medidas de asociacin entre variables cualitativas, 258 mesocrtico, conjunto de datos, 32 mtodo de Bonferroni de comparaciones mltiples, 212 mtodo de Dunnet de comparaciones mltiples, 213 mtodo de la mnima diferencia signicativa meda, 35 de comparaciones mltiples, 213 media armnica, 35 mtodo de Tukey de comparaciones mltimedia cuadrtica dentro en anlisis ples, 210 de la varianza, 205 media cuadrtica entre en anlisis de la varianza, 205 media de un conjunto de datos cuantitativos, 22 media de una distribucin continua, 80 media de una distribucin discreta, 74 media de una distribucin normal, intervalo de conanza (caso de varianza conocida), 140 media de una distribucin normal, estimacin de la, 136 media de una distribucin normal, intervalo de conanza (caso de varianza desconocida), 165 media geomtrica, 34 media muestral, 94, 133, 136 media ponderada, 35 mtodo de Tukey-Kramer de comparaciones mltiples, 210 mtodos no paramtricos, 294 mnimos cuadrados, 235 modelo de clasicacin simple en anlisis de la varianza, 203 modelo de regresin lineal, 237 modelo estadstico, 132 momento de inercia, 25, 75, 86 muestra, 14 muestra, denicin probabilstica, 92 muestras apareadas, 173 muestras independientes, diseo de, 173 muestras relacionadas, 173 muestreo, 90 muestreo aleatorio simple, 90, 292 muestreo aleatorio simple con reemplaza-

349

M
m.a.s., 90, 292 mquina de Galton, 101 marca de clase, 27 McNemar, test, 189, 225

ndice

350
miento, 91 muestreo aleatorio simple sin reemplazamiento, 91 muestreo estraticado, 104

Elementos de Bioestadstica

P
P -valor, 153 parmetro, 131 particin de tablas de contingencia, 223 pendiente de regresin, 233 pendiente de regresin muestral, 235 pendiente de regresin, intervalo de conanza, 242 pendiente poblacional, 238 percentil de un conjunto de datos, 24 placebo, 174 platicrtico, conjunto de datos, 32 poblacin, 14 poblacin de muestreo, 93 poblacin objetivo, 93

N
N, 16 nivel de conanza, 141 nivel de signicacin de un test, 150 nivel mnimo de signicacin de un test, 153 normal bivariante, distribucin, 234 normal, distribucin, 81 normalidad, 293 nube de puntos, 235 nmero combinatorio, 20

polgono de frecuencias, 34 nmeros aleatorios, 92 potencia de un test de hiptesis, 150

O
observacin, 43 odds ratio, 260 ordenada en el origen de la recta de regresin, 233 ordenada en el origen de la recta de regresin muestral, 237 ordenada en el origen poblacional, 238 ordenada en el origen poblacional, contraste, 244 ordenada en el origen poblacional, intervalo de conanza, 244

prediccin, 244 prevalencia, 55 principio de los mnimos cuadrados, 235 principio de mxima verosimilitud, 64 probabilidad, 47 probabilidad condicionada, 51 probabilidad de falso negativo, 55 probabilidad de falso positivo, 55 probabilidad de signicacin de un test, 153 probabilidad total, teorema de la, 54 problema de regresin lineal, 233 problema general de regresin, 233

ndice

Agustn Garca Nogales


proporcin muestral, 137 proporcin, contraste de una (aproximacin normal), 169 proporcin, estimacin de una, 137 proporcin, intervalo de conanza para una (aproximacin normal), 169

351

S
sectores, diagrama de, 34 sensibilidad de un test de diagnstico, 55 Shapiro-Wilks, test, 210, 294 Spearman, coeciente de correlacin, 251 Student, test t de comparacin de dos medias, caso de muestras relacio-

Q
quasi-varianza, 25

nadas, 184 Student, test t de comparacin de dos medias, muestras independientes, 178 suceso, 44 suceso elemental, 43 suceso imposible, 44 suceso seguro, 44 suma de cuadrados debida a la regresin lineal, 241 suma de cuadrados residual en el modelo de regresin lineal, 241 sumatorio, 21

R
R, 16 rango de un conjunto de datos, 35 rango intercuartlico de un conjunto de datos, 35 razn del producto cruzado, 260 redondeo, 17 regin crtica de un test, 147, 150 regin de aceptacin, 147 regin de aceptacin de un test, 150 regresin, 233 regresin lineal, 233, 237 regresin lineal mltiple, 234 regresin no lineal, 234 relacin entre la media y la mediana, 31 relacin entre la media, la mediana y la desviacin tpica, 25 residuos en el modelo de regresin lineal, 238 riesgo relativo, 259

T
t, distribucin, 95 t, test de Student de comparacin de dos medias, caso de muestras relacionadas, 184 t, test de Student de comparacin de dos medias, muestras independientes, 178 t (n 1), cuantil de orden 1 /2 de la distribucin t(n 1), 163

ndice

352
tabla de anlisis de la varianza de una va, 205 tabla de anlisis de la varianza para el modelo de clasicacin doble sin interacciones y una observacin por celda, 219 tabla de contingencias, 220, 253 tablas de contingencia, particin de, 223 tablas de frecuencias, 26 tallos y hojas, diagrama de, 32 tamao de muestra necesario para conseguir una precisin dada en la estimacin por intervalos, 144 tamao de muestra necesario para detectar alternativas, 156 Tartaglia, tringulo, 101 teorema de Bayes, 54 teorema de la probabilidad total, 54 teorema del lmite central, 98 teorema del lmite central, uso del, 156 test 2 de bondad de ajuste, 171 test 2 de independencia de dos variables cualitativas, 254 test 2 para la comparacin de varias proporciones, 222 test C de Cochran, 210 test F de comparacin de dos varianzas, 176

Elementos de Bioestadstica
test F para el problema de comparacin de varias medias, 205 test t de Student de comparacin de dos medias, caso de muestras relacionadas, 184 test t de Student de comparacin de dos medias, muestras independientes, 178 test altamente signicativo, 154 test de Bartlett, 210 test de Bartlett de comparacin de varias varianzas, 210 test de Cochran, 225 test de Dunn, comparaciones mltiples en el caso no paramtrico, 215 test de Friedman, 219 test de hiptesis, 146 test de independencia lineal de dos variables cuantitativas, 242, 249 test de Kolmogorov-Smirnov, 294 test de Kruskal-Wallis, 214 test de Levene, 210 test de Lilliefors, 294 test de Mann-Whitney-Wilcoxon, 182 test de McNemar, 225 test de McNemar de comparacin de dos proporciones en el caso de muestras relacionadas, 189 test de normalidad de DAgostino, 167, 209

ndice

Agustn Garca Nogales


test de normalidad de Kolmogorov-Smirnov- valor P , 153 Lilliefors, 210 test de normalidad de Shapiro-Wilks, 210 test de rangos con signo de Wilcoxon, 185 test de Shapiro-Wilks, 294 test de suma de rangos de Wilcoxon, 182 valor experimental de un test, 149 valor predictivo negativo de un test de diagnstico, 56 valor predictivo positivo de un test de diagnstico, 56

353

test de Welch para la comparacin de dos variabilidad biolgica, 15 medias, 179 test muy signicativo, 154 variable, 14 variable aleatoria, 66

test no paramtrico de comparacin de dos variable aleatoria continua, 79 muestras independientes, 182 variable aleatoria discreta, 71

test no paramtrico de comparacin de dos variable continua, 14 muestras relacionadas, 185 test no paramtrico de independencia de dos variables cuantitativas, 252 test no paramtrico para la comparacin de varias muestras, 214 test signicativo, 154 tests unilaterales, 154 tipicacin de la distribucin normal, 82 tringulo de Tartaglia, 101 Tukey-Kramer, mtodo de comparaciones mltiples, 210 variable cualitativa, 14 variable cuantitativa, 14 variable discreta, 14 variacin dentro en anlisis de la varianza, 204 variacin entre en anlisis de la varianza, 204 variacin total, 204 varianza de regresin, estimador, 238 varianza de un conjunto de datos, 24 varianza de una distribucin continua, 80 varianza de una distribucin discreta, 74 varianza de una distribucin normal, intervalo de conanza, 166 varianza muestral, 94, 133, 136 Venn, diagrama, 19

U
uniforme, distribucin, 72 unilateral, intervalo de conanza, 145 unin de conjuntos, 17

V
v.a., 66

ndice

354

Elementos de Bioestadstica

W
Welch, test, 179 Wilcoxon, test de rangos con signos de, 185 Wilcoxon, test de suma de rangos, 182

Z
z , cuantil de la distribucin normal, 85

ndice