Anda di halaman 1dari 72
A mi hermano Beni in memoriam. A mis higos: Cuqui Para Julia y Cristina Javier Prélogo El desarrollo y el nivel de aplicacién que la Bioestadistica, como herra- mienta titil y rigurosa en el campo de la investigacién en todas las Ciencias Sociales, ha experimentado en los dtimos aos, ha sido espectacular. Bs in- dudable que este progreso en el conocimiento y aplicacién de la Estadistica ha venido estrechamente vinculado al que ha experimentado el drea de la tizada donde el ordenador se ha convertido en un utensilio personal de uso habitual. Este auge y progreso de la informética, a nivel de software y hardware, ha hecho posible, a su vez, la realizacién de pruebas estadis que, de forma habitual, hubiesen sido muy costosas desde el punto de humano asf como manejar voltimenes de informacién que habrian resultado absolutamente impensables cas ‘sta Un segundo factor asociado a este progreso del conocimiento en el émbi- to estadistico, ha sido el cambio de actitud experimentado por todos los pro- fesionales de las éreas de Ciencias Sociales y especialmente, en cl émbito de las Ciencias de la Salud. De uma sociedad en la que los roles y e! desempeiio de la profesién estaban ajustados a la mera aplicacién de los conocimientos adquiridos, hemos evolucionado a una Sociedad Cientffica donde la investi- gacién ha pasado a formar parte esencial de su labor diaria. El interés por descubrir nuevos procedimientos a través de Ia experiencia acumulada, ha sido determinante en la necesidad de que todos estos profesionales se vean inmersos en la formacién y aprendizaje de ténicas bésicas de metodologia de la investigacién y de algunas més concretas como el analisis de datos. te cambio en la d mensidn del ejercicio profesional, determina que los planes de estudio de todas las licenciaturas y diplomaturas incluyan la Bioestadistica para el émbito de Salud y Biologia, como materia troncal con entidad propia y de auténtica necesidad. Se pretende, con ello, que un profesional de la Salud, o de cualquier ciencia Social, que se apoye en la cuantificacién y en el estudio empirico de lo que observa a diario, entienda y conozea los conceptos bisicos de la ciencia que le va a. permitir, aban- donando conductas pragméticas, profindizar y comprender el fmdamento cientifico de su area de trabajo, No so trata de hacer expertos en Estadistica, El principal objetivo de los docentes de esta materia se centra en generar, en los discentes, una actitud critica ante cualquier lectura cientifica, adquirir un lenguaje comin con estadisticos y otros profesionales del area y conocer a prioti los pasos y los elementos imprescindibles en cualquier investigacién empfrica que se apoye en el manejo de volimenes grandes de datos y cuyo propésito final sea condensar dicha informacién para que pueda ser transmitida o extrapolar las conclusiones a las poblaciones de las que fueron tomadas las medidas, Es importante saber que no existe investigacién si no existen objetivos previos: no puede descartarse ni confirmarse lo que no se ha planteado Ajena a esta transformacién social se encuentran la gran mayorfa de nuestros alumnos que cursan los primeros cursos de alguna de estas licen- ciaturas 0 diplomaturas de Ciencias Sociales o Ciencias de la Salud, Sus inicos objetivos se centran en llegar a ser médicos, bidlogos, psicélogos...y no alcanzan a entender que utilidad les puede reportar una materia como la Bioestadistica en su curriculo, Es por ello que al margen de la dificultad intrinseca que genera el entendimiento de la materia, la ensefianza de la Bioestadistica en estos cursos se ve agravada por la imposibilidad de usar cualquier tipo de motivacién. En muy distinta situacién se encuentran los alunmos de postgrado que ya han comenzado su vida profesional y han tenido, por tanto, ocasidn de darse cuenta. de qué manera la Bioestadistica les puede resultar vitil y nece- saria, Aunque no sea su deseo adentrarse en el mundo de la investigacién, una parte importante en la transmisién de los nuevos hallazgos y conoci- mientos de otros colegas de su Ambito profesional, es el lenguaje estadistico, Es por ello que han de estar absolutamente familiatizados con dicha termi- nologfa si se pretende tener una actitud eritica y objetiva ante la lectura de cualquier literatura cientifica, Fruto del trabajo realizado con estos sectores de estudiantes ¢ investi- gadores es nuestra experiencia, que nos ha animado a escribir el presente libro que podrfa definirse como un Manual de Estadistica basica aplicada al Ambito de la Salud. Su contenido abarca desde los aspectos més bésicos de la Estadistica descriptiva, en su funcién de resumir, presentar y comunicar los resultados de cualquier estudio a las diferentes técnicas de extrapolacién de las conclusiones a una poblacién, a partir de lo verificado en una mues- tra representativa de ésta. Obviamente, para ello, se hace necesario revisar as nociones mas bésicas de aspectos como probabilidad, Variable aleatoria, Distribuciones de probabilidad, asi como los elementos imprescindibles de toda la Inferencia Estadistica: técnicas de muestreo, conceptos fundamen- tales, estimacién confidencial y contrastes de hipétesis més importantes de a Estadistica Univariante, abordando los test usados bajo supuesto de dis- twibucién gaussiana asi como los de distribvucién libre. La variabilidad que han generado los nuevos planes de estudio no facilita la seleccién de unos contenidos que abarque la totalidad de los programas de todas las Univer- sidades, sin embargo hay una parte troncal que constituye un porcentaje amplio del conjunto de todos ellos, Esta es la parte que hemos selecciona- do, para nuestro contenido, de manera que podamos acercarnos lo maximo posible a lo que pudiera ser un libro de texto para las asignaturas de Bioes- tadistica que se imparten en la mayoria de las Facultades de Medicina y Escuelas de Ciencias de la Salud. En lo que concierne al modo y la forma, la experiencia acumulada a través de los aiios de docencia y el apoyo en el area de la investigacién de los profesionales de Ia salud de nuestro entorno, nos condiciona a que teorfa y préctica avancen de manera simulténea, en este manual, comple- menténdose la una a la otra y apoydndose mutuamente, con numerosos ejemplos que puedan acercar al lector a situaciones mds cotidianas de su entono, Pretendemos con ello ayudarles a entender las nociones més abs- tractas y a relacionarlas con wm futuro no lejano como profesional del mundo de la salud. No obstante, no hemos querido evitar tratar algunos temas con algo més de rigor, para que el lector que esté interesado en profundizar algo més, pueda hacerlo; siempre teniendo en cuenta que la lectura de dichas partes es algo optativo y que dependera de las necesiclades individuales, A todos esos alumnos y compafieros queremos dedicarle muestro mas sincero agtadecimiento, por su inestimable colaboracién al orientarnos, a través de sus opiniones sinceras, sobre nuestra metodologfa docente y haber podido observar cual ha sido su evolucién a lo largo de los afios y de las diferentes etapas que se han ido sucediendo. Esperamos que la ilusién puesta en la realizacién de este texto nos ha- ya permitido suavizar, en la medida de lo posible, la arider del tema que tratamos, y sélo comprobar que realmente pueda ser un elemento eficaz de ayuda, apoyo y consulta entre nuestros discipulos y compafieros, justifi- card todas las horas que hay detrés de estas lineas. indice general 1. Conceptos previos 13 11. Introduccién . . 2B 1.2, {Qué es la estadistica? . : 4 1.3, Elementos, Poblacién, Caracteres . 18 14, Organizacién de los datos . aT 1.4.1, Variables estadisticas 7 14.2. Tablas estadisticas 19 1.5, Representaciones Grificas . . : a 1.5.1, Gréficos para variables cualitativas 2 1.5.2. Graficos para variables cuantitativas 26 1.6. Problemas 36 2. Medidas descriptivas 39 2.1, Introduecién 39 2.2. Estadisticos de tendencia central 40 2.2.1, La media 41 2.2.2, La mediana 43 2.2.3, La moda, 46 2.2.4. Relacién entre media, mediana y moda a7 2.3. Estadisticos de posicién 48 INDICE GENERAL 2.4. Medidas de variabilidad o dispersion 55 24.1, Rango . . 55 24.2, Varianza 2.4.3. Desviacién tipica o estandar 2.4.4. Ejemplo de edleulo de medidas de dispersion 2.4.5. Coefic ente de variacién 2.5, Asimetrfa y apuntamiento 59 2.5.1, Estadisticos de asimetria 60 2.5.2. Estadisticos de apuntamiento 66 2.6. Problemas 68 . Variables bidimensionales 73 3.1, imtroduceién, 73 3.2. Tablas de doble entrada 6 3.2.1, Distribuciones condicionadas 76 3.3. Dependencia fumeional e independencia . . 7 3.3.1, Dependencia funcional 7 3.3.2. Independencia 8B 3.4, Covarianza 8B 3.5. Coeficiente de correlacién lineal de Pearson 81 3.6. Regresion 8l 3.6.1, Bondad de un ajuste : 84 3.6.2. Regresién lineal 86 3.7. Problemas 94 . Célculo de probabilidades y variables aleatorias 99 4.1, imtroduccién, 99 4.2, Experimentos y sucesos aleatorios 100 4.2.1. Operaciones bésicas con sucesos aleatorios 101 INDICE GENERAL 4.3. 44. 45. 46. 47. Experimentos aleatorios y probabilidad 4.3.1, Nocién frecuentista de probabilidad 4.3.2, Probabilidad de Laplace 4.3.3, Definicién axiomética de probabilidad Probabilidad condicionada e independencia de suecsos ‘Teoremas fundamentales del célculo de probabilidades 4.5.1, Teorema de la probabilidad compuesta 4.5.2, Sistema exhaustivo y excluyente de sucesos 4.5.3. Teorema de la probabilidad total 4.5.4, Teorema de Bayes Tests diagndsticos Problemas 5. Variables aleatorias BA. 52. 53. 5. Introduccién Variables aleatorias discretas Variables aleatorias continuas Medidas de tendencia central y dispersién de v.a. 5.4.1. Valor esperado 0 esperanza matematica 5.4.2. Varianza 6. Principales leyes de distribucién de variables aleatorias 61 6.2. Introduecién Distribuciones discretas 6.2.1. Distribucién de Bernoulli 6.2.2. Distribucién binomial 6.2.3, Distribucién geométrica ( 0 de fracasos) 6.2.4, Distribucién binomial negativa 6.2.5. Distribucién hipergeométrica, 102 102 105, 105 106 109 110 110 M1 2 15, 119 123 123 125, 126 129 130 130 131 131 132 132 133 137 139 M1 INDICE GENERAL 6.2.6. Distribucién de Poisson o de los sucesos raros 6.3, Distribuciones continuas 6.3.1. Distribucién uniforme o rectangular 6.3.2. Distribucién exponencial 6.3.3. Distribucién normal o gaussiana 6.3.4. Distribucién x? 6.3.5, Distribueién t de Student 6.3.6, La distribucién F de Snedecor 6.4, Problemas . Introduccién a la inferencia 7.1. Introduecién 7.2. ‘Técnicas de muestreo sobre una poblacién 7.2.1, Muestreo aleatorio 7.2.2. Muestreo aleatorio estratificado 7.2.3, Muestreo sistemético 7.2.4, Muestreo por conglomerados 7.3. Propiedades deseables de un estimador 7.3.1, Estimadores de méxima verosimilitud 7.3.2. Algunos estimadores fundamentales . Estimacién confidencial 8.1. Introduccién 8.2. Intervalos de confianza para la distribucién normal 8.2.1, Intervalo para la media si se conoce la varianza 8.2.2. Intervalo para la media (caso general) 8.2.3. Intervalo de confianza para Ia varianza 8.2.4. Estimacién del tamaio muestral 143 144 ua 46 150 153 155, 157 159 163 163 164 165 166 168 169 169 170 172 175 175 .77 178 182 186 187 INDICE GENERAL 10. 8.2.5. Intervals para la diferencia de medias de dos pobla- ciones 8.3. Intervalos de confianza para variables dicotémicas 8.3.1. Intervalo para una proporcién 8.3.2. Eleccién del tamaiio muestral para ima proporeién 8.3.3. Intervalo para la diferencia de dos proporciones 8.4. Problemas Contrastes de hipétesis 9.1, Introduecin 9.1.1. Observaciones 9.2. Contrastes paramétricos en a poblacién normal 9.2.1. Contrastes para la media 9.2.2. Contrastes para la varianza Contrastes de wma proporcién 9.4. Contrastes para la diferencia de medias apareadas 9.5. Contrastes de dos distribuciones normales independientes 9.5.1. Contraste de medias con varianzas conocidas 9.5.2. Contraste de medias homocedaticas 9.5.3. Contraste de medias no homocedaticas 9.5.4, Contrastes de la razén de varianzas 9.5.5. Caso particular: Contraste de homocedasticidad 9.6. Contrastes sobre la diferencia de proporciones 9.7. Problemas Contrastes basados en el estadistico Ji~Cuadrado 10.1. Introduccién 10.2. Fl estadistico x? y su distribucién 10.3. Contraste de bondad de ajuste para distribuciones 189) 195 195 197 198 200 203 203 206 210 210 218, 219 224 228 228 231 232 234 236 244 246 10 INDICE GENERAL 10.3.1. Distribuciones de pardmetros conocidos 10.3.2. Distribuciones con pardmetros desconocidos 10.4. Contraste de homogeneidad de muestras cualitativas: 10.5, Contraste de independencia de variables cualitativas 10.6, Problemas 11.Anilisis de la varianza 11.1. Introduccién 11.2. ANOVA con un factor 11.2.1. Especificacién del modelo 11.2.2. Algo de notacién relativa al modelo 11.2.3, Forma de efectuar el contraste 11.2.4, Método reducido para el andlisis de un factor 11.2.5, Andlisis de los resultados del ANOVA: Comparacio- nes mniltiples 11.3. Consideraciones sobre las hipétesis subyacentes en el modelo factorial 11.3.1, Contraste de homocedasticidad de Cochran, 11.3.2. Contraste de homocedasticidad de Bartlett 11.4, Problemas 12.Contrastes no paramétricos 12.1, Introduccién, 12.2, Aleatoriedad de una muestra: Test de rachas 12,3, Normalidad de una muestra; Test de D'Agostino 12.4, Equidistribucién de dos poblaciones 12.4.1. Contraste de rachas de Wald—Wolfowitz, 12.4.2. Contraste de Manm—Withney 12.5. Contraste de Wilcoxon para muestras apareadas 265 268 269 272 278 283 283, 285 287 289 291 292 295, 297 298 299 301 305 305, 306 308 309 309 310 aul INDICE GED n 12.6. Contraste de Kruskal-Wallis 313 12.7, Problemas 314 Bibliografia 321 12 INDICE GENERAL Capitulo 1 Conceptos previos 1.1. Introduccién Iniciamos este c y basicos, y sin embargo pilares, para wna comprensién intuitiva y real de lo que es la Bioestadistica, Pretendemos introducir al estudiante en los primeros pasos sobre el uso y manejos de datos numéricos: distinguir y clasificar las earacteristicas en estudio, ensefiarle a organizar y tabular las medidas obtenidas mediante la construccién de tablas de frecuencia y por iiltimo los métodos para claborar una imagen que sea capaz de mostrar gréficamente unos resultados. sulo con la definicién de algunos conceptos elementales El aserto “una imagen vale mas que mil palabras” se puede aplicar al Ambito de la estadistica descriptiva diciendo que “un gréfico bien elaborado vale més que mil tablas de frecuencias”. Cada vez es mas habitual el uso de grdficos o imagenes para representar la informacién obtenida. No obstante, debemos ser prudente al confeccionar o interpretar gréficos, puesto que unas misma informacién se puede representar de formas muy diversas, y no todas ellas son pertinentes, correctas 0 validas. Nu consiste en establecer los eriterios y normas minimas que deben verificarse para construir y presentar adecuadamente los gréficos en el Ambito de la estadistica descriptiva. stro objetivo, en este capitulo, 13 u Bioestadistica: Métodos y Aplicaciones 1.2. {Qué es la estadistica? Cuando coloquialmente se habla de estadistica, se suele pensar en una rela- cién de datos numéricos presentada de forma ordenada y sistemstica, Esta idea es la consecuencia del concepto popular que existe sobre el término y que cada vez esté mas extendido debido a la influencia de nuestro entorno, ya que hoy dia es casi imposible que cualquier medio de difusién, periédi- co, radio, televisién, etc, no nos aborde diariamente con cualquier tipo de informacién estadistica sobre accidentes de tréfico, {ndices de crecimiento de poblacién, turismo, tendencias politicas, ete. Sélo cuando nos adentramos en un mundo més especifico como es el campo de la investigacién de las Ciencias Sociales: Medicina, Biologia, Psi- cologia, ... empezamos a percibir que la Estadistica no sélo es algo més, sino que se convierte en la tinica herramienta que, hoy por hoy, permite dar luz y obtener resultados, y por tanto beneficios, en cualquier tipo de estudio, cuyos movimientos y relaciones, por su variabilidad intrinseca, no puedan ser abordadas desde la perspectiva de las leyes determistas. Po- drfamos, desde un punto de vista més amplio, definir la estadistica como la ciencia que estudia cémo debe emplearse la informacién y e6mo dar una guia de accién en situaciones précticas que entraiian incertidumbre. La Estadistica se ocupa de los métodos y procedimientos para recoger, clasificar, resumir, hallar regularidades y analizar los datos, siempre y cuando la variabilidad ¢ incertidumbre sea uma causa intrinseca de los mismos; asf como de realizar inferencias a partir de ellos, con la finalidad de ayudar a la toma de decisiones y en su caso formular predicciones Podrfamos por tanto clasificar la Estadistica en descriptiva, cuando los resultados del andlisis uo pretenden ir més allé del conjunto de datos, ¢ in- ferencial cuando el objetivo del estudio es derivar las conclusiones obtenidas aun conjunto de datos més amplio 1.3, ELEMENTOS. POBLACION. CARACTERES 15 Estadistica descriptiva: Describe, analiza y representa un grupo de datos utilizando métodos numéricos y gréficos que resumen y presentan la informacién contenida en ellos. Estadistica inferencial: Apoyéndose en el céleulo de probabilida- des y a partir de datos muestrales, efectia estimaciones, decisiones, predicciones u otras generalizaciones sobre tm conjunto mayor de datos. 1.3. _Elementos. Poblacién. Caracteres Establecemos a continuacién algunas definiciones de conceptos bésicos y fundamentales bésicas como son: elemento, poblacién, muestra, cardete- res, variables, otc., a las cuales haremos referencia contintamente a lo largo del texto Individuos 0 elementos: personas u objetos que contienen cierta infor- macién que se desea estudiar. Poblacién: conjunto de individuos 0 elementos que cumplen ciertas propiedades comunes, Muestra: subconjunto representativo de una poblacién. Pardmetro: funcién definida sobre los valores numéricos de carac~ teristicas medibles de una poblacién. Estadistico: funcién definida sobre los valores numéricos de una muestra, 16 Bioestadistica: Métodos y Aplicaciones En relacién al tamafio de la poblacién, ésta puede ser: + Finita, como es el caso del ntimero de personas que llegan al servicio de urgencia de un hospital en un dia; + Infinita, si por ejemplo estudiamos el mecanismo aleatorio que deseri- be la secuencia de caras y cruces obtenida en el lanzamiento repetido de wna moneda al aire. Caracteres: propiedades, rasgos o cualidades de los elementos de la po- blacién, Estos caracteres pueden dividirse en cualitativos y cuantitativos. Modalidades: diferentes situaciones posibles de un carécter. Las modalidades deben ser a la vez exhaustivas y mutuamente excluyentes —cada elemento posee wna y sdlo una de las modalidades posibles. Clases: conjumto de una o m4s modalidades en el que se verifica que cada modatidad pertenece a una y sélo una de las clases. 1.4, ORGANIZACION DE LOS DATOS zr 1.4. Organizacién de los datos 1.4.1 Variables estadisticas Cuando hablemos de variable haremos referencia a.m simbolo (X,Y,A,B, que puede tomar cualquier modalidad (valor) de un conjunto determina- do, que Hamaremos dominio de la variable o rango. En funcidn del tipo de dominio, las variables las clasificamos del siguiente modo: ‘Variables cualitativas, cuando las modalidades posibles son de tipo no- minal. Por ejemplo, el grupo sanguineo tiene por modalidades: rupos Sanguineos posibles: A, B, AB, O Variables cuasicuantitativas u ordinales son las que, aunque sus mo- dalidades son de tipo nominal, es posible establecer wn orden entre ells. Por ejemplo, si estudiamos el grado de recuperacién de un pa- ciente al aplicarle un tratamiento, podemos tener como modalidades Grado de recuperacién: Nada, Poco, Moderado, Bueno, Muy Bueno. A veces se representan este tipo de variables en escalas numéricas, por ejemplo, puntuar el dolor en uma escala de 1 a 5. Debemos evitar sin embargo realizar operaciones algebraicas con estas cantidades. Un dolor de intensidad 4 no duele el dobleque otro de intensidad 2! Variables cuantitativas o numéricas son las que tienen por modali- dades cantidades numéricas con las que podemos hacer operaciones aritméticas. Dentro de este tipo de variables podemos distinguir dos grupos: Discretas, cuando no admiten siempre una modalidad intermedia entre dos cualesquiera de sus modalidades. Un ejemplo es el niimero de hijos en una poblacién de familias: Miimero de hijos posibles: 0, 1, 2, 3, 4, 5, Continuas, cuando admiten wna modalidad intermedia entre dos cualesquiera de sus modalidades, v.g. el peso X de un niiio al Ocurre a veces que tma variable cuantitativa continua por naturaleza, aparece como discreta. Este es el caso en que hay limitaciones en lo 18 Bioestadistica: Métodos y Aplicaciones que concierne a la precisién del aparato de medida de esa variable, v.g. si medimos la altura en metros de personas con una regla que ofrece dos decimales de precisién, podemos obtener Alturas medidas en em: 1.50, 1.51, 1.52, 1.58, En realidad lo que ocurre es que con cada una de esas ediciones expresamos que el intervalo de radio 0,005. Por tanto cada una de las observaciones de X representa més bien un intervalo que un valor conereto. srdadero valor de la misma se encnentra en un Tal como hemos citado anteriormente, las modalidades son las diferen- tes situaciones posibles que puede presentar la variable. A veces éstas son muy numerosas (v.g. cuando una variable es continua) y conviene reducit su mtimero, agrupéndolas en una cantidad inferior de clases. Estas clases deben ser construidas, tal como hemos eitado anteriormente, de modo que sean echaustivas y excluyentes, es decir, cada modalidad debe pertenecer a una y sélo una de las clases. Variable cualitativa: Aquella cuyas modalidades son de tipo nominal. Variable cuasicuantitativa: Modalidades de tipo nominal, en las que existe un orden. Variable cuantitativa discreta: Sus modalidades son valores ente- ros. Variable cuantitativa continua: Sus modalidades son valores rea~ les, 1.4. ORGANIZACION DE LOS DATOS 19. 1.4.2, Tablas estadisticas Consideremos una poblacién estadistica de n individuos, descrita segxin un cardcter o variable C k de clases, que denotamos mediante cca, ..., 6k. Para cada una de las clases ¢;, i= 1,...,b, introducimos las siguientes magnitudes ‘as modalidades han sido agrupadas en un mii Frecuencia absoluta de la clase ¢, es el mimero nj, de observaciones que presentan una modalidad perteneciente a esa clase, Frecuencia relativa de la clase c; es el cociente fj, entre las frecuencias absolutas de dicha clase y cl mimero total de obscrvaciones, es decir ne” Obsérvese que fi es el tanto por uno de observaciones que estén en la clase cj. Multiplicado por 100% representa el porcentaje de la pobla- cién que comprende esa clase. Frecuencia absoluta acumulada N,, se calcula sobre variables cuanti- tativas o cuasicuantitativas, y es el niimero de elementos de la pobla- cién cuya modalidad es inferior o equivalente a la modalidad ¢, =n tme te tm =D ny at Frecuencia relativa acumulada , F;, se calcula sobre variables cuanti- tativas o cuasicuantitativas, siendo el tanto por uno de los elementos de la poblacién que estén en alguna de las clases y que presentan una modalidad inferior o igual a la ¢, es decir, Hhtth= Dh i Llamaremos distribucién de frecuencias al conjunto de clases junto a las freenencias correspondientes a cada na de ellas. Una tabla estadistica 20 Bioestadistica: Métodos y Aplicaciones sirve para presentar de forma ordenada las distribuciones de frecuencias. Su forma general es la siguiente: Modali. Free. Abs. Ral Free. Abs, Raman Free, Rel, Acamn Cc ny Ky 7 AR=-S=f 5 Ba Bane th ok nh Fal 7 T Ejemplo de calculo con frecuencias Calcular los datos que faltan en la siguiente tabla: 0-10 60 10—20 mz OA 2—30 30 fy 30—100 m Ol 100 — 200 ms fs Solucién: Sabemos que la tiltima frecuencia acummulada es igual al total de observa ciones, Inego n = 200. Como Ns = 170 y ng = 30, entonces No ng = 170 — 30 = 140. Adems al ser m1 = 60, tenemos que iy — ny = 140 — 60 = 80. 1.5, REPRESENTACIONES GRAFICAS 2 Por otro lado podemos calcular n4 teniendo en cuenta que conocemos la frecuencia relativa correspondiente: f= = ng= fan =0,1 x 200= 20 ng + Ng = 20 + 170 = 190. Este tiltimo célculo nos permite obtener Ny = 200 — 190 = 10. Al haber calculado todas las frecuencias absolutas, es inmediato obtener las relativas: h-® = 0,3 fy = Ba Soo fs = mB 0,05 Escribimos entonces la tabla completa: 0-10 60 0,3 60 10—20 80 0,4 140 20—30 30 0,15 170 30-100 20 0,1 190 100— 200 10 0,05 200 1.5. Representaciones Graficas Hemos visto que la tabla estadistica resume los datos que disponemos de una poblacién, de forma que ésta se puede analizar de una manera mas 22 Bioestadistica: Métodos y Aplicaciones sistemética y resumida . Para damos cuenta de un sélo vistazo de las ca- racteristicas de la poblacién resulta atin mas esclarecedor el uso de gréficos y diagramas, cuya construccién abordamos en esta seccién, 1.5.1. Graficos para variables cualitativas Los graficos més usuales para representar variables de tipo nominal son los siguientes: Diagramas de barras: Siguiendo la figura 1.1, representamos en el eje de ordenadas las modalidades y en abscisas las frecuencias absolutas 0 bien, las frecuencias relativas. $i, mediante el grafico, se intenta com- parar varias poblaciones entre sf, existen otras modalidades, como las mostradas en la figura 1.2. Cuando los tamatios de las dos poblaciones son diferentes, es conveniente utilizar las frecuencias relativas, ya que en otro caso podrfan resultar engafiosas. frecuencias Solteros Casados _Vindos_ Divorciados Figura 1.1: Diagrama de barras para una variable cualitativa. 1.5, REPRESENTACIONES GRAFICAS 23, frecuencias relativas aastocart BB utocar2 Solteros Casados_-Viudos_Divorciados Figura 1.2: Diagramas de barras para comparar una variable cualitativa en diferentes poblaciones. Se ha de tener en cuenta que la altura de cada barra es proporcional al miimero de observaciones (frecuencias relativas) 24 Bioestadistica: Métodos y Aplicaciones Diagramas de sectores (también llamados tartas). Se divide um cfreulo en tantas porciones como clases existan, de modo que a cada clase le corresponde un arco de efrculo proporcional a su frecuencia absoluta o relativa (figura 1.3). Gropo A 31 individuos Srs% Grupo B rupo C 250iindwvidvos] 250 ndividuos 25% 3% Figura 1.3: Diagrama de sectores. E] arco de cada porcién se calcula usando la regla de tres: n —> 360° 360s no Como en la situacién anterior, puede interesar comparar dos pobla- ciones. En este caso también es aconsejable el uso de las freeuencias relativas (porcentajes) de ambas sobre gréficos como los anteriores. tra posibilidad es comparar las 2 poblaciones usando para cada una de cllas un diagrama semicircular, al igual que en la figura 14. Sean hy S ng los tamatios respectivos de las 2 poblaciones. La poblacién més pequeiia se representa con um semicireulo de radio 7) y la mayor con otro de radio r2 1.5, REPRESENTACIONES GRAFICAS 25 La relacién existente entre los radios, es la que se obtiene de suponer que la relacién entre Tas areas de Tas circunforencias es igual a la de los tamatios de las poblaciones respectivas, es decir Figura 1.4; Diagrama de sectores para comparar dos poblaciones Pictogramas Expresan con dibujos alusivo al tema de estudio las fre- cuencias de las modalidades de la variable. Estos gréficos se hacen representado a diferentes escalas un mismo dibujo, como vemos en la figura 15. Elescalamiento de los dibujos debe ser tal que el drea’ de cada uno de ellos sea proporcional a la frecuencia de la modalidad que repres Este tipo de gréficos sucle usarse en los medios de comunicacién, para que sean comprendidos por el ptiblico no especializado, sin que sea necesaria una explicacién compleja anta. ‘Rs un error hacer la representacisn con una escala tal que el perimetro del dibujo sea proporcional a la frecuencis, ya que a frecuencia doble, corresponderia wn dibujo de érea cuadruple, Jo que da un efecto visual engasioso. 26 Bioestadistica: Métodos y Aplicaciones bol G 100K@ sox Figura 1.5: Pictograma. Las areas son proporcionales a las frecuencias. 1.5.2. Gréficos para variables cuantitativas Para las variables cuantitativas, consideraremos dos tipos de gréficos, en funcién de que para realizarlos se usen las frecuencias (absolutas o relativas) 0 las frectencias acumuladas: Diagramas diferenciales: Son aquellos en los que se representan fre- cuencias absolutas o relativas, En ellos se representa el mimero 0 porcentaje de elementos que presenta ma modalidad dada. Diagramas integrales: Son aquellos en los que se representan el ntimero de elementos que presentan una modalidad inferior o igual a una dada. Se realizan a partir de las frecuencias acumuladas, lo que da lugar a gréficos crecientes, y es obvio que este tipo de gréficos no tiene sentido para variables cualitativas Segtin hemos visto existen dos tipos de variables cuantitativas: discretas y continuas, Vemos a continuacién las diferentes representaciones gréficas ‘que pueden realizarse para cada una de ellas asf como los nombres especifi- cos que reciben, 1.5, REPRESENTACIONES GRAFICAS 2 Graficos para variables discretas Cuando representamos wna variable disereta, usamos el diagrama de barras cuando pretendemos hacer una gréfica diferencial. Las barras deben ser es- trechas para representar el que los valores que toma la variable son diserctos. El diagrama integral o acumulado tiene, por la naturaleza de la variable, forma de escalera. Un ejemplo de diagrama de barras asi como su diagrama integral correspondiente estan representados en la figura 1.6. Ejemplo de variable discreta Se lanzan tres monedas al aire en 8 ovasiones y se contabiliza el mimeo de caras, X, obteniendose los siguientes resultados: 21,0,1,8,2,1,2 Representar gréficamente el resultado, Solucién: En primer lugar observamos que la variable X es cuantitativa discreta, presentando las modalidades: 0,1,2,3 Ordenamos a continuacién los datos en una tabla estadistica, y se representa Ia misma en la figura 16. ol 4s 1 1 3 (3/8 4 4/8 2 3 3/8 7 7/8 31 1/8 8 8/8 T Ejomplo de regresentacién grafica Clasificadas 12 familias por su mimero de hijos se obtuvo: nero de hijos (za Frecuencias (m) 1 28 Bioestadistica: Métodos y Aplicaciones frecuencia frecuencia absolutas absolutas acumuladas Figura 1.6: Diagrama diferencial (barras) ¢ integral para uma variable dis- crota. Obsérvese que el diagrama integral (creciente) contabiliza el niimero de observaciones de la variable inferiores o iguales a cada punto del eje de abcisas Comparar los diagramas de barras para frecuencias absolutas y relativas. Realizar el diagrama acumulativo creciente. Solucién: En primer lugar, escribimos la tabla de frecuencias en el modo habitual friable PF. Absolutas F. Relativas P. Acumuladas ri ne Ni T T T 2 3 4 3 5 9 4 12 12 Con las columnas relativas a 2, yn; realizamos el diagrama de barras para frecuencias absolutas, lo que se muestra en la figura 1.7, Como pue- de verse es identico (salvo un cambio de escala en el eje de ordenadas) al diagrama de barras para frecuencias relativas y que ha sido calculado 1.5, REPRESENTACIONES GRAFICAS 29 usando las columnas de 2; y f,. El diagrama escalonado (acumulado) se ha construido con la informacién procedente de las cohumnas 2 y Nj. frecuencias absolut 5 frecuencias v2 absolutas eo 3 acumuladas 9 _—_ 1 234 sna] relatives ana v2 12 3 4 Figura 1.7: Diagramas de freeuencias para una variable discret Gréficos para variables continuas Cuando las variables son continuas, utilizamos como diagramas diferencia- les los histogramas y los poligonos de frecuencias. Un histograma se construye a partir de la tabla estadistica, represen- tando sobre cada intervalo, un recténgulo que tiene a este segmento como base. El criterio para calcular la altura de cada recténgulo es el de mante- ner la proporcionalidad entre las frecuencias absolutas (o relativas) de cada intervalo y el drea de los mismos. Véase la figura 18. El poligono de frecuencias se construye facilmente si tenemos represen- tado previamente el histograma, ya que consiste en unir mediante lineas rectas los puntos del histograma que corresponden a las marcas de clase. Para representar el poligono de frecuencias en el primer y tltimo interva- 30 Bioestadistica: Métodos y Aplicaciones a Figura 1.8: Histograma para una variable continua. Jo, suponemos que adyacentes a ellos existen otros intervalos de la misma amplitud y frecuencia nula, y se unen por una linea recta los puntos del histograma que corresponden a sus mareas de clase. Obsérvese que de es- te modo, el polfgono de frecuencias tiene en comin con el histograma el que las dreas de la gréficas sobre um intervalo son idénticas. Veanse ambas gréficas diferenciales representadas en la parte superior de la figura 1.9. El diagrama integral para una variable continua se denomina también poligono de frecuencias acumulado, y se obtiene como la poligonal de- finida en abcisas a partir de los extremos de los intervalos en los que hemos organizado la tabla de la variable, y en ordenadas por alturas que son pro- porcionales a las frecuencias acumuladas. Dicho de otro modo, el poligono de frectencias absolutas es wma prinnitiva del histograma, Véase la parte inferior de la figura 1.9, en la que se representa a modo de ilustracién los diagramas correspondiente a la variable cuantitativa continua expresada en la tabla siguiente 1.5, REPRESENTACIONES GRAFICAS 31 Tatervalos_ om NG 0-2 1 2 2 2-4 3 1 3 4-6 5 4 7 6-8 7 3 10 8-10 9 2 12 12 Figura 1.9: Diagramas diferenciales e integrales para ima variable continua 32 Bioestadistica: Métodos y Aplicaciones Bjemplo La siguiente distribucién se refiere a la duracién en horas (completas) de un lote de 500 tubos: Duracién en horas Numero de tubos 300 — 500 50 500 — 700 150 700 — 1.100 275 més de 1.100 25 Total 500 = Representar el histograma de frecuencias relativas y el poligono de frecuencias. = Trazar la curva de frecuencias relativas acumuladas, = Determinar el mimero mfnimo de tubos que tienen una duracién in- ferior a 900 horas, Solucién: En primer lugar observamos que la variable en estudio es dis- excta (horas completas), pero al tener un rango tan amplio de valores resulta més conveniente agruparla en intervalos, como si de una variable continua se tratase. La consecuencia es una ligera perdida de precisién, EI iiltimo intervalo est abierto por el limite superior. Dado que en 4 hay 25 observaciones puede ser conveniente cerrarlo con una amplitud “razonable”. Todos los intervalos excepto el tercero tienen una amplitud de 200 horas, luego podriamos cerrar el tiltimo intervalo en 1.300 horas? Antes de realizar el histograma conviene hacer uma observacién impor- tante. El histograma representa las frecuencias de los intervalos mediante Greas y no mediante alluras. Sin embargo nos es mucho més fécil hacer representaciones graficas teniendo en cuenta estas tiltimas. Si todos los intervalos tienen la misma amplitud no es necesario diferenciar entre los alquier otra cleccién para el limite superior del intorvalo que sca de “sentido cotoun” seria vélida, 15. REPRESENTACIONES GRAFICAS 33 conceptos de drea y altura, pero en este caso el tercer intervalo tiene una amplitud doble a los demés, y por tanto hay que repartir su rea en un rectdngulo de base doble (lo que reduce su éltura a la mitad). Asf sera conveniente afiadir a la habitual tabla de frecuencias una co- lumma que represente a las amplitudes a; de cada intervalo, y otra de fre- cuencias relativas rectificadas, f{, para representar la altura del histograma Los gréficos requeridos se representan en las figuras 1.10 y 1.11. Tntervalos a ny fi fi 300— 500 200 «500,10 0,10 0,10 500—700 200150 0,30 0,30 0,40 700 —1100 400 275 0,55 0,275 0,95 1.100 — 1.300 _ 200 0,05 0,05 1,00 300 S00 700 1100 1300 Figura 1.10: Histograma, Obsérvese que la altura del histograma en cada intervalo es f! que coincide en todos con f, salvo en el intervalo 700 — 1.100 en el que fi! = 1/2 f, ya que la amplitud de ese intervalo es doble a la de los demas. Por otro lado, mirando la figura 1.10 se ve que sumando frecuencias relati- 34 Bioestadistica: Métodos y Aplicaciones 300 500700 11001300 Figura 1.11: Diagrama acumulativo de frecuencias relativas vas, hasta las 900 horas de duracién hay 0,10 + 0,30 + 0,275 = 0,675 = 67,5% de los tubos. Esta cantidad se obtiene de modo més directo viendo a qué altura corres- ponde al valor 900 en el diagrama de frecuencias acumuladas (figura 1.11) Como en total son 500 tubos, el mimero de tubos con una duracién igual 0 menor que 900 horas es 0,675 x 500= 337,5. Redondeando, 338 tubos 1.5, REPRESENTACIONES GRAFICAS Cuadro 1.1: Principales diagramas segtin el tipo de variable. “Tipo de variable Diagrama V. Cualitativa Barras, sectores, pictogramas V. Disereta, Diferencial (barras) Integral (en escalera) V. Contima Diferencial (histograma, poligono de frecuencias) Integral (diagramas acumulados) 35, 36 Bioestadistica: Métodos y Aplicaciones 1.6. Problemas Ejercicio 1-1. Clasificar las siguientes variables: 1, Preferencias politicas (izquierda, derecha 0 centro) 2. Mareas de cerveza. 3. Velocidad en Km/h. 4. El peso en Kg, Signo del zodiaco, 6. Nivel educativo (primario s cundario, superior) Afios de estudios completados. 8. Tipo de ensefianza (privada o piblica) 9, Niimero de empleados de una empresa. 10. La mperatura de v n enfermo en grados Celsius. 11. La clase social (baja, media o alta) 12. La presién de un neumitico en Nw/cm? Ejercicio 1.2. Clasifique las variables que aparecen en el siguiente cues- tionario. 1. {Cudl es su edad? 2. Estado civil: a) Soltero b) Casado c) Separado 4) ) Divorciado Vindo 1.6. PROBLEMAS 37 3. {Cuanto tiempo emplea para desplazarse a su trabajo? 4, Tamafio de su municipio de residencia: 4) Municipio pequefio (menos de 2,000 habitantes) 4) Municipio mediano (de 2.000 a 10.000 hab.) ¢) Municipio grande (de 10.000 a 50.000 hab.) 4) Ciudad pequeiia (de 50.000 a 100.000 hab.) €) Ciudad grande (més de 100.000 hab.) LEsta afiliado a la seguridad social? Fjercicio 1.3. En el siguiente conjunto de datos, se proporcionan los pesos (redondea- dos a libras) de nitios nacidos en cierto intervalo de tiempo: 4,8, 4, 6,8, 6, 7, 7, 7, 8, 10, 9, 7, 6, 10, 8, 5, 9,6, 3,7, 6, 4,7, 6,9, 7,4, 7, 6,8, 8, 9, 11, 8, 7, 10, 8, 5, 7, 7, 6, 5, 10, 8,9, 7, 5, 6,5 1. Construir una distribucién de frecuencia de estos pesos. 2. Encontrar las frecuencias relativas. 3. Encontrar las frecuencias acumuladas, 4, Encontrar las frecuencias relativas acumuladas. Dibujar un histograma con los datos del apartado a. 6. {Por qné se ha utilizado un histograma para representar estos datos, en lugar de una gréfica de barras? 38 Bioestadistica: Métodos y Aplicaciones Capitulo 2 Medidas descriptivas 2.1. Introduccién En el capitulo anterior hemos visto eémo se pueden resumir los datos obte- nidos del estudio de una muestra (0 una poblacién) en uma tabla estadistica oun gréfico, No obstante, tras la elaboracién de la tabla y su representacién gréfica, en la mayoria de las ocasiones resulta més eficaz “condensar” dicha informacién en algunos nximeros que la expresen de forma clara y concisa. Los fenémenos biolégicos no suelen ser constantes, por lo que serd ne- cesario que junto a una medida que indique el valor alrededor del cual se agrupan los datos, se asocie una medida que haga referencia a la variabili- dad que refieje dicha fiuctuacién. Por tanto el siguiente paso y objeto de este capitulo consistiré en definir algumos tipos de medidas (estadisticos o pardmetros) que los sintetizan atin més Es decir, dado um grupo de datos organizados en una distribucién de freeuencias (0 bien una serie de observaciones sin ordenar), pretendemos describirlos mediante dos 0 tres cantidades sintéticas, En este sentido pueden examinarse varias caracterfsticas, siendo las més + La tendencia central de los datos; 40 Bioestadistica: Métodos y Aplicaciones + La dispersién o variacién con respecto a este et = Los datos que ocupan ciertas posiciones. = La simetria de los datos. = La forma en la que los datos se agrupan. contro Dispersién Posiciin Asimetrla LO Figura 2.1; Medidas representativas de un conjunto de datos estadisticos A lo largo de este capitulo, y siguiendo este orden, iremos estudiando los estadisticos que nos van a orientar sobre cada uno de estos niveles de informacién: valores alrededor de los cuales se agrupa la muestra, la mayor o menor fiuctuacién alrededor de esos valores, nos interesaremos en ciertos valores que marcan posiciones caracteristicas de una distribucién de frecuencias as{ como su simetrfa y su forma, 2.2. Estadisticos de tendencia central Las tres medidas més usuales de tendencia central son: = la media, = la mediana, = la moda. 2.2, ESTADISTICOS DE TENDENCIA CENTRAL 41 En ciertas ocasiones estos tres estadisticos suelen coincidir, aunque gene- ralmente no ¢s asf. Cada uno de ellos presenta ve precisaremos més adelante, En primer ugar vamos a definir los conceptos itajas ¢ inconvenientesque 2.2.1, La media La media aritmética de wna variable estadistica es la suma de todos sus posibles valores, ponderada por las frecuencias de los mismos. Es decir, si la tabla de valores de una variable X es Xm fh am fi eM Se la media es el valor que podemos escribir de las siguientes formas equiva lentes: = afit...+2 fe 1 = Flim +..-zem) ie = - Yan ne Si los datos no estan ordenados en una tabla, entonces Algunos inconvenientes de la media La media presenta inconvenientes en algunas situaciones: 42 Bioestadistica: Métodos y Aplicaciones = Uno de ellos es que es muy sensible a los valores extremos de la variable: ya que todas las observaciones intervienen en el céleulo de la media, la aparicién de una observacién extrema, hard que la media se desplace en esa direceién. En con: = no es recomendable usar la media como medida central en las distri- buciones muy asimétricas; * Si consideramos una variable discreta, por ejemplo, el ntimero de hijos en las farnilias espariolas el valor de la media puede no pertenecer al conjunto de valores de la variable; Por ejemplo 7 = 1, 2 hijos. Otras medias: Medias generalizadas En funcién del tipo de problema varias generalizaciones de la media pueden ser consideradas. He aqui algunas de ellas aplicadas a unas observaciones a, + tn! La media geométrica Z,, es la media de los logaritmos de los valores de la variable: logry +... + log ty va Van tn Si los datos est4n agrupados en una tabla, entonces se tiene: z= tap ay La media arménica Zz, se define como el recfproco de la media aritméti- ca de los reeiprocos, es decir 2.2, ESTADISTICOS DE TENDENCIA CENTRAL 43, Por tanto, La media cuadratica Z,, es la rafz cuadrada de la media aritmética de los cuadrados: m7 2.2.2. La mediana Consideramos una variable discrota X cuyas observaciones en una tabla estadistica han sido ordenadas de menor a mayor. Llamaremos mediana, ‘Mq al primer valor de la variable que deja por debajo de si al 50% de las observaciones Trane. Someantes Figura 2.2: Céleulo geométrico de la mediana En el caso de variables continuas, las clases vienen dadas por intervalos, y aqué la f6rmula de la mediana se complica un poco més (pero no demasia- do): Sea (l;-1, i] el intervalo donde hemos encontrado que por debajo estén 44 Bioestadistica: Métodos y Aplicaciones €1 50% de las observaciones. Entonces se obtiene la mediana a partir de las frecuencias absolutas acumuladas, mediante interpolacién lineal (teorema de Thales) como sigue (figura 2.2) CC’ _ BB AG ~ AB | a (2.2) Esto equivale a decir que la mediana divide al histograma en dos partes de reas iguales a } Propiedades de la mediana ntre las propiedades de la mediana, vamos a destacar las siguientes: = Como medida descriptiva, tiene la ventaja de no estar afectada por las observaciones extremas, ya que no depende de los valores que toma la variable, sino del orden de las mismas. Por ello es adecuado su uso en distribuciones asimétricas. + Es de Aleulo répido y de interpretacién sencilla + A diferencia de la media, la mediana de una variable discreta es siem- pre un valor de la variable que estudiamos (ej. La mediana de una variable ntimero de hijos toma siempre valores enteros). Un ejemplo de célculo de mediana Sea X uma variable discreta que ha presentado sobre una mm modalidades X~ 2,5, 912 F=7, Maa? 2.2, ESTADISTICOS DE TENDENCIA CENTRAL 45, Si cambiamos la iiltima observacién por otra anormalmente grande, esto no afecta a la mediana, pero si a la media: X~92,5,7,9,125 > F= 29,6, Mea =7 En este caso la media no es un posible valor de la variable (discreta), y se ha visto muy afectada por la observacién extrema. Este no ha sido el caso para la mediana, Un ejemplo de célculo de media y mediana Obtener la media aritmética y la mediana en la distribucién adjunta, Determinar gréficamente cual de los dos promedios es mas significativo. Ty 0-10 60 10-20 80 20-30 30 30-100 20 100-500 10 Solucién: ial mat Mn 0-10 oo 10 5 60 60 w-2 «80 «= 15 14080 20-30 3010 170 30 30-100 20 70 65 190 2,9 100-500 10 400-300 3.000 200 0,25 100 Dain La media aritmética es; 550 5 Ba Bp 78278 mera frecuencia absoluta acumulada que supera el valor n/2 = 100 es N; = 140. Por ello el intervalo mediano es [10; 20). Ast: 46 Bioestadistica: Métodos y Aplicaciones 100 ~ 60 a= 104 x 10 = 15 0+ 0=15 ot hat Para ver la representatividad de ambos promedios, reatizamos el histograma de la figura 2.3, y observamos que dada la forma de la distribucién, la mediana es mas representativa que la media, 80 60 30 0 10 2 30 100 Figura 2.3: Para esta distribucién de frecuencias es mas representativo usar como estadistico de tendencia central la mediana que la media. 2.2.3, La moda ‘Llamaremos moda a cualquier maximo relativo de la distribucién de fre- cuencias, es decir, cualquier valor de la variable que posea una frecuencia mayor que su anterior y su posterior. Observacién De la moda destacamos las siguientes propiedades = Es muy fécil de caleular = Puede no ser tinica, 2.2, ESTADISTICOS DE TENDENCIA CENTRAL 47 Cuadro 2.1: Resumen de las medidas de posicién centrales MEDIDAS DE TEND! cia GI NTRAL DATOS SIN AGRUPAR DATOS AGRUPADOS Interv. ar (ordenados) bh mm hh om m Phy By oy BN kak th ome NM tin matte Mep1a Primera observacién que deja debajo de sf estricta- mente a las (N/2] observa- Vina ciones menores: zjx7/2]41 Mova | Mgia = 2: de mayor frecuencia | Mods 2.2.4. Relacién entre media, mediana y moda En el caso de distribuciones unimodales, la mediana esté con frecuencia comprendida entre la media y la moda la media). incluso més cerca, En distribuciones que presentan cierta inclinacién, es més aconsejable €] uso de la mediana, Sin embargo en estudios relacionados con propésitos stad ‘cos y de inferencia suele ser més apta la media. 48. Bioestadistica: Métodos y Aplicaciones 2.3. Estadisticos de posicién Los estadisticos de posicién van a ser valores de la variable caracte- rizados por superar a cierto porcentaje de observaciones en la poblacién (o muestra). Tenemos fundamentalmente a los percentiles como medidas de posicién, y asociados a ellos veremos también los cuartiles, deciles y cuartiles, Percentiles Para una variable disereta, se define el percentil de orden k, como la observacién, Py, que deja por debajo de si el &% de la poblacién. Véase la figura 2.4, Esta definicién nos recuerda a la mediana, pues como conse- cuencia de la definicién es evidente que Mea = Poo Peso do 100 individuos 3 8 ha Py Pn Pas Bs Bp rappin © 0 0 0 0 0 Figura 2.4: Percentiles 25, 50 y 75 de una variable. Los que se muestran dividen a la muestra en cuatro intervalos con similar méimero de individuos y reciben también el nombre de cuartiles. 2.3, ESTADISTICOS DE POSICIO! 49 En el caso de una variable continua, el intervalo donde se encuentra Py € (42,4), se calcula buscando el que deja debajo de si al &% de las obser- vaciones. Dentro de él, Pi, se obtiene segiin la relacién: no Na Py = + 00g, (2.3) Cuartiles Los cuartiles, Q1, son un caso particular de los perc definen como: tiles. Hay 3, y se Q = Ps (24) Q: = Poo = Mes (2.5) Qs = Ps (26) Deciles Se definen los deciles como los valores de la variable que dividen a las observaciones en 10 grupos de igual tamaiio. Mas precisamente, definimos Dy,Da, «.., Dy como Dy = Prox Ejemplo de célculo de cuartiles con una variable discreta Dada la siguiente distribucién en el miimero de hijos de cien familias, calcular sus cuartiles. 50 Bioestadistica: Métodos y Aplicaciones nm NG mu if 10 15 26 20 15 100 100 newer ols Solucién: 1. Primer cuartil: a 5; Primera N; > n/4 = 39; luego Q1 = 2 2, Segundo cuartil: an 50; Primera Nj > 2n/4 = 65; luego Q2 3. Tercer enartil: 3an SP = 75: Primera Nj > 3n/4 = 85; luego Qs = Ejemplo Caloular los cuartiles en la siguiente distribucién de wna variable conti- My 10 22 34 44 Bt 2.3, ESTADISTICOS DE POSICION Solucién: 1, Primer cuartil [= 1275; Primera N; > m/d = 22; La linea i es la del intervalo [1;2) 12,75 - 10 12 O=b1+t—ay= x1=1,23 2. Segundo cuartil: an = 25,5; Primera Nj > 2n/d = 34; La linea ies la del intervalo (2;3) 25,5—22 y= haa + SE x12, 2 x 9 3. Tercer cuartil = 38,25; Primera N; > 3n/4— 44; La linea i es la del intervalo (3;4) Ejemplo de calculo de cuartiles con una variable continua Han sido ordenados los pesos de 21 personas en la siguiente tabla: 52 Bioestadistica: Métodos y Aplicaciones Tatervalos fa. Encontrar aquellos valores que dividen a los datos en 4 partes con el mismo mimero de observaciones. Solucién: Las cantidades que buscamos son los tres cuartiles: Q:, Q2 y Qs. Para calcularlos, le afiadimos a la tabla las columnas con las frecuen- cias acumuladas, para localizar qué intervalos son los que contienen a los cuartiles buseados: Bo 8 ‘Q1 y Q2 se encuentran en el intervalo 45—52 2 5 5259, ya que Nj = 12 es la primera 52—59 7 12 3 Q), Qs faa. que supera a 21 -1/d y 21-2/4 5966 3 15 Qs est en 66-—73, pues Ny = 21 es 6673 6 21 35 _ el primer N, mayor que 21-3/4 2 Asf se tiene que: 21= 5,25 i=3O) = 52,25 21= 10,5 i=34Q) = 87,5 2.3, ESTADISTICOS DE POSICION 3 21= 15,75 + 1= 5 Os 66,875 Obsérvese que Q2 = Mea. Esto es Iigico, ya que la mediana divide a la distribucién en dos partes con el mismo miimero de observaciones, y Q2, hace lo mismo, pues es deja a dos cuartos de los datos por arriba y otros dos euartos por abajo, Ejemplo La distribucién de una variable tiene por poligono acumulativo de fre- cuencias el de la figura 2.5. Si el mimero total de observaciones es 50: 1, Elaborar una tabla estadistica con los siguientes elementos: intervalos, mareas de clase, frecuencia absoluta, frecuencia absoluta acumulada, frecuencias relativa y frecuencias relativa acumulada, 2, Cudntas observaciones tuvieron tn valor inferior a 10, cudntas inferior a 8 y cuéntas fueron superior @ 11 3. Determine los cuartiles. Solucién: 1, En [a siguiente tabla se proporciona la informacién pedida y algunos célculos auxiliares que nos permitiran responder a otras cuestiones. Tntervalos my 0-5 10 32 5-7 25 2 125 7-12 5 40 Bo 12-15 10 50 73,33 2. Calculemos el niimero de observaciones pedido: 54 Bioestadistica: Métodos y Aplicaciones 02 ° 5 2 15 Figura 2.5: Diagrama acumulado de frecuencias relativas. Tale 5 5 5 3x 7a 10 zs % 3 27 tS 10 + 25+3 = 38 observaciones tomaron un valor inferior a 10 Taz 5 5 5 1x5) Tas 2 1 x ar) 10 + 2541 = 36 observaciones tomaron un valor inferior a 8 Tal2 5 4 8 5 Tall 2 50 -(10 + 254-4) = 60-39=11 observaciones tomaron un valor superior a 11 3. Cuartiles: 2.4, MEDIDAS DE VARIABILIDAD O DISPERSIO, /4 — Nj. 5 = 35 Q3 = hs 2.4. Medidas de variabilidad o dispersién Los estadisticos de tendencia central 0 posicién nos indican donde se sitvia un grupo de puntuaciones. Los de variabilidad o dispersién nos indican si esas puntuaciones o valores estén préximas entre sf 0 si por el contrario estén o muy dispersas. 2.4.1, Rango Una medida razonable de la variabilidad podria ser la amplitud 0 ran- go, que se obtiene restando el valor mas bajo de um conjumto de observa- ciones del valor més alto. Propiedades del rango «Es {cil de calcular y sus unidades son las mismas que las de la varia- ble. + No utiliza todas las observaciones (s6lo dos de ellas); = Se puede ver muy afectada por alguna observacién extrema; + El rango aumenta con el mimero de observaciones, 0 bien se queda igual. En cualquier caso nunca disminuye. 2.4.2. Varianza La varianza, S?, se define como la media de las diferencias cuadrsticas de n puntuaciones con respecto a su media aritmética, es decir SS? = = S7(a,- 2)? (2.7) 56 Bioestadistica: Métodos y Aplicaciones medida es siempre una cantidad positiva, con propiedades intere- sante para la realizacién de inferencia estadistica. Como sus unidades son las del cuadrado de la variable, es més sencillo usar su raiz cuadrada, que es la que vemos en la siguiente seccién. 2.4.3, Desviacién tipica o estandar La varianza no tiene la misma magnitud que las observaciones (ej. si las observaciones se miden en metros, la varianza lo hace en metros cuadrados. Si queremios que la medida de dispersién sea de la misma dimensionalidad que las observaciones bastard con tomar su rafz cuadrada. Por ello se define la desviacién tipica, S, como Sav 2.4.4, Ejemplo de calculo de medidas de dispersién. Calcular el rango, varianza y desviacién tipica de las siguientes canti- dades medidas en metros: 3,3,4,4,5 Solucién: El rango de esas observaciones es la diferencia entre la mayor y menor de ellas, es decir, 5—3 = 2, Para calcular las restantes medidas de dispersi specto al cual vamos a medir las diferencias. Este es la media: es necesario caleular previamente el valor con ri = (8434444 +5)/5 = 3,8 metros La varianza es: 1 S == Vx} not (3? +3? +4? 44? +5?) ~ 3,8? = 0,56 metros? siendo la desviacién tipica su raiz cuadrada: S = VS? = 756 = 0,748 metros 2.4, MEDIDAS DE VARIABILIDAD O DISPERSION 87. Propiedades de la varianza y desviacion tipica 1 Ambas son sensibles a la variacién de cada una de las puntuaciones, es decir, si ma puntuacién cambia, cambia con ella la varianza. La razén es que si miramos su definicién, la varianza es funcién de cada una de las puntuaciones. = La desviacién tipica tiene la propiedad de que en el intervalo (28,7428) U8 r+28 se encuentra, al menos, el 75% de las observaciones Incluso si tene- mos muchos datos y estos provienen de una distribucién normal (se definiré este concepto més adelante), podremos Uegar al 95 %. = No es recomendable el uso de ellas, cuando tampoco lo sea el de la media como medida de tendencia central 2.4.5. Coeficiente de variacién ‘Hemos visto que las medidas de centralizacién y dispersién nos dan infor- macidn sobre una muestra, Nos podemos preguntar si tiene sentido usar estas magnitudes para comparar dos poblaciones. Por ejemplo, si nos piden comparar la dispersién de los pesos de las poblaciones de elefantes de dos circos diferentes, S nos dard informacién itil. {Pero qué ocurre si lo que comparamos es la altura de unos elefantes con respecto a st peso? Tanto la media como la desviacién tipica, 7 y S, se expresan en las mismas unidades que la variable. Por ejemplo, en la variable altura podemos usar como unidad de longitud el metro y en la variable peso, el kilogramo, Comparar una desviacién (con respecto a la media) medida en metros con otra en kilogramos no tiene ningtin sentido, El problema no deriva sélo de que una de las medidas sea de longittd y la otra sea de masa. El mismo problema se plantea si medimos cierta cantidad, por ejemplo la masa, de dos poblaciones, pero con distintas unidades. Este es el caso en que comparamos el peso en toneladas de una poblacién de 100 elefantes con el correspondiente en miligramos de una poblacién de 50 hormigas. 58 Bioestadistica: Métodos y Aplicaciones El problema no se resuel poblaciones. Por ejemplo, se nos puede ocurrir medi a las hormigas con las mismas unidades que los elefantes (toneladas). Si la ingerierfa genética no nos sorprende con alguna barbaridad, lo légico es que la dispersién de la variable peso de las hormigas sea practicamente nula (jAunque haya algunas que sean 1,000 veces mayores que otras!) ¢ tomando las mismas escalas para ambas En los dos primeros casos mencionados anteriormente, el problema viene de la dimensionalidad de las variables, y en el tercero de la diferencia enorme entre las medias de ambas poblaciones. El coeficiente de variacidn es lo que nos permite evitar estos problemas, pues elimina la dimensionalidad de las variables y tiene en cuenta la proporcién existente entre medias y desviacién tipica. Se define del siguiente modo: Sx cy (28) Propiedades del coeficiente de variaciéu # Sélo se debe caleular para variables con todos los valores positivos. ‘Todo indice de variabilidad es esencialmente no negativo. Las ob- servaciones pueden ser positivas o nulas, pero su vatiabilidad debe ser siempre positiva. De alif que sélo debemos trabajar con variables positivas, para la que tenemos con seguridad que Z > 0. = No es invariante ante cambios de origen. Es decir, si a los resultados de una medida le sumamos una cantidad positiva, 6 > 0, para tener Y =X +6, entonces CVy < CVx. = Es invariante a cambios de escala. Ast por ejemplo el cocficiente de variacién de una variable medida en metros es una cantidad adimen- sional que no cambia si la medicién se realiza en centimetros. ‘Tipificacién Se conoce por tipificacién al proceso de restar la media y dividir por su desviacién tipica a una variable X. De este modo se obtiene ima nueva 2.5, ASIMETRIA Y APUNTAMIENTO 59 variable (2.9) de media 7 = 0 y desviaci6n tipica Sz = 1, que denominamos variable tipificada. Esta nueva variable carece de unidades y permite hacer comparables dos medidas que en un principio no lo son. Asf por ejemplo nos podemos preguntar si un elefante es mas grueso que una hormiga determinada, cada amo en relacién a su poblacién. También es aplicable al caso en que se quic- ran comparar individuos semejantes de poblaciones diferentes, Por ejemplo si deseamos comparar el nivel académico de dos estudiantes de diferentes Universidades para la concesién de una beca de estutdios, en principio serfa injusto concederla directamente al que posea una nota media més elevada, ya que la dificultad para conseguir uma buena calificacién puede ser mucho ‘mayor en un centro que en cl otro, lo que limita las posibilidades de uno de los estudiante y favorece al otro. En este caso, lo més correcto es comparar las calificaciones de ambos estudiantes, pero tipificadas cada una de ellas por las medias y desviaciones t{picas respectivas de las notas de los alumnos de cada Universidad. No confundir cocficiente de variacién y tipificacién Los coefientes de variacién sirven para comparar las variabilidades de dos conjuntos de valores (muestras o poblaciones), mientras que si deseamos comparar a dos individuos de cada uno de esos conjuntos, es necesario usar los valores tipificados. Ninguno de ellos posce unidades y es un error frecuente entre estudiantes de bioestadistica confundirlos. 2.5. Asimetria y apuntamiento Sabemos e6mo calcular valores alrededor de los cuales se distribuyen las observaciones de wna variab la dispersién que ofrecen los mismos con respecto al valor de central. Nos sobre una muestra y sabemos cémo caleular 60 Bioestadistica: Métodos y Aplicaciones proponemos dar un paso més alld en el andlisis de la variable. En primer lugar, nos vamos a plantear el saber si los datos se distribuyen de forma simétrica con respecto a un valor central, o si bien la gréfica que representa la distribucién de frecuencias es de una forma diferente del lado derecho que del lado izquierdo. Si la simetrfa ha sido determinada, podemos preguntarnos si la curva es ms 0 menos apuntada (larga y estrecha). Este apuntamiento habré que meditlo comparado a cierta distribucién de frecuencias que consideramos normal (no por casualidad es éste el nombre que recibe la distribucién de referencia) Estas ideas son las que vamos a desarrollar en lo que resta del capitulo, 2.5.1, Estadisticos de asimetria Para saber si una distribucidn de frecuencias es simétrica, hay que precisar con respecto a qué. Un buen candidato es la mediana, ya que para variables continuas, divide al histograma de frecuencias en dos partes de igual area Podemos basarnos en ella para, de forma natural, decir que una distri- bucién de frecuencias es simétrica si el lado derecho de Ia grfica (a partir de la mediana) es la imagen por un espejo del lado izquierdo(figura 2.6), Cuando la variable es discreta, decimos que es simétrica, si lo es con respecto ala media Dentro de los tipos de asimetrfa posible, vamos a destacar los dos fun- damentales: Asimetrfa positiva: Si las frecuencias més altas se encuentran en el lado inquierdo de la media, mientras que en derecho hay frecuencias mas pequefias (cola) Asimetria negativa: Cuando la cola est en el lado izquierdo. Cuando realizamos tun estudio descriptivo es altamente improbable que la distribucién de freeuencias sea totalmente simétrica, En la préctica di- remos que la distribucién de frecuencias es simétrica si lo es de um modo 2.5, ASIMETRIA Y APUNTAMIENTO 61 “ote Ae co | Figura 2.6: Distribuciones de frecuencias simétricas y asimétricas ediana aproximado. Por otro lado, atin observando cuidadosamente la gréfica, po- demos no ver claro de qué lado estn las frecuencias mas altas. Se definen entonces toda una familia de estadisticos que ayuden a interpretar la asi- metria, denominados indices de asimetrfa. El principal de ellos es el momento central de tercer orden que definimos a continuacién. Momento central de tercer orden Sea X una variable cuantitativa y p € IV. Llamamos momento de orden pai mide 2.10) Se denomina momento central de orden p a la cantidad 62 Bioestadistica: Métodos y Aplicaciones mp = tye zy (2.11) Los momentos de orden p impar, son siempre mulos en el caso de va- riables simétricas, ya que para cada i que esté a un lado de la media, con (x —) <0, le corresponde tna observacién j del otro lado de la media tal que (1; —7) = ~(x—7). Elevando cada uma de esas cantidades a p impar, y sumando se tiene que my =0 sila distribucién es simétrica, Si la distribucién fuese asimétrica positiva, las cantidades (2, 3 impar positivas estarian muy aumentadas al elevarse a p. Esta propiedad nos indica que un indice de asimetrfa posible consiste en tomar p = 3 y clegir como estadistico de asimetria al momento central de tercer orden. zy, con p > Apoyandonos en este indice, diremos que hay asimetrfa positiva si as > 0, y que la asimetria es negativa si as <0. indice basado en los tres cuartiles (Yule-Bowley) Si una distribucién es simé vaciones entre la que deja por debajo de si las tres cuartas partes de la Aistribucidn y la mediana, como entre la mediana y la que deja por debajo de s{ un quarto de todas las observaciones. De forma abreviada esto es, Hea, es claro que deben haber tantas obser- Qs =2-O Una pista para saber si tma distribucién de frecuencias es asimétrica positiva la descubrimos observando la figura 2.7) Q3- Q2 > 2-91 Por analogia, si es asimétrica n¢ iva, se tendra Q3— Q2 < Q- Q) 2.5, ASIMETRIA Y APUNTAMIENTO 63 Para quitar dimensionalidad al problema, utilizamos como indice de asi metréa la cantidad (Q3 ~ Q2) — (Q2 - Qi) AO (212) Bs elaro que : a1 0 y negativa si A, <0 Coot. Asim. ~0 Coot. Asim >0 aaa aa a i as Figura 2.8: Diferencias entre las medidas de tendencia central, o bien entre las distancias entre cuartiles consecutivos indican asimetrfa Ejemplo Las edades de un grupo de personas se reflejan en Ia tabla siguiente: “Intervalos_ ny 7-9 4 2.5, ASIMETRIA Y APUNTAMIENTO 65, Determinar la variabilidad de la edad mediante los estadisticos varianza, desviacién tipica, coeficiente de variacién y rango intercuartilico. Estudie Ja simetrfa de la variable. Solucién: En primer lugar realizamos los cAleulos necesarios a partir de la tabla de frecuencias: 4 32 256 18 22 180 1.800 M 36 161 1.881,5 27 63° 3375 4.218,75 105 507 7.654,5, 136 449,85 6.517,75 156 320 5.120 1s7__18 324 065 _27.742,25 La media es F partir de la columna de la 22n, como sigue 2,065/157 — 13,15 afios. La varianza la caleulamos a S? = 27,742, 26/157 ~13, 15? = 3,78 aiios? => S= V3,78=1,94 El coeficiente de variacién no posee unidades y es: cy— = 0,15 = 15% de variabilidad. 13,15 En lo que concierne a la simetrfa podemos utilizar el coeficiente de asimetria de Yule-Bowley, para el cual es preciso el céleulo de los cuartiles: 39,25 ~ 36 = 2+ Ma = 92 =134 8 66 Bioestadistica: Métodos y Aplicaciones 117,75 — 105 y= 44 PET 108 for aa Lo que nos dice que aproximadamente en um rango de Q3 ~ Q; = 2,29 aiios se encuentra el 50% central del total de observaciones’ Ademés: (5 = @2) = (2 = 1) _ (04,41 = 18,37) = 03,37= 12,12) 4 og =O wala Este resultado nos indica que existe una ligera asimetrfa a Ia inquierda (negativa). Un resultado similar se obtiene si observamos (Figura 2.9) que la distribucién de frecuencias es unimodal, siendo la moda: 42-27 134 3+ Bate Moda = on cuyo caso podemos usar como medida del sesgo: Moig _ 13,15 ~ 13,57 A S Tot 0,21 2.5.2, Estadisticos de apuntamiento Se define el coeficiente de aplastamiento de Fisher (curtosis) como: donde m4 es el momento empitico de cuarto orden, Es éste un coeficiente adimensional, invariante ante cémbios de escala y de origen. Sirve para medir si uma distribucién de frecuencias es muy apuntada 0 no. Para decir sila distribucién es larga y estrecha, hay que tener un patrén de referencia. El patrén de referencia es Ia. distribucién normal o gaussiana’ para la que ‘Eso hace que dicha cantidad sea usada como medida de dispersién, denominindose rango intercuartilico Sora introducida posteriormente 2.5, ASIMETRIA Y APUNTAMIENTO 67 Figura 2.9: La distribucién de frecuencias de la edad presenta una ligera asimetria negativa. De este modo, atendiendo a 7p, se clasifican las distribuciones de frecuencias Leptocirtica: Cuando 72 > 0, 0 sea, si la distribucién de frecuencias es més apuntada que la normal; Mesoctirtica: Cuando 72 = 0, es decir, cuando la distribucién de frecuen- Gias es tan apuntada como la normal; Platictirtica: Cuando 72 < 0, 0 sea, si la distribucién de frecuencias es menos apuntada que la normal; 68 Bioestadistica: Métodos y Aplicaciones om is A Figura 2.10: Apuntamiento de distribuciones de frecuencias 2.6. Problemas Ejercicio 2.1. En el siguiente conjunto de ntimeros, se proporcionan los pesos (redondeados a la libra més préxima) de los b um cierto intervalo de tiempo en um hospital: ‘s nacidos durante 4,8, 4, 6, 8, 6, 7, 7, 7, 8, 10, 9, 7, 6, 10, 8, 5, 9, 6, 3, 7, 6, 4, 7, 6,9, 7, 4,7, 6,8, 8,9, 11,8, 7, 10, 8, 5, 7, 7, 6, 5, 10, 8, 9, 7, 5, 6, 5, 1. Construir una distribucién de frecuencias de estos pesos. 2, Encontrar las frecuencias relativas. 3. Encontrar las frecuencias acummladas, 4, Encontrar las frecuencias relativas acumuladas. 5. Dibujar un histograma con los datos de la parte a. 6. {Por qué se ha utilizado un histograma para representar estos datos, on lugar de una gréfica de barras? Calcular las medidas de tendencia central 2.6, PROBLEMAS 69 8. Caleular las medidas de dispersién. 9. Caleular las medidas de forma. 10. {Es esta una distribucién sesgada? De ser asf, jen qué direccién? 11. Encontrar el percentil 24. Ejercicio 2.2. A continuacién se dan los resultados obtenidos con una muestra de 50 universitarios. la caracterfstica es el tiempo de reaccién ante um estimulo auditivo: 0110 0,110 0,126 O17 0,113 0,098 0,122 0,105 0,103 0,119 0,100 0,117 0,113 0,124 0,118 0,132 0,108 0,115 0,120 0,107 0,123 0,109 O1I7 0,111 0,112 0,101 0,112 0,111 0,119 0,103 0,100 0,108 0,120 0,099 0,102 0,129 0,115 0,121 0,130 0,134 0,118 0,106 0,128 0,094 0,1114 1. {Cnal es la amplitud total de la distribucién de los datos? 2. Obtenga la distribucién de frecuencias absolutas y relativas, 3. Obtenga la distribucién de frecuencias acumuladas, absolutas y rela- tivas, con los intervalos anteriores, 4, Calcular la media y la varianza con los intervalos del apartado b y después calculense las mismas magnitudes sin ordenar los datos en una tabla estadistica.Con qué método se obtiene mayor precisién? Dibuje el polfgono de frecencias relativas. 6. Dibuje el poligono de frecuencias relativas acumuladas, Ejercicio 2.3. Con el fin de observar la relacién entre Ia inteligencia y el nivel socioeconémico (medido por el salario mensual familiar) se tomaron dos grupos, uno formado con sujetos de cociente intelectual inferior a 95 70 Bioestadistica: Métodos y Aplicaciones y otro formado por los demas; De cada sujeto familiar. Teniendo en cuenta los resultados qu anoté el salario mensual se indican en la tabla: Sujetos, T<95_ Sujctos T= Frecuencia Frecuencia 75 19 35 26 20 25 30 30 28 - 34 25 54 15 46 1. Dibuje un gréfico que permita comparar ambos grupos 2. Caleule las medidas de tendencia central para aquellos sujetos con Cl <9, 3. Caleular las medidas de dispersién para aquellos sujetos con CI > 95. Bjercicio 2.4. Un estudio consistié en anotar el mimero de palabras lefdas en 15 segundos por un grupo de 120 sujetos disléxieos y 120 individuos normales. Teniendo en cuenta los resultados de la tabla V° de palabras lefdas Disléxicos np _Normales ny 25 0 menos =25 Ey T 26 24 9 7 16 a 28 12 29 29 10 28 30.0 mas =s0 2 32. caleule: 1, Las medias aritméticas de ambos grupos. 2. Las medianas de ambos grupos. 2.6, PROBLEMAS 7 3. El porcentaje de sujetos disléxicos que superaron la mediana de los normales. 4. Compare la variabilidad relativa de ambos grupos. Ejercicio 2.5. La tabla siguiente muestra la composicién por edad, sexo y trabajo de un grupo de personas con tuberculosis pulmonar en la provincia de Vizcaya en el ao 1979: Edad “Trabajadores No trabajadores Totales Veron Mujer Total [Vardn Mujer Total | Varon_ Mujer_ Total To 2 T 3] 2 + & 7 i OB 19-24) 10 4 14] 20 36 56] 30 40 70 2429] 32 a2] 80S 60 107 roa} 47 12 59) 18 aT 6D A618, 3439] 38 8 46] 10 2 35] 48 33 81 3944 | 22 4% 7s] 9 1. Representar gréficamente la distribucién de frecuencias de aquellas personas trabajadoras que padecen tuberculosis. 2. Representar gréficamente la distribucién de frecuencias de los varones no trabajadores que padecen tuberculosis. 3. Representar grdficamente la distribucién de frecuencias del mimero 6 total de mujeres que padecen tuberculosis. {Cual es la edad en la que se observa con mayor frecuencia que no trabajan los varones? ;¥ las mujeres? Determinar asfmismo la edad més frecuente (sin distincién de sexos ni ocupacién) {Por debajo de qué edad esta el 50% de los varones? iPor encima de qué edad se enc entra el 80% de las mujeres? Obtener la media, mediana y desviacién tipica de la distribucién de las edades de la muestra total. Estudiar la asimetria de las tres distribuciones. 72 Bioestadistica: Métodos y Aplicaciones Ejercicio 2.6. En una epidemia de escarlatina, se ha recogido el niimero de muertos en 40 eiudades de un pais, obteniéndose la siguiente tabla: Ne demucrtos[O 1 2 Gindades 7 i 10 Representar gréficamente estos datos. Obtener la distribucién acumulada y representarla. Caleular media, mediana y moda. Caleular la varianza y la desviacién tipica Porcentaje de ciudades con al menos 2 muertos. Porcentaje de ciudades con més de 3 muertos, Porcentaje de ciudades con a lo sumo 5 muertos

Anda mungkin juga menyukai