Anda di halaman 1dari 9

APUNTES DE ESTADSTICA. Rafael Cuena Boy. Farmacologa Clnica. Complejo Hospitalario de Toledo. Espaa.

OBJETIVOS Y JUSTIFICACIN PARTE I PROPSITO DEL TRATAMIENTO ESTADSTICO DE LOS DATOS. MEDICIN, PRESENTACIN Y CODIFICACIN DE VARIABLES I.1 Finalidad de la Estadstica I. 2 Variables y escalas de medicin I.3 La "Precisin" de las variables I.4 Redondeo de valores de las variables I.5 La tabla de datos de un estudio I.6 Identificacin de outliers PARTE II LA DESCRIPCIN DE UN GRUPO DE DATOS. II.1 La descripcin de un grupo II.2 La tabla de distribucin de frecuencias II.3 Grficos II.4 ndices de tendencia central II.5 ndices de posicin o de frecuencia relativa acumulada y de dispersin PARTE III INFERENCIA ESTADSTICA. CONCEPTOS Y ESTIMACIN DE VALORES POBLACIONALES III.1 La Inferencia Estadstica III.2 El error de muestreo III.3 Distribuciones muestrales o en el muestreo de los estadsticos III.4 Intervalos de confianza - Estimacin de valores poblacionales III.5 Intervalo de confianza de una media cuando no se conoce la DS poblacional- mtodo clsico III.6 Contrastes de hiptesis - La significacin de un valor muestral III.7 Metodos clsicos de Inferencia Estadstica y mtodos basados en simulaciones informticas III.8 Relacin entre intervalos de confianza y contrastes de hiptesis PARTE IV LA COMPARACIN ENTRE DOS MUESTRAS IV.1 Muestras independientes y muestras relacionadas IV.2 La comparacin entre dos proporciones independientes IV.3 La comparacin entre dos proporciones independientes - Prueba de la Chi cuadrado IV.4 La comparacin entre dos proporciones relacionadas - Prueba de McNemar IV.5 La estimacin de la diferencia entre dos proporciones - Intervalo de confianza IV.6 La comparacin entre dos medias - Pruebas "Z" y "t de Student" para muestras independientes y relacionadas IV.7 La estimacin de la diferencia entre dos medias - intervalo de confianza IV.8 Los mtodos no paramtricos para la comparacin entre dos muestras PARTE V CLCULO DEL TAMAO MUESTRAL. EL ERROR ESTADSTICO DE TIPO II V.1 El error estndar V.2 El clculo del tamao muestral para la estimacin de valores poblacionales - Intervalos de confianza V.3 El clculo del tamao muestral para un contrastes de hiptesis V.4 La probabilidad de un error estadstico de tipo II () - Interpretacin de un contraste no significativo PARTE VI CORRELACIN. REGRESIN. ESTIMACIONES AJUSTADAS VI.1 la correlacin VI.2 la regresin VI.3 Correlacin y regresin - inferencia estadstica VI.4 Estimaciones ajustadas RECURSOS INFORMTICOS GRATUITOS Y MANUALES

Rafael Cuena Boy. Farmacologa Clnica. Complejo Hospitalario de Toledo. Espaa.

Finalmente, las reglas de codificacin y el significado de los nombres de las variables pueden grabarse en el propio fichero de datos, pero claramente separados de las filas en que comienzan los cdigos de los valores de las variables. En todo caso, deben tomarse las precauciones necesarias para que no se pierdan las instrucciones que se han seguido para la codificacin ni la clave de identificacin de los individuos, de forma que sea posible, si es necesario (p. ej. para descartar o corregir errores, para inspeccin administrativa, etc.) relacionar cada registro de la tabla de datos con los datos, informacin y documentos originales correspondientes. I.5 IDENTIFICACIN DE OUTLIERS:

Un outlier es un valor extremo que "llama la atencin" debido a la existencia de un intervalo vaco grande, sin observaciones, entre l o ellos y los valores del conjunto de los datos. Por ejemplo, en el histograma representado en la figura 1de la segunda parte de estos apuntes se identifican dos casos separados de los dems datos en el extremo superior de la distribucin; esas dos observaciones pueden considerarse outliers. Adems, los outliers pueden ser identificados tambin mediante diversas tcnicas estadsticas (en el epgrafe sobre grficos se describe un posible criterio para identificar y representar outliers en un "grfico de caja"). Los outliers son con frecuencia resultado de errores durante la medicin o transcripcin de la informacin. Tambin pueden deberse a la inclusin en el estudio de individuos heterogneos, que no se ajustan a los criterios de seleccin establecidos. Cuando se tiene la seguridad de que un outlier (u otro dato, claro) es un error lo que hay que hacer es corregirlo o, si no es posible, eliminarlo. A veces el valor del dato es imposible (p. ej., en un estudio con adultos, un peso del paciente de 8,7 Kg) o se trata de alguna otra equivocacin obvia, pero en muchas otras ocasiones es difcil llegar a saber con seguridad si el outlier es un error o un valor atpico pero correcto. El problema que plantean los outliers es que unos pocos de ellos pueden llegar a afectar de manera importante a los ndices y estadsticos que, como la media o el coeficiente de correlacin de Pearson, son sensibles a los valores extremos, o empeorar el ajuste de los modelos estadsticos utilizados para el anlisis (p. ej, como en el ANOVA o en la regresin lineal). En general, no se debe eliminar o excluir un dato de un anlisis slo porque sea un outlier y empeore el ajuste del modelo que se est utilizando o parezca afectar a los resultados de una manera no conveniente. En caso de que suceda esto, se deben utilizar mtodos alternativos de anlisis que sean menos afectados por los outliers, como los basados en medianas y percentiles y las tcnicas estadsticas no paramtricas. Tambin cabe la posibilidad de probar diversas transformaciones matemticas de los datos, a fin de encontrar alguna que reduzca los efectos de los valores extremos. PARTE II: LA DESCRIPCIN DE UN GRUPO DE DATOS. II.1 LA DESCRIPCIN DE UN GRUPO:

La finalidad es elaborar ndices resumen que permitan juzgar tanto la posicin de un individuo dentro del grupo como la del grupo con respecto a otros. As mismo, son importantes la forma de la distribucin y la dispersin de los valores. Los instrumentos utilizables con estos propsitos son las tablas de frecuencias, las grficas y los ndices de tendencia central, de posicin o de frecuencia relativa acumulada y de dispersin. II.2 LA TABLA DE DISTRIBUCIN DE FRECUENCIAS:

til con variables medidas con cualquier tipo de escala, resume los datos e informa sobre la forma y dispersin de la distribucin casi sin prdida de detalle, pues a partir de una tabla de distribucin de frecuencias bien construida es posible calcular cualquier estadstico que interese. Consiste en una tabla que incluye la frecuencia absoluta, o nmero de individuos en que aparecen los valores de la variable dentro del grupo o muestra, y la relativa, o porcentaje (o proporcin) que supone ese nmero sobre el total de individuos del grupo. En el caso de variables nominales, binarias y dicotmicas lo habitual es que en la tabla se recoja la frecuencia de cada uno de sus valores. Pero en el caso de variables cuantitativas suele ser necesario dividir el recorrido de los valores en intervalos, llamados clases, ya que de lo contrario se obtiene una tabla con muchos valores distintos y cada uno de ellos con una frecuencia muy pequea, lo cual ni resume la informacin ni muestra el "patrn" de la distribucin. El contenido de las tablas de frecuencia y de cualquier otra debe ser fcilmente identificable y comprensible; para ello, no deben ser excesivamente complejas o contener demasiada informacin y los ttulos, encabezamientos y unidades de medida (si las hay) tienen que ser claros; as mismo, los valores totales y la base de los porcentajes (si los hay) deben figurar y ser fcilmente identificables. En la tabla 1 figura un ejemplo de distribucin de frecuencias de una variable ordinal.

Rafael Cuena Boy. Farmacologa Clnica. Complejo Hospitalario de Toledo. Espaa.

Tabla 1: Tabla de distribucin de frecuencias Estadio tumoral Valores acumulativos Estadio TNM Frecuencia Porcentaje Frecuencia Porcentaje I II IIIA IIIB IV 51 27 18 36 68 25,5 13,5 9,0 18,0 34,0 51 78 96 132 200 25,5 39,0 48,0 66,0 100,0

II.3

GRFICOS:

Mientras que con buenas grficas y tablas se consigue presentar la informacin de manera ms clara que con texto, tambin es cierto lo contrario, pues si no son correctamente realizadas puede confundir totalmente al lector. El propsito de las grficas es facilitar que el destinatario perciba la informacin relevante de forma inmediata; por tanto, no deben exigir al lector un proceso de meditacin concentrada para interpretar y comprender lo representado. Al realizar una grfica, se debe evitar toda complejidad que no aada informacin til (p. ej., una falsa tercera dimensin), hay que rotular los ejes e indicar la unidades de medida y es preferible que las escalas comiencen por cero, ya que de lo contario se transmite fcilmente una impresin falsa (y la primera impresin trasmitida por un grfico debe ser la correcta). Hay dos tipos clsicos de grfica para la representacin de los valores de una variable en un grupo: el "histograma", para variables medidas en escala dimensional, y el "grfico de barras" para datos nominales y ordinales. En estos grficos, los valores de la variable descrita se representan en el eje de las X. Adems de estas dos clases, tambin se presentan a continuacin los grficos de "tallos y hojas", los de "sectores circulares" y los de "cajas", pues son utilizados con frecuencia, y alguno con ventaja. En la figura 1 se representa un histograma en que se recoge la distribucin de los ingresos de 295 trabajadores de determinado sector econmico. En un histograma, el recorrido de la variable se divide en un nmero adecuado de intervalos que se representan en el eje de las X, el cual tiene una escala proporcional a los valores de la variable. Sobre el segmento del eje de las X que representa los valores de cada intervalo se levanta un rectngulo cuya anchura es, por tanto, proporcional a la amplitud del intervalo representado (detalle que no debe ser olvidado en caso de que no todos los intervalos tengan el mismo tamao) y cuya altura se ajusta de forma que el rea sea proporcional a la frecuencia de los valores correspondientes, lo que constituye la propiedad definitoria de este tipo de grfico. Actualmente, los histogramas se suelen hacer mediante programas informticos que tienen implementadas por defecto las normas estndar referentes a la eleccin del nmero de intervalos, escalas, etc. normas que suelen ser adecuadas para la mayora de los casos. El histograma informa a la vez de la posicin y dispersin de los valores de una variable y de la forma de su distribucin. sta ltima puede resultar ms aparente si se unen los puntos medios de los bordes superiores de los rectngulos de cada clase con segmentos rectos, formando el grfico llamado "polgono de frecuencias" (ver la figura 5). Aunque el histograma es el medio clsicamente empleado para presentar la distribucin de datos dimensionales, lo cierto es que el nmero y la anchura de las clases representadas son arbitrarios. Adems, la confeccin de estas grficas es difcil si no se dispone de un buen programa para grficos. Pero existe una alternativa, que permite la inspeccin de la forma y dispersin de una distribucin y que no adolece de estos inconvenientes. Se trata del llamado "grfico de tallos y hojas". Para confeccionarlo, cada valor numrico se divide en dos partes, el tallo y las hojas. As, para representar los ingresos de los 295 trabajadores del ejemplo, cada valor del sueldo podra ser dividido en los miles, que seran el tallo, y las centenas, que seran las hojas. Las decenas y unidades podran despreciarse. Al lado de cada tallo, se colocan tantas "hojas" como individuos distintos del grupo compartan ese tallo (p. ej., tanto en la cantidad 2.345 como en 2.395 el tallo es "2" y las hojas son "3"; de forma que en el grfico se representaran ambas as: "2.33", como puede verse ms adelante; lo que correspndera a dos individuos que ganan cada uno entre 2.300 y 2.399 euros). Eventualmente, cada hoja puede representar ms de un caso. Como puede verse en el grfico de tallos y hojas de la figura 1, que representa los mismos datos que el histograma de esa figura, los tallos corresponden a miles de euros y cada hoja es un caso; por tanto, hay (1+4+11+21+26=) 53 personas que ganan menos de 1000 euros y, de ellas, 1 gana entre 100 y 199; 4 ganan entre 300 y 399; 11 reciben entre 400 y 599 (una entre 400 y 499 y 10 entre 500 y 599 euros), etc. La principal ventaja de este grfico es que permite reconocer la forma y dispersin de la distribucin sin distorsiones debidas a divisiones arbitrarias en clases de los valores de la variable. El grfico de barras consiste en tantas barras como valores de la variable se representen, situadas sobre un mismo eje y cuya altura es proporcional a la frecuencia del valor representado. Por tanto, le diferencia del histograma el hecho de que la anchura (y el rea) de las barras y sus posiciones sobre el eje (la distancia a que estn entre s) no representan ninguna caracterstica de los datos y obedecen nicamente a consideraciones estticas. Rafael Cuena Boy. Farmacologa Clnica. Complejo Hospitalario de Toledo. Espaa.

Es importante no confundir los grficos de barras con los histogramas. Las variables no dimensionales no pueden ser representadas adecuadamente adamente con un histograma, pues se originara la falsa nocin de que las longitudes y distancias del eje de ordenadas son representativas de alguna caracterstica relevante de los datos. A su vez, si se representa una variable dimensional con un grfico de e barras se obtiene una falsa impresin sobre la forma de la distribucin. Un grfico equivalente al de barras y, por tanto, til para datos ordinales y categricos, categricos es el grfico de sectores circulares. Se trata de un crculo dividido en tantos sectores circulares como valores distintos se representen. La frecuencia es proporcional al rea del sector. En la figura 1 se recoge un ejemplo de un grfico de barras y otro de sectores circulares que representan los datos de la tabla de frecuencias de la tabla 1. 1

Figura 1: Histograma, grfico de tallos y hojas, grfico de barras y grfico de sectores circulares

30

Frecuencia

20

10

0 10 00,00 20 00,00 30 00,00 40 00,00

Sueldo (e uros)

70

Estadio tumoral

60

50

I IV 51,00

40

68,00

30

20

II 27,00

Frecuencia

10 0 I II III A III B IV

III B 36,00

III A 18,00

Estado tumoral

Existe un tipo de grfico, llamado grfico de cajas o box plot, que se basa en cuantiles en lugar de en estadsticos paramtricos, y que informa a la vez de la posicin y dispersin del 50% de los valores centrales, de la simetra y dispersin de la distribucin y sobre los outiliers. La figura 2 es un box plot en que se representan los mismos datos que en el histograma de la figura 1. Figura 2: Grfico de caja o "box plot"
5500 5000
259

Box plot:

Los bordes superior e inferior nferior del rectngulo son el percentil 75 y 25 (3 y 1 cuartil). La altura del rectngulo corresponde al rango intercuartlico o diferencia entre percentil 3500 75 y 25; ; por tanto, el 50% de los valores centrales estn comprendidos en l. La lnea 3000 interior del rectngulo es la mediana. Las lneas verticales que parten hacia arriba y 2500 2000 abajo desde el centro de los bordes superior e inferior del rectngulo se extienden 1500 hasta el ltimo dato que no es considerado un outlier (se se pueden utilizar diferentes 1000 criterios para esta decisin, como se explica en el texto). El programa utilizado para 500 realizar el grfico seala los outliers con un smbolo distinto segn estn ms o menos 0 N= 295 alejados e identifica de el caso. Rafael Cuena Boy. Farmacologa Clnica. Complejo Hospitalario Toledo. Espaa.
289

4500 4000

Euros

Sueldo de 295 trabajadores

Los datos del box plot de la figura 2 tienen una mediana de 1494 euros y los percentiles 25 y 75 son, respectivamente, 1056 y 2151 euros. Por tanto, estos son los valores representados por los bordes superior e inferior del rectngulo y por la lnea interior. La distancia entre los percentiles 25 y 75 es 1095 euros, representados por la altura del rectngulo. En este ejemplo, para determinar la longitud de las lneas verticales, se ha utilizado el criterio propuesto por Tukey. As, se consideran outiliers los valores que estn a ms de 1,5 veces el rango intercuartlico de los bordes del rectngulo. Por arriba, por tanto, la raya vertical llega hasta 3597 euros, pues es el dato mayor de entre los que son inferiores a (2151 + 1,5 X 1095 =) 3793,5 euros (el "tope" horizontal slo tiene finalidad esttica). Por debajo la raya alcanza hasta el dato ms alejado, siempre que sea mayor que (1056 1,5 X 1095 =) -586,5 euros, lo que corresponde a un trabajador que gana 118 euros. Los dos valores externos a estos lmites son sealados como outliers (en los datos representados nadie gana menos de -586,5 euros). Tukey propone, adems, distinguir dos clases de outiliers, los que estn separados de los percentiles 25 y 75 entre 1,5 y 3 veces el rango intercuartlico y los que estn todava ms alejados. A los primeros los llama outliers "internos" y a los segundos "externos" o valores extremos; el SPSS, programa con el que se ha realizado el box plot de la figura 2, utiliza smbolos distintos para unos y otros y seala ambos con la identificacin del caso a que corresponden. Otros programas utilizan por defecto criterios distintos para los outliers. Los histogramas, polgonos de frecuencias, grficos de tallos y hojas, box plots, grficos de barras y grficos de sectores circulares son las herramientas principales para la representacin de una variable en un grupo de individuos. Tambin se pueden utilizar para representar en la misma grfica la distribucin de una variable en distintos grupos, a fin de compararlos; ello es ms fcil con polgonos de frecuencias, mediante lneas distintas para cada grupo, y con box plots contiguos que con histogramas superpuestos, en caso de datos cuantitativos, y con grficos de barras que con sectores circulares, si los datos son categricos (ver figura 3). Figura 3: Box plot y grfico de barras de dos grupos
Sueldo segn el sexo
5500 5000 4500
294 295

120 110 100 90 80 70 60

4000 3500

Nmero de individuos

3000 2500 2000 1500 1000

50 40 30 20 Hombres 10 0 No S Mujeres

Sexo

Euros

500 0
N= 188 107

Hombres

Mujeres

T itu la cin sup eri or

Adems de para representar una sola variable, tambin se utilizan las grficas para mostrar la relacin entre dos o ms de ellas. As, por ejemplo, en las llamadas grficas de supervivencia se representa la proporcin acumulada de individuos de uno o ms grupos en que ha ocurrido un evento a lo largo del tiempo; en las grficas de dispersin se representan los pares de valores de dos variables relacionadas, en las grficas de "secuencias" se recoge el valor de una variable a lo largo de intervalos de tiempo iguales, entre otras muchas posibilidades y tipos de grfico. En la figura 4 se recoge un ejemplo de cada uno de los tres tipos citados. Figura 4: Curva de supervivencia, diagrama de dispersin y grfica de secuencia.
Supervivencia
1,2

15
14 12

Casos de tuberculosis

1,0

10

10 8

Nmero de casos

,6

Duracin del ingres o (das)

,8

Proporcin acumulada

6 4 2 0 2001 2003 2005 2007 2009 2011 2012 2002 2004 2006 2008 2010

,4

,2 0,0 0 10 20 30 40 50 60

0 0 20 40 60 80 100

Semanas

EDA D

Ao

II.4

NDICES DE TENDENCIA CENTRAL:

Rafael Cuena Boy. Farmacologa Clnica. Complejo Hospitalario de Toledo. Espaa.

Se trata de una serie de ndices que reflejan una sola s caracterstica del grupo, , la posicin de los valores centrales de la distribucin, y, por tanto, son adecuados como descripcin del mismo en la medida en que dicha caracterstica sea la relevante para los fines del investigador. Entre otras cosas, sirven sirven para evaluar la posicin de un grupo con respecto a otro u otros. En el caso de variables nominales, el resumen lo proporcionan proporciona los porcentajes de las categoras ms frecuentes o representativas. Tambin se pueden n utilizar los porcentajes con las variables bles ordinales, pero adems se puede utilizar la mediana. Adems, , con ambas clases de datos se puede utilizar la moda, o valor ms frecuente. Para las variables medidas en escala dimensional, los l dos ndices ms empleados son la media aritmtica o, simplemente, simpl media, y la mediana. La a moda se utiliza muy poco en investigacin clnica. clnica Con respecto a la eleccin de un ndice adecuado a los datos, lo cierto es que si las frecuencias de los valores de los extremos de la distribucin son mayores que las de los lo centrales, si la distribucin es ms o menos uniforme (sin que predomine claramente ningn valor), si es cncava o si tiene dos o ms modas, entonces ningn ndice de tendencia central resulta del todo conveniente, conveniente pues en estos casos los valores ms tpicos tp no son los centrales. Sin embargo, a falta de una solucin mejor, se elegir alguno de ellos. La ventaja de la media es que resulta familiar a casi todos los usuarios de la Estadstica. Se obtiene sumando los valores de todos los individuos y dividiendo ndo el resultado de la suma entre el nmero de individuos. La principal desventaja es que es muy afectada por los outliers; adems, no representa adecuadamente los valores ms tpicos si la distribucin es asimtrica. Finalmente, como muchos datos con importancia rtancia clnica son de naturaleza categrica u ordinal, la media no siempre es utilizable. La mediana es una observacin tal que la mitad de los datos est por encima de ella y la otra mitad por debajo. Aunque hay menos tcnicas estadsticas basadas en la mediana que en la media, cada vez se usa ms en investigacin clnica, pues no es afectada por los outliers, es una mejor descripcin de las distribuciones asimtricas y se puede utilizar tambin con datos semisemi dimensionales y ordinales y en caso de datos de seguimiento longitudinal incompleto. Las principales diferencias entre la media y la mediana se dan en las distribuciones excntricas, como lo son las "centrfugas", las "centrpetas" pero asimtricas y las simtricas pero con outliers importantes en uno de los extremos. Cuando los datos se distribuyen de esta manera, lo que es muy frecuente con variables clnicas y biolgicas, la media, la moda y la mediana no coinciden, como puede verse en la figura 5. . Probablemente, en casos como el de la figura sea preferible la mediana, pues al ser menos influida por los extremos est ms prxima que la media a los picos de frecuencia de la distribucin, distribucin correspondientes a los datos ms tpicos, y siempre se sita entre los valores centrales.

Figura 5: ndices de tendencia en las distribuciones sesgadas. sesgadas


Peso de 11 nios Nio 1 2 3 4 5 6 7 8 9 10 11 Media Mediana Simtrica 1 2 4 4 5 5 5 6 6 8 9 5 5 Con outlier 1 2 4 4 5 5 5 6 6 8 97 13 5

La media, la moda y la mediana son distintas cuando la distribucin es asimtrica. En distribuciones sesgadas a la derecha, como la representada, el orden es: moda < mediana < media; y en sesgadas a la izquierda es el contrario (media < mediana < moda). La media depende de la magnitud del dato, por ello es muy afectada por los outliers. La mediana solo depende de la posicin ordinal y no cambia aunque el valor de d los datos extremos se modifique. En la tabla se comprueba que el cambio de 9 a 97 del extremo hace que la media pase de 5 a 13 pero no modifica la mediana (tomado del libro de Feinstein. Feinstein Ver referencias).

a mayor aplicabilidad de la mediana, mediana considrese la tabla de frecuencias 1, , en que se recoge la distribucin del En cuanto a la estadio tumoral de 200 pacientes. La tabla informa directamente de que 104 de ellos tienen un estadio estadi IIIB o IV y que los otros 96 tienen un IIIA o inferior; por tanto, la mitad tiene un estadio o IIIB o superior y, en consecuencia, es totalmente correcto decir que la mediana es "estadio IIIB". Sin embargo, no hay posibilidad de calcular la media con datos ordinales, como lo son estos. esto La a mediana es especialmente til en estudios de seguimiento. Por ejemplo, en la tabla 2 se recoge el tiempo hasta la recidiva de 11 pacientes que han sido seguidos durante los 12 meses siguientes a la remisin completa de una neoplasia. En estudios as es muy frecuente que cuando llegan a su final y cesa el seguimiento de los pacientes, parte de estos no hayan presentado el evento de inters (en este caso, la recurrencia), sea porque no se les ha seguido el tiempo suficiente, , porque son sujetos "resistentes" "resist al fenmeno (en n este ejemplo, algunos sujetos podran haberse curado definitivamente del cncer) o porque han sido perdidos Rafael Cuena Boy. Farmacologa Clnica. Complejo Hospitalario de Toledo. Espaa.

para el seguimiento en un momento dado (p. ej., alguno puede haber fallecido por una causa no relacionada con la neoplasia), con lo que lo nico que se sabe de ellos es que hasta entonces estuvieron libres del evento. En el estudio supuesto de la tabla 2 hay 6 eventos y 5 sujetos que al llegar a los 12 meses de seguimiento seguan en remisin. Como el evento se ha producido en ms de la mitad de los pacientes, se ha alcanzado la mediana de la duracin del periodo de remisin: 8 meses. Adems, aunque se hubiera prolongado el estudio hasta conseguir medir la duracin de la remisin en los 5 sujetos que faltan, la mediana del tiempo hasta la recada ya no cambiara, seguira siendo 8 meses. Esto prueba que ste ndice se puede calcular vlidamente con datos de seguimiento longitudinal incompleto, como en este estudio. Sin embargo, si se calcula la media del tiempo de seguimiento en las mismas circunstancias, el valor obtenido no depende slo del fenmeno que interesa: la duracin de la remisin, sino que depende tambin de la duracin del estudio. Por eso, al finalizar el estudio la media de seguimiento es 7,64 meses y si se sigue a los sujetos hasta que todos recaen aumenta a 10,18 meses. Esto prueba, por su parte, que la media del tiempo de seguimiento con datos de seguimiento longitudinal incompleto (como es lo habitual, hay que insistir) no es un ndice interesante desde el punto de vista mdico, pues es la media del seguimiento y no de la supervivencia.

Tabla 2: La media y la mediana con datos de seguimiento incompleto.


Al finalizar el estudio Sujeto Recidiva 2 S 3 S 5 S 6 S 8 S 11 S 1 No 4 No 7 No 9 No 10 No Media Mediana Meses 2 2 3 4 5 8 12 12 12 12 12 7,64 8 Meses hasta la recidiva 2 2 3 4 5 8 13 15 17 19 24 10,18 8

Los estudios en que se sigue a los sujetos para medir el tiempo que tarda en aparecer un evento se llaman "Estudios de Supervivencia", sea cual sea la naturaleza del evento de inters. Si al final del estudio no se ha producido el evento en todos los sujetos, y/o no se tiene constancia de ello en alguno por haber sido perdido previamente, entonces la media del tiempo de seguimiento, sea en el total de sujetos o slo en los que se ha dado el evento, no es til para valorar la incidencia del fenmeno, pues adems de depender de ella tambin depende de la duracin del seguimiento. Este problema no se da con la mediana (ni con otros cuantiles) del tiempo de "supervivencia" , por lo que es preferible para la descripcin del fenmeno.

Quiz la principal razn por la que la mediana no tiene un papel ms preponderante es que la mayora de las tcnicas de inferencia estadstica populares (contrastes de hiptesis, estimacin de intervalos de confianza,...) se basan en la media. Por eso, es frecuente que, aunque se aprovechen sus ventajas y se utilice la mediana para la descripcin de los datos, a la hora de estimar los valores poblacionales o de realizar comparaciones entre grupos se regrese a la media. Sin embargo, a medida que se extienden los mtodos no paramtricos y las tcnicas basadas en la simulacin informtica de muestras, cuya lgica es ms clara y directa y cuyos resultados son ms robustos (ver ms adelante), la mediana va, si no desplazando, al menos ocupando una parte del terreno que era de la media. II.5 NDICES DE POSICIN O DE FRECUENCIA RELATIVA ACUMULADA Y DE DISPERSIN:

Se trata en este epgrafe de estadsticos que permiten delimitar zonas internas dentro de la distribucin y que, por tanto, sirven para evaluar si un determinado dato est prximo o lejano a los valores centrales. Adems, por medio de la anchura de las zonas delimitadas es posible tambin juzgar el grado de dispersin de la distribucin y evaluar si los ndices de tendencia central son adecuados o no para la descripcin de los valores ms tpicos. Los ndices ms utilizados con esta finalidad son los cuantiles, ndices de frecuencia relativa acumulada, y la Varianza y su raz cuadrada, la desviacin estndar, como ndices de dispersin. Los cuantiles son valores de la variable que dividen los efectivos de la muestra en proporciones concretas e iguales. Segn dividan los efectivos en cuartos, mitades, tercios, quintos o en cien partes, reciben el nombre de cuartiles, mediana, tercilas, quintiles y percentiles. La mediana divide los efectivos en dos mitades y equivale al percentil 50 y al 2 cuartil. Hay tres cuartiles que delimitan cuatro zonas dentro de la variable, de forma que un cuarto de los individuos tienen un valor contenido en cada una de esas zonas; el 1, 2 y 3 cuartil equivalen al percentil 27, 50 y 75, respectivamente. En la figura 6 se representa una distribucin normal de media 50 y DS 25, en la que se han sealado los tres cuartiles. Figura 6: Las 4 zonas delimitadas por los 3 cuartiles.
Percentil 25 Percentil 50 Percentil 75

25% de los individuos 25% de los individuos 25% de los individuos 33,1 aos 50,0 aos 25% de los individuos

Percentiles: Es importante distinguir entre las zonas delimitadas por los percentiles dentro de la variable y la proporcin de los datos incluidos dentro de cada una de ellas. Como se puede ver en la figura, las zonas de la variable delimitadas por los cuantiles pueden ser de anchura distinta, pero la frecuencia o nmero de individuos de todas ellas es la misma.

66,9 aos

Rafael Cuena Boy. Farmacologa Clnica. Complejo Hospitalario de Toledo. Espaa.

Calculando el percentil en que se sita un determinado valor se puede evaluar su posicin relativa con respecto a los valores centrales de la distribucin. Por ejemplo, si el grupo tiene 35 individuos, el dato que ocupa el puesto de orden 23 est entre los percentiles (22/35 X 100 =) 63 y (22/35 X 100 =) 66 o, o usando valores ms habituales, en el percentil 75. Igualmente y por ejemplo tambin, el percentil que corresponde al valor de la variable Xi es su frecuencia recuencia relativa acumulada, o suma de las frecuencias relativas de los valores X1, X2, ..., Xi lo que permite hacerse una rpida idea tanto de la posicin de una observacin relativa al resto de su grupo. Esto tiene utilidad clnica inmediata, pues sirve para juzgar, por ejemplo, si el crecimiento de un nio es adecuado, segn el percentil en que estn su talla, peso u otra mediciones; por supuesto, los percentiles aplicables al nio deben ser los correspondientes a la poblacin a que pertenezca. Como se sabe, un razonamiento semejante se hace para establecer los valores normales de muchos parmetros clnicos y analticos. Como se ha mostrado con el caso particular de la mediana, los cuantiles son utilizables con datos dimensionales, cuasicuasi dimensionales y ordinales y con datos de seguimiento longitudinal incompleto. Sin embargo, al no haber ningn criterio vlido para la ordenacin, no son calculables con datos categricos. Uno de los ndices de dispersin ms utilizados es la Varianza (V), que mide la dispersin de una distribucin con respecto a su media. De hecho, es el promedio de las desviaciones de los distintos valores con respecto a la media. Para evitar que las desviaciones positivas cancelen a las negativas y que el valor de la V sea cero, lo que se calcula realmente es el promedio del cuadrado de las desviaciones. Por tanto, las unidades de la V son las mismas que las de la variable, pero al cuadrado. Como eso e dificulta su comprensin intuitiva, normalmente para la descripcin de los datos se utiliza la raz cuadrada de la V, o Desviacin Estndar (DS). Es evidente, dada su forma de clculo, que la V y la DS slo son vlidas si los datos son dimensionales. La DS es tan popular y tiene tanta importancia en las tcnicas clsicas de estadstica inferencial como la media. Se puede decir que si se utiliza la media como ndice descriptivo de tendencia central, entonces es obligado emplear la DS para describir la dispersin de los datos. Adems de su uso en la inferencia, como ndice de dispersin la DS sirve para juzgar la distancia de un elemento en relacin a los valores centrales de su grupo y para comparar la dispersin de un grupo con respecto a otros. Si se mide la distancia de un individuo con respecto a su media en unidades de DS, entonces se obtiene un ndice de posicin interna dentro de la distribucin, al que se puede llamar "desviacin estandarizada", estandarizada" "puntuacin Z" , simplemente, "Z". Como el promedio de las desviaciones con respecto a la media es cero, la media de las puntuaciones Z tambin ambin lo es; adems, la DS de las Z es uno. Estos resultados son independientes del tipo y forma de la distribucin. Como consecuencia, si los valores de una u variable se expresan en trminos de lo que se desvan de su media y, adems, esta desviacin se mide m en unidades de DS, se obtiene una distribucin estandarizada de media cero y DS uno. Aprovechando esta propiedad, se puede estandarizar cualquier distribucin, lo cual facilita la comparacin entre individuos pertenecientes a poblaciones distintas. As, As en la figura 7 se muestran dos distribuciones supuestas de la edad; una corresponde a nios, con una media y DS de 5 1,1 aos , y la otra a jvenes, con 25 5 aos de media y DS. Por tanto, como se puede ver en la grfica, un nio de 6,1 aos y un joven jov de 30 aos estarn en la misma posicin relativa dentro, cada uno, de su distribucin, puesto que ambos estn a una DS de su media y, por po tanto, a ambos les corresponde una puntuacin Z de 1. Figura 7: Puntuacin Z y distancia a la media.
Las desviaciones estandarizadas ndarizadas o puntuaciones Z miden la distancia entre una observacin y su media en unidades de DS. Por tanto, para calcular la "Z" correspondiente a un valor "Xi" la frmula es: Z = (Xi - media) / DS. En la figura se puede ver que a un nio de 6,1 aos, que qu est a 1,1 aos de la media, le corresponde la misma "Z" que a un joven de 30 aos, que supera a la media de su grupo en 5 aos. Las puntuaciones "Z" permiten establecer la posicin relativa al grupo de un individuo con independencia de las magnitudes y unidades de la variable.

En otro ejemplo similar, en una maternidad en que la media y DS del peso de los neonatos fuera 2,9 0, 3 Kg un nio que pesara al nacer 2.210 210 g sera tan "llamativo" como uno que pesara 2.750 2 g en otro lugar en que la media y la DS fueran 3,9 0,5 Kg, pues la puntuacin "Z" de su peso sera -2,3 2,3 en ambos nios.

Rafael Cuena Boy. Farmacologa Clnica. Complejo Hospitalario de Toledo. Espaa.

Hay una diferencia importante entre los cuantiles y las puntuaciones Z. Mientras que los primeros pueden ser interpretados como probabilidades, ello, salvo que se conozca la forma de la distribucin, no es posible con las "Z". As, por ejemplo, si se sabe que el percentil 25 del peso al nacer en una maternidad es 2.300 g tambin se sabe que la probabilidad de que un nio pese igual o menos de 2.300 es 0,25 o, dicho de otra forma, el 75% de los neonatos pesarn ms de 2.300 g. Sin embargo, si se sabe que la media de la poblacin es, por ejemplo, 2,9 Kg y la DS 0,5 Kg, se puede calcular la Z que corresponde a cada valor del peso; as, por ejemplo, a 2.700 le corresponde un Z de [(2,7 - 2,9)/9,5=]-0,4; pero, cul ser su probabilidad? En principio, no es posible contestar a esta pregunta. Ahora bien, si, adems del valor Z, se conoce la distribucin, en el sentido de que existe una ecuacin matemtica de la curva de probabilidad, entonces, mediante procedimientos de anlisis matemtico o mediante simulacin informtica, es posible calcular cuntas veces aparece un valor de Z menor o igual a -0,4. De hecho, "todo el mundo" sabe que, si la distribucin es normal, una Z -1,96 aparece en el 2,5% de los casos y, por el mismo mtodo por el que se ha llegado a este resultado, se podra determinar, tambin, que una Z -0,4 (y, por tanto, un peso 2.700 g) aparecer en el 34,5% de los nios de la maternidad, si fuera cierto que el peso se distribuye normalmente . Por ltimo, puede ser necesario tambin comparar la dispersin entre grupos. Si las unidades y la magnitud de los valores son similares en una y otra muestra, entonces se pueden utilizar directamente las DS. P. ej., la distribucin de las edades es ms compacta en una ciudad en que los habitantes tienen 56 34 aos (media y DS) que en otra con 54 59 aos. Pero, cmo comparar la dispersin de la distribucin de, por ejemplo, los salarios de los trabajadores de un sector econmico de un pas, cuya media y DS en 2012 fueron 58.993 11.108 $, con los del mismo sector de otro pas, con media y DS de 12.496 5.993 $? En principio, la variabilidad es mayor en el primer pas, pues su DS es 5.115 $ mayor. Pero, sin embargo, los salarios tambin son mayores en l. Cuando interesa independizar la DS de las unidades y magnitudes de la variables se puede calcular el "Coeficiente de Variacin" (CV), que no es otra cosa que la relacin entre la DS y la media o, si se multiplica por 100, el porcentaje que la DS supone sobre la media. As, en este ejemplo, el CV de estos sectores econmicos es (11.108/58.993=) 0,19 y (5.993/12.496=) 0,48. Por tanto, en este ejemplo la impresin que se obtiene cuando se independizan los resultados de las diferencias entre las medias es la contraria a la inicial. El CV puede servir tambin para juzgar si la media es un ndice adecuadamente representativo de los valores tpicos de una distribucin, pues cuando el CV es muy alto, entonces la variabilidad es tan grande que, quiz, no se pueda hablar con propiedad de valores centrales tpicos y, en consecuencia, la media puede no ser un buen "representante" del conjunto de los datos. No obstante, no se han establecido "puntos de corte" en los valores del CV que distinguiran entre uno y otro caso. PARTE III: INFERENCIA ESTADSTICA. CONCEPTOS Y ESTIMACIN DE VALORES POBLACIONALES: III.1 LA INFERENCIA ESTADSTICA:

La razn principal por la que se toman muestras es porque se desea conocer cmo son las poblaciones y, como stas no son accesibles, se busca extrapolar al conjunto de los individuos lo que se ha observado en unos cuantos de ellos. Por tanto, lo habitual es que se disponga de una muestra de n individuos en los que se han medido las variables y atributos de inters. Esas mediciones se resumen y presentan en la forma de algn estadstico apropiado para los fines del investigador (la media de la presin arterial, la proporcin con cierto tipo histolgico, la mediana de la supervivencia, etc.). Sin embargo, el estudio no se ha realizado para saber lo que sucede en los n sujetos de la muestra, sino que lo que interesa realmente es saber lo que sucedi, sucede o suceder en todos los individuos en una situacin similar a la de los elementos de la muestra estudiada. Es decir, interesa saber el valor en la poblacin del mismo estadstico que se ha medido en la muestra. Las tcnicas de Inferencia Estadstica (IE) deducen los valores plausibles en la poblacin (VP) a partir de la informacin contenida en una muestra, utilizando para ello la forma en que se distribuyen los valores de dicho estadstico (VM) cuando se toma de la misma poblacin un nmero indefinidamente grande de muestras del mismo tamao n; es decir, utilizando las propiedades de la llamada "distribucin en el muestreo" (DM) del estadstico en cuestin. EL ERROR DE MUESTREO: Aunque puede suceder que el VP sea igual al VM, lo esperable es que exista cierta diferencia entre ambos, pues en la muestra no estn representados todos los individuos de la poblacin. Por ello, si se atribuye a la poblacin el valor observado en la muestra se comete un error, llamado error de muestreo. Sin embargo, en la medida en que la muestra sea representativa de la poblacin, es posible deducir la cuanta probable de dicho error. Cuando la muestra es probabilstica (como, por ejemplo, lo sera una muestra aleatoria simple), la diferencia entre el VP y el VM se debe al azar (pues el azar es el nico factor responsable de que un individuo de la poblacin haya sido o no seleccionado). En consecuencia, si se equipara el VP con el VM, el error muestral que se comete es tambin aleatorio. Pues bien, como se ha dicho, en la medida en que el error sea aleatorio las tcnicas de IE permiten calcular la probabilidad de que ese error alcance determinado valor. Sin embargo, cuando la muestra no es probabilstica es necesario descartar que el error de muestreo tenga Rafael Cuena Boy. Farmacologa Clnica. Complejo Hospitalario de Toledo. Espaa.

Anda mungkin juga menyukai