Anda di halaman 1dari 6

Modelos estadísticos y distribuciones de probabilidad

Modelos estadísticos:
Es nuestra costumbre crear modelos para entender o predecir lo que
observamos. Si alguien llega por primera vez a Quito y ve que muchas
personas entran coladas al Trole-bus en la estación de la Universidad Central
su modelo puede establecer que no es necesario pagar el pasaje para ingresar
al sistema (entonces, él tratará de hacer lo mismo la próxima vez que vaya a
una estación). Un ingeniero puede hacer una maqueta (modelo) de un edificio
que está diseñando para evaluar algunos aspectos de la forma o de la
estructura de la construcción. Un clínico estará atento a la función renal de un
paciente diabético con hipertensión arterial.

Los modelos parten de unos datos que se observan y, en general, deben


probarse antes de ser aplicados. Si lo que el modelo predice se parece mucho
a lo que sucede en la realidad se dice que el modelo tiene buen ajuste.
Estadísticamente puede medirse la calidad de este ajuste.

Si se establece un modelo en el que el número de habilidades adquiridas se


relaciona con el número de horas trabajadas, puede plantearse que entre más
horas se trabaje mayor número de habilidades se adquirirán (esto corresponde
a un modelo lineal). En la figura 1 se presenta el resultado de probar el modelo
en dos escenarios diferentes; puede verse que en el caso de la derecha el
modelo tiene un mejor ajuste.

Uno de los modelos estadísticos más sencillos es el de la media. La forma más


aproximada de predecir alguna característica de un individuo de un grupo es
decir el valor de la media de esa característica en ese grupo. La forma de
establecer el modelo de predicción con la media es sencillo (es la fórmula para
calcular la media); sin embargo la medida del ajuste del modelo es un poco
más compleja e incorpora tres conceptos que ya han sido mencionados:

Suma de cuadrados: Es la suma de las distancias (diferencias elevadas


al cuadrado) entre cada observación y la media. Si no se elevaran al
cuadrado estas distancias (diferencias) la suma de cuadrados daría
cero. El efecto de elevar al cuadrado es convertir todas las distancias en
valores positivos (otra alternativa es usar la función “valor absoluto” pero
resulta matemáticamente más compleja).
Varianza: Es el promedio de la suma de cuadrados. Cuando se está
calculando la varianza en una muestra el denominador del promedio no
es N sino N‐1. Esto se hace porque, al sacar la media cuando se calcula
la suma de cuadrados, se pierde un “grado de libertad”. La varianza se
reporta en “unidades al cuadrado”.

Desviación estándar: Es la raíz cuadrada de la varianza. Se calcula para


evitar el problema de la interpretación de “unidades al cuadrado”.

Entre más elementos se conozcan de la realidad que se está evaluando, más


información puede incorporarse a los modelos estadísticos y esto los hace
mejores. Si se pueden conocer las probabilidades de los diferentes valores de
una variable (por ejemplo la probabilidad de todos los valores posibles que
toma una variable, o la probabilidad de que la variable esté entre ciertos
valores) el incorporar esta información en los modelos les da mejores
cualidades de ajuste. Esta información la suministran las funciones de
distribución de probabilidad. Una función de distribución de probabilidad
permite definir a una variable aleatoria1.

Una variable aleatoria es aquella variable que;


1. Toma valores numéricos.
2. A los diferentes valores numéricos puede asignarse una probabilidad
de que sucedan.

Dentro de un curso introductorio de estadística las variables aleatorias que más


frecuentemente se utilizan son de tres tipos: Normal, Binomial y Poison.

La distribución normal. Cálculo de probabilidades:


En un hospital de Quito (Hospital 0) se encuestaron 49 trabajadores y se les
preguntó cuántas dosis de azúcar consumían al día mientras se encontraban
en el trabajo (las dosis fueron medidas como cucharaditas o como cubos de
azúcar) y cuántas tazas de café (tinto) tomaban diariamente en el hospital (la
unidad de medida fue una taza pequeña). Los datos se resumieron de manera
gráfica. La representación gráfica de los datos correspondientes al hospital
muestra lo siguiente (los datos se representan en dos formas: un gráfico de
puntos y otro de picos):

1
Una función es una relación entre dos magnitudes. Esta relación supone que a cada valor de una de
estas magnitudes (variable independiente) le corresponde un valor de la otra magnitud (variable
dependiente). Una función puede representarse mediante una fórmula, un gráfico o una tabla. Dicho en
otras palabras, una función es una máquina que recibe unas entradas, las procesa y las convierte en
unas salidas.
Esto nos indica que la mayoría de personas toman siete cucharadas de azúcar
diaria y que esta variable tiene una forma simétrica.
Mirando este gráfico podemos calcular la probabilidad de tomar más de 12
cucharadas de azúcar al día. Esto lo hacemos de la siguiente forma:

1. Contamos el número de sujetos que consumen más de 12 cucharadas (1:


el número 13)
2. Dividimos ese número por la cantidad total de sujetos observados (49).
3. La probabilidad de consumir más de 12 cucharadas de azúcar al día es
1/49 = 0,02.

De manera similar se puede calcular la probabilidad de consumir menos de 2


cucharadas, o de consumir más de 11, o de consumir entre 2 y 3...
También se puede afirmar que si consideramos como “raro” todo aquello que
tiene una probabilidad de ocurrir menor del 5% (0.05, en términos de
proporciones), consumir menos de 2 o más de 12 cucharadas es extraño en
este hospital (la probabilidad de consumir 1 ó 13 cucharadas es
0,02+0,02=0,04, que es menor de 0,05).

Algunos gráficos útiles para evaluar las características de una distribución son
el de cajas, el de puntos, el histograma y el de picos. Los siguientes gráficos
muestran las características de la variable “consumo de azúcar” medida en
cuatro hospitales diferentes (el hospital cero es el que ya se ilustró atrás):

Como ya se mencionó, la distribución de esta variable en el hospital 0 es


simétrica. En el hospital 1 la distribución es asimétrica (tiene sesgo) y tiene cola
a la derecha (la cola es la parte alargada, como en los animales). En el hospital
2 también se aprecia una distribución asimétrica, pero tiene la cola a la
izquierda. La distribución del hospital 3 no es sesgada pero concentra gran
cantidad de observaciones en la parte central (es muy apuntalada).

Tenemos, pues, que podemos describir la forma de la distribución de una


variable cuantitativa utilizando dos parámetros:

1. El sesgo: Si la distribución es simétrica el sesgo es 0.


2. El apuntalamiento: Es un valor numérico que mide que tan “puntuda”
es la distribución.

Muchas variables biológicas o usadas en investigación clínica tienen las


siguientes características:

1. Son cuantitativas.
2. Tienen sesgo igual a cero.
3. Tienen apuntalamiento igual a 3.

En general, cuando una variable cumple con estas características se dice que
la distribución es
NORMAL. En una variable con distribución normal el 95% de los datos se
encuentra entre 1,96 desviaciones estándar hacia arriba y hacia debajo de la
media. El 99% de los datos se encuentra entre 2,576 desviaciones estándar
hacia arriba y hacia debajo de la media (memorizar el valor 1,96: es clave!).
Otro punto para memorizar: En una distribución normal el valor esperado es la
media (μ).

Por ejemplo en el caso del hospital A, encontramos que la media es siete y la


desviación estándar 2,85. ¿Entre qué cantidad de consumo de azúcar se
encuentra el 95% de la muestra de ese hospital?

1,96 desviaciones estándar son 1,96 × 2,85 = 5,58. Entonces el 95% de las
observaciones estará entre (7‐5,58) y (7+5,58).

Se ha construido una tabla para una distribución normal que tiene promedio
igual a cero y desviación estándar igual a uno. Dicha distribución se llama
distribución Z, o normal estándar, y se usa como parámetro para calcular
probabilidades en cualquier otra distribución normal, no importa qué promedio o
que desviación estándar tenga, siempre y cuando su sesgo sea 0 y su
apuntalamiento sea 3.

Para poder leer los datos de cualquier distribución utilizando la distribución Z,


miramos cuántas desviaciones estándar mide la distancia a la media.

Si en nuestro ejemplo decidimos usar un método más elegante para calcular


probabilidades que el método de contar bolitas que hasta ahora venimos
manejando, usamos la distribución Z: Si queremos saber cuál es la
probabilidad de ingerir más de 10 unidades de azúcar al día en el hospital A,
medimos esta distancia a la media: (10 – 7) = 3. Para saber cuántas
desviaciones estándar mide esta distancia, dividimos por el valor de la
desviación estándar: 3/2.85 = 1.05. En una distribución Z, la probabilidad de
tener un valor mayor de 1.05 es de 0.14. Con este método decimos que la
probabilidad de ingerir más de 10 unidades de azúcar al día es 0.14 (14%).

En el anterior ejemplo se ha utilizado la siguiente fórmula:

Donde X es el valor que queremos medir, μ es la media y σ es la desviación


estándar. X‐μ es la distancia a la media.

Cómo evaluar si una variable tiene distribución normal:


Muchos métodos estadísticos se aplican con la condición de que la variable
que se está examinando o que algunas variables generadas en el
procedimiento de análisis tengan distribución normal. Existen tres
aproximaciones para evaluar si una variable tiene distribución normal:
1. Con estadísticos descriptivos.
2. Con gráficos.
3. Con pruebas estadísticas de hipótesis.

Los estadísticos descriptivos que se utilizan son:


‐ La mediana: Si el valor de la mediana y de la media son muy similares,
esto está a favor de que la variable tenga distribución simétrica (¡aunque no
siempre funciona!).
‐ El sesgo: El valor del sesgo debe ser cercano a cero (algunos recomiendan
tolerar valores entre ‐0,2 y +0,2).
‐ El apuntalamiento (kurtosis): SPSS utiliza valores de tres para una
distribución normal.

Las herramientas gráficas más utilizadas son los gráficos de caja y bigote, los
histogramas, los gráficos de puntos y los de picos. En estos gráficos se evalúa
fundamentalmente simetría y presencia de valores extremos en alguna de las
colas. Existe otro gráfico útil para evaluar si una distribución es normal: se trata
del gráfico cuantil normal: en estos gráficos se busca si la mayoría de los
valores observados caen sobre una línea que representa los valores esperados
si la variable tuviera una distribución normal. Este tipo de gráfico se ilustra a
continuación:

En el gráfico de la izquierda los puntos se encuentran muy cercanos a la recta


lo que hace pensar que esta variable tiene distribución normal. En el gráfico de
la derecha los puntos se encuentran alejados de la recta. Esto hace suponer
que, en este caso, los datos no tengan distribución normal. Las pruebas
estadísticas se mencionarán cuando se haya trabajado el concepto de prueba
de hipótesis con valores p.

Anda mungkin juga menyukai