Anda di halaman 1dari 9

INFERENCIA ESTADISTICA

1. DEFINICIÓN
Es el procedimiento por el que se llega a
inferencias respecto a una población, con base
en los resultados que se obtienen en una
BIOESTADISTICA 2004 muestra extraída de esa población.
Puesto que las poblaciones son descritas por
INFERENCIA ESTADISTICA medidas numéricas descriptivas, llamados
parámetros de la población, se puede hacer
inferencias acerca de la población haciendo
Ing. Wilfredo Mormontoy Laurel MPH inferencias respecto a sus parámetros.

La estimación de un parámetro poblacional


2. AREAS DE LA INFERENCIA ESTADISTICA.-
ESTADISTICA puede realizarse de dos maneras:
Tiene dos áreas:
1. Por punto. Se usan las medidas de la muestra
A. ESTIMACIÓN.- para calcular un único valor numé
numérico que es la
estimación del parámetro poblacional.
Efectuar una estimación es usar las medidas
calculadas en una muestra (estimadores) para 2. Por intervalo. Las medidas de la muestra
predecir el valor de uno o más parámetros de pueden también usarse para calcular dos
la población. valores numé
numéricos que definen un intervalo el
cual, con un cierto nivel de confianza, se
Un estimador es a menudo expresado en
considera que incluye al parámetro.
términos de una fórmula matemática que da la
estimación como una función de las medidas La “bondad” de un estimador se evalúa
muestrales. observando su comportamiento en repetidas
muestras.

Hablaremos en general de un parámetro Por lo tanto, un buen estimador deberá tener las
poblacional W. Un estimador ŵ para el siguientes propiedades:
parámetro W, generará estimaciones en a.- Ser insesgado
repetidas muestras de la población y producirá b.- Varianza mínima
una distribución de los estimadores este Así por ejemplo:
estimador será considerado bueno si las
estimaciones se agrupan estrechamente al •X es un estimador insesgado y de varianza
rededor de W. Si la media de los estimadores mínima de µ.
es W, entonces ŵ se dice que es un estimador
• p también es un estimador insesgado y de
insesgado de W y E (ŵ) = W.
varianza mínima de π; etc.
Si la dispersión (varianza) de ŵ es más pequeña
que la de cualquier otro estimador, entonces ŵ En la siguiente tabla veremos algunos
se dice que tiene varianza mínima parámetros, estimadores y los errores estándar
del estimador:

1
Parámetro Estimador Error estándar

µ x =∑x I / n EEx = σ/√n ó EEx = s / √n


Parámetro Estimador Error estándar
____________
EE(x 1 -x 2 ) = √(σ 21/n 1 + σ 22/n 2) ó __________________
EE(p1 - p2) =√π1(1-π1)/n1 + π2(1-π2)/n2
______________
(µ1-µ2) (x 1 -x 2 ) EE(x 1 -x 2 ) = √(s p 2/n 1 + s p2/n 2) (π1 -π2) (p1 – p2) __________________
Donde: EE(p1 - p2) =√p1 (1-p1)/n1 + p2(1-p2)/n2

s 2p = (n 1-1)s 12 + (n 2-1)s 22
n 1 +n 2 - 2 (n1 y n2 > 30)
________
EEp = √(π(1-π)/n) ó
π p =a/n
_________
EEp = √(p(1-p) /n) n >30

El modelo general de estimación por intervalo


Una estimación por intervalo es una regla que de un parámetro es:
nos dice cómo calcular dos valores que forman
un intervalo estrecho que incluye al parámetro. Coeficien- Error
No todos los intervalos generados por un Paráme-tro = Estima-dor ±
te de
x
estándar
estimador incluirán realmente el parámetro. Confiabi- del
lidad estimador
La probabilidad de que una estimación por
intervalo incluya el parámetro se denomina nivel
de confianza..
Sabemos que: Al restar el producto del estimador se obtiene el
W: parámetro poblacional. limite inferior del intervalo (LI) y al sumar, el
EEŵ : error estándar del estimador limite superior (LS). Por consiguiente, los limites
ŵ: estimador del parámetro. del intervalo de confianza se calculan de la
c : coeficiente de confiabilidad, cuyo valor siguiente manera:
depende del nivel de confianza utilizado.

LI = ŵ - c EE ŵ
LS = ŵ + c EE ŵ B.- PRUEBA DE HIPOTESIS:
Es un área importante de la Inferencia
Estadística se denomina también docimacia de
hipótesis o contraste de hipótesis.
p(ŵ - c EE ŵ < W < ŵ + c EE ŵ ) = (1 - α)
Una hipótesis estadística es un supuesto
acerca de algún parámetro poblacional o sobre
alguna situación existente en la población.

p (LI < W < LS ) = (1 - α)

2
Existen dos tipos de hipótesis estadística: b.-Hipótesis alterna, H1.-
Supuesto alternativo a la H0; es decir, si la H0 es
a.-Hipótesis nula, H0.- rechazada, entonces los datos apoyan al
Es un supuesto de no diferencia , de cumplimiento de la H1.
conformidad, de no cambio, de acuerdo, de Al tomar una decisión respecto a la H0, se
independencia, etc. Es una hipótesis puede correr el riesgo de cometer dos distintos
conservadora y como habitualmente se tipos de error.
investiga para observar diferencias, cambios,
asociaciones etc., la H0 generalmente se
plantea con la finalidad de rechazarla y es la En la tabla siguiente se muestra la terminología
que se somete a contrastación. propia de la prueba de hipótesis

PLANTEAMIENTO (SITUACION POBLACIONAL)

Las cuatro son probabilidades condicionales:


DECISIÓN
H o c ier t a H o f al s a α = Prob. (rechazar H0 / H0 cierta )
(1-α) = Prob. ( no rechazar H0 / H0 cierta )
Error Tipo I Acierto β = Prob. ( no rechazar H0 / H0 falsa )
(1-β) = Prob. (rechazar H0 / H0 falsa )
Rec h azar H o Prob: α (p) Prob. (1-β )
Nivel de Significación Potencia
α y β están relacionadas de manera inversa: al
decrecer una aumenta la otra. Habitualmente α
Acierto Error Tipo II está bajo nuestro control; pero, β sólo está en
forma indirecta mediante su relación inversa con
Prob: (1-α) Prob: β α. (α+β) ≠ 1 salvo en un caso muy especial
N o r ec h azar H o
Nivel de confianza (α+β) = 1, esto sucede cuando H0 = H1; en este
caso (α+β) son complementarios
.

Mostraremos estas cuatro probabilidades


utilizando la distribución de medias y una prueba
Generalmente no se calcula la probabilidad de
unilateral. cometer el error tipo II, o sea β, porque su
H0 H1
cálculo se puede hacer solamente para
hipótesis alternas (H1 ) específicas.

(1-α) (1- β)
A falta de una buena razón para tomar cualquier
_ otro valor hipotético como una hipótesis
ββ α especifica, lo mejor que podemos hacer es
_ xi
µ0 µ1 seleccionar arbitrariamente varias alternativas
xc
razonables, cada una en la vecindad del valor
Zona de no rechazo de H0 Zona de rechazo de H0
de H0, es decir, calcular una probabilidad β para
varias hipótesis especificas alternas.

3
Pero, una disminución de α (en el gráfico anterior al
La representación gráfica de la relación entre mover la media crítica hacia la derecha) producirá al
valores de β , para diferentes valores de H1 , se
mismo tiempo un aumento de β o viceversa.
denomina curva característica de operación
Veamos este punto con mayor amplitud utilizando
(CCO) y la relación entre potencia (1- β) y
para ello, el siguiente ejemplo del campo legal.
valores de H1 se llama función de potencia y la
Sea:
gráfica, curva de potencia.
H0: el acusado es inocente
Siendo α y β medidas de la probabilidad de
H1: el acusado es culpable
cometer errores, sería ideal que estos valores
Si se condena a un hombre inocente (rechazar Ho) se
fueran mínimos; es decir, tener pequeñas
comete un error tipo I, mientras que si se pone en
probabilidades de tomar decisiones
libertad a un hombre culpable se incurre en el error
equivocadas. tipo II

La única forma como α y β pueden reducirse


simultáneamente es mejorar los procedimientos
La recomendación del juez es que la de detección criminal, es decir aumentar la
“culpabilidad” debe probarse mas allá de una evidencia que guarda relación con H0. Por
duda “razonable”, lo que significa que α debe consiguiente, la decisión del Juez será mejor si
dispone de mayor información. Esto, en una
mantenerse muy pequeña. No hay manera de
prueba de hipótesis estadística, significa utilizar
reducir α a cero (si pudiera reducirse se una muestra de elementos razonablemente
aseguraría completamente que no se condene grande. El aumento de n disminuirá σ/√n y, por
consiguiente, también disminuirá la extensión de
a un inocente) sin aumentar β a 1 (permitiendo
la distribución de las medias muestrales (ver el
que la persona salga en libertad y haciendo gráfico anterior). Esto permite una reducción de
que el juicio carezca de sentido). α y β: o también una reducción aún mayor de β,
con α constante al 5%.

INFERENCIA ESTADISTICA SOBRE Ejemplo 1:


MEDIAS ARITMETICAS Estimar la edad promedio de las mujeres que
habitualmente consultan en el servicio de
Ginecología.
1.- ESTIMACIÓN DE LA MEDIA POBLACIONAL Se sabe que σ=9,2 años y en una muestra de
(µ) n=40 se calculó x =23,3 años.
Según el modelo general de estimación por
intervalo se tiene : Solución : Como no se indica el nivel de confianza
se supone que es 95%, luego:
L.S Z = 1,96; entonces:
µ = x ± z σ
√n
L.I. µ = 23,3 ± 1,96 9,2 26,15 años
Modelo utilizado cuando se conoce σ √40 20,45 años

4
Ejemplo 2
Interpretación: Se desea estimar el tiempo promedio de estancia
Con 95% de confianza la media de la población se hospitalaria para cierto tipo de pacientes. Se toma
una muestra de 25 historias clínicas y se calcula
encuentra entre 20,45 y 26,15 años.
x =5,7 y s = 4,5 días.
Es decir, la edad promedio de las mujeres que
Estimar µ con 95% de confianza.
habitualmente consultan en ginecología, con una
seguridad del 95% fluctuará entre dichos valores.
Estos resultados se pueden presentar también Solución: En este caso no se conoce σ, luego el
como: modelo de estimación, será:

L.S
I.C. 95% ( 20,45 ; 26,15 años) µ = x ± t n-1 s
√n
L.I.

Donde t n-1 es el coeficiente de confiabilidad,


Luego de la tabla “t” se obtiene para un nivel de
cuyo valor se obtiene de la tabla de distribución
“t” de Student con n-1 grados de libertad para el significación de 0,05 bilateral: t24 = 2,064
nivel de confianza deseado.
Algunas características de la distribución “t” de
Student son: µ = 5,7 ± 2,064 4,8 7,68 días
9 La distribución tiene forma acampanada.
√25 3,72 días
9 Es simétrica respecto al punto t=0
Interpretación:
9 Forma cola rápidamente a la derecha e
izquierda; por lo tanto “t” es más variable que Z La probabilidad de que el tiempo promedio de
9 La “forma” de la distribución cambia conforme el
estancia hospitalaria, en la población de
valor de n. Es decir, para cada grado de libertad pacientes, se encuentre entre 3,72 y 7,68 es de
(n-1) existe una curva simétrica. 0,95.
9 A medida que n aumenta, “t” se aproxima a la
normal Z.

2.-PRUEBA DE HIPOTESIS: UNA SOLA MEDIA


POBLACIONAL En una muestra de 20 mujeres se encontró unax
En este caso se contrastará o docimará algunas = 10,9 ; s = 1,2
de las siguientes hipótesis: ¿Puede concluirse que la media poblacional ha
disminuido significativamente?
H0 : µ = µ0 H0 : µ ≥ µ0 H0 : µ ≤ µ0 Solución:
H1: µ ≠ µ0 H1 : µ < µ0 H1: µ > µ0 a) Hipótesis: Ho: µ ≥ 11,5
H1 : µ < 11,5 (unilateral negativo)
Donde µ0 es un valor que se postula para la
b) Contraste estadístico: Como no se conoce σ,
media de la población.
se usa:
Ejemplo:
Habitualmente la población de mujeres en edad t n-1 = x - µ
fértil tiene un nivel promedio de Hb de 11,50.
s/√n

5
t 19 = 10,9-11,5 = -2,236
Nota:
1,2/√20
Si se conociera σ el contraste estadístico se
c) Valor de p:
realizaría con:
Con 19 grados de libertad, el valor de p, para
un contraste unilateral está entre 0,01 y 0,025.
Se expresa: Z = x - µ
0,01 < p < 0,025
σ/√n
d) Decisión y Conclusión.
D: Siendo p < 0,05; se rechaza Ho
C: Hubo una disminución estadísticamente
significativa de la media poblacional.

3.-PRUEBA DE HIPOTESIS: DIFERENCIA Ejemplo 1:


ENTRE DOS MEDIAS DE POBLACIONES Se llevó a cabo un estudio para comparar las
INDEPENDIENTES medias aritméticas de ácido úrico en el suero de
dos poblaciones de niños.
Se contrastará alguna de las hipótesis que sigue: Con Síndrome Down Sin Síndrome Down
n1 = 12 n2 =15
H0: µ1 = µ2 H0 : µ1 ≥ µ2 H0 : µ1 ≤ µ2 x1 =4,5 mg/100ml x2 = 3,4 mg/100ml
H1: µ1 ≠ µ2 H1: µ1 < µ2 H1: µ1 > µ2
Resulta razonable suponer que las dos
poblaciones están normalmente distribuidas con
varianzas iguales a 1. ¿Existe diferencia
significativa entre los niveles de ácido úrico?

Solución:
c) Valor de p: utilizando la tabla de áreas:
a) Hipótesis Ho: µ1 = µ2 p= 2(0,0024) = 0,0048
H1: µ1 ≠ µ2 d) Decisión y conclusión:
b)Contraste estadístico: Se rechaza Ho con un error de 0,0048. La
Como se conocen las varianzas poblacionales; conclusión es que difieren estadísticamente las
se usará dos poblaciones en cuanto al ácido úrico.

Z = ( x1 -x2 ) - (µ1-µ2 ) Ejemplo 2:


√(σ12/n1 + σ22/n2) Se realizó un estudio sobre el efecto de las
dietas A y B, usando dos grupos de animales
experimentales. El grupo 1 recibió la dieta A
= (4,5 - 3,4) – 0 = 2,84 (enriquecida) y el grupo 2 la dieta B. Después
de 5 semanas se calculó la ganancia en peso
√(1/12+1/15)
para cada animal. Los resultados son:

6
Grupo 1 Grupo2
n1 = 12 n2 = 12 9 Las muestras provienen de poblaciones
distribuidas normalmente (supuesto de
x1 = 27,2 g x2 = 21,2 g normalidad).
s1 = 6 g s2 = 3,8 g 9 Las muestras constituyen muestras aleatorias
(supuesto de aleatoriedad).
¿Puede concluirse que con la dieta A, los 9 Las varianzas poblacionales son iguales
animales, ganaron mayor peso que con la B ? (supuesto de homogeneidad de varianzas)
Solución: Si estas suposiciones pueden asociarse a este
En vista de que no se conocen las varianzas caso, entonces se usará el contraste “t”:
poblacionales se hará uso del contraste “t”. Pero,
es necesario recordar antes que para un uso a) Hipótesis: H0 : µ1 ≤ µ2
adecuado, los datos deben satisfacer los
siguientes supuestos: H1: µ1 > µ2

b)Contraste estadístico:
t22= (27,2 - 21,2) - 0 = 2,927
√(25,22/12 + 25,22/12)
t (n1 + n2-2) = ( x1 -x2 ) - (µ1 - µ2 )
√(S2p/ n1 + S2p/ n2)
c) Valor de p:
0,0025 < p < 0,005
Donde: S2p = varianza ponderada
d) Decisión y conclusión:
S2p = (n1-1)S21 + (n2-1)S22 Rechazar Ho; es decir, la dieta A produjo una
n1 +n2 - 2 ganancia mayor de peso que la dieta B.

S2p = 62 + (3,8)2 = 25,22


2

Paciente Antes Después di


4.- PRUEBA DE HIPOTESIS: COMPARACION 1° 201 200 +1
DE DOS MUESTRAS RELACIONADAS 2° 231 236 -5
(comparaciones pareadas) 3° 221 216 +5
4° 260 233 +27
Ejemplo: 5° 228 224 +4
Se tienen los niveles de colesterol total de una 6° 237 216 +21
muestra de 8 pacientes antes y después de 7° 326 296 +30
participar en un programa dieta-ejercicio.¿ 8° 235 195 +40
puede concluirse que el programa tuvo efecto
favorable?. a.-Hipótesis:
H0 : µd ≤ 0 (Los valores de colesterol no
disminuyeron significativamente)
H1 : µd > 0 (Los valores de colesterol
disminuyeron significativamente)

7
b) Contraste estadístico

c) Valor de p
t n-1 = d - µd 0,010 < p < 0,025
Sd /√n
Donde: d = media aritmética de diferencias en la muestra. d) Decisión y conclusión
Sd = desviación estándar de diferencias en la Se rechaza Ho. Se concluye que después del
muestra. programa los niveles de colesterol son
µd = media aritmética de diferencias en la población significativamente menores que los valores
obtenidos antes.
t7 = 15,375 - 0 = 2,678
16,2387/√8

Solución:
INFERENCIA ESTADISTICA SOBRE
Para estimar el parámetro se utiliza el siguiente
PROPORCIONES modelo:
LS
1.-ESTIMACION DE UNA PROPORCION pq
POBLACIONAL π=p ± Z
Ejemplo: n LI
Se desea estimar la proporción de niños
menores de cinco años que llegaron al hospital p = (16/80)100 = 20% q=80% n= 80
con signos de deshidratación entre Enero y Reemplazando en la fórmula anterior,los
Marzo del 2001. Se toma una muestra de 80 resultados se expresarán : IC 95% (11,2; 28,8% )
historias clínicas de esa población y se
Lo que indica que, con 95% de confianza, la
encuentra que 16 habían llegado con signos de
proporción en la población está entre 11,2 y
deshidratación.
28,8%
:

2.-PRUEBA DE HIPOTESIS: UNA SOLA


Ejemplo:
PROPORCION POBLACIONAL
En cierto hospital, durante muchos años se ha
Puede contrastarse alguna de las siguientes observado que el 12% de mujeres tienen su
hipótesis:
primer bebe antes de cumplir los 15 años. Hay
H0:π=π0 H0 : π≥π0 H0 : π≤π0 razones para pensar que esta proporción
H1: π≠π0 H1 : π<π0 H1 : π>π0 últimamente ha aumentado. Se toma una n de
150 historias clínicas y se encuentra que el 16%
Donde π0 es la proporción asignada a la de los primeros partos correspondió a menores de
población 15 años. ¿ El incremento fue estadísticamente
significativo?

8
Solución: d) Decisión y conclusión:
a) Ho: π≤12% No se rechaza Ho. Es decir, no hubo un
H1: π>12% incremento estadísticamente significativo.
b) Contraste estadístico.

p-π 3.-PRUEBA DE HIPOTESIS: DIFERENCIA


Z= ENTRE PROPORCIONES DE DOS
√π(1−π)/n POBLACIONES INDEPENDIENTES
Reemplazando: Las hipótesis que pueden contrastarse son:
Z = 16 - 12 = 1,51 H0 :π1=π2 H0 : π1≥π2 H0 : π1≤π2
√ (12x88)/150 H1: π1≠π2 H1 : π1<π2 H1: π1>π2

c) Cálculo de p:
p = 0,0655

Ejemplo: b) Contraste estadístico:


Se desea comparar la proporción de hipertensos
en dos razas humanas. Los datos son
Z= (p -p )-(π −π )
Raza A Raza B 1 2 1 2

n1 = 180 n2 = 120 √(p1q1/n1 + p2q2/n2)


p1 = 17% p2 = 23% hipertensos
q1 = 83% q2 = 77% no hipertensos Reemplazando:

Solución: Z= 17-23 = -1,26


a) H0 : π1=π2 √(17x83/180 + 23x77/120)
H1 : π1≠π2

c) Valor de p
p = 2x 0,1038 = 0,2076

d) Decisión y conclusión
No se rechaza Ho. Las dos razas no difieren
respecto a la proporción de hipertensos