Estadistica 2

CAPITULO 8
PROCESAMIENTO, ANÁLISIS ESTADÍSTICO E

INTERPRETACIÓN DE LA INFORMACIÓN
Una vez captada la información, ésta tendrá que ser revisada (control de calidad), después
habrá que procesarla y analizarla estadísticamente, para luego proceder a la interpretación de
los resultados. Las dos actividades mencionadas (procesamiento y análisis estadístico),
dependiendo de la cantidad de información, de los objetivos, hipótesis planteadas en el
protocolo, pueden efectuarse en forma manual o con computadora. Así por ejemplo, si se tienen
pocos casos, pocas variables y sólo se pretende llegar hasta un análisis bivariado (relación entre
dos variables), para el procesamiento y análisis respectivo, quizás no sea necesario utilizar una
computadora. Pero, efectuar un análisis multivariado (más de dos variables) aunque sea con
pocos casos en una simple calculadora ya sería muy laborioso, por decir lo menos.
Para iniciar el procesamiento de la masa de información captada, ésta tiene que ser
clasificada; es decir, se deberán agrupar las observaciones en categorías o intervalos de clase
(en lo posible mutuamente excluyentes), para una adecuada presentación ya sea en forma
tabular o gráfica. Asimismo, dependiendo del tipo de variable, se tendrán que calcular las
medidas descriptivas de resumen (datos sin agrupar), entre las que destacan: las tasas,
proporciones (%), razones, medidas de tendencia central y las correspondientes medidas de
dispersión. De estas dos últimas son particularmente importantes la media aritmética y la
desviación estándar.
Al presentar la información a través de tablas, éstas deberán contener preferentemente una
o dos variables (tablas de doble entrada), ya que la descripción e interpretación de tablas de
más de dos variables pueden resultar inadecuadas. Para el protocolo es recomendable elaborar
los esquemas de las tablas que se utilizarán para la presentación y análisis de los datos.
Asimismo, deberán bosquejarse los posibles gráficos que permitirán visualizar los datos del
estudio definitivo.
Los métodos para el análisis estadístico de los datos deberán elegirse según los objetivos
planteados y de acuerdo con las hipótesis que se deseen contrastar. Actualmente existen
muchos programas estadísticos para computadoras personales, lo que facilita el trabajo.
PRINCIPALES METODOS DE ANÁLISIS ESTADÍSTICO

A continuación indicaremos los métodos estadísticos más utilizados en los trabajos de
investigación de Ciencias de la Salud, de la Conducta y otras.
CASOS DE INTERES PRUEBAS PRUEBAS NO

PARAMETRICAS PARAMETRICAS
Estudios con una sola muestra
• Estimación de la media (  ) “t” – Student
• Estimación de la proporción (  ) “Z”
• Prueba de hipótesis para (  ) “t” – Student
• Prueba de hipótesis para (  ) “Z”
• Bondad de ajuste Kolmogorov;  2
Estudios con dos muestras
Muestras Independientes
• Diferencia de promedios “t” – Student U de Mann Whitney
• Independencia (2 x 2); n <20 Fisher
• Independencia (2 x 2) 2 Yates
2
• Independencia (r x c)  sin corregir
• Numérica y categórica Mediana
• Ambas numéricas Kolmogorov
• Diferencias en tendencia central Wald
• Experimental y control Moses
Muestras Relacionadas
1
Bobadilla, Mendoza, Ramírez, Zavala, Palomino, Santillán, Yglesias
• Diferencia pre pos test
• Antes después (dicotómica) “t” pareada Wilcoxon
• Diferencia de dos muestras McNemar o Kappa
Hay relación en las variables De los signos
• Ambas nominales
Riesgo relativo
• Ambas numéricas Odds Ratio
• Ambas ordinales Regresión; r de Pearson
R de Sperman
Estudios con más de dos
muestras
Muestras Independientes
• Diferencia de promedios ANVA Kruskal Wallis
• Numérica y Ordinal Mediana
Muestras Relacionadas
• Variables numéricas ANVA Bloques aleat. Friedman
• Homogeneidad (dicotómica) Q de Cochran
• Concordancia Kendall
METODOS DE ANALISIS PRUEBAS

MULTIVARIANTES MULTIVARIANTES
I. Métodos predictivos
Regresión lineal múltiple
Análisis de la covarianza
Análisis de la varianza
Regresión logística múltiple
Análisis discriminante
II. Métodos reductivos
Componentes principales
Análisis factorial
Correlación canónica
Análisis cluster
Análisis de correspondencias
Aquí presentamos detalles de algunas de estas pruebas estadísticas.
1. Estimación de la media poblacional ()
Ls
S
µ = x ± t (n−1)
n
Li
Donde:
x = media aritmética muestral
S = desviación estándar muestral.
t n −1 = coeficiente de confiabilidad (distribución t, con n-1 grados de libertad)
Ls = limite superior del intervalo de confianza (+)
Li = limite inferior del intervalo de confianza (-)
Ejemplo: Una muestra de 26 niños recién nacidos tiene una media de 65 centímetros de
estatura y una desviación estándar de 4,2 cm. Calcular los límites de la media de la
población con una confianza del 95%.
Solución:
Datos:
x = 65; S = 4,2; n = 26; t(26-1) = 2,0595
2
4,2
µ = 65 ± 2,0595 = 65 ± 1,6964
26
Ls = 65 + 1,6964 = 66,6964 = 66,7
Li = 65 - 1,6964 = 63,3036 = 63,3
63,3 <  < 66,7
2. Estimación de la proporción poblacional (π )
Ls
pq
π = p ± Z(α )
2 n
Li
Donde:
p = proporción muestral
q = 1- p
Za/2 = Coeficiente de confiabilidad (de la distribución normal estándar), este valor
depende del nivel de confianza utilizado para la estimación.
Tabla resumen de niveles de confianza más utilizados
Nivel
Valor 90% 95% 99%
 0,10 0,05 0,01
Zα 1,282 1,645 2,327
Zα/2 1,645 1,960 2,576
Ejemplo: Se desea estimar la proporción de niños desnutridos menores de 5 años de la

comunidad campesina de Cátac. Para tal efecto, se selecciona una muestra de 100 niños
menores de 5 años y se determina que 60 están desnutridos. Estime usted el intervalo
confidencial para la proporción de desnutridos, con un nivel de confianza del 90%.
Solución:
Datos:
D = 60; n = 100; p = 60/100 = 0,6
Q = 1 – p = 1 – 0,6 = 0,4 Zα/2 = 1,645
(0,6)(0,4)
π = 0,60 ± 1,645 = 0,60 ± 0,08
100
Ls = 0,60 + 0,08 = 0,68
Li = 0,60 - 0,08 = 0,52
0,52 < π < 0,68
3
3. Determinación de la relación entre dos variables categóricas:
Para determinar si existe una relación estadísticamente significativa entre dos variables
expresadas cualitativamente, tales como: estado civil con opinión (favorable o desfavorable)
resultado de un diagnóstico (positivo o negativo), control prenatal (si o no) con ruptura
prematura de la membrana (si o no), tipo de la lactancia durante el primer mes (materna,
artificial o ambas), al menos una diarrea en el mismo período, etc. se puede utilizar el
contraste de Ji-cuadrado (X2). Si la tabla es de (r filas y c columnas). Si la tabla es de 2x2,
se tendrá que tener en cuenta que si hay frecuencias esperadas menores que cinco (5) se
tiene que utilizar la prueba exacta de Fisher. En caso contrario se deberá usar la prueba X2
corregida (corrección de yates).
Se deberá tener en cuenta que en las tablas de (r*c) Las frecuencias esperadas no
deben ser menores que cinco (5), si es el caso, se debe reducir el número de filas o
columnas para así de esa manera no tener frecuencias esperadas menores que cinco si esto
persiste, la prueba X2 no es la prueba más adecuada. Las fórmulas correspondientes son:
a. Ji cuadrado sin corregir (tablas r*c)
(o i − Ei )2 Tc i * Tf j
Χ2 = Σ , Ei = ,donde
Ei n
Oi = frecuencias observadas, y
Ei = frecuencias esperadas
Tci = Total de la columna i
Tfj = Total de la fila j
Si el resultado indica la existencia de una asociación significativa, se debe cuantificar
la intensidad de la asociación, a través del coeficiente de contingencia C :
 X2 
C =  2  , donde

 X + n
2
X = es el valor calculado
n = tamaño de muestra
Ejemplo: En la siguiente tabla se dan los resultados obtenidos en el curso de
Estadística por 435 estudiantes de Enfermería de las Universidades Nacionales de la
ciuad de Lima, en el 2001. Contraste la hipótesis de que los resultados obtenidos son
independientes del sexo; con un nivel se significación del 5%.
Notas Sexo
Estadística Masc. Femen. Total
0 ≤ nota ≤10 15 110 125
10 < nota ≤14 25 160 185
14 < nota ≤20 30 95 125
Total 70 365 435
4
Solución:
1. En forma manual
Planteamiento de la Hipótesis:
H0: Los resultados obtenidos en el curso de Estadística son independientes del sexo
de los estudiantes.
H1: Los resultados obtenidos en el curso de Estadística están en relación con el sexo
de los estudiantes.
Nivel de significación = 5%  = 0,05
Los resultados se tendrán que contrastar con los valores de la tabla de la distribución
Ji cuadrado con (f-1)*(c-1) grados de libertad y  = 0,05 ( X2(3-1)*(2-1);0,05))
X22; 0,05 = 5,991 (valores de la tabla Ji- Cuadrado)
70 * 125 365 * 125

E11 = = 20,115 E12 = = 104,885; etc.
435 435
Siendo el resultado el siguiente:
(15 − 20,115)2 (25 − 29,77)2 (95 − 104,885)2

X2 = + + ... +
20,115 29,77 104,885
X2 = 8,250
Decisión
Como X2 = 8,250 > X22; 0,05 = 5,991
El valor calculado es mayor que el valor de la tabla, se concluye que a un nivel de
significación del 5%, las notas del curso de estadística están en relación al sexo de los
estudiantes.
2. Resultados obtenidos utilizando el statcalc del EPIINFO:
Análisis de Tabla Simple
+-----------------+
¦ 15 ¦ 110 ¦ 125 Chi = 8,25
+--------+--------¦ 2 grados de libertad.
¦ 25 ¦ 160 ¦ 185 valor p = 0,01615997 <---
+--------+--------¦
¦ 30 ¦ 95 ¦ 125 Lo que indica que la asociación
+-----------------+ es estadísticamente significativa.
70 365 435
b. Prueba exacta de Fisher. Si tenemos una tabla de 2*2, de la siguiente manera:
Variable 2
Variable 1 Total
(+) (-)
I a b a+b
II c d c+d
Total a+c b+d n
El valor de p ( nivel de significación ) se calcula:
5
(a + c)!*(b + d)!*(a + b)!*(c + d)!
P =
a!*b!*c!*d!*n!
La prueba exacta de Fisher se deberá utilizar siempre que la tabla sea de 2*2 y
exista por lo menos una frecuencia esperada menor que 5. En caso contrario se utilizará
la prueba Ji cuadrado con corrección de Yates. Que es de la siguiente forma
n 2
n( a * d − b * c −)
Χ 2
= 2
(a + c)(b + d)(a + b)(c + d)
4. Asociación entre dos variables numéricas (escala de intervalo o de razón):

Para estudiar la naturaleza y fuerza de la relación de variables como: edad y peso,
coeficiente intelectual y puntajes en una prueba, dosis de un medicamento y frecuencia
cardiaca, edad y presión arterial, etc.; y, cuando al graficar los puntos se observa una
tendencia lineal, puede usarse el análisis de regresión y correlación lineales simples y, si es
de tipo no lineal – como una exponencial, parabólica, etc. se recurrirá al análisis de
regresión y correlación no lineales simples.
- Cuando existe una tendencia lineal
a. Análisis de regresión lineal simple
Para el análisis de regresión lineal, los puntos se ajustan al modelo:
Y= a + bX
Donde:
Y: variable dependiente; cuyos valores se desea estimar o predecir.
X: variable independiente; cuyos valores se usan para efectuar la estimación o
predicción.
a: intercepto (coeficiente de posición)
b: coeficiente de regresión (coeficiente angular)
Los coeficientes  (a) y  (b) se calculan manualmente en la siguiente manera:
n∑ XY − ∑ X∑ Y σ xy
b= =
n∑ X 2
− (∑ X)2 σ 2x
a = Y −b*X
donde;
xy = covarianza de X,Y
2x = varianza de X
X = media aritmética de X
Y = media aritmética de Y
n = tamaño de la muestra
Una vez calculado el valor de a y b y, previa comprobación de la linealidad de los
datos (puntos), el modelo estará listo para ser utilizado; por ejemplo, en la predicción o
estimación de un valor de Y dado un valor de X.
Ejemplo: Se tiene información en cuanto a estatura (cm) y peso (kg) de 10
pacientes que fueron sometidos a vasectomía en el Hospital Nacional Cayetano Heredia
el día 22 de Mayo del 2002.
6
ESTATURA X 15 15 18 16 17 16 18 17 16 16
0 5 0 0 0 5 5 5 0 5
PESO Y 55 50 85 65 75 60 80 70 65 60
a. Encuentre los coeficientes de la recta de regresión

b. Presente la ecuación de la recta de regresión
c. Cuánto pesaría un paciente que tiene una estatura de 167 centímetros?
Solución:
a. De los datos, obtenemos lo siguiente:
n = 10 Σx = 1665; Σy = 665;
Σxy = 111700; Σx2 = 278325; Σy2 = 45325;
ΣxΣy = 1107225; (Σx)2 = 2772225; (Σy)2 = 442225;
nΣxy = 1117000; nΣx2 = 2783250; nΣy2 = 453250.
X = 166,5 Y = 66,5 X *Y = 11072,25
de lo cual; reemplazando en las fórmulas, tenemos:
n∑ XY − ∑ X∑ Y σ xy
b= =
n∑ X 2
− (∑ X)2 σ 2x
a = Y −b*X
1117000 − 1107225
b=
2783250 − 272225
9775
b= = 0,886621315 ≅ 0,89
11025
a = 66,5 − 0,886621315 * 166,5 = −81,1224489

a ≈ −81,12
b. La recta de regresión sería la siguiente:
Y = - 81,12 + 0,89*X
c. Para saber cuánto pesaría un paciente que tiene una estatura de 167 centímetros, se
reemplaza el valor 167 en la variable X de la ecuación de regresión:
Y = -81,12 + 0,89*167 = 67,51
Por lo tanto, un paciente con una estatura de 167 cm, pesará 67,51 kilogramos.
b. Correlación lineal simple
7
Al efectuar el análisis de correlación lineal, la fuerza con que podrían estar
relacionadas las variables X e Y, se mide con el coeficiente de correlación de Pearson
denotado por r, está definido como:
n∑ xy − (∑ x)(∑ y)
r =
n(∑ x ) − (∑ x)2 * n(∑ y 2 ) − (∑ y)2
2
El recorrido del coeficiente de correlación muestral r está en el intervalo:

-1 ≤ r ≤ 1
Valores positivos de r, indican que la relación entre las variables es directa; valores
negativos, relación indirecta.
Guía para la interpretación de r :
Valor de r Interpretación
0,00 Ausencia de correlación lineal

± 0,1 a ± 0,19 Correlación lineal insignificante
± 0,2 a ± 0,39 Correlación lineal baja , leve
± 0,4 a ± 0,69 Correlación lineal moderada
± 0,7 a ± 0,99 Correlación lineal alta a muy alta
± 1,0 Correlación lineal perfecta
Ejemplo: Con los datos del ejemplo anterior, encontrar el coeficiente de correlación
de Pearson y luego evalúe si el valor encontrado es estadísticamente significativo.
Solución:
De los datos, reemplazando en la fórmula, tenemos:
1117000 − 1107225
r =
2783250 − 2772225 * 453250 − 442225
9775
r =
11025 * 11025
r = 0,886621315 ≅ 0,89
Según el resultado obtenido, podemos decir, que la correlación que existe es alta a
muy alta. Pero para interpretar realmente este resultado debemos elevarlo al cuadrado
(r2), que recibe el nombre de Coeficiente de determinación.
Por lo tanto el coeficiente de determinación será igual a:
r2 = (0,89)2 = 0,7921 ≈ 79,21%
En consecuencia, se puede afirmar que el 79,21% de la variación de la variable peso
se debe a la presencia de la variable estatura.
5. Asociación entre dos variables medidas en escala ordinal.

Cuando la escala de las variables es de tipo ordinal, se utiliza el coeficiente de
correlación de Spearman, llamada también por rangos; se usa en problemas en los que no
8
es posible efectuar una medición precisa y se hace necesario establecer una jerarquía entre
los elementos de la muestra, en base a alguna cualidad o atributo.
El coeficiente de correlación de Spearman denotado por rs, está definido como:
6∑ D i2
rs = 1 −
n(n2 − 1)
En particular, es apropiado en situaciones en que el número de casos está comprendido

entre 25 y 30 o aún menos.
Es mucho más rápido y fácil de calcular que el coeficiente de Pearson.
Ejemplo: Supongamos que el Ministerio de Salud ordena a 15 de las mejores enfermeras

de los diferentes Hospitales de la capital, pertenecientes a dicho Ministerio, de acuerdo a la
eficiencia en dos horarios de trabajo (Tarde y Noche). Se desea calcular el coeficiente de
correlación por rangos entre estos datos.
Rango para Rango para

el turno el turno Di D2i
Enfermera Tarde Noche
A 1 14 -13 169
B 2 15 -12 169
C 3 12 -9 81
D 4 3 1 1
E 5 13 -8 64
F 6 2 4 36
G 7 9 -2 4
H 8 1 7 49
I 9 7 2 4
J 10 5 5 25
K 11 4 7 49
L 12 10 2 4
M 13 6 7 49
N 14 8 6 36
O 15 11 4 16
736
6(736) 4416
rs = 1 − =1− = 1 − 1,31428571
2
15(15 − 1) 15(224)
r s = 0,31428571 ≈ 0,31
Como el resultado es igual a 0,31 podemos concluir que la correlación es baja o débil.
9

Estadistica 2

Diunggah oleh

Informasi Dokumen

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Estadistica 2

Diunggah oleh

Hak Cipta:

Format Tersedia

CAPITULO 8

PROCESAMIENTO, ANÁLISIS ESTADÍSTICO E

PRINCIPALES METODOS DE ANÁLISIS ESTADÍSTICO

CASOS DE INTERES PRUEBAS PRUEBAS NO

METODOS DE ANALISIS PRUEBAS

Aquí presentamos detalles de algunas de estas pruebas estadísticas.

1. Estimación de la media poblacional ()

63,3 <  < 66,7

2. Estimación de la proporción poblacional (π )

Tabla resumen de niveles de confianza más utilizados

Ejemplo: Se desea estimar la proporción de niños desnutridos menores de 5 años de la

0,52 < π < 0,68

a. Ji cuadrado sin corregir (tablas r*c)

0 ≤ nota ≤10 15 110 125

10 < nota ≤14 25 160 185

14 < nota ≤20 30 95 125

Total 70 365 435

70 * 125 365 * 125

(15 − 20,115)2 (25 − 29,77)2 (95 − 104,885)2

b. Prueba exacta de Fisher. Si tenemos una tabla de 2*2, de la siguiente manera:

Total a+c b+d n

El valor de p ( nivel de significación ) se calcula:

4. Asociación entre dos variables numéricas (escala de intervalo o de razón):

a. Encuentre los coeficientes de la recta de regresión

a. De los datos, obtenemos lo siguiente:

Σxy = 111700; Σx2 = 278325; Σy2 = 45325;

ΣxΣy = 1107225; (Σx)2 = 2772225; (Σy)2 = 442225;

nΣxy = 1117000; nΣx2 = 2783250; nΣy2 = 453250.

X = 166,5 Y = 66,5 X *Y = 11072,25

de lo cual; reemplazando en las fórmulas, tenemos:

a = 66,5 − 0,886621315 * 166,5 = −81,1224489

b. La recta de regresión sería la siguiente:

b. Correlación lineal simple

El recorrido del coeficiente de correlación muestral r está en el intervalo:

Guía para la interpretación de r :

0,00 Ausencia de correlación lineal

5. Asociación entre dos variables medidas en escala ordinal.

En particular, es apropiado en situaciones en que el número de casos está comprendido

Ejemplo: Supongamos que el Ministerio de Salud ordena a 15 de las mejores enfermeras

Rango para Rango para

Anda mungkin juga menyukai