FACULTAD DE INGENIERÍA:
ESCUELA PROFESIONAL DE INGENIERÍA DE MINAS
TEMA:
TRABAJO DE ESTADISTICA
ALUMNO:
López Garíza, Jonel
CURSO:
TESIS V
DOCENTE:
Vargas Alva Ylder Heli
CICLO:
VII
TURNO:
Viernes 3.45 pm – 6:45 pm
SEMESTRE ACADÉMICO:
2018 – I
MOCHE - PERÚ
2018
1
I. ESTIMACION DE INTERVALOS DE CONFIANZA
Una estimación del intervalo de confianza es un rango de números, llamado intervalo, construido
la probabilidad del parámetro de la población se localice en algún lugar dentro del intervalo conocido.
Sin embargo, la media de la muestra puede variar de una muestra a otra porque depende de los elementos
2
Se emplea la siguiente fórmula:
Donde:
Se llama valor crítico al valor de Z necesario para construir un intervalo de confianza para la distribución.
El 95% de confianza corresponde a un valor (de 0,05. El valor crítico Z correspondiente al área acumulativa
de 0,975 es 1,96 porque hay 0,025 en la cola superior de la distribución y el área acumulativa menor a Z
= 1,96 es 0,975.
El valor de Z es aproximadamente 2,58 porque el área de la cola alta es 0,005 y el área acumulativa menor
a Z = 2,58 es 0,995.
Ejemplo ilustrativo
Solución:
3
Con lectura en la tabla de la distribución normal para un área de 0,025 se obtiene Z = -1,96. Por simetría
Interpretación: Existe un 95% de confianza de que la media poblacional se encuentre entre 23,02 y 24,98
4
EJEMPLO:
Un fabricante de papel para computadora tiene un proceso de producción que opera continuamente a lo
largo del turno. Se espera que el papel tenga una media de longitud de 11 pulgadas. De 500 hojas se
selecciona una muestra de 29 hojas con una media de longitud del papel de 10,998 pulgadas y una
desviación estándar de 0,02 pulgadas. Calcular la estimación del intervalo de confianza del 99%
Solución:
5
Como en los datos aparece el tamaño de la población, se debe verificar si el tamaño de la nuestra es mayor
que el 5% para emplear la fórmula con el factor finito de corrección. Se remplaza valores en la siguiente
fórmula:
6
Los cálculos en Excel se muestran en la siguiente figura:
Interpretación: Existe un 99% de confianza de que la media poblacional se encuentra entre 10,998 y
11,008
En el grafico se muestra lo siguiente
7
Estimación del intervalo de confianza para una proporción
Sirve para calcular la estimación de la proporción de elementos en una población que tiene ciertas
características de interés. ´
8
Ejemplo ilustrativo
En un almacén se está haciendo una auditoria para las facturas defectuosas. De 500 facturas de venta se
escoge una muestra de 30, de las cuales 5 contienen errores. Construir una estimación del intervalo de
confianza del 95%.
Solución:
Los datos del problema son:
9
Como en los datos aparece el tamaño de la población, se debe verificar si el tamaño de la nuestra es mayor
que el 5% para emplear la fórmula con el factor finito de corrección. Se remplaza valores en la siguiente
fórmula:
Con lectura en la tabla de la distribución normal para un área de 0,025 se obtiene Z = -1,96, y por simetría
Z =1,96
Calculando la proporción de la muestra se obtiene:
10
II. PRUEBAS PARAMÉTRICAS Y NO PARAMÉTRICAS:
Métodos paramétricos
• Se busca estimar los parámetros de una población en base a una muestra.
• Se conoce el modelo de distribución de la población, presenta variables cuantitativas continuas
(medibles).
• Mientras más grande sea la muestra más exacta será la estimación, mientras más pequeña,
más distorsionada será la media de las muestras.
Pruebas paramétricas
Ventajas de las Pruebas Paramétricas
• Tienen más poder de eficiencia
• Más sensibles a los rasgos de los datos recolectados
• Menos posibilidad de errores
• Dan estimaciones probabilísticas bastante exactas
Desventajas de las Pruebas Paramétricas
• Más complicadas de calcular.
• Limitaciones en los tipos de datos que se pueden evaluar.
11
12
Tipo de pruebas paramétricas
• Prueba del valor Z de la distribución normal
• Prueba T de Student para datos relacionados (muestras dependientes)
• Prueba T de Student para datos no relacionados (muestras independientes)
• Prueba T de Student-Welch para dos muestras independientes con varianzas no homogéneas
• Prueba F (análisis de varianza o ANOVA)
Prueba del valor Z de la distribución nominal
Formación de la curva de probabilidad estándar normal
(Forma de campana)
Se ubican tres medidas de tendencia central
Formula:
13
Parámetros de estimación
• Media
• Desviación estándar
Pasos
1. Calcular el promedio y la desviación estándar de las observaciones de la
Muestra en estudio.
Métodos no paramétricos
14
Las pruebas paramétricas, asumen como distribución muestral la distribución Normal, este
supuesto no siempre se cumple, sin embargo recurrimos a que estos métodos paramétricos son
robustos. Además estos métodos son preferidos porque tienen mayor potencia.
¿Pero qué hacemos cuando no se cumple la normalidad o tenemos muy pocos datos?
Opciones:
Ejemplo:
Se tienen datos sobre la emisión de monóxido de Carbono de 46 vehículos del mismo tipo
(Monoxido.sav).
EN HC CO NOX
1 0.5 5.01 1.28
2 0.65 14.67 0.72
3 0.46 8.6 1.17
. . . .
. . . .
. . . .
44 0.46 3.99 2.01
45 0.47 5.22 1.12
46 0.55 7.47 1.39
A los investigadores les interesa calcular un intervalo de confianza para la media del monóxido
de Carbono.Si analizamos el histograma adjunto, vemos que la distribución del monóxido de
15
Carbono es sesgada a la derecha, por lo que la media no será un buen estimador del centro de la
distribución y por lo tanto la estimación por intervalo de confianza tampoco será adecuada. Como
solución podemos transformar la variable usando el logaritmo natural y calculamos el promedio
de la nueva variable. Pero al investigador le interesa conocer el intervalo de confianza en las
unidades originales de la variable, para eso convertimos a la unidad original de CO con
exponencial (
1, 7061
5,507 2,0691 7,918 ).
14
12
Intervalo de confianza 95% para la media
10 del log CO (1,7061 - 2,0691)
8
Monóxido de Carbono
12
10
Log(CO)
16
¿Qué pasa con el supuesto de Normalidad?
Pruebas de normalidad
a
Kolmogorov-Smirnov Shapiro-Wilk
Es tadístico gl Sig. Es tadístico gl Sig.
Monóxido de Carbono .187 46 .000 .842 46 .000
Log(CO) .104 46 .200* .970 46 .266
*. Es te es un límite inferior de la significación verdadera.
a. Corrección de la significación de Lilliefors
0
Normal esperado
-1
-2
-3
-10 0 10 20 30
V alor observado
0
Normal esperado
-1
-2
-3
.5 1.0 1.5 2.0 2.5 3.0 3.5
V alor observado
17
3. También existen métodos paramétricos que asumen otras distribuciones,
por ejemplo para el tiempo que demora en fallar un producto se usa una
distribución de Weibull (ver diagrama adjunto).
18
4. Finalmente, existen los métodos que no asumen una distribución, también
llamados de distribución libre o no paramétricos.
Existen dos grandes tipos de test no paramétricos, los que usan cuentas o números y los
que usan rangos. En este capítulo revisaremos del test de suma de rangos de Wilcoxon
y el Test de Kruskal-Wallis.
19
Ejemplo: Se tienen dos parcelas experimentales. En una de las parcelas se sacó
completamente la maleza y en la otra se dejó hasta 3 malezas por metro cuadrado.
¿Dañará la presencia de maleza la producción de maíz?
Malezas
por metro cuadrado Producción de maíz
Hipótesis
En este problema la hipótesis nula es que la maleza no afecta la producción de maíz. La
hipótesis alternativa es que la producción es menor cuando hay maleza. Si estamos
dispuestos a asumir que la producción de maíz es Normal, o si tenemos un tamaño
muestral razonablemente grande, usamos el test t para medias independientes. Las
hipótesis son:
H 0 : 1 2
H1 : 1 2
H 0 : mediana 1 mediana 2
H1 : mediana 1 mediana 2
20
Pruebas de normalidad
a
Kolmogorov-Smirnov Shapiro-Wilk
WEEDS Es tadístico gl Sig. Es tadístico gl Sig.
YIELD 0 .241 4 . .938 4 .640
3 .341 4 . .819 4 .140
a. Corrección de la significación de Lilliefors
.5
0.0
Normal esperado
-.5
-1.0
164 166 168 170 172 174 176 178
V alor observado
.5
0.0
Normal esperado
-.5
-1.0
150 160 170 180
V alor observado
Tenemos muy pocos datos por lo tanto será adecuado hacer un test no paramétrico.
Este es un test de rangos. El primer paso será calcular los rangos de las observaciones.
Transformación a rangos
21
Ordenamos los datos de menor a mayor:
Rango 1 2 3 4 5 6 7 8
Pasar de los datos a sus rangos, es equivalente a transformar los datos. Los rangos
retienen solamente el orden de las observaciones y no el valor numérico.
Si la presencia de maleza afecta la producción de maíz esperamos que los rangos más
pequeños sean de ese grupo. Podemos comparar la suma de los rangos de los dos
tratamientos:
Sin maleza 23
Con maleza 13
n(n 1) 8 9
Por definición la suma de rangos de 1 a 8 es: 36 , donde n es el
2 2
número total de observaciones.
Por lo tanto podemos calcular la suma en uno de los grupos y el otro tiene que ser la
diferencia (36- 23=13)
Si no hay diferencia entre los tratamientos esperamos que los rangos sean la mitad en
cada grupo, es decir 18.
Test de suma de rangos de Wilcoxon
Se tiene una m.a.s de tamaño n1 de una población, y una segunda m.a.s de tamaño n2
de otra población. Hay n observaciones en total, donde n = n1 + n2. Se calcula el rango
de las n observaciones. El test estadístico será la suma W de los rangos del grupo con
22
menor suma de rangos, este será el estadístico de suma de rangos de Wilcoxon. Si las
dos poblaciones tienen la misma distribución continua, entonces W tiene media:
n1 (n 1) n1n2 (n 1)
W y desviación estándar: W
2 12
Donde n1 será el tamaño muestral del grupo con menor suma de rangos.
El test de suma de rangos de Wilcoxon rechaza la hipótesis nula de que las dos
poblaciones tienen la misma distribución cuando la suma de rangos W está lejos de su
media.
versus
4(8 1)
Bajo Ho W tiene media: W 18 y desviación estándar:
2
4 4(8 1)
W 3,4641
12
23
Existen tablas que dependen de n1 + n2.
Estadísticos de contrasteb
YIELD
U de Mann-Whitney 3.000
W de Wilcoxon 13.000
Z -1.443
Sig. as intót. (bilateral) .149
Sig. exacta [2*(Sig. a
.200
unilateral)]
Sig. exacta (bilateral) .200
Sig. exacta (unilateral) .100
Probabilidad en el punto .043
a. No corregidos para los empates.
b. Variable de agrupación: WEEDS
Prueba de Levene
para la igualdad de
varianzas Prueba T para la igualdad de medias
95% Intervalo de
confianza para la
Diferencia Error típ. de diferencia
F Sig. t gl Sig. (bilateral) de medias la diferencia Inferior Superior
YIELD Se han asumido
1.256 .305 -1.554 6 .171 -9.175 5.9056 -23.6254 5.2754
varianzas iguales
No se han asumido
-1.554 4.495 .187 -9.175 5.9056 -24.8832 6.5332
varianzas iguales
La aproximación Normal
24
El estadístico de suma de rangos W se aproxima a la distribución Normal cuando n es
grande. Entonces podemos formar un test z para estandarizar a W:
W W
z
W
13 18
z 1,44
3,4641
Empates
La distribución exacta de test de Wilcoxon para suma de rangos se obtiene asumiendo
que todas las observaciones tienen diferentes valores y por lo tanto su rango. En la
práctica ocurre que muchas veces tenemos valores iguales. Lo que hacemos es asignar
el valor promedio del rango que ocupan.
Ejemplo:
25
Rango 1 2 3,5 3,5 5 6
La distribución exacta del test de Wilcoxon se aplica a datos sin empates, por lo que
deberemos ajustar la desviación estándar en la presencia de empates.
Ejemplo:
La comida que se vende en eventos al aire libre puede ser menos segura que la de
restoranes porque se prepara en lugares no acondicionados y a menudo por voluntarios.
¿Qué pensará la gente acerca de la seguridad de la comida en ferias? Un estudio
preguntó a asistentes a este tipo de eventos:
¿Qué tan a menudo piensa usted que se enferma la gente que consume comida en
eventos al aire libre?
1 = raramente
2 = de vez en cuando
3 = a menudo
4 = muy frecuentemente
5 = siempre
En total 303 personas respondieron a la pregunta. De estos 196 eran mujeres y 107
hombres.
26
Ta bla de contingencia Sex o * Respue sta
Recuento
Respuesta
1 2 3 4 5 Total
Sexo F 13 108 50 23 2 196
M 22 57 22 5 1 107
Total 35 165 72 28 3 303
% de Sex o
Respuesta
1 2 3 4 5 Total
Sexo F 6.6% 55.1% 25.5% 11.7% 1.0% 100.0%
M 20.6% 53.3% 20.6% 4.7% .9% 100.0%
Total 11.6% 54.5% 23.8% 9.2% 1.0% 100.0%
27
Rangos
Rango Suma de
Sexo N promedio rangos
Respuesta F 196 163.25 31996.50
M 107 131.40 14059.50
Total 303
Estadísticos de contrastea
Respuesta
U de Mann-Whitney 8281.500
W de Wilcoxon 14059.500
Z -3.334
Sig. as intót. (bilateral) .001
Sig. exacta (bilateral) .001
Sig. exacta (unilateral) .000
Probabilidad en el punto .000
a. Variable de agrupación: Sexo
Tenemos suficiente evidencia para concluir que existen diferencias significativas entre
la percepción acerca de la seguridad de la comida al aire libre entre hombres y mujeres.
Prueba de Levene
para la igualdad de
varianzas Prueba T para la igualdad de medias
95% Intervalo de
confianza para la
Diferencia Error típ. de diferencia
F Sig. t gl Sig. (bilateral) de medias la diferencia Inferior Superior
Respuesta Se han asumido
3.031 .083 3.361 301 .001 .33 .099 .138 .527
varianzas iguales
No se han asumido
3.365 218.856 .001 .33 .099 .138 .527
varianzas iguales
Pero en este caso, tenemos argumentos a favor del test no paramétrico. El test
paramétrico asume que las respuestas tienen valor numérico y en realidad en una escala
cualitativa. Usar rangos es más apropiado en este caso.
28
Test de Kruskal-Wallis
El test de suma de rangos de Wilcoxon sirve para comparar dos tratamientos. Ahora
veremos una alternativa no paramétrica al ANOVA de un factor es decir para comparar
más de dos tratamientos, que corresponde al test de Kruskal-Wallis.
Ejercicio: Veamos una nueva versión del problema de las malezas. El investigador en
realidad probó 4 tipos de malezas 0, 1, 3 y 9 por metro cuadrado.
4 170.200 5.4216
0
4 162.825 4.4687
1
4 161.025 10.4933
3
4 157.575 10.1181
9
.5 .5
0.0 0.0
Normal esperado
Normal esperado
-.5 -.5
-1.0 -1.0
164 166 168 170 172 174 176 178 156 158 160 162 164 166 168
29
Gráfico Q-Q normal de YIELD Gráfico Q-Q normal de YIELD
Para WEEDS= 3 Para WEEDS= 9
1.0 1.0
.5 .5
0.0 0.0
Normal esperado
Normal esperado
-.5 -.5
-1.0 -1.0
150 160 170 180 140 150 160 170
Ya analizamos que en este caso es difícil probar normalidad con tan pocos datos, por lo
tanto será conveniente usar un método no paramétrico.
Hipótesis y supuestos
H 0 : 1 2 ... k
H 1 : al menos dos medias no son iguales .
30
H0: las k poblaciones tienen la misma mediana
H1: no todas las medianas son iguales
Recordemos la idea del ANOVA: tenemos una variación total observada de la respuesta
como la suma de dos partes, una que mide la variación entre los grupos o tratamientos
(suma de cuadrados entre tratamientos, SCE) y la otra que mide la variación entre las
mediciones de un mismo tratamiento (suma de cuadrados dentro de los tratamientos,
SCD). El test F de ANOVA rechaza la hipótesis nula de que las medias son iguales si la SCE
es grande relativa a la SCD.
La idea del test de Kruskal-Wallis es calcular los rangos de todas las respuestas y luego
aplicar el ANOVA a los rangos en vez de las observaciones originales.
Test de Kruskal-Wallis
Se tienen k muestras aleatorias de tamaños n1, n2,..., nk. Hay n observaciones en total,
donde n es la suma de los ni. Se calcula el rango de las n observaciones y sea Ri la suma
de los rangos en el i-esima muestra o grupo. El estadístico de Kruskal-Wallis es:
12 k
Ri2
H 3(n 1)
n(n 1) i 1 ni
Cuando los tamaños ni son grandes y las k poblaciones tienen la misma distribución, H
tiene aproximadamente una distribución de Ji-cuadrado con (k-1) grados de libertad.
El test de Kruskal-Wallis rechaza la hipótesis nula de que todas las poblaciones tienen la
misma distribución cuando H es grande.
Vemos que así como el test de suma de rangos de Wilcoxon, el test de Kruskal-Wallis
está basado en suma de rangos, mientras mayor sea la diferencia entre los rangos de los
grupos mayor evidencia de que las respuestas son diferentes.
31
La distribución exacta del estadístico H de Kruskal-Wallis bajo la hipótesis nula depende
de los tamaños muéstrales n1, n2,..., nk, por lo tanto las tablas son terribles. El cálculo de
la distribución exacta es tan complicado que los softwares generalmente usan la
aproximación de 2 para obtener el valor p.
Tenemos que calcular los rangos de todos los datos ordenados. Luego calcular H. En SPSS
podemos calcular los rangos con: Transformar, Asignar rangos a casos
Ri2
Grupos Suma de Rangos
0 52,5 2756,25
1 33,5 1122,25
3 25,0 625,0
9 25,0 625,0
Total 136
32
12 2756,25 1122,25 625,0 625,0
H 3(17)
16(17) 4 4 4 4
H
12
1282,125 51 5,56
272
Rangos
Rango
WEEDS N promedio
YIELD 0 4 13.13
1 4 8.38
3 4 6.25
9 4 6.25
Total 16
Estadísticos de contrastea,b
YIELD
Chi-cuadrado 5.573
gl 3
Sig. as intót. .134
a. Prueba de Krus kal-Wallis
b. Variable de agrupación: WEEDS
La diferencia con el cálculo de SPSS se debe a la corrección por empates. Esta corrección
hace que la aproximación de Ji cuadrado sea más precisa. Es importante hacerla si hay
muchos empates.
33
180
170
160
150
140
YIELD
130
N= 4 4 4 4
0 1 3 9
WEEDS
ANOVA
YIELD
Suma de Media
cuadrados gl cuadrática F Sig.
Int er-grupos 340.667 3 113.556 1.735 .213
Int ra-grupos 785.542 12 65.462
Total 1126.209 15
Vemos que llegamos a la misma conclusión, es decir que las malezas no afectan
significativamente la producción de maíz.
Ejercicio:
Se tienen datos del contenido en calorías y sodio de 3 tipos de vienesas: cerdo, mixtas,
y de ave.
34
220
200
180
160
140
120
100
CALORIAS
80
60
N= 20 17 17
TIPOS
De scriptivos
CALORIAS
Int ervalo de confianza para
la media al 95%
Desviación Límite
N Media típica Error t ípico Límite inferior superior Mínimo Máximo
carne 20 155.80 25.220 5.639 144.00 167.60 90 190
mixto 17 158.71 25.236 6.121 145.73 171.68 107 195
ave 17 122.47 25.483 6.181 109.37 135.57 86 170
Total 54 146.22 29.696 4.041 138.12 154.33 86 195
CALORIAS
Es tadístico
de Levene gl1 gl2 Sig.
.301 2 51 .741
ANOVA
CALORIAS
Suma de Media
cuadrados gl cuadrática F Sig.
Int er-grupos 14074.369 2 7037.184 10.987 .000
Int ra-grupos 32664.965 51 640.490
Total 46739.333 53
35
CALORIAS
a,b
HSD de Tukey
Subconjunto para alfa
= .05
TIPOS N 1 2
ave 17 122.47
carne 20 155.80
mixto 17 158.71
Sig. 1.000 .937
Se muestran las medias para los grupos en los subconjuntos
homogéneos.
a. Us a el tamaño muestral de la media armónica =
17.895.
b. Los tamaños de los grupos no son iguales. Se utilizará
la media armónica de los tamaños de los grupos. Los
niveles de error de tipo I no están garantizados .
Ra ngos
Rango
TIPOS N promedio
CALORIAS carne 20 32.83
mixto 17 33.53
ave 17 15.21
Total 54
Estadísticos de contrastea,b
CALORIAS
Chi-cuadrado 15.179
gl 2
Sig. as intót. .001
a. Prueba de Kruskal-Wallis
b. Variable de agrupación: TIPOS
36
RANK of CALORIAS
a,b
HSD de Tukey
Subconjunto para alfa
= .05
TIPOS N 1 2
ave 17 15.206
carne 20 32.825
mixto 17 33.529
Sig. 1.000 .987
Se muestran las medias para los grupos en los subconjuntos
homogéneos.
a. Us a el tamaño muestral de la media armónica =
17.895.
b. Los tamaños de los grupos no son iguales. Se utilizará
la media armónica de los tamaños de los grupos. Los
niveles de error de tipo I no están garantizados .
Lo que hicimos fue calcular los rangos de la variable respuesta (calorías) y luego
analizamos paramétricamente la nueva variable. Esta propuesta no es absolutamente
convencional y fue publicada por:
37
La r de Spearman es en realidad el coeficiente de correlación lineal r de Pearson,
aplicado a los datos que satisfacen los requisitos de una escala ordinal. La ecuación más
sencilla para el cálculo de rs cuando no existen empates, o existen pocos, con respecto
al número de pares de datos (x, y) es:
6 R( X i ) R(Yi )
2
rs 1
n3 n
Donde: R( X i ) es el rango del i-ésimo dato X y R (Yi ) es el rango del i-ésimo dato Y.
1 6 5 1 1
2 5 3 2 4
3 7 4 3 9
4 10 8 2 4
5 2 1 1 1
6 3 6 -3 9
7 9 10 -1 1
8 1 2 -1 1
9 11 9 2 4
10 4 7 -3 9
11 8 11 -3 9
12 12 12 0 0
38
52
6 52
rs 1 1 0,182 0,818
123 12
PSI1 PSI2
Rho de Spearman PSI1 Coefic ient e de
1.000 .818**
correlación
Sig. (bilateral) . .001
N 12 12
PSI2 Coefic ient e de
.818** 1.000
correlación
Sig. (bilateral) .001 .
N 12 12
**. La correlación es significativa al nivel 0,01 (bilateral).
Correlaciones
PSI1 PSI2
PSI1 Correlación de Pears on 1 .818**
Sig. (bilateral) . .001
N 12 12
PSI2 Correlación de Pears on .818** 1
Sig. (bilateral) .001 .
N 12 12
**. La correlación es significativa al nivel 0,01
(bilateral).
39
14
12
10
2
PSI1
0
0 2 4 6 8 10 12 14
PSI2
En este caso los dos coeficientes de correlación son iguales, pero tenemos argumentos
a favor de usar un método no paramétrico.
III. ANALISIS DE REGRESIÓN
Investigar si existe una asociación entre las dos variables testeando la hipótesis de
independencia estadística.
Estudiar la fuerza de la asociación, a través de una medida de asociación denominada
coeficiente de correlación.
Estudiar la forma de la relación. Usando los datos propondremos un modelo para la
relación y a partir de ella será posible predecir el valor de una variable a partir de la
otra.
Para ello proponemos un MODELO que relaciona una variable dependiente (Y) con una
variable independiente (X).
La decisión sobre qué análisis usar en una situación particular, depende de la naturaleza del
RESULTADO y del tipo de función que se propone para relacionar el RESULTADO y la variable
independiente.
40
TIPOS DE ANÁLISIS DE REGRESION:
La regresión lineal simple examina la relación lineal entre dos variables continuas: una
respuesta (Y) y un predictor (X). Cuando las dos variables están relacionadas, es posible
predecir un valor de respuesta a partir de un valor predictor con una exactitud mayor que
la asociada únicamente a las probabilidades.
La regresión proporciona la línea que "mejor" se ajusta a los datos. Esta línea se puede
utilizar después para:
La regresión lineal múltiple examina las relaciones lineales entre una respuesta continua y
dos o más predictores.
La función más simple para la relación entre dos variables es la FUNCIÓN LINEAL.
Y=a+bX
41
Esta expresión es una aproximación de la verdadera relación entre X e Y.
Para un dado valor de X el modelo predice un cierto valor para Y.
Mientras mejor sea la predicción, mejor es el modelo para explicar el fenómeno.
Podemos predecir exactamente la posición de un objeto que cae en caída libre y en el vacío
para cada instante de tiempo.
Niños de la misma edad seguramente no tendrán la misma altura. Sin embargo, a través de un
modelo estadístico es posible concluir que la altura aumenta con la edad. Es más, podríamos
42
predecir la altura de un niño de cierta edad y asociarle un ERROR DE PREDICCIÓN que tiene en
cuenta: ERRORES DE MEDICIÓN y VARIABILIDAD ENTRE INDIVIDUOS.
Cinco ratas fueron asignadas aleatoriamente a una de cinco dosis y se registró la máxima
disminución observada en la frecuencia cardiaca en una hora. Los datos obtenidos son:
Yi = β0 + β1 * Xi + ei
Ejm:
yi = 5.5 + 3.5 * xi
yi = 0.5 + 7.0 * xi
43
Para decidir cuál de las dos rectas ajusta mejor estos datos consideraremos una medida de
cuán lejos está cada dato de la recta propuesta ⇒ RESIDUO.
La mejor recta sería aquella que minimice la suma de las distancias al cuadrado de los puntos a
la recta, es decir deberíamos encontrar tales que:
Este método para encontrar la recta que mejor ajuste a los datos se conoce como:
Afortunadamente no es necesario probar con diferentes rectas cuál de ellas es la que produce
la menor suma de cuadrados, ya que es posible encontrar analíticamente las expresiones para
44
y se obtiene:
45
NOTACIÓN:
VALOR PREDICHO:
PENDIENTE ESTANDARIZADA:
La pendiente β1 nos indica si hay relación entre las dos variables, su signo nos indica si la relación
es positiva o negativa, pero no mide la FUERZA de la asociación.
La razón es que su valor numérico depende de las unidades de medida de las dos variables. Un
cambio de unidades en una de ellas puede producir un cambio drástico en el valor de la
pendiente.
Ejemplo:
Por esa razón, puede resultar interesante considerar una versión estandarizada de la pendiente:
donde Sx y Sy son las desviaciones estándares de las X’s y de las Y’s respectivamente.
46
el valor de r no depende de las unidades de medición
el coeficiente de correlación trata a X e Y simétricamente. Si ajustamos
Y = α + βX o X = α* + β* Y, en ambos casos obtendremos el mismo coeficiente de
correlación, pero no la misma pendiente
47