Anda di halaman 1dari 35

1

Regresión lineal
simple

Variación e intervalos
de predicción
Propósito

• Validar la correlación y formula


modelos para pronosticar la relación
lineal simple de las variables.
• Formula y valida modelos para
pronosticar la relación lineal múltiple
y no lineal de las variables.
REGRESIÓN LINEAL
SIMPLE
Regresión
Dos variables están relacionadas de una forma determinista, como
en la ecuación y = 12x .
En estadística se enfocan en los modelos probabilísticos, en los que
una variable no está determinada por completo por la otra variable

A partir un conjunto de datos muestrales pareados, la ecuación de regresión


describe algebraicamente la relación entre las dos variables x y y.
La gráfica de la ecuación de regresión se denomina recta de regresión (o recta
del mejor ajuste o recta de mínimos cuadrados).
Regresión

x = Variable explicativa, variable de predicción o variable independiente


ŷ = Variable de respuesta o variable dependiente
b0 = Es la intersección con el eje y
b1 = Es la pendiente.
Notación de la ecuación de regresión
Intersección de la ecuación de regresión con el eje y β0 b0
Pendiente de la ecuación de regresión β1 b1
Ecuación de la recta de regresión y = β0 + β1x ŷ = b0 + b1x

Pendiente:

Intersección con el eje y:

r = es el coeficiente de correlación lineal,


sy = es la desviación estándar de los valores de y Tres dígitos significativos
sx = es la desviación estándar de los valores de x.
Estrategia para predecir valores de Y
Uso de la ecuación de regresión para
efectuar predicciones
Las ecuaciones de regresión a menudo sirven para poder
predecir el valor de una variable:

1. Use la ecuación de regresión únicamente si la gráfica de la


recta de regresión en el diagrama de dispersión confirma que
la recta de regresión se ajusta a la nube de puntos.
2. Use la ecuación de regresión si el coeficiente de correlación
lineal r indica que existe una correlación lineal.
3. Use la recta de regresión únicamente si los datos no se alejan
mucho del ámbito de los datos muestrales disponibles.
4. Si la ecuación de regresión no parece ser útil para realizar
predicciones, el mejor valor de predicción de una variable es
su estimación puntual, que es la media muestral
Ejemplo
Los precios pareados de la pizza y del boleto del metro
que se presentan en la tabla (α = 0,05).

Determinar la ecuación de la recta de regresión en la que:

- La variable explicativa (x) es el precio de una rebanada de pizza.


- La variable de respuesta (y) es el precio de un boleto del metro

Precio de una rebanada de pizza y de un boleto del metro (en dólares)


Solución
Calculamos la pendiente b1 Tres dígitos significativos

= ( 0,987811 ) ( 0,706694 / 0,738693 ) = 0,945

= 1,058333 - ( 0,945 ) (1,083333) = 0,0346

ŷ = b0 + b1x

ŷ = 0,0346 + 0,945 x = Pizza

ŷ es la predicción del precio de un boleto del metro y x es el


precio de una rebanada de pizza.
Solución
Precio de una rebanada de pizza y de un boleto del metro (en dólares)

ŷ = b0 + b1x

ŷ = 0,03456 + 0,94502x
Aplicación
Si utilizamos los datos del precio de la pizza y del boleto del metro
para predecir el precio de este último cuando la pizza cuesta $2,25
r = 0,988 lo que sugiere que existe una correlación lineal entre el
precio de la pizza y el del boleto del metro. (El valor P es 0,00022)

ŷ = 0,03456 + 0,94502x
ŷ = 0,03456 + 0,94502 ( 2,25 ) = 2,16
Es poco probable que la predicción del precio del boleto del metro
sea la inconveniente cantidad de $2,16. Una tarifa más probable
sería la de $2,25 (que es de $2,16, redondeado al múltiplo de 25
centavos más cercano).
Diagrama de dispersión de puntos
EJERCICIO - Basura desechada y tamaño de la
familia

En un estudio realizado por investigadores de la Universidad


de Arizona, se registró el peso total (en libras) de la basura
desechada en una semana y el tamaño de la familia para 62
hogares.
El coeficiente de correlación lineal es r = 0,759 y la ecuación
de regresión es ŷ = 0,445 + 0,119x , donde x representa el
peso total de la basura desechada. La media de los 62 pesos
de la basura es de 27,4 libras, y los 62 hogares tienen un
tamaño medio de 3,71 personas.

¿Cuál es la mejor predicción del número de personas en un


hogar que desecha 50 libras de basura?
EJERCICIO - Estaturas de madres e hijas

Se obtuvo una muestra de ocho pares de madres e hijas, y


se midieron sus estaturas (en pulgadas).

El coeficiente de correlación lineal es 0,693 y la ecuación de


regresión es ŷ = 69,0 - 0,0849x , donde x representa la
estatura de la madre. La estatura media de las madres es de
63,1 pulgadas, y la estatura media de las hijas es de 63,3
pulgadas.

Calcule la mejor estatura predicha de una hija, si la madre


tiene una estatura de 60 pulgadas.
EJERCICIO - Estatura y pulso

Se obtiene una muestra de 40 mujeres, y se mide su


estatura (en pulgadas) y su pulso (en latidos por minuto). El
coeficiente de correlación lineal es 0,202 y la ecuación de
la recta de regresión es ŷ = 18,2 + 0,920x , donde x
representa la estatura.

La media de las 40 estaturas es 63,2 pulgadas, y la media


de los 40 pulsos es 76,3 latidos por minuto. Calcule el mejor
pulso predicho de una mujer que mide 70 pulgadas de
estatura.
Variación e intervalos
de predicción
Interpretación de la ecuación de
regresión: Cambio marginal
Cuando se trabaja con dos variables relacionadas por una ecuación
de regresión, el cambio marginal en una variable es la cantidad
que esta se modifica cuando la otra variable cambia exactamente
una unidad. La pendiente b1 en la ecuación de regresión
representa el cambio marginal que ocurre en y cuando x cambia
una unidad

Para los precios de la pizza y del boleto del metro, la recta de


regresión tiene una pendiente de 0,945. Así, si incrementamos a x
(el precio de una rebanada de pizza) en $1,00; el precio predicho
de un boleto del metro se incrementará en $0,945 ó 94,5 centavos.

Es decir, por cada dólar adicional al precio de la pizza, esperamos


que el precio del boleto del metro aumente 94,5 centavos.
Residuos y la propiedad de los
mínimos cuadrados

Para una muestra de datos pareados x y y un


residuo es la diferencia entre un valor y
muestral observado y el valor de y predicho por
medio de la ecuación de regresión.

Es decir,

Residuo = y observada - y predicha = y - ŷ


Ejemplo
Considere el punto muestral con las coordenadas (5, 32).
Si sustituimos x = 5 en la ecuación de regresión
ŷ = 5 + 4x

obtenemos un valor predicho de ŷ = 25 Sin embargo, el


valor muestral real observado es y = 32.
La diferencia es un residuo. y - ŷ = 32 – 25 = 7
Solución
Solución

La ecuación de regresión representa la recta que se


ajusta “mejor” a los puntos, de acuerdo con la siguiente
propiedad de mínimos cuadrados.

Los residuos son -5, 11, -13 y 7, de manera que la suma de sus
cuadrados es:

La suma de las áreas sombreadas cuadradas es 364, que


es la menor suma posible.
Coeficiente de determinación
Un intervalo de predicción , que es una estimación del
intervalo de un valor predicho de y.

El valor de r2 es la proporción de la variación en y que


se explica por la relación lineal entre x y y

Podemos calcular r2 por medio de la definición, o bien, elevar al


cuadrado el coeficiente de correlación lineal r.
Ejemplo

Los precios pareados de la pizza y del boleto del


metro que se presentan en la tabla.
Calcular el valor del coeficiente de determinación

Precio de una rebanada de pizza y de un boleto del metro (en dólares)


Solución
El coeficiente de determinación es r2 = 0,9882 = 0,976.

Como r2 es la proporción de la variación total que está


explicada, concluimos que aproximadamente el 97,6%
de la variación total en las tarifas del metro se pueden
explicar por los precios de una rebanada de pizza.

Esto significa que el 2,4% de la variación total del precio


del boleto del metro está explicada por otros factores y
no por el precio de una rebanada de pizza.
Error estándar de la estimación
El error estándar de la estimación , denotado con
se, es una medida de las diferencias (o distancias)
entre los valores muestrales observados de y y los
valores predichos que se obtienen por medio de
la ecuación de regresión.

Donde ŷ es el valor predicho de y


Error estándar de la estimación
El error estándar de la estimación , denotado con
se, es una medida de las diferencias (o distancias)
entre los valores muestrales observados de y y los
valores predichos que se obtienen por medio de
la ecuación de regresión.
Ejemplo

Los precios pareados de la pizza y del boleto del


metro que se presentan en la tabla.
Calcular el error estándar de la estimación se para
los datos pareados de los precios de la pizza y del
boleto del metro

Precio de una rebanada de pizza y de un boleto del metro (en dólares)


Solución
Calculamos estos valores
Intervalos de predicción
Un intervalo de predicción es una estimación del intervalo de un
valor predicho de y. Considerando el valor fijo x0, el intervalo de
predicción para una y individual es:

x0 representa el valor dado de la predicción


tα/2 tiene n - 2 grados de libertad (Tabla A-3)
Ejemplo

Los precios pareados de la pizza y del boleto del metro


que se presentan en la tabla.
Construya un intervalo de predicción del 95% para el
precio de un boleto del metro, considerando que una
rebanada de pizza cuesta $2,25 (de manera que x = 2,25)

Precio de una rebanada de pizza y de un boleto del metro (en dólares)


Solución

r = 0,988
Nivel de significancia de 0,05
Ecuación de regresión es ŷ = 0,0346 + 0,945x
se = 0,12298700 = 0,123
n=6
Media = 1,0833333
∑x = 6,50
∑x2 = 9,77
tα/2 = 2,776 (gl = 6 – 2 = 4, con α=0,05 en dos colas)
Solución
Calculamos el margen de error E permitiendo que x0=2,25
(ya que buscamos el intervalo de predicción del precio del
boleto del metro, considerando que una rebanada de
pizza cuesta x = 2,25)
Solución

Si el precio de una rebanada de pizza es de $2,25,


tenemos una certeza del 95% de que el precio del boleto
del metro está entre $1,72 y $2,60.
¿ Qué ¿ Cómo
aprendí ? aprendí ?

¿ Qué me
¿ Para qué falta
aprendí ? aprender ?