Anda di halaman 1dari 21

Estadística

Análisis de regresión lineal simple


¿Qué variable puede explicar la vida útil de los
equipos de telecomunicaciones?

Temperatura

Número de satélites
¿Qué variable puede explicar el tiempo de ejecución
de una Obra Civil?

Número de Trabajadores
Índice de automatización
Temario

• Diagramas de dispersión
• Modelo de Regresión Lineal Simple
• Estimación del modelo
• Análisis de varianza
• Coeficiente de determinación y coeficiente de
correlación.
• Estimación puntual.
Logro de la sesión
• Al finalizar la sesión, el estudiante modela la
ecuación que permita expresar una variable en
función de otra variable con el propósito de
hacer una predicción.
Diagrama de dispersión
• El primer paso en el análisis de regresión, es construir una
gráfica de los datos muestrales X e Y. Esta gráfica se denomina
diagrama de dispersión.
• Gráficas que nos ayudan a identificar la relación entre dos
variables dependiente (y) e independiente (x)
Diagramas de dispersión
X vs Y
60 X vs Y
Modelo lineal Modelo lineal
Y 1600

50
Buen ajuste Y
1400 Buen ajuste
1200

Cuando X
40 Β1 > 0 1000

crece Y
Y

800

Y
R+ Cuando X crece
600
decrece
30 400
Β1 < 0
Y crece 200
R-
20
20 25 30 35 40
X 45 50
0
0,2 0,4 0,6 0,8
X
1,0 1,2 1,4 1,6
X

Las variables dependiente (Y) y la variable


X
Las variables dependiente (Y) y la variable
independiente (X) presentan una relación independiente (X) presentan una relación
lineal directa. lineal indirecta
X vs Y
X vs Y
140
9
130
Variables no
8 120

110
relacionadas
7
100
Y

Variables no
Y

6 90

80
5 relacionadas 70

60
4
50
10 15 20 25 30
X 200 400 600 800 1000 1200
X

En estas gráficas, ambas variables no presentan una relación lineal


Modelo de Regresión Lineal Simple
El análisis de regresión lineal simple es una técnica estadística que nos permite
modelar la dependencia de una variable dependiente (Y) en función de otra
variable independiente (X) a través de la ecuación de una recta. Es decir, permite
conocer el comportamiento de Y a través de un modelo que relaciona las
variaciones entre dichas variables.

Yi   0  1 X i  ei
donde:
Los parámetros son:
𝛽0 𝑖𝑛𝑡𝑒𝑟𝑐𝑒𝑝𝑡𝑜 𝑦 𝛽1 (𝑐𝑜𝑒𝑓𝑖𝑐𝑖𝑒𝑛𝑡𝑒 𝑑𝑒 𝑟𝑒𝑔𝑟𝑒𝑠𝑖ó𝑛 𝑜 𝑝𝑒𝑛𝑑𝑖𝑒𝑛𝑡𝑒)
Y= Variable dependiente
X= Variable predictora o independiente
𝑒𝑖 ∶ representa el error aleatorio.

i. Tener distribución normal No serán


ii. No presentar autocorrelación desarrollados
en el curso
iii. Deben presentar varianza constante
Estimación de parámetros del modelo de regresión lineal simple

Método de mínimos cuadrados


Mediante este método es posible seleccionar la recta que se ajuste mejor a los
datos. La recta resultante tiene dos características importantes:
- La suma de las desviaciones verticales de los puntos con relación a la recta es
cero; y
- La suma de los cuadrados de las desviaciones es mínima (es decir, ninguna otra
recta daría una menor suma de cuadrados de tales desviaciones).
Este método nos permite estimar los parámetros del modelo de regresión.
Tenemos:

esta suma tiene que ser lo mínima posible


Método de mínimos cuadrados
n
 n 
 yi  n 0  1   xi 
 i 1 
Ecuaciones normales: i 1
n
 n   n 2

i 1
xi y i   0   xi    1   xi 
 i 1   i 1 

Despejando se obtienen los estimadores de los parámetros del


modelo de regresión lineal:

n n n
n x y x y
i 1
i i
i 1
i
i 1
i
̂1 
n  n 
2 ˆ0  y  ˆ1 x
n  
xi2  

 
xi 

i 1  i 1 
Modelo de regresión

Modelo de regresión estimado:

ˆ i  ˆ0  ˆ1 xi
y
Donde:

̂ 0 Es la ordenada en el origen o intercepto

ˆ1 Es el coeficiente de regresión o pendiente de la recta


Análisis de Varianza: ANVA
El ANVA es la descomposición de la variación total en sus fuentes de variación: regresión
y error (residual)

Fuentes Grados
Cuadrado F
de de Suma de cuadrados
medio calculado
variación libertad
𝒏 Fc = (1)/(2)
Regresión 1 σ𝒏𝒊=𝟏 𝑿𝒊 𝟐 CMReg (1)
෡ 𝟐𝟏 ෍ 𝑿𝟐𝒊 −
𝑺𝑪𝑹𝒆𝒈 = 𝜷
𝒏
𝒊=𝟏

Error n– 2 SCE CME (2)

𝒏
Total n– 1 σ𝒏𝒊=𝟏 𝒀𝒊 𝟐
𝑺𝑪𝑻 = ෍ 𝒀𝟐𝒊 −
𝒏
𝒊=𝟏

Este análisis permite realizar la prueba de hipótesis para validar el modelo de regresión lineal
simple obtenido a un determinado nivel de significación .
Ho:β1 = 0
H1:β1 ≠ 0
Prueba de hipótesis para la validación del modelo:
SCE
Error estándar de estimación S   CME
n2
Mide la variabilidad de los valores de Y alrededor de la recta de regresión.

SCReg
Coeficiente de determinación (R2) R 2
*100%
SCTot
El coeficiente de determinación expresa el porcentaje de la variabilidad de la variable
dependiente Y que es explicada por el modelo de regresión. Es una medida de bondad de
ajuste del modelo.
 R 2 si ˆ1  0
Coeficiente de correlación (R) r
 R 2 si ˆ  0
1

Mide el grado de asociación lineal que existe entre las variables X e Y.


Ejemplo:
Power.com S. A., es una empresa dedicada a la fabricación de equipos de
telecomunicación. El dueño de la empresa, ha encargado al ingeniero en
Telecomunicaciones encontrar un modelo matemático que explique la vida útil
de los equipos de última generación en función de la temperatura del ambiente
en el que trabaja. Así también, se le solicita realizar la estimación de la vida útil
del equipo de telecomunicación con el modelo encontrado cuando la
temperatura sea de 30°C, si es mayor a 5 años iniciará la producción de los
equipos de comunicación de última generación.
Los resultados encontrados en pruebas realizadas a los equipos, se muestran a
continuación en la siguiente tabla:
Temperatura
24 20 26 16 10 12 13 32 16 15 34
(°C)
Vida útil
(años) 8 6.4 5.5 4.6 3.8 3.9 5.6 8.5 6.6 4.5 8.8
En base a los resultados encontrados en las pruebas, ¿qué recomendarían al
ingeniero en Telecomunicaciones?
Utilice un nivel de significación del 5%.
Solución:
Comunicación y
Dimensiones Interpretación Representación Cálculo Análisis
argumentación
Identifica Identifica las
claramente el variables:
problema que respuesta y Realiza las pruebas En base a los resultados
necesarias de la Brinda una
debe responder predictora. de la evidencia muestral
técnica estadística recomendación al
en el contexto Comenta el y los criterios de
aplicada. Validación problema, sustentada
del caso, así diagrama de decisión concluye sobre
Descripción del modelo, en los resultados
también dispersión. la hipótesis planteada.
presentación del encontrados en la
determina Presenta el Indica si el modelo
modelo estimado. muestra de acuerdo al
correctamente modelo a estimar. estimado presenta buen
contexto presentado.
la técnica Plantea hipótesis Estimación puntual. ajuste.
estadística a de validación del
aplicar. modelo.

Interpretación:
Determinar si se realiza la producción de los equipos de telecomunicaciones, a través
del modelo de regresión estimado que permita explicar la vida útil de los equipos de
telecomunicaciones en función de la temperatura.
Representación:
Variable independiente: X: Temperatura del ambiente
Variable dependiente: Y: Vida útil del equipo de telecomunicación
Relación entre la vida útil de los equipos de
Se observa que las
telecomunicaciones y la temperatura
10
variables temperatura y
Y: vidad útil de los equipos

9
8
vida útil de los equipos de
7 telecomunicaciones
6
5 presentan una relación
4
3 lineal directa.
2
1
0
5 10 15 20 25 30 35 40
X: Temperatura

Modelo de regresión:
Yi   0  1 X i  ei
Hipótesis a resolver: Ho:β1 = 0
H1:β1 ≠ 0
Cálculo: Cálculos a mano:

11 1438.5 − (218)(66.2)
𝛽መ1 =
11 4982 − (218)2
෢𝛽1 = 0.1912

66.2 218
𝛽መ0 = 11 − 0.1912( 11 )= 2.229

a) Modelo de Regresión estimado:

𝑌෠ = 2.229 + 0.1912𝑋

෡ 𝟏 = 𝟎. 𝟏𝟗12
b) Interpretación de 𝜷
Si la temperatura del ambiente se incrementa en un grado centígrado, la vida útil
del tiempo de vida del equipo de telecomunicaciones se incrementará en promedio
0.1912 años.
Cálculo: Prueba de hipótesis para la validación del modelo:
𝒏
σ𝒏𝒊=𝟏 𝒀𝒊 𝟐
𝟔𝟔. 𝟐 𝟐
𝑺𝑪𝑻 = ෍ 𝒀𝟐𝒊 − = 𝟒𝟑𝟎. 𝟖𝟖 − = 𝟑𝟐. 𝟒𝟕𝟔𝟒
𝒏 𝟏𝟏
𝒊=𝟏
𝟐 𝟐𝟏𝟖𝟐
𝑺𝑪𝑹𝒆𝒈 = 𝟎. 𝟏𝟗𝟏𝟐 𝟒𝟗𝟖𝟐 − = 24.1877
𝟏𝟏

Fuente Grados de libertad Suma de cuadrados Cuadrados Medios Fcalc


Regresión 1 24.1877 24.1877 26.2624
Residuos 9 8.2887 0.921
Total 10 32.4764

Ho: β1 = 0
H1: β1 ≠ 0
Nivel de significación: α = 0.05
Estadística de prueba: Fcalc = 26.26
Criterio de decisión
Valor crítico: F (1; 9; 0.05)= 5.12
Fcal = 26.2624 > 5.12
Decisión: Se rechaza Ho
Conclusión: Al 5% de significación el modelo regresión estimado es válido
Estimación puntual:
Dato: Xo = 30 𝑌෠ = 2.229 + 0.1912(30) = 7.965 años

Coeficiente de Determinación: R2
𝑆𝐶𝑇𝑜𝑡 = 32.4764 𝑆𝐶𝑅𝑒𝑔 = 24.1877
24.1877
𝑅2 = 32.4764 = 0.7448

Coeficiente de Correlación: R 𝑟 = 0.7448 = 0.8630


Análisis:
El 74.48% de la variabilidad del Vida útil del equipo de telecomunicación es
explicado por el modelo de regresión estimado.
Las variables vida útil de los equipos de telecomunicaciones y la
temperatura presentan una alta correlación (0.863).
Argumentación:

Se sugiere a la empresa iniciar la producción de los equipos de comunicación de


última generación, debido a que la estimación realizada es 7.965 años mayor a 5
años.
Material producido para la Universidad Peruana de Ciencias Aplicadas
Autor:
Raúl Ramírez Infante
COPYRIGHT ©UPC 2018 – Todos los derechos reservados

Anda mungkin juga menyukai