De
Nicaragua
Recinto Universitario «Rubén Darío»
Facultad de Ciencia e Ingeniería
Departamento de Biología.
Presentado por:
Albert Arostegui.
Junieth Baltodano.
Séfora Rodríguez.
Dirigido a:
Carrera:
En el presente trabajo se abordará el tema de regresión lineal para dos variables (una dependiente
y otra independiente). El objetivo es aplicar lo aprendido en clases y analizar los valores resultantes
del empleo de las fórmulas propuestas por el docente.
Para empezar se explica que un modelo es una función que se ajusta a datos reales u observados,
y en este caso se trabajará con uno lineal, es decir de la forma: 𝑌𝑖 = 𝑏𝑋𝑖 + 𝑎, donde se puede
apreciar que la variable independiente (𝑋i) tiene potencia 1, así como los parámetros b y a. Cabe
destacar que dicho modelo, al graficarse en el plano cartesiano genera una recta (Gujarati y Porter,
2010).
Se establecerá una función de regresión muestral (FRM) para una serie de datos anuales de las
siguientes variables: emisiones de dióxido de carbono (CO2) y el consumo de energía primaria.
Ambas fueron obtenidas de la base de datos de la Comisión Económica para América Latina y el
Caribe (CEPAL), y son los registros del país de Argentina en el período 1995-2014.
El modelo será:
𝑌̂𝑖 = 𝑏̂𝑋𝑖 + 𝑎̂ + 𝜇̂ 𝑖
Donde:
𝑎̂: Intercepto
Se aclara que el símbolo ^ (conocido como “gorro” o circunflejo) denota que el elemento sobre el
cual se sitúa es una estimación.
Breve descripción de las variables.
Dióxido de carbono (CO2): Es un gas incoloro e inodoro, tiene una mayor densidad que el aire y
puede acumularse en zonas bajas provocando un déficit de oxigeno (FISQ, 2006). Cabe mencionar
que se trata de uno de los gases de efecto invernadero; en otras palabras, tiene la capacidad de
reabsorber y reemitir luz infrarroja a la Tierra, su origen puede ser natural y/o antropogénico
(Montaño y Sandoval, 2007).
Elaboración propia.
Fuente: Comisión Económica para América Latina y el Caribe.
Energía primaria.
Fórmulas 1 y 2.
Para calcular los estimadores de la FRM, se aplicarán las siguientes fórmulas (las cuales se obtienen
por el método de mínimos cuadrados):
∑ 𝑥𝑖 𝑦𝑖
𝑏̂ = (1)
∑ 𝑥𝑖2
𝑎̂ = 𝑌̅ − 𝑏̂𝑋̅ (2)
Donde:
Elaboración propia
∑ 𝑥𝑖 𝑦𝑖 24042975.38
𝑏̂ = 2 = = 0.001563992
∑ 𝑥𝑖 15372825617.81
De modo que el modelo que relaciona las emisiones de CO2 y el consumo de energía primaria en
Argentina, queda de la siguiente manera aproximado a cuatro cifras decimales:
𝑌̂ = 0.0016𝑋 + 40.3451
Como se puede apreciar la pendiente del modelo es 0.0016, por tanto, por cada mil barriles
equivalentes de petróleo de consumo de energía primaria, las emisiones de CO2 incrementarán o
disminuirán de forma directa -respecto a la variable independiente- con una proporción constante
de 1600 toneladas aproximadamente, debido al signo positivo de la pendiente. Por otro lado, el
valor del intercepto es 40.3451, el cual se puede interpretar como el valor promedio de emisiones
de CO2, cuando no interfiere la variable del consumo de energía primaria (X=0).
Fórmulas 3, 4, 5 y 6.
Para el análisis del modelo, se debe tomar en cuenta las medidas de variación, ya que así como los
valores reales de las variables cambian, también cambiarán los errores y estimadores.
2
∑ 𝜇̂ 𝑖2
𝜎̂ = (3)
𝑛−𝑘
𝜎̂ = √𝜎̂ 2 (4)
∑ 𝑋𝑖2
̂= √
𝜎𝑎 ∙ 𝜎̂ (5)
𝑛 ∑ 𝑥𝑖2
Desviación estándar de la pendiente:
𝜎̂ 2
̂= √
𝜎𝑏 (6)
∑ 𝑥𝑖2
Elaboración propia
Reemplazando en (3) y (4):
4113.0186
𝜎̂ 2 = = 178.8269
23
𝜎̂ = √178.8269 = 13.3726
Es decir 13.3726 es la desviación estándar de los errores en relación a la línea de mejor ajuste o
bien a la recta que se genera a partir del modelo estimado.
Reemplazando en (5):
386306074785.88
̂ = √
𝜎𝑎 ∗ 13.3726 = 13.4071
25 ∗ 15372825617.81
Reemplazando en (6):
178.8269
̂= √
𝜎𝑏 = 0.00010785
15372825617.81
Fórmulas 7, 8 y 9.
Es importante tener alguna prueba de la calidad del modelo establecido, una de las formas de saber
que tan bien se ajusta la recta estimada a las observaciones reales, es el coeficiente de
determinación:
𝑏̂ 2 ∑ 𝑥𝑖2
𝑟2 = (7)
∑ 𝑦𝑖2
Dado que ya se calcularon todos los valores requeridos para la formula (ver en anexo 1 la tabla en
la que se define el valor de la variación de la variable Y), solo se debe reemplazar en (7), entonces:
(0.001563992)2 ∙ 15372825617.81
𝑟2 = = 0.9014
41716.03834
∑ 𝜇𝑖2
𝑟̅ 2 = 1 − 𝑛 − 2𝑘 (8)
∑ 𝑦𝑖
𝑛−1
Reemplazando en (8):
4113.0186
2
𝑟̅ = 1 − 23 ⁄
41716.03834 = 0.8971
24
Este valor significa que dado al ajuste de involucrar los grados de libertad, la variable independiente
explica en un 89.71% a la variación de la variable dependiente, como se puede apreciar, muy
cercano a 𝑟 2 .
Coeficiente de Pearson: Mide la fuerza de relación lineal entre las variables X y Y (Triola, 2009),
se calcula por medio de la fórmula:
∑ 𝑥𝑖 𝑦𝑖
𝑟= (9)
√∑ 𝑥𝑖2 ∑ 𝑦𝑖2
Reemplazando:
24042975.38
𝑟= = 0.9494
√15372825617.81 ∙ 41716.03834
Los valores de r siempre están entre -1 a 1, es decir: −1 ≤ 𝑟 ≤ 1, en este caso se observa que r es
muy cercano a 1, indicando una relación lineal positiva entre el consumo de energía primaria y las
emisiones de CO2 en Argentina. Se puede tomar al coeficiente de Pearson como un cálculo formal
para determinar si existe o no relación lineal positiva o negativa entre dos variables, pues de manera
más rudimentaria la tendencia es apreciable por medio de una gráfica de dispersión (véase anexo
4).
Conclusiones.
La pendiente del modelo es positiva, por tanto, entre el consumo de energía primaria y las
emisiones de CO2 existe una relación directa, es decir, si la primera variable crece, la
segunda también, y si los valores de la primera variable decrecen, en consecuencia lo harán
los de la segunda.
El coeficiente de determinación tiene un valor alto, por ende existe evidencia de que la
variable independiente elegida para el modelo es buena para explicar al comportamiento de
los valores de las emisiones de CO2 en Argentina.
El coeficiente de Pearson, indica una fuerte relación lineal positiva entre el consumo de
energía primaria y las emisiones de CO2, lo cual constata lo mencionado sobre el signo de
la pendiente del modelo.
Bibliografía.
Montaño, N., & Sandoval, A. (2007). Contaminación atmosférica y salud. Elementos. 14 (065).
Recuperado de http://www.redalyc.org/pdf/294/29406504.pdf
Y 𝑦2
171.6882 3500.4409
176.7979 2921.924
178.8852 2700.62355
180.0961 2576.23488
187.9365 1841.80228
189.803 1685.07984
199.592 977.232865
203.0892 770.813265
207.9248 525.689699
210.5826 410.877927
208.8372 484.683297
216.4434 207.628618
211.8413 361.434243
221.0264 96.5566434
243.2078 152.647903
242.1423 127.454526
269.8823 1523.3078
269.2249 1472.42389
285.4867 2984.87133
278.337 2254.75647
275.3133 1976.74282
281.012 2515.95297
288.7383 3350.73991
281.4725 2562.36172
291.9572 3733.75699
∑ 5771.3181 41716.0383
Anexo 2. Estimación de regresión en Eviews.
Anexo 3. Estimación por medio de análisis de datos en Excel.
Resumen
Estadísticas de la regresión
Coeficiente de correlación múltiple 0.949423184
Coeficiente de determinación R^2 0.901404381
R^2 ajustado 0.897117615
Error típico 13.37261739
Observaciones 25
ANÁLISIS DE VARIANZA
Grados de libertad Suma de cuadrados Promedio de los cuadrados F Valor crítico de F
Regresión 1 37603.01974 37603.01974 210.2760861 4.63851E-13
Residuos 23 4113.018602 178.8268957
Total 24 41716.03834
Coeficientes Error típico Estadístico t Probabilidad Inferior 95% Superior 95% Inferior 95.0% Superior 95.0%
Intercepción 40.34508777 13.40711495 3.009229645 0.006253295 12.61035739 68.07981814 12.61035739 68.07981814
Variable X 1 0.001563992 0.000107855 14.50089949 4.63851E-13 0.001340877 0.001787107 0.001340877 0.001787107
Anexo 4. Gráfico de dispersión.