Anda di halaman 1dari 26

EXPERIMENTACIN EN INGENIERA DE SOFTWARE Clase 25-05-2011: REGRESIN LINEAL MULTIVARIADA

Loretta Gasco Campos

lgasco@pucp.edu.pe

A Vector-based Approach to Software Size Measurement and Effort Estimation Hastings, T.E. and Sajeev, A.S.M. IEEE Transactions on Software Engineering Vol 27, No. 4, April 2001

Tamao de software una medida fundamental de un producto que puede ser usada con propsitos de evaluacin, prediccin y mejora. Se propone: 1) VSM: Medida de Tamao Vector, medida que incorpora complejidad del problema y funcionalidad en una forma ortogonal y balanceada f: funcionalidad; c: complejidad del problema magnitud m:= ( f2 + c2 ) ; gradiente g:= c / f ( f > 0) Usos: Medir el tamao de sistemas de software Clasificar sistemas de software

2. VPM ( Vector Prediction Model) Modelo de Prediccin Vector usa como input la medida VSM y el cual puede ser usado para estimar tempranamente el esfuerzo de desarrollo en ciclo de vida del software(SLC) y predecir el esfuerzo requerido para producir una solucin

VPM est basado en un modelo de costo y usa como input primario m: magnitud VSM y como input secundario g: gradiente VSM.
VPM usa una regresin multivariada para determinar la relacin entre esfuerzo, magnitud y gradiente:

VPM usa una regresin multivariada para determinar la relacin entre esfuerzo E, magnitud m y gradiente g: E = a mb g z
donde a, b y z son coeficientes

E = ln(a) + b ln(m) + z ln(g) E2 = 0 + 1 M + 2 G E2 = ln(E ); M = ln(m); G = ln(g)

Los coeficientes 0 , 1 y 2 se determinan empricamente.

REGRESIN LINEAL MLTIPLE La variable Y es una funcin lineal de las variables independientes X1,, Xn Y = 0 + 1 X1 ++ n Xn Finalidad: predecir el valor de Y, , a partir de una relacin lineal = b0 + b1 X1 ++ bn Xn para valores dados de X1,, Xn Estimacin de la relacin lineal: A partir de un conjunto de datos ( yi, xi1,,xin) , i= 1,,n se ajusta por el criterio de mnimos cuadrados una relacin lineal que pase a travs de estos puntos observados (datos) segn el modelo: yi = 0 + 1 xi1 ++ n xin + error aleatorioi , para i=1,,n Se obtiene la relacin lineal : = b0 + b1 X1 ++ bn Xn donde b0 , b1 ,, bn son los coeficientes estimados, a partir de los datos observados, de los coeficientes 0, 1,,n del modelo lineal propuesto,

E2 = 0 + 1 M + 2 G E2 = ln(E ); M = ln(m); G = ln(g)


determinar empricamente 0 , 1 y 2 como b0 , b1 y b2 a partir de los datos E2i = 0 + 1 Mi + 2 Gi +error aleatorioi , i=1,2,..,n Variable dependiente: Esfuerzo Variables predictoras o independientes: M y G Regresin lineal multivariada Esfuerzo estimado: E2^ se calcular a partir de la relacin lineal E2^ = b0 + b1 M + b2 G

Identificacin 1 2 3 4 5 6 7 8

Esfuerzo 5040 2240 4480 7875 2363 3938 2100 1120

FP(magnitud) 753 354 1097 2065 736 1148 927 561

G(gradiente) 6 5 5 5 3 3 2 2

REGRESIN LINEAL MLTIPLE La variable Y es una funcin lineal de las variables independientes X1,, Xn Y = 0 + 1 X1 ++ n Xn + error aleatorio Finalidad: predecir el valor de Y, a partir de una relacin lineal, de valores dados de X1,, Xn

Estimacin de la relacin lineal: A partir de un conjunto de datos ( yi, xi1,,xin) , i= 1,,n se ajusta por el criterio de mnimos cuadrados una relacin lineal que pase a travs de estos puntos observados (datos). Entonces se obtiene la relacin lineal :
= b0 + b1 X1 ++ bn Xn donde b0 , b1 ,, bn son los estimados, a partir de los datos observados, de los coeficientes 0 , 1 , , n respectivamente , del modelo lineal propuesto.

E = 0 + 1 M + 2 G + error aleatorio E = b0 + b1 M + b2 G

REGRESIN LINEAL MLTIPLE


SPSS Archivo de datos: .sav En el men principal seleccionar: Analizar/ Regresin/ Lineal Dependiente: Independientes:

2.1. Analizar los resultados. 2.2. Cul sera la ecuacin lineal ?

Resumen del modelo Error tp. de la estimacin ,12046

Modelo 1
a. Variables

R ,986a

R cuadrado ,973

R cuadrado corregida ,962

predictoras: (Constante), ln(gradiente), ln(magnitud)

R : Coeficiente de correlacin lineal mltiple Mide la intensidad de una relacin lineal entre la variable dependiente y las independientes. R = 0,986 R2 : Coeficiente mltiple de determinacin 100 R2 % de la variabilidad de la variable dependiente es explicada por su relacin lineal con las variables independientes. R2 = 0,973 0,9 R2 0,7 R2 < 0,9 0,5 R2 < 0,7 0,7 R2 < 0,5 relacin predictiva y puede ser usada con alta confianza fuerte relacin y puede ser usada con alta confianza adecuada relacin y debera ser usada con precaucin la relacin no es confiable con propsitos de planificacin

R2a : Coeficiente de determinacin ajustado( R cuadrado corregida) el coeficiente R2 modificado para tener en cuenta el nmero de variables independientes : k y el tamao de la muestra: n

R2a = 1- [(1- R2)(n-1) ]/[n-(k +1)]


R2a = 0,962

Error tpico de estimacin: Error estndar : S es la desviacin estndar del estimador de Y,


En este caso , = E^ donde E^ = b0 + b1 M+ b2 G

ANOVAb

Modelo 1 Regresin

Suma de cuadrados 2,593

gl 2

Media cuadrtica 1,297

F 89,356

Sig. ,000a

Residual Total

,073 2,666

5 7

,015

a. Variables predictoras: (Constante), ln(gradiente), ln(magnitud) b. Variable dependiente: ln(esfuerzo)

ANLISIS DE VARIANZA Uso: testear Como

H0 : 1 = = n = 0 vs Ha : existe al menos un i 0
SC(TOTAL) = SC(REGRESIN) + SC(RESIDUAL)

F = CM(REGRESIN) / CM(RESIDUAL)

El estadstico del test F se distribuye


F ~ Fp, N p -1 distribucin F con p y N p -1 grados de libertad donde p es el nmero de variables independientes del modelo y N es el nmero de datos observados.

El valor muestral del estadstico del test es F = 89,356

El nivel de significacin emprico nivel-p= ,000 A un nivel de significacin = 0,05 rechazamos H0 : 1 = = n = 0 a favor de Ha : existe al menos un i 0

Coeficientesa

Coeficientes no estandarizados Modelo 1 (Constante) -,384 ,656 b Error tpico

Coeficientes tipificados Beta t Sig.

-,585

,584

M=ln(magnitud)

1,030

,089

,875

11,581

,000

G=ln(gradiente)

1,165

,129

,683

9,032

,000

a. Variable dependiente: ln(esfuerzo)

COEFICIENTES

Coeficientes no estandarizados: b0 , b1 , b2 Estimadores mnimos cuadrados de los coeficientes de la relacin lineal entre E2 y M con G b0 = -,384; b1 = 1,030; b2 = 1,165. Error estndar: desviacin estndar de los estimadores de los coeficientes estimados Coeficientes estandarizados: etai = bi Sxi / Sy eta1 = b1 SM / SE2 = 0,875 eta2 = b2 SG / SE2 = 0,683

Pruebas de hiptesis para la constante 0 : H0 : 0 = 0 vs Ha : 0 0 El valor muestral del estdstico del test es t = -,585; nivel-p = 0,584 No rechazamos Ho : 0 = 0 y afirmamos que la constante b0 = -,585 no es significativa estadsticamente a un nivel de significacin = 0,05.

Prueba de hiptesis para el coeficiente 1 : H0 : 1 = 0 vs Ha : 1 0 El valor muestral del estdstico del test es t = 11, 581; nivel-p = ,000 Rechazamos Ho y afirmamos que la constante b1 = 1,030 es significativa estadsticamente a un nivel de significacin = 0,05.

Prueba de hiptesis para el coeficiente 2 : H0 : 2 = 0 vs Ha : 2 0 El valor muestral del estdstico del test es t = 9,032; nivel-p = ,000 Rechazamos Ho y afirmamos que la constante b2 = 1,165 es significativa estadsticamente a un nivel de significacin = 0,05.

relacin no lineal: E = a mb g z
relacin lineal: E2 = 0 + 1 M + 2 G E2 = ln(E ); M = ln(m); G = ln(g) 0 = ln(a); 1 = b ; 2 = z E2^ = 1,030 M + 1,165 G

E^ = m1,030 g1,165

Con propsito de planificacin necesitamos: alta correlacin alta significancia estadstica bajo error El margen de error se calcula como e = (estimado actual) / actual Dado que el contexto es predecir el esfuerzo de desarrollo temprano en el ciclo de vida del software, se puede considerar

|e| 0,20

0,20 < |e| 0,50 |e|> 0,50

el modelo lineal estimado puede ser considerado como predictivo y puede ser usado con confianza temprano en el ciclo de vida; aceptable pero debera ser usado con precaucin;
el modelo lineal estimado no es confiable con propsitos de planificacin

El margen de error va de -17% a +13%


1 5% 2 -10% 3 13% 4 -2% 5 5% 6 -17% 7 3% 8 8% ID %Error

Usando la aproximacin VPM , podemos predecir el esfuerzo de desarrollo dentro de -17% a +13%.

Anda mungkin juga menyukai