Anda di halaman 1dari 24

INTRODUCCIN

Es 14 de Agosto y todos los equipos ACB comienzan su pretemporada intentando


construir un bloque lo ms slido posible, pero hay veces, al ms alto nivel competitivo, que
eso no es suficiente, es necesario echar mano de medios tcnicos, ah es donde empezamos a
trabajar nosotros.

Acabamos de recibir la llamada de uno de estos equipos, del cual es mejor no


desvelar su nombre y nos ha encargado la tarea de realizar un informe detallado para mejorar
las prestaciones de su equipo y alcanzar las cotas que se han marcado a principio de
temporada.
Para ello hemos elaborado un exhaustivo dossier con los aspectos en los que cualquier
equipo ha de incidir especialmente si desea alcanzar un alto ratio de victorias a final de
temporada, y en cules de ellos, sin tampoco olvidarlos, podemos emplear menos tiempo en
detrimento de los primeros.
En nuestro anlisis de los factores que ms influyen en las victorias al final de la
temporada hemos tenido en cuenta los siguientes:

Media de puntos del equipo a lo largo


de la temporada.

Porcentaje de tiro de 3 puntos a lo


largo de la temporada.

Media de rebotes por partido.

Si el equipo en cuestin cuenta en sus


filas con algn jugador que haya sido
Mejor Jugador de la Jornada, y el n
de veces que lo ha hecho.

La valoracin media de su mejor jugador.

Cuantos jugadores superan los 10 puntos de valoracin media a lo largo de la


temporada.

Como inciso aclarar lo que es la valoracin de un jugador: no es ms que lo bien o lo


mal que ha jugado ese jugador en el partido desde un punto de visto global. Un jugador puede
lograr muchos puntos pero al mismo tiempo fallar mucho, restar oportunidades a sus
compaeros y no haber hecho un buen partido. La valoracin (V) se obtiene sumando todos
los apartados positivos que ha aportado ese jugador (puntos anotados, rebotes capturados,
asistencias dadas, robos, faltas provocadas, tapones) y restando todos los aspectos negativos
que ha cometido el jugador en cuestin (tiros fallados, prdidas de baln, faltas cometidas).
As nos queda un nmero final que nos indicar lo bien o lo mal que ha jugado el jugador en el
global.

As pues un jugador que haya obtenido una valoracin negativa habr jugado un muy
mal partido, pero si obtiene de 10 en adelante habr jugado un buen partido. De ah la
importancia de cuantificar cuantos jugadores han obtenido ms de 10 puntos de valoracin
media al final del ao.
El resto de factores parecen a priori bastante significativos, mediante este anlisis
estadstico se comprobar si las teoras y leyendas tan ampliamente aceptadas en el mundo de
la canasta son realmente ciertas. Que el anlisis sea fiable y riguroso es bsico pues el equipo
que nos ha contratado se est jugando gran cantidad de dinero y expectativas en la que va a
ser una ilusionante temporada. Nuestro anlisis se basa en el uso de la regresin estadstica
como mtodo para poder predecir una serie de datos en funcin de otros datos, ms
especficamente nuestro objetivo es la correcta determinacin de un modelo de regresin
mltiple que relacione los datos anteriormente expuestos.

DATOS
Los datos han sido tomados de las ltimas 4 temporadas de la ACB. Las
estadsticas acumuladas de un equipo durante una temporada componen un set de
datos. En forma de tabla los datos son los siguientes:

% victoria

MPP

% tiro 3P

MRP

MVPs
jornada

Valoracin
mejor
jugador

Jugadores
que superan
valoracin
10

50

79

32

35

18

41

78

37

32

22

41

76

33

30

16

38

75

33

32

15

47

79

36

32

16

74

84

41

35

21

53

81

37

31

12

41

77

34

31

24

38

77

33

30

20

35

76

34

30

21

56

79

36

35

16

% victoria

MPP

% tiro 3P

MRP

MVPs
jornada

Valoracin
mejor
jugador

Jugadores
que superan
valoracin
10

76

81

38

34

18

44

77

35

31

12

68

83

39

33

19

59

76

35

32

18

35

77

36

33

16

35

76

31

34

17

74

82

38

33

17

47

83

42

32

18

47

77

35

31

16

34

77

33

33

15

25

74

32

32

18

31

76

36

33

15

38

74

37

33

20

28

73

32

30

14

69

83

37

33

16

63

80

38

34

14

34

77

34

33

14

50

77

35

31

11

72

84

36

36

23

81

81

39

35

19

44

74

31

33

13

88

90

36

34

21

75

83

39

33

17

25

71

32

32

15

66

80

38

32

28

% victoria

MPP

% tiro 3P

MRP

MVPs
jornada

Valoracin
mejor
jugador

Jugadores
que superan
valoracin
10

41

75

36

32

14

75

77

36

33

14

44

79

39

31

14

38

77

38

31

20

78

88

37

34

25

25

76

32

30

15

34

79

35

29

16

66

76

35

34

15

50

79

37

33

14

38

75

36

31

13

69

80

38

33

16

41

73

33

32

13

91

84

38

34

13

44

80

36

32

14

69

84

38

33

17

53

80

37

32

12

38

76

34

32

12

62

81

33

36

16

41

78

32

37

15

35

73

32

31

17

44

74

33

35

12

38

74

32

37

18

50

76

31

37

12

41

74

31

36

16

44

78

34

40

24

% victoria

MPP

% tiro 3P

MRP

MVPs
jornada

Valoracin
mejor
jugador

Jugadores
que superan
valoracin
10

62

78

32

32

12

47

78

32

36

15

74

83

33

36

16

35

75

32

36

17

24

73

35

31

15

68

81

34

34

19

35

75

33

33

17

56

76

33

34

16

76

84

32

38

22

68

81

30

40

18

Un anlisis de los datos de modo univariante nos proporciona los siguientes


anlisis, los cuales indican ciertos valores estadsticos, se adjunta tambin el
histograma de cada variable junto con su diagrama de caja:
% victorias:
Count
Average
Standard deviation
Coeff. of variation
Minimum
Maximum
Range
Stnd. skewness
Stnd. kurtosis

71
50,9296
16,97
33,3205%
24,0
91,0
67,0
1,63296
-1,42093

Histogram

Box-and-Whisker Plot

30

fr e q u e n c y

25
20
15
10
5
0
0

20

40

60

80

100

24

% victorias

44

64
% victorias

84

104

Media de puntos por partido:


Count
Average
Standard deviation
Coeff. of variation
Minimum
Maximum
Range
Stnd. skewness
Stnd. kurtosis

71
78,2676
3,7415
4,78039%
71,0
90,0
19,0
2,37978
0,775226
Box-and-Whisker Plot

Histogram
24
20
frequenc y

16
12
8
4
0
70

74

78

82
MPP

86

90

94

71

75

79

83

87

91

MPP

% de tiro de 3 puntos:
Count
Average
Standard deviation
Coeff. of variation
Minimum
Maximum
Range
Stnd. skewness
Stnd. kurtosis

71
34,9155
2,6766
7,66594%
30,0
42,0
12,0
1,14231
-1,00584
Box-and-Whisker Plot

Histogram
18

frequenc y

15
12
9
6
3
0
29

32

35

38

41

44

30

% tiro de 3

32

34

36
% tiro de 3

38

40

42

Media de rebotes por partido:


Count
Average
Standard deviation
Coeff. of variation
Minimum
Maximum
Range
Stnd. skewness
Stnd. kurtosis

71
33,2113
2,28608
6,88344%
29,0
40,0
11,0
2,91389
1,39895
Box-and-Whisker Plot

Histogram
30

frequenc y

25
20
15
10
5
0
28

31

34

37

40

43

29

31

33

MRP

35
MRP

37

39

41

Nmero de MVPs de la jornada:


Count
Average
Standard deviation
Coeff. of variation
Minimum
Maximum
Range
Stnd. skewness
Stnd. kurtosis

71
1,61972
1,35611
83,725%
0,0
6,0
6,0
2,14455
0,173564
Box-and-Whisker Plot

Histogram
18

frequenc y

15
12
9
6
3
0
-0,4

1,6

3,6
MVPs de jornada

5,6

7,6

3
MVPs de jornada

Valoracin del mejor jugador:


Count
Average
Standard deviation
Coeff. of variation
Minimum
Maximum
Range
Stnd. skewness
Stnd. kurtosis

71
16,6056
3,47842
20,9472%
11,0
28,0
17,0
3,19402
1,5696
Box-and-Whisker Plot

Histogram
24

frequenc y

20
16
12
8
4
0
10

14

18
22
Valoracion mejor jugador

26

11

30

14

17

20
23
Valoracion mejor jugador

26

29

Jugadores que superan un 10 de valoracin:


Count
Average
Standard deviation
Coeff. of variation
Minimum
Maximum
Range
Stnd. skewness
Stnd. kurtosis

71
3,26761
1,23007
37,6445%
1,0
6,0
5,0
0,288225
-0,971316
Box-and-Whisker Plot

Histogram
24

frequenc y

20
16
12
8
4
0
0

4
Jugadores superan 10 valoracion

2
3
4
Jugadores superan 10 valoracion

CONSTRUCCIN DEL MODELO


MODELOS DE REGRESIN SIMPLE
Primeramente, deberamos analizar si cada uno de los factores es significativo por
separado respecto de la variable %Victorias ya que si alguno de ellos saliera no
significativo como valor simple nos estara indicando que no guarda ninguna relacin
con la variable que estamos estudiando y sera absurdo incluirla en el anlisis. Con
estos modelos se busca una relacin lineal entre cada regresor y el porcentaje de
victorias de cada equipo. Cada modelo sigue el siguiente esquema en cuanto a la
ecuacin buscada:

yi 0 j xi ui
ui
N (0, 2 )

Donde:

0 representa la ordenada en el origen.

j representa la pendiente de la recta para el regresor j.

2 representa la varianza del modelo.

En todos los modelos simples se adoptan las siguientes hiptesis:


Linealidad: yi 0 j xi ui

N (0 j xi , 2 )
Normalidad: yi | xi
Homocedasticidad: Var[ yi | xi ] 2
Independencia: Cov[ yi | yk ] 0
El primer paso es proceder con los contrastes individuales. Esto nos proporciona
informacin sobre que regresores influyen significativamente en nuestra variable
respuesta.
Los contrastes siguen el esquema siguiente:

H0 : j 0
H1 : j 0
Para que se determine que un regresor es significativo, debemos de poder rechazar la
hiptesis nula. j cumple que:

j
N ( j ,

2
nS x2

Donde n es el nmero de datos de nuestra muestra.


Para el contraste de los regresores individuales tomaremos un nivel de confianza del
95% ( =0,05).
De esta manera haremos cada uno de los contrastes con cada regresor.
Obtendremos mediante una distribucin t con (n-2) grados de libertad un estadstico
y en funcin de la posicin que ocupe ste en la distribucin aceptaremos o
rechazaremos la hiptesis nula. En este caso hemos trabajado con 71 datos.
En color azul researemos la estimacin de que podramos interpretar como
la variacin porcentual de victorias en puntos cada vez que el regresor aumenta en
una unidad.
% de victorias vs. Media de puntos por partido:
Dependent variable: % victorias
Independent variable: MPP
Linear model: Y = a + b*X

Parameter
Intercept
Slope

Coefficients
Least Squares
Standard
Estimate
Error
-237,594
24,9259
3,68638
0,318111

T
Statistic
-9,53204
11,5883

P-Value
0,0000
0,0000

Coeficiente de Correlacin = 0,812908


R-cuadrado = 66,082 porcentaje

Al ser el p-valor de la pendiente 0,0000, se rechaza la hiptesis nula y concluimos que


la media de puntos por partido tiene una influencia significativa sobre la variable % de
victorias. Se observa un coeficiente de correlacin relativamente alto.

% de victorias vs. % tiro de 3:


Dependent variable: % victorias
Independent variable: % tiro de 3
Linear model: Y = a + b*X

Parameter
Intercept
Slope

Coefficients
Least Squares
Standard
Estimate
Error
-47,4184
23,9443
2,81674
0,6838

10

T
Statistic
-1,98037
4,11925

P-Value
0,0517
0,0001

Coeficiente de Correlacin = 0,427409


R-cuadrado = 18,2678 porcentaje

Al ser el p-valor de la pendiente 0,0001, no podemos rechazar que el % de tiro de 3


tenga una influencia significativa sobre la variable % de victorias. El coeficiente de
correlacin es menor que 0,5 por lo que nos indica una correlacin menor de lo
deseado.

% de victorias vs. Media de rebotes por partido:


Dependent variable: % victorias
Independent variable: MRP
Linear model: Y = a + b*X

Parameter
Intercept
Slope

Coefficients
Least Squares
Standard
Estimate
Error
-44,2162
27,4437
2,86486
0,824413

T
Statistic
-1,61116
3,47504

P-Value
0,1117
0,0009

Coeficiente de Correlacin = 0,417506


R-cuadrado = 17,4311 porcentaje

Al ser el p-valor de la pendiente 0,0009, no podemos rechazar que la media de rebotes


por partido tenga una influencia significativa sobre la variable % de victorias. El
coeficiente de correlacin es menor que 0,5 por lo que nos indica una correlacin
menor de lo deseado.

% de victorias vs. MVPs de la jornada:


Dependent variable: % victorias
Independent variable: MVPs de jornada
Linear model: Y = a + b*X

Parameter
Intercept
Slope

Coefficients
Least Squares
Standard
Estimate
Error
37,1761
2,33083
8,49125
1,10658

T
Statistic
15,9498
7,6734

Coeficiente de Correlacin = 0,693526


R-cuadrado = 48,0978 porcentaje

11

P-Value
0,0000
0,0000

Al ser el p-valor de la pendiente 0,0000 no podemos rechazar que el nmero de MVPs


de la jornada tenga una influencia significativa sobre la variable % de victorias. El
coeficiente de correlacin nos indica una correlacin relativamente significativa.

% de victorias vs. Valoracin mejor jugador:


Dependent variable: % victorias
Independent variable: Valoracion mejor jugador
Linear model: Y = a + b*X

Parameter
Intercept
Slope

Coefficients
Least Squares
Standard
Estimate
Error
31,1464
9,65997
1,19136
0,56954

T
Statistic
3,22427
2,09179

P-Value
0,0019
0,0401

Coeficiente de Correlacin = 0,245324


R-cuadrado = 6,01836 porcentaje

Al ser el p-valor de la pendiente 0,0401 no podemos rechazar que la valoracin del


mejor jugador tenga una influencia significativa sobre la variable % de victorias. El
coeficiente de correlacin es menor que 0,5 lo cual indica una correlacin menor de lo
deseada.

% de victorias vs. Nmero de jugadores que superan 10 de valoracin:


Dependent variable: % victorias
Independent variable: Jugadores superan 10 valoracion
Linear model: Y = a + b*X

Parameter
Intercept
Slope

Coefficients
Least Squares Standard
T
Estimate
Error
Statistic
15,9032
3,6472 4,36038
10,7193
1,04552 10,2526

P-Value
0,0000
0,0000

Coeficiente de Correlacin = 0,801648


R-cuadrado = 64,264 porcentaje

Al ser el p-valor de la pendiente 0,0000 no podemos rechazar que la valoracin del


mejor jugador tenga una influencia significativa sobre la variable % de victorias. El
coeficiente de correlacin nos indica una fuerte correlacin.

12

De esta manera nos encontramos con que solo tres regresores nos explican de
un modo alto la variabilidad del porcentaje de Victorias, que son Media de puntos,
MVPs de la Jornada y nmero de jugadores que superan 10 de valoracin. Es cierto
que todos influyen, puesto que el p-valor es significativo, pero no es la mejor manera
de explicar la variable independiente.

MODELO DE REGRESIN MLTIPLE

De esta forma hemos comprobado que la variable respuesta es sensible a todos


los regresores por separado, pero vemos que en algunos casos la variable explica de un
modo muy poco significativo la variabilidad de los datos, pero veamos si haciendo la
regresin mltiple estos valores cambian, y explican de un modo conjunto la variable
dependiente de una manera ms eficiente de cmo lo hacan por separado.
Vamos a construir un modelo con el que un entrenador de primer nivel puede
ajustar a sus necesidades; un nmero determinado de victorias que quiere conseguir,
en funcin de los factores que ms inciden en ellas. Una ecuacin tremendamente til
con la que segn vayan avanzando los partidos permitir situar al equipo en su
situacin real y realizar una prediccin bastante segura de cmo se prev acabar el ao.
Puedes ganar partidos con una media baja de puntos, pero a la larga te traer malos
resultados como indican las estadsticas y nuestra recta de regresin.
El modelo de regresin mltiple tiene como objetivo relacionar los distintos
regresores en una nica ecuacin. Buscamos una ecuacin que relacione todos los
regresores y por lo tanto asigno a las siguientes variables el valor del parmetro de
cada regresor indicado:

1 : Media de puntos por partido.

2 : Porcentaje de xito para tiros de 3 puntos.

3 : Media de rebotes por partido.

4 : Nmero de jugadores nombrados MVP de la jornada.

5 : Valoracin ACB del mejor jugador.

6 : Nmero de jugadores que superan la valoracin ACB de 10.

Buscamos una ecuacin lineal del siguiente tipo:


yi 0 1 x1i 2 x2i 3 x3i 4 x4i 5 x5i 6 x6i ui
ui
N (0, 2 )

13

Donde volvemos a especificar las siguientes hiptesis de modelo:


Linealidad: yi 0 1 x1i 2 x2i 3 x3i 4 x4i 5 x5i 6 x6i ui
Normalidad: yi | x1 , x2 ,..., x6
Normal
Homocedasticidad: Var[ yi | x1 , x2 ,..., x6 ] 2
Independencia: Cov[ yi | yk ] 0

MODELO 1: TODOS LOS FACTORES


Comprobemos si se cumplen todas las hiptesis del modelo. Para ello debemos echar
mano de los residuos de nuestros datos y sobre ellos trabajar para comprobarlo.

Grfico de Residuos
Residuo estudentizado

Residuo estudentizado

La linealidad y la homocedasticidad la comprobaremos con ayuda de los grficos de


Residuo frente a predicho y Residuo frente a nivel de factor.

4,9
2,9
0,9
-1,1
-3,1
71

75

79

83

87

91

Grfico de Residuos
4,9
2,9
0,9
-1,1
-3,1
29

31

35

37

39

41

Grfico de Residuos
4,9
2,9
0,9
-1,1
-3,1
30

32

34

36

38

40

42

Grfico de Residuos
4,9
2,9
0,9
-1,1
-3,1
0

4,9
2,9
0,9
-1,1

14

-3,1
1

n jug superan 10 valoracion

Residuo estudentizado

Grfico de Residuos

Mvp Jornada

%Tiro de 3

Residuo estudentizado

33

Media Rebotes

Residuo estudentizado

Residuo estudentizado

Media puntos

Grfico de Residuos
4,9
2,9
0,9
-1,1
-3,1
10

13

16

19

22

25

Valoracion Mejor jugador

28

Y a continuacin la grfica de residuo frente a predicho:

Residuo estudentizado

Grfico de Residuos
4,9
2,9
0,9
-1,1
-3,1
23

43

63

83

103

%Victorias predicho
Podemos observar en las grficas que la anchura a lo largo de la ordenada de
los residuos es suficientemente regular, no hay grandes agrandamientos ni
empequeecimientos, por lo que podemos hablar de una homocedasticidad bastante
significativa en el modelo. Por otro lado tambin se puede apreciar fcilmente que no
hay ninguna tendencia de los residuos ni hacia la parte positiva ni a la negativa, no
apreciamos ninguna curva, por lo que se mantiene la hiptesis de linealidad.
Tambin se observa, a raz de la ltima grfica, que los datos obtenidos
cumplen la hiptesis de independencia, esto se puede afirmar debido a la aparente
falta de orden de los residuos en la anterior grfica.
Comprobamos la normalidad hallando los residuos y viendo si se ajustan a una
distribucin normal con un nivel de confianza del 95%.
Test de Bondad de Ajuste para los residuos:
Chi-cuadrado = 1,45064 con 5 g.l. P-Valor = 0,918695
Estadstico DMAS de Kolmogorov = 0,0414651
Estadstico DMENOS de Kolmogorov = 0,0325109
Estadstico DN global de Kolmogorov = 0,0414651

15

P-Valor aproximado = 0,999707

Se acepta claramente la hiptesis de homocedasticidad con lo que podemos


empezar a construir el modelo sin ningn problema y todos los clculos y estimaciones
que hagamos sern basados en un modelo correcto.
El modelo de regresin tomando en cuenta todos los factores nos proporciona los
siguientes datos estadsticos:
Dependent variable: % victorias
Independent variables:
% tiro de 3
MPP
Jugadores superan 10 valoracion
MRP
MVPs de jornada
Valoracion mejor jugador

Parameter
CONSTANT
% tiro de 3
MPP
Jugadores superan 10 valoracion
MRP
MVPs de jornada
Valoracion mejor jugador

Estimate
-154,071
0,839912
1,91175
4,56456
0,451594
2,62804
-0,489174

Standard
Error
33,5254
0,477534
0,425811
1,27461
0,569194
0,977091
0,308974

T
Statistic
-4,59565
1,75885
4,48967
3,58113
0,793392
2,68966
-1,58322

Analysis of Variance
Source
Sum of Squares Df Mean Square F-Ratio
Model
16127,1
6
2687,84
42,67
Residual
4031,59
64
62,9936
Total (Corr.)
20158,6
70

P-Value
0,0000
0,0834
0,0000
0,0007
0,4305
0,0091
0,1183

P-Value
0,0000

R-squared = 78,3554 percent


R-squared (adjusted for d.f.) = 77,3862 percent
Standard Error of Est. = 8,0699
Mean absolute error = 6,04779
Durbin-Watson statistic = 1,84546 (P=0,2259)
Lag 1 residual autocorrelation = 0,0653245

Con los siguientes intervalos de confianza para los parmetros estimados:


95,0% confidence intervals for coefficient estimates
Standard
Parameter
Estimate
Error
Lower Limit
Upper Limit
CONSTANT
-154,071
33,5254
-221,046
-87,0964
Jugadores superan
4,56456
1,27461
2,01822
7,1109
MPP
1,91175
0,425811
1,06109
2,76241
MVPs de jornada
2,62804
0,977091
0,676075
4,58001
% tiro de 3
0,839912
0,477534
-0,114073
1,7939
MRP
0,451594
0,569194
-0,685504
1,58869
Valoracion mejor
-0,489174
0,308974
-1,10642
0,128074

16

Una vez hecho el anlisis de regresin mltiple nos damos cuenta de algo que es
nocivo para nuestro modelo, como son los contrastes individuales de cada uno de los
regresores que incluimos en el modelo. Apreciamos que hay tres de ellos que nos
invitan a rechazarlos, ya que tienen un p-valor superior al de referencia que es 0,05,
con lo que nos indican que no son significativos y que no ayudan a determinar la
variable dependiente. Estos son los que en la regresin simple nos haban dado unos
coeficientes de correlacin bajos, con lo que se poda haber previsto, aunque no a
ciencia cierta.
A continuacin se presenta la matriz de correlacin para la regresin mltiple:
CONSTANT
CONSTANT
Superan 10
valoracin
MPP
MVPs de
jornada
% tiro de 3

1,0000
0,5529

Superan 10
valoracin
0,5529
1,0000

MPP

% tiro de
3
-0,2324
-0,0634

MRP

-0,6302
-0,4004

MVPs de
jornada
0,2585
-0,3257

-0,6401
-0,4672

Valoracin
mejor jugador
0,1493
0,2041

-0,6302
0,2585

-0,4004
-0,3257

1,0000
-0,2382

-0,2382
1,0000

-0,4929
0,0495

-0,0519
-0,0250

-0,1862
-0,2546

-0,2324

-0,0634

-0,4929

0,0495

1,0000

0,4282

-0,0709

MRP
Valoracin
mejor jugador

-0,6401
0,1493

-0,4672
0,2041

-0,0519
-0,1862

-0,0250
-0,2546

0,4282
-0,0709

1,0000
-0,1691

-0,1691
1,0000

La matriz de multicolinealidad nos indica que ciertos coeficientes (aquellos con valor
absoluto cercano a 1) indican cierta multicolinealidad. Cuando hay multicolinealidad, la
estimacin de los parmetros no es optima al verse incrementada la varianza de los
parmetros estimados, puede darse la situacin de que regresores que antes eran
significativos pasen a no serlo, y viceversa. La multicolinealidad se presenta debido a
que se proporciona informacin redundante al modelo. Al eliminar los regresores
detallados anteriormente como no significativos, esperamos poder eliminar la
multicolinealidad de nuestro modelo. No se podran aceptar las estimaciones de este
modelo por lo que el modelo no es fiable para describir la variable respuesta.

MODELO 2: FACTORES SIGNIFICATIVOS


Al eliminar los 3 factores no significativos nos queda un modelo de regresin que
cumple la siguiente ecuacin:
yi 0 1 x1i 2 x2i 3 x3i ui

Comprobando de la misma manera si se cumplen las hiptesis del nuevo modelo:


GRAFICAS

17

Observando las grficas expuestas se llega a la conclusin de que el modelo es vlido y


cumple las hiptesis de normalidad, homocedasticidad, linealidad e independencia.
Este nuevo modelo, del que esperamos eliminar el problema de la multicolinealidad,
nos proporciona los siguientes valores estadsticos:
Dependent variable: % victorias
Independent variables:
MPP
Jugadores superan 10 valoracion
MVPs de jornada

Parameter
CONSTANT
MPP
Jugadores superan 10 valoracion
MVPs de jornada

Estimate
-137,424
2,1541
4,97227
2,16708

Standard
Error
26,103
0,358905
1,11694
0,955965

T
Statistic
-5,26471
6,00188
4,45169
2,2669

Analysis of Variance
Source
Sum of Squares Df Mean Square F-Ratio
Model
15795,4
3
5265,13
80,85
Residual
4363,26
67
65,1233
Total (Corr.)
20158,6
70

P-Value
0,0000
0,0000
0,0000
0,0266

P-Value
0,0000

R-squared = 80,0007 percent


R-squared (adjusted for d.f.) = 78,1258 percent
Standard Error of Est. = 7,93685
Mean absolute error = 5,8403
Durbin-Watson statistic = 2,03792 (P=0,4945)
Lag 1 residual autocorrelation = -0,0304331

Con unos p-valor todos muy bajos, con lo que hemos encontrado un modelo en el que,
esta vez s, la variable dependiente es sensible a todos los regresores. Con los
siguientes intervalos de confianza para los parmetros estimados:
95,0% confidence intervals for coefficient estimates
Standard
Parameter
Estimate
Error
Lower Limit
Upper Limit
CONSTANT
-137,424
26,103
-189,526
-85,3226
MPP
2,1541
0,358905
1,43772
2,87048
Jugadores superan
4,97227
1,11694
2,74284
7,20169
MVPs de jornada
2,16708
0,955965
0,258963
4,0752

La matriz de correlacin del nuevo modelo es la siguiente:

CONSTANT
MPP
Superan 10
valoracin
MVPs de jornada

CONSTANT

MPP

MVPs de jornada

-0,9943
1,0000
-0,3492

Superan 10
valoracin
0,3660
-0,3492
1,0000

1,0000
-0,9943
0,3660
0,3397

-0,3216

-0,3788

1,0000

18

0,3397
-0,3216
-0,3788

Donde claramente podemos apreciar que no hay ningn coeficiente de


correlacin alto, por lo que incluimos informacin significativa y procedente de
distintos sitios para explicar de una mejor manera la variabilidad, es decir, no incluimos
informacin ya aportada por otros factores, y eliminamos efectivamente el problema
de la multicolinealidad.
Ahora estaremos en condiciones de realizar unas estimaciones fiables de
nuestros parmetros, en efecto comprobemos que son distintas cuando eliminamos
ciertos factores.
Modelo 1

Modelo 2

2,1541

1,91175

4,97227

4,56456

2,16708

2,62804

Que cambian, pero en este caso no en gran medida.


Tambin se puede apreciar que la variabilidad no explicada disminuye
considerablemente al pasar del modelo de 6 regresores al de 3, ya que lo explica de
mejor manera, y refuta nuestra tesis de que el modelo es mejor, tiene menos
incertidumbre a la hora de explicar el motivo del porcentaje de victorias de un equipo.
Modelo 1 VNE: 15795,4
Modelo 2 VNE: 4031,59

Finalmente, hemos de comentar que en el nuevo modelo se ve incrementado el R


cuadrado, lo cual nos indica que el modelo explica de una manera sensiblemente
mayor la variabilidad de la variable respuesta.

MODELOS ALTERNATIVOS:
Es de inters para nuestra investigacin ver si alguna transformacin de datos nos
mejora el modelo significativamente. Se adjuntan las transformaciones de datos para
el modelo 2: log(% victorias), 1/(% victorias), (% victorias)^2

19

Logaritmo: log( yi ) 0 1 log( x1i ) 2 log( x2i ) 3 log( x3i ) ui


Dependent variable: log(% victorias)
Independent variables:
log(MPP)
log(Jugadores superan 10 valoracion)
log(MVPs de jornada)

Parameter
CONSTANT
log(MPP)
log(Jugadores superan 10
valoracion)
log(MVPs de jornada)

Estimate
-10,662
3,25611
0,270783

Standard
Error
2,57721
0,60108
0,0761166

T
Statistic
-4,13704
5,4171
3,55747

P-Value
0,0001
0,0000
0,0008

0,110098

0,05237

2,10232

0,0407

Analysis of Variance
Source
Sum of Squares Df Mean Square F-Ratio
Model
3,84397
3
1,28132
51,64
Residual
1,21589
49
0,024814
Total (Corr.)
5,05985
52

P-Value
0,0000

R-squared = 75,9699 percent


R-squared (adjusted for d.f.) = 74,4987 percent
Standard Error of Est. = 0,157525
Mean absolute error = 0,11882
Durbin-Watson statistic = 1,9338 (P=0,3699)
Lag 1 residual autocorrelation = 0,0214844

1/x: 1/ yi 0 1 (1/ x1i ) 2 (1/ x2i ) 3 (1/ x3i ) ui


Dependent variable: 1/(% victorias)
Independent variables:
1/(MPP)
1/(Jugadores superan 10 valoracion)
1/(MVPs de jornada)

Parameter
CONSTANT
1/(MPP)
1/(Jugadores superan 10
valoracion)
1/(MVPs de jornada)

Standard
Error
0,0109142
0,917139
0,00326383

T
Statistic
-4,8658
5,71737
4,12433

P-Value
0,0000
0,0000
0,0001

0,00368939 0,00180086

2,04868

0,0459

Estimate
-0,0531065
5,24362
0,0134611

Analysis of Variance
Source
Sum of Squares Df Mean Square F-Ratio
Model
0,00152982
3
0,00050994
50,79
Residual
0,000491995
49 0,0000100407
Total (Corr.)
0,00202182
52
R-squared = 75,6657 percent
R-squared (adjusted for d.f.) = 74,1758 percent
Standard Error of Est. = 0,00316871
Mean absolute error = 0,00235306
Durbin-Watson statistic = 2,06302 (P=0,5592)

20

P-Value
0,0000

Lag 1 residual autocorrelation = -0,0384923

x^2: yi 2 0 1 x1i 2 2 x2i 2 3 x3i 2 ui


Dependent variable: (% victorias)^2
Independent variables:
(MPP)^2
(Jugadores superan 10 valoracion)^3
(MVPs de jornada)^2

Parameter
CONSTANT
(MPP)^2
(Jugadores superan 10 valoracion)^3
(MVPs de jornada)^2

Estimate
-8881,57
1,79544
10,6783
46,3588

Standard
Error
1460,46
0,252482
3,33755
24,9345

T
Statistic
-6,08133
7,11118
3,19945
1,85922

Analysis of Variance
Source
Sum of Squares Df Mean Square F-Ratio
Model
1,85717E8
3
6,19058E7
66,73
Residual
6,2153E7
67
927656,
Total (Corr.)
2,4787E8
70

P-Value
0,0000
0,0000
0,0021
0,0674

P-Value
0,0000

R-squared = 74,9252 percent


R-squared (adjusted for d.f.) = 73,8025 percent
Standard Error of Est. = 963,149
Mean absolute error = 704,295
Durbin-Watson statistic = 2,11354 (P=0,6580)
Lag 1 residual autocorrelation = -0,066789

Como comprobacin adicional se incluyen las transformaciones de datos anteriores


para los 6 regresores con el fin de ver si se puede eliminar la multicolinealidad y si
alguno de los p-valores pasa a ser significativo con las transformaciones.
Logaritmo:
log( yi ) 0 1 log( x1i ) 2 log( x2i ) 3 log( x3i ) 4 log( x4i ) 5 log( x5i ) 6 log( x6i ) ui

Multiple Regression - log(% victorias)


Dependent variable: log(% victorias)
Independent variables:
log(MPP)
log(Jugadores superan 10 valoracion)
log(MVPs de jornada)
log(% tiro de 3)
log(MRP)
log(Valoracion mejor jugador)

21

Parameter
CONSTANT
log(MPP)
log(Jugadores superan 10
valoracion)
log(MVPs de jornada)
log(% tiro de 3)
log(MRP)
log(Valoracion mejor jugador)

Estimate
-11,6439
2,87394
0,251659

Standard
Error
3,05486
0,697481
0,0856971

T
Statistic
-3,8116
4,12046
2,93661

P-Value
0,0004
0,0002
0,0052

0,136805
0,603366
0,316527
-0,21311

0,0527189
0,364086
0,419824
0,118578

2,59498
1,65721
0,753951
-1,79721

0,0127
0,1043
0,4547
0,0789

Analysis of Variance
Source
Sum of Squares Df Mean Square F-Ratio
Model
3,97828
6
0,663047
28,20
Residual
1,08157
46
0,0235124
Total (Corr.)
5,05985
52

P-Value
0,0000

R-squared = 78,6244 percent


R-squared (adjusted for d.f.) = 75,8363 percent
Standard Error of Est. = 0,153338
Mean absolute error = 0,110608
Durbin-Watson statistic = 1,93181 (P=0,3389)
Lag 1 residual autocorrelation = 0,0214175

Que desafortunadamente no introduce ninguna mejora, puesto que los regresores que
no eran significativos lo siguen siendo. De la misma manera ocurre cuando le hacemos
una trasformacin del tipo:
log( yi ) 0 1 (1/ x1i ) 2 (1/ x2i ) 3 (1/ x3i ) 4 (1/ x4i ) 5 (1/ x5i ) 6 (1/ x6i ) ui
Multiple Regression - 1/(% victorias)
Dependent variable: 1/(% victorias)
Independent variables:
1/(MPP)
1/(Jugadores superan 10 valoracion)
1/(MVPs de jornada)
1/(% tiro de 3)
1/(MRP)
1/(Valoracion mejor jugador)

Parameter
CONSTANT
1/(MPP)
1/(Jugadores superan 10 valoracion)
1/(MVPs de jornada)
1/(% tiro de 3)
1/(MRP)
1/(Valoracion mejor jugador)

Source
Model
Residual
Total (Corr.)

Sum of Squares
0,00157565
0,000446167
0,00202182

Estimate
-0,0608863
4,85387
0,0119371
0,00445813
0,334424
0,257058
-0,0738159

Standard
Error
0,0138683
1,0649
0,00365289
0,00182056
0,261479
0,290056
0,0401624

Analysis of Variance
Df
Mean Square
6
0,000262608
46
0,00000969929
52

22

T
Statistic
-4,39033
4,55804
3,26784
2,44877
1,27897
0,886236
-1,83793

F-Ratio
27,07

P-Value
0,0001
0,0000
0,0021
0,0182
0,2073
0,3801
0,0725

P-Value
0,0000

R-squared = 77,9323 percent


R-squared (adjusted for d.f.) = 75,054 percent
Standard Error of Est. = 0,00311437
Mean absolute error = 0,00217507
Durbin-Watson statistic = 2,07683 (P=0,5408)
Lag 1 residual autocorrelation = -0,0460552

Conclusin:

23

Bibliografa
-Apuntes de estadstica, Departamento de ingeniera de Organizacin, Administracin
de Empresas y Estadstica.
-Regresin y Diseo de Experimentos, Daniel Pea, Editorial Alianza (2002)
-Archivo histrico, acb.com, Aos 2008/2004
http://www.acb.com/stsacum.php?cod_competicion=LACB&cod_edicion=53&cod_fas
e=LR

24

Anda mungkin juga menyukai