MTODOS ESTADSTICOS
MULTIVARIADOS
CONTENIDO
1. Coeficiente de Cronbach
2. Mtodos de anlisis multivariado
3. ANOVA de K direcciones
4. Anlisis multivariado de Varianza (MANOVA)
5. Anlisis de Covarianza
6. Anlisis Discriminante
7. Anlisis de Conglomerados (Clusters)
8. Anlisis de componentes principales
9. Anlisis Factorial
10. Anlisis de Regresin Mltiple
11. Anlisis de correspondencia
Pg. 2
1. COEFICIENTE DE CRONBACH
Pg. 3
Pg. 5
Pg. 6
2. MTODOS DE ANLISIS
MULTIVARIADO
Pg. 7
Otras
tcnicas
nuevas
incluyen
(9)
anlisis
de
Pg. 8
Regresin mltiple
En un mtodo de anlisis adecuado cuando el problema de investigacin
involucra una variable dependiente nica que se presume se relaciona a dos o
ms variables independientes medibles. El objetivo es predecir el cambio en la
variable
dependiente
de
respuesta
con
cambios
en
las
variables
Pg. 9
Anlisis conjunto
Se aplica a nuevos productos para evaluar la importancia de los atributos del
nuevo producto as como los niveles de cada atributo, mientras que el
consumidor evala solo unos pocos perfiles del producto como combinaciones
de los niveles de producto.
Por ejemplo asumir un producto con tres atributos (precio, calidad y color),
cada uno en tres niveles posibles (vgrVg.. Rojo, amarillo y azul). En vez de
tener que evalurevaluar las 27 combinaciones posibles (3x3x3), se evala un
subconjunto de 9 o ms combinaciones con base en su atractivo para el
consumidor, de manera que el investigador no solo conozca la importancia de
cada atributo, sino adems la importancia de cada nivel (atractivo del rojo vsvs.
amarillo vsvs. azul).
Correlacin cannica
El anlisis de correlacin puede ser visto como una extensin lgica de la
regresin mltiple. Donde se trata de correlacionar simultneamente varias
variables dependientes medibles o mtricas y varias variables independientes
medibles. El principio es establecer una combinacin lineal de cada conjunto de
variables (dependientes e independientes) para maximizar la correlacin entre
los dos conjuntos (obteniendo ponderaciones adecuados para las variables).
Pg. 10
conglomerados,
donde
las
entidades
se
particionan
en
grupos
Escala multidimensional
El objetivo es transformar los juicios del consumidor de similitud o preferencias
(vgrVg.. Preferencia por tiendas o marcas) en distancias representadas en un
espacio multidimensional. Si los objetos A y B se juzgan por el consumidor
como similares, comparados con cualquier otro par de objetos, la tcnica
posiciona los objetos A y B de manera que la distancia entre ellos en un
espacio multidimensional es ms pequeopequea que la distancia entre
cualquier otro par de objetos. Al final se muestra un mapa perceptual con la
posicin relativa de los objetos.
Anlisis de correspondencia
Facilita tanto la reduccin dimensional de objetos en un conjunto de atributos y
el mapa perceptual de objetos respecto a estos atributos. En su forma ms
elemental es una tabla de contingencia o tabulacin cruzada de dos variables
categricas. Transforma los datos no mtricos a un nivel medible y realiza una
reduccin dimensional (similar al anlisis de factores) y un mapa perceptual
(similar al anlisis multidimensional).
Por ejemplo, las preferencias de marcas de los consumidores pueden ser
tabuladas contra variables demogrficas (vgrVg.. Gnero, categoras de
ingresos, ocupacin) indicando cuanta gente prefiere cada una de las marcas
que caen en cada categora de las variables demogrficas. Por medio del
anlisis de correspondencia, la asociacin o correspondencia de marcas y las
caractersticas distintivas de aquellos que prefieren las marcas se muestran en
Pg. 11
Pg. 12
X2
Nivel de precios
proveedores
X3
Flexibilidad de precios
X4
Imagen de la empresa
- general
X5
Servicio en general
X6
X7
X10
Tamao de la empresa
- 1- Grande 0 - pequeo
X11
X12
X13
Tipo de industria
X14
- 1- industria A
Pg. 13
0 otras industrias
3. ANOVA DE K DIRECCIONES
Pg. 14
Pg. 15
(factores) pueden
estar en cualquier
nivel
de
Pg. 16
TABLA ANOVA
VARIABLE DEPENDIENTE: SATISFACCIN EN LA RELACIN
Fuente
variacin
de Suma
de Grados de Cuadrados
cuadrados
libertad
medios
Estadstico F
Significancia
de Fc = P
Efectos
principales
(main
effects
22.51
.001**
SIMILITUD
ATRACCIN
RETROALIM
SIMILITUD
ATRACCIN
SIMILITUD
RETROALIM
ATRACCION
31.18
21.02
11.84
0.001**
0.001**
0.004**
-4.32
0.04*
2.18
0.11
1.56
0.190
Pg. 17
RETROALIM
SIN
RETROLATRACCION
NOTA:
8.01
0.02*
significativas;
por
tanto,
slo
se
incluyen
estos
valores.
Se
Ejemplo:
Un experimento se realiz para probar cuanto tiempo toma usar un modelo
nuevo y un modelo anterior de calculadora. Seis ingenieros trabajando en un
problema estadstico y uno de ingeniera se les toma el tiempo para resolver el
problema. Los ingenieros se consideran como bloques en el diseo
experimental.
Pg. 18
Hay dos factores: Tipo de problema y modelo de calculadora cada uno con
dos niveles, se hacen experimentos donde esos niveles de los factores se
cruzan. Los datos se muestran a continuacin:
SolveTime
3.1
7.5
2.5
5.1
3.8
8.1
2.8
5.3
3
7.6
2
4.9
3.4
7.8
2.7
5.5
3.3
6.9
2.5
5.4
3.6
7.8
2.4
4.8
Engineer
Jones
Jones
Jones
Jones
Williams
Williams
Williams
Williams
Adams
Adams
Adams
Adams
Dixon
Dixon
Dixon
Dixon
Erickson
Erickson
Erickson
Erickson
Maynes
Maynes
Maynes
Maynes
ProbType
Stat
Stat
Eng
Eng
Stat
Stat
Eng
Eng
Stat
Stat
Eng
Eng
Stat
Stat
Eng
Eng
Stat
Stat
Eng
Eng
Stat
Stat
Eng
Eng
Calculator
New
Old
New
Old
New
Old
New
Old
New
Old
New
Old
New
Old
New
Old
New
Old
New
Old
New
Old
New
Old
Type
random
fixed
fixed
Levels
6
2
2
Values
Adams, Dixon, Erickson, Jones, Maynes, Williams
Eng, Stat
New, Old
DF
5
1
1
1
15
23
SS
1.053
16.667
72.107
3.682
1.010
94.518
R-Sq = 98.93%
MS
F
0.211
3.13
16.667 16.667
72.107 72.107
3.682 3.682
0.067
P
0.039
247.52
1070.89
54.68
0.000
0.000
0.000
R-Sq(adj) = 98.36%
Means
ProbType
Eng
Stat
Calculator
New
Old
N
12
12
ProbType
Eng
Eng
Stat
Stat
SolveTime
3.8250
5.4917
N
12
12
SolveTime
2.9250
6.3917
Calculator
New
Old
New
Old
N
6
6
6
6
SolveTime
2.4833
5.1667
3.3667
7.6167
Pg. 20
Pg. 21
4. ANLISIS
(MANOVA)
MULTIVARIADO
DE
VARIANZA
reconoce
si
los
cambios
en
la(s)
variable(s)
una
variable
independiente
dicotmica
varias
dependientes.
2) MANOVA unidireccional. Anlogo al ANOVA de una sola va, pero
con ms dependientes: una variable independiente multicategrica y
varias
dependientes.
3) MANOVA factorial. Similar al ANOVA factorial, solamente que con
dos o ms dependientes: varias independientes categricas y varias
dependientes.
Los
modelos
del
MANOVA
tienen
en
comn
que
forman
qu
no
hacemos
ANOVAS
separados,
uno
para
cada
Pg. 23
se
efecta
por
medio
de
las
ponderaciones
de
los
dependientes,
dependientes
sea
pero
mayor
es
que
comn
que
el
variables
de
el
Pg. 24
nmero
de
cannicas
de
los
grupos
las
categoras
de
la(s)
variable(s)
(cuando
hay
coeficientes
cannicos);
si
resultan
de
las
variables
independientes
por
puntuaciones
discriminante
en
cada
grupo
cada
se
variable
le
asigna
cannica.
una
Las
puntuacin
puntuaciones
Pg. 25
Pg. 26
en
la
primera
variable
cannica
(motivacin
Pg. 27
Gloss
9.5
9.9
9.6
9.6
9.2
9.1
10
9.9
9.5
9.4
9.1
9.3
8.3
8.4
8.5
9.2
8.8
9.7
10.1
9.2
Opacity
4.4
6.4
3
4.1
0.8
5.7
2
3.9
1.9
5.7
2.8
4.1
3.8
1.6
3.4
8.4
5.2
6.9
2.7
1.9
ExtrusionE
xtrusin
1
1
1
1
1
1
1
1
1
1
2
2
2
2
2
2
2
2
2
2
Additive
1
1
1
1
1
2
2
2
2
2
1
1
1
1
1
2
2
2
2
2
Instrucciones de Minitab
1
Pg. 28
m = 0.5
n = 6.0
Test
Criterion
DF
Statistic
Num
Denom
Wilks'
0.38186
7.554
14
0.003
Lawley-Hotelling
1.61877
7.554
14
0.003
Pillai's
0.61814
7.554
14
0.003
Roy's
1.61877
Tear
Gloss
Opacity
Tear
Gloss
Opacity
1.740
-1.505
0.8555
-1.505
1.301
-0.7395
0.855
-0.739
0.4205
Gloss
Opacity
Tear
1.764
0.0200
-3.070
Gloss
0.020
2.6280
-0.552
-3.070
-0.5520
64.924
Opacity
Gloss
Opacity
Pg. 29
1.00000
0.00929
-0.28687
Gloss
0.00929
1.00000
-0.04226
-0.28687
-0.04226
1.00000
Opacity
Eigenvalue
1.619
0.00000
0.00000
Proportion
1.000
0.00000
0.00000
Cumulative
1.000
1.00000
1.00000
Eigenvector
Tear
Gloss
Opacity
0.6541
0.4315
0.0604
-0.3385
0.5163
0.0012
0.0359
0.0302
-0.1209
m = 0.5
n = 6.0
Test
Criterion
DF
Statistic
Num
Denom
Wilks'
0.52303
4.256
14
0.025
Lawley-Hotelling
0.91192
4.256
14
0.025
Pillai's
0.47697
4.256
14
0.025
Roy's
0.91192
Gloss
Opacity
Tear
0.7605
0.6825
1.931
Gloss
0.6825
0.6125
1.732
Opacity
1.9305
1.7325
4.901
Eigenvalue
0.9119
0.00000
0.00000
Proportion
1.0000
0.00000
0.00000
Cumulative
1.0000
1.00000
1.00000
Pg. 30
Tear
-0.6330
0.4480
-0.1276
Gloss
-0.3214
-0.4992
-0.1694
Opacity
-0.0684
0.0000
0.1102
m = 0.5
n = 6.0
Test
Criterion
DF
Statistic
Num
Denom
Wilks'
0.77711
1.339
14
0.302
Lawley-Hotelling
0.28683
1.339
14
0.302
Pillai's
0.22289
1.339
14
0.302
Roy's
0.28683
Gloss
Opacity
Tear
0.000500
0.01650
0.04450
Gloss
0.016500
0.54450
1.46850
Opacity
0.044500
1.46850
3.96050
Eigenvalue
0.2868
0.00000
0.00000
Proportion
1.0000
0.00000
0.00000
Cumulative
1.0000
1.00000
1.00000
Eigenvector
Tear
-0.1364
0.1806
0.7527
Gloss
-0.5376
-0.3028
-0.0228
Opacity
-0.0683
0.1102
-0.0000
Por default se muestra la tabla para las cuatro pruebas multivariadas (Wilks,
Lawley, Hotelling, Pillai y Roy) para cada uno de los trminos en el modelo.
Los valores s, m y n se utilizan para los clculos de los estadsticos de prueba
Fc, el cual es exacto si s = 1 o 2 de otra forma es aproximado.
Pg. 31
Extrusion ies
variables de respuesta.
3
4. Click OK.
Pg. 33
5 ANLISIS DE COVARIANZA
Pg. 34
5. ANLISIS DE COVARIANZA
Definicin: Es un mtodo estadstico que analiza la relacin entre una
variable dependiente y dos o ms independientes, con el que se
elimina o controla el efecto de al menos una de estas independientes.
Similar al ANOVA, excepto que permite controlar la influencia de una
variable independiente, la cual con frecuencia es una caracterstica
antecedente que puede variar entre los grupos (Mertens, 2005) o
influir los resultados y afectar la claridad de las interpretaciones.
Perspectivas o usos: Wildt y Ahtola (1978, pp. 8-9) destacan tres
perspectivas para el anlisis de covarianza:
A. Perspectiva experimental. Se aplica a aquellas situaciones en que
el inters del investigador se centra en las diferencias observadas en
la variable dependiente, por medio de las categoras de la variable
independiente (o variables independientes). Pero el experimentador
asume que hay otras variables independientes cuantitativas que
contaminan la relacin y cuya influencia debe ser controlada.
Pg. 35
El
objetivo
es
purificar
la
relacin
entre
las
independientes
categricas y la
Variable
dependiente,
mediante
el
control
del
efecto
de
las
Pg. 36
covariable
evaluacin
de
las
la
covariables
relacin
y,
entre
posteriormente,
las
variables
como
una
independientes
Pg. 37
Pg. 38
Pg. 39
Pg. 40
Lo que el investigador
grficamente as:
desea
tambin
se
puede
expresar
Pg. 41
efectuado
mediante
un
programa
estadstico
de
varianza.
Los
elementos
ms
comunes
pueden
travs
de
las
categoras
de
las
variables
Ejemplo:
Diseo de investigacin que utiliza el anlisis de covarianza
Pg. 42
__
> X2
__
>
X3
de la productividad debida a la
Pg. 44
que
SPSS
nos
proporciona
automticamente
la
significancia de F.
Ejemplo:
Determinar
si
hay
diferencia
en
la
resistencia
de
una
fibra
X
20
25
24
25
32
22
Maq
1
1
1
1
1
2
Pg. 45
48
39
45
44
35
37
42
34
32
28
22
30
28
21
23
26
21
15
2
2
2
2
3
3
3
3
3
S
R-Sq
R-Sq(adj)
1.78174
88.1%
87.2%
45
40
35
30
15.0
17.5
20.0
22.5
25.0
27.5
30.0
32.5
Pg. 46
3. En Covariates X
4. En Results en Display Least Square Means corresponding to the
terms Maq
5. En Graphs seleccionar Normal plot for residuals
6. OK
Los resultados se muestran a continuacin:
General Linear Model: Y versus Maq
Factor
Maq
Type
fixed
Levels
3
Values
1, 2, 3
DF
1
2
11
14
Seq SS
305.13
13.28
27.99
346.40
S = 1.59505
Term
Constant
X
Adj SS
178.01
13.28
27.99
Adj MS
178.01
6.64
2.54
R-Sq = 91.92%
Coef
17.177
0.9540
SE Coef
2.783
0.1140
F
69.97
2.61
P
0.000
0.118
R-Sq(adj) = 89.72%
T
6.17
8.36
P
0.000
0.000
Y
48.0000
Fit
45.1080
SE Fit
0.7489
Residual
2.8920
St Resid
2.05 R
Mean
24.13
StDev
4.324
Mean
40.38
41.42
38.80
SE Mean
0.7236
0.7444
0.7879
Conclusin:
Se observa que no hay diferencia en las mquinas una vez que eliminamos la
variabilidad introducida por el dimetro de la fibra, en caso de no haber tomado
Pg. 47
DF
2
12
14
S = 4.143
Level
1
2
3
N
5
5
5
SS
140.4
206.0
346.4
MS
70.2
17.2
F
4.09
R-Sq = 40.53%
Mean
41.400
43.200
36.000
StDev
4.827
3.701
3.808
P
0.044
R-Sq(adj) = 30.62%
Pg. 48
Pg. 49
anlisis
discriminante,
se
aplica
cuando
las
variables
Pg. 51
Modelo discriminante
El problema que atiende la funcin discriminante es que tanto es posible
separar dos o ms grupos de individuos, con base en las mediciones
realizadas en esos individuos en varias variables. Por ejemplo para el caso de
los pjaros que sobrevivieron y los que no sobrevivieron, es interesante
considerar si es posible utilizar las dimensiones de sus cuerpos para separar
sobrevivientes de no sobrevivientes.
En el caso general donde hay m muestras aleatorias de diferentes grupos, de
tamaos n1, n2, ., nm y los valores disponibles para p variables X1, X2, ,
Xp para cada miembro de la muestra, la forma de los datos para una funcin de
anlisis discriminante es :
Individuo
1
2
n1
1
2
n2
1
2
nm
X1
X111
X211
.
Xn1,11
X121
X221
..
Xn2,2,1
X1m1
X1m1
.
Xnm,m1
X2
X112
X212
.
Xn1,12
X122
X222
..
Xn2,2,2
X1m2
X1m2
.
Xnm,m2
Xp
X11p
X21p
.
Xn1,1p
X12p
X22p
..
Xn2,2,p
X1mp
X1mp
.
Xnm,mp
Grupo
Grupo1
Grupo 2
Grupo m
Pg. 52
Dij2 ( ri rj )v rs ( si sj )
r 1 s 1
' ( 1 , 2 ,....., p )
Dij2 (i j )'V 1 (i j )
1i
2i
.....
pi
Pg. 53
c11 c12....c1 p
c21 c22....c2 p
C
.................
cp1 cp2....cpp
La distancia de Mahalanobis de una observacin x' ( x1 , x2 ,......, x p )' al
centro del grupo i se estima con:
Di2 ( x xi )' C 1 ( x xi )
p
Pg. 54
Suma de
cuadrados
B=TW
Grados de
libertad
m -1
Dentro
W ( xij x j ) 2 n - m
Cuadrado Medio
M1 = B/(m-1)
M1/M2
nj
j 1 i 1
de muestras
m
nj
T ( xij x ) 2
Total
n1
j 1 i 1
nj
xij
xj
xij
i 1
nj
nj
xij
j 1 i 1
nj
nj
Pg. 56
Pg. 57
Ejemplo:
El porcentaje de personas empleadas en nueve diferentes sectores industriales
en Europa (Agr = agricultura; Min = minera; Man = Manufactura; Ps = Energa;
Con = Construccin; Ser = Servicios; Fin = Finanzas; Sps = Servicios sociales;
Tc = Transporte y comunicaciones).
No
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
Grupo
1
1
1
1
1
1
1
1
1
1
1
2
1
2
2
1
1
2
3
3
3
3
3
3
3
3
Ciudad
Blgica
Dinamarca
Francia
Alemania Occ.
Irlanda
Italia
Luxenburgo
Holanda
Inglaterra
Austria
Finlandia
Grecia
Noruega
Portugal
Espaa
Suecia
Suiza
Turqua
Bulgaria
Checa
Alemania Ori.
Hungra
Polonia
Rumania
Rusia
Yugoslavia
Agr
3.3
9.2
10.8
6.7
23.2
15.9
7.7
6.3
2.7
12.7
13.0
41.4
9.0
27.8
22.9
6.1
7.7
66.8
23.6
16.5
4.2
21.7
31.1
34.7
23.7
48.7
Min
0.9
0.1
0.8
1.3
1.0
0.6
3.1
0.1
1.4
1.1
0.4
0.6
0.5
0.3
0.8
0.4
0.2
0.7
1.9
2.9
2.9
3.1
2.5
2.1
1.4
1.5
Man
27.6
21.8
27.5
35.8
20.7
27.6
30.8
22.5
30.2
30.2
25.9
17.6
22.4
24.5
28.5
25.9
37.8
7.9
32.3
35.5
41.2
29.6
25.7
30.1
25.8
16.8
1
9
2
9
3
8
Summary of classification
True Group
1
2
3
8
1
0
1
8
0
0
0
8
9
9
8
8
8
8
0.889 0.889 1.000
N Correct = 24
1
0.0000
9.4368
40.1385
2
9.4368
0.0000
20.4832
3
40.1385
20.4832
0.0000
1
-11171
221
284
211
371
287
244
204
255
2
-10821
218
277
208
369
283
239
200
251
Variable
Agr
Min
Man
Ps
Con
Ser
Pooled Mean
19.131
1.2538
27.008
0.90769
8.1654
12.958
3
-10678
217
279
207
371
282
236
199
249
Pg. 59
4.0000
20.023
Variable
Agr
Min
Man
Ps
Con
Ser
Fin
Sps
Pooled
StDev
14.37
0.6643
6.969
0.3788
1.699
2.749
2.630
6.148
5.0222
24.511
4.5667
18.656
2.2125
16.513
Agr
206.455
-1.471
-80.889
-2.568
-13.191
-31.181
-3.479
-59.429
37.798
Min
Man
Ps
Con
Ser
Fin
0.441
1.683
0.087
0.029
0.336
-0.424
-0.748
48.569
0.881
6.269
11.763
-1.216
9.607
0.143
0.042
0.576
0.220
0.424
2.887
2.076
-0.148
1.082
7.555
0.287
6.397
6.916
-1.432
Sps
Agr
42.053
-0.800
-15.359
-0.067
0.856
-0.776
-8.537
-14.949
20.466
Min
Man
Ps
Con
Ser
Fin
Sps
0.810
2.522
0.040
-0.156
0.372
-0.312
-2.359
23.727
-0.058
-1.376
-0.809
-0.272
-8.052
0.084
-0.208
0.012
0.074
0.100
1.248
0.920
-0.254
-0.922
2.684
-0.432
-2.050
3.122
5.906
Agr
400.228
1.336
-140.614
-5.808
-30.813
-71.357
-31.392
-98.810
58.735
Min
Man
Ps
Con
Ser
Fin
Sps
0.078
-0.459
0.021
0.025
-0.288
0.048
-0.732
69.609
2.090
15.256
25.528
12.865
11.504
0.149
0.437
1.149
0.438
1.131
5.505
4.945
3.830
-0.771
15.978
3.179
16.029
4.908
4.981
Agr
172.888
-5.445
-87.525
-1.722
-9.106
-20.013
34.201
Min
Man
Ps
Con
Ser
Fin
0.436
3.172
0.218
0.245
1.009
-1.093
52.914
0.572
4.734
10.401
-18.389
0.205
-0.123
0.565
0.135
1.769
0.119
-4.574
3.494
-2.195
13.547
Pg. 60
Sps
-65.256
33.678
1.076
27.621
-0.013
5.042
-17.147
True
Group
1
Pred
Group
2
16**
Group
1
2
3
1
2
3
Squared
Distance
11.326
6.373
19.796
5.350
10.989
35.747
Probability
0.077
0.921
0.001
0.944
0.056
0.000
N
26
Percent
100.0
.0
.0
.0
0
26
.0
100.0
Pg. 61
Group Statistics
GRUPO
1.00
2.00
3.00
Total
AGR
MIN
MAN
PS
CON
SER
FIN
SPS
AGR
MIN
MAN
PS
CON
SER
FIN
SPS
AGR
MIN
MAN
PS
CON
SER
FIN
SPS
AGR
MIN
MAN
PS
CON
SER
FIN
SPS
Mean
9.5929
.8500
27.6214
.9571
8.4214
16.6786
5.1143
24.0786
39.7250
.6000
19.6250
.5000
7.7000
9.9250
3.6750
12.8500
25.5250
2.2875
29.6250
1.0250
7.9500
7.9625
2.2125
16.5125
19.1308
1.2538
27.0077
.9077
8.1654
12.9577
4.0000
20.0231
Std. Deviation
5.3626
.7743
5.0773
.2875
1.0401
1.5783
1.4206
5.3738
19.6736
.2160
9.0205
.2708
3.6102
3.4760
3.2908
2.5981
13.1487
.6600
7.2742
.4528
1.3299
1.8693
3.6806
5.8033
15.5466
.9700
7.0078
.3762
1.6456
4.5753
2.8066
6.8295
Valid N (listwise)
Unweighted
Weighted
14
14.000
14
14.000
14
14.000
14
14.000
14
14.000
14
14.000
14
14.000
14
14.000
4
4.000
4
4.000
4
4.000
4
4.000
4
4.000
4
4.000
4
4.000
4
4.000
8
8.000
8
8.000
8
8.000
8
8.000
8
8.000
8
8.000
8
8.000
8
8.000
26
26.000
26
26.000
26
26.000
26
26.000
26
26.000
26
26.000
26
26.000
26
26.000
Analysis 1
Summary of Canonical Discriminant Functions
Eigenvalues
Function
1
2
Eigenvalue % of Variance
11.347a
92.1
a
.977
7.9
Cumulative %
92.1
100.0
Canonical
Correlation
.959
.703
Pg. 62
Wilks' Lambda
Test of Function(s)
1 through 2
2
Wilks'
Lambda
.041
.506
Chi-square
62.301
13.290
df
16
7
AGR
MIN
MAN
PS
CON
SER
FIN
SPS
2
.555
.551
.736
.357
-.010
.025
.357
.970
Structure Matrix
Function
SER
FIN
AGR
MIN
PS
MAN
SPS
CON
.630*
.157*
-.243
-.265
-.001
-.017
.229
.045
.339
-.032
-.737*
.592*
.551*
.544*
.505*
.103*
1
2.792
-1.234
-4.269
2
.264
-2.150
.613
Pg. 63
Sig.
.000
.065
Function
1
2
1
2
1
2
2.00
3.00
1
.867
-.168
2.340
.242
.672
.209
2
-.168
.737
.242
.726
.209
1.605
Rank
2
2
2
2
Log
Determinant
-.492
.495
.035
.000
Approx.
df1
df2
Sig.
4.673
.629
6
707.141
.707
Classification Statistics
Classification Processing Summary
Processed
Excluded
Used in Output
26
Missing or out-of-range
group codes
At least one missing
discriminating variable
0
0
26
Pg. 64
GRUPO
1.00
2.00
3.00
Total
Prior
.538
.154
.308
1.000
Separate-Groups Graphs
Canonical Discriminant Functions
GRUPO = 1
2.5
2.0
1.5
1.0
.5
Function 2
0.0
Group Centroid
-.5
Group Centroid
-1.0
-1.5
1.0
1.5
2.0
2.5
3.0
3.5
4.0
4.5
Function 1
-1.5
-2.0
Function 2
-2.5
Group Centroid
-3.0
Group Centroid
-3.5
-2.5
-2.0
-1.5
-1.0
-.5
0.0
.5
1.0
Function 1
Pg. 65
Function 2
Group Centroid
-1
Group Centroid
-2
-5.5
-5.0
-4.5
-4.0
-3.5
-3.0
Function 1
3
1
GRUPO
-1
Function 2
Group Centroids
-2
3
-3
-4
1
-6
-4
-2
Function 1
Classification Resultsa
Original
Count
GRUPO
1.00
2.00
3.00
1.00
2.00
3.00
Pg. 66
Total
14
4
8
100.0
100.0
100.0
Territorial Map
Canonical Discriminant
Function 2
-6.0
-4.0
-2.0
.0
2.0
4.0
6.0
31
31
31
31
31
31
4.0
31
31
31
31
31
31
2.0
31
31
331
32221
*
332
21
322
21
*
.0
332
21
3322
21
322
21
332
21
322
21
332
21
-2.0
322
21
332
21
322
21
332
21
322
21
332
21
-4.0 322
21
332
21
22
21
21
21
21
-6.0
21
-6.0
-4.0
-2.0
.0
2.0
4.0
Canonical Discriminant Function 1
6.0
6.0
3
1
GRUPO
F u n c t io n 2
-1
Group Centroids
-2
3
-3
-4
1
-6
-4
-2
Function 1
Pg. 67
Ejemplo:
Para regular la pesca de salmn, se desea identificar si el pescado es originario
de Alaska o de Canad. Cincuenta peces de cada lugar de origen fueron
capturados y pesados cuando vivan en agua dulce y cuando vivieron en agua
salada. El objetivo es el de poder identificar si los nuevos pescados vienen de
criaderos en Alaska o Canad. Los datos se muestran a continuacin:
SalmonOrigin Freshwater
Marine
Alaska
108
368
Alaska
131
355
Alaska
105
469
Alaska
86
506
Alaska
99
402
Alaska
87
423
Alaska
94
440
Alaska
117
489
Alaska
79
432
Alaska
99
403
Alaska
114
428
Alaska
123
372
Alaska
123
372
Alaska
109
420
Alaska
112
394
Alaska
104
407
Alaska
111
422
Alaska
126
423
Alaska
105
434
Alaska
119
474
Alaska
114
396
Alaska
Alaska
100
84
470
399
SalmonOrigin Freshwater
CanadaCana
d
129
CanadaCana
d
148
CanadaCana
d
179
CanadaCana
d
152
CanadaCana
d
166
CanadaCana
d
124
CanadaCana
d
156
CanadaCana
d
131
CanadaCana
d
140
CanadaCana
d
144
CanadaCana
d
149
CanadaCana
d
108
CanadaCana
d
135
CanadaCana
d
170
CanadaCana
d
152
CanadaCana
d
153
CanadaCana
d
152
CanadaCana
d
136
CanadaCana
d
122
CanadaCana
d
148
CanadaCana
d
90
CanadaCana
d
145
CanadaCana
123
Pg. 68
Marine
420
371
407
381
377
389
419
345
362
345
393
330
355
386
301
397
301
438
306
383
385
337
364
Alaska
102
429
Alaska
101
469
Alaska
85
444
Alaska
109
397
Alaska
106
442
Alaska
82
431
Alaska
118
381
Alaska
105
388
Alaska
121
403
Alaska
85
451
Alaska
83
453
Alaska
53
427
Alaska
95
411
Alaska
76
442
Alaska
95
426
Alaska
87
402
Alaska
70
397
Alaska
84
511
Alaska
91
469
Alaska
74
451
Alaska
101
474
Alaska
80
398
Alaska
95
433
Alaska
92
404
Alaska
99
481
Alaska
94
491
Alaska
87
480
d
CanadaCana
d
CanadaCana
d
CanadaCana
d
CanadaCana
d
CanadaCana
d
CanadaCana
d
CanadaCana
d
CanadaCana
d
CanadaCana
d
CanadaCana
d
CanadaCana
d
CanadaCana
d
CanadaCana
d
CanadaCana
d
CanadaCana
d
CanadaCana
d
CanadaCana
d
CanadaCana
d
CanadaCana
d
CanadaCana
d
CanadaCana
d
CanadaCana
d
CanadaCana
d
CanadaCana
d
CanadaCana
d
CanadaCana
d
CanadaCana
d
145
376
115
354
134
383
117
355
126
345
118
379
120
369
153
403
150
354
154
390
155
349
109
325
117
344
128
400
144
403
163
370
145
355
133
375
128
383
123
349
144
373
140
388
150
339
124
341
125
346
153
352
108
339
Pg. 69
Alaska
50
Canada
50
Summary of classification
True Group
Alaska Canada
44
1
6
50
50
44
49
0.880
0.980
49
N Correct = 93
Alaska
0.00000
8.29187
Canada
8.29187
0.00000
Squared
Pred Group
Group Distance Probability
CanadaCanad Alaska
3.544
CanadaCanad
2.960
Alaska
CanadaCanad Alaska
8.1131
CanadaCanad
0.2729
Alaska
CanadaCanad Alaska
4.7470
CanadaCanad
0.7270
Alaska
CanadaCanad Alaska
4.7470
CanadaCanad
0.7270
Alaska
CanadaCanad Alaska
3.230
CanadaCanad
1.429
Alaska
CanadaCanad Alaska
2.271
CanadaCanad
1.985
CanadaCanad
Alaska Alaska
2.045
CanadaCanad
7.849
True Group
Alaska
0.428
0.572
0.019
0.981
0.118
0.882
0.118
0.882
0.289
0.711
0.464
0.536
0.948
0.052
Squared
Pred Group From Group Distance Probability
CanadaCanad
Alaska
78.448
0.000
CanadaCanad
55.194
1.000
Pg. 71
Donde:
Zjk = Valor Z discriminante de la funcin discriminante J para el objeto K.
a = Interseccin en eje Y
Wi = Peso discriminante para la variable independiente i.
Xik = Variable independiente i para el objeto k.
La media de un grupo se denomina Centroide, que indica la localizacin tpica
de cualquier individuo dentro de un grupo en particular y una comparacin de
las centroides de los grupos muestra que tan alejados se encuentran en
relacin a la dimensin considerada.
2.
4. Click OK.
Los resultados se muestran a continuacin:
Discriminant Analysis: X11 versus X1, X2, X3, X4, X5, X6, X7
Linear Method for Response: X11
Predictors: X1, X2, X3, X4, X5, X6, X7
Group
0
1
Count
25
35
Summary of classification
True Group
Put into Group
0
1
0
24
2
1
1
33
Total N
25
35
N correct
24
33
Proportion
0.960 0.943
N = 60
N Correct = 57
True
Group
0
Pred
Group
1
17**
56**
Group
0
1
0
1
0
1
Squared
Distance
6.238
6.032
7.893
15.673
4.753
8.078
Probability
0.474
0.526
0.980
0.020
0.841
0.159
Pg. 74
X1
X2
Wilks'
Lambda
.614
.716
F
36.526
22.953
X3
.467
X4
.997
X5
X6
X7
df1
1
1
df2
58
58
Sig.
.000
.000
66.302
58
.000
.145
58
.704
.993
.414
58
.523
.991
.522
58
.473
.528
51.951
58
.000
1
1.152
.749
X3
.668
X4
.111
X5
-1.153
X6
.042
X7
-.626
.643
-.569
X1
.477
X2
-.379
X6
.057
X5
.051
X4
.030
Pooled within-groups correlations between discriminating variables and standardized canonical
discriminant functions Variables ordered by absolute size of correlation within function.
1
-1.933
1.381
Unstandardized canonical discriminant functions evaluated at group means
Pg. 75
Z=0
N=24
N=33
Zo=-1.933
Z1=1.063
Pg. 76
X1
X2
Wilks'
Lambda
.546
.934
F
31.628
2.676
X3
.789
X4
.969
X5
X6
X7
df1
1
1
df2
38
38
Sig.
.000
.110
10.185
38
.003
1.205
38
.279
.798
9.611
38
.004
.997
.105
38
.748
.535
33.043
38
.000
Log Determinants
X11
.00
1.00
7
7
Log
DeterminantDe
terminan
-9.872
-6.987
-6.367
Rank
Pooled within-groups
The ranks and natural logarithms of determinants printed are those of the group covariance matrices.
Test Results
Box's M
F
Approx.
63.963
1.776
df1
28
df2
3061.289
Sig.
.007
Tests null hypothesis of equal population covariance matrices.
Standardized Canonical Discriminant Function Coefficients
Function
X1
X2
1
1.932
1.525
X3
.294
X4
-.621
X5
-1.698
X6
.934
X7
-.783
Structure Matrix
Function
1
X7
X1
-.644
.630
X3
.358
X5
.347
X2
-.183
X4
-.123
X6
-.036
Pg. 77
1
-1.822
1.093
Unstandardized canonical discriminant functions evaluated at group means
Prior Probabilities for Groups
X11
.00
1.00
Total
Prior
.500
.500
1.000
=
C
a
o
n
aX
ic
s1
lD
ri0
c
n
m
tF
a
u
tio
c
n
1
-2-10123N
4
0
5v
2
M
S
=
n
a
e
.D
td
9.1
0
1
.=
2
4
1
2
3
4
5 X
1=1
an
C
o
lD
a
ic
sc
rim
atF
n
n
u
tio
c
1
n
Classification Results(a)
Predicted Group
Membership
Original
Count
X11
.00
1.00
.00
.00
1.00
Total
15
3
0
22
15
25
100.0
.0
100.0
12.0
88.0
a 92.5% of original grouped cases correctly classified.
100.0
1.00
Pg. 78
Regresin Logstica
Una de las ventajas de la regresin logstica versus el anlisis discriminante es
que es menos afectada por las diferencias en varianzas / covarianzas entre los
grupos, que es una premisa del anlisis discriminante. Otra ventaja es que la
regresin logstica puede manejar variables independientes categricas
fcilmente, mientras que en el anlisis discriminante el uso de variables de
apoyo crea problemas con la igualdad de varianza / covarianza. Finalmente la
regresin logstica es similar a la regresin mltiple en trminos de su
interpretacin e interpretacin incluyendo los residuos.
Ejemplo:
Un investigador est interesado en comprender el efecto de fumar y el peso en
el pulso en reposo, como esta ltima variable dependiente es categrica (bajo,
alto) el anlisis de regresin logstica es adecuado.
You are a researcher who is interested in understanding the effect of smoking
and weight upon resting pulse rate. Because you have categorized the
response-pulse rateinto low and high, a binary logistic regression analysis is appropriate to
investigate the effects of smoking and weight upon pulse rate.
Se tiene inters en comprender el efecto de fumar y el peso sobre el pulso (alto
y bajo).
Los datos utilizados son los siguientes:
RestingPulse Smokes Weight RestingPulse Smokes Weight RestingPulse Smokes Weight
Low
Low
Low
Low
Low
Low
High
Low
Low
Low
High
Low
High
Low
Low
No
No
Yes
Yes
No
No
No
No
No
No
Yes
No
Yes
No
No
140
145
160
190
155
165
150
190
195
138
160
155
153
145
170
Low
Low
Low
Low
Low
Low
Low
Low
High
Low
Low
Low
Low
Low
Low
No
Yes
Yes
No
No
No
Yes
No
Yes
No
No
No
Yes
Yes
Yes
Pg. 79
215
150
145
155
155
150
155
150
180
160
135
160
130
155
150
Low
Low
Low
Low
Low
High
Low
High
High
Low
Low
High
Low
Low
Low
No
No
No
No
No
No
Yes
No
Yes
No
No
No
No
No
No
115
102
115
150
110
116
108
95
125
133
110
150
108
155
180
Low
Low
Low
Low
Low
Low
Low
Low
Low
High
Low
Low
High
High
Low
High
No
Yes
Yes
Yes
No
No
No
No
Yes
No
No
Yes
No
Yes
No
No
175
175
170
180
135
170
157
130
185
140
120
130
138
121
125
116
Low
High
Low
High
Low
High
High
Low
Low
Low
High
Low
Low
High
Low
Low
No
No
No
Yes
Yes
No
Yes
Yes
No
No
No
No
No
No
No
No
148
155
150
140
190
145
150
164
140
142
136
123
155
130
120
130
Low
Low
Low
Low
High
Low
High
High
Low
Low
Low
Low
Low
Low
High
No
No
No
No
Yes
No
No
Yes
Yes
No
No
No
Yes
No
Yes
122
120
118
125
135
125
118
150
112
125
190
155
170
145
131
Logit
Low
High
Total
Variable
70
22
92
Value
(Event)
Count
Factor Information
Factor
Levels Values
Pg. 80
2 No
Yes
Coef
-1.987
SE Coef
1.679
Z
P
-1.18 0.237
-1.1930
0.02502
0.5530
0.01226
-2.16 0.031
2.04 0.041
Odds
Ratio
0.30
1.03
95% CI
Lower
Upper
0.10
1.00
0.90
1.05
Log-Likelihood = -46.820
Test that all slopes are zero: G = 7.574, DF = 2, P-Value = 0.023
DF
47
47
8
P
0.724
0.312
0.784
2
1
0.636
0.496
Estas pruebas de bondad de ajuste con P values de 0.312 a 0.724 indican que
no hay evidencia suficiente que indique que el modelo no ajuste a los datos
adecuadamente, considerando un nivel de significancia de 0.05.
Table of Observed and Expected Frequencies:
(See Hosmer-Lemeshow Test for the Pearson Chi-Square Statistic)
Value
Low
Obs
Exp
High
Obs
Exp
Total
Group
5
6
4
4.4
6
6.4
6
6.3
8
6.6
8
6.9
6
7.2
5
4.6
4
3.6
3
2.7
1
2.4
1
2.1
3
1.8
10
8
8.3
12
12.9
10
9.1
2
1.9
70
2
1.7
3
2.1
0
0.9
0
0.1
22
92
10
15
10
10
Total
Esta tabla permit e ver que tan bien ajusta el modelo a los datos, comparando
las frecuencias observadas y las frecuencias esperadas, siendo similares indica
que no hay evidencia suficiente de que los datos no ajusten bien al modelo,
soportado por las pruebas de bondad de ajuste para un nivel de significancia
de 0.05.
Measures of Association:
(Between the Response Variable and Predicted Probabilities)
Pairs
Concordant
Discordant
Ties
Total
Number
1045
461
34
1540
Percent
67.9%
29.9%
2.2%
100.0%
Summary Measures
Somers' D
Goodman-Kruskal Gamma
Kendall's Tau-a
0.38
0.39
0.14
Esta tabla muestra 1540 pares (70 individuos con un low pulse y 22 con high
pulse resultando en 70*22 = 1540) con valores de respuesta diferentes. Con
base en el modelo un par es concordante si el individuo con una tasa de pulso
baja (low pulse rate) tiene una ms alta probabilidad de tener pulso bajo,
discrepante de si sucede lo contrario, y empate si las probabilidades son
iguales. En este ejemplo el 67.9% de los pares son concordantes y 29% son
Pg. 82
Pg. 83
Delta Chi-Square
5
4
3
2
1
0
0.4
0.5
0.6
0.7
0.8
0.9
1.0
Probability
Delta Chi-Square
5
4
3
2
1
0
0.01
0.06
0.11
0.16
Leverage
Pg. 84
Pg. 85
8. Anlisis de Conglomerados
Pg. 86
8. ANLISIS DE CONGLOMERADOS
Se cuenta tambin con el anlisis de conglomerados o clusters
(tcnica para
agruparAgrupar los casos o elementos de una muestra en grupos con
base en una o
msMs variables).
Usar Anlisis de componentes principales para ayudar a comprender la
estructura de datos y/o a formar un pequeo nmero de variables no
correlacionadas (por ejemplo para evitar multicolinealidad en la regresin).
Cluster
Variate
caractersticas
es
utilizadas
el
conjunto
para
de
comparar
variables
objetos
representando
en
el
anlisis
las
de
Pg. 87
A. Conglomerados de observaciones
Usar conglomerados de observaciones para clasificar observaciones en
grupos, cuando inicialmente los grupos son desconocidos.
Este procedimiento utiliza un mtodo jerrquico aglomerativo que inicia con
todas
las
observaciones
separadas,
cada
una
formando
su
propio
V1
V2
Pg. 88
Variables
V1
V2
A
3
2
B
4
5
C
4
7
D
2
7
E
6
6
F
7
7
G
6
4
Scatterplot of V2 vs V1
7
6
B
V2
Distancia
euclidiana de A a
B
3
A
2
2
V1
Ejemplo 1:
Para medir la similitud se evala con la distancia euclidiana (lnea recta) entre
cada par de observaciones (ver Tabla), entendiendo que las distancias
pequeas indican similaridad, E y F son las ms similares (1.414) y la A y F las
ms diferentes (6.403).
Observ.
A
Pg. 89
B
C
D
E
F
G
3.162
5.099
5.099
5.000
6.403
3.606
Formamos
2.000
2.828
2.236
3.606
2.236
2.000
2.236
3.000
3.606
conglomerados
ahora
4.123
5.000
5.000
con
un
1.414
2.000
3.162
Procedimiento
jerrquico
Paso
1
2
3
4
5
6
Distancia
Mnima entre
observa-ciones
Distancia
Mnima entre
observaciones
Sol. inicial
1.414
2.000
2.000
2.000
2.236
3.162
Par
observado
Solucin por
conglomerados
Miembros en el
conglomerado
E-F
E-G
C-D
B-C
B-E
A==B
A, B,C,D,E,F,G
A, B,C,D,E-F,G
A, B,C,D,E-F-G
A, B,C-D,E-F-G
A, B-C-D,E-F-G
A,B-C-D-E-F-G
A-B-C-D-E-F-G
Nm.
Deo.
de
Conglo
merado
.
7
6
5
4
3
2
1
Dist.ancia
Prom.edio
Ddentro del
Conglomerado.
Utilizando Minitab:
Stat > Multivariate Anlisis > Cluster Observations
Distance Measured Euclidean Seleccionar Show Dendogram OK
Pg. 90
0
1.414
2.192
2.144
2.234
2.896
3.420
Similarity
50.61
67.08
83.54
100.00
D
Observations
Distance
3.16
2.11
1.05
0.00
4
Observations
Pg. 91
Step
1
2
3
4
5
6
Number
of
clusters
6
5
4
3
2
1
Similarity
level
77.9137
68.7652
68.7652
68.7652
65.0785
50.6135
Distance
level
1.41421
2.00000
2.00000
2.00000
2.23607
3.16228
Clusters
joined
5
6
5
7
3
4
2
3
2
5
1
2
New
cluster
5
5
3
2
2
1
Number
of obs.
in new
cluster
2
3
2
3
6
7
Final Partition
Number of clusters: 1
Cluster1
Number of
observations
7
Within
cluster
sum of
squares
41.4286
Average
distance
from
centroid
2.23187
Maximum
distance
from
centroid
3.77154
Ejemplo 2:
Se registran las siguientes caractersticas para 14 censos: Poblacin total
(Pop), mediana de aos escolares (School), empleo total (Employ),empleo en
servicios de salud (Health), y valor mediano del valor de la casa (Home). Los
datos se muestran a continuacin:
Pop
5.935
1.523
2.599
4.009
4.687
8.044
2.766
6.538
6.451
3.314
3.777
1.53
2.768
6.585
School
14.2
13.1
12.7
15.2
14.7
15.6
13.3
17
12.9
12.2
13
13.8
13.6
14.9
Employ
2.265
0.597
1.237
1.649
2.312
3.641
1.244
2.618
3.147
1.606
2.119
0.798
1.336
2.763
Health
2.27
0.75
1.11
0.81
2.5
4.51
1.03
2.39
5.52
2.18
2.83
0.84
1.75
1.91
Pg. 92
Home
2.91
2.62
1.72
3.02
2.22
2.36
1.97
1.85
2.01
1.82
1.8
4.25
2.64
3.17
En Variables, Pop-Home.
3.0289
0.606
0.606
PC1
-0.558
-0.313
-0.568
-0.487
0.174
1.2911
0.258
0.864
PC2
-0.131
-0.629
-0.004
0.310
-0.701
0.5725
0.114
0.978
PC3
0.008
-0.549
0.117
0.455
0.691
0.0954
0.019
0.998
PC4
0.551
-0.453
0.268
-0.648
0.015
0.0121
0.002
1.000
PC5
-0.606
0.007
0.769
-0.201
0.014
Eigenvalue
2.5
2.0
1.5
1.0
0.5
0.0
1
3
Component Number
Pg. 93
Ejemplo 32:
Con los datos de HATCO se utilizan las siete percepciones de clientes para
identificar segmentos de clientes.
Paso 1: Objetivos del anlisis de conglomerados
Pg. 94
method
Ward
(minimizea
conglomerados)
4. Distance Measure Squared Euclidean
5. Seleccionar Show Dendogram
6. Customize Label Y axis with Distances
7. OK
Los resultados se muestran a continuacin:
Pg. 95
la
distancia
dentro
de
los
Step
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
Number
of
clusters
99
98
97
96
95
94
93
92
91
90
89
88
87
86
85
84
83
82
81
80
79
78
77
76
75
74
73
72
71
70
69
68
67
66
65
64
63
62
61
60
59
58
57
56
55
54
53
52
51
50
49
48
47
46
45
44
43
42
41
40
39
Similarity
level
100.000
99.987
99.987
99.975
99.949
99.924
99.912
99.912
99.912
99.912
99.874
99.874
99.874
99.836
99.798
99.760
99.760
99.760
99.722
99.722
99.722
99.722
99.684
99.646
99.646
99.646
99.646
99.646
99.646
99.520
99.457
99.457
99.330
99.267
99.153
99.115
98.939
98.812
98.686
98.673
98.673
98.656
98.648
98.591
98.332
97.902
97.877
97.761
97.321
96.355
96.203
95.986
95.818
95.552
95.325
94.826
94.301
94.054
93.996
93.783
93.745
Distance
level
0.000
0.010
0.010
0.020
0.040
0.060
0.070
0.070
0.070
0.070
0.100
0.100
0.100
0.130
0.160
0.190
0.190
0.190
0.220
0.220
0.220
0.220
0.250
0.280
0.280
0.280
0.280
0.280
0.280
0.380
0.430
0.430
0.530
0.580
0.670
0.700
0.840
0.940
1.040
1.050
1.050
1.063
1.070
1.115
1.320
1.660
1.680
1.772
2.120
2.885
3.005
3.177
3.310
3.520
3.700
4.095
4.510
4.706
4.751
4.920
4.950
Clusters
joined
15
20
5
42
24
27
47
61
19
28
67
90
36
41
51
77
18
92
33
62
25
44
85
87
43
46
38
63
69
81
50
72
56
91
94
98
1
95
16
73
75
99
37
48
11
100
4
89
84
88
23
32
2
83
29
78
3
71
17
64
8
68
12
76
9
74
52
60
10
34
26
59
49
97
7
67
13
21
40
54
82
93
10
30
66
80
36
84
6
70
45
86
39
96
10
53
13
35
50
69
40
45
14
38
9
58
22
55
65
79
10
31
6
52
10
37
14
66
15
19
16
29
Pg. 96
New
cluster
15
5
24
47
19
67
36
51
18
33
25
85
43
38
69
50
56
94
1
16
75
37
11
4
84
23
2
29
3
17
8
12
9
52
10
26
49
7
13
40
82
10
66
36
6
45
39
10
13
50
40
14
9
22
65
10
6
10
14
15
16
Number
of obs.
in new
cluster
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
3
2
2
2
3
2
4
2
2
2
4
3
4
4
3
3
2
2
5
4
7
5
4
4
Pg. 97
4
25
25
18
23
9
11
8
1
13
40
4
3
18
7
16
39
3
9
9
2
8
1
2
7
11
6
2
3
1
1
6
5
1
2
2
1
1
4
4
6
6
4
5
4
6
4
5
6
6
9
8
7
6
4
10
10
12
8
8
10
14
19
8
12
18
12
18
24
20
21
29
38
50
50
100
Distance
406.13
270.75
135.38
0.00
Observations
Distance
406.13
270.75
135.38
0.00
Observations
Pg. 98
Distance
406.13
270.75
135.38
0.00
Observations
Distance
406.13
270.75
135.38
0.00
Observations
Pg. 99
Suponiendo que se sabe que la particin final consistir de tres grupos, y que
las observaciones 2, 5 y 9 pertenecen a esos grupos respectivamente. Para
proceder depende de si se especifica el nmero de conglomerados o se
proporciona una columna de particin.
1
R. Johnson and D. Wichern (1992). Applied Multivariate Statistical Methods, Third Edition. Prentice
Hall.
Pg. 100
Ejemplo:
Se atrapan, anestesian, y miden ciento cuarenta y tres osos negros. Las
mediciones son altura y longitud de la cabeza (Lenght, Head L), peso total y
peso de la cabeza (Weight, Weight H.), dimensin del cuello y del cachete
(Neck G., Chest G.).
Se desea clasificar los 143 osos, como pequeos, de tamao medio, o
grandes. Se sabe que el segundo, setenta y ochoavo, y quincuagsimo (15)
oso de la muestra es tpico de esas categoras respectivas.
Se crea la columna de particin inicial con los tres osos semilla, designados
como: 1 = pequeo, 2= tamao medio y 3= grande y los remanentes osos
como cero (desconocidos) para indicar membresa inicial del conglomerado.
Despus se realiza un anlisis de conglomerado por K medias y se guardan las
membresas del conglomerado en cada columna denominada BearSize.
Los datos se muestran a continuacin:
No.
No.
10
15
45
23
65
73
15.5
28
76.5
55
446
11
6.5
20
47.5
24
70
74
15
46
27
62
12
17
57
27
74
75
14.5
23
61.5
44
236
12.5
20.5
59.5
38
142
76
13.5
8.5
23
63.5
44
212
12
18
62
31
121
77
18.5
8.5
23.5
67.5
42
204
Pg. 101
11
5.5
16
53
26
80
78
15
26
65
40
224
12
5.5
17
56
30.5
108
79
10
15.5
48
26
60
16.5
28
67.5
45
344
80
10
15
41
26
64
16.5
27
78
49
371
81
13
21
59
34
146
10
15.5
31
72
54
416
82
15.5
20.5
60
35
152
11
16
32
77
52
432
83
15.5
29
79
50
400
12
17
10
31.5
72
49
348
84
13.5
24.5
62
41
248
13
15.5
7.5
32
75
54.5
476
85
14.5
6.5
26
70.5
41
278
14
17.5
32
75
55
478
86
15
26.5
69
46.5
297
15
15
33
75
49
386
87
16
31.5
75
47
350
16
15.5
6.5
22
62
35
166
88
11.5
17
53
30.5
114
17
13
21
70
41
220
89
11.5
15
52.5
28
76
18
15
6.5
28
78
45
334
90
11
4.5
13
46
23
48
19
15
7.5
26.5
73.5
41
262
91
12
19
57
34.5
148
20
13.5
27
68.5
49
360
92
13.5
17
58
29
114
21
15.5
29.3
76
53
416
93
13.5
17
58
29.5
116
22
13.5
20
64
38
204
94
12.5
7.5
19
60
34
158
23
12.5
18
58
31
144
95
14
6.5
21
63
35
198
24
12
8.3
18.5
60.3
32
122
96
12
19
58.5
33.5
114
25
16
29
73
44
332
97
13
17.5
61
33
135
26
4.5
13
37
19
34
98
13.5
17
58
29
130
27
12.5
4.5
10.5
63
32
140
99
12.5
6.5
18
60
30
130
28
14
21.5
67
37
180
100
13.5
6.5
22
64
36
190
29
11.5
17.5
52
29
105
101
14.5
6.5
21.5
64
37
180
30
13
21.5
59
33
166
102
12
6.5
18.5
55.5
27.5
110
31
13.5
24
64
39
204
103
13
19.5
61.5
31
140
32
14.5
7.5
26.5
66
40
250
104
13.5
20
63.5
33
144
33
4.5
12
36
19
26
105
13.5
20
64
35
160
34
13
19
59
30
120
106
13.5
6.5
22
66.5
35
184
35
13
19
59
30
114
107
11
15.5
48.5
25.5
79
36
13.5
6.5
23
66.5
38
210
108
14.5
22.5
67
40
216
37
16
9.5
30
72
48
436
109
15
26.5
71
42.5
302
38
12.5
19
57.5
32
125
110
12
19
53.5
32
122
39
12.5
19
57
34
152
111
17
29.5
70
45.5
322
40
12.5
6.5
19.5
61
36
176
112
15.5
27
70
47
308
41
13
20
61
33
132
113
15.5
20
63
33
154
42
13.5
18.5
57
35
180
114
12
18
66.5
34
146
43
13
17
54
28
90
115
13
5.5
19.5
64
35
162
44
13
5.5
20.5
57.8
34.5
140
116
17.5
30
83
49
396
45
10
13
40
23
40
117
13
18
55.5
30.5
122
46
16
24
63
42
220
118
13
5.5
19.5
55
32.5
126
47
10
13.5
43
23
46
119
13
20.5
57
34
146
48
11
15
45
25
60
120
13
5.5
19.5
61.5
37
156
49
13.5
22
66.5
34
154
121
12.5
19.5
58.5
32
142
50
13
5.5
17.5
60.5
31
116
122
10
4.5
10
43.5
24
29
51
13
6.5
21
60
34.5
182
123
16.5
8.5
29.5
69
49.5
348
52
14.5
5.5
20
61
34
150
124
17
8.5
30.5
79.5
48.5
368
53
14
6.5
26
65
39
180
125
12
5.5
18
54.5
32
116
54
13
20
63
35
172
126
13
19
59
34
130
55
13.5
21
59.5
32.5
150
127
14
21
66.5
37
160
56
11
16
50.5
28
90
128
13
6.5
20.5
60
36.5
154
57
9.5
4.5
16
40
26
65
129
16
7.5
28
73
45
316
58
13.5
6.5
28
64
48
356
130
13.5
5.5
19.5
61
35
158
59
14.5
6.5
26
65
48
316
131
12.5
5.5
19
56
32
120
Pg. 102
60
13.5
5.5
19
60.5
34
148
132
15.5
30.5
75
54
514
61
11.5
5.5
17.5
52.5
30
104
133
15.5
7.5
25.5
73.5
43
324
62
11
17
49
29
94
134
14.5
22
67.5
38
196
63
11.5
17
47
29.5
86
135
12.5
8.5
18
57.3
32.8
140
64
13
21
59
35
150
136
12
18
56
32.5
114
65
13.5
21
64
35
166
137
12
5.5
15
51
24
82
66
16.5
6.5
27
72
44.5
270
138
13
22
61
40
230
67
14
5.5
24
65
39
202
139
15.5
23
69
42.5
290
68
13.5
6.5
21.5
63
40
202
140
15.5
23
69
42.5
289
69
15.5
28
70.5
50
365
141
12
17.5
59
28.5
128
70
11.5
16.5
48
31
79
142
13.5
20
62
32.5
156
71
11.5
17
50.5
28
90
143
16.5
6.5
30
72
49
398
almacenamiento.
4
Pg. 103
Cluster1
Number of
observations
41
Within
cluster
sum of
squares
63.075
Average
distance
from
centroid
1.125
Maximum
distance
from
centroid
2.488
Cluster2
67
78.947
0.997
2.048
Cluster3
35
65.149
1.311
2.449
Cluster Centroids
Cluster1
-1.0673
Cluster2
0.0126
Cluster3
1.2261
Grand
centroid
-0.0000
Head.W
-0.9943
-0.0155
1.1943
0.0000
Neck.G
-1.0244
-0.1293
1.4476
-0.0000
Length
-1.1399
0.0614
1.2177
0.0000
Chest.G
-1.0570
-0.0810
1.3932
-0.0000
Weight
-0.9460
-0.2033
1.4974
-0.0000
Variable
Head.L
Cluster2
Cluster3
Cluster1
0.0000
2.4233
5.8045
Cluster2
2.4233
0.0000
3.4388
Cluster3
5.8045
3.4388
0.0000
Pg. 104
Ejemplo de HATCO:
De Minitab con soluciones por grupos de Conglomerados:
1. Stat > Multivariate > Cluster K Means
2. Variables or distance matrix X1 X7
3. Number of clusters 2 o 4
4. OK
Solucin por dos conglomerados
K-means Cluster Analysis: X1, X2, X3, X4, X5, X6, X7
Final Partition
Number of clusters: 2
Cluster1
Cluster2
Number of
observations
52
48
Within
cluster
sum of
squares
315.799
294.132
Average
distance
from
centroid
2.383
2.368
Maximum
distance
from
centroid
4.285
4.279
Cluster Centroids
Variable
X1
X2
X3
X4
X5
X6
X7
Cluster1
4.3827
1.5808
8.8615
4.9250
2.9577
2.5250
5.9038
Cluster2
2.5750
3.2125
6.8458
5.5979
2.8708
2.8167
8.1271
Grand
centroid
3.5150
2.3640
7.8940
5.2480
2.9160
2.6650
6.9710
Cluster1
0.0000
3.9347
Cluster2
3.9347
0.0000
2. Variables X1 X7
3. Number of clusters 2
4. OK
ANOVA
Cluster
X1
X2
Mean Square
81.563
66.457
X3
X4
X5
Error
df
1
1
Mean Square
.930
.766
101.414
11.302
.188
X6
X7
df
98
98
F
87.717
86.753
Sig.
.000
.000
.923
98
109.816
.000
1.178
98
9.596
.003
.568
98
.331
.566
2.123
.579
98
3.670
.058
123.372
1.280
98
96.404
.000
The F tests should be used only for descriptive purposes because the clusters have been chosen to
maximize the differences among cases in different clusters. The observed significance levels are not
corrected for this and thus cannot be interpreted as tests of the hypothesis that the cluster means are
equal.
Cluster1
Cluster2
Cluster3
Cluster4
Number of
observations
34
29
14
23
Within
cluster
sum of
squares
155.126
123.693
54.234
109.941
Average
distance
from
centroid
2.100
2.012
1.833
2.031
Maximum
distance
from
centroid
2.922
3.211
3.051
3.947
Cluster Centroids
Variable
X1
X2
X3
X4
X5
X6
X7
Cluster1
4.1441
1.5794
8.5765
4.4176
2.8353
2.0882
5.3147
Cluster2
2.0241
2.7655
7.0103
5.1621
2.3655
2.5552
8.2690
Cluster3
3.6143
4.1286
5.9500
6.0643
3.8429
3.1643
7.9500
Cluster4
4.4043
1.9435
9.1826
6.0870
3.1652
3.3522
7.1870
Grand
centroid
3.5150
2.3640
7.8940
5.2480
2.9160
2.6650
6.9710
Cluster1
0.0000
4.2514
5.0504
2.9268
Cluster2
4.2514
0.0000
2.9967
3.7896
Cluster3
5.0504
2.9967
0.0000
4.1141
Cluster4
2.9268
3.7896
4.1141
0.0000
Pg. 106
Mean Square
37.108
28.530
Error
df
3
3
Mean Square
.639
.583
df
96
96
F
58.055
48.960
Sig.
.000
.000
X3
37.115
.839
96
44.224
.000
X4
15.527
.835
96
18.598
.000
X5
7.487
.348
96
21.509
.000
X6
8.242
.355
96
23.204
.000
X7
53.222
3
.928
96
57.330
.000
The F tests should be used only for descriptive purposes because the clusters have been chosen to
maximize the differences among cases in different clusters. The observed significance levels are not
corrected for this and thus cannot be interpreted as tests of the hypothesis that the cluster means are
equal.
Pg. 107
Ejemplo:
Se realiza un estudio para determinar el efecto de largo plazo de un cambio en
el ambiente en la presin arterial. Los sujetos son 39 peruanos de alrededor de
21 aos que han migrado de las montaas de los Andes a ciudades ms
grandes con menor altura.
Se registra la edad (Age), aos desde la migracin (Years), peso en Kgs.
(Weight), estatura en mm (Height), mentn, antebrazo, y pierna en mm (Chin,
Forearm, Calf), pulso en latidos por minuto (Pulse), y presin sistlica y
diastlica (Systol, Diastol).
El objetivo es reducir el nmero de variables al combinar variables con
caractersticas similares. Se usa la distancia de correlacin, enlace promedio y
dendograma.
Peru.Mtw
Age
21
22
24
24
25
27
28
28
31
32
33
33
34
35
Years
1
6
5
1
1
19
5
25
6
13
13
10
15
18
Weight
71
56.5
56
61
65
62
53
53
65
57
66.5
59.1
64
69.5
Height
1629
1569
1561
1619
1566
1639
1494
1568
1540
1530
1622
1486
1578
1645
Chin
8
3.3
3.3
3.7
9
3
7.3
3.7
10.3
5.7
6
6.7
3.3
9.3
Pg. 108
Forearm
7
5
1.3
3
12.7
3.3
4.7
4.3
9
4
5.7
5.3
5.3
5
Calf
12.7
8
4.3
4.3
20.7
5.7
8
0
10
6
8.3
10.3
7
7
Pulse
88
64
68
52
72
72
64
80
76
60
68
72
88
60
Systol
170
120
125
148
140
106
120
108
124
134
116
114
130
118
Diastol
76
60
75
120
78
72
76
62
70
64
76
74
80
68
35
36
36
37
37
38
38
38
38
39
39
39
41
41
41
42
43
43
43
44
44
45
47
50
54
2
12
15
16
17
10
18
11
11
21
24
14
25
32
5
12
25
26
10
19
18
10
1
43
40
64
56.5
57
55
57
58
59.5
61
57
57.5
74
72
62.5
68
63.4
68
69
73
64
65
71
60.2
55
70
87
1648
1521
1547
1505
1473
1538
1513
1653
1566
1580
1647
1620
1637
1528
1647
1605
1625
1615
1640
1610
1572
1534
1536
1630
1542
3
3.3
3
4.3
6
8.7
5.3
4
3
4
7.3
6.3
6
10
5.3
11
5
12
5.7
8
3
3
3
4
11.3
3.7
5
3
5
5.3
6
4
3.3
3
3
6.3
7.7
5.3
5
4.3
7
3
4
3
6.7
4.7
3
3
6
11.7
6.7
11.7
6
7
11.7
13
7.7
4
3
5
15.7
13.3
8
11.3
13.7
10.7
6
5.7
7
7.7
4.3
3.3
4
11.7
11.3
60
72
84
64
72
64
80
76
60
64
64
68
76
60
76
88
72
68
60
74
72
56
64
72
92
138
134
120
120
114
124
114
136
126
124
128
134
112
128
134
128
140
138
118
110
142
134
116
132
152
Step
1
2
3
4
5
6
7
8
9
Number
of
clusters
9
8
7
6
5
4
3
2
1
Similarity
level
86.7763
79.4106
78.8470
76.0682
71.7422
65.5459
61.3391
56.5958
55.4390
Distance
level
0.264474
0.411787
0.423059
0.478636
0.565156
0.689082
0.773218
0.868085
0.891221
Clusters
joined
6
7
1
2
5
6
3
9
3
10
3
5
3
8
1
3
1
4
Pg. 109
New
cluster
6
1
5
3
3
3
3
1
1
Number
of obs.
in new
cluster
2
2
3
2
3
6
7
9
10
78
86
70
76
80
64
66
78
72
62
84
92
80
82
92
90
72
74
66
70
84
70
54
90
88
Similarity
70.29
85.15
100.00
Age
Pulse Height
En Minitab:
1. Stat > Multivariate > Cluster variables
2. Variables or distance matrix X1 X7
Pg. 110
3. Linkage
method
Ward
(minimizea
la
distancia
dentro
de
conglomerados)
4. Distance Measure Correlation
5. Seleccionar Show Dendogram
6. Customize Label Y axis with Distances
7. OK
Los resultados se muestran a continuacin:
Cluster Analysis of Variables: X1, X2, X3, X4, X5, X6, X7
Correlation Coefficient Distance, Ward Linkage
Amalgamation Steps
Step
1
2
3
4
5
6
Number
of
clusters
6
5
4
3
2
1
Similarity
level
89.4112
80.5950
73.4873
57.8288
39.4434
-4.3342
Distance
level
0.21178
0.38810
0.53025
0.84342
1.21113
2.08668
Clusters
joined
4
6
1
5
2
7
1
3
2
4
1
2
New
cluster
4
1
2
1
2
1
Number
of obs.
in new
cluster
2
2
2
3
4
7
Distance
2.09
1.39
0.70
0.00
X1
X5
X3
X2
Variables
X7
X4
X6
Pg. 111
los
Factor1
0.969
-0.181
0.436
0.133
0.752
0.133
-0.424
Factor2
0.177
-0.984
0.400
-0.301
-0.660
-0.214
-0.400
Communality
0.971
1.000
0.350
0.108
1.000
0.063
0.340
Variance
% Var
1.9431
0.278
1.8896
0.270
3.8327
0.548
Factor1
-0.894
0.714
-0.587
0.065
-0.235
0.015
0.577
Factor2
0.414
0.700
-0.075
0.323
0.972
0.251
0.082
Communality
0.971
1.000
0.350
0.108
1.000
0.063
0.340
Variance
% Var
2.0468
0.292
1.7859
0.255
3.8327
0.548
Factor1
Factor2
Pg. 112
0.000
1.132
0.000
-0.000
-0.815
-0.000
-0.000
-0.000
0.273
-0.000
-0.000
0.832
-0.000
0.000
1.0
0.8
Second Factor
X2
0.6
X1
0.4
X4
X6
0.2
X7
0.0
X3
-1.0
-0.5
0.0
First Factor
0.5
X2
X3
0.476
0.000
-0.472
0.000
X4
0.050
0.618
0.272
0.006
-0.095
0.347
X5
0.612
0.000
0.513
0.000
0.064
0.524
0.299
0.003
X6
0.077
0.446
0.186
0.064
-0.015
0.880
0.788
0.000
0.241
0.016
X7
-0.483
0.000
0.470
0.000
-0.407
0.000
0.200
0.046
-0.055
0.586
X2
X3
X4
X5
Pg. 113
X6
0.177
0.078
Al definir los factores que son las dimensiones de las variables que se
correlacionan significativamente, se observan dos factores. El primer factor
contiene a X1, X2, X3 y X7 y el segundo factor contiene a los aspectos de
imagen X4 y X6. En el primer factor X2 y X7 se relacionan inversamente con
X1 y X3, es decir que mientras se incrementan unas, las otras bajan. Esto
sugiere que altos valores en X1 y X3 implican valores bajos en X2 y X7. O sea
que definir conglomerados slo con base en valores altos o bajos es
inapropiado.
De la tabla ANOVA para dos conglomerados se observa que solo X5
Servicio general no es significativa.
Cluster
Pg. 114
Pg. 115
9. ANLISIS DE COMPONENTES
PRINCIPALES
Pg. 116
Coeficientes
Primero
Segundo
Tercero
0.538
-0.447
-0.712
0.413
-0.784
0.206
0.575
-0.628
0.309
0.853
0.288
0.056
0.888
0.339
0.030
0.878
0.219
0.048
0.849
0.220
0.005
Maxwell, A.E., Multivariate Analysis in Behavioral Research, Chapman and Hall, Londres, 1977.
Ibidem
Pg. 117
j 1
i 1
( xij xij ) 2
Donde:
zi1
v j1 x ij
xij a j1 zi1
xij i 1,2,...., n; j 1,2,...., p
Pg. 118
6 152 0
Dada la matriz
A 15 4
2 2
3
0 2 2
(6 ) 15 2 0
3
15
(
4
)
2
2 0
0
(2 )
2
3
15
(6 ) ( 2 ) 0
2
2
Pg. 119
( 6 3) 15 0
2
v1
15 3
2 ( 4 3) 2 v2 0
3
10
20
3 1 9
28 2 14
V 5 3 12
14 10 35
15 9 1
28 20 70
Pg. 120
En Matlab se tiene:
To get started, select "MATLAB Help" from the Help menu.
>> A=[6 sqrt(15/2) 0; sqrt(15/2) 4 sqrt(3/2); 0 sqrt(3/2) 2]
A =
6.0000
2.7386
0
2.7386
4.0000
1.2247
0
1.2247
2.0000
>> Lamda=eig(A)
Lamda =
1.0000
3.0000
8.0000
>> [V,D]=eig(A)
V =
0.3273
-0.5976
0.7319
0.5000
-0.5477
-0.6708
-0.8018
-0.5855
-0.1195
0
3.0000
0
0
0
8.0000
D =
1.0000
0
0
>>
Bryan, F.J. Manly, Multivariate Statistical Methods, Chapman and Hall, Londres, 1986
Pg. 121
1 c12 ..................c1 p
c21 1 ........... c2 p
C
..............................
c p1 c p 2 ........... 1
Donde cada Cij = Cji es la correlacin entre Xi y Xj. De esta manera la suma de
los trminos diagonales, y la suma de los eigenvalores es igual al nmero de
variables p.
3. Encontrar los eigenvalores 1, 2, , p y los correspondientes
eignevectores a1, a2, , ap. Los coeficientes del i-simo componente
principal estn dados por ai mientras que la varianza es i.
4. Descartar cualquier componente que solo contenga una pequea parte de la
varianza de los datos (menor o igual a uno). Por ejemplo, iniciando en 20
variables, puede ser que los primeros tres componentes tengan el 90% de la
varianza total. Bajo esta base, se pueden ignorar los otros 17 componentes.
Ejemplo:
Los datos de las dimensiones de 49 pjaros se muestran a continuacin:
Tabla y corrida Minitab
Los eigenvalores de esta matriz son: 3.616, 0.532, 0.386, 0.302 y 0.164, que
suman 5.000, que es igual a la suma de los trminos de la diagonal de la matriz
C.
De la tabla de eigenvectores, se obtienen los coeficientes de los componentes
principales.
El eigenvalor de un componente principal, indica la varianza de un total de
5.000. As, para el primer componente principal se tiene:
Pg. 122
En este caso contrasta X2, X3 y X4 contra X5, de modo que Z2 ser alta si
(X2,X3,X4) son altas y (X5) es baja, por tanto puede considerarse que
representa la diferencia de forma entre los pjaros.
Para calcular Z1, primero se estandarizan las Xi como sigue:
X1 = (x1 Media x1)/ desv. Estad. x1 = (156 157.98) / 3.654
X2 = (245 241.327)/5.068 = 0.725
X3 = (31.6 31.459)/0.795 = 0.177
X4 = (18.5 18.469)/0.564 = 0.055
X5 = (20.5 20.827)/0.991 = -0.330
Sustituyendo estos valores en las ecuaciones para Z1 y Z2 se tiene:
Z1 = 0.064
Z2 = 0.602
De esta misma manera se pueden calcular los otros componentes.
Los valores de las coordenadas Z correspondientes a los diferentes pjaros se
muestra a continuacin.
Pg. 123
Pg. 124
RMEAT
10.1
8.9
13.5
7.8
9.7
10.6
8.4
9.5
18
10.2
5.3
13.9
9
9.5
9.4
6.9
6.2
6.2
7.1
9.9
13.1
17.4
9.3
11.4
4.4
X2
WMEAT
1.4
14
9.3
6
11.4
10.8
11.6
4.9
9.9
3
12.4
10
5.1
13.6
4.7
10.2
3.7
6.3
3.4
7.8
10.1
5.7
4.6
12.5
5
X3
EGGS
0.5
4.3
4.1
1.6
2.8
3.7
3.7
2.7
3.3
2.8
2.9
4.7
2.9
3.6
2.7
2.7
1.1
1.5
3.1
3.5
3.1
4.7
2.1
4.1
1.2
X4
MILK
8.9
19.9
17.5
8.3
12.5
25
11.1
33.7
19.5
17.6
9.7
25.8
13.7
23.4
23.3
19.3
4.9
11.1
8.6
24.7
23.8
20.6
16.6
18.8
9.5
X5
FISH
0.2
2.1
4.5
1.2
2
9.9
5.4
5.8
5.7
5.9
0.3
2.2
3.4
2.5
9.7
3
14.2
1
7
7.5
2.3
4.3
3
3.4
0.6
Pg. 125
X6
CERL
42.3
28
26.6
56.7
34.3
21.9
24.6
26.3
28.1
41.7
40.1
24
36.8
22.4
23
36.1
27
49.6
29.2
19.5
25.6
24.3
43.6
18.6
55.9
X7
STARCH
0.6
3.6
5.7
1.1
5
4.8
6.5
5.1
4.8
2.2
4
6.2
2.1
4.2
4.6
5.9
5.9
3.1
5.7
3.7
2.8
4.7
6.4
5.2
3
X8
X9
NUTS FR-VEG
5.5
1.7
1.3
4.3
2.1
4
3.7
4.2
1.1
4
0.7
2.4
0.8
3.6
1
1.4
2.4
6.5
7.8
6.5
5.4
4.2
1.6
2.9
4.3
6.7
1.8
3.7
1.6
2.7
2
6.6
4.7
7.9
5.3
2.8
5.9
7.2
1.4
2
2.4
4.9
3.4
3.3
3.4
2.9
1.5
3.8
5.7
3.2
Correlations: RMEAT, WMEAT, EGGS, MILK, FISH, CERL, STARCH, NUTS, FRVEG
RMEAT
0.153
0.465
WMEAT
EGGS
0.586
0.002
0.620
0.001
MILK
0.503
0.010
0.281
0.173
0.576
0.003
FISH
0.061
0.772
-0.234
0.260
0.066
0.755
0.138
0.511
CERL
-0.500
0.011
-0.414
0.040
-0.712
0.000
-0.593
0.002
-0.524
0.007
0.135
0.519
0.314
0.127
0.452
0.023
0.222
0.285
0.404
0.045
-0.533
0.006
NUTS
-0.349
0.087
-0.635
0.001
-0.560
0.004
-0.621
0.001
-0.147
0.483
0.651
0.000
-0.474
0.017
FR-VEG
-0.074
0.724
-0.061
0.771
-0.046
0.829
-0.408
0.043
0.266
0.198
0.047
0.825
0.084
0.688
WMEAT
STARCH
EGGS
MILK
FISH
CERL
STARCH
NUTS
0.375
0.065
Pg. 126
PC5
0.4638
0.052
0.910
PC6
0.3251
0.036
0.946
PC7
0.2716
0.030
0.976
PC8
0.1163
0.013
0.989
Eigenvalue
0
1
4
5
6
Component Number
PC1
-0.303
-0.311
-0.427
-0.378
-0.136
0.438
-0.297
0.420
0.110
PC2
0.056
0.237
0.035
0.185
-0.647
0.233
-0.353
-0.143
-0.536
PC3
0.298
-0.624
-0.182
0.386
0.321
-0.096
-0.243
0.054
-0.408
Pg. 127
0.1
Second Component
CERL
MI LK
0.2
RMEAT
EGGS
0.0
-0.1
NUTS
-0.2
-0.3
STARCH
-0.4
-0.5
FR-VEG
-0.6
FI SH
-0.7
-0.5
-0.4
-0.3
-0.2
-0.1
0.0
0.1
First Component
0.2
0.3
0.4
Z2
1.63048
1.04123
-0.15950
1.30107
0.60267
-0.28545
-0.45030
0.59600
-0.78537
-1.00106
0.81595
0.76371
-0.39899
0.91199
-0.82203
-0.53174
-4.28893
1.11879
-2.55352
0.20738
0.75106
0.09398
0.11077
0.29378
1.03803
Pg. 128
Europa oriental
Balcanes
Scatterplot of Z2 vs Z1
2
12
24
14 2
8
20
22
3
7
9
18
21
11
25
23
15
13
16
10
Z2
-1
-2
19
-3
-4
17
-5
-3
-2
-1
Z1
Pennsula ibrica
Pg. 129
Ejemplo:
Se registran las siguientes caractersticas para 14 censos: Poblacin total
(Pop), mediana de aos escolares (School), empleo total (Employ),empleo en
servicios de salud (Health), y valor mediano del valor de la casa (Home). Los
datos se muestran a continuacin:
Pop
5.935
1.523
2.599
4.009
4.687
8.044
2.766
6.538
6.451
3.314
3.777
1.53
2.768
6.585
School
14.2
13.1
12.7
15.2
14.7
15.6
13.3
17
12.9
12.2
13
13.8
13.6
14.9
Employ
2.265
0.597
1.237
1.649
2.312
3.641
1.244
2.618
3.147
1.606
2.119
0.798
1.336
2.763
Health
2.27
0.75
1.11
0.81
2.5
4.51
1.03
2.39
5.52
2.18
2.83
0.84
1.75
1.91
Home
2.91
2.62
1.72
3.02
2.22
2.36
1.97
1.85
2.01
1.82
1.8
4.25
2.64
3.17
En Variables, Pop-Home.
Pg. 130
3.0289
0.606
0.606
PC1
-0.558
-0.313
-0.568
-0.487
0.174
1.2911
0.258
0.864
PC2
-0.131
-0.629
-0.004
0.310
-0.701
0.5725
0.114
0.978
PC3
0.008
-0.549
0.117
0.455
0.691
0.0954
0.019
0.998
PC4
0.551
-0.453
0.268
-0.648
0.015
0.0121
0.002
1.000
PC5
-0.606
0.007
0.769
-0.201
0.014
Eigenvalue
2.5
2.0
1.5
1.0
0.5
0.0
1
3
Component Number
coeficientes listados en PC2. Este componente podra ser pensado como nivel
de contraste de escolaridad y valor de la casa con salud y empleo de alguna
manera.
Juntos el primero y segundo componentes representan el 86.4% y 97%,
respectivamente, de la variabilidad total. As, la mayora de la estructura de
datos puede ser capturada en dos o tres dimensiones relevantes. Los
componentes remanentes solo tienen una menor proporcin de probabilidad y
no son importantes. La grfica Scree proporciona una visin grfica de lo
anterior.
Pg. 132
Pg. 133
Jonson, J.D., Applied Multivariate Data Analysis: Volume II, Categorical and Multivariate Methods,
Spinger Verlag, Nueva York, 1992
6
Hair, Joseph, F, et. Al., Multivariate Data Analysis, 5th. Edition, Prentice Hall International, Nueva
Jersey, 1998
Pg. 134
Modelo matemtico
A partir de los trabajos de Charles Spearman (1904) al hacer estudios de
psicologa sobre la teora de pruebas mentales, formul un modelo de dos
factores: cada resultado de la prueba se forma de dos partes, uno que es
comn a todas las pruebas (inteligencia general) y otro que es especfico a la
prueba. Posteriormente, se modific a para permitir que cada resultado de
Pg. 135
es denominada la
Pg. 137
individuales.
Pg. 138
Pg. 139
Pg. 140
Anlisis de componentes
El anlisis de componentes se usa cuando el objetivo es resumir la mayor parte
de la informacin original (varianza) en un mnimo nmero de factores para
propsitos de prediccin. Considera la varianza total y determina factores que
contienen pequeas proporciones de varianza nica y, en algunos casos,
varianza del error. No se basa en un modelo estadstico especfico. 7
Anlisis factorial
En contraste el anlisis de factores comunes se utiliza para identificar los
factores subyacentes o dimensiones que reflejan aquello que las variables
comparten en comn. Se basa en un modelo estadstico especial.
En este mtodo se tienen tres tipos de varianzas: (1) comn, (2) especfica
(nica), y (3) error. La varianza comn (communalities) se define como la
varianza en una variable que es compartida por todas las dems variables. La
varianza especfica es la varianza asociada solo con una variable especfica.
La varianza del error es la varianza debida a la incertidumbre en el proceso de
recoleccin de datos, errores de medicin, o componente aleatorio en el
fenmeno medido.
Criterios para el nmero de factores a extraer
El primer mtodo extrae la combinacin de variables explicando la mayor
cantidad de varianza y despus contina con combinaciones que representan
menos y menos cantidades de varianza.
La seleccin de factores a extraer equivale a enfocar un microscopio,
normalmente se hace por prueba y error contrastando los resultados.
Criterio de Raz Latente: su racional es que cualquier factor individual debe
contener la varianza de al menos una variable. Como cada variable contribuye
con 1 al eigenvalor total o raz latente. Se seleccionan solo los factores con
eigenvalores mayores a uno, cuando se tienen menos de 20 variables, los
factores extrados son pocos.
7
Ibidem
Pg. 141
Criterio a Priori: en este mtodo el investigador ya tiene una idea clara de los
factores a extraer y as lo indica en la computadora.
Criterio de porcentaje de varianza: Enfoque basado en lograr un porcentaje
acumulado de varianza total extrado por factores sucesivos. Normalmente el
proceso para al acumular 95%.
Criterio Scree Test: Se usa para identificar el nmero ptimo de factores que
pueden ser extrados antes de que la cantidad de varianza nica empiece a
dominar la estructura de varianza comn.
Eig
env
alor
1
Nmero de factores
Pg. 142
-1
V4
V3
V5
+1 Factor I rotado
-1
Factor II
o ponderacin de factores I y
Pg. 144
Tamao de muestra
requerida para tener
significancia
350
300
250
200
150
100
85
70
60
Pg. 145
Pg. 146
Eigenvalue
0
1
5
6
Factor Number
RMEAT
X1
10.1
8.9
Etc.
WMEAT
X2
1.4
14
EGGS
X3
0.5
4.3
MILK
X4
8.9
19.9
FISH
X5
0.2
2.1
CERL
X6
42.3
28
STARCH
X7
0.6
3.6
NUTS
X8
5.5
1.3
Click Graphs y seleccionar Loading plot for first 2 factors y Scree Plot.
8
Pg. 147
FR-VEG
X9
1.7
4.3
Factores
F1
F2
F3
F4
Variable
RMEAT
WMEAT
EGGS
MILK
FISH
CERL
STARCH
NUTS
FR-VEG
Factor1
-0.606
-0.622
-0.854
-0.756
-0.272
0.876
-0.595
0.841
0.221
Factor2
0.072
0.303
0.045
0.236
-0.827
0.299
-0.451
-0.183
-0.686
Factor3
0.316
-0.663
-0.193
0.410
0.341
-0.102
-0.258
0.058
-0.433
Factor4
0.632
-0.036
0.306
-0.003
-0.211
-0.006
-0.329
0.323
0.451
Communality
0.871
0.918
0.862
0.795
0.919
0.867
0.732
0.849
0.910
Variance
% Var
4.0064
0.445
1.6350
0.182
1.1279
0.125
0.9547
0.106
7.7240
0.858
Pg. 148
Variance
% Var
2.2054
0.245
2.0749
0.231
1.9273
0.214
1.5165
0.168
7.7240
0.858
Factor1
0.943
-0.638
0.051
0.628
0.197
-0.226
0.515
-0.395
-0.010
Factor2
-0.127
0.263
-0.931
-0.664
-0.610
-0.088
-0.004
0.549
0.003
Factor3
-0.100
-0.326
0.014
0.163
0.219
0.921
0.683
-0.624
0.178
Factor4
0.050
-0.515
0.037
0.020
0.579
-0.104
-0.026
-0.145
-0.937
Communality
0.918
0.849
0.871
0.862
0.795
0.919
0.732
0.867
0.910
Variance
% Var
2.2054
0.245
2.0749
0.231
1.9273
0.214
1.5165
0.168
7.7240
0.858
En este caso las variables X3, X4, X6, X7 y X8 se explican al menos por dos
factores, lo cual es mejor.
Loading Plot of RMEAT, ..., FR-VEG
CERL
0.50
Second Factor
0.25
NUTS
FR-VEG
0.00
STARCH
FISH
WMEAT
-0.25
-0.50
MI LK
EGGS
-0.75
RMEAT
-1.00
-0.50
-0.25
0.00
0.25
First Factor
0.50
Pg. 149
0.75
1.00
Factor1
-0.208
0.580
0.217
-0.130
-0.256
-0.027
0.259
-0.238
0.103
Factor2
-0.666
0.134
-0.297
-0.248
0.037
0.158
0.254
-0.128
-0.144
Factor3
-0.175
-0.188
-0.095
0.043
0.578
-0.252
0.369
-0.124
0.040
Factor4
-0.154
-0.123
-0.184
0.328
0.005
-0.004
-0.038
-0.292
-0.719
Z1
-2.08984
1.51952
0.54271
-0.67265
1.12632
0.28382
1.45824
-0.67673
0.03566
-1.73291
1.07856
0.84733
-0.62204
1.20389
-0.87260
1.07154
-1.02013
-0.51952
-0.48351
-0.27184
0.10789
-0.53941
-0.34330
1.23608
-0.66709
Z2
0.21229
-0.14373
-0.78648
0.77630
0.60458
-0.24185
0.86238
-0.14921
-1.84164
-0.89465
1.20405
-1.15498
-0.37440
-0.18081
0.00189
0.81779
1.36441
1.25002
0.41424
-0.39239
-1.21314
-2.17878
0.78311
-0.44858
1.70958
Z3
-1.48719
-0.67295
0.18603
-1.57884
-0.33966
1.21441
0.78301
0.93845
0.00237
-0.40999
-1.09708
-0.08258
-0.59829
-0.31569
1.50818
0.25040
2.63942
-1.03438
1.05124
0.76534
-0.71597
-0.17044
0.21603
0.05799
-1.10980
Z4
0.91607
-0.04645
-0.22398
-0.08663
0.02184
1.14642
0.03869
2.29981
-1.24522
-1.39879
-0.64712
0.51667
-1.17455
0.37021
1.24280
-0.66725
-1.71648
0.40083
-1.81043
1.37725
-0.11354
-0.12795
0.63639
0.00754
0.28389
Pg. 150
Scatterplot of Z2 vs Z1
2
Yugoslavia
Portugal
Rumania
Hungra
Polonia
Checa Alemania orien
Bulgaria Rusia
Espaa
Z2
Albania
Noruega
Finlandia
Italia Suecia
Holanda Autria
Dinamarca
Alemania Occ
Blgica
Grecia
-1
I rlanda
Suiza
Francia
-2
Reino Unido
-2
-1
Z1
Scatterplot of Z4 vs Z3
Finlandia
2
Suecia
1
Z4
Noruega
Dinamarca
Albania
Rusia
I rlanda
Holanda
Rumania
Yugoslavia
Bulgaria
Suiza
Alemania orien
Checa
Alemania Occ
Blgica
Autria Reino Unido
Polonia
Hungra
-1
I talia
Francia
Grecia
Portugal
Espaa
-2
-2
-1
Z3
Scatterplot of Z2 vs Z3
2
Yugoslavia
Portugal
Rumania
Bulgaria
PoloniaAlemania orien
Rusia
Hungra
Checa
Espaa
Z2
Albania
Autria Holanda
I talia
Alemania Occ
Grecia
-1
Suiza
Finlandia
Suecia
Noruega
Dinamarca
Blgica
I rlanda
Francia
-2
Reino Unido
-2
-1
Z3
Pg. 151
Scatterplot of Z1 vs Z4
2
Autria
Alemania orien
Alemania OccHolanda
Checa
Polonia
I rlanda
Hungra
Z1
Blgica
0
Espaa
Suecia
Rusia
Reino Unido Rumania
Yugoslavia
I talia
Finlandia
Noruega
Bulgaria
Portugal
-1
Dinamarca
Suiza
Francia
Grecia
Albania
-2
-2
-1
1
Z4
Pg. 152
X2
X3
0.476
0.000
-0.472
0.000
X4
0.050
0.618
0.272
0.006
-0.095
0.347
X6
0.077
0.446
0.186
0.064
-0.015
0.880
0.788
0.000
X7
-0.483
0.000
0.470
0.000
-0.407
0.000
0.200
0.046
X2
X3
X4
X6
0.177
0.078
Pg. 153
Click Graphs y seleccionar Loading plot for first 2 factors y Scree Plot.
Factor1
0.618
-0.763
0.695
-0.502
-0.434
-0.761
Factor2
-0.517
0.079
-0.357
-0.793
-0.827
0.170
Communality
0.649
0.588
0.610
0.881
0.873
0.609
Variance
% Var
2.4664
0.411
1.7425
0.290
4.2089
0.701
Factor1
-0.783
0.718
-0.781
0.097
0.020
0.758
Factor2
0.188
0.268
0.010
0.934
0.934
0.186
Communality
0.649
0.588
0.610
0.881
0.873
0.609
Variance
% Var
2.3231
0.387
1.8858
0.314
4.2089
0.701
Pg. 154
En el factor 1, ambos grupos varan en sentido contrario, tal vez este factor sea
el valor bsico y representa un compromiso entre percepciones de precio o
calidad del producto y percepciones de tiempo de entrega y flexibilidad de
precios.
Factor1
-0.356
0.297
-0.343
-0.020
-0.054
0.320
Factor2
0.154
0.097
0.058
0.498
0.503
0.050
Pg. 155
Factor1
-0.827
0.603
-0.686
0.156
0.136
0.702
Factor2
0.085
0.376
-0.177
0.919
0.924
0.201
Communality
0.691
0.506
0.502
0.869
0.871
0.533
Variance
% Var
2.0548
0.342
1.9178
0.320
3.9726
0.662
Factor1
0.741
-0.785
0.815
-0.041
0.052
-0.824
Factor2
-0.313
-0.190
-0.154
-0.949
-0.923
-0.154
Communality
0.647
0.652
0.688
0.903
0.854
0.703
Variance
% Var
2.5127
0.419
1.9338
0.322
4.4466
0.741
Eigenvalue
2.0
1.5
1.0
0.5
0.0
1
3
4
Factor Number
0.9
0.8
Second Factor
0.7
0.6
0.5
0.4
0.3
X2
X1
0.2
X7
0.1
X3
0.0
-1.0
-0.5
0.0
First Factor
0.5
School
14.2
13.1
12.7
15.2
14.7
15.6
13.3
17
12.9
12.2
13
Employ
2.265
0.597
1.237
1.649
2.312
3.641
1.244
2.618
3.147
1.606
2.119
Health
2.27
0.75
1.11
0.81
2.5
4.51
1.03
2.39
5.52
2.18
2.83
Pg. 157
1.53
2.768
6.585
13.8
13.6
14.9
0.798
1.336
2.763
0.84
1.75
1.91
Factor1
-0.972
-0.545
-0.989
-0.847
0.303
Factor2
-0.149
-0.715
-0.005
0.352
-0.797
Factor3
0.006
-0.415
0.089
0.344
0.523
Factor4
0.170
-0.140
0.083
-0.200
0.005
Factor5
-0.067
0.001
0.085
-0.022
0.002
Communality
1.000
1.000
1.000
1.000
1.000
Variance
% Var
3.0289
0.606
1.2911
0.258
0.5725
0.114
0.0954
0.019
0.0121
0.002
5.0000
1.000
Factor3
0.011
-0.726
0.155
0.601
0.914
Factor4
1.782
-1.466
0.868
-2.098
0.049
Factor5
-5.511
0.060
6.988
-1.829
0.129
Factor1
-0.321
-0.180
-0.327
-0.280
0.100
Factor2
-0.116
-0.553
-0.004
0.272
-0.617
Pg. 158
Eigenvalue
2.5
2.0
1.5
1.0
0.5
0.0
1
3
Factor Number
Interpretacin de resultados
Cinco factores describen estos datos perfectamente, pero la meta es reducir el
nmero de factores requeridos para explicar la variabilidad de los datos.
La proporcin de la variabilidad explicada por los dos ltimos factores es
mnima (0.019 y 0.002 respectivamente) y pueden ser eliminadas sin
afectar al resultado. Los primeros dos factores juntos representan 86% de
la variabilidad mientras que tres factores representan 98% de la
variabilidad. La cuestin es si usar dos o tres factores, se requieren otras
corridas para decidir si usar dos o tres factores.
Se seleccionan dos factores como el nmero que representa los datos del
censo en base al anlisis de componentes principales. Se realiza una
extraccin de mxima verisimilitud y rotacin varimax para interpretar los
factores.
Las instrucciones de Minitab son las siguientes:
1
En Variables, Pop-Home.
Pg. 159
cuadros de dilogo.
Los resultados se muestran a continuacin:
Factor Analysis: Pop, School, Employ, Health, Home
Maximum Likelihood Factor Analysis of the Correlation Matrix
* NOTE * Heywood case
Unrotated Factor Loadings and Communalities
Variable
Pop
School
Employ
Health
Home
Factor1
0.971
0.494
1.000
0.848
-0.249
Factor2
0.160
0.833
0.000
-0.395
0.375
Communality
0.968
0.938
1.000
0.875
0.202
Variance
% Var
2.9678
0.594
1.0159
0.203
3.9837
0.797
Factor1
0.718
-0.052
0.831
0.924
-0.415
Factor2
0.673
0.967
0.556
0.143
0.173
Communality
0.968
0.938
1.000
0.875
0.202
Variance
% Var
2.2354
0.447
1.7483
0.350
3.9837
0.797
Factor1
0.924
0.831
0.718
-0.415
-0.052
Factor2
0.143
0.556
0.673
0.173
0.967
Communality
0.875
1.000
0.968
0.202
0.938
Variance
% Var
2.2354
0.447
1.7483
0.350
3.9837
0.797
Factor1
-0.165
-0.528
1.150
0.116
-0.018
Factor2
0.246
0.789
0.080
-0.173
0.027
Pg. 160
School
0.8
Second Factor
Pop
0.6
Employ
0.4
0.2
Home
Health
0.0
-0.50
-0.25
0.00
0.25
First Factor
0.50
0.75
1.00
Pg. 161
Pg. 162
Pg. 163
Trminos clave
La
independiente
(b1).
Por
tanto
los
grados
de
libertad
Pg. 165
Pg. 166
ponderadas
usadas
para
predecir
la
variable
dependiente.
TOLi 1 Ri2
*
Pg. 167
Frmulas:
La ecuacin de regresin simple es:
Y b0 b1V1
Donde:
bo = Trmino de intercepcin
b1 = coeficiente de la regresin.
Error de prediccin o residuo = diferencia entre valor real y estimado de la
variable dependiente.
El error estndar del estimado se determina como:
SEE
SSE
n2
i 1
i 1
i 1
( yi y ) 2 ( yi y i ) 2 ( y i y ) 2
y = promedio de todas las observaciones
yi = valor de la observacin individual i
y = valor estimado de la observacin i
SSR
SST
SSR
F
SSE
dfr
dfe
Pg. 168
DIAGNSTICO AVANZADO
tamao de muestra.
Pg. 169
de las
dependiente
(un
residuo
grande)
entre
sus
variables
indica
que
est
presente
un
nivel
inaceptable
de
multicolinealidad.
Pg. 170
Evaluado la multicolinealidad
Corrida con SPSS V10
Regression
Variables Entered/Removed(b)
Model
1
Variables Entered
. Enter
R
.879(a)
.755
Pg. 171
4.4508
Model
Regression
6177.812
1 Residual
1822.444 92
Total
8000.256 99
Sig.
Standardized
Coefficients
Collinearity
Statistics
t
Beta
Model
(Constant)
Sig.
Std. Error
-9.255
4.949
X1
1.956
2.045
X2
1.280
X3
Tolerance
VIF
-1.870
.065
.287
.957
.341
.027
36.445
2.155
.170
.594
.554
.030
33.176
3.270
.406
.507
8.057
.000
.627
1.596
X4
-3.937E-03
.671
.000
-.006
.995
.347
2.884
X5
4.600
4.012
.384
1.147
.255
.022
45.401
X6
1.230
.954
.106
1.290
.200
.370
2.701
X7
.426
.356
.075
1.198
.234
.629
1.589
a Dependent Variable: X9
Collinearity Diagnostics(a)
Variance Proportions
Dimension Eigenvalue
Model
1
Condition
Index
(Constant) X1
X2
X3
X4
X5
X6
X7
7.533
1.000
.251
5.474
.106
8.426
6.548E-02
10.726
2.463E-02
17.489
1.219E-02
24.861
Pg. 172
6.259E-03
34.692
8.354E-04
94.959
a Dependent Variable: X9
Pg. 173
Ejemplo:
Familia
Tarjetas
1
2
3
4
5
6
7
8
Total
4
6
6
7
8
7
8
10
TamanoTam
ao
2
2
4
4
5
5
6
6
Ingreso
14
16
14
17
18
21
17
25
Cargar datos
en Minitab.
Click Graphs.
Pg. 174
95
90
Percent
80
70
60
50
40
30
20
10
5
-3
-2
-1
0
1
Standardized Residual
R-Sq = 86.1%
PRESS = 8.02177
P
0.755
2.51 0.054
0.102
R-Sq(adj) = 80.6%
R-Sq(pred) = 63.54%
Analysis of Variance
Source
Regression
Residual Error
Total
Source
DF
TamanoTamao
Ingreso
1
DF
2
5
7
SS
18.9503
3.0497
22.0000
MS
9.4751
0.6099
F
15.53
P
0.007
Seq SS
1 16.5143
2.4360
Interpretacin de resultados
Salida de sesin
Pg. 175
Salida grfica
Pg. 176
OK
X2
X3
0.476
0.000
-0.472
0.000
X4
0.050
0.618
0.272
0.006
-0.095
0.347
X5
0.612
0.000
0.513
0.000
0.064
0.524
0.299
0.003
X6
0.077
0.446
0.186
0.064
-0.015
0.880
0.788
0.000
0.241
0.016
X7
-0.483
0.000
0.470
0.000
-0.407
0.000
0.200
0.046
-0.055
0.586
0.177
0.078
X9
0.676
0.000
0.083
0.412
0.556
0.000
0.225
0.024
0.701
0.000
0.257
0.010
X2
X3
X4
X5
X6
X7
-0.192
0.055
Pg. 177
Click Graphs.
Coef
-9.255
1.956
1.280
3.2702
-0.0039
4.600
1.2305
0.4261
S = 4.45075
SE Coef
4.949
2.045
2.155
0.4059
0.6714
4.012
0.9537
0.3557
R-Sq = 77.2%
T
-1.87
0.96
0.59
8.06
-0.01
1.15
1.29
1.20
PRESS = 2144.13
P
0.065
0.341
0.554
0.000
0.995
0.255
0.200
0.234
R-Sq(adj) = 75.5%
R-Sq(pred) = 73.20%
Analysis of Variance
Source
Regression
Residual Error
Total
Source
X1
X2
X3
X4
X5
X6
X7
DF
1
1
1
1
1
1
1
DF
7
92
99
SS
6177.81
1822.44
8000.26
MS
882.54
19.81
F
44.55
P
0.000
Seq SS
3659.76
927.88
1424.10
80.48
18.20
38.97
28.43
Unusual Observations
Obs
7
11
14
22
55
100
X1
4.60
2.40
3.70
3.40
3.80
2.50
X9
46.000
32.000
38.000
35.000
39.000
33.000
Fit
58.734
41.365
47.833
34.870
33.433
43.721
SE Fit
1.379
1.014
1.098
2.711
2.712
1.049
Residual
-12.734
-9.365
-9.833
0.130
5.567
-10.721
St Resid
-3.01R
-2.16R
-2.28R
0.04 X
1.58 X
-2.48R
Pg. 178
Percent
95
90
80
70
60
50
40
30
20
10
5
1
0.1
-3
-2
-1
0
1
Standardized Residual
Standardized Residual
-1
-2
-3
20
30
40
Fitted Value
50
Pg. 179
60
Pg. 180
Pg. 181
Pg. 182
Ejemplo:
Del texto de M. J. Greenacre, Correspondence Analysis in Practice, by p.75. 796
investigadores fueron clasificados en diez disciplinas acadmicas y cinco
categoras de fondos, A es la categora ms alta, D es la categora ms baja y
E es categora sin fondeo. Las disciplinas son renglones y las categoras son
columnas. Se desea saber como las disciplinas se comparan unas con otras
respecto a las categoras de fondeo, se forma que se realiza un anlisis de
correspondencia con una orientacin a renglones.
Como informacin complementaria se incluye: un rengln para investigadores
de museos no incluida en el estudio y un rengln para matemticas y
estadstica.
Los datos colectados son los siguientes:
Archivo
Tabl.Mtw
CT1
3
1
6
3
10
3
1
0
2
2
CT2
19
2
25
15
22
11
6
12
5
11
CT3
39
13
49
41
47
25
14
34
11
37
CT4
14
1
21
35
9
15
5
17
4
8
CT5
10
12
29
26
26
34
11
23
7
20
RowNames
Geology
Biochemistry
Chemistry
Zoology
Physics
Engineering
Microbiology
Botany
Statistics
Mathematics
ColNames
A
B
C
D
E
Pg. 183
RowSupp1
4
12
11
19
7
RowSupp2
4
16
48
12
27
RSNames
Museums
MathSci
A
0.035
0.034
0.046
0.025
0.088
0.034
0.027
0.000
0.069
0.026
0.039
B
0.224
0.069
0.192
0.125
0.193
0.125
0.162
0.140
0.172
0.141
0.161
C
0.459
0.448
0.377
0.342
0.412
0.284
0.378
0.395
0.379
0.474
0.389
D
0.165
0.034
0.162
0.292
0.079
0.170
0.135
0.198
0.138
0.103
0.162
E
0.118
0.414
0.223
0.217
0.228
0.386
0.297
0.267
0.241
0.256
0.249
Mass
0.107
0.036
0.163
0.151
0.143
0.111
0.046
0.108
0.036
0.098
Pg. 184
Inertia
0.0391
0.0304
0.0109
0.0025
0.0829
Proportion
0.4720
0.3666
0.1311
0.0303
Cumulative
0.4720
0.8385
0.9697
1.0000
Histogram
******************************
***********************
********
*
Row Contributions
ID
1
2
3
4
5
6
7
8
9
10
Name
Geology
Biochemistry
Chemistry
Zoology
Physics
Engineering
Microbiology
Botany
Statistics
Mathematics
Qual
0.916
0.881
0.644
0.929
0.886
0.870
0.680
0.654
0.561
0.319
Mass
0.107
0.036
0.163
0.151
0.143
0.111
0.046
0.108
0.036
0.098
ID
1
2
3
4
5
6
7
8
9
Name
Geology
Biochemistry
Chemistry
Zoology
Physics
Engineering
Microbiology
Botany
Statistics
Component
Coord
Corr
-0.303 0.861
0.455 0.762
-0.073 0.510
-0.102 0.083
-0.027 0.006
0.292 0.749
0.110 0.671
0.039 0.029
-0.014 0.007
Inert
0.137
0.119
0.021
0.230
0.196
0.152
0.010
0.067
0.012
0.056
Component
Coord
Corr
-0.076 0.055
-0.180 0.119
-0.038 0.134
0.327 0.846
-0.316 0.880
0.117 0.121
-0.013 0.009
0.179 0.625
-0.125 0.554
-0.107 0.240
2
Contr
0.322
0.248
0.029
0.052
0.003
0.310
0.018
0.005
0.000
Pg. 185
1
Contr
0.016
0.030
0.006
0.413
0.365
0.039
0.000
0.088
0.014
0.029
Mathematics
0.061
0.079
0.012
Name
Museums
MathSci
Qual
0.556
0.559
Mass
0.067
0.134
Inert
0.353
0.041
Component
Coord
Corr
0.314 0.225
-0.112 0.493
1
Contr
0.168
0.043
Component
Coord
Corr
-0.381 0.331
0.041 0.066
2
Contr
0.318
0.007
Name
A
B
C
D
E
Qual
0.587
0.816
0.465
0.968
0.990
Mass
0.039
0.161
0.389
0.162
0.249
Inert
0.187
0.110
0.094
0.347
0.262
Component
Coord
Corr
-0.478 0.574
-0.127 0.286
-0.083 0.341
0.390 0.859
0.032 0.012
1
Contr
0.228
0.067
0.068
0.632
0.006
Component
Coord
Corr
-0.072 0.013
-0.173 0.531
-0.050 0.124
-0.139 0.109
0.292 0.978
2
Contr
0.007
0.159
0.032
0.103
0.699
Pg. 186
Row Plot
0.5
Biochemistry
0.4
Engineering
Component 2
0.3
0.2
0.1
Physics
0.0
Microbiology
Mathematics
MathSci
Statistics
Botany
Chemistry
Zoology
-0.1
-0.2
Geology
-0.3
Museums
-0.4
-0.4 -0.3 -0.2 -0.1 0.0 0.1 0.2 0.3 0.4 0.5
Component 1
Component 2
Biochemistry
Engineering
Microbiology
Physics
MathSciBotany
Mathematics
Chemistry StatisticsZoology
C
Geology Museums
-1
-2
-3
-3
-2
-1
0
Component 1
Pg. 187
Ejemplo:
Los accidentes de automvil se clasifican de acuerdo al tipo de accidente en:
colisin o volcadura; severidad del accidente (no severo y severo); si o no el
chofer fue expulsado; y el tamao del coche (pequeo o estndar). Se utiliza el
Pg. 188
Inertia
0.4032
0.2520
0.1899
0.1549
1.0000
Proportion
0.4032
0.2520
0.1899
0.1549
Cumulative
0.4032
0.6552
0.8451
1.0000
Histogram
******************************
******************
**************
***********
Pg. 189
manera similar por cualquier componente, pero esto puede no ser cierto
para ms de dos categoras.
Column Contributions
ID
1
2
3
4
5
6
7
8
Name
Small
Standard
NoEject
Eject
Collis
Rollover
NoSevere
Severe
Qual
0.965
0.965
0.474
0.474
0.613
0.613
0.568
0.568
Mass
0.042
0.208
0.213
0.037
0.193
0.057
0.135
0.115
Inert
0.208
0.042
0.037
0.213
0.057
0.193
0.115
0.135
Component
Coord
Corr
0.381 0.030
-0.078 0.030
-0.284 0.472
1.659 0.472
-0.426 0.610
1.429 0.610
-0.652 0.502
0.769 0.502
1
Contr
0.015
0.003
0.043
0.250
0.087
0.291
0.143
0.168
Component
Coord
Corr
-2.139 0.936
0.437 0.936
-0.020 0.002
0.115 0.002
0.034 0.004
-0.113 0.004
-0.237 0.066
0.280 0.066
2
Contr
0.771
0.158
0.000
0.002
0.001
0.003
0.030
0.036
Column Plot
2
Component 2
1
Standard
Severe
NoEject
Collis
NoSevere
Eject
Rollover
-1
-2
Small
-2
-1
0
Component 1
Pg. 191
Pg. 192
datos
no
similares
de
fuentes
mltiples,
como
diferentes
encuestadores o encuestados.
Por ejemplo, Cmo percibe la gente las relaciones entre diferentes coches? Si
se tienen datos de encuestas indicando calificaciones de similaridad entre
diferentes fabricantes y modelos de coches, el escalado multidimensional
puede
ser
utilizado
para
identificar
dimensiones
que
describan
las
Pg. 193
A
B
C
D
A
0
6
6
2.5
B
6
0
9.5
7.8
C
6
9.5
0
3.5
D
2.5
7.8
3.5
0
B
A
Pg. 194
dij a b ij
de la regresin
se denominan
STRESS 1
(d
ij
dij ) 2 / dij
2 1/ 2
Ejemplo:
Con base en un mapa de carreteras de una isla de Nueva Zelanda de 13
ciudades. Como las distancias no son proporcionales a las distancias
geogrficas no es posible recuperar exactamente el mapa de las carreteras.
Los datos son los siguientes:
Pg. 195
Escalado multidimensional
Franza
Alejandra Balclutha Blenheim Christchurch Dunedin Josef
Te
Greymouth Invercargill Milford Nelson Queenstown anau
Timaru
Alejandra
100
485
284
126
233
347
138
248
563
56
173
197
Balclutha
100
478
276
50
493
402
89
213
537
156
138
177
Blenheim
485
478
201
427
327
214
567
691
73
494
615
300
Christchurch
284
276
201
226
247
158
365
489
267
305
414
99
Dunedin
126
50
427
226
354
352
139
263
493
192
188
127
Franza_Josef
233
493
327
247
354
114
380
416
300
228
366
313
Greymouth
347
402
214
158
352
114
493
555
187
341
480
225
Invercargill
138
89
567
365
139
380
493
174
632
118
99
266
Milford
248
213
691
489
263
416
555
174
756
178
75
377
Nelson
563
537
73
267
493
300
187
632
756
572
681
366
Queenstown
56
156
494
305
192
228
341
118
178
572
117
230
Te_anau
173
138
615
414
188
366
480
99
75
681
117
315
Timaru
197
177
300
99
127
313
225
266
377
366
230
315
Alscal
Alscal Procedure Options
Data OptionsNumber of Rows (Observations/Matrix).
Number of Columns (Variables) . . .
Number of Matrices
. . . . . .
Measurement Level . . . . . . .
Data Matrix Shape . . . . . . .
Type . . . . . . . . . . .
Approach to Ties . . . . . . .
Conditionality . . . . . . . .
Data Cutoff at . . . . . . . .
Model OptionsModel . . . . . .
Maximum Dimensionality
Minimum Dimensionality
Negative Weights . .
.
.
.
.
.
.
.
.
.
.
.
.
13
13
1
Ordinal
Symmetric
Dissimilarity
Leave Tied
Matrix
.000000
.
.
.
.
.
.
.
.
Euclid
2
2
Not Permitted
.
.
.
.
Printed
Printed
Plotted
Not Created
Pg. 196
Computed
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
30
.00100
.00500
Ulbounds
78
1
2
3
4
5
6
7
8
9
10
11
12
13
6
7
8
9
10
11
12
13
11
12
13
.
.
.
.
.
.000
354.000
352.000
139.000
263.000
493.000
192.000
188.000
127.000
10
.000
114.000
380.000
416.000
300.000
228.000
366.000
313.000
.000
493.000
555.000
187.000
341.000
480.000
225.000
.000
174.000
632.000
118.000
99.000
266.000
.000
756.000
178.000
75.000
377.000
.000
572.000
681.000
366.000
11
12
13
.000
117.000
230.000
.000
315.000
.000
.08605
.06010
.02596
.05795
.00214
.05730
.00066
Iterations stopped because
S-stress improvement is less than
.001000
Stress and squared correlation (RSQ) in distances
RSQ values are the proportion of variance of the scaled data
(disparities)
in the partition (row, matrix, or entire data) which
is accounted for by their corresponding distances.
Stress values are Kruskal's stress formula 1.
For matrix
Pg. 197
.05316
RSQ =
Stimulus
Name
ALEJANDR
BALCLUTH
BLENHEIM
CHRISTCH
DUNEDIN
FRANZA
GREYMO
INVERCAR
MILFORD
NELSON
QUEENST
TE_ANAU
TIMARU
.7202
.8481
-1.9897
-.9345
.5307
-.6973
-1.3326
1.2799
1.8132
-2.3233
.8088
1.4641
-.1875
-.3136
.7719
.4399
.3452
.5790
-1.2456
-.5697
.3898
-.3440
.0714
-.4895
-.2811
.6461
6
.000
.901
2.535
2.597
1.941
1.533
2.271
1.941
11
12
13
11
.000
.901
1.533
.000
2.793
3.157
1.180
2.112
2.793
1.533
.000
.996
3.617
.901
.753
1.533
12
13
.000
1.941
Pg. 198
.000
.000
4.157
1.029
.432
2.271
1
5
.000
2.199
2.189
.982
1.533
2.793
1.190
1.190
.901
10
.000
3.226
3.804
2.271
.5
balcluth
dunedin
invercar
christch
nelson
0.0
-.5
Dimension 2
te_anau
alejandr
milford
queenst
greymo
-1.0
franza
-1.5
-3
-2
-1
Dimension 1
Distances
0
0
Disparities
Distances
0
0
100
200
300
400
500
600
700
Observations
Pg. 199
800
Transformation Scatterplot
Euclidean distance model
5
Disparities
0
0
100
200
300
400
500
600
700
800
Observations
0.5
Blenheim
Dunedin
Invercargill
Christchurch
Nelson
0.0
Te anau
Z2
Alejandra
Greymouth
-0.5
Milford
Queenstown
-1.0
Franza J osef
-1.5
-2
-1
0
Z1
Pg. 200
Ejemplo HATCO:
Paso 1: Objetivos del mapeo perceptual
El propsito del estudio es explorar la imagen y competitividad de Hatco,
atendiendo las percepciones del mercado sobre Hatco y nueve competidores,
as como investigar preferencias, entre clientes potenciales.
Paso 2. Diseo del estudio de mapeo perceptual
Se hacen entrevistas con 18 gerentes medios de diferentes empresas
representantes de la base de clientes potenciales existente en el mercado. Se
colectaron tres tipos de datos: juicios de similaridad; calficacin de atributos de
las organizaciones; y preferencias de cada organizacin en diferentes
situaciones de compra.
Datos de similaridad
Los juicios de similaridad se realizaron con enfoque de comparacin de objetos
pareados. Los 45 pares de organizaciones [(10 x 9)/2] se presentaron a los
encuestados, quienes indicaron que tan similares eran en una escala de nueve
puntos, con 1 no similar y 9 muy similar, los valores deben ser
transformados ya que valores altos de similaridad indican mayor similitud, lo
opuesto a una distancia de similaridad.
Calificacin de atributos
Se obtuvieron calificaciones para los ocho atributos de cada organizacin,
incluyendo: calidad, orientacin de la direccin, calidad del servicio, rapidez de
entrega, nivel de precios, imagen de la fuerza de ventas, flexibilidad de precios,
e imagen de manufactura. En este caso, se pidi a cada encuestado
seleccionar la organizacin que mejor caracterizaba el atributo, podran ser
varias organizaciones.
Evaluacin de preferencias
Pg. 201
supuestos
correspondencia)
del
MSD
tratan
(escalamiento
principalmente
mltiple)
con
la
CA (anlisis de
comparabilidad
B
6.61
6.61
0
3.44
4.11
2.17
4
3.72
6.61
2.83
C
2.33
2.61
3.44
0
6.94
4.06
2.22
2.67
2.5
2.5
D
2.56
2.56
4.11
6.94
0
2.39
2.17
2.61
7.06
2.5
E
4.06
2.39
2.17
4.06
2.39
0
4.06
3.67
5.61
3.5
F
2.5
3.5
4
2.22
2.17
4.06
0
2.28
2.83
6.94
Pg. 202
G
2.33
2.39
3.72
2.67
2.61
3.67
2.28
0
2.56
2.44
H
2.44
4.94
6.61
2.5
7.06
5.61
2.83
2.56
0
2.39
I
6.17
6.94
2.83
2.5
2.5
3.5
6.94
2.44
2.39
0
Continue
Alscal
10
10
1
Ordinal
Symmetric
Dissimilarity
Leave Tied
Matrix
.000000
Model OptionsModel . . . . . .
Maximum Dimensionality
Minimum Dimensionality
Negative Weights . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Euclid
2
2
Not Permitted
.
.
.
.
.
Printed
Printed
Plotted
Not Created
Computed
.
.
.
.
30
.00100
.00500
Ulbounds
Output Options-
.
.
.
.
.
.
.
.
.
.
.
.
Pg. 203
45
.000
6.610
6.610
2.330
2.560
4.060
2.500
2.330
2.440
6.170
6
6
7
8
9
10
.000
4.060
3.670
5.610
3.500
2
.000
6.610
2.610
2.560
2.390
3.500
2.390
4.940
6.940
7
.000
2.280
2.830
6.940
.000
3.440
4.110
2.170
4.000
3.720
6.610
2.830
.000
6.940
4.060
2.220
2.670
2.500
2.500
.000
2.560
2.440
.000
2.390
.000
2.390
2.170
2.610
7.060
2.500
10
.000
>Warning # 14654
>The total number of parameters being estimated (the number of
stimulus
>coordinates plus the number of weights, if any) is large relative to
the
>number of data values in your data matrix. The results may not be
reliable
>since there may not be enough data to precisely estimate the values
of the
>parameters. You should reduce the number of parameters (e.g.
request
>fewer dimensions) or increase the number of observations.
>Number of parameters is 20.
S-stress
.34762
.31655
.30447
.29330
.28544
.27995
Pg. 204
Improvement
.03107
.01208
.01116
.00787
.00549
.27809
.27736
.00186
.00072
.001000
Stress
For matrix
.21711
RSQ =
.65041
Stimulus Coordinates
Dimension
Stimulus
Number
1
2
3
4
5
6
7
8
9
10
Stimulus
Name
HATCO
A
B
C
D
E
F
G
H
I
1.4421
-.7839
-.9662
.9408
-.7348
-1.6467
.8884
.0380
1.3800
-.5578
.4676
1.3555
-1.5220
-.5781
1.1899
-.0867
.9950
.1487
-.7134
-1.2565
.000
2.793
2.793
1.445
1.616
2.793
1.572
1.445
2
.000
2.793
1.621
1.616
1.572
1.796
1.572
Pg. 205
.000
1.796
2.793
1.445
2.793
1.949
.000
2.793
2.793
1.445
1.621
1
5
.000
1.572
1.445
1.621
1.572
2.793
2.793
2.793
6
6
7
8
9
10
.000
2.793
1.796
2.793
1.796
.000
1.445
1.621
2.793
.000
1.616
1.572
1.5
1.0
hatco
.5
g
e
0.0
Dimension 2
-.5
-1.0
i
b
-1.5
-2.0
-2.0
-1.5
-1.0
-.5
0.0
.5
1.0
1.5
Dimension 1
Distances
1.0
.5
0.0
1.4
1.6
1.8
2.0
2.2
2.4
2.6
2.8
Disparities
Pg. 206
3.0
1.572
1.572
9
.000
1.572
2.845
1.572
10
.000
Distances
1.0
.5
0.0
2
Observations
Transformation Scatterplot
Euclidean distance model
3.0
2.8
2.6
2.4
2.2
Disparities
2.0
1.8
1.6
1.4
2
Observations
Pg. 207