Anda di halaman 1dari 232

# INTRODUCCIN AL ANLISIS MULTIVARIABLE

(PRIMERA PARTE)

## Eduardo Jimnez Marqus

Curso 2004-05

Anlisis Multivariante

Anlisis Multivariante

NDICE
1. CONCEPTOS GENERALES...........................................12
1.1

INTRODUCCIN.......................................................12

1.1.1

1.1.2

1.2

1.3

1.4

## DEFINICIN Y CLASIFICACIN DE LAS VARIABLES.....14

1.4.1

TIPOS DE VARIABLES.........................................................................15

1.5

ESCALAS DE MEDIDA...............................................17

1.6

1.6.1

1.7

1.8

2.

## METODOS EXPLICATIVOS O DE DEPENDENCIA. .26

2.1

INTRODUCCIN.......................................................26

2.2

2.

## TCNICAS MAS HABITUALES.....................................26

2

3.

REGRESIN LINEAL.........................................28

3.1

CONCEPTO..............................................................28

3.1.1

3.2

## ANLISIS DE REGRESIN MLTIPLE..........................31

3.2.1

3.3

MODELOS ESTOCSTICOS.................................................................30

3.3.1

3.3.2

## COEFICIENTE DE CORRELACIN MLTIPLE Y COEFICIENTE DE DETERMINACIN

MLTIPLE ......................................................................................................... 33

3.4

3.4.1

MATRIZ DE CORRELACIONES.............................................................36

3.4.2

CORRELACIN PARCIAL.....................................................................36

3.4.3

3.4.4

3.4.5

3.4.6

3.4.7

## SOLUCIN AL PROBLEMA DE MULTICOLINEALIDAD............................39

3.4.8

COEFICIENTES DE REGRESIN...........................................................39

3.4.9

3.5

3.6

## TABLA ESTADSTICA:DISTRIBUCIN T DE STUDENT... .42

3.7

EJEMPLO 1..............................................................43

3.8

EJEMPLO2...............................................................49

4.

4.1

52

5.
5.1

5.7

5.2

5.3

5.4

5.5

## EN NUESTRO EJEMPLO SOBRE EL PRECIO DE LOS PISOS:

60

5.6

COEFICIENTE DE DETERMINACIN............................61

Y 1. .55

## COMPROBACIN DE LA BONDAD GLOBAL DEL MODELO:

ANALISIS DE LA VARIANZA ............................................. 61
5.8

5.9

## 5.10 USO DEL MODELO PARA ESTIMAR Y PREDECIR........64

5.11 HIPTESIS DEL MODELO DE REGRESIN SIMPLE.....67

## 5.13 HOMOCEDASTICIDAD EN LAS PERTURBACIONES... . .68

5.14 NO AUTOCORRELACIN DE ERRORES.....................69

6.

## LINEALIDAD EN EL MODELO DE REGRESIN.....71

6.1

7.
7.1

OTRAS TRANSFORMACIONES....................................71

## INFERENCIAS ACERCA DE LOS COEFICIENTES DE REGRESIN

7.2

7.3

COEFICIENTE DE DETERMINACIN............................74

## COMPROBACIN DE LA BONDAD GLOBAL DEL MODELO:

ANALISIS DE LA VARIANZA ............................................. 74
7.4

7.5

7.6

7.7

7.8

7.9

82

## 7.11 INTRODUCCIN DE VARIABLES CUALITATIVAS.........82

7.12 CONCLUSIN FINAL AL CASO DE LAS VIVIENDAS.....85

9.1

8.

BIBLIOGRAFA................................................91

9.

## ANLISIS DE LA VARIANZA (ANOVA)................93

CONCEPTO......................................................................93
9.2

## MODALIDADES DE ANLISIS DE LA VARIANZA...........93

9.3

ANOVA....................................................................94

9.3.1

9.4

EXPERIMENTACIN..................................................94

9.5

EL MTODO DE EXPERIMENTACIN...........................95

9.5.1

9.8

TIPOS DE ANOVA...............................................................................94

## PRINCIPALES APLICACIONES DE LA EXPERIMENTACIN.....................96

9.6

METODOLOGA DE LA EXPERIMENTACIN..................96

9.7

ELEMENTOS DE UN EXPERIMENTO............................97

9.7.1

CONCEPTOS GENERALES...................................................................97

9.7.2

HIPTESIS DE TRABAJO.....................................................................98

## POR QU SE LLAMA ANLISIS DE LA VARIANZA SI

COMPARAMOS MEDIAS? ................................................. 98
9.8.1

9.9

## EXPERIMENTOS ALEATORIOS CON UN FACTOR.........100

9.9.1

MODELO.......................................................................................... 101

## 9.10 ANLISIS DE VARIANZA CON UN FACTOR (ONE WAY)

101
9.11 ANOVA CON VARIOS FACTORES............................103
9.12 TIPOS DE EXPERIMENTOS HABITUALMENTE UTILIZADOS EN
INVESTIGACIN COMERCIAL ......................................... 104
9.12.1

9.12.2

9.12.3

9.12.4

## EXPERIMENTO CON INTERCAMBIO...................................................117

9.12.5

EXPERIMENTO FACTORIAL...............................................................117

9.13 BIBLIOGRAFA.....................................................125

## 10. ANALISIS DISCRIMINANTE.............................127

10.1 CONCEPTO....................................................................127
10.1.1

EJEMPLO.......................................................................................... 128

10.4 RELACIN ENTRE AD, ANOVA Y REGRESIN..........129
10.6.1

SUPUESTOS:....................................................................................130

10.6.2

10.7.1

## FORMULACIN DEL PROBLEMA.....................................................132

10.7.2

ESTIMACIN....................................................................................133

10.7.3

## DETERMINACIN DEL GRADO DE SIGNIFICACIN..........................133

10.7.4

INTERPRETACIN.............................................................................133

10.7.5

VALIDACIN.....................................................................................136

## 10.8 EJEMPLO DE ANLISIS DISCRIMINANTE CON EL SPSS:

138
10.9 ANALISIS DEL EFECTO CONJUNTO:......................142
10.10 CLASIFICACIN DE LAS OBSERVACIONES:...........145
10.11 MTODO DE INCLUSIN POR PASOS: MTODO LAMBDA
DE WILKS: 149
10.12 ANLISIS DISCRIMINANTE MLTIPLE...................153
10.12.1 DETERMINACIN DEL GRADO DE SIGNIFICACIN......................153
10.12.2 INTERPRETACIN.........................................................................153
10.12.3 VALIDACIN.................................................................................153

## 11. CASO PRCTICO DE ADM.............................154

11.1.1

INTRODUCCIN...............................................................................154

11.1.2

ANLISIS

11.2

DISCRIMINANTE..............................................................157

BIBLIOGRAFA.....................................................165

12. SEGMENTACIN............................................167
12.1 CONCEPTO..........................................................167

## 12.2 REQUISITOS PARA QUE LA SEGMENTACIN DE

SEA

EFICAZ.................................................................167

## 12.3 CRITERIOS DE SEGMENTACIN DE MERCADO.......168

12.4 ETAPAS DE UN ESTUDIO DE SEGMENTACIN DE
12.5 TCNICAS PARA CLASIFICAR UN MERCADO EN
SEGMENTOS..................................................................172

## 13. TCNICAS DE SEGMENTACIN......................173

13.1 MTODOS

CLSICOS..........................................173

13.1.1

MTODO

BELSON..........................................................................173

13.1.2

## MTODO DE ANLISIS DE LA VARIANZA........................................176

13.1.3

13.1.4

MODELOS DE CANGUILHEM..........................................................170

## 13.2 AUTOMATIC INTERACTION DETECTION (AID)........172

13.2.1

VENTAJAS E INCONVENIENTES.........................................................173

## 14. CHI-SQUARED AUTOMATIC INTERACTION

DETECTION (CHAID).............................................173
14.1 CONCEPTO.........................................................173
14.1.1

PROCESO......................................................................................... 174

14.1.2

14.1.3

VENTAJAS E INCONVENIENTES.........................................................175

## 15. EJEMPLO LOS PROGRAMAS DE FORMACIN EN

MARKETING EN EL COMERCIO ............................. 176
15.1 RESUMEN.....................................................................176
15.2 INTRODUCCIN...................................................176
15.3 OBJETIVOS DEL TRABAJO E HIPTESIS..................178
15.4 METODOLOGA: VARIABLES Y TCNICAS A UTILIZAR179
15.5 TCNICAS A UTILIZAR..........................................181
15.5.1

## TCNICAS DE REDUCCIN DE VARIABLES.......................................181

15.5.2

TCNICAS DE SEGMENTACIN.........................................................185

15.6.1

## 15.7 UTILIZACIN DE HERRAMIENTAS DE MARKETING...190

15.8 CLASIFICACIN DE LOS ESTABLECIMIENTOS COMERCIALES
SEGN LA REALIZACIN O NO DE PROGRAMAS DE
FORMACIN ................................................................. 192
15.9 CLASIFICACIN DE LOS ESTABLECIMIENTOS COMERCIALES
SEGN EL TIPO DE PROGRAMA DE FORMACIN REALIZADO . .
195
15.9.1

## ESTABLECIMIENTOS QUE VALORAN LOS PROGRAMAS DE

FORMACIN GENRICOS................................................................................195
15.9.2

15.9.3

## FORMACIN TCNICOS QUE EMPLEAN HERRAMIENTAS INFORMTICAS.......201

16. CONCLUSIONES.............................................203
17. BIBLIOGRAFA...............................................205
18. CONCEPTO DE ACM.....................................209
19. MODELO DEL ACM.......................................209
19.1 CONSIDERACIONES ACERCA DEL MODELO...........211

20. CASO

PRCTICO..........................................211

1. CONCEPTOS GENERALES
1.1

INTRODUCCIN.

## Los procedimientos multivariables constituyen un conjunto de tcnicas estadsticas

de amplia aplicacin en el mundo cientfico, especialmente en los estudios de tipo
muy especialmente en el tratamiento de las encuestas.
1.1.1

LA

ENCUESTA

LOS

MTODOS

MULTIVARIANTES
El objetivo fundamental de la Investigacin Comercial es

el

de

obtener

## informacin objetiva, que permita el disminuir la incertidumbre del decisor en su

toma de decisiones.
A travs de la Investigacin Comercial la empresa puede disponer de una gran
cantidad de datos acerca de su actividad interna y del entorno en el que desarrolla
su negocio. El mercado donde realiza la actividad econmica la empresa, es un
fenmeno complejo donde interactan un gran nmero de factores que tienen
formacin de los trabajadores, ecologa, legislacin, demografa, etc.)
Por tanto podemos afirmar que la mayora de los problemas de la empresa son
multidimensionales, es decir cualquier actividad empresarial la podemos describir
de acuerdo con diversas dimensiones.
Esto nos conduce a que deberemos estudiar los factores que influyen o que bien
consideramos que lo puedan hacer, de una manera simultnea y para ello se
utilizan unas tcnicas estadsticas que se denominan: tcnicas multivariantes o
multivaribles.
En la Investigacin Comercial a travs de encuestas, se realizan una serie de
preguntas, mediante la administracin de un cuestionario, que permite mediante su

## combinacin obtener la informacin acerca del fenmeno

objeto

de

la

investigacin.
Por ejemplo para determinar el estilo de vida, hacemos una batera de preguntas
acerca de: la profesin, el nivel de estudios, la renta familiar, el equipamiento del
hogar, electrodomsticos, vehculos, hbitos de consumo, hbitat, etc.
A travs del anlisis multivariante lo que hacemos es combinar todas las variables,
eliminando la informacin redundante y se obtiene una nueva variable que no es
observable directamente, que representa un concepto abstracto que se puede medir
obtenindose un valor para cada elemento, en el caso del ejemplo lo denominamos
estilo de vida.
Esta situacin la podemos resumir en el siguiente esquema

Esquema 1
1.1.2

Anlisis multivariante

## Las tcnicas de anlisis multivariante se utilizan cada vez ms en la investigacin

comercial por las siguientes razones:
1. Permiten el analizar un gran nmero de encuestas. Simplificando muchos
datos, con la mnima prdida de informacin. Consiguiendo hacer ms
comprensible la informacin para la mente humana
2. Permiten analizar toda la informacin acerca de un determinado fenmeno,
considerando simultneamente todos los factores que intervienen.
3. Permiten trabajar con cualquier tipo de variable.

1.2

## Podemos definir las tcnicas multivariantes como, un conjunto de mtodos

estadsticos que permiten el anlisis de forma simultnea de mas de dos variables
Desde una concepcin amplia podemos definir el Anlisis Multivariante como un
conjunto de mtodos que analizan las relaciones entre un nmero razonablemente
amplio de variables (medidas), tomadas sobre cada elemento de anlisis, en una o
ms muestras simultneamente.

1.3

REAS

DE

APLICACIN

DEL

ANLISIS

MULTIVARIANTE
El anlisis Multivariante es de aplicacin en la Investigacin Comercial, en las
siguientes circunstancias:

## Reduccin de datos. Se trata de simplificar la estructura del fenmeno

interpretacin muy fcil.

tipologa

explicar

1.4

## DEFINICIN Y CLASIFICACIN DE LAS VARIABLES

En las tcnicas del anlisis multivariante se entiende por variable alguna magnitud
que representa la caracterstica de los elementos objeto de investigacin que
tratamos de medir.

En una primera clasificacin las variables las podemos clasificar en dos grupos,
variables independientes (VI) y variables dependientes (VD).
Las variables dependientes son aquellas cuyo comportamiento es explicado o
pronosticado por una o ms variables independientes. Las variables dependientes
tambin se denominan variables criterio o respuesta, mientras que las variables
independientes son las que servirn para explicar el fenmeno estudiado y se en
ocasiones se denominan como variables explicativas, factores o

variables

predictoras.
En los estudios no experimentales, la situacin de las variables no siempre es clara,
definindose su papel en el contexto de la investigacin. Una misma variable
puede adoptar diferentes roles en funcin de situaciones.
Cuando existen diferencias sistemticas en una variable dependiente (Y) asociada
a diferentes niveles de variacin de la variable independiente (X) se dice que estn
Si todas las variables desempean el mismo papel se habla de relaciones de
interdependencia. En este caso no hay una variables con las que se intente explicar
el comportamiento de otras.
En ocasiones, al analizar el modelo la nica forma de diferenciar las variables es
simplemente por donde estn situadas en la ecuacin.
1.4.1

TIPOS DE VARIABLES

## Una variable es una caracterstica o propiedad de un elemento (individuo, objeto,

transaccin, suceso, etc.), que toma distintos valores para cada elemento.
En general se clasifican en dos grandes grupos:

## Los diferentes tipos de variable los resumimos a continuacin:

Variables cuantitativas o mtricas: Son aquellas en las que los valores tomados
por diferentes individuos tienen un significado propio. De hecho, son una
medicin o cuantificacin de una determinada caracterstica, la respuesta a la
pregunta: Cunto/s ?
beneficios, de una empresa, etc.
1

## Variables cualitativas o no mtricas : Son aquellas en las que las distintas

Sin embargo, con el fin de facilitar el tratamiento de los datos, estas categoras se
convierten en unos cdigos, sin que tenga que existir ningn tipo de relacin entre
1.4.1.1

CLASIFICACIN

POR

LOS

VALORES

QUE

PUEDEN

De acuerdo con el valor que pueden adoptar las variables estas las podemos
clasificar en los siguientes tipos:

## Variable continua. Se trata de una variable cuantitativa que puede adoptar

cualquier valor numrico, Para todo par de valores siempre podemos
encontrar uno intermedio. Por ejemplo la edad, el consumo de telfono, ...

## Variable discreta. Puede adoptar un nmero finito de valores distintos, entre

dos valores consecutivos no se puede encontrar ninguno intermedio. Por
ejemplo el nmero de personas por hogar.

## Variable dicotmica o binaria. Solo puede tomar dos valores, si se definen

como 0 y 1 se llama binaria.

## Variables ficticias o Dummy. Se utiliza con variables cualitativas, para

poder obtener informacin a travs de operaciones, se convierten en
binarias, indicando el valor 1 la presencia de una categora de la variable y
0 su ausencia.

## Para realizar la conversin de una variable cualitativa en ficticia se necesitan tantas

variables dummy como categoras tiene la variable menos una.
Ejemplos de variables Dummy
La variable Sexo con las categoras hombre y mujer necesitara una sola variable
dummy D1: Hombre 0 Mujer 1
Consideremos la variable Color del producto A que tiene las siguientes
categoras
1 Rojo 2 Verde 3 Azul
Obtendremos las siguientes Dummy 3 1 = 2 que corresponden a:
D1 = Rojo 1 Verde y Azul 0
D2 = Verde 1 Rojo y Azul 0
La categora azul queda definida ya que tiene 0 en las dos ficticias

1.5

ESCALAS DE MEDIDA

## Prcticamente todas las investigaciones de mercado recogen los datos en forma de

nmeros, interesando al investigador lo que estos nmeros representan, por medio
de las correspondientes operaciones de medida.
Medir consiste en asignar nmeros a los sucesos, elementos, objetos, atributos, ...
Puesto que utilizamos diferentes reglas para la asignacin de los nmeros, un
mismo nmero puede dar lugar a diferentes interpretaciones, ello da lugar a la
existencia de diferentes escalas de medida.

## Por escala de medida entenderemos la correspondencia entre los nmeros

asignados a las propiedades de los elementos y la significacin de los clculos
utilizan las cuatro escalas siguientes:
Nominal, Ordinal, Intervalo y Ratio o de proporcin
Las caractersticas de estas escalas las resumimos a continuacin:

## Nominal: los posibles valores de la variable representan diferentes

categoras, no existiendo ninguna relacin entre el cdigo asignado a una
o Caso particular: variables dicotmicas, slo admiten dos posibles
respuestas. Ejemplos: sexo, verdadero / falso, si / no, ... Se
denominan binarias si se codifican 0 / 1.

## Ordinal: los cdigos o valores de cada categora mantienen la misma

relacin de orden que el significado de las categoras. Ejemplos: clase
social, escala de preferencia, ...

## Intervalo: los cdigos asignados a diferentes respuestas permiten conocer

la magnitud de la caracterstica medida, ya que se mantiene una relacin
de orden y distancia. Ejemplos: temperatura, fechas, cualquier variable

## Ratio o razn: los cdigos representan el propio valor de la caracterstica

estudiada, observndose una relacin de orden y de distancia y la
existencia de un origen Ejemplos: cifra de ventas, ratio econmicofinanciero, ...

1.6

## Partiendo de los dos grandes grupos de variables, (cualitativas y mtricas),

podemos resumir la relacin entre las variables y las escalas de medida como
sigue:
18

## 1. Variables no mtricas o cualitativas, vienen medidas en escala nominal u

ordinal
2. Variables mtricas o cuantitativas se utilizan las escalas de intervalo o de
razn.
3. Variables binarias se utiliza la escala de razn
1.6.1

## En ocasiones en el estudio se deben realizar transformaciones de escala y origen

Las variables las podemos dividir en:
Valores o puntuaciones directas, tambin llamadas brutas, se obtienen
directamente del instrumento de medida y en sus mismas dimensiones. Se suelen
representar por letras maysculas X, Y, Z, ... teniendo medias mX, mY, mZ ... y las
correspondientes desviaciones tpicas sX, sy, sZ, ... medidas en la misma escala
Valores o puntuaciones centradas en la media o diferenciales, son el resultado de
un cambio en el origen al obtenerse de la restando de la media el valor, se suelen
representar con letras minsculas (x, y, z, ...) y se obtienen a partir de la siguiente
operacin

x = X - mX

Este tipo de puntuacin tiene de media 0 y una desviacin tpica igual a la de las
puntuaciones originales. Se produce un cambio de origen no de escala.
Valores tpicos o estandarizados. Se obtienen restando de cada valor la media y
dividiendo por la desviacin tpica. Se suelen representar por la letra Z y el
subndice de a correspondiente categora de la variable.
Se obtienen
de

X mX
sX

Los valores tipificados estn libres de escala y siempre tienen media igual a 0 y
desviacin tpica igual a 1.

1.7

CLASIFICACIN

DE

LAS

TCNICAS

MULTIVARIANTES
Los diferentes mtodos de anlisis multivariante no solo difieren entre s por el
objetivo o tipo de resultados obtenidos sino que existen ya diferencias en la
tabulacin, forma de codificar y en el trabajo con las variables ya que algunos
mtodos pueden trabajar con variables nominales, mientras que otros solo lo hacen
con variables ordinales y mtricas.
Una clasificacin de gran utilidad es el diferenciar las tcnicas multivariantes en
dos grupos bsicos:
Mtodos descriptivos o de interdependencia y mtodos explicativos o de
dependencia.
Los mtodos explicativos o de dependencia se emplean para explicar o proyectar
la(s) variable(s) dependiente(s) con base en dos o ms variables independientes.
Por ejemplo explicar las ventas en funcin de numerosas variables independientes
(nmero de vendedores, inversin en publicidad, promocin, renta de los
consumidores, etc.).
Los mtodos descriptivos o de interdependencia tratan de dar significado a un
conjunto de variables o bien tratan de agrupar las cosas. Por ejemplo cuando
realizamos un estudio de segmentacin.
La clasificacin de las tcnicas multivariantes las podemos resumir en el siguiente
esquema.

TCNICAS MULTIVARIANTES

## EXISTEN VARIABLES DEPENDIENTES E INDEPENDIENTES

NO

SI
MTODOS EXPLICATIVOS

MTODOS DESCRIPTIVOS

## Los mtodos explicativos y descriptivos, a su vez se dividen de acuerdo con diferentes

criterios los mas habituales son los que reseamos en los siguientes esquemas

1.8

## Anlisis Multivariante. Hair, Anderson, otros. Editorial Prentica Hall 5 edicin

1999
Tcnicas de anlisis de datos en Investigacin de Mercados. Teodoro Luque

Mtodos Explicativos
o de
Dependencia

2.1

INTRODUCCIN

son

## tcnicas que diferencian entre variables independientes, explicativas o predictoras

y variables dependientes o a explicar.

2.2

## El objetivo principal de los mtodos explicativos es:

Encontrar la relacin existente entre la variable/s dependiente/s y
la/s independiente/s:
Este objetivo nos conduce a los siguientes objetivos secundarios:

## Explicar el comportamiento de la/s variable/s dependiente/s (Y)

Por qu la Y no es igual en todas las observaciones

## Estimar el efecto de una o varias variables explicativas (X) cuantitativas o

binarias
Cules son las variables X que explican el comportamiento de Y?
En cunto vara la Y frente a un cambio de cada una de las Xs?

Predecir el valor de Y
Cul es el valor de Y para unas Xs determinadas
Hasta que punto hemos conseguido explicar Y

2.3

## En esta modalidad de anlisis multivariable de la informacin las tcnicas ms

habituales son:
La regresin, el anlisis de la varianza, segmentacin jerarquica anlisis
discriminante, regresin logstica, correlaciones cannicas, anlisis de ecuaciones
estructurales.

Anlisis Multivariante

Regresin Lineal

3. REGRESIN LINEAL
Al clasificar los mtodos explicativos por el nmero de variables dependientes y
las escalas de medida de las variables dependientes e independientes nos
encontrbamos que cuando tenemos una sola variable dependiente y todas las
mediciones de las diferentes variables estn en escala mtrica podemos aplicar la
De forma esquemtica podemos representar esta situacin como

METODOS EXPLICATIVOS
NMERO DE VARIABLES DEPENDIENTES
UNA

## ESCALA DE MEDIDA DE LA VARIABLE (S)

INDEPENDIENTE (S)
MTRICA

MTRICA

REGRESIN

3.1

CONCEPTO

la

dependencia

de

una

variable

## cuantitativa a explicar respecto de una o varias variables explicativas, tambin

cuantitativas.
Matemticamente la regresin la podemos representar como:

Y = f (Xi )
Donde Y es la variable dependiente y Xi representa las diferentes variables
independientes.
Si solo hay una variable independiente (X) se trata de un modelo de regresin
simple
28

## Cuando hay dos o ms variables independientes se trata de un modelo de regresin

mltiple.
Si recordamos el modelo de regresin simple o modelo de regresin lineal de
primer orden responde a la siguiente frmula matemtica.

y = 0 + 1x +
donde:

## y = variable dependiente o variable a explicar

x = variable independiente o variable explicativa
(epsilon) = error o perturbacin aleatoria
0 =origen de la recta: punto donde la recta corta el eje de
ordenadas o eje de la y.
1 =pendiente de la recta o coeficiente de regresin: nos indica en

## cuanto aumenta (o disminuye) la variable dependiente por cada incremento en 1

Su representacin grfica corresponde a la indicada en la Fig. 1

## El modelo de regresin mltiple viene expresado por:

y = 0 + 1 x1 + 2 x2 + . . . + k xk +
donde:
y = variable dependiente o variable a explicar
xi = variables independientes o variables explicativas

## (epsilon) = error o perturbacin aleatoria

0 = origen cuando todas las variables independientes son 0
i = pendiente o coeficiente de regresin de la variable i.

en vez de

## 0 La correspondiente ecuacin pasa a ser:

Y 1 X1

X2

X3

X 4 ...

Xn

Los coeficientes de regresin son en todos los casos los parmetros a estimar.

El modelo de regresin requiere que todas las variables sean mtricas, las
variables independientes que sean cualitativas o no mtricas se pueden
convertir en variables mtricas ficticias (Dummy) dicotomizndolas, de este
modo las convertimos en binarias (0, 1) y por consiguiente las podemos tratar
como cuantitativas

3.1.1

MODELOS ESTOCSTICOS

## En los modelos denominados deterministas, para los diferentes valores de la

variables independientes corresponden valores determinados de la variable
dependiente.
Sin embargo este modelo no suele describir bien las relaciones entre las variables
porque no tienen en cuenta las posibles variaciones aleatorias en el valor de la
variable independiente (Y) y que, como tales, no se derivan de la variacin de las
variables dependientes.
Como consecuencia de lo expuesto surge la necesidad de otro tipo de modelo que
contemple esta situacin. Se trata de los denominados modelos estocsticos de
regresin, denominados as porque forma parte de ellos una variable aleatoria

## denominada error y perturbacin aleatoria.

Esta variable representa todas las influencias, normalmente desconocidas, que
pueden hacer variar la variable dependiente (Y), al margen de las variaciones de
las variables independientes (X).

Y 1 X1
3.2

X2

X3

X 4 ...

Xn

de

regresin

## bivariado que nos permite la investigacin simultnea del efecto de dos o ms

variables independientes sobre una variable dependiente medida en escala mtrica.
Por consiguiente se trata de buscar la ecuacin que mejor exprese
matemticamente la relacin de los valores de una variable dependiente (Y) con
los valores de dos o ms variables independientes (X 1 X2 X3 .....Xn) consideradas
conjuntamente.
De esta forma el problema consiste en la identificacin de una relacin lineal
mediante el anlisis de regresin mltiple.
La ecuacin obtenida es del tipo:

y = 0 + 1 x1 + 2 x2 + . . . + k xk +
Los coeficientes

## unidad en la variable independiente correspondiente. Estos coeficientes se les

denomina como coeficientes de regresin parcial. El valor original de

es el

## coeficiente sencillo de la regresin bivariada, se define como el coeficiente de

correlacin parcial para el que se mantienen constantes los efectos de las otras
variables independientes.
La funcin del coeficiente

3.2.1

## Cmo se calculan los coeficientes de regresin,

0 y i?

Cmo se interpretan?

3.3

## Hiptesis sobre la forma de la distribucin de probabilidad de y sobre las

variables independientes
Partiendo del modelo:
y = 0 + 1xI + ... +
Las correspondientes hiptesis son:

## La media de la distribucin de probabilidad de es 0. Es decir, la media de

los valores de para un nmero infinitamente grande de experimentos es 0
para cada valor de la variable independiente x. Esta hiptesis implica que el
valor de la media de y, E(y), para un valor dado de x es E(y) = 0 + 1x.

## Los valores de asociados a dos valores cualquiera observados de y, son

independientes. Es decir, el valor de asociado a un valor de y no tiene
ninguna influencia sobre los valores de asociados a otros valores de y
(esto implica que los errores no estn correlacionados consigo mismo o, lo
que es lo mismo, no existe autocorrelacin de errores).

## La varianza de la distribucin de probabilidad de es constante, , para

todos los valores de la variable independiente, X (es decir, existe

entre las variables independientes).

## La hiptesis primera se considera ciertas y no se contrasta. Se supone que se

cumple con una muestra aleatoria suficientemente amplia. Por otro lado, tampoco
hay forma de comprobar que la media de las perturbaciones sea 0 (ya que para los
errores la estimacin por mnimos cuadrados exige que su media sea 0).
3.3.1

## ESTIMACIN DEL MODELO DE REGRESIN

(insesgados, eficientes y consistentes) si se cumplen ciertas hiptesis sobre (las
perturbaciones)

de las diferencias entre los valores reales y los estimados de la

variable

## dependiente, o lo que es lo mismo, los errores cometidos en la estimacin de la

variable dependiente (Y)
De conformidad con este criterio la mejor recta es aquella que haga mnima la
Min
3.3.2

COEFICIENTE

DE

i2

CORRELACIN

MLTIPLE

## COEFICIENTE DE DETERMINACIN MLTIPLE

El coeficiente de correlacin mltiple (R) indica el porcentaje de variacin en la
variable dependiente Y explicado por la variacin en las variables independientes
Por tanto representa el grado de asociacin entre una variable dependiente y dos o
ms variables independientes tomadas en conjunto.
Normalmente en la practica se estudia el cuadrado del coeficiente de correlacin o
2

## tambin llamado coeficiente de determinacin mltiple (R ), este ndice nos

indica el tanto por ciento de la variacin total de la variable dependiente Y,
explicado por la ecuacin de regresin y es igual a la razn entre la variacin
explicada y la variacin total de la variable. Por tanto expresa la proporcin de la
varianza de la variable dependiente explicada por el modelo de regresin
Este coeficiente puede variar entre 0 y 1. Si es cero indica la inexistencia de
asociacin lineal entre la variable dependiente y las independientes tomadas en
conjunto, este valor no es incompatible con la posible existencia de una posible
correlacin curvilnea. Si el valor es 1 indica una asociacin perfecta entre las
variables.
Con el fin de ver en la practica estos conceptos vamos a realizar su estudio a travs
de un ejemplo.
Y = 10218 + 0387 X1 + 1152 X2 + 673 X3
2

Test F 145

## El valor R = 0845 nos indica que la variacin de las variables independientes

representa 845% de la varianza en la variable dependiente.
Para probar la significacin estadstica se realiza el anlisis ANOVA (la prueba o
test F). Esta prueba permite probar las magnitudes relativas de la suma de

(SSr ) k
F (SSe ) (n k 1)
Donde
k es el nmero de variables independientes y n es el tamao de la muestra o el
nmero de observaciones o encuestas.
Si consideramos que trabajamos con un nivel de significacin del 5% el valor
denominador obtenemos que el valor es Ft = 407.
Por consiguiente como el valor calculado es superior al correspondiente de tablas,
obtenemos como conclusin que la relacin existente entre las variables
independientes y la dependiente no es una consecuencia de la aleatoriedad o azar.

## TABLA ESTADSTICA: DISTRIBUCIN DE LA F

NIVEL DE CONFIANZA 95%
m
N

1614

1995

2157

2246

2302

1851

19

1916

1925

1930

1013

955

928

912

901

771

694

659

639

626

661

579

541

519

505

599

514

476

4,53

439

559

474

435

412

397

532

446

407

384

369

512

426

386

363

348

10

496

410

371

348

333

11

484

398

359

336

320

12

475

389

349

326

311

13

467

381

341

318

303

14

46

374

334

311

296

15

454

368

329

306

290

3.4

## La colinealidad se produce cuando las variables independientes introducidas en el

modelo de regresin estn correlacionadas entre ellas.
Existen diferentes grados de colinealidad, dependiendo del nivel en el que estn
Cuando una variable independiente se puede expresar como una combinacin
lineal de las otras, la colinealidad es perfecta. En ese caso se puede omitir dicha
variable, solucionando la colinealidad. El problema se produce cuando

la

correlacin entre las Xs es alta o muy alta, pero sin llegar a ser total.
Debemos ser conscientes de que en casi todos los modelos de regresin mltiple
no sea excesiva ni perjudicial.
3.4.1

MATRIZ DE CORRELACIONES

Se trata de una matriz que tiene tantas filas y columnas como nmero de variables
entre las variables que se cruzan. La diagonal expresa la correlacin de cada
variable consigo misma se consignan con 1 ( algunos autores dicen que se dejen
vacas). La celdas por debajo de esta diagonal se dejan en blanco, ya que
representan las correlaciones entre las casillas en orden invertido ( R12 = R21).
3.4.2

CORRELACIN PARCIAL

## La correlacin mltiple se refiere a modelos en los que se relacionan ms de dos

variables independientes,. en este tipo de modelo es normal que si tratamos de
hallar la correlacin simple entre las variables dos a dos, esta no exprese el grado
real de asociacin entre dichas variables porque el resultado estar con toda
seguridad afectado por la influencia en dicha asociacin de las dems variables
que intervienen en el modelo.
Se trata de poder establecer la relacin o asociacin entre dos de las variables del
modelo, eliminando la influencia del resto de variables. Esto es lo que se hace
mediante los coeficientes de correlacin parcial. Mediante estos coeficientes se
puede establecer la correlacin entre dos variables, controlando o eliminando el
efecto en dicha correlacin de otras variables del modelo.
36

## Existen diversos tipos de correlacin parcial, segn el nmero de variables que se

controlan.
Cuando no se controla ninguna variable, la correlacin entre dos variables, es la
correlacin simple o total se denomina de orden cero, si hay una variable de
control se denomina de orden uno, si se controlan dos variables se trata de una
correlacin de orden dos y as sucesivamente.
3.4.3

## La correlacin parcial mltiple es una modalidad de correlacin entre cuatro o ms

variables, que combina los tipos de correlacin parcial y la mltiple
Al medir la correlacin de ms de dos variables

estamos

realizando

una

## correlacin mltiple y si lo hacemos controlando una o ms variables, es a su vez

una correlacin parcial.
3.4.4

## Se denomina multicolinealidad la existencia de una elevada correlacin entre las

variables independientes que forman parte del modelo.
Se produce cuando las variables explicativas (X) estn altamente correlacionadas
entre si. Esta circunstancia perturba la explicacin de los coeficientes de regresin
Cuando esto sucede no es posible separar la influencia propia sobre la variable
dependiente de cada una de las variables independientes, producindose el efecto
de un incremento en los errores estndar de los coeficientes de regresin.
La gravedad de la multicolinealidad depender del objetivo que se busque con el
modelo. Si lo que pretendemos es predecir los valores de la variable dependiente
(Y) entonces el problema no es grave, pero si lo es cuando se quiere determinar el
efecto de cada variable independiente sobre la dependiente.
3.4.5

## La colinealidad provoca diferentes efectos, que se manifestarn tanto ms cuanto

mayor sea la correlacin entre las Xs:

## Las desviaciones estndar de los coeficientes de regresin estn

sobreestimadas, con lo que aparecen como no significativos coeficientes
que en realidad s lo son.

## Puede suceder que ninguno de los coeficientes de regresin sean distintos

de cero (no son significativos) y que, a nivel conjunto, s que lo sean.

## Los coeficientes de regresin estimados no son consistentes, es decir,

pueden cambiar al modificar la muestra o al introducir diferentes variables
en el modelo.

## En definitiva, cuando hay colinealidad se consigue explicar la variable Y, pero no

se sabe cul es el efecto de cada una de las X por separado (puesto que todas ellas
3.4.6

## Matriz de correlaciones de Pearson entre cada par de variables

independientes. Da una idea pero no es concluyente.

## Tolerancia = (1 Rj), donde Rj es el coeficiente de determinacin de la

variable Xj frente a todas las dems Xs.

3.4.6.1

Tolerancia

VIF

Toler = 1

VIF = 1

## Poca: el modelo no suele presentar

efectos (defectos) importantes

0,1 < Toler < 0,3 10 > VIF > 3,33 Elevada: se comienzan a notar las
prdida de su significacin
0,01 <Toler< 0,1 100 > VIF > 10 Excesiva:
se
producen
graves
problemas en la interpretacin de las
Xs ya que sus coeficientes de
regresin pueden llegar a cambiar
hasta de signo
Toler < 0,01

3.4.7

## VIF > 100

paquetes informticos dejan fuera la
variable (ya que es una combinacin
lineal de las otras independientes)

## Para dar solucin a este problema se recurre al anlisis factorial. Se aplica el

anlisis factorial a las variables independientes correlacionadas entre s y se
sustituyen sus valores por las puntuaciones de los factores obtenidos, que estn
3.4.8

COEFICIENTES DE REGRESIN

## Lo podemos resumir en:

Si se cumplen todas las hiptesis del modelo de regresin, la comprobacin de la
utilidad de cada coeficiente de regresin se realiza de la misma forma que en el
anlisis de regresin simple:

H0 : i = 0
Ha : i 0

i
S

que

0,05

## Observaciones: El modelo no ser eficiente si incluye variables que no sean

explicativas

(las

que

tienen

un

coeficiente

de

regresin

significativamente distinto de 0)
Como cada Xi puede estar medida en diferentes unidades, la comparacin de los
coeficientes de correlacin de las diferentes variables se ha de realizar mediante los

3.4.8.1

## El error estndar es la desviacin tpica estimada del coeficiente de regresin.

El intervalo de confianza es el intervalo para el que se establece una probabilidad
de que el verdadero valor del coeficiente de regresin est contenido entre los
lmites del mismo.
La significacin del mismo se realiza mediante el estadstico t de Student
t

Coeficiente de
regresin Error
estndar

## Normalmente se contrasta para = 5%

3.4.8.2

Son aquellos que se obtendran si se realiza la regresin con todas las variables

Beta1

B1

S
x

Sy

o B1

S
y

Beta1

Sx

3.4.9

## Se utiliza para contrastar la hiptesis de dependencia lineal entre la variable

dependiente (Y) y las variables independientes (X)
La varianza total de la variable dependiente se divide en

3.5

## MODELOS CON VARIABLES FICTICIAS

Una de la condiciones del anlisis de regresin es que las variables deben estar
medidas en una escala mtrica. Este anlisis tambin se puede aplicar a variables
cualitativas, con escala nominal u ordinal, para ello es necesario transformar estas
variables en otras denominadas ficticias (Dummy), esto se hace de acuerdo con el
lgebra de Boole, dando el valor 1 a la posesin del atributo y el 0 a la carencia.

3.6

## TABLA ESTADSTICA:DISTRIBUCIN T DE STUDENT

Valores de la funcin de distribucin
tc tal que p(t<=tc)=p

g.l.
1
2
3
4
5

0,995 0,990 0,975 0,950 0,900 0,800 0,750 0,700 0,600 0,550
63,657 31,821 12,706
9,925 6,965 4,303
5,841 4,451 3,183
4,604 3,747 2,786
4,032 3,365 2,571

6,314
2,920
2,353
2,132
2,015

3,078
1,876
1,638
1,533
1,478

1,376
1,061
0,978
0,941
0,920

1,000
0,816
0,765
0,741
0,727

0,727
0,617
0,584
0,569
0,559

0,325
0,289
0,277
0,271
0,267

0,158
0,142
0,137
0,134
0,132

6
7
8
9
10

3,707
3,499
3,355
3,250
3,169

3,143
2,998
2,895
2,821
2,764

2,457
2,365
2,306
2,262
2,228

1,943
1,895
1,860
1,833
1,812

1,440
1,415
1,397
1,383
1,372

0,906
0,896
0,889
0,883
0,879

0,718
0,711
0,706
0,703
0,700

0,553
0,549
0,546
0,543
0,542

0,265
0,263
0,262
0,261
0,260

0,131
0,130
0,130
0,129
0,129

11
12
13
14
15

3,106
3,055
3,012
2,987
2,947

2,728
2,681
2,650
2,624
2,602

2,201
2,179
2,160
2,145
2,131

1,796
1,782
1,771
1,761
1,753

1,363
1,356
1,350
1,345
1,341

0,876
0,873
0,870
0,868
0,866

0,697
0,695
0,694
0,692
0,691

0,540
0,539
0,538
0,537
0,536

0,260
0,259
0,259
0,258
0,258

0,129
0,128
0,128
0,128
0,128

16
17
18
19
20

2,921
2,898
2,888
2,861
2,845

2,583
2,567
2,552
2,539
2,528

2,120
2,110
2,101
2,093
2,086

1,746
1,740
1,734
1,729
1,725

1,337
1,333
1,330
1,328
1,325

0,865
0,863
0,862
0,861
0,860

0,690
0,689
0,688
0,688
0,687

0,535
0,534
0,534
0,533
0,533

0,258
0,257
0,257
0,257
0,257

0,128
0,128
0,127
0,127
0,127

21
22
23
24
25

2,831
2,819
2,807
2,797
2,787

2,518
2,508
2,500
2,492
2,485

2,080
2,074
2,069
2,064
2,060

1,721
1,717
1,714
1,711
1,708

1,323
1,321
1,319
1,318
1,316

0,859
0,858
0,858
0,857
0,856

0,686
0,686
0,685
0,685
0,684

0,532
0,532
0,532
0,531
0,531

0,257
0,256
0,256
0,256
0,256

0,127
0,127
0,127
0,127
0,127

26
27
28
29
30

2,779
2,771
2,763
2,756
2,750

2,479
2,473
2,467
2,462
2,457

2,056
2,052
2,048
2,045
2,042

1,706
1,703
1,701
1,699
1,697

1,315
1,314
1,313
1,311
1,310

0,856
0,855
0,855
0,854
0,854

0,684
0,684
0,683
0,683
0,683

0,531
0,531
0,530
0,530
0,530

0,256
0,256
0,256
0,256
0,256

0,127
0,127
0,127
0,127
0,127

40
60

2,704
2,660

2,423
2,390

2,021
2,000

1,684
1,671

1,303
1,296

0,851
0,848

0,681
0,679

0,529
0,527

0,255
0,254

0,126
0,126

3.7

EJEMPLO 1

## Se quiere estudiar las ventas en funcin de las inversiones en publicidad,

promocin, el nmero de vendedores y el de puntos de venta (Tienda). Para ello se
tienen en cuenta los siguientes resultados

VENTAS
1400
52
130
25
1500
60
145
30
2000
80
150
30
1990
95
200
27
2100
87
180
35
2300
100
150
32
2200
94
150
36
2700
125
125
34
2750
136
98
26
2600
124
100
30
2763
132
87
28
3469
190
100
31
3165
197
102
42
3400
175
198
29
3759
186
212
18
3896
213
129
21
3895
231
142
20
4123
248
167
19
4230
257
198
21
4567
340
158
18
3986
425
98
21

## Tratamiento mediante programa DYANE.

TIENDAS
300
400
500
500
400
357
287
197
146
150
160
198
300
234
126
157
134
128
115
116
138

Anlisis Multivariante
AN LI S I S D ER E G R E S I NM LTI PL E
IDENTIFICACIN DE LAS VARIABLES
VARIABLE DEPENDIENTE: VENTAS
VARIABLES INDEPENDIENTE 1: inversin en publicidad
VARIABLES INDEPENDIENTE 2: inversin en promocin
VARIABLES INDEPENDIENTE 3: nmero de vendedores
VARIABLES INDEPENDIENTE 4: nmero de puntos de venta

## Matriz de coeficientes de correlacin simple:

ventas
publicid promo
vendedor tiendas
-------- -------- -------- -------- -------ventas

1.0000

0.8868

0.0884

-0.5988

-0.7814

publicid

0.8868

1.0000

-0.0652

-0.5631

-0.6666

promo

0.0884

-0.0652

1.0000

-0.2779

0.2304

vendedor

-0.5988

-0.5631

-0.2779

1.0000

0.5508

tiendas

-0.7814

-0.6666

0.2304

0.5508

1.0000

Coeficiente de determinacin:
0.9033
Coeficiente de correlacin mltiple: 0.9504
Coeficiente de regresin alfa: 1416.4829

VARIABLE

MEDIA

DESVIACIN

COEFICIENTE

ERROR

ESTNDAR

REGRESIN

ESTNDAR

COEFIC.

SUMA DE

PROPORC.

DE

CORREL.

VARIANZA

STUDENT

PARCIAL

## -------- -------------- -------------- ----------- ---------- -------- ------- -------------------- --------

ventas
publicid

2990.1429
168.9048

946.7194
94.4955

6.5105

1.1022

5.9068

0.8280

14098343.7977

0.7865

0.5804

384920.6320

0.0215

p=0.0000

promo

143.7619

38.4862

6.4704

2.2696

2.8509
p=0.0116

vendedor

27.2857

6.6268

13.4207

16.0705

0.8351

0.2044

86916.2111

0.0048

-3.8672 -0.6951

1621077.2282

0.0904

p=0.4160

tiendas

239.7619

127.1314

-3.4300

0.8869

p=0.0014
-------------------- -------16191257.8689

45

0.9033

ANLISIS DE LA VARIANZA
FUENTE DE VARIACIN

----------------------

---------------

Debida a la regresin:
Residuo:
Varianza total:

---------------------

---------------------

16191257.8689

4047814.4672

16

1734292.7025

108393.2939

---

---------------------

20

17925550.5714

= 37.3438

(p= 0.0000)

Anlisis
Multivariante
ANEXO: A N L I S I S D E C O M P O N E N T E S P R I N C I P A L E S
IDENTIFICACIN DE LAS VARIABLES
-------------------------------

VARIABLE
VARIABLE
VARIABLE
VARIABLE

1
2
3
4

:
:
:
:

inversin
inversin
nmero de
nmero de

en promocin
vendedores
puntos de venta

## Matriz de coeficientes de correlacin simple

-------------------------------------------publicid promo
vendedor tiendas
-------- -------- -------- -------publicid
1.0000 -0.0652 -0.5631 -0.6666
promo
-0.0652
1.0000 -0.2779
0.2304
vendedor
-0.5631 -0.2779
1.0000
0.5508
tiendas
-0.6666
0.2304
0.5508
1.0000
Test de Bartlett
---------------Determinante de la matriz de correlacin = 0.247672
(p = 0.0004)
FACTOR 1 FACTOR 2 FACTOR 3 FACTOR 4
-------- -------- -------- -------VALOR PROPIO: 2.1890
1.1866
0.3582
0.2662
% DE VARIANZA: 54.72%
29.67%
8.95%
6.65%
% VAR.ACUMUL.: 54.72%
84.39%
93.35% 100.00%
CARGAS DE
LOS FACTORES:
publicid
promo
vendedor
tiendas

-0.8756
0.0272
0.8125
0.8726

-0.0778
0.9698
-0.4079
0.2716

0.4658
0.1193
0.3109
0.1742

----------0.1018 1.0000
-0.2111 1.0000
-0.2771 1.0000
0.3668 1.0000

publicid
promo
vendedor
tiendas

-0.4000
0.0124
0.3712
0.3986

-0.0656
0.8172
-0.3437
0.2288
47

1.3004
0.3332
0.8678
0.4863

0.3825
-0.7929
-1.0409
1.3778

## Cargas de los factores retenidos:

---------------------------------

publicid
promo
vendedor
tiendas

FACTOR 1
--------0.8756
0.0272
0.8125
0.8726

FACTOR 2
--------0.0778
0.9698
-0.4079
0.2716

----------0.7727
0.9412
0.8266
0.8351

ROTACIN VARIMAX:
Cargas de los factores retenidos (despus de la rotacin):
---------------------------------------------------------FACTOR 1
--------0.8777
0.0612
0.7977
0.8816

FACTOR 2
--------0.0470
0.9682
-0.4362
0.2407

VARIANZA:
2.1877
% DE VARIANZA: 54.69%
% VAR.ACUMUL.: 54.69%

1.1879
29.70%
84.39%

publicid
promo
vendedor
tiendas

----------0.7727
0.9412
0.8266
0.8351

EJEMPLO2

3.8

## A travs de un anlisis factorial, una empresa de suavizantes ha

determinado que los tres conceptos bsicos que caracterizan a su producto
cules de ellos influye/n en la intencin de compra.

Media
3.72
.00

Desviacin
tp.
1.12
1.00

Aroma

.00

1.00

830

.00

1.00

830

Intencin de compra

N
830
830

Correlaciones
Intencin
de compra
Correlacin
Intencin de
de Pearson compra

Sig.
(unilateral)

Aroma

1.000

.565

.458

.238
.000

.565

1.000

.000

Aroma

.458

.000

1.000

.000

.238

.000

.000

1.000

.000

.000

.000

Intencin de
compra

.000

.500

.500

Aroma

.000

.500

.500

.000

.500

.500

830

830

830

830

830

830

830

830

Aroma

830

830

830

830

830

830

830

830

Intencin de
compra

Como se puede apreciar en estas tablas, ste es un ejemplo peculiar pues entre las
variables independientes no existe ninguna correlacin. Esto es lgico pues el anlisis
factorial de componentes principales con rotaciones ortogonales genera variables no
(media 0, desviacin tpica 1) y as debern ser interpretadas.

## Resumen del modelo

Modelo
1

R
.765a

R
.586

corregida
.584

Error tp. de la
estimacin
.72

ANOVAb

Modelo
1

Regresin
Residual
Total

Suma de
606.060
428.404

gl
3
826

1034.464

Media
202.020
.519

F
389.513

Sig.
.000a

829

b. Variable dependiente: Intencin de compra

## A nivel global el modelo obtenido es satisfactorio. Se ha conseguido

explicar el 58,6% de la variabilidad total de Y, la intencin de compra.
Adems, como se puede ver en la tabla ANOVA, esta varianza explicada es
suficientemente grande respecto a la residual con lo que este modelo es
capaz de explicar los cambios producidos en la Intencin de compra.
Coeficientesa

(Constante)
Aroma

Coeficie ntes no
Error
B
tp.
3.717
.025
.631
.025

Coefic.
estandar.
Beta

Sig.
.000
.000

Intervalo d e confianza
para B al 95%
Lmite
Lmite
inferior
superior
3.668
3.766
.582
.680

.565

t
148.689
25.228

.512

.025

.458

20.465

.000

.463

.561

.266

.025

.238

10.644

.000

.217

.315

## A nivel individual, todos los coeficientes de regresin son significativamente distintos

de 0. Por ello, todas las variables incluidas en el modelo aportan explicacin sobre la
Intencin de compra. En concreto, por una unidad estndar de Suavidad, la Intencin de
compra aumenta en 0,631 puntos (en una escala de 1 a 5). Una unidad estndar de
Aroma provoca un aumento, en promedio, de 0,512 puntos en la Intencin de compra y
una de Cremosidad de 0,266 puntos.
Obsrvese como en este caso las Betas coinciden con las correlaciones de Pearson entre
cada una de las variables independientes y la dependiente. Esto es lgico ya que, no al
existir correlacin entre las Xs, cada una de ellas aporta al modelo lo mismo que es
capaz de explicar individualmente.

ANEXO
Caso: Inmobiliaria Nuez
(Teresa Obis Artal)

## 4. ANLISIS DE REGRESIN. RESUMEN CONCEPTOS

El modelo de regresin lineal de primer orden
y = 0 + 1x +
donde:
y = variable dependiente o variable a explicar
x = variable independiente o variable explicativa
(epsilon) = error o perturbacin aleatoria

0origen
=
de la recta: punto donde la recta corta el eje de ordenadas o eje de la
y.
1 =
pendiente de la recta o coeficiente de regresin: nos
indica en cuanto
aumenta (o disminuye) la variabledependiente por cada incremento en 1

Qu nos interesa:
Cmo se calculan los coeficientes de regresin, 0 y 1
2. Cmo se interpretan
3. Cmo se determina si son o no estadsticamente significativos
4. Cmo se comprueban las hiptesis del modelo
1.

4.1

ESTIMACIN

DEL

MODELO

DE

REGRESIN

POR

Con los datos de la muestra se pueden estimar los parmetros desconocidos del modelo
del siguiente modo:
y = 0 + 1x +

yi =
yi

y ii=
y

+ 40xi

- (

) i
+x

01

[ y
i 1

-(

+ xi)2

01

## La recta de mnimos cuadrados ordinarios es, precisamente, aquella que minimiza la

Pendiente:

SSxy
SSxx

Origen:

donde

xy
SS=

x iy i

xi

i 1

i=1

SS xx
=

i=1

2
i

i=1

yi

i 1

x
1

n = tamao de la muestra

pueden conseguir (insesgados, eficientes y consistentes) si se
cumplen ciertas hiptesis sobre (los errores)

## 5. EJEMPLO 1 DE ANLISIS DE REGRESIN LINEAL

La Inmobiliaria Nuez ha recibido quejas de dos de sus clientes, acusndola de que
vende los pisos por debajo del precio de mercado. Para demostrar su buen hacer, el
gerente de esta inmobiliaria ha conseguido informacin sobre ventas de pisos de los
ltimos cuatro meses de su inmobiliaria y de otros competidores. En el fichero de datos
2
se dispone del precio de venta del piso as como de la superficie del mismo (en m ), el
nmero de habitaciones, la antigedad de la vivienda, en qu zona se localiza, el mes de
la venta y si lo ha vendido la Inmobiliaria Nuez u otra agencia.
El precio de la vivienda es significativamente diferente segn cul sea la inmobiliaria
que lo ha vendido?
Descriptivos
precio vivienda (miles euros)

Otra
Nuez

N
469
49

Media
56,697
52,477

Desviacin
tpica
10,931
8,920

Total

518

56,298

10,820

Error
tpico
,505
1,274
,475

Intervalo de
confianza para
la media al 95%
Lmite
Lmite
inferior
superior
55,706
57,689
49,915
55,039
55,364

57,232

Mnimo
31,205
35,000

Mximo
89,819
78,494

31,205

89,819

CONCEPTOS BSICOS:
Media: es la suma de los valores de las observaciones dividido por el nmero de
observaciones.
entre la media y cada elemento, dividido por el nmero total de observaciones (menos
una). Es decir, es una distancia promedio entre las observaciones y la media.
Error tpico: se calcula como la desviacin tpica divida por la raz de n (tamao de la
muestra). Es la desviacin tpica de la distribucin muestral de las medias. Es decir, es
la distancia promedio entre las medias de distintas muestras y la media de la poblacin.
Intervalo de confianza para la media al 95%: se calcula como la media de la muestra
1,96 veces el error tpico. Es el intervalo donde se encuentra la media de la poblacin
al 95% de confianza.

5.1

## Cmo influye la superficie de la vivienda en el precio de la misma?

Coeficientesa

Coeficientes
no
B
Error tp.
(Constante)
13,819
1,874
superficie de la vivienda (m2)
,477
,021

Coeficientes
Beta

t
7,374
23,037

,712

Sig.
,000
,000

## a. Variable dependiente: precio vivienda (miles euros)

Constante 0: En el origen, cuando todas las variables son cero (es decir,
un piso sin superficie) el precio del piso es de 13819 Euros.
Pendiente 1: Por cada m de ms del piso, su precio aumenta en 477 Euros.
CAMBIO EN LA MEDIDA DE X E Y. EFECTO EN

5.2

Coeficientesa

(Constante)
superficie de la vivienda (m2)

Coeficientes
no
B
Error tp.
13818,516 1873,995
477,027
20,707

Coeficientes
Beta
,712

t
7,374
23,037

Sig.
,000
,000

## a. Variable dependiente: precio de la vivienda (euros)

Coeficientesa

(Constante)
superficie de la vivienda (m2)

Coeficientes
no
B
Error tp.
,013819
,001874
,000477
,000021

Coeficientes
Beta
,712

t
7,374
23,037

Sig.
,000
,000

t
7,374
23,037

Sig.
,000
,000

## a. Variable dependiente: precio de la vivivenda (millones euros)

Coeficientesa

(Constante)
superficie vivienda (cm2)

Coeficientes
no
B
Error tp.
13,819
1,874
,0000477
,0000021

Coeficientes
Beta
,712

## a. Variable dependiente: precio vivienda (miles euros)

5.3

Son aquellos que se obtendran si se realiza la regresin con todas las variables
Beta0: Al restar las medias, la constante estndar siempre es 0

Sy
Sx
Beta 1 B1
o B 1 Beta1
Sy
Sx
Coeficientesa

Coeficientes
no
B
Error tp.
(Constante)
13,819
1,874
superficie de la vivienda (m2)
,477
,021

Coeficientes
Beta
,712

t
7,374
23,037

Sig.
,000
,000

## a. Variable dependiente: precio vivienda (miles euros)

Constante ETA0: la recta
de regresin con variables
por el origen. Cuando se
estandarizan las variables se
hace un cambio de ejes y se
sitan en el valor medio de
X e Y, por donde pasa la
recta de regresin

100

90

80

70

60

50

40
30
40

60

100

80

120

140

## superficie de la vivienda (m2)

Pendiente ETA1:
del piso, el precio aumenta en 0,712 unidades estndares de
precio

## precio vivienda (miles euros)

superficie de la vivienda (m2)

Media
56,298
89,05

0,712

u.e.Y

5.4

u.e. X

16,15 m

Desviacin
tp.
10,820
16,15

u.e.Y

u.e. X

N
518
518

0,477

miles euros

## El coeficiente de correlacin de Pearson, o R, es una medida que resume la relacin

lineal [recta] existente entre dos variables.
56

SSxy
SSxx SSyy

## De esta forma, se dispone de una medida de la relacin entre x e y que no depend

las unidades de las variables originales. De hecho, el coeficiente de correlacin de Pe

100

90

80

70

40

60

80

100

120

140

60

## superficie de la vivienda (m2)

Correlacin positiva

Correlac

50

100
100

40

90
90

30

80
80

70
70

10

12

14

60

60

Dist

Sin correlacin
50

Sin corr
50

## El coeficiente de correlacin de Pearson toma valores entre 1 y 1. Cuando ms prximo a 1 sea

Si la correlacin de Pearson es 0, no existe relacin rectilnea entre las dos variables. En este caso
40

40

30
30

57

precio vivienda (miles euros)
superficie de la vivienda (m2)

N
518
518

Mnimo
31.205
51

Mximo
89.819
137

Media
56.298
89.05

Desv. tp.
10.820
16.15

518

.00

9.50

5.10

1.70

518

13

6.18

2.08

518

.88

19.46

10.57

5.21

## N vlido (segn lista)

518
Correlaciones

precio vivienda
(miles euros)

Correlacin Pearson
Sig. (bilateral)
N

superficie de la
vivienda (m2)

Correlacin Pearson
Sig. (bilateral)
N

Arreglos (de 0

Correlacin Pearson
Sig. (bilateral)
N

la casa (aos)

Correlacin Pearson
Sig. (bilateral)
N

Distancia
centro (Km)

Correlacin Pearson
Sig. (bilateral)
N

precio
vivienda
(miles
euros)
1.000
.

superfici Arreglos
Antiged
e de la
(de 0
vivienda
casa
(m2)
10)
(aos)
.712**
-.667**
-.004
.000
.000
.930

518
.712**
.000

518
1.000
.

518

518

-.667**
.000

-.951**
.000

518

Distanci
a centro
(Km)
.061
.163

518

518

518

-.951**
.000

.055
.214

-.002
.966

518

518

518

1.000
.

-.069
.116

-.014
.748

518

518

518

518

-.004
.930

.055
.214

-.069
.116

1.000
.

-.014
.755

518

518

518

518

518

.061
.163

-.002
.966

-.014
.748

-.014
.755

1.000
.

518

518

518

518

518

## Entre el precio de la vivienda y las otras cuatro variables aparecen 2

correlaciones prximas a 1 (lo que indica relacin lineal entre cada una de
ellas y el precio) y otras 2 correlaciones prximas a 0 (lo que indica que no
existe relacin entre ellas y el precio, o que la relacin no es rectilnea)

## COMPROBACIN DE LA BONDAD DEL MODELO:

INFERENCIAS ACERCA DE LA PENDIENTE 1 (o )
Distribucin muestral de

1
de la

SSxx

a

## Intervalo de confianza al 100(1-)% para la pendiente 1

1
S

t/2

donde

S 1

S
SSxx

Contraste sobre la utilidad del modelo
H0 : 1 = 0
Ha : 1 0

t =
S1

## (la X no influye sobre la Y)

de prueba:
1
s
SSxx

Regin de rechazo: t < - t/2 o t > t/2;donde t/2 tiene (n-2) g.l.
Tambin se puede rechazar la H0 cuando el nivel de significacin observado (probabilidad de equivo
Supuestos: Hiptesis sobre la distribucin de probabilidad de

5.5

## EN NUESTRO EJEMPLO SOBRE EL PRECIO DE LOS

PISOS:
Coeficientesa

(Constante)
superficie de la
vivienda (m2)

Coeficientes no
Error
tp.
B
13.819
1.874
.477

.021

Coefic.
estand.
Beta
.712

t
7.374

Sig.
.000

23.037

.000

Intervalo confianza
para B al 95%
Lmite
Lmite
inferior
superior
10.137
17.500
.436

.518

2

## Cuando aumenta la superficie de la vivienda en 1 m el precio de la misma

aumenta en 477 euros, en promedio. Al 95% de confianza, el incremento
podra situarse entre 436 euros y 518 euros.
Coeficientesa

(Constante)
Arreglos (de 0

Coeficientes no
Error
tp.
B
77.931
1.121
-4.240

.208

Coefic.
estand.
Beta
-.667

t
69.543

Sig.
.000

-20.349

.000

Intervalo confianza
para B al 95%
Lmite
Lmite
inferior
superior
75.730
80.133
-4.649

-3.831

## Cuando la percepcin de arreglos a realizar en la vivienda aumenta un

punto en la escala de 10 el precio disminuye en 4240 euros, en promedio.
Coeficientesa

(Constante)
la casa (aos)

Coeficientes no
Error
tp.
B
56.422
1.489
-.020

.228

Coefic.
estand.
Beta
-.004

t
37.890

Sig.
.000

-.088

.930

Intervalo confianza
para B al 95%
Lmite
Lmite
inferior
superior
53.497
59.348
-.469

.429

## Al aumentar la antigedad de la vivienda en 1 ao el precio de la misma no

vara significativamente. Es decir, sea cual sea la antigedad de la casa el
precio previsto ser siempre el mismo: 56422 euros (aproximadamente, el
promedio de precio de las observaciones disponibles).

5.6

COEFICIENTE DE DETERMINACIN

## Podemos preguntarnos, por qu la Y no es igual para todos?

( yi y) ( yi y i ) ( yi y)
( yi y)= ( y i y)+ ( yi y i )
2
2
+ SSE (residual)

## El coeficiente de determinacin, R2, representa la proporcin de la variabilidad total de

la muestra respeto a y que es explicada por la relacin lineal entre x e y. Se calcula
como:

R2 =

SSR

SSyy

5.7

(y y
1 ii
2
(yi
y)

COMPROBACIN

DE

LA

GLOBAL

DEL

## Contraste sobre la util

H0 : R = 0 (En la regre
Ha : R 0
prueba:

F=

S
S

## Donde n es el tamao de la muestra y

Regin de rechazo: cuando el valor de F sea suficientemente grande segn las tablas o cuando niv
Supuestos: H

## En nuestro ejemplo del precio del piso explicado a travs de su superficie,

los estadsticos globales del modelo son:
Resumen del modelo
Modelo
1

R
,712a

,507

corregida
,506

Error tp. de la
estimacin
7,6044

ANOVAb

Regresin

Suma de
30689,069

Residual
Total

Modelo
1

Media
30689,069

29838,571

516

57,827

60527,639

517

gl

F
530,708

Sig.
,000 a

## a. Variables predictoras: (Constante), superficie de la vivienda (m2)

b. Variable dependiente: precio vivienda (miles euros)

## Con las variables incluidas en el modelo, la superficie de la vivienda y una

constante, se ha conseguido explicar el 50,7% de la variabilidad del precio
del piso (30689 / 60527). Por otro lado, la varianza explicada es 530 veces
la residual (30689 / 57). Como la significacin de la F es menor que 0,05
podemos afirmar que esta varianza explicada es suficientemente grande. Es
decir, hemos conseguido explicar porqu el precio no es igual en todas las
viviendas (por la superficie de la misma).
5.8

## PRECAUCIONES EN EL ANLISIS DE REGRESIN

Cuando se rechaza la H0 sobre la utilidad del modelo por medio de la significacin
de la F se dice que el modelo es til (con un determinado nivel de confianza). Sin
embargo, til no significa que necesariamente sea el mejor. Algn otro modelo
podra ofrecer mejores estimaciones y predicciones.

## Un coeficiente de determinacin (o de correlacin) alto no significa que sea muy

prximo a 1, ni un coeficiente bajo que sea prximo a 0 (no existe relacin). La
significacin del test de la F (o de la t) es la que dir si dicho coeficiente es
suficientemente grande o no (estadsticamente diferente de 0).

## La ausencia de correlacin entre dos variables puede indicar, simplemente, que la

relacin entre ambas no es rectilnea.

## Un nivel de correlacin elevado no implica necesariamente la existencia de una

altas correlaciones por CASUALIDAD, lo que se denomina relaciones espurias. Se
producen porque ambas variables estn correlacionadas con una tercera variable.

5.9

## OTROS AJUSTES DE BONDAD DEL MODELO

si se introduce una nueva variable en el modelo, la R2
siempre aumenta (ya que se consigue explicar algo ms, aunque sea muy poco). De la misma man

R 2 R 2 k 1 (1 R 2 )
nk

## Desviacin tpica de la perturbacin o de la estimacin, : An en la poblacin, la

estimacin de Y para una X concreta puede tener cierto error, . Por este motivo se dice que sta

## 5.10 USO DEL MODELO PARA ESTIMAR Y PREDECIR

Error muestral para el estimador de la media de y:
La desviacin tpica de la distribucin muestral del estimador del valor medio de y para un valor de

1 xp x
y 2
n SSxx

## Error muestral para el estimador de un valor concreto de y:

La desviacin tpica del error de la prediccin de un valor concreto y cuando x =
y ), es:

(y

1 x p x
y )
1
SSxx

## Por tanto, la varianza total del error de pronstico se divide en dos

partes: varianza debida a la perturbacin aleatoria ( ) y la varianza debid
muestral.

## Intervalo de confianza al 100(1-)% para el valor medio de y cuando x = xp

y t /2 (la desviacin estndar estimada de y )

t /2

1 x p
;
n

SSxx

100

90

80

70

40

60

80

100

120

140

60

50

40

## Intervalo de confianza al 100(1-)% para un valor individual de y cuando x = xp

y t /2 [la desviacin estndar estimada para (y - y )
30

t /2

1 x p

; donde

SSxx
100

90

80

70

40

60

80

100

120

140

60

## por dnde pueden estar las observaciones

50

40

30

En nuestro ejemplo, las dos viviendas que dicen que la agencia Nuez ha
2
vendido por debajo del precio tienen una superficie de 104,285 y 90,333 m
(observaciones 423 y 444) y las vendi a 53313 y 46084 euros:
Resmenes de casos
precio
vivienda
(miles
euros)
35.060
42.470

superfic
ie de la
vivienda
(m2)
69.238
83.238

Predicted
Value
46.847
53.525

95% L
CI for
PRECIO
mean
45.807
52.828

95% U
CI for
PRECIO
mean
47.886
54.223

95% L CI
for
PRECIO
individual
31.871
38.570

95% U CI
for
PRECIO
individual
61.822
68.481

1
2

Nme
ro de
caso
399
406

409

Otra

58.735

116.095

69.199

67.918

70.480

54.205

84.193

416

Otra

49.277

96.048

59.636

58.920

60.351

44.679

74.592

423

Nuez

53.313

104.286

63.566

62.663

64.468

48.599

78.532

424

Otra

38.253

75.190

49.686

48.821

50.552

34.722

64.651

428

Otra

41.145

84.286

54.025

53.341

54.709

39.070

68.980

430

Otra

52.470

104.095

63.475

62.577

64.372

48.508

78.441

432

Otra

50.120

100.333

61.680

60.879

62.481

46.719

76.641

10

434

Otra

47.590

96.905

60.045

59.315

60.775

45.088

75.002

11
12

437
444

Otra
Nuez

43.072
46.084

86.762
90.333

55.206
56.910

54.543
56.251

55.869
57.568

40.252
41.956

70.160
71.864

13

450

Otra

36.747

76.619

50.368

49.539

51.196

35.406

65.330

14

452

Otra

32.349

60.619

42.735

41.406

44.065

27.737

57.734

15

457

Otra

50.422

101.095

62.044

61.225

62.863

47.082

77.005

16

463

Otra

55.241

113.571

67.995

66.801

69.189

53.008

82.982

17

465

Otra

41.446

81.810

52.844

52.124

53.563

37.887

67.801

18

467

Otra

45.964

93.571

58.455

57.773

59.136

43.500

73.410

19

468

Otra

43.253

84.524

54.139

53.457

54.820

39.184

69.094

20

478

Otra

39.759

76.762

50.436

49.611

51.261

35.474

65.398

21

480

Otra

46.928

95.762

59.500

58.789

60.210

44.543

74.456

22

485

Nuez

47.831

92.476

57.932

57.261

58.603

42.978

72.887

23

499

Otra

31.205

66.000

45.302

44.158

46.447

30.319

60.285

24

503

Otra

62.229

128.048

74.901

73.184

76.618

59.863

89.938

Agen
cia
Otra
Otra

## Precio previsto (ob. 423) = 13,819 + 0,477 * 104,285 = 63,555 euros.

Al 95% de confianza, la estimacin promedio podra situarse entre 62663 y
64468 euros.
Al 95% de confianza, la prediccin de una observacin particular podra
situarse entre 48599 y 78532, lo que incluye el precio de venta de 53313.
2

## Lo mismo sucede con la observacin 444. Un piso de 90,333 m puede

tener un precio de venta situado entre 41956 y 71864 euros. Por ello, la
venta a un precio de 46084 euros puede ser factible.

## 5.11 HIPTESIS DEL MODELO DE REGRESIN SIMPLE

Hiptesis sobre la forma de la distribucin de probabilidad de :
y = 0 + 1x +

## 1. La media de la distribucin de probabilidad de es 0. Es decir, la media de los

valores de para un nmero infinitamente grande de experimentos es 0 para cada
valor de la variable independiente x. Esta hiptesis implica que el valor de la media
de y, E(y), para un valor dado de x es E(y) = 0 + 1x.
2. La distribucin de probabilidad de es normal.
2

## 3. La varianza de la distribucin de probabilidad de es constante, , para todos los

valores de la variable independiente, X (es decir, existe homocedasticidad).
4. Los valores de asociados a dos valores cualquiera observados de y, son
independientes. Es decir, el valor de asociado a un valor de y no tiene ninguna
influencia sobre los valores de asociados a otros valores de y (esto implica que los
errores no estn correlacionados consigo mismo o, lo que es lo mismo, no existe
La hiptesis 1 se considera cierta y no se contrasta. Se supone que se cumple con una
muestra aleatoria suficientemente amplia. Por otro lado, tampoco hay forma de
comprobar que la media de las perturbaciones sea 0 (ya que la estimacin por mnimos

## 5.12 NORMALIDAD DE LOS ERRORES

La distribucin de probabilidad de tiene que ser normal, con una media igual a 0 y una
desviacin estndar de .
Al cumplirse esta hiptesis, podemos hacer inferencia sobre 1 y comprobar si su valor
es significativamente distinto de 0.

Histograma
1.00

Frecuencia

30

40

.75

0.00
.50
0.00

.25

.50.75

20

.25
10
Desv. tp. = 1.00
Media = 0.00

0N = 518.00

## Si el tamao de muestra es suficientemente grande, el teorema central

del

lmite

de la distribucin de las perturbaciones. Si el tamao de muestra es pequeo y la
distribucin es muy asimtrica no se garantiza la normalidad, con los intervalos de
confianza pueden ser incorrectos.

## 5.13 HOMOCEDASTICIDAD EN LAS PERTURBACIONES

2

Las perturbaciones, , han de tener una misma varianza, , para todos los valores de la
variable independiente, X.
Es decir, la dispersin de las perturbaciones no puede ser, por ejemplo, ms grande para
los valores ms grandes de X y ms pequea para los ms pequeos.

1.00

residuos

## Se puede utilizar el grfico de la Y estimada (o de una X) frente a los

estandarizados para ver si el error vara su amplitud:
Grfico de dispersin

Grfico de dispersin

3
2

1
0

-1

-2
-3

3
2
1
0
-1
-2
-3
-3

-3

-2

-1

-2

-1

## Numricamente se comprueba comparando los errores de las observaciones con valores

ms bajos con los de las ms altas para ver si son estadsticamente diferentes. Tambin
bsqueda de una explicacin de la heterocedasticidad.

## La autocorrelacin de errores se presenta cuando el error que se produce en u

observacin est relacionado con el de la otra.

Habitualmentesesuponeun

ut 1

## La presencia de autocorrelacin se puede deber a: el modelo no se ha especificado

t.
correctamente (falta alguna X o la relacin no es recta); la Y depende del tiempo
o tiene comportam

El grfico de los pronsticos frente a los residuos estandarizados permite ver si los
errores tienen algn comportamiento:
Grfico de dispersin
Variable dependiente: precio vivienda (miles eu

4
3
2
1
0

Comportamiento autoregresivo

-1
-2
-3
-2

-1

Relacin no rectilnea
La autocorrelacin se puede contrastar tratando de inferir el componente autoregresivo
o por medio del test de Durbin-Watson

## Si la autocorrelacin se produce por un error de especificacin se ha de revisar el

modelo. Si hay autocorrelacin de errores, pero no se conoce su causa, se debe acudir a
ineficientes) o bien aplicar un procedimiento bi-etpico.

## 6. LINEALIDAD EN EL MODELO DE REGRESIN

6.1

OTRAS TRANSFORMACIONES

## En nuestro ejemplo de las viviendas, vimos como el precio estaba

relacionado con la distancia al centro pero no de una forma rectilnea
A la vista de esta grfica se puede
pensar que el ajuste se
puede
mejorar utilizando un modelo

100

## precio vivienda (miles euros)

90

80
60

y = 0 + 1x + 2x +

70
50

0
40

10

20

30

## Los resultados de este modelo de regresin no lineal seran los siguientes:

Dependent variable.. PRECIO
Multiple
R
R Square
Error

.81267
.66044
.65912
6.31732

Analysis of Variance:
Regression
Residuals
F=

500.82914

-------------------Variable
DISTANCIA
DISTANCIA**2
(Constant)

DF
2
515

Sum of Squares
39974.734
20552.906

Mean Square
19987.367
39.909

Signif F =.0000
Variables
in the Equation -------------------SE B
Beta
TSig T
B
-10.114875
.328898 -4.872461
-30.754 .0000
.503698
.015961
4.999952
31.559 .0000
93.278782
1.367318
68.220 .0000

100

90

80

70
60

50

40

30
0

10

## Por cada Km. de distancia al centro

el precio disminuye en 10114 euros,
pero a la vez aumenta en 503 por

20

b>0
a

CT CF v Q
CT
CF
CM
v
Q
Q
1
Yab
X
a v; b CF

x

Y AB ;
B >1
A
B<1

B (1 g)

Transformacin :
lnY lnA x lnB
(ln Y) a bX
a

A e Be

## Curva de esfuerzo de marketing (transformacin logartmico-inversa)

b

b<0

Ye

a
x

Transformacin
ln Y a b
x
b 2
7. ANLISIS DE REGRESIN MLTIPLE
El modelo de regresin mltiple
y = 0 + 1 x1 + 2 x2 + . . . + k xk +
donde:
y = variable dependiente o variable a explicar
xi = variables independientes o variables explicativas
(epsilon) = error o perturbacin aleatoria
0 = origen cuando todas las variables son 0
i = pendiente o coeficiente de regresin de la variable i.

7.1

## Si se cumplen todas las hiptesis del modelo de regresin, la comprobacin de la

utilidad de cada coeficiente de regresin se realiza de la misma forma que en el anlisis de regresi

H0 : i = 0
Ha : i 0

significacin ob
i

S i

## Observaciones: El modelo no ser eficiente si incluye variables que no

Como cada Xi puede estar medida en diferentes unidades, la comparacin de los co
Betas

7.2

COEFICIENTE DE DETERMINACIN

## Como en la regresin simple, el coeficiente de determinacin, R2, re

proporcin de la variabilidad total de la muestra respeto a y que es explicad
Se calcula igual que antes:

R2 =

SSR

SSyy
1 (yi
y)2

Ahora tiene una gran utilidad. La R2 mide la explicacin conjunta conseguida con todas
las variables independientes introducidas en el modelo de regresin (en cambio la R del modelo glob

7.3

COMPROBACIN

DE

LA

GLOBAL

DEL

## MODELO: ANALISIS DE LA VARIANZA

Contraste sobre la utilidad global del modelo
H0 : R = 0
Ha : R 0

(o, H0 : 1 = 2 = . . . = k = 0
ningn coeficiente es importante para explicar la y)
(Ha : al menos un i 0
al menos un coeficiente explica la y)

prueba:

F=

SS yy
SSE
k 1
SSE
nk

R2
Varianza
k
residual
1
1
R2
nk

## donde n es el tamao de la muestra y k el nmero total de variables en el modelo (d

Regin de rechazo: cuando nivel de significacin observado sea suficientemente peq

7.4

## HIPTESIS DEL MODELO DE REGRESIN MLTIPLE

Las hiptesis sobre la forma de la distribucin de probabilidad de son las mismas que
en el modelo de regresin simple.
En la regresin mltiple adems se debe cumplir que:
variables independientes).

7.5

## Como se ha indicado, la colinealidad se produce cuando las variables independientes

introducidas en el modelo de regresin estn correlacionadas entre ellas.
Existen diferentes grados de colinealidad, dependiendo del nivel en el que estn
Cuando una variable independiente se puede expresar como una combinacin lineal de
las otras, la colinealidad es perfecta. En ese caso se puede omitir dicha variable,
solucionando la colinealidad. El problema se produce cuando la correlacin entre las
Xs es alta o muy alta, pero sin llegar a ser total.
Debemos ser conscientes de que en casi todos los modelos de regresin mltiple
excesiva ni perjudicial.

7.6

## La colinealidad provoca diferentes efectos, que se manifestarn tanto ms cuanto mayor

sea la correlacin entre las Xs:
Las desviaciones estndar de los coeficientes de regresin estn sobreestimadas, con lo
que aparecen como no significativos coeficientes que en realidad s lo son.
Puede suceder que ninguno de los coeficientes de regresin sean distintos de cero (no
son significativos) y que, a nivel conjunto, s que lo sean.
Los coeficientes de regresin estimados no son consistentes, es decir, pueden cambiar al
modificar la muestra o al introducir diferentes variables en el modelo.
En definitiva, cuando hay colinealidad se consigue explicar la variable Y, pero no se
sabe cul es el efecto de cada una de las X por separado (puesto que todas ellas estn

7.7

## La colinealidad se puede medir de distintas formas:

Matriz de correlaciones de Pearson entre cada par de variables independientes. Da
una idea pero no es concluyente.
Tolerancia = (1 Rj), donde Rj es el coeficiente de determinacin de la variable Xj
frente a todas las dems Xs.
Factor de Inflacin (o agrandamiento) de la

7.8

Tolerancia

VIF

Toler = 1

VIF = 1

## Poca: el modelo no suele presentar

efectos (defectos) importantes

0,1 < Toler < 0,3 10 > VIF > 3,33 Elevada: se comienzan a notar las
prdida de su significacin
0,01 <Toler< 0,1 100 > VIF > 10 Excesiva: se producen graves
problemas en la interpretacin de las
Xs ya que sus coeficientes de
regresin pueden llegar a cambiar
hasta de signo
Toler < 0,01

## VIF > 100

paquetes informticos dejan fuera la
variable (ya que es una combinacin
lineal de las otras independientes)

## Volvamos al ejemplo que trataba de explicar el precio de las viviendas por

2
medio de la superficie del mismo (en m ), el nivel de reparaciones que
necesita y la antigedad de la vivienda. Ahora las incluimos todas ellas en
un modelo de regresin mltiple, obteniendo el siguiente resultado:
Correlaciones

Correlacin
de Pearson

Sig.
(unilateral)

## precio vivienda (miles euros)

superficie de la vivienda (m2)
Arreglos (de 0 -nada- a 10)

precio
vivienda
(miles
euros)
1.000
.712
-.667

superfic
ie de la
vivienda
(m2)
.712
1.000
-.951

Arreglos
(de 0
10)
-.667
-.951
1.000

Antige
la casa
(aos)
-.004
.055
-.069

-.004

.055

-.069

1.000

## precio vivienda (miles euros)

superficie de la vivienda (m2)

.
.000

.000
.

.000
.000

.465
.107

.000

.000

.058

.465

.107

.058

## Con las correlaciones de Pearson entre cada par de variables podemos

observar, en primer lugar, cules son las relaciones existentes entre cada
una de las variables X y la Y. En nuestro caso, tanto la superficie de la
vivienda como el nivel de arreglos tienen una alta correlacin
estadsticamente significativa con el precio de la vivienda. La nica
diferencia es que la relacin es de signo positivo en la primera variable y
negativa en la segunda. La antigedad de la casa no influye
significativamente en el precio de la vivienda.
En segundo lugar, se puede apreciar el nivel de correlacin que existe entre
las variables independientes. Parece ser que la superficie de la vivienda
tiene una alta correlacin de signo negativo con el nivel de arreglos (parece
que las casas grandes estn ms bien cuidadas que las pequeas, o al menos
lo aparentan). Esto es una indicacin de que el modelo presentar

Modelo
1

R
.714a

.510

corregida
.507

Error tp. de la
estimacin
7.5984

## a. Variables predictoras: (Constante), Antigedad de la casa (aos),

superficie de la vivienda (m2), Arreglos (de 0 -nada- a 10)
ANOVAb
Modelo
1

Regresin
Residual
Total

Suma de
30851.138
29676.502
60527.639

gl
3
514

Media
10283.713
57.736

F
178.115

Sig.
.000a

517

## a. Variables predictoras: (Constante), Antigedad de la casa (aos), superficie de la

vivienda (m2), Arreglos (de 0 -nada- a 10)
b. Variable dependiente: precio vivienda (miles euros)

## Los resultados a nivel global del modelo parecen satisfactorios. Se

consigue explicar un 51% de la variabilidad del precio, y est explicacin
es suficiente comparada con la residual. Aunque, lo cierto es que no hemos
conseguido mejorar extremadamente el coeficiente de determinacin que
tenamos en el modelo que inclua slo la superficie de la vivienda
(50,7%).

Coeficientesa

(Constante)
superficie de la vivienda (m2)
Arreglos (de 0 -nada- a 10)

Coeficientes no
Error
tp.
B
6.654
9.179
.538
.067

Coefic.
estand.
Beta
.803

t
.725
8.060

Sig.
.469
.000

Intervalo confianza
para B al 95%
Lmite
Lmite
inferior
superior
-11.379
24.688
.407
.669

.595

.634

.094

.939

.348

-.650

1.841

-.214

.161

-.041

-1.333

.183

-.530

.102

## Finalmente, a nivel individual parece que la nica variable con un

coeficiente de regresin significativamente distinto de 0 es la superficie.
Qu ha pasado con la significacin de la variable Arreglos? Es ms,
menos mal que no es distinta de 0 ya que su coeficiente ha pasado a tener el
signo contrario (a nivel individual influa negativamente y ahora, de
hacerlo, afecta positivamente). Por otro lado, las Betas en algunas variables
no se parecen a la correlacin de Pearson de esa variable y el precio.
Estos problemas se han producido por el alto nivel de colinealidad existente
en el modelo.
La tolerancia y el VIF as nos lo indican:
Coeficientesa
1

## superficie de la vivienda (m2)

Arreglos (de 0 -nada- a 10)

Tolerancia
.096
.096

FIV
10.415
10.434

.994

1.006

## Concluyendo, en este modelo la colinealidad impide conocer cul es el

efecto de cada variable independiente sobre la dependiente (qu vara el
precio? la superficie de la vivienda o el nivel de arreglos que sta necesita).
De todos modos, la variable dependiente (el precio) queda perfectamente

7.9

## INTRODUCCIN DE VARIABLES BINARIAS

Una variable binaria es aquella que admite dos posibles valores (se cumple
cierta
propiedad o no, verdadero/falso, hombre/mujer) y se codifica con 0 (no pasa) y 1(s pasa).

si no se cumple la caracterstica
xB 0,
si se cumple la caracterstica

1,

## Si se introduce tal cual en un modelo de regresin lineal supone estimar un efecto

diferencial sobre el origen de la recta en cada categora de la variable binaria: y = 0 + 1 x1 + 2 x
y(si xB = 0) = 0 + 1 x1
y(si xB = 1) = 0 + 1 x1+ 2 1 = (0 + 2) + 1 x1

## Para ver si el precio de la vivienda es significativamente diferente segn

cul sea la inmobiliaria que lo ha vendido, aadimos la variable Agencia al
modelo de regresin simple que explicaba el precio en funcin de la
superficie.
100

90

## precio vivienda (miles euros)

Grficamente se
puede observar que:
Parece que las ventas de
la inmobiliaria Nuez se
precios inferiores a las
de las otra agencias.

80

70

60

Agencia

40
50
30
40

Nuez
Otra
60

80

100

120

140

## A nivel numrico, los resultados obtenidos son:

Resumen del modelob
Modelo
1

R
.726a

.527

corregida
.525

Error tp. de la
estimacin
7.4599

## a. Variables predictoras: (Constante), Agencia que vendio la

vivienda, superficie de la vivienda (m2)
b. Variable dependiente: precio vivienda (miles euros)
ANOVAb
Modelo
1

Regresin
Residual
Total

Suma de
31868.045
28659.594
60527.639

gl
2
515

Media
15934.023
55.650

F
286.327

Sig.
.000a

517

## a. Variables predictoras: (Constante), Agencia que vendio la vivienda, superficie de la

vivienda (m2)
b. Variable dependiente: precio vivienda (miles euros)
Coeficientesa
Coeficientes no
1

(Constante)
superficie de la vivienda (m2)

B
14.011
.480

Error tp.
1.839
.020

-5.158

1.121

Coefic.
estand.
Beta
.717

t
7.620
23.632

Sig.
.000
.000

-.140

-4.603

.000

## A nivel global, se consigue una explicacin del 52,7% de las variaciones

del precio, que es estadsticamente significativa. Las ventas de las otras
agencias tienen un origen de 14011 euros mientras que las de la Nuez estn
5158 euros por debajo. Esta misma diferencia se mantiene para todos los
valores de la otra variable explicativa (sea cual sea la superficie).

100

90

80

70

Nuez

60
30
40

50

Otra
60

80100

120

140

## 7.10 VARIABLE BINARIA CON EFECTO SOBRE LA PENDIENTE

40

Tambin se pueden introducir variables binarias con efecto en la pendiente. En este caso
debe especificarse el modelo en forma multiplicativa:
y = 0 + 1 x1 + 2 xB x1 +
y(si xB = 0) = 0 + 1 x1
y(si xB = 1) = 0 + 1 x1+ 2 1 x1 = 0 + (1+ 2) x1

## As mismo, se puede especificar un modelo que incluya a la vez un efecto sobre el

origen y otro sobre la pendiente. El modelo que recoge estos efectos mixtos es:
y = 0 + 1 x1 + 2 xB + 3 xB x1 +
y(si xB = 0) = 0 + 1 x1
y(si xB = 1) = 0 + 1 x1+ 2 1 + 3 1 x1
= (0 + 2) + (1+ 3) x1

## 7.11 INTRODUCCIN DE VARIABLES CUALITATIVAS

No se pueden introducir variables cualitativas en un modelo de regresin tal como estn
codificadas, pues su coeficiente de regresin recogera un efecto lineal de pasar de un
valor de la variable cualitativa al siguiente. Pero si la variable es cualitativa, cul es la
categora que precede a otra?

En nuestro ejemplo de las viviendas, tenemos una variable cualitativa que nos indica en
qu zona est ubicada la casa (1. Este, 2. Oeste y 3. Sur). Mediante un anlisis de
medias se puede observar que el precio medio es diferente en cada una de estas zonas:
Descriptivos
precio vivienda (miles euros)
Intervalo confianza
para la media al 95%
Desviaci
n tpica
9.592
8.749

Error
tpico
.615
.679

Lmite
inferior
61.612
49.377

Lmite
superior
64.036
52.059

Mnimo
37.590
32.349

Mximo
89.819
78.494

50.248

7.531

.721

48.818

51.677

31.205

71.386

56.298

10.820

.475

55.364

57.232

31.205

89.819

Este
Oeste

N
243
166

Media
62.824
50.718

Sur

109

Total

518

ANOVA
precio vivienda (miles euros)

Inter-grupos
Intra-grupos
Total

Suma de
19508.006
41019.634

gl
2
515

60527.639

Media
9754.003
79.650

F
122.461

Sig.
.000

517

Pero como puede apreciarse, la disminucin que sufre el precio de la vivienda por estar
situada en el Oeste en lugar del Este no es el mismo que si est situada en el Sur en
lugar del Oeste.
En cambio, un modelo de regresin que recogiera la variable Zona dira:
Resumen del modelo
Modelo
1

R
.512a

corregida
.261

.262

Error tp. de la
estimacin
9.3013

ANOVAb
Modelo
1

Regresin
Residual
Total

Suma de
15886.798
44640.841
60527.639

gl
1
516

Media
15886.798
86.513

F
183.634

517

## a. Variables predictoras: (Constante), Zona donde esta localizada la casa

b. Variable dependiente: precio vivienda (miles euros)

Sig.
.000a

Coeficientesa
Coeficientes no
1

(Constante)

B
68.619

Error tp.
.997

-7.076

.522

Coefic.
estand.
Beta
-.512

t
68.838

Sig.
.000

-13.551

.000

## Por incrementar en una unidad la X el precio de la vivienda disminuye en 7076 euros.

Este incremento de la X se produce tanto al pasar de Este a Oeste como de Oeste a Sur.

## Para introducir adecuadamente una variable cualitativa en una regresin se ha de

convertir dicha variable en binarias (tantas como categoras tenga la variable cualitativa
menos una) y efectuar el anlisis con las variables binarias.

1
2

## Resmenes de casosa En nuestro ejemplo con- vertiramos la

Zona donde esta
Zona Este
Zona Oeste
variable
zona de 3 categoras en 2
Oeste
.00
1.00
variables1.00binarias, Zona Este y Zona
Oeste
.00

Oeste

Oeste.
.00

Sur

5
6

Este
Este

.00
La

Sur

## tercera.00categora no hara falta incluirla

1.00
ya que est.00representada por la ausencia de
1.00
.00
las
otras
dos.
.00
.00

Este
1.00
Oeste a los primeros 10 casos. .00
10

1.00

Este

1.00

.00
1.00
.00

## Y el resultado que obtenemos con el anlisis de regresin coincide con el

del anlisis de varianza (en el que se comparaban las medias):
Resumen del modelo
Modelo
1

R
.568a

.322

corregida
.320

Error tp. de la
estimacin
8.9247

ANOVAb
Modelo
1

Regresin
Residual
Total

Suma de
19508.006
41019.634

gl
2
515

60527.639

Media
9754.003
79.650

F
122.461

Sig.
.000a

517

## a. Variables predictoras: (Constante), Zona Oeste, Zona Este

b. Variable dependiente: precio vivienda (miles euros)
Coeficientesa
Coeficientes no
Modelo
1

(Constante)
Zona Este

B
50.248
12.577

Error tp.
.855
1.029

Zona Oeste

.471

1.100

Coefic.
estand.
Beta
.581

t
58.781
12.224

Sig.
.000
.000

.020

.428

.669

## La interpretacin de los coeficientes sera la siguiente:

En promedio y cuando todas las dems variables son cero (es decir
estamos en la categora omitida de la variable cualitativa) el precio
medio de las viviendas es de 50248 euros.

## Cuando estamos en la zona Este, el precio de la vivienda aumenta, en

promedio, en relacin a la zona Sur (categora omitida) en 12577 euros.
Por tanto el precio medio se situara en 62825 (50248+12577).

## Cuando estamos en la zona Oeste, el precio de la vivienda aumenta en

relacin a la zona Sur en 471 euros, en promedio, situndose en 50719
euros.
Esta misma interpretacin se efectuara si hubieran otras variables
cuantitativas en el modelo. En este caso, los coeficientes de correlacin
indicaran el origen de cada una de las rectas que se mantendra a lo largo
de toda la pendiente provocada por la variable cuantitativa (rectas
paralelas). Si se quisiera modelizar un efecto no constante se podran
introducir trminos de interaccin (como vimos con las variables binarias).
7.12 CONCLUSIN FINAL AL CASO DE LAS VIVIENDAS
A lo largo de estos apuntes hemos visto como influan las variables
cuantitativas disponibles para explicar el precio de la vivienda: superficie
2
(m ), arreglos necesarios (escala 0 10), antigedad y distancia al centro.

## Las dos primeras explicaban el precio de la vivienda de forma significativa

en el precio de la vivienda y la distancia al centro lo haca de una forma no
relacionada con la superficie en un modelo cuadrtico). Por tanto, ante un
modelo de regresin mltiple lineal nos tenemos que conformar con incluir
2
slo la superficie de la vivienda en m (evitando as los problemas de
En cuanto a las variables cualitativas, se dispone de la zona y el mes de la
venta. Para evitar supuestos de linealidad entre las categoras de estas
variables hemos definido unas variables binarias que recogen sus diferentes
categoras. Se supone adems que los efectos de estas categoras se
producen en la constante (y no en la pendiente de la curva).
Finalmente, se incorpora la variable agencia que efectu la venta para
comprobar si la Inmobiliaria Nuez acta o no de mala fe vendiendo los
pisos por debajo de su precio.
Los resultados obtenidos con este modelo son los mejores de todo el
anlisis como puede comprobarse a continuacin:
Media
56.2982
89.05

Desviacin
tp.
10.8201
16.15

Zona Este

.4691

.4995

518

Zona Oeste

.3205

.4671

518

Mes Enero

.2703

.4445

518

Mes Febrero

.2529

.4351

518

.2452

.4306

518

9.46E-02

.29

518

## precio vivienda (miles euros)

superficie de la vivienda (m2)

Mes Marzo
Agencia que vendio la vivienda

N
518
518

Correlaciones

Correlacin de
Pearson

precio

superficie

Zona
Este

Zona
Oeste

Mes
Enero

Febr
ero

Mes
Marzo

Age
ncia

1.000

.712

.568

-.354

.191

.071

-.079

-.114

.712

1.000

-.053

-.051

.024

.023

.023

.035

.568

-.053

1.000

-.646

.064

-.013

-.068

-.211

Zona Oeste

-.354

-.051

-.646

1.000

-.027

.010

.003

.160

Mes Enero

.191

.024

.064

-.027

1.000

-.354

-.347

-.033

precio vivienda
(miles euros)
superficie de la
vivienda (m2)
Zona Este

Mes Febrero

Sig.
(unilateral)

.071

.023

-.013

.010

-.354

1.000

-.332

-.021

Mes Marzo

-.079

.023

-.068

.003

-.347

-.332

1.000

.015

Agencia que la
vendi

-.114

.035

-.211

.160

-.033

-.021

.015

1.000

.000

.000

.000

.000

.053

.036

.005

.000

.116

.123

.297

.300

.299

.211

Zona Este

.000

.116

.000

.074

.384

.061

.000

Zona Oeste

.000

.123

.000

.272

.413

.474

.000

Mes Enero

.000

.297

.074

.272

.000

.000

.225

Mes Febrero

.053

.300

.384

.413

.000

.000

.316

Mes Marzo

.036

.299

.061

.474

.000

.000

.366

Agencia que la
vendi

.005

.211

.000

.000

.225

.316

.366

precio vivienda
(miles euros)
superficie de la
vivienda (m2)

## A nivel individual puede apreciarse como todas las variables introducidas

en el modelo aportan explicacin sobre el precio de la vivienda. Las
correlaciones ms importantes son la que se producen con la superficie de
la vivienda y la zona Este (ambas de signo positivo). Entre las variables
independientes hay muy poca correlacin. Por el gran tamao de la
muestra, son significativas los tres meses entre s y la agencia con la zona.
Resumen del modelo
Modelo
1

.959a

.919

corregida
.918

Error tp. de la
estimacin
3.0938

## a. Variables predictoras: (Constante), Agencia que vendio la

vivienda, Mes Marzo, superficie de la vivienda (m2), Zona
Oeste, Mes Febrero, Mes Enero, Zona Este

ANOVAb
Modelo
1

Regresin
Residual
Total

Suma de
55646.141
4881.498
60527.639

gl
7
510
517

Media
7949.449
9.572

F
830.528

Sig.
.000a

## a. Variables predictoras: (Constante), Agencia que vendio la vivienda, Mes

Marzo, superficie de la vivienda (m2), Zona Oeste, Mes Febrero, Mes Enero,
Zona Este
b. Variable dependiente: precio vivienda (miles euros)

## A nivel global se consigue una buena explicacin de la variabilidad del

precio de venta. Un 91,9% de las diferencias en el precio son explicadas
por las variables introducidas en el modelo. Como era de esperar, esta
variabilidad es suficiente frente a la residual. Por otro lado, el modelo tiene
Coeficientesa

(Constante)
superficie de la vivienda (m2)

Coeficientes no
Error
tp.
B
1.061
.869
.498
.009

Zona Este
Zona Oeste

14.769
2.984

.364
.385

Mes Enero

5.375

Mes Febrero
Mes Marzo
Agencia que vendio la vivienda

Coefic.
estand.
Beta

Intervalo confianza
para B al 95%
Lmite
Lmite
inferior
superior
-.646
2.768
.482
.515

.744

t
1.221
58.529

Sig.
.223
.000

.682
.129

40.567
7.760

.000
.000

14.054
2.229

15.484
3.740

.386

.221

13.922

.000

4.617

6.134

4.147

.392

.167

10.576

.000

3.377

4.917

2.060

.396

.082

5.206

.000

1.282

2.837

-.275

.476

-.007

-.578

.563

-1.211

.660

## A nivel individual todas las variables son estadsticamente significativas, a

excepcin de la constante y de la agencia que vendi la casa. El modelo
sera ms eficiente si las eliminramos pero as nos sirve para comprobar
que efectivamente, la agencia no provoca diferencias significativas en el
precio de venta de la vivienda (una vez deducidos los efectos de la
superficie, la zona y el mes de la venta).
Ahora se interpretan los coeficientes como hemos hecho en otros modelos:
2
En promedio, por cada m de ms que tenga la vivienda su precio
aumenta en 498 euros.
Una vivienda localizada en la Zona Este tiene un precio 14769 euros
superior a las viviendas de la Zona Sur, en promedio. En cambio, si
se localiza en la Zona Oeste la diferencia es de solo 2984 euros.

Los precios de venta van disminuyendo cada mes. Incluso parece que
existe una disminucin similar (lineal) cada mes de unos 2000 euros.
Finalmente, se puede verificar que, como no hay mucha colinealidad, las
conclusiones que se obtenan del anlisis individual (correlaciones de
Pearson) son muy semejantes a las Betas de cada variable en el anlisis
conjunto.

Coeficientes
a
colinealidad nos indican que no se produce altas
correlaciones
entre todas las variables indep
de
La menor Tolerancia se sita a nivel de 0,57 con lo que los efectos de la colinealidad
1

## superficie de la vivienda (m2)

Zona Este
Zona Oeste
Mes Enero
Mes Febrero
Mes Marzo
Agencia que vendio la vivienda

## a. Variable dependiente: precio vivienda (miles euros)

Tolerancia
.979
.560

FIV
1.021
1.786

.574
.628

1.743
1.591

.636
.638

1.572
1.568

.951

1.051

Resmenes de casos
precio
vivienda
(miles
euros)
35.060
42.470

superficie
de la
vivienda
(m2)
69.238
83.238
116.095

Predicted
Value
38.545
45.521

95% L
CI for
PRECIO
mean
37.798
44.824

95% U
CI for
PRECIO
mean
39.292
46.218

Sur

58.909

58.013

59.804

1
2

Nme
ro de
caso
399
406

409

Otra

58.735

416

Otra

49.277

96.048

Sur

48.919

48.127

49.712

423

Nuez

53.313

104.286

Sur

52.749

51.630

53.868

424

Otra

38.253

75.190

Oeste

41.511

40.794

42.228

428

Otra

41.145

84.286

Oeste

46.043

45.347

46.739

430

Otra

52.470

104.095

Sur

52.929

52.111

53.748

432

Otra

50.120

100.333

Sur

51.055

50.251

51.858

10

434

Otra

47.590

96.905

Oeste

52.331

51.610

53.052

11
12

437
444

Otra
Nuez

43.072
46.084

86.762
90.333

Sur
Sur

44.292
45.797

43.503
44.695

45.082
46.898

13

450

Otra

36.747

76.619

Sur

39.239

38.418

40.059

14

452

Otra

32.349

60.619

Oeste

34.250

33.439

35.062

15

457

Otra

50.422

101.095

Oeste

54.419

53.676

55.161

16

463

Otra

55.241

113.571

Sur

57.651

56.775

58.527

17

465

Otra

41.446

81.810

Oeste

44.809

44.111

45.508

18

467

Otra

45.964

93.571

Sur

47.686

46.897

48.474

19

468

Otra

43.253

84.524

Oeste

46.162

45.466

46.858

20

478

Otra

39.759

76.762

Oeste

42.294

41.583

43.005

21

480

Otra

46.928

95.762

Sur

48.777

47.985

49.569

22

485

Nuez

47.831

92.476

Oeste

49.849

48.828

50.869

23

499

Otra

31.205

66.000

Sur

33.947

33.060

34.835

24

503

Otra

62.229

128.048

Sur

64.864

63.858

65.870

Agen
cia
Otra
Otra

Zona
Oeste
Oeste

## Finalmente, podemos observar como los precios de venta que fij la

Inmobiliaria Nuez en las observaciones 423 y 444 estn incluidos incluso
en el intervalo de confianza de la estimacin con lo que claramente no
aplic una poltica fraudulenta.

8. BIBLIOGRAFA
KMENTA, Jan (1980): Elementos de econometra. Vicens universidad. Barcelona.
NEWBOLD, Paul (1997): Estadstica para los negocios y la economa. Prentice Hall.
NORUSIS, Marija J. (1997): SPSS 7.5 Guide to Data Analysis. Prentice Hall. New
Jersey.
(ya est disponible: SPSS 10.0 Guide to Data Analysis)
LUQUE MARTNEZ, Teodoro (coordinador) (2000): Tcnicas de anlisis de datos en

ANLISIS DE LA VARIANZA
(ANOVA)

## 9. ANLISIS DE LA VARIANZA (ANOVA)

9.1

CONCEPTO.

Se trata de una tcnica de anlisis adecuada para poder extraer conclusiones acerca de si
una o ms variables independientes condicionan a otra u otras variables dependientes.
Se trata de un mtodo de dependencia en el que la variable o variables dependientes
estn medidas en escala mtrica y las variables independientes estn medidas en escalas
no mtricas.
Esta tcnica es de gran utilidad en la experimentacin cientfica y por supuesto en la de
Marketing. Entendemos por experimentacin la manipulacin intencionada de las
variables independientes (tratamientos) para estudiar la respuesta en la variable o
variables dependientes.

9.2

## En el esquema siguiente resumimos las diferentes tipos de anlisis de varianza

Variables independientes

## Variables dependientes (mtricas)

Una

Varias

Una

ANOVA de un factor

MANOVA de un factor

Varias

ANOVA de 2 o k factores

MANOVA de k factores

Categricas e intervalos

ANCOVA

MANCOVA

## ANOVA proviene de ANlisis Of VAriance

MANOVA de Mltiple ANlisis Of Variance
ANCOVA de ANlisis Of COVAriance MANCOVA
de Mltiple ANlisis Of COVAriance.

## ANCOVA En este procedimiento se introduce una variable independiente (X) mtrica,

que no se controla pero incide en la dependiente (covariable), es decir covara. Si son
varias las dependientes (Y) se llama MANCOVA

9.3

ANOVA

Es una tcnica de dependencia diseada para medir la influencia que una o varias
variables independientes (Xi), (no mtricas, cualitativas) tienen sobre otra variable (Y)
dependiente o cuantitativa.
9.3.1

TIPOS DE ANOVA

## ANOVA de un solo factor o variable explicativa (one way)

ANOVA con varios factores. Este a su vez se divide en:

## Modelo factorial completo. Es cuando considera los efectos de varias variables

independientes conjuntamente con sus interacciones.

Modelo factorial incompleto. Solo se tienen en cuenta los efectos por separado
de las variables, sin tener en cuenta las interacciones. Tambin se llama modelo
de efectos principales.

9.4

EXPERIMENTACIN

## Uno de los objetivos de la Investigacin de Marketing es el de tratar de definir las

relaciones que unen al mix de Marketing de la empresa con sus resultados.
Esta informacin es de suma importancia en el proceso de toma de decisiones, as como
en la planificacin estratgica y en los mecanismos de control de la misma.
Las relaciones que se identifican entre las variables del Marketing mix de la empresa y
sus resultados son de tipo causa efecto, constituyendo lo que se denomina relaciones de
El anlisis causal es el que pretende investigar las relaciones de influencia o causalidad
entre las diferentes variables.
Desde un punto de vista filosfico se puede entender como causa, aquello que hace ser a
algo que no es, o que venga a ser de forma distinta lo que es. Este concepto de causa
implica el que se diferencie entre la causa que produce algo nuevo de la que solo
modifica lo existente.

## Teniendo en cuenta que la investigacin de Marketing no se ocupa de los consumidores

y productos en su conjunto, sino slo de las variables de estos en los estudios
descriptivos y de las relaciones entre las variables en los explicativos, es obvio que a la
Investigacin de Marketing le interesa la causalidad no en el sentido que produce un
nuevo ser, sino en la modificacin de lo existente.
Cuando se dice que dos variables, estn unidas por una relacin de causalidad, significa
que, una variable influye en la otra, en el sentido de que una modificacin en la primera
conduce a una variacin en la segunda.
El anlisis de la varianza es la tcnica mas apropiada para estudiar y explotar los datos
provenientes de situaciones experimentales. El anlisis de la varianza permite extraer
conclusiones sobre si una o ms variables independientes (X) influyen y condicionan a
una o varias dependientes (Y), e incluso nos da informacin si la interaccin de las
variables independientes (X) es significativa.

9.5

EL MTODO DE EXPERIMENTACIN

## El mtodo de experimentacin consiste en reproducir fenmenos a voluntad del

investigador. Aplicado a la Investigacin de Marketing, trata de provocar la conducta
del consumidor en condiciones perfectamente controladas, lo ms parecidas posibles a
una situacin real, con el objetivo de sacar consecuencias de la respuesta a un estmulo
cuyo efecto queramos conocer.
La principal dificultad de la experimentacin consiste en realizar la prueba en las
mismas circunstancias que en la realidad, as como en aislar los resultados obtenidos,
debido a la variacin producida respecto a otras variables no controladas en el
experimento. Lo que hacemos es introducir modificaciones en variables de Marketing, y
tratamos de controlar su incidencia en el comportamiento de compra por parte de los
usuarios.
La ventaja de este mtodo es que elimina el factor distorsionador que el entrevistado
provoca al suministrar informacin en una encuesta, ya que lo que aqu se estudia es el
comportamiento del consumidor ante una determinada situacin.

## La ejecucin de una experimentacin debe ser perfectamente planificada. Los aspectos

de esta planificacin son:
1. Definicin de los objetivos.
2. Definir la zona experimental.
3. Eleccin al azar de las unidades experimentales
4. Perodo de duracin de la experimentacin
5. Diseo experimental
6. Recogida de informacin
9.5.1

Fijacin

de

## precios. Seleccin de medios publicitarios y promocionales. Eleccin de puntos de

venta. Determinacin del tipo de envase y su tamao. Lanzamiento de nuevos
productos.

9.6

METODOLOGA DE LA EXPERIMENTACIN

## En todo experimento se deben

definir: 1 Factor principal
Variable independiente estudiada con sus diferentes alternativas, a las que se denomina
tratamientos.
2 Factores externos
Se trata de factores influyentes que es conveniente aislar y controlar.
En algunos diseos experimentales se estudian de forma individual y se denominan
factores bloque o rodeo.
Son los lugares donde se realiza el experimento. Se dividen en los siguientes tipos:
a) De laboratorio

## Se trata de un local donde se reproducen las condiciones reales del mercado.

Normalmente se suele hacer en el propio centro de investigacin.

b) Natural o real

## El estudio se realiza en lugares muestra del mercado real, zonas geogrficas,

4 Variable dependiente
Es la variable de respuesta por parte del mercado. Nos permite medir los efectos de las
EJEMPLO
Una empresa de conservas vegetales desea medir el efecto de dos estrategias de
promocin diferenciadas para comercio en rgimen de autoservicio y para tiendas
especialistas. Definir las caractersticas del experimento.
1 Factor principal: los dos tipos de promocin
2 Factor externo: situacin del producto en la tienda, en la estantera, da de la semana
3 Unidad experimental: comercio de las caractersticas requeridas (tiendas reales)
4 Variable dependiente: Unidades fsicas de producto vendidas

9.7
9.7.1

ELEMENTOS DE UN EXPERIMENTO
CONCEPTOS GENERALES

## La respuesta es una variable cuantitativa que se va a estudiar en el experimento.

Tambin se denomina variable dependiente, (Y). Ejemplo: las ventas de la empresa
Los factores (uno o varios) son aquellas variables de las que el experimentador quiere
estudiar su efecto sobre la variable respuesta. Tanto si representan variables cualitativas
como cuantitativas, los factores se analizan de forma cualitativa, es decir, se
experimenta con unos valores concretos. Ejemplos: envase, promocin, precio, ...
Los niveles de un factor son los diferentes valores utilizados en el experimento de una
de las variables explicativas. Ejemplos: Envase: 1 litro, 1,5 litros, 2 litros, Promocin:
Reduccin precio, Regalo; Precio: 140 ptas., 170 ptas., 200 ptas.
Los tratamientos de un experimento son todas las combinaciones utilizadas de cada
factor-nivel.
La unidad experimental es la observacin (individuo u objeto) donde la respuesta y los
Un diseo experimental es el procedimiento que utiliza el anlisis-para controlar la
especificacin de los tratamientos y el mtodo para asignar las unidades experimentales

## Un experimento por observacin es aquel en el que el analista observa el tratamiento y

9.7.2

HIPTESIS DE TRABAJO

Como hiptesis nula se considera que no existen diferencias entre las medias de los
tratamientos. Esto es:
H0:

1= 2 = . . . = p

Ha:

9.8

## POR QU SE LLAMA ANLISIS DE LA VARIANZA SI

COMPARAMOS MEDIAS?

## ANOVA pretende medir la influencia de una o ms variables independientes y

cualitativas (X) sobre una variable dependiente cuantitativa (Y). Es decir pretende
determinar si diversos conjuntos de muestras aleatorias de una variable proceden de la
misma poblacin o no. En el caso de que sean de la misma poblacin, el anlisis de la
varianza permite descubrir si la interaccin entre las variables explicativas provoca
cambios significativos.

La diferencia existente entre una observacin y la media general se divide entre una
parte explicada (distancia entre la media del tratamiento y la media general) y una
residual (distancia entre una observacin y la media de su tratamiento):
Es decir

(Yij Y )
(Yij

Yi ) (Yi Y )

la muestra:

Y )2

SC(Total) =

ij

(Y Y )

SC(Residual) = (Yij

2
Y)
i

CM(Total) =

(Yij Y
)
n1

= Varianza Total
2

(Yi Y )2

CM(Inter-grupos) =

p1
(Y Y)
ij

CM(Intra-grupos) =

9.8.1

n
p

= Varianza Residual

## Para comprobar si es suficientemente grande la varianza explicada frente a la varianza

residual, se calcula el estadstico de prueba

Varianza Re sidual

## y su nivel de significacin observado (F prob), probabilidad de equivocarnos si se

rechaza la H0, con el que se podr decidir si se Rechaza o no la H0.

## El estadstico F conduce al Rechazo de la H0 cuando el nivel de significacin (F prob.)

es pequeo (menor que 0,05), entonces las medias de los tratamientos son
estadsticamente diferentes. Es decir, el tratamiento influye en la respuesta o la variable
dependiente realmente depende de la independiente.
a)

realizar comparaciones mltiples de medias por pares utilizan-do un mtodo como por
ejemplo el de Scheff, que permite ver las diferencias estadsticamente significativas que
de forma ms estricta existen entre las medias de los tratamientos.

b)

## construir intervalos de confianza para una o mas medias individuales. Si el estadstico

F no conduce al Rechazo de la H0, entonces:
las medias son iguales (No rechazamos la hiptesis nula) No se puede creer que de
manera automtica esta conclusin es la adecuada. Se tiene que considerar tambin la
posibilidad de un error de tipo II, el que cometemos si no se rechaza la hiptesis nula
cuando es falsa.
Las medias son realmente diferentes, pero no hemos considera-do otros factores
importantes que tambin afectan a la respuesta. Estos factores aumentan la variabilidad
residual generando valores mas pequeos de F. Entonces se tiene que incrementar el
tamao de la muestra para cada tratamiento o se tiene que utilizar un diseo
experimental diferente que tenga en cuenta los otros factores que afectan a la respuesta.

9.9

Yij = i + ij
donde

## tratamiento i: es la media del tratamiento i, y ij: es una parte aleatoria especfica de

La hiptesis nula es que las medias de los diferentes tratamientos son
iguales H0:

1= 2 = . . . = p

100

Ha:

## Por lo menos dos tratamientos tienen medias

diferentes. Supuestos:
Las distribuciones de probabilidad de las p poblaciones son normales.
Las varianzas de las p poblaciones son iguales.
Las muestras se seleccionan aleatoria e independientemente de las poblaciones
respectivas.
9.9.1

MODELO

Yij = + i + ij
donde

H0:

1= 2 = . . . = p

Ha:

## 9.10 ANLISIS DE VARIANZA CON UN FACTOR (ONE WAY)

Utiliza una sola variable explicativa (X)
El modelo tiene que cumplir los siguientes supuestos:
La variable dependiente (Y) sigue una distribucin normal
Las varianzas de todas las poblaciones deben ser aproximadamente iguales
Las muestras son independientes y son obtenidas de forma aleatoria
EJEMPLO 1: ANLISIS DE VARIANZA DE UN FACTOR (SPSS)
Caso 1:
Una empresa que quiere lanzar un nuevo refresco en lata de 33 cc. quiere saber si hay
diferencias significativas en el precio de un refresco similar vendido en los 4 tipos de

ANOVA

Precio
lata 33 cc.

Inter-grupos
Intra-grupos
Total

Suma de
1419,757
5848,525
7268,282

gl
3
226
229

Media
473,252
25,878

F
18,288

Sig.
,000

Como las diferencias son significativas se quiere conocer cules son los precios medios
que se aplican en cada tipo de tienda (en la muestra y para la poblacin, con un intervalo
de confianza del 95%).
Descriptivos

Precio
lata
33 cc.

Tipo
de
tienda

Cooperativa
Total

Intervalo de confianza
para la media al 95%
Lmite
Lmite
inferior
superior
42,0086
46,4183
46,2563
49,4543

N
52
46

Media
44,2134
47,8553

Desviacin
tpica
7,9435
5,3715

Error
tpico
1,0982
,7934

50

45,3896

1,9618

,2775

44,8318

81

50,2857

3,7471

,4154

49,4590

51,1123

230

47,3497

5,6398

,3723

46,6162

48,0832

45,9475

## Finalmente, se quiere averiguar cules de estos precios medios aplicados en las

diferentes tiendas son significativamente distintos entre s, de una forma estricta
(utilizando el test de comparaciones mltiples Scheff).

Comparaciones mltiples
Variable dependiente: Precio lata 33 cc. Scheff

(I) Tipo de
tienda

(J) Tipo de
tienda
Cooperativa

Diferencia
de medias
(I-J)

Intervalo de confianza
al 95%
Lmite
Lmite
inferior
superior
-6,5408
-,7429
-4,0101
1,6577

Error
tpico
1,029
1,006

Sig.
,007
,714

-6,0722*

,902

,000

-8,6115

-3,5330

3,6419*
2,4657

1,029
1,040

,007
,135

,7429
-,4645

6,5408
5,3959

-3,6419*
-1,1762

Cooperativa

-2,4304

,939

,085

-5,0766

,2159

Cooperativa

1,1762
-2,4657

1,006
1,040

,714
,135

-1,6577
-5,3959

4,0101
,4645

,000

-7,4709

-2,3212

,000
,085

3,5330
-,2159

8,6115
5,0766

,000

2,3212

7,4709

-4,8960*
,914
6,0722*
,902
2,4304
,939
Cooperativa
4,8960*
,914.05.
*. La diferencia entre las medias es significativa al nivel

Tda.

a,b

Scheff

Tipo de tienda
Cooperativa

N
52
49

45

Sig.

81

1
2
44,2134
45,3896
45,3896

,692

47,8553

47,8553

,096

50,2857
,104

## Se muestran las medias para los grupos en los subconjuntos homogneos.

a. Uses Harmonic Mean Sample Size = 54,627
b. Los tamaos de los grupos no son iguales. Se utilizar la media armnica
de los tamaos de los grupos. Los niveles de error del tipo I no estn

## 9.11 ANOVA CON VARIOS FACTORES

En el estudio ANOVA devarios factores hemos de considerar los diferentes tipos de
efectos y factores que se pueden analizar y que indicamos a continuacin:

## Interseccin: las observaciones habitualmente se sitan en torno a una media distinta

de cero.
Factores fijos: los niveles de un factor fijo incluyen todos los niveles sobre los que se
desea extraer conclusiones.
Factores aleatorios: los niveles de un factor aleatorio son una muestra aleatoria de los
posibles niveles sobre los que se desea extraer conclusiones.
Covariables: variables explicativas (factores)
cuantitativas. Habitualmente trabajaremos con factores
fijos.
Los factores tambin se pueden clasificar como:
Principales: son los que el investigador controla y modifica para verificar su efecto.
Ejemplos: precio, canal, ...
De rodeo o bloqueo: son aquellos que varan por si solos al repetir el experimento
varias veces (ya que todas las unidades experimentales no son exactamente iguales), el
investigador no los cambia expresamente. Sin embargo, como se sospecha que pueden
influir en la variable respuesta, se debe controlar su efecto. Ejemplos: Tipo de tienda,
da de la semana, ...

9.12 TIPOS

DE

EXPERIMENTOS

HABITUALMENTE

Los tipos de experimentos que ms habitualmente se utilizan en la Investigacin
Comercial son:
-

Experimentacin al azar.

## Experimentacin con intercambio.

Experimentacin factorial.

## La experimentacin factorial permite tratar dos o ms variables simultneamente,

mientras que los otros slo permiten manipular una variable.
9.12.1 EXPERIMENTO ALEATORIO O AL AZAR

## La asignacin de tratamiento a las diferentes unidades experimentales se realiza de

forma aleatoria.
Vamos a desarrollar lo expuesto anteriormente mediante un caso prctico:

CASO PRCTICO
Un banco realiza un experimento comercial de tres tipos diferentes de promocin para
el lanzamiento de un nuevo producto. Estas promociones consistan en:
P1 Regalo de una bicicleta, P2 Regalo de un ordenador, P3 Regalo de los
electrodomsticos de la cocina
Cada promocin se prob en cinco sucursales diferentes durante un mes. Los resultados
obtenidos, en cuanto a unidades de producto colocadas entre la clientela, se recogen en

S1

S2

S3

S4

S5

P1

65

50

30

40

65

P2

30

25

15

20

35

P3

15

10

10

25

50

SOLUCIN
Definiremos las siguientes caractersticas:
Factor principal: los diferentes tipos de promocin P1, P2, P3, luego K =
3. Unidades experimentales 15 (5 sucursales x 3 tipos de promocin)
Nmero total de mediciones: n=15
Nmero de mediciones por cada tratamiento (promocin)

## mj= media de unidades vendidas por tratamiento.

m= media total.
Partiendo del cuadro de resultados, obtenemos los valores de mj y m, los cuales son:

S1

S2

S3

S4

S5

P1

65

50

30

40

65

250 50

P2

30

25

15

20

35

125 25

P3

15

10

10

25

50

110 22

mj

## y por tanto m = 32333

Una vez obtenidos estos datos, pasamos a realizar los clculos de la tcnica ANOVA
Dispersin total.
n

j 1

m )

( x

ij

i 1

## Sustituyendo por los correspondientes valores obtenemos:

2

DT = (65 - 323) + (50 - 32.3) + (30 - 323) + (40 - 323) + (65 - 323) +
2

(30

- 323) + (25 - 323) + (15 - 323) + (20 - 323) + (35 - 323) + (15 - 323) + (10
- 323) + (10 - 323) + (25 - 323) + (50 - 323) = 4.693333
Dispersin factorial:
k

DF n j (mj m)2
j 1

Sustituyendo obtenemos:
2

## DF = 5(50 - 323) +5(25 - 323) +5(22 - 323) = 2.363333

Dispersin residual
DR = DT - DF Luego DR = 4.69333 - 2.36333 = 2.330
DF
CMF
DF
gl
k1
Sustituyendo obtenemos CMF = 1.1816667

DR
CMR DR
gl
nk
Sustituyendo obtenemos CMR = 1941667
Test de la F
CMF
F
CMR
Sustituyendo obtenemos F= 60858
Si buscamos el valor de F en tablas para un nivel del 95% y gl = 2 y 12, obtenemos que
F = 389
Como 60858 > 389, existe un efecto significativo de los diferentes tratamientos
estudiados para un nivel de confianza del 95%.
La conclusin es que los diferentes tipos de promocin afectan significativamente a la
demanda.
La salida realizada con el programa SPSS es:
Esta salida tiene en cuenta la influencia de la sucursal en el experimento (factor rodeo o
bloque), por lo que algunos resultados nos conducen a valores diferentes, aunque la
conclusin final es la misma.

## EXPERIMENTO ALEATORIO AL AZAR

Resumen del procesamiento de los casosa

Casos
Excluidos
N
Porcentaje
0
,0%

Incluidos
Porcentaje
15
100,0%

Total
Porcentaje
15
100,0%

## a. Ventas (unidades vendidas) por Tipo de promocin, Sucursal

Medias de las casillasb,c

Media
N
50,0000
25,0000

Tipo de
promocin
Bicicleta

Sucursal
Total
Total

Electrodomstico

Total

22,0000

Total

1
2

36,6667
28,3333

3
3

18,3333

28,3333

50,0000

Total

32,3333a

5
5

3
15

a. Media global
b. Ventas (unidades vendidas) por Tipo de promocin, Sucursal
c. No se han calculado las medias de orden 2 o superior
debido al lmite en el orden mximo de interaccin.
ANOVAa

Tipo de promocin
Sucursal
Modelo
Residual
Total

Suma de
4040,000
2363,333

Mtodo jerrquico
Media
gl
F
6
673,333
8,245
2
1181,667
14,469

Sig
,004
,002

1676,667

419,167

5,133

,024

4040,000

673,333

8,245

,004

653,333

81,667

4693,333

14

335,238

## 9.12.2 EXPERIMENTO DE BLOQUE ALEATORIO

En este tipo de experimento comercial se controlan dos
factores: 1 La variable independiente o factor principal
2 Un factor de control que se denomina factor bloque, tambin llamado de rodeo
Este tipo de experimento comercial se debe hacer cuando se intuye que existe otro
factor influyente en el aspecto estudiado, aparte del factor principal.
Se debe utilizar un nmero de unidades experimentales suficientes para probar todas las
combinaciones posibles entre las alternativas de los dos factores controlados.
Desarrollemos lo anterior con el siguiente caso:
CASO PRCTICO
Una empresa de refrescos va a lanzar al mercado un nuevo producto; para ello realiza
una prueba con tres envases diferentes:
P1 envase de 2l., P2 envase de 1l., P3 envase de 05l.
Adems la empresa controla otro factor influyente, que es el tipo de establecimiento
donde se expenden los refrescos; para ello definen el siguiente factor bloque:
Cada envase se prueba en los cuatro tipos de tienda, durante un mes. Se obtienen los
B1

B2

B3

B4

P1

P2

P3

12

SOLUCIN
Factor Principal: tratamientos P1, P2, P3. Luego k=3
Factor bloque: las alternativas B1, B2, B3, B4, luego R = 4
Siendo

## n el nmero de mediciones (12)

xij las unidades vendidas en los diferentes establecimientos.
mj la media de ventas por tratamiento
mi la media de ventas por cada alternativa de
bloque m la media total
Clculos
B1

B2

B3

B4

mj

P1

12

P2

28

P3

12

32

18

24

18

12

mi

Luego m = 6
Dispersin total DT = 92
Dispersin factorial DF = 56
Dispersin bloque
DB k (mi m)2
2

## DB = 3(6 - 6) + 3(8 - 6) + 3(6 - 6)2 + 3(4 - 6) = 24

Dispersin residual
DR = DT - DF - DB

Sustituyendo, DR = 12

2 Test de la F
1 Factor principal
CMF
F
CMR
Luego F = 14
Como el valor en tablas para el 95% y gl 2 y 6 es 514
110

Podemos decir que existe un efecto significativo de los tratamientos estudiados para un
nivel de confianza del 95%
2 Factor bloque
CMB
F
CMR
Luego F = 4
El valor correspondiente en tablas para el 95% y gl 3 y 6 es F = 476
Como 4 < 476 podemos decir que:
NO existe un efecto significativo del factor bloque para el nivel de confianza del 95%
La correspondiente salida de SPSS es:

Casos
Excluidos
N
Porcentaje
0
,0%

Incluidos
Porcentaje
12
100,0%

Total
Porcentaje
12
100,0%

## a. Ventas (miles de unidades) por Tipo de promocin, Tipo de tienda

Medias de las casillasb,c

Media
N
3,0000
4
7,0000
4

Envase
2 litros
1 litro

Tipo de tienda
Total
Total

1/2 litro

Total

8,0000

Total

Gran superficie

6,0000
8,0000

3
3

6,0000

Autoservicio

4,0000

Total

6,0000a

3
12

a. Media global
b. Ventas (miles de unidades) por Envase, Tipo de tienda
c. No se han calculado las medias de orden 2 o superior debido al
lmite en el orden mximo de interaccin.

ANOVAa

Envase

Suma de
80,000
56,000

Tipo de tienda

Mtodo jerrquico
Media
gl
F
5
16,000
8,000
2
28,000
14,000

Sig
,012
,005

24,000

8,000

4,000

,070

Modelo

80,000

16,000

8,000

,012

Residual

12,000

2,000

Total

92,000

11

8,364

## a. Ventas (miles de unidades) por Tipo de promocin, Tipo de tienda

En este tipo de experimentacin comercial se controlan tres factores:
1 La variable independiente o factor principal
2 Dos factores de control o rodeo que se denominan factores bloque
El diseo en cuadrado latino exige utilizar el mismo nmero de alternativas en los tres
Deberemos plantear este tipo de estudio cuando se estima que existen otros dos factores
influyentes en el fenmeno estudiado, aparte del factor principal.
Se debe disear un nmero de unidades experimentales suficiente para probar todas las
combinaciones posibles entre los tres factores sometidos a control.
Vamos a desarrollarlo con el siguiente caso prctico:
CASO PRACTICO
Supongamos que una empresa de zumos realiza una prueba de mercado para estudiar el
P1 envase verde y blanco, P2 envase rojo y verde, P3 envase azul y
verde. Para ello la empresa controla los siguientes factores influyentes:
Bloque 1 Tipo de punto de venta.
B11 gran superficie, B12 autoservicio, B13 comercio tradicional
Bloque 2 Regin geogrfica.
B21 Catalua, B22 Aragn, B23 Pas Vasco.
Cada envase se prueba en los tres tipos de punto de venta y en las tres regiones
geogrficas.
B11

B12

B13

B21

P1

P2

P3

B22

P2

P3

P1

B23

P3

P1

P2

SOLUCIN
Supongamos los siguientes datos para la matriz
B11

B12

B13

B21

(P1) 5

(P2) 2

(P3) 3

B22

(P2) 3

(P3) 4

(P1) 6

B23

(P3) 3

(P1) 6

(P2) 2

Conceptos:
Factor principal: los diferentes tratamientos P1, P2, P3, luego K =
3 Factor bloque 1: las alternativas B11, B12, B13, luego R= 3
Factor bloque 2: las alternativas B21, B22; B23, luego L= 3
K=R=L=3
vendidas n el nmero de mediciones 9
mi media de las unidades vendidas B1
mj media de las unidades vendidas B2
mk media de unidades vendidas por tratamiento
m la media total
Clculos
B11

B12

B13

mj

B21

10

33

B22

13

43

B23

11

34

11

12

11

mi

34

34

## mkP1 = (5+6+6) : 3 = 57,

Dispersin total DT = 19556
Dispersin factorial (mk)DF = 17556
Dispersin bloque 1 (mi) DB1 = 0
222 Dispersin bloque 2 (mj) DB2 =
1556
Dispersin residual DR = DT -DF - DB1 DB2 DR = 0222
Test de la F
1 Factor principal F = 8778 : 0111 = 79000
El valor de tablas para el 95% y gl 2 y 2 es Ft = 19
S que existe significacin
2 Factor bloque 1 F = 0111 : 0111 = 1, siendo Ft = 19
Es vlida H0
2 Factor bloque 2 F = 0778 : 0111 = 7, siendo Ft = 19
Es vlida H0
La correspondiente salida del SPSS es:

Resumen del procesamiento de los casosa
Casos
Excluidos
N
Porcentaje
0
,0%

Incluidos
N
Porcentaje
9
100,0%

Total
Porcentaje
9
100,0%

## a. Ventas (miles de unidades) por Envase, Tipo de tienda, REGIN

Medias de las casillasb,c

Media
N
5,6667
3
2,3333
3

Envase
Verde/blanco
Rojo/verde

Tipo de tienda
Total
Total

Regin
Total
Total

Azul/verde

Total

Total

3,3333

Total

Gran superficie

Total

3,6667

Autoservicio

Total

4,0000

Tienda

Total

3,6667

Total

Catalua

3,3333
4,3333

3
3

3,6667

3,7778a

Aragn
Pais Vasco
Total
a. Media global

## b. Ventas (miles de unidades) por Envase, Tipo de tienda, Regin

c. No se han calculado las medias de orden 2 o superior debido al lmite
en el orden mximo de interaccin.
ANOVAa
Mtodo jerrquico
Media
gl
F
6
3,222
29,000
2
8,778
79,000

Efectos principales
Envase

Suma de
19,333
17,556

Tipo de tienda

,222

Regin
Modelo
Residual
Total

,111

Sig
,034
,013

1,000

,500

1,556

,778

7,000

,125

19,333

3,222

29,000

,034

,222

,111

19,556

2,444

## 9.12.4 EXPERIMENTO CON INTERCAMBIO

Este procedimiento consiste bsicamente en la aplicacin alternativa y sucesiva de los
diferentes tratamientos a las unidades experimentales. El orden de aplicacin de los
diversos tratamientos sobre las unidades experimentales debe ser al azar, con la
condicin de que haya el mismo nmero de unidades experimentales que reciba primero
un tratamiento y despus los otros.
Este tipo de experimento combina las caractersticas de los bloques aleatorios y los de
9.12.5 EXPERIMENTO FACTORIAL
En los experimentos comerciales de tipo factorial se controlan varios factores
principales, midiendo sus efectos individuales y los conjuntos sobre la variable
dependiente.
Esta es una situacin muy habitual en el rea de Marketing, donde la aplicacin del
Marketing mix produce en el mercado unos resultados diferentes del que se obtendra
por la suma de los efectos aislados de cada factor del mix de Marketing.
La tcnica estadstica que se utiliza se denomina ANOVA de va mltiple.
Veamos este experimento con un caso prctico:
CASO PRACTICO
Una empresa realiza un experimento con tres tipos de promocin (Puntos, precio y
sorteo) y dos modelos de envase (500 y 1.000 cc.). El estudio lo realiza en una gran
superficie y en una tienda tradicional, durante un mes.

E1
E2

P1

P2

P3

40

34

28

36

28

20

30

26

14

22

16

10

SOLUCIN
Factor principal 1 los modelos de envase E1, E2 a=2
Factor principal 2 los tipos de promocin P1, P2, P3 b=3
Unidades experimentales: 12 (dos por cada combinacin de factores) K = 2
n es el nmero de mediciones totales (12)
xijk unidades vendidas en las diferentes mediciones
mi es la media de unidades vendidas por alternativas del factor 1
mj es la media de unidades vendidas por alternativas del factor 2
factores m es la media total
Clculos
P1

P2

P3

mj

40

34

28

186

31

36

28

20

30

26

14

118

1967

22

16

10

128

104

72

mi

32

26

18

E1
E2

mk

304

P1E1

P1E2

P2E1

P2E2

P3E1

P3E2

38

26

31

21

24

12

Siendo m = 253
Dispersin Total DT = 930667
Dispersin Factor 1

Sustituyendo obtenemos:

2

## DF1 = (2x2) ( 31 - 253) +(2x2) ( 196 - 253) = 38533

Dispersin factor 2

Sustituyendo obtenemos

DF 2 bK(mi m)2
2

DF2 = (3x2) (32 - 253) + (3x2) (26 - 253) + (3x2) (18 - 253) = 394667
Dispersin de la
interaccin DIN = S(m
2

## +mk - mj - mi) DIN = 2667

Dispersin residual
DR = DT - DF1 - DF2 - DIN
DR = 148

## Cuadrado medio del factor 2 CMF2 = 394667 :2 = 19733

(gl= a-1)
(gl=b-1)

DIN
CMIN
Sustituyendo obtenemos: CMIN = 1333
(a 1)(b
1)
DR
CMR ab(K
Sustituyendo obtenemos CMR = 24667
1)
Test de la F
1 Factor 1
F= 385333 : 24667 = 15622
Ft para el 95% y gl 1 y 6 es 599
Por tanto existe un efecto significativo.
2 Factor 2
F = 197333 : 24667 = 8

## Por tanto existe un efecto significativo.

3 Interaccin
F = 1333 : 24667 = 0054
Como el valor de F es menor de la unidad, nos indica que no existe un efecto
significativo de la interaccin de los dos factores objeto de la experimentacin sobre la
demanda.
No es preciso comparar con tablas.
La correspondiente salida con el paquete estadstico SPSS es la siguiente:

Incluidos
Porcentaje
12
100,0%

Casos
Excluidos
N
Porcentaje
0
,0%

Total
Porcentaje
12
100,0%

## a. Ventas (miles de unidades) por Envase, Promocin

Medias de las casillasb

Envase
500 cc.

1000 cc.

Total

Promocin
Puntos
Precio

Media
N
38,00
2
31,00
2

Sorteo

24,00

Total

31,00

Puntos

26,00

Precio

21,00

Sorteo

12,00

Total

19,67

Puntos
Precio

32,00
26,00

4
4

Sorteo

18,00

Total

25,33a

12

a. Media global
b. Ventas (miles de unidades) por Envase, Promocin
ANOVAa

Efectos principales

Envase

Suma de
780,000
385,333

Mtodo jerrquico
Media
gl
F
3
260,000
10,541
1
385,333
15,622

Sig
,008
,008

Promocin

394,667

197,333

8,000

,020

Envase *
Promocin

2,667

1,333

,054

,948

Modelo

782,667

156,533

6,346

,022

Residual

148,000

24,667

Total

930,667

11

84,606

Interacciones de orden 2

m
n

1614

1995

2157

2246

2302

1851

19

1916

1925

1930

1013

955

928

912

901

771

694

659

639

626

661

579

541

519

505

599

514

476

4,53

439

559

474

435

412

397

532

446

407

384

369

512

426

386

363

348

10

496

410

371

348

333

11

484

398

359

336

320

12

475

389

349

326

311

13

467

381

341

318

303

14

46

374

334

311

296

15

454

368

329

306

290

## ANEXO 1 RESUMEN DEL MTODO ANOVA TRADICIONAL

El proceso de este mtodo es:
Se determinan las siguientes dispersiones:
1.- Dispersin total (DT)
Mide la suma de las dispersiones.
2.- Dispersin factorial (DF)
Mide la dispersin entre los grupos creados por las diferentes alternativas del factor o
Dependiendo del tipo de experimento, pueden existir varias dispersiones factoriales,
correspondientes al factor principal y a los factores de bloque.
3.- Dispersin residual (DR)
Mide la dispersin dentro de los grupos creados por las diferentes alternativas del factor
DT = DF + DR

DR = DT - DF

Se trata de la dispersin total dividida por el nmero de grados de
Se trata de la dispersin factorial dividida por el nmero de grados de libertad.
CMF = DF / gl
Dependiendo del tipo de experimento pueden existir varias varianzas factoriales,
correspondiendo al factor principal y a los factores bloque.
Se trata de la dispersin residual dividida por el nmero de grados de libertad.
CMR = DR / gl
7 Se realiza el test de la F
calcula: 7-1.- Se calcula el

F = CMF / CMR

Si el valor de F es menor que uno, es decir CMF < CMR, no existe un efecto
significativo del factor estudiado sobre la variable dependiente, y por tanto no es
necesario realizar la comparacin de F con el correspondiente valor de las tablas.
7-2.- Se determina el valor de F en las tablas estadsticas de la distribucin de la F, en
7-3.- Se comparan ambos valores.
La hiptesis nula H0 es: NO EXISTE EFECTO SIGNIFICATIVO DEL FACTOR
Entonces:
Si F > Ft (tabla), no se cumple H0 y por tanto el factor estudiado tiene una influencia
significativa sobre la variable dependiente.
Si F= Ft (tabla), entonces se cumple H0
ANEXO 2 RESUMEN DE TRMINOS UTILIZADOS
A continuacin vamos a explicar brevemente los conceptos utilizados habitualmente en
la Investigacin Comercial por experimentacin.
Diseo experimental. Forma de atribuir los diferentes tratamientos a las unidades
experimentales.
Dispersin de bloque. Variacin que se produce como consecuencia de la accin de
diversas variables que no pueden ser controladas, pero cuya existencia conocemos.
Dispersin factorial. Variacin producida como consecuencia de la influencia de los
diversos tratamientos (factores), cuyos efectos se quieren medir y comparar.
Dispersin residual. Variacin que se produce como consecuencia de diferentes
variables, cuyo valor y presencia no conocemos (es decir estn sin controlar). Tambin
se llama error experimental.
Dispersin total. Es la variacin total originada por los diferentes tratamientos, factores
no controlados y las interacciones entre los diversos tratamientos.
calcular el valor de un parmetro.
Interaccin. Variacin que se produce como consecuencia de la influencia recproca
entre varios tratamientos.

Repeticin. Consiste en realizar dos o ms veces una experimentacin bajo las mismas
condiciones, con el objetivo de obtener una conclusin. Tambin se denomina rplica.
Tratamiento. Proceso o variable cuyos efectos se quieren medir y comparar.
Unidad experimental. Conjunto de elementos a los que se aplica el mismo tratamiento,
cuyos efectos se quieren medir y comparar.
Varianza. Es la medida de dispersin de un conjunto de datos con relacin a su media.
Matemticamente se expresa por la frmula siguiente:
N

Xi

i 1

## donde Xi es el valor del dato, es la media del universo o

poblacin (N).
Cuando la varianza que se quiere calcular corresponde a una muestra, el valor de N de
dicha muestra se sustituye por los grados de libertad (n-1). La expresin matemtica
correspondiente es.
n

x m

i1

n
1

## muestra, y xi = valor del dato correspondiente.

9.13 BIBLIOGRAFA
Anlisis Multivariable para las Ciencias Sociales. Lvy Varela Editorial Perrazo
Prentice Hall 2003
El Anlisis de la Varianza en la Investigacin Comercial. Gregoria Mateos-Aparicio y
Miguel Martn. Prentica Hall 2002

ANLISIS DISCRIMINANTE

## 10. ANALISIS DISCRIMINANTE

Introduccin
Vamos a resear en el siguiente esquema de situacin la tcnica del Anlisis
Discriminante entre los diferentes procedimientos multivariables

Anlisis multivariante
Dos grupos de variables
Mtodo Explicativo
Nmero de variables a explicar: UNA
Tipo de la variable a explicar: Cualitativa
Tipo de las variables explicativas: Mtricas
Anlisis Discriminante

10.1 CONCEPTO
El anlisis discriminante se utiliza para seleccionar entre diferentes grupos, mediante el
anlisis de datos con una variable dependiente categrica y variables independientes
medidas en escalas de intervalo. Trata de explicar la pertenencia de las observaciones a
las diferentes categoras o grupos preestablecidos

10.1.1

EJEMPLO

Variable dependiente o criterio: Marca de Refresco que toman los consumidores (Fanta,
Kas, Schweppes)
Variables independientes o de prediccin: Las valoraciones obtenidas a travs de una
escala Diferencial Semntico (7 puntos).

## Desarrollar las funciones discriminantes. Se trata de combinaciones lineales de

las variables independientes (predictoras), que discriminan mejor entre las
categoras (Grupos) de la variable dependiente.

predictoras

## Determinar las variables independientes (predictoras) que ms contribuyen a la

diferencia entre grupos.

Clasificar los casos para uno de los grupos en funcin de las variables
predictoras.

## Evaluar la exactitud de la clasificacin.

Las tcnicas del AD se clasifican por el nmero de categoras que tiene la variable
criterio
1. Anlisis discriminante de dos grupos: la variable criterio tiene dos categoras
(dicotmica)
2. Anlisis discriminante mltiple: la variable criterio tiene tres o ms categoras

## 10.4 RELACIN ENTRE AD, ANOVA Y REGRESIN

Las similitudes entre las tres tcnicas y sus diferencias las resumimos en el siguiente
Anlisis

ANOVA

Discriminante

REGRESION

N de variables dependientes

Una

Una

Una

N de variables independientes

Varias

Varias

Varias

Categrica

Mtrica

Mtrica

Mtricas

Categricas

Mtricas

## El anlisis discriminante de dos grupos est estrechamente relacionado con la Regresin

mltiple. En esta situacin la variable dependiente se clasifica como binaria (0 y 1) da
como resultado coeficientes de regresin parcial proporcionales a los coeficientes de la
funcin discriminante.

El modelo estadstico en que se fundamenta el AD comprende combinaciones lineales
de la siguiente estructura:

D = b0 + b1x1 + b2 x2 + b3 x3 + ..+ bk xk
Siendo

D la calificacin discriminante

## B los coeficientes discriminantes

X variables predictoras

10.6.1

SUPUESTOS:

1. Cada uno de los grupos es una muestra de una poblacin normal de variables
mltiples
2. Todas las poblaciones tienen la misma matriz de covarianza
10.6.2

## Correlacin Cannica: Mide la asociacin entre la nica funcin discriminante

y el conjunto de variables simuladas que definen los datos del grupo (algunos
autores llaman membresa, aunque esta palabra no existe en nuestro idioma, la
podemos considerar equivalente a membrete) del grupo. Mide el grado de
asociacin entre los valores discriminantes y los grupos.

## Centroide. Esta formado por los valores medios de las calificaciones

discriminantes para un determinado grupo. Por tanto existen tantos centroides
como grupos. Las medias para un grupo en todas las funciones es el centroide
del grupo.

## Matriz de clasificacin o matriz de confusin o prediccin. Contiene el

nmero de casos que se clasifican en forma correcta y errnea. Los casos
clasificados correctamente se distribuyen en la diagonal. La suma de los casos
de la diagonal dividida por el total de casos es la razn de aciertos.

## Coeficientes de la funcin discriminante. Los no estandarizados son los

multiplicadores de las variables, cuando estas se encuentran en las unidades de
medicin originales.

## Calificaciones discriminantes. Los coeficientes no estandarizado se multiplican

por los valores de las variables independientes y se suman al valor constante (b 0)
obtenindose el valor D (Calificacin Discriminante)

## Valor especfico. Es la razn de la suma de los cuadrados entre y dentro de los

grupos. Los valores especficos altos indican funciones superiores.

## Valores F. Se determinan a partir del ANOVA unidireccional, con la variable de

variable dependiente mtrica del ANOVA.

grupo

## Matriz agrupada de correlaciones dentro de cada grupo. Se calcula mediante

el promedio de las matrices de covarianza separadas para todos los grupos.

## Coeficientes estandarizados de funcin discriminante. Se utilizan com

multiplicadores cuando las variables se estandarizan con media 0 y varianza 1

## Correlaciones de estructura. Tambin se llaman cargas discriminantes,

representan las correlaciones sencillas entre los indicadores y la funcin
discriminante

Matriz de correlacin total. Los casos se tratan como si fueran de una sola
muestra y se determinan las correlaciones

Su valor esta comprendido entre 0 y 1 Los valores prximos a 1 indica que las
medias de un grupo no parecen ser muy diferentes si es cercano a 0 indica que
las medias de los grupos parecen diferentes.

## 10.7 PASOS DEL ANLISIS DISCRIMINANTE

Los pasos o fases que contiene el anlisis discriminante son:
1. Formular el problema,
2. Estimar los coeficientes de funcin discriminante,
3. Determinar la significacin discriminante,
5. Verificar la validez del anlisis discriminante.
10.7.1 FORMULACIN DEL PROBLEMA
Hemos de identificar a travs de los objetivos que perseguimos la variable criterio y las
variables predictoras o independientes.
La variable criterio debe establecerse en categoras mutuamente excluyentes y
colectivamente exhaustivas.
Las variables predictivas deben escogerse en funcin del criterio del
investigador. La muestra se divide en dos partes,
Una parte de la muestra se utiliza para el clculo de la funcin discriminante (Muestra
de anlisis) La otra parte que se suele denominar como proposicin o muestra de
validacin y se usa para validar la funcin discriminante.
Cuando la muestra es grande y se divide en dos partes iguales, lo que se hace es
intercambiar el papel de las mitades hacindose lo que se denomina validacin cruzada
doble.

10.7.2 ESTIMACIN
La muestra de anlisis la utilizamos para determinar los coeficientes de funcin
discriminante.
Mtodo directo. Todos los indicadores se incluyen directamente. Es decir se incluyen
todas las variables sin importar su poder de discriminacin
Anlisis discriminante discreto. Las variables de prediccin entran de forma secuencial,
en funcin de su capacidad para discriminar entre los grupos.
El primer procedimiento es apropiado cuando, por alguna causa (modelo o experiencias)
el investigador quiere que la discriminacin se base en todos los indicadores.
El mtodo discreto es de utilidad cuando se quiere seleccionar un conjunto o
subconjunto de indicadores para su inclusin en la funcin discriminante final.
10.7.3 DETERMINACIN DEL GRADO DE SIGNIFICACIN
Para probar la significacin estadstica se toma como hiptesis nula (H0) En la
poblacin las medias de todas las funciones discriminantes son iguales en todos los
grupos.
La prueba se basa en la

## de Wilks La significacin se calcula con base en una

Normalmente se trabaja para un contraste del nivel de significacin = 5%
Rechazamos H0 cuando la significacin calculada sea menor que 005
10.7.4 INTERPRETACIN
La interpretacin de los coeficientes es similar a la que se realiza en el anlisis de
regresin mltiple.
El valor del coeficiente de un indicador concreto depende del resto de indicadores que
se incluyan en la funcin discriminante.

Los signos de los coeficientes indican que valores de la variable dan como resultado
valores de la funcin altos y bajos as como las correlaciones con los grupos
Debido a la posible multicolinealidad en las variables predoctoras, no existe ninguna
medicin objetiva de la significacin relativa de los indicadores en la discriminacin
entre los grupos.
Podemos tener idea de la significacin relativa al examinar los coeficientes
poder discriminante.
Tambin se analiza la significacin relativa de las variables predoctoras (indicadores)
analizando las correlaciones de estructura (Cargas cannicas o cargas discriminantes)
Estas correlaciones simples entre el indicador y la funcin discriminante representan la
varianza que la variable independiente comparte con la funcin.
Tambin podemos aadir a la interpretacin de los resultados el Perfil Caracterstico, se
trata de interpretar los resultados mediante la descripcin de cada grupo en trminos de
las medias de los grupos para las variables de prediccin. Una comparacin entre las
medias nos ayuda a comprender sus diferencias.
Para una mejor comprensin de estos conceptos reseamos el siguiente ejemplo del
autor Narres K. Malhotra.
10.7.4.1

## EJEMPLO LOS VENDEDORES SATISFECHOS CONSERVAN SU

TRABAJO.

Se utiliz el AD para determinar que factores explicaban las diferencias entre los
vendedores que permanecen en la empresa y los que la abandonaron. Las variables

Naresh K. Malhotra Investigacin de Mercados un enfoque prctico. Segunda edicin Prentice Hall
1997

134

## El resultado fue: La correlacin cannica, un ndice de discriminacin R = 0,4572 es

significativa de Wilk = 0,7909, F (26 - 173) = 1,7588 y p = 0,0180.
Por tanto el resultado indica que las variables consideradas discriminan entre los que se
fueron de la empresa y los que permanecen.
Ejemplo.

10.7.5 VALIDACIN
Si recordamos los datos se dividan aleatoriamente en dos submuestras. Una la
denominamos muestra de anlisis y la utilizamos para estimar la funcin discriminante
y la segunda que llamamos muestra de validacin se utiliza para desarrollar la matriz de
clasificacin
Los valores relativos discriminantes que se calculan a travs de la muestra de anlisis,
se multiplican por los valores de las variables de prediccin con el objetivo de obtener
las correspondientes calificaciones discriminantes (D) de la muestra de validacin. De
aqu se obtiene la razn de aciertos, que es, el porcentaje de casos que se clasifican
correctamente por medio del Anlisis Discriminante.
Es de utilidad el comparar el porcentaje de los casos que se clasificaron de forma
correcta con el AD con el porcentaje que obtendramos por la probabilidad.
Cuando las dos submuestras tienen el mismo tamao el porcentaje de clasificacin por
probabilidad es 0,5, en general cuando los grupos tienen el mismo tamao el porcentaje
de clasificacin por probabilidad es1 dividido por el nmero de grupos.
Algunos autores citan que: La exactitud alcanzada por el AD debe ser por lo menos un
con base en la muestra de anlisis. Dando significacin a la variacin probable de esos
datos.

10.7.5.1 EJEMPLO:
10.7.5.2 ANLISIS DISCRIMINANTE DE DOS GRUPOS.

## 10.8 EJEMPLO DE ANLISIS DISCRIMINANTE CON EL

SPSS:

Variable de agrupacin ... (cualitativa);
Definir rango ... (mn., mx.);
Independientes ... (variables cuantitativas o binarias),
Introducir independientes juntas
Matrices: correlacin intra-grupos,
Coeficientes de la funcin: no tipificados;
Clasificar:
Tabla de resumen
Clasificacin dejando uno fuera*.
* pedir solo si interesa.
EJEMPLO DE LAS BICICLETAS
Somos una empresa fabricante de Bicicletas y deseamos conocer, a travs
Cules son las caractersticas diferenciadoras de los consumidores de la gama Alta y de
la gama Media de nuestras bicicletas.

## Resumen del procesamiento para el anlisis de casos

Vlidos
Excluidos Cdigo de grupo de perdido o fuera de rango

180
0

Porcentaje
100,0
,0

,0

## Perdidos o fuera de rango ambos, el cdigo de

grupo y al menos una de las variables
discriminantes.

,0

Total
Total

,0

180

100,0

1. ANLISIS UNIVARIANTE:

Gama de
Producto
Media

Media
28,93
,65

Desv. tp.
7,09
,48

26928,72

6726,99

141

141,000

semana

85,96

30,89

141

141,000

## Autoevaluacin del nivel ciclista

2,91

,68

141

141,000

,47

,50

141

141,000

2,98

,79

141

141,000

29,21
,64

6,98
,49

39
39

39,000
39,000

sexo (1=mujer)
Promedio de veces que utiliza la
bici por semana
Alta

Ingreso familiar anual (Euros)

42587,18

12704,88

39

39,000

semana

168,46

60,02

39

39,000

## Autoevaluacin del nivel ciclista

4,67

,62

39

39,000

,21

,41

39

39,000

4,44

1,12

39

39,000

28,99
,64

7,05
,48

180
180

180,000
180,000

sexo (1=mujer)
Promedio de veces que utiliza la
bici por semana
Total

## N vlido (segn lista)

No
141
141,000
141
141,000

Ingreso familiar anual (Euros)

30321,39

10559,63

180

180,000

semana

103,83

51,70

180

180,000

## Autoevaluacin del nivel ciclista

3,29

,98

180

180,000

,41

,49

180

180,000

3,29

1,06

180

180,000

sexo (1=mujer)
Promedio de veces que utiliza la
bici por semana

Las medias de estas variables para cada uno de los grupos son significativamente
distintas?
Deberamos hacer un anlisis de la varianza, considerando cada una de las variables
independientes como la variable a explicar y como variable explicativa, el factor,
nuestra variable dependiente (el grupo al que pertenece la observacin).
Por ejemplo, el resultado obtenido en el anlisis de varianza para la variable
autoevaluacin del nivel ciclista sera el siguiente:

ANOVA de un factor
ANOVA

Autoevaluacin
del nivel
ciclista

Inter-grupos
Intra-grupos
Total

Suma de
94,510
78,468
172,978

gl
1
178
179

Media
94,510
,441

F
214,389

Sig.
,000

El anlisis discriminante efecta ese mismo anlisis para todas las variables
explicativas:
Pruebas de igualdad de las medias de los grupos
Lambda
de Wilks
1,000
1,000

F
,047
,003

gl1
1
1

gl2
178
178

Sig.
,829
,960

,625

106,929

178

,000

semana

,565

136,839

178

,000

,454

214,389

178

,000

sexo (1=mujer)

,952

9,068

178

,003

bici por semana

,675

85,832

178

,000

WILKS

## En ambos casos, la H0 es: las medias son iguales.

Si la Significacin es pequea (menor que 0.05 o 0.10) se rechaza la H0. Por tanto, hay
diferencias entre las medias de los grupos.
Finalmente, se obtiene una matriz de correlaciones (intra-grupo) entre las variables
explicativas

Corre
lacin

1,000

est.
civil
,179

Ingreso
,716

Km por
semana
,010

nivel
ciclista
,037

sexo
-,010

Veces
sem.
-,029

,179

1,000

,159

,062

-,058

,079

-,013

Ingreso
familiar anual
(Euros)

,716

,159

1,000

,102

,015

-,009

,040

Promedio de
por semana

,010

,062

,102

1,000

,577

-,138

,695

Autoevaluacin
del nivel
ciclista

,037

-,058

,015

,577

1,000

-,180

,393

sexo (1=mujer)

-,010

,079

-,009

-,138

-,180

1,000

-,135

Promedio de
veces que
utiliza la bici
por semana

-,029

-,013

,040

,695

,393

-,135

1,000

## La correlacin intra-grupo se calcula teniendo en cuenta la pertenencia a un

determinaro grupo. Ejemplo:

## 10.9 ANALISIS DEL EFECTO CONJUNTO:

En primer lugar se busca la Funcin discriminante:
D B0 B1 X 1 B2 X 2 BK X K
siendo los coeficientes Bs aquellos que maximizan la relacin Suma de Cuadrados
En nuestro ejemplo:
Coeficientes de las funciones cannicas discriminantes
Funcin
1
-,10273
,01998

Ingreso familiar anual (Euros)

,00012

-,00025

1,00256

sexo (1=mujer)

-,01476

## Promedio de veces que utiliza la bici por semana

(Constante)

,14424
-4,38912

Con ellos se pueden calcular las puntuaciones discriminantes para cada observacin:
D1 = 0,102 (22) + 0,019 (0) + 0,0001 (22100) 0,0002 (120) + + 1,002 (5) 0,014
(0) + 0,144 (3) 4,389 = 1,40
Resmenes de casosa

1
2
3
4
5

22
22
23
23
23

soltero
soltero
soltero
soltero
soltero

Ingreso
familiar
anual
(Euros)
22100
28900
24650

Promedio
de Km
por
semana
120
200
140

Autoevaluacin del
nivel
ciclista (5)
Profesional
Profesional (5)
Profesional (5)

sexo
(1=mujer)
hombre
hombre
hombre

31450
28050

100
100

Experto (4)
Profesional (5)

mujer
hombre

Promedio
de veces
que
utiliza la
bici
por
semana 3
4
4

Puntuaciones
discriminantes
de la funcin 1
para el
anlisis 1
1,40039
2,33522
1,74085

3
4

1,39958
2,15595

## Las puntuaciones discriminantes se pueden guardar, pudindose utilizar en otros

anlisis. Por ejemplo, podemos comprobar como se han separado los grupos con un
anlisis de varianza:
Descriptivos

Puntuaciones
discriminantes
de la funcin 1

Gama
de
Producto

Media
Alta
Total

N
141
39

Media
-,8222
2,9725

Desv.
tpica
,8910
1,3263

Error
tpico
,0750
,2124

180

,0000

1,8579

,1385

Intervalo de confianza
para la media al 95%
Lmite
Lmite
inferior
superior
-,9705
-,6738
2,5425
3,4024
-,2733

,2733

ANOVA

Puntuaciones
discriminantes
de la funcin 1

Inter-grupos
Intra-grupos
Total

Suma de
439,903
178,000

gl
1
178

617,903

Media
439,903
1,000

F
439,903

Sig.
,000

179

Autovalores

Funcin
1

Autovalor
2,471a

% de
varianza
100,0

%
100,0

Correlacin
cannica
,844

R
617,9
SC Total

## a. Se han empleado las 1 primeras funciones

discriminantes cannicas en el anlisis.

Lambda de Wilks
Contraste
de las
1

Lambda
de Wilks
,288

217,174

gl
7

Sig.
,000

## SC Residual / SC Total = 178 / 617,9

Despus de comprobar que los grupos tienen unas medias estadsticamente diferentes,
se pueden analizar los coeficientes de la funcin discriminante y la correlacin entre
sta y las variables:
Coeficientes estandarizados de las funciones discriminantes cannicas
Funcin
1
-,726
,010

Ingreso familiar anual (Euros)
Promedio de Km realizados por semana

,997
-,010
,666
-,007
,125

## Autoevaluacin del nivel ciclista

sexo (1=mujer)
Promedio de veces que utiliza la bici por semana

Matriz de estructura

## Autoevaluacin del nivel ciclista

Promedio de Km realizados por semana
Ingreso familiar anual (Euros)
Promedio de veces que utiliza la bici por semana
sexo (1=mujer)

Funcin
1
,698
,558
,493
,442
-,144
,010
-,002

## Correlaciones intra-grupo combinadas entre las variables

discriminantes y las funciones discriminantes cannicas tipificadas
Variables ordenadas por el tamao de la correlacin con la funcin.

## Coeficientes de las funciones cannicas discriminantes

Ingreso familiar anual (Euros)
Promedio de Km realizados por semana
Autoevaluacin del nivel ciclista
sexo (1=mujer)
Promedio de veces que utiliza la bici por semana
(Constante)

Funcin
1
-,103
,020
,000
,000
1,003
-,015
,144
-4,389

## Funciones en los centroides de los grupos

Funcin
1
-,822
2,972

Gama de Producto
Media
Alta
Funciones discriminantes cannicas no
grupos

## 10.10 CLASIFICACIN DE LAS OBSERVACIONES:

La probabilidad de pertenecer a un grupo g dado una puntuacin discriminante d se
calcula a travs del teorema de Bayes:
P(G g | D d ) P(D d | G g) P(G g)

P(D d | G g) P(G g)
g

## donde P(G = g) es la probabilidad a priori.

Normalmente se supone que la probabilidad a priori es la misma para cada grupo, pero
se puede asignar en funcin del peso de cada grupo.
Es la probabilidad de obtener un valor discriminante superior a d dado que la
observacin pertenece al grupo g. Se calcula a partir de la distribucin de puntuaciones
discriminantes de la muestra.

## A partir de estas probabilidades se puede calcular la probabilidad a posteriori, la

probabilidad de pertenecer al grupo g, dado que el valor discriminante es d.
La observacin se clasifica en el grupo que tiene una mayor probabilidad.

Gama de
Producto
Media
Alta
Total

Previas
,500
,500
1,000

anlisis
No
141
141,000
39
39,000
180

180,000

Grupo mayor

Nmero Grupo
de caso real
1
2
2
2
3
2

P(D>d |
G=g)

Grupo
2
2

p
,116
,524

gl
1
1

## Segundo grupo mayor

Puntuac
iones
discrimi
nantes

Distancia de
Distancia de
Mahalanobis
Mahalanobis
hasta el
hasta el
P(G=g
P(G=g
Funcin
centroide
centroide
1
| D=d)
Grupo | D=d)
,775
2,471
1
,225
4,940
1,400
,992
,406
1
,008
9,969
2,335

,218

,926

1,517

,074

6,569

1,741

,116

,774

2,474

,226

4,936

1,400

,414

,984

,667

,016

8,869

2,156

,185

,898

1,754

,102

6,102

1,648

7
8

2
2

2
2

,774
,610

1
1

,998
,995

,082
,261

1
1

,002
,005

12,307
10,785

2,686
2,462

,373

,979

,794

,021

8,430

2,081

10

,227

,932

1,460

,068

6,690

1,764

11

1** ,141

,834

2,165

,166

5,398

,649

12

,851

,998

,035

,002

13,007

2,784

13

1** ,216

,925

1,528

,075

6,545

,414

14

,410

,983

,679

,017

8,824

2,148

15

,503

1,000

,449

,000

19,933

3,642

16

,509

1,000

,435

,000

19,842

3,632

17

,155

,858

2,024

,142

5,627

1,550

18

,505

,991

,444

,009

9,789

2,306

19

,835

,998

,043

,002

12,865

2,765

20

,423

,985

,642

,015

8,960

2,171

Original

Recuento

Gama de
Producto
Media

Alta
Media
Alta

Grupo de pertenencia
Media
Alta
138
3

Total
141

2
97,9

37
2,1

39
100,0

5,1

94,9

100,0

originales.

## Estadsticos de clasificacin utilizando el mtodo de validacin

Este mtodo da resultados de clasificacin algo ms realistas, puesto que trata de
clasificar cada observacin en un modelo que se estima con una muestra en la que no se
incluye dicha observacin. Por tanto, se realizan tantos modelos como observaciones
o no una observacin omitida.

Original

Recuento

Gama de
Producto
Media

Alta
Media

Recuento

Total
141
39

97,9
5,1

2,1
94,9

100,0
100,0

Alta

138
2

3
37

141
39

Media
Alta

97,9
5,1

2,1
94,9

100,0
100,0

Alta
Validacin

Grupo de pertenencia
Media
Alta
138
3
2
37

Media

## a. La validacin cruzada slo se aplica a los casos del anlisis. En la

derivadas a partir del resto de los casos.
originales.

10.11 MTODO

DE

INCLUSIN

POR

PASOS:

MTODO

LAMBDA DE WILKS:
Lambda de Wilks

Paso
1
2
3

Introducidas
Autoevaluacin del nivel ciclista
Ingreso familiar anual (Euros)

tico
.454
.360
.291

gl1
1
2
3

gl2
1
1
1

gl3
178.0
178.0
178.0

214.389
157.568
143.197

## En cada paso se introduce la variable que minimiza la lambda de Wilks global.

a. El nmero mximo de pasos es 14.
b. La F parcial mnima para entrar es 3.84.
c. La F parcial mxima para eliminar es 2.71
d. El nivel de F, la tolerancia o el VIN son insuficientes para continuar los clculos.

Variables en el anlisis
Paso
1
2
3

## Autoevaluacin del nivel ciclista

Autoevaluacin del nivel ciclista
Ingreso familiar anual (Euros)

Tolerancia
1.000
1.000
1.000

F para
eliminar
214.389
130.445
46.248

## Autoevaluacin del nivel ciclista

Ingreso familiar anual (Euros)

.998
.488
.487

99.817
98.642
41.805

Lambda
de Wilks
.625
.454
.455
.454
.360

F exacta
gl1
gl2
1
178.0
2
177.0
3
176.0

Sig.
.000
.000
.000

## Variables no incluidas en el anlisis

P
a
0

sexo (1=mujer)
Ingreso familiar anual (Euros)
Promedio de veces que utiliza la bici por semana
Promedio de Km realizados por semana
Autoevaluacin del nivel ciclista
sexo (1=mujer)
Ingreso familiar anual (Euros)
Promedio de veces que utiliza la bici por semana
Promedio de Km realizados por semana

sexo (1=mujer)
Promedio de veces que utiliza la bici por semana
Promedio de Km realizados por semana

sexo (1=mujer)
Promedio de veces que utiliza la bici por semana
Promedio de Km realizados por semana

Tolerancia
1.000
1.000
1.000
1.000
1.000
1.000
1.000

Tolerancia
mn.
1.000
1.000
1.000
1.000
1.000
1.000
1.000

F para
introducir
.047
9.068
.003
106.929
85.832
136.839
214.389

Lambda
de Wilks
1.000
.952
1.000
.625
.675
.565
.454

.999
.968
.997
1.000
.845
.667

.999
.968
.997
1.000
.845
.667

.047
.068
.285
46.248
6.567
7.150

.454
.453
.453
.360
.437
.436

.487
.968
.971
.844
.659
.968
.962
.835
.646

.487
.968
.971
.844
.659
.487
.482
.482
.472

41.805
.036
.252
4.223
2.865
.025
.012
1.532
.523

.291
.360
.359
.351
.354
.291
.291
.288
.290

Autovalores
Funcin
1

Autovalor
% de varianza
2.441a
100.0

Correlacin
cannica
.842

100.0

## a. Se han empleado las 1 primeras funciones discriminantes

cannicas en el anlisis.

Lambda de Wilks
Contraste de
las funciones
1

Lambda
de Wilks
.291

218.105

gl
3

150

Sig.
.000

funciones discriminantes cannicas
Funcin
1
-.745

Ingreso familiar anual (Euros)
Autoevaluacin del nivel ciclista

1.019
.715

Matriz de estructura
Funcin
1
.702
.509

## Autoevaluacin del nivel ciclista

Promedio de Km realizados por semanaa
Ingreso familiar anual (Euros)
Promedio de veces que utiliza la bici por

.496

semanaa

.343

sexo (1=mujer)a

-.130

-.012
.010

## Correlaciones intra-grupo combinadas entre las variables

discriminantes y las funciones discriminantes cannicas tipificadas
Variables ordenadas por el tamao de la correlacin con la funcin.
a. Esta variable no se emplea en el anlisis.

## Coeficientes de las funciones cannicas discriminantes

Ingreso familiar anual (Euros)
Autoevaluacin del nivel ciclista
(Constante)

Funcin
1
-.10544
.00012
1.07664
-4.17625

Funciones en los centroides de los grupos

Gama de Producto
1 Media
2 Alta

Funcin
1
-.817
2.954

## Funciones discriminantes cannicas no tipificadas

evaluadas en las medias de los grupos

Resumen del proceso de clasificacin
Excluidos

180
0

## Cdigo de grupo perdido o fuera de rango

Perdida al menos una variable
discriminante

180

## Probabilidades previas para los grupos

Gama de Producto
1 Media
2 Alta
Total

Previas
.500
.500

anlisis
No
141
141.000
39
39.000

1.000

180

180.000

Original

Recuento
%

Gama de Producto
1 Media
2 Alta
1 Media
2 Alta

Grupo de pertenencia
1 Media
2 Alta
138
3

Total
141

2
97.9

37
2.1

39
100.0

5.1

94.9

100.0

## 10.12 ANLISIS DISCRIMINANTE MLTIPLE

Se habla de tcnicas de Anlisis Discriminante Mltiple (ADM): cuando la variable
criterio tiene tres o ms categoras
Si en el ADM existen K categoras o grupos, de la variable criterio, pueden estimarse K
1 funciones discriminantes, siempre que el nmero de variables predictivas
La primera funcin tiene la razn ms alta que la suma de cuadrados entre los grupos
con la anterior, tendr la segunda razn ms alta y as sucesivamente. Puede ocurrir que
no todas las razones sean significativas estadsticamente.
10.12.1 DETERMINACIN DEL GRADO DE SIGNIFICACIN
La hiptesis nula (H0) es que los centroides de grupo son iguales
Deben tomarse las funciones simultneamente. Seguidamente se excluye una funcin y
las medias restantes se prueban en cada paso.
10.12.2 INTERPRETACIN
La interpretacin de los resultados se realiza a travs del examen de los coeficientes
estandarizados de la funcin discriminante, de los diagramas de dispersin, examen de
la matriz de estructura y del mapa territorial
Mapa territorial: en este diagrama el centroide de cada grupo se indica con un
asterisco (*). Las fronteras de los grupos se muestran por medio de nmeros que
corresponden a los grupos, de esta forma el centroide del grupo 1 esta delimitado por el
nmero 1, el centroide del grupo 2 por el nmero 2 y as sucesivamente.
10.12.3 VALIDACIN
Se requiere que la mejora con la probabilidad sea al menos un 25% superior.

## 11. CASO PRCTICO DE ADM

EL PEQUEO COMERCIO DETALLISTA DE ZARAGOZA

11.1.1 INTRODUCCIN
A partir de una encuesta personal realizada por IMSO, S.L. a 818 comercios de
se observa que en los comercios el conocimiento y/o empleo de algunas herramientas de
Para la consecucin de los objetivos, hemos aplicado algunas tcnicas de investigacin
comercial a los datos obtenidos con una encuesta estructurada, recogida mediante
entrevista personal, de una muestra estadsticamente representativa del sector comercio
6

## detallista en Zaragoza . Dado que Zaragoza en los estudios de mercado ha sido

considerada siempre como ciudad piloto, y por tanto representativa del resto de
suponer que en cierto modo son representativos del comercio en todo el territorio
nacional.
Para la obtencin de la muestra se ha partido del censo de establecimientos que ha
proporcionado la Federacin de Empresarios de Comercio de Zaragoza y que est
fundamentado en la base de datos del Servicio de Informacin Empresarial de la
Diputacin General de Aragn. Segn el INE, el nmero total de establecimientos de la
ciudad de Zaragoza es de 13.996, por lo que se trata de un universo finito.
Para la obtencin de las unidades muestrales se siguieron las normas y procedimientos
del muestreo sistemtico, eligiendo el primer elemento al azar y el resto mediante
adiciones sucesivas del coeficiente de elevacin (relacin entre el universo y el tamao
de la muestra) que en este estudio tomaba un valor de 17. Para establecer el contacto

Queremos agradecer a IMSO, S.L. la cesin de la encuesta y los datos que nos han permitido la
realizacin del trabajo.

154

## con el propietario, gerente o encargado del establecimiento comercial se utiliz el

procedimiento del telemarketing, concertando cita y hora para la celebracin de la
entrevista. La fase de recogida se realiz durante el primer trimestre de 1996.
Una vez depurados los cuestionarios han quedado 818 entrevistas vlidas, lo que para
un nivel de confianza del 95,5% y un nivel de indeterminacin mximo p=q=0,5,
supone trabajar con un error mximo del 3,3%. La encuesta inclua preguntas acerca de
en el establecimiento y nivel de estudios de estos empleados, opiniones sobre la
formacin continuada (cundo, por qu, dnde debe hacerse, qu cursos, duracin, etc.),
aspectos de marketing conocidos y/o utilizados, etc. En global se han realizado 82
preguntas que generan un total de 253 tems.
Las tcnicas aplicadas para la explotacin de esta informacin son las siguientes. En
primer lugar, se ha realizado un anlisis univariante sobre todas las variables de la base
relacionadas con caractersticas o atributos de los establecimientos as como sobre las
variables relacionadas a herramientas concretas de marketing.
Posteriormente, y dada la naturaleza cualitativa de las variables de la base, se ha
independencia entre dos variables cualitativas.
Como se puede suponer, en este trabajo se ha establecido relacin entre las variables que
recogen atributos de los establecimientos entrevistados y las variables que contienen
informacin sobre el empleo/conocimiento de algunas herramientas del rea
marketing.

de

Caractersticas
Universo

CNAE93

mbito geogrfico

## Mtodo de recogida de informacin

Tamao de la muestra

## 818 encuestas vlidas

Nivel de confianza

95,5%, p = q = 0,5

Error muestral

3,3%

Procedimiento de muestreo

## Tras la aplicacin de diferentes tcnicas de investigacin de reduccin de dimensiones

(anlisis factorial de componentes principales y de correspondencias) se produce la
siguiente reclasificacin de los establecimientos comerciales en tres categoras segn el
grado de utilizacin de herramientas de marketing.
Para verificar este aspecto hemos realizado tablas de contingencia cruzando la variable
HOMALS.
de independencia entre las variables con un nivel de confianza prcticamente absoluto.

Quedan excluidas de esta encuesta las actividades comerciales comprendidas en la divisin 526 de la
CNAE93, que corresponden al comercio al por menor no realizado en establecimientos.

Recodificacin de la variable Marketing Tabla
de frecuencia Grado aplicacin de marketing
Categora
No Marketing
Marketing Bsico

Definicin
Dimensin 1 <= 0
Dimensin 1 > 0 y Dimensin 2 > 0
Dimensin 1 > 0 y Dimensin 2 < 0

Total

Frecuencia
412
261
145

Porcentaje
50,4
31,9
17,7

818

100,0

## 11.1.2 ANLISIS DISCRIMINANTE

Con los datos obtenidos vamos a ilustrar este caso de anlisis discriminante de tres
grupos.
El objetivo que se persigue es determinar las caractersticas diferenciales de las
empresas que no aplican tcnicas de marketing, frente a las que hacen un marketing
bsico o a las que realizan uno de sofisticado. Adicionalmente, el modelo permitir
predecir en que grupo se clasificarn otras empresas no incluidas en la muestra. De esta
manera, se podra por ejemplo, determinar cuales son las empresas que pueden resultar
ms interesantes para un consultor en Marketing.

Discriminante
Resumen del procesamiento para el anlisis de casos
Vlidos
Excluidos
Cdigos de grupo perdidos o fuera de rango
Perdida al menos una variable discriminante
Perdidos o fuera de rango ambos, el cdigo de grupo
y al menos una de las variables discriminantes.
Total excluidos
Casos Totales

N
475
0

Porcentaje
100.0
.0

.0

.0

.0

475

100.0

aplicacin de
marketing
1 No
Marketing

establecimiento (aos)

19.189

19.185

228

228.000

.348

228

228.000

2.774

228

228.000

Realiza formacin

.206

.405

228

228.000

.860

.348

228

228.000

-.214

.995

228

228.000

-.050

1.069

228

228.000

## Val. PF Tnicos por ordenador

-.156

.991

228

228.000

.406

.493

155

155.000

18.942

19.395

155

155.000

.181

.386

155

155.000

establecimiento (aos)

3.781

4.418

155

155.000

Realiza formacin

.445

.499

155

155.000

.645

.480

155

155.000

.087

1.003

155

155.000

.013

.951

155

155.000

## Val. PF Tnicos por ordenador

.218

1.005

155

155.000

establecimiento (aos)

.467

.502

92

92.000

19.446

27.532

92

92.000

.359

.482

92

92.000

Total

Desv. tp.
.441

.140

3 Marketing

Media
.263

2.184

2 Marketing
Bsico

No
Pondera
dos
228
228.000

5.630

9.490

92

92.000

Realiza formacin

.674

.471

92

92.000

.728

.447

92

92.000

.384

.871

92

92.000

.103

.899

92

92.000

## Val. PF Tnicos por ordenador

.019

.952

92

92.000

establecimiento (aos)

.349

.477

475

475.000

19.158

21.072

475

475.000

.196

.397

475

475.000

3.373

5.389

475

475.000

Realiza formacin

.375

.485

475

475.000

.764

.425

475

475.000

.000

1.000

475

475.000

.000

1.000

475

475.000

.000

1.000

475

475.000

Lambda
de Wilks
.968
1.000

F
7.861
.017

.958

.941

Realiza formacin

2
2

gl2
472
472

Sig.
.000
.983

10.472

472

.000

14.887

472

.000

.861

38.140

472

.000

.949

12.766

472

.000

.947

13.235

472

.000

.997

.790

472

.455

## Val. PF Tnicos por ordenador

.973

6.607

472

.001

gl1

Correlacin
establecimiento (aos)
Establecimiento
Realiza formacin
Val. PF Genricos
Marketing
Val. PF Atencin cliente
Val. PF Tnicos por

Es
socie
1.000

Antige
(aos)
-.088

Estab.
.286

Nm.
emplea
dos
.319

Realiza
formaci
n
.186

Ventas en
-.180

Val. PF
Genricos
Marketing
-.063

Val. PF
Atencin
cliente
-.020

Val. PF
Tnicos
.098

-.088

1.000

-.189

.213

.056

.026

-.066

.048

.048

.286

-.189

1.000

.025

.069

-.087

.065

.064

-.019

.319
.186

.213
.056

.025
.069

1.000
.139

.139
1.000

-.175
-.035

-.080
.106

.039
.095

.115
.175

-.180

.026

-.087

-.175

-.035

1.000

.052

.146

-.135

-.063

-.066

.065

-.080

.106

.052

1.000

-.014

-.025

-.020

.048

.064

.039

.095

.146

-.014

1.000

-.005

.098

.048

-.019

.115

.175

-.135

-.025

-.005

1.000

Anlisis 1
Resumen de las funciones cannicas discriminantes
Autovalores
Funcin
1

Autovalor % de varianza
.285a
84.4
.053a

84.4

Correlacin
cannica
.471

100.0

.224

15.6

## a. Se han empleado las 2 primeras funciones discriminantes

cannicas en el anlisis.

Lambda de Wilks
Contraste de
las funciones
1 a la 2

Lambda
de Wilks
.739

141.439

.950

24.090

gl
18

Sig.
.000

.002

cannicas
Funcin
1
Realiza formacin

.012
-.032

2
-.238
.046

.246
.363

.508
.309

.622

.147

-.240

.690

.403

-.043

.061

-.131

## Val. PF Tnicos por ordenador

.037

-.491

Matriz de estructura
Funcin
1

Realiza formacin

.753*
.469*

.443*

.043

.337*

-.138

.107*

.038

.056
.097

-.324
.204

.676*
-.552*

.358

.387*

.004

.036*

## Correlaciones intra-grupo combinadas entre las variables

discriminantes y las funciones discriminantes cannicas tipificadas
Variables ordenadas por el tamao de la correlacin con la funcin.
*. Mayor correlacin absoluta entre cada variable y cualquier
funcin discriminante.

Funcin
1
.026
-.002

2
-.507
.002

.631

1.305

.069

.059

Realiza formacin

1.380
-.578

.327
1.664

.413

-.044

.060

-.131

.037

-.497

-.412

-1.713

(Constante)

## Funciones en los centroides de los grupos

marketing
1 No Marketing
2 Marketing Bsico

Funcin
1
-.505
.231

2
9.837E-02
-.314

.861

.285

## Funciones discriminantes cannicas no tipificadas

evaluadas en las medias de los grupos

## Resumen del proceso de clasificacin

Excluidos

475
Cdigo de grupo perdido
o fuera de rango
Perdida al menos una
variable discriminante

0
0
475

## Probabilidades previas para los grupos

marketing
1 No Marketing
2 Marketing Bsico

Previas
.333
.333

Total

anlisis
No
228
228.000
155
155.000

.333
1.000

92
475

92.000
475.000

## En la pgina siguiente se indica el mapa territorial correspondiente.

Smbolos usados en el mapa territorial
Smbolo Grupo Etiqueta
------ ----- -------------------1

No Marketing

Marketing Bsico

## Indica un centroide de grupo

Mapa territorial
Discriminante cannica
Funcin 2
-3.0

-2.0

-1.0

.0

1.0

2.0

3.0

3.0
13

13

13

13

13

13

2.0

13

13

13

13

13

1.0

13

13

13

133
*

*
12233

.0
12 223

12
233

12 *
223

12
233

12
223

12
233

-1.0

12
2233

12
223

12
233

12
223

12
233

12
2233

-2.0
12

223

12
233

12
223

12
233

12
22

12

-3.0
12

-3.0
-2.0
-1.0
.0
1.0
2.0
3.0
Funcin discriminante cannica 1

Grupo mayor

Original

Nmero
de casos
1
2

Grupo
real
3
1

Grupo
P(D>d | G=g)
pronos
p
gl
3
.009
2
2**
.958
2

Puntuaciones
discriminantes

## Segundo grupo mayor

P(G=g |
D=d)
.945
.384

Distancia
de
Mahalan
obis al
hasta el
centroide
9.462
.085

Grupo
2
1

P(G=g |
D=d)
.045
.313

Distancia
de
Mahalan
obis al
hasta el
centroide
15.550
.491

Funcin
1
3.221
.185

Funcin
2
2.257
-.026

1**

.304

.559

2.381

.249

4.002

-.613

1.638

.955

.512

.092

.342

.897

-.699

-.134

.833

.622

.366

.267

2.054

-1.095

.230

.776

.602

.507

.305

1.863

-1.132

-.239

.897

.414

.217

.396

.303

-.319

-.329

.976

.503

.048

.341

.826

-.644

-.069

.571

.484

1.120

.382

1.593

-.404

-1.160

10

2**

.630

.488

.923

.363

1.513

-.299

-1.114

11

.537

.727

1.244

.205

3.771

-1.586

.370

12

1**

.764

.504

.538

.265

1.822

-.483

.832

13

.603

.664

1.013

.211

3.302

-1.139

.880

14

.765

.515

.535

.372

1.182

-.828

-.557

15

.766

.645

.534

.244

2.477

-1.148

.445

16

3**

.944

.440

.116

.320

.751

.581

.479

17

.195

.825

3.270

.120

7.127

1.957

1.723

18

.721

.649

.654

.268

2.424

-1.301

-.040

19

.486

.742

1.443

.198

4.081

-1.683

.333

20

.872

.582

.273

.307

1.551

-.993

-.087

clasificacina

Original

Recuento

marketing
1 No Marketing
2 Marketing Bsico
1 No Marketing
2 Marketing Bsico

1 No
2 Marketing
3 Marketing
Marketing
Bsico
153
37
38
50
57
48

Total
228
155

21

15

56

92

67.1
32.3
22.8

16.2
36.8
16.3

16.7
31.0
60.9

100.0
100.0
100.0

11.2 BIBLIOGRAFA
Anlisis multivariable para las Ciencias Sociales. Jean-Pierre Lvy mangin. Jesa
Valera Mallou. Prentice Hall 2003
Malhotra Investigacin de Mercados. Un enfoque prctico. PrenticeHall 1996

SEGMENTACIN

12. SEGMENTACIN.
12.1 CONCEPTO.
La segmentacin de mercado consiste en la agregacin de consumidores en grupos
homogneos, de forma tal que cada uno de ellos puede ser seleccionado como un
segmento objetivo sobre el cual podamos aplicar estrategias de Marketing mix
Las caractersticas de los segmentos resultantes deben ser tales que nos posibiliten el
decir orientada a satisfacer necesidades y deseos de los consumidores especficos de

12.2 REQUISITOS

PARA

QUE

LA

SEGMENTACIN

DE

Los principales requisitos que hacen que la segmentacin de mercado sea eficaz son:
1. Cada segmento nos debe dar una respuesta diferente a la accin de Marketing mix.
3. La obtencin de los diferentes segmentos no implicar la existencia de categoras
mutuamente excluyentes. Esto significa que en ocasiones un mismo individuo puede
pertenecer a varios segmentos de mercado.
4. La segmentacin debe basarse en un adecuado anlisis de costes beneficios.
por su tamao y / o por los beneficios que presentan, que sean justificables las
acciones de Marketing a realizar.
6. Los segmentos han de ser alcanzados y servidos con eficacia por la empresa.
7. La empresa tendr que disponer de recursos suficientes (econmicos y humanos),
8. Los segmentos debern ser estables a lo largo del tiempo, con el fin de rentabilizar la

9. Sern prioritarios los segmentos que sean compatibles con los que ya acta la
empresa con el fin de evitar canibalizaciones.
10.Se deber involucrar a la empresa a todos los niveles, en la implantacin de la
estrategia

de

segmentacin,

con

el

fin

de

evitar

posibles

conflictos

interdepartamentales.
11.Los consumidores tienen que percibir diferencias entre los productos de lo que cabe
esperar distintas respuestas a las acciones de Marketing mix.
12.Las diferencias en las percepciones de los consumidores deben ser identificadas y
asociadas a los diferentes grupos del pblico objetivo.

## 12.3 CRITERIOS DE SEGMENTACIN DE MERCADO.

En el mercado de productos de consumo la segmentacin se realiza siguiendo una
serie de criterios que se dividen en: de carcter objetivo y subjetivos. Los criterios
objetivos son aquellos en los que existen parmetros que nos permiten medirlos de
forma inequvoca. Los criterios subjetivos son susceptibles de interpretacin.
Criterios objetivos.
Los mas usuales son:

## Geogrficos. Es el mtodo mas sencillo, se basa en la desigualdad zonal

explicando as los diferentes comportamientos que aparecen en diferentes
territorios de cierta extensin, en los que aparecen diferencias climticas,
culturales, econmicas...etc.

## Demogrficos. Las diferentes caractersticas fsicas de los consumidores, tales

deseos diferentes.

## Socioeconmicos. El comportamiento de los consumidores dependera, en este

caso, de su nivel de renta y su estatus, explicando as la clase social.

Criterios subjetivos.
Los ms usuales son:

Por estilo de vida. El estilo de vida define la forma de ser y de comportarse las
personas, viene definido por sus actividades, opiniones e intereses.

## Por situacin. Se separan grupos que ante un mismo producto buscan

satisfacciones diferentes en distintas circunstancias o situaciones. (caa de da
copa de noche).

## Basados en ventajas buscadas. se basa en que, los consumidores encuentran en

el producto ventajas diferentes y los consumen precisamente por ello.

## Psicogrfica. Integra dos grupos de criterios: estilo de vida y personalidad. La

sus productos de personalidad de marca que se corresponde con la personalidad
de los consumidores.

## Segmentacin por comportamiento.

Segmentacin en funcin de comportamientos especficos de compra y uso del

ms que otros.

## El usuario. Se hace una clasificacin considerando los usuarios regulares, los no

usuarios, los usuarios potenciales, los irregulares, los primerizos. Cada grupo
recibir un tratamiento especfico.

En el mercado industrial la segmentacin puede realizarse desde dos enfoques: basarse
en las necesidades y deseos de los clientes y que el vendedor lo satisfaga, o bien partir
de las caractersticas del vendedor y segmentar el mercado de la forma ms accesible y
rentable. El mejor mtodo ser el que optimice el comportamiento de compra del cliente
con los costes del vendedor.
Normalmente en el mercado industrial se identifican criterios de segmentacin, que se
jerarquizan de la siguiente manera:

## 1- Factores demogrficos. Naturaleza de la empresa (pblica o privada). Sector

al que pertenece. Tamao (ventas, plantilla, capital). Localizacin.

## 2- Variables operativas. Tecnologa de los procesos productivos. Tecnologa del

producto, Ventajas competitivas. Productos complementarios. Productos
substitutivos.

## 3- Enfoques de compra. Organizacin de compras. Estructura de poder entre las

diferentes personas que intervienen en el proceso de compra. Relaciones
existentes (fidelidad). Poltica de compras. Criterios de compra.

## 4- Factores de situacin. Urgencia de la necesidad. Tamao del pedido.

Aplicaciones del producto. Beneficios de pedidos concretos.

## 5- Caractersticas personales del decisor. Similitud de actitudes y caractersticas

entre comprador y vendedor. Motivaciones del decisor. Percepcin por parte del
comprador de la empresa del vendedor. Actitud al riesgo por parte del

## Valoracin de los segmentos.

Una vez detectados diferentes segmentos en el mercado, la empresa tiene tres posibles
alternativas: Ignorarlos, centrarse en alguno o algunos de ellos y adaptarse a ellos. La
posible alternativa depende entre otros de los siguientes factores:

## Intensidad de la competencia. A la empresa le interesar actuar donde la

competencia sea nula o mnima. Cuanto menor sea la probabilidad de entrada de
competidores ms atractivo resultar para la empresa ese segmento.

## El poder de negociacin de los diversos agentes que intervienen en el proceso de

la compra venta.

12.4 ETAPAS

DE UN ESTUDIO DE SEGMENTACIN

DE

Siguiendo a P. Kotler podemos diferenciar tres etapas:

## La primera es el arte de dividir un mercado en grupos de consumidores que

puedan requerir estrategias de Marketing diferenciadas, constituye lo que se
denomina el proceso de segmentacin.

## La tercera etapa consiste en fijar el posicionamiento, esto es establecer la

posicin competitiva de la empresa y de su oferta en funcin del
objetivo.

pblico

Proceso

objetivo

Posibles
bases
segmentacin.

## de Valorar el atractivo de cada 1- Identificar conceptos de

segmento.
posicionamiento y alternativas
de
diferenciacin
en los
segmentos objetivos.
Identificar variables de Seleccionar los segmentos - Seleccionar, desarrollar y
segmentacin
objetivos..
comunicar el concepto de
relevantes
para
el
posicionamiento escogido
estudio.
Recoger
informacin Estrategias de cobertura del
sobre
variables
segmentacin
Derivar
segmentos
mediante tcnicas de
segmentacin
y
tipologa.
Describir perfil de los
segmentos.
Para llevar a cabo el proceso de segmentacin, en principio se recaba y ordena toda la
informacin existente y disponible en el mercado en relacin a una serie de variables
consideradas relevantes. Dichas variables emanan de las bases de segmentacin.
En gran nmero de casos no se conocen a priori todas las caractersticas importantes
para orientar la segmentacin, para esta circunstancia se realiza una investigacin
cualitativa de enfoque para as seleccionar las variables que nos permitirn segmentar el
Ante la carencia de informacin lo que se hace es emplear tcnicas de investigacin
comercial como la observacin o la encuesta. Esta ltima tcnica es la ms utilizada, se
define el universo, la muestra, el procedimiento de muestreo, el cuestionario y se realiza
el correspondiente trabajo de campo. La informacin obtenida se analiza aplicando
tcnicas de segmentacin y tipologa para de esta manera obtener grupos de pblico
objetivo con caractersticas homogneas.
Las bases de segmentacin parten de los criterios antes indicados. No existe una forma
idnea para segmentar el mercado. Existen criterios generales y especficos, unidos a los
objetivos y subjetivos, esta situacin la podemos resumir en el siguiente esquema:

CRITERIOS OBJETIVOS
Criterios generales.

Criterios especficos.

Geogrficos.

Estatus.

Demogrficos.

Uso y situaciones

Socioeconmicos.

Sus combinaciones.

Intencin de compra.

CRITERIOS SUBJETIVOS
Criterios generales.

Criterios Especficos.

Psicogrficos.

Estilo de vida.

Comportamiento

Clase social.

Marketing mix.

## Percepciones, preferencias y actitudes.

12.5 TCNICAS

PARA

CLASIFICAR

UN

las

acciones

de

EN

SEGMENTOS.
Una vez definidas que variables de segmentacin son adecuadas para realizar una
partiendo de la informacin obtenida sobre las bases de segmentacin, permitan dividir
el mercado en segmentos. Los tipos mas usuales son:
Tcnicas de segmentacin. En estas tcnicas el investigador selecciona una variable o
criterio de segmentacin a explicar, antes de realizar el anlisis. Posteriormente, se
consideran por parte del investigador diversas variables explicativas, tratando de
estudiar de que forma se relacionan con la variable a explicar. Se denominan diseos de
segmentacin a priori.
Tcnicas de tipologa. En este tipo de tcnicas los consumidores se agrupan de acuerdo
a la similitud de sus perfiles multivariables (actitudes, estilo de vida...), sin hacer
distincin entre variables descriptivas y variables a explicar. Se desconoce a priori el
nmero de segmentos. Se denominan diseos de segmentacin post-hoc.

## 13. TCNICAS DE SEGMENTACIN.

Se suelen clasificar en tres grandes grupos:

Mtodos clsicos.

## 13.1 MTODOS CLSICOS.

Los mtodos clsicos desarrollan un proceso de divisin del mercado conformando una
criterio para medir la intensidad de la relacin entre la variable a explicar y las variables
explicativas es el mismo en todas las etapas del proceso. Seguidamente vamos a sealar
los fundamentos de los mtodos ms usuales.
13.1.1 MTODO BELSON.
Trata de estimar el poder discriminante de diferentes variables explicativas sobre la
variable a explicar. El procedimiento es como sigue:
- Se convierten las diversas variables explicativas y la variable a explicar en
dicotmicas.
Si tienen ms de dos categoras se sigue el siguiente criterio: Para cada variable
explicativa los individuos se agrupan de tal forma que los que dispongan de una
proporcin de la variable a explicar inferior a la de toda la muestra pertenezcan a una
categora, agrupando en otra a todos aquellos con una proporcin superior a la de la
muestra.
- Analizar, con una cualquiera de las categoras de cada variable explicativa, su
relacin con la variable a explicar mediante la siguiente formula:
C = NC ki
NC

ki

P x N ki

donde k = 1, 2.

## explicar), y que pertenecen a la categora k de la variable explicativa i.

P Es el porcentaje de personas que consumen el producto para toda la muestra.
N ki Es el nmero de personas que pertenecen a la categora k de la variable explicativa
y. Con independencia de que sean o no consumidores del producto).

## - Tomar aquella variable explicativa (la subdivisin en categoras que la representa)

que manifiesta tener una relacin ms fuerte con la variable a explicar, mayor valor
absoluto de C.
La muestra se desglosa en dos segmentos correspondientes a la variable de mayor
relacin y sus subdivisiones.
- A cada uno de los segmentos resultantes se aplica independientemente el mtodo de
segmentacin descrito considerando tan solo las restantes variables explicativas.
Seguidamente vamos a realizar un caso practico, en el que aplicaremos los mtodos de
Belson y el de anlisis de la varianza, ms adelante.
EJEMPLO.

## Una empresa desarrolla su actividad comercial en Aragn, comercializando cuatro

marcas de productos (A, B, C y D ), en tres tipos diferenciados de establecimientos,
4.000 hogares, que en el ltimo trimestre han consumido alguna marca de los diferentes
tipos de productos.
Se obtiene informacin acerca de la marca comprada y el tipo de tienda donde efectu
la compra. Se saca el siguiente resumen de datos.

## DATOS DEL CASO PRCTICO.

Tipo de producto.

A.

582.

2.044.

B.

204.

718.

C.

184.

646.

D.

30.

592.

TOTAL:

1.000.

4.000.

Tipo de tienda.

100.

450.

Hipar. (H).

575.

2.500.

325.

1.050.

TOTAL.

1.000.

4.000.

## Mtodo BELSON. Criterio: Realizar la dicotoma de las variables agrupando por un

lado las variables que tengan un porcentaje superior a la media y por otra parte los que
sea su porcentaje inferior a la media.
Variables.

Porcentaje de consumidores.

Productos:
A.

2847 %.

B.

2841 %.

C.

2848 %.

D.
Establecimiento.
T.

506 %.
2222 %.

H.

2300 %.

S.
Media total.

3095 %.
25%.

## Las agrupaciones que obtenemos de conformidad con el criterio son:

Superior a la media y para la variable producto. A+ B+ C. Inferior a la media D.

## Para la variable tienda o establecimiento donde se efectan las compras, la

correspondiente agrupacin es:
Superior a la media: S. Inferior a la media; T + H.
Los resultados de esta segmentacin los podemos resumir en el siguiente cuadro:
AGRUPACIONES.

COMPRAN MARCA.

TOTAL COMPRAN.

970.

3.408.

30.

592.

Producto.
A + B + C.
D.
Tienda.
S.

325.

1050.

T + H.

675.

2.950.

C = NC ki

P x N ki .

Producto.
C = 970

Tiendas.
C = 325

## 13.1.2 MTODO DE ANLISIS DE LA VARIANZA.

Trata de encontrar la mejor divisin dicotmica cuando las variables explicativas tienen
ms de dos categoras. Selecciona la mejor dicotoma no la mejor variable explicativa
de cada rama de la estructura arborescente.
La expresin matemtica para estimar el poder discriminante es:

N N(P P )
a
b
a
b
D
n

## Donde: n es el tamao total de la muestra.

N a y b es la dicotomizacin de las categoras de cada variable explicativa
en dos grupos a y b.
P a y b es el porcentaje de consumidores de las categoras a y b de la
variable explicativa objeto de estudio.

## Vamos seguidamente a desarrollar el ejemplo visto con anterioridad aplicando el

mtodo de anlisis de la varianza.
DATOS DEL CASO PRCTICO.
Tipo de producto.

A.

582.

2.044.

B.

204.

718.

C.

184.

646.

D.

30.

592.

TOTAL:

1.000.

4.000.

Tipo de tienda.

100.

450.

Hipar. (H).

575.

2.500.

325.

1.050.

TOTAL.

1.000.

4.000.

Anlisis Multivariante
ANLISIS DE LA VARIANZA:
Grupo.

Total com.

Co marca.

%Co marc

A+B

2.762.

786.

2846

C+D.

1.238.

214.

1728.

A+C

2.690.

766.

2848.

B+D

1.310.

234.

1783.

A+D

2.636.

612.

2322.

B+C

1.364.

388.

2844.

2.044.

582.

2847.

B+C+D

1.956.

418.

2137.

718.

204.

2841.

A+C+D.

3.282.

796.

2425.

646.

184.

2848.

A+B+D.

3.354.

816.

2433.

592.

30.

507.

A+B+C.

3.408.

970.

2846.
2

## ** D = 2.690 x 1.310 ( 02848 - 01783 ) / 4.000 = 998.

Del mismo modo procederamos para la variable tiendas.

178

D discrim.
1068.
998.**
244.
504.
102
097.
2759.

Anlisis Multivariante

Este procedimiento trata de comparar la distribucin efectiva de consumidores, en las
diferentes categoras de cada variable explicativa; con la que correspondera si se
distribuyera segn el porcentaje promedio para toda la muestra. Se selecciona la mejor
dicotoma de cada variable explicativa de acuerdo con el

criterio

discriminante

SC

(NCO i NCTi )

NCTi

Donde:
NCOi

NCTi

la categora

## dicotmica i de cada variable explicativa. Su clculo es como sigue: se multiplica el

tamao de la muestra en cada categora por el porcentaje medio de consumidores para
toda la muestra.
13.1.4 MODELOS DE CANGUILHEM.
Se basa en dos posibles soluciones para segmentar el mercado:
En el primer caso el mtodo a seguir es:
Se calculan los ndices de penetracin para las categoras de cada una de las variables
explicativas de acuerdo con la siguiente frmula:
IP kj = MP kj S kj
Donde:
IP

kj

la

MP

kj

kj

Es

## el nmero de personas del pblico objetivo que pertenecen a la categora k de la

variable explicativa j.

170

2.Para cada categora de las variables explicativas se toma el ndice de penetracin mximo
y se pondera con un valor igual a uno (1). Las ponderaciones de las restantes categoras
de una variable se obtienen dividiendo su ndice de ponderacin por el de valor mximo.
3.La variable que ms discrimina es la que presenta mayor disparidad (recorrido o varianza)
entre las ponderaciones de sus categoras.
Todos los procedimientos descritos con anterioridad consideran las variables
explicativas de forma independiente. Este procedimiento que ahora vamos a desarrollar
trata de evitar este inconveniente.
Es vlido cuando se trata de encontrar un segmento optimo, resultante de la agrupacin
o cruce de diversas variables explicativas. Se tratara de obtener el segmento que mejor
discrimine el comportamiento de los consumidores.
Se estima para cada segmento o agrupacin, un ndice de penetracin y un ndice de
cobertura, el valor de la discriminancia a maximizar viene dado por la siguiente
frmula:

D
Donde

1
2

(S M ) 2 1
(S IP) 2
1 (U P) (1 IP) 2 (1 IC) 2
2
IC = M / P es el ndice de cobertura o proporcin de los consumidores de

## un determinado segmento o agrupacin respecto del total de consumidores.

M es el nmero de personas que consumen (variable a explicar ) el
producto y que pertenecen a un segmento o agrupacin.
P es el total de consumidores.
IP = M / S Es el ndice de penetracin o proporcin de consumidores de
un determinado segmento o agrupacin respecto al pblico objetivo.
S es el nmero de personas del pblico objetivo que pertenecen a cada
segmento o agrupacin de consumidores.
U es el total de personas del pblico objetivo.

## 13.2 AUTOMATIC INTERACTION DETECTION (AID)

El AID (Deteccin automtica de interacciones) es una tcnica de anlisis estadstico
que estudia la relacin de una variable dependiente o criterio y mltiples predictivas o
independientes, detectando el efecto y las interacciones existentes en las variables
explicativas (X).
El AID no proporciona una funcin que determine la relacin existente entre la variable
dependiente (Y) y las independientes.
Las variables explicativas son de tipo cualitativo, es decir, estn medidas en escalas
nominal u ordinal, mientras que la variable dependiente debe estar en escala mtrica o
bien ser dicotmica (1,0), con dos frecuencias muy similares.
El AID procede de forma secuencial, mediante anlisis de la varianza, realizando
divisiones dicotmicas de la variable dependiente o a explicar.
Se parte del total de la muestra y se divide en dos, en funcin de la variable que mejor
explica las diferencias en el comportamiento objeto de estudio. Seguidamente cada
grupo obtenido se vuelve a subdividir de conformidad con el criterio de la variable que
mejor define las diferencias. Este proceso continua hasta alcanzar el nivel (tamao) de
grupo mnimo que fijamos con anterioridad o bien las diferencias entre los valores
medios de los grupos no son significativas.
La tcnica AID realiza un anlisis secuencial de la varianza, con el fin de obtener en
cada etapa la variable explicativa y dentro de ella la particin entre categoras de la
misma que de una parte maximiza la varianza intergrupos y minimiza la intragrupos.
Las particiones de las variables independientes dependen de si se las considere
Variables libres es decir, utiliza todas las combinaciones dicotmicas posibles entre las
categoras, permite incluir en cada grupo diversas categoras no secuenciales. Por
ejemplo en un mismo segmento pueden estas personas con ingreso inferiores a 1000
euros con de 1500 a 2000 y de 5000 a 10000 euros.
Variables montonas, la particin solo es posible en sentido ascendente o descendente.
Por ejemplo menos de 5.000 euros, ms de 5.000 euros.
Como el AID no proporciona una funcin, esta tcnica puede utilizarse conjuntamente
con otras tcnicas multivariantes para completar el anlisis. Con el AID se aslan en
primer lugar las variables y categoras que mejor explican en mayor medida la varianza

## de la variable criterio (Y), seguidamente se puede aplicar un anlisis de regresin para

estimar los parmetros de las variables seleccionadas por el AID con el fin de poder
realizar predicciones.
13.2.1 VENTAJAS E INCONVENIENTES
La tcnica AID nos permite:
Conocer las variables independientes que mejor explican la independiente
Determinar el poder diferenciador de tales variables explicativas, ya que se conoce la
varianza que explica
Identificar segmentos y sus caractersticas
Conocer la media de la variable criterio para cada segmento
Fcil comprensin ya que los resultados se representan normalmente en forma
arbolescente
Por el contrario la tcnica AID presenta las siguientes limitaciones
Es necesario disponer de muestras grandes (1000 ms
unidades) Se necesita el que existan varios predictores
La primera variable elegida condiciona las sucesivas particiones

14. CHI-SQUARED

AUTOMATIC

INTERACTION

DETECTION (CHAID)
14.1 CONCEPTO
Esta tcnica estadstica estudia la relacin entre una variable criterio (Y) que puede ser
tanto cualitativa como mtrica y mltiples variables cualitativas
Este modelo es muy similar al AID, pero a diferencia de este que las particiones son
dicotmicas, en el CHAID no tienen por que ser dicotmicas. El criterio de particin de
las variables segn las categoras de las mismas se basa en la maximizacin de la ji
8

## Segn Magidson (1994) presenta las siguientes mejoras respecto al AID

Magidson (1994) Cita en Tcnicas de anlisis de datos en investigacin de mercados. Teodoro Luque
Martinez y otros Ed. Pirmide 2000

## Une aquellas categoras de un predictor ms homogneas con respecto a la variable

dependiente, pero mantiene todas las categoras que sean heterogneas. En suma,
combina categoras que no difieran mucho entre ellas.
CHAID no necesariamente ser una divisin dicotmica.
Para dividir un grupo solamente se eligirn variables que sean estadsticamente
significativas.
CHAID compara el valor p asociado con el test de independencia de la variable
dicotmica con el valor p ajustado de Bonferroni para la variable con varias categoras.
La mejor variable predictora ser la que presente menor p ajustado.
CHAID considere tres tipos de variables
Variables libres es decir, utiliza todas las combinaciones dicotmicas posibles entre las
categoras, permite incluir en cada grupo diversas categoras no secuenciales.
Por ejemplo en un mismo segmento pueden estas personas con ingreso inferiores a 1000
euros con de 1500 a 2000 y de 5000 a 10000 euros.
Variables montonas, la particin solo es posible en sentido ascendente o descendente.
Por ejemplo menos de 5.000 euros, ms de 5.000 euros.
Variable Flotante es similar a la montona, salvo en la ltima categora (suele ser
Otros) que puede ser unida a cualquier otra categora. Esto no sirve si la variable es
dicotmica.
14.1.1 PROCESO
El proceso lo podemos resumir como sigue

independientes

## Se desarrollan las tabulaciones cruzadas entre las variables independientes (X) y

la dependiente (Y)

de unirse y la variable dependiente

sola categora

## Entre los pares significativos la unin se realiza para las categoras ms

parecidas, es decir las que tengan menor Chi cuadrado, y con pocas
observaciones

para dividir

## Si p no es significativo no se procede a la divisin

Este proceso se repite hasta la obtencin de todos los grupos, o bien hasta
alcanzar la dimensin de grupo mnimo.

las tablas de ganancia

La informacin obtenida nos permite:

intervienen

## 14.1.3 VENTAJAS E INCONVENIENTES

Entre las ventajas podemos destacar:

## La particin no tiene por que ser dicotmica

Elimina o corrige el sesgo de que las variables con muchas categoras sean
seleccionadas para la particin, solamente por esta razn

## Puede intervenir el investigador introduciendo variables predictoras, aunque no

sean las ms significativas.

## Como inconvenientes son de destacar los

siguientes: La respuesta obtenida no tiene por que
ser la optima
Hay que tener en cuenta las restricciones dela prueba de Chi cuadrado (meno de 5
observaciones en el 20% de las celdas)
Se necesitan muestras amplias, (ms de 1000 unidades)

## 15. EJEMPLO LOS PROGRAMAS DE FORMACIN EN

MARKETING EN EL COMERCIO
9

## M. TERESA OBIS ARTAL

EDUARDO M. JIMNEZ MARQUS
10

15.1 RESUMEN
A lo largo de este trabajo se analiza la actitud hacia la formacin en marketing por
parte del sector comercio. A partir de una encuesta personal realizada por IMSO, S.L.
a 818 comercios de Zaragoza, ciudad que consideramos representativa, y tras la
aplicacin de diferentes tcnicas de investigacin tanto de reduccin de dimensiones
(anlisis factorial de componentes principales y de correspondencias) como de
segmentacin (anlisis CHAID y AID) se caracterizan los comercios segn que realicen
o no formacin y segn la valoracin que realizan a diferentes programas de formacin
en marketing (genricos, de atencin al cliente y tcnicos con ordenador). Se concluye
que la realizacin de formacin depende, bsicamente, del nmero de trabajadores y de
la utilizacin de herramientas de marketing. En cuanto a los diferentes programas de
formacin, son estas variables junto con la antigedad del establecimiento y los
artculos que comercializa, las que proporcionan una valoracin estadsticamente
diferente de los mismos.
Palabras clave: Comercio, Formacin, Componentes principales, A. Correspondencias, AID, CHAID
Keywords: Trade, Formation, Principal Components Analysis, Correspondence Analyisis, AID, CHAID.

15.2 INTRODUCCIN
Segn la Encuesta de Comercio Interior del ao 1992, publicada en 1996, el sector
comercio en Espaa est constituido por un total de 642.780 empresas. Su relevancia en
9

Los autores agradecen la financiacin recibida de la DGES, proyecto PB95-0616 (T.Obis) y DGICYT,
proyecto PB94-0708 (J.Rialp).
10
Departamento de Economa de la Empresa. Facultad de Ciencias Econmicas y Empresariales.
Universidad Autnoma de Barcelona. Edificio B. Campus de Bellaterra. 08193 (Barcelona).
Tel.: 93 - 581 12 09. Fax: 93 - 581 25 55. E-mail: teresa.obis@uab.es / josep.rialp@uab.es

## la economa queda de manifiesto si se considera que este sector ocupa a ms de 2

millones de trabajadores, lo que representa aproximadamente un 17% del empleo del
pas. Sin embargo, y como seala Kotler (1992, p. 596), nicamente algunos de los
ptimo servicio a sus clientes y hayan adoptado prcticas modernas de marketing y
gestin, sobrevivirn.
Centrndonos en el ltimo de los aspectos enumerados por Kotler, en un estudio
elaborado por Obis et. al. (1997) se pone de manifiesto que el comercio minorista, en
general, no utiliza de forma extensiva las herramientas de marketing. Por tanto, algunas
empresas de este sector se obstaculizan su supervivencia. Estos resultados se encuentran
en la lnea de los obtenidos por Rodrguez del Bosque et al. (1997). En su trabajo se
puede observar, por ejemplo, como el pequeo comercio autnomo tiene objetivos ms
conservadores en la marcha de su negocio que las empresas que recurren a estructuras
detecta que la edad de los comerciantes influye en los objetivos perseguidos.
El inters que se origina llegados a este punto sera responder por qu los
establecimientos comerciales no utilizan herramientas de marketing si stas favorecen
su subsistencia. En nuestra opinin, la respuesta a esta pregunta podra ir por dos
direcciones: se podra pensar, por un lado, que estas herramientas realmente no se
necesitan en los establecimientos comerciales y, por otro, que los establecimientos
comerciales desconocen tanto la existencia como la forma de emplear estas
herramientas.
La primera de las causas sealadas no parece justificar el escaso empleo de estas
herramientas pues en un entorno turbulento, donde el nmero de competidores aumenta,
los consumidores estn mejor informados y el ciclo de vida de los productos cada vez es
ms corto (Santesmases, 1992), el conocimiento y la aplicacin de diversas tcnicas de
marketing pueden proporcionar una mejor satisfaccin de las necesidades del
consumidor, lo que a su vez favorece la subsistencia del comercio. En consecuencia, el
desconocimiento tanto de las herramientas como de su uso sera lo que explicara el
escaso empleo de las herramientas de marketing.

## 15.3 OBJETIVOS DEL TRABAJO E HIPTESIS

Dada la situacin de desconocimiento planteada en la introduccin de este trabajo, nos
parece interesante profundizar en los programas de formacin en marketing que realizan
los comercios detallistas. En la literatura especializada, los programas de formacin, de
forma general, se consideran que favorecen la subsistencia de las empresas (Davies y
Ingram, 1996; Weeks y Stevens, 1997). Por ello, con este trabajo pretendemos
establecer cul es el seguimiento de los programas de formacin por parte de los
establecimientos de comercio. Es ms, en caso de que los establecimientos de comercio
no sigan ningn programa de formacin, trataremos de determinar las causas ya que tal
vez el no seguimiento se produce porque estos programas no encajan con las
necesidades de los comercios. Los resultados del trabajo de Hogarth-Scott y Jones
(1993), por ejemplo, establecen que las pequeas empresas en West Yorkshire sienten
que el nivel de soporte no es adecuado y que no existen cursos de formacin que
encajen con las necesidades de las pequeas empresas.
Adems, en este trabajo se intenta determinar qu establecimientos siguen planes de
formacin, qu caractersticas presentan y, por ltimo, se trata de identificar aquellos
comercios que pueden estar ms interesados en seguir un plan de formacin de
naturaleza ms genrico o uno ms especifico, por ejemplo, un programa de formacin
centrado en la relacin con el cliente o con instrumentos tcnicos de soporte a la
gestin. De hecho, en la literatura hay diferentes trabajos que, con distintos fines, han
pretendido clasificar a los establecimientos comerciales (Weiers, 1986; Rebollo, 1993;
Sainz de Vicua, 1996; Sarabia y Ruiz de Maya, 1996).
En el trabajo mencionado anteriormente de Obis et al. (1997) se establece que los que
cuentan con ms de 6 empleados; los establecimientos en forma de sociedades o
confeccin, moda y textil; los que inician la actividad entre 1991 y 1996; los que
presentan una superficie de la sala de ventas superior a los 150 m2; los que cuentan con
una direccin con una edad que oscila entre 26 y 45 aos y los que el porcentaje de
clientes de la zona de influencia no supera el 50%, son los establecimientos que
emplean y/o utilizan ms herramientas de marketing. En la lnea de este resultado
nuestra primera hiptesis establece que van a ser los establecimientos que ms utilizan

las herramientas de marketing los que ms van a seguir cursos de formacin. De hecho,
no podemos establecer cul es la causa y cul el efecto, pero lo cierto es que cuanta ms
formacin ms marketing (o viceversa).
De igual forma, se puede suponer que algunas de estas caractersticas de los
programa de formacin. Adems, la realizacin de programas de formacin y el grado
de utilizacin de las herramientas de marketing tambin pueden afectar la valoracin a
En resumen, las hiptesis a contrastar en nuestro trabajo son dos:
H1: Los establecimientos que realizan ms formacin son los que emplean ms
herramientas de marketing.
H2: La valoracin a los distintos programas de formacin en marketing viene
determinada por la actitud hacia la formacin, el grado de utilizacin del
marketing y algunas otras caractersticas del establecimiento comercial.

## 15.4 METODOLOGA: VARIABLES Y TCNICAS A UTILIZAR

11

tcnicas de investigacin sobre los datos obtenidos con una encuesta estructurada ,
recogida mediante entrevista personal, a una muestra estadsticamente representativa del
12

## sector comercio detallista en Zaragoza .

En el siguiente cuadro se presenta la ficha tcnica de la encuesta realizada:

11

Queremos agradecer a IMSO, S.L. la cesin de la encuesta y los datos que nos han permitido la
realizacin del trabajo.
12

suponen representativos del comercio en todo el territorio nacional. El hecho de que otros autores (p.e.
Rodrguez del Bosque et al. 1997) lleguen a conclusiones similares en otros estudios nos confirma este
supuesto.

Ficha tcnica de la encuesta.

Caractersticas

Encuesta

Universo

CNAE93

13

mbito geogrfico

## Mtodo de recogida de informacin

Tamao de la muestra

## 818 encuestas vlidas

Nivel de confianza

95,5%, p = q = 0,5

Error muestral

3,3%

Procedimiento de muestreo

## De la encuesta, hemos seleccionado aquellas variables que se van a utilizar en esta

investigacin. Estas pueden clasificarse en tres grupos: variables caracterizadoras de los
establecimientos encuestados, variables de utilizacin de herramientas de marketing y,
por ltimo, variables referidas a la valoracin de los programas de formacin
Las variables de los primeros dos grupos son de naturaleza cualitativa, mientras que
entre las variables del tercer grupo encontramos dos de naturaleza cualitativa (P17 y
P17B) y el resto, valoraciones a los programas de formacin, que son de naturaleza
cuantitativa. En el Cuadro 2 se describen las variables de naturaleza cualitativa
(incluyendo los porcentajes que representan cada categora) y en el cuadro 3 las
variables cuantitativas (incluyendo su media y su desviacin tpica).

13

Quedan excluidas de esta encuesta las actividades comerciales comprendidas en la divisin 526 de la
CNAE93, que corresponden al comercio al por menor no realizado en establecimientos.

## 15.5 TCNICAS A UTILIZAR

15.5.1 TCNICAS DE REDUCCIN DE VARIABLES
Como se puede observar, hay un nmero considerable de variables que reflejan tanto
utilizacin de herramientas de marketing como valoraciones a programas de formacin.
Para sintetizar la informacin contenida en ambos colectivos se han utilizado dos
tcnicas descriptivas que si bien tienen el mismo objetivo requieren variables

de

diferente naturaleza. En concreto, las tcnicas que se han utilizado han sido:

## un anlisis factorial de componentes principales para resumir la informacin

contenida en las variables cuantitativas.

## un anlisis factorial de correspondencias mltiple para resumir la informacin

contenida en las variables cualitativas.

## 15.5.1.1 ANLISIS FACTORIAL DE COMPONENTES PRINCIPALES

Dentro del rea de anlisis multivariante que persigue la reduccin de dimensiones el
relativamente pequeo de factores que resumen la informacin compartida por muchas
variables relacionadas. Ya que la matriz de correlaciones entre todos los pares de
variables sirve como el punto del partida del anlisis factorial, la medicin de las
variables debe ser tal que el coeficiente de correlacin sea una medida estadstica
aceptable, por tanto, las variables que se utilizan en este anlisis son variables
cuantitativas o asimilables a cuantitativas. En nuestro caso, las variables que recogen las
valoraciones a los programas de formacin cumplen esta condicin.
El anlisis se efecta expresando cada variable como una combinacin lineal de un
nmero pequeo de factores, los cuales son compartidos por todas las variables, y un
factor nico que es especfico para la variable. Los factores comunes se estiman como
combinacin lineal de las variables originales y para mejorar su interpretacin se puede
proceder a alguna rotacin de la solucin inicial.
15.5.1.2 ANLISIS FACTORIAL DE CORRESPONDENCIAS MLTIPLE
Dentro del rea de anlisis multivariante que persigue la reduccin de dimensiones
tambin se encuentran los procedimientos de escalamiento ptimo, que en cierta forma

## suponen una extensin de las tcnicas estadsticas de componentes principales y del

anlisis de correlacin cannica ya que las variables empleadas son de naturaleza
cualitativa. Ms concretamente, el resultado de un anlisis de escalamiento ptimo
incluye un conjunto de puntuaciones ptimas o cuantificaciones de las categoras de las
variables cualitativas que se analizan, tratando de recoger la mayor asociacin posible
entre las mismas. Estas puntuaciones permiten determinar, dentro de una misma
variable, que categoras son similares o diferentes y qu categoras podran agruparse; y
entre variables distintas, que categoras van juntas y cul es la correlacin mxima entre
las variables.

Variables cualitativas utilizadas en este estudio. Porcentajes por categora.
1 Alimentacin y bebidas
2 Confeccin, moda y textil
3 Manufacturas
4 Ocio y recreo
5 Servicios y otros
6 NS/NC
1 Autnomo/Soc. Civil
P02 Tipo de direccin
1 Propietario
1 Antes de 1980
2 De 1980 a 1985
3 De 1986 a 1990
4 De 1991 a 1996
P04 Superficie sala ventas
2
1 Hasta 50 m
2 51 100
3 101 150
4 Ms de 150
P05 Tipo de establecimiento
1 Independiente
1 1
2 2
3 36
4 Ms de 6
1 18-25 aos
2 26-45 aos
3 Ms de 46
4 NS/NC
P36.1 % clientes zona influencia
1 Hasta el 50%
2 Del 50 al 99
3 Todos (100%)
4 NS/NC
1 No Importa
2 Si, mayoristas
3 Si, directamente
P75
Tipo de artculo que comercializa
1 Cotidiano
4 Varios tipos

14,2
14,9
8,3
12,3
14,7
35,6
70,8
29,2
85,6
14,4
37,9
18,6
18,7
24,8
67,0
21,4
5,0
6,6
83,5
16,5
38,1
29,1
25,8
7,0
1,6
27,8
21,6
49,0
30,3
24,2
26,9
18,6
38,3
47,3
14,4
24,1
16,0
42,4
17,5

## Herramientas de marketing (%)

P37 Dispone de base datos clientes
1 No BDC
2 Si BDC
P38 Ha hecho publicidad en el ltimo ao
1 No Pub
2 Si Pub
P40 Trabaja con alguna agencia
1 No APu
2 Si APu
P39 Principal medio publicitario
1 T.V.
3 Prensa
4 Buzoneo
5 Otros
P41 Hace alguna promocin
1 No Pro
2 Si Pro
P43 Aplica tcnicas Merchandising
1 No Merchandising
2 No s que es
3 Si Merchandising
P44 Contrata escaparatistas profesionales
1 No Esc
2 Si Esc
P48 Realiz un estudio de
1 No EMe
2 Si EMe
P53 Acude a ferias y certmenes
1 No FyC
2 Si FyC
Variables de formacin
los 2 ltimos aos
1 Si hacemos formacin
3 No, no existen programas
4 No, por falta de tiempo
5 No, por otros motivos
NS/NC
los 2 ltimos aos (binaria)
1 Si Formacin
2 No Formacin
Nm. de casos vlidos

Fuente: Elaboracin propia a partir de los datos suministrados por IMSO, S.L.

58,9
41,1
49,1
50,9
80,9
19,1
5,0
25,1
29,6
25,4
14,9
52,7
47,3
39,9
40,6
19,6
90,7
9,3
78,1
21,9
30,6
69,4
%

32,9
18,8
5,4
24,4
10,0
8,4
32,9
67,1
818

Media

Desviacin
Estndar

Casos
vlidos

con Marketing
P29.AC

8,40

2,71

750

P29.DO

## Val. PF Diseo asistido

2,87

2,95

669

P29.ES

Val. PF Escaparatismo

7,27

3,17

735

P29.GS

## Val. PF Gestin stock

5,18

3,62

674

P29.ME

Val. PF Merchandising

4,46

3,47

538

P29.MK

Val. PF Marketing

5,36

3,40

708

P29.PC

## Val. PF Psicologa consumidor

6,64

3,30

714

P29.PR

Val. PF Promocin

6,56

3,45

703

P29.PU

5,60

3,39

718

P29.TE

Val. PF Telemarketing

2,59

2,65

629

P29.TN

Val. PF Tcnicas de

5,25

3,50

692

7,16

3,23

739

negociacin
P29.TV

## Val. PF Tcnicas de ventas

Fuente: Elaboracin propia a partir de los datos suministrados por IMSO, S.L.
Casos vlidos en el conjunto de las 12 variables: 475.

Por tanto, ya que las puntuaciones tienen propiedades mtricas, esta tcnica se ha
descrito como una forma de cuantificar datos cualitativos. El paquete estadstico SPSS
presenta diferentes procedimientos de escalamiento ptimo que se pueden clasificar en
14

funcin del nmero y tipo de variables cualitativas que se utilizan . Dado que las
variables de utilizacin de herramientas de marketing que consideramos en nuestro
14

Cuando el nmero de variables que se relaciona son 2 y estn medidas con una escala nominal, el
procedimiento a utilizar es el ANACOR (el anlisis de correspondencia simple). Cuando se relacionan
ms de 2 variables cualitativas nominales el procedimiento recomendado es el HOMALS (el anlisis de
correspondencia mltiple). Si entre las variables que se relacionan tenemos algunas ordinales o numricas
el procedimiento a utilizar es el PRINCALS (el anlisis de componentes principales no lineal) y, por
ltimo, tenemos el OVERALS (el anlisis del coeficiente de correlacin cannica no lineal) que es el ms
general de los procedimientos mencionados ya que dependiendo de la naturaleza de las variables puede
originar los resultados obtenidos con los dems procedimientos.

## anlisis son de naturaleza nominal, el procedimiento que hemos utilizado ha sido el

anlisis de correspondencias mltiple (el HOMALS). El input para este anlisis es una
matriz donde las filas representan objetos (en nuestro caso los establecimientos) y las
columnas variables (las diferentes herramientas de marketing consideradas). En

el

## anlisis slo se considera la informacin categrica de las variables, es decir, la nica

consideracin que se realiza es que algunos objetos estn en la misma categora
mientras que otros no. No se realizan supuestos sobre las distancias o el orden entre las
categoras de una misma variable.
El HOMALS va asignando puntuaciones a cada categora de cada variable de forma que
las categoras tengan la mxima extensin, es decir, que las categoras estn separadas
unas de otras tanto como sea posible. El anlisis HOMALS tambin asigna
puntuaciones a los objetos de forma que las cuantificaciones de las categoras son los
promedios (los centroides) de las puntuaciones a los objetos que se encuentran en la
15

misma categora .
Por diseo, el anlisis HOMALS trata de producir una solucin en la cual los objetos
dentro de la misma categora son representados juntos y objetos en diferentes categoras
son representados alejados unos de otros. Esto se hace para todas las variables en el
anlisis. Las representaciones tienen la propiedad de que cada objeto est tan prximo
como sea posible a las puntuaciones de las categoras a las que pertenece. En este
sentido, las categoras dividen los objetos en subgrupos homogneos (esta es una de las
razones para denominarlo anlisis de homogeneidad). Las variables se consideran
homogneas cuando clasifican los objetos dentro de los mismos subgrupos.
15.5.2 TCNICAS DE SEGMENTACIN
Los objetivos que persigue este trabajo son tanto la caracterizacin de las empresas de
comercio que realizan programas de formacin en marketing como la caracterizacin de
las empresas segn la valoracin a unos programas de formacin especficos del campo
de marketing.

15

El mtodo que utiliza en este procedimientos es el de los mnimos cuadrados alternativos (ALS). Se
trata de un mtodo iterativo en el cual las estimaciones mnimo cuadrado de las puntuaciones de los
objetos y nuevas cuantificaciones dadas a las puntuaciones estimadas de los objetos se calculan
alternativamente.

## En cierta forma, queremos dividir los establecimientos de comercio en segmentos que

se diferencian con respecto, en este caso, a dos criterios:
1. la realizacin o no de formacin, y en caso negativo el motivo de ello.
2. la valoracin a diferentes programas de formacin de marketing.
Como se puede intuir, el primer criterio queda recogido por una variable de naturaleza
cualitativa ya que se pueden agrupar los establecimientos en diferentes categoras;
mientras que la variable o variables que representan el segundo criterio son de
naturaleza cuantitativa pues se trata de una valoracin. Ello lleva a que las tcnicas a
utilizar sean diferentes en cada caso. En concreto, para cumplir el primer objetivo
aplicaremos un anlisis CHAID mientras que para el segundo aplicaremos la tcnica del
AID.
15.5.2.1 ANLISIS CHAID.
Como se puede ver en el Cuadro 2, hay una variable que caracteriza a los
en los 2 ltimos aos (la variable a la que nos referimos es la P17, variable cualitativa
con 5 categoras).
Ya que nuestro objetivo es dividir los establecimientos en segmentos que se diferencian
con respecto a un determinado criterio (en este caso la realizacin o no de formacin y
en caso negativo si ha sido porque no se necesita o por otras causas), ejecutamos un
Magidson, 1988). Este anlisis divide la poblacin en grupos distintos basndose en las
16

categoras del mejor predictor de la variable dependiente , que debe ser categrica.
Cada uno de los grupos los divide posteriormente en grupos ms pequeos basndose en
otras variables predictivas. Este proceso de divisin contina hasta que no se pueden
encontrar ms predictores estadsticamente significativos o hasta que el tamao de los
grupos llega a un mnimo establecido.
Los segmentos que el CHAID obtiene son mutuamente exclusivos y exhaustivos; es
decir, los segmentos no se sobreponen y cada caso es contenido exactamente en un
segmento. Adems, como los segmentos son definidos por combinaciones de variables

## predictivas, fcilmente se puede clasificar cada caso en su segmento apropiado

simplemente conociendo sus categoras en las variables predictivas. El CHAID fusiona
categoras de las variables predictoras que no son significativamente diferentes. Este
procedimiento, combinado con el algoritmo de divisin, asegura que los casos en un
mismo segmento son homogneos respecto al criterio de segmentacin mientras que los
casos en segmentos diferentes tienden a ser heterogneos con respecto al criterio de
segmentacin.
15.5.2.2 ANLISIS AID
El AID o deteccin automtica de interacciones es una tcnica de anlisis estadstico
que se utiliza para estudiar la relacin de dependencia entre una variable dependiente y
mltiples predictoras. Su aplicacin, como en el caso del CHAID, permite dividir un
conjunto de individuos o entidades de acuerdo con un determinado criterio. Sin
embargo, y a diferencia de este anlisis, la variable dependiente o a explicar debe estar
17

medida en una escala mtrica o dicotmica . En nuestro caso vamos a contar con los
factores que van a resumir la valoracin que las empresas de comercio realizan a los
programas de formacin. Los factores resultantes del anlisis factorial son variables de
naturaleza cuantitativa.
Este anlisis procede de forma secuencial, mediante el anlisis de varianza, realizando
divisiones de la variable dependiente. Como en el caso anterior, divide la poblacin en
grupos distintos basndose en la variable que mejor explica las diferencias en la variable
dependiente. Cada grupo se vuelve a subdividir por la variable que mejor explica las
diferencias entre ellos. El proceso continua hasta que las diferencias entre los valores
medios de la variable dependiente en los grupos no son diferentes o hasta que el tamao
de los grupos llega a un mnimo establecido. Por tanto, se podra pensar que el AID
constituye un anlisis de varianza secuencial que permite aislar aquellas variables, y
niveles dentro de las mismas, que explican en mayor medida la varianza de la variable
dependiente. A diferencia de las tcnicas anteriores, que se han obtenido con el paquete

16

El empleo de una variable dependiente es la principal diferencia entre el CHAID y el anlisis Cluster
17
Por lo que respecta a las variables independientes o explicativas pueden ser variables medidas en
escalas nominales u ordinales.

estadstico SPSS para Windows versin 7.5, los resultados del AID se han obtenido con
el DYANE (Santesmases, 1996).

15.6.1 IDENTIFICACIN

DE

DIFERENTES

PROGRAMAS

DE

FORMACIN.
La primera etapa en la aplicacin de un anlisis factorial consiste en verificar la
adecuacin del empleo de este anlisis. Para comprobar dicha adecuacin se utiliza el
KMO y la significacin del test de esfericidad de Barlett. En este caso ambos
indicadores permiten establecer la adecuacin de aplicar un factorial a la variables que
recogen la valoracin a diferentes programas de formacin (KMO = 0.875 y
significacin del test de Barlett inferior al 5%).
Los tres factores extrados por componentes principales (ver Cuadro 4) explican ms del
60% de la varianza total. Aplicando una rotacin varimax se puede establecer que:
1. El primer factor representa los programas de formacin en marketing que
podramos denominar genricos. Las variables con una mayor correlacin son la
valoracin al programa de formacin en publicidad, en marketing, en promocin y
en merchandising.
2. El segundo factor representa los programas de formacin enfocados al clientes.
Las variables que hacen referencia a la valoracin de un programa de formacin
de atencin al cliente y de psicologa del consumidor presentan correlaciones que
superan el 0,70 (concretamente, 0,768 y 0,749 respectivamente).
3. El tercer factor representa los programas de formacin tcnicos que implican el
empleo de herramientas informticas (la variable que recoge la valoracin a los
programas de formacin de diseo asistido por ordenador presenta la correlacin
ms alta con este factor: 0.758).

Matriz Factorial

Matriz Factorial

Variables

F1

F2

F3

F1

,75

,01

-,38

,72

,80

Val. PF Marketing

,73

,17

-,31

,66

,75

Val. PF Promocin

,74

,11

-,16

,59

,64

Val. PF Merchandising

,66

,14

-,22

,52

,64

## Val. PF Atencin Cliente

,56

-,54

,13

,63

,77

Val. PF Psicolog.

,59

-,29

,51

,70

,75

## Val. PF Tc. Ventas

,66

-,37

-,00

,58

,40

,64

Val. PF Escaparatismo

,58

-,46

-,20

,60

,48

,59

## Val. PF Diseo asis.

,45

,54

,31

,60

Val. PF Telemarketing

,58

,50

,14

,62

,66

,00

,33

,55

,66

,00

,13

,47

Valor propio

4,98

1,37

41,51

41,51

F2

F3

,33

,38

consumidor

,76

,37

,70
,49

,52

,37

,36

,45

,90

2,78

2,46

2,00

11,42

7,49

23,22

20,52

16,70

52,93

60,43

23,22

43,73

60,43

## Fuente: elaboracin propia.

Por tanto, la reduccin que consigue el anlisis factorial permite identificar tres tipos
de programas en marketing: los programas genricos, los programas enfocados a
cliente y, por ltimo, los programas tcnicos asistidos por ordenador. En el apartado
4.4. se clasificarn los establecimientos comerciales que prefieren cada uno de estos
programas.

## 15.7 UTILIZACIN DE HERRAMIENTAS DE MARKETING

Como se ha comentado anteriormente, el anlisis HOMALS permite clasificar en un
mismo grupo a aquellas observaciones que se asemejan entre s. Como se puede ver en
18

el Cuadro 5 , la primera dimensin que extrae este anlisis, la del eje de abcisas,
claramente separa las empresas que emplean herramientas de marketing de las que no.
La segunda dimensin parece que solamente tiene influencia en

aquellos

## establecimientos comerciales que emplean herramientas de marketing. No

provoca

ninguna diferencia relevante entre los que no emplean estas herramientas mientras que
entre los que s utilizan herramientas de marketing separa los que usan herramientas
ms sofisticadas o complejas de los que aplican herramientas ms bsicas.
Debido a que pretendemos utilizar esta informacin en las tcnicas de segmentacin
AID y CHAID, necesitamos recodificar estas dimensiones en una variable cualitativa.
Considerando conjuntamente las dos dimensiones hemos definido la variable Grado de
aplicacin de Marketing que permite clasificar a las empresas en tres grupos segn la
utilizacin que hacen de las diferentes herramientas de marketing (ver Cuadro 6):
empresas que NO emplean herramientas de marketing, empresas que emplean las
herramientas de marketing ms bsicas y empresas que utilizan herramientas ms

18

Los eigenvalues de las dimensiones del HOMALS son 0.323 para la primera dimensin y 0.142 para la
segunda.

Resultados del Anlisis de correspondencias mltiples.
Posicionamiento de cada categora en los factores
1,5
Buzoneo
Prensa

1,0

No Merc and
h
Si Pub
No EMesc
o
A
No
E
s e Pro
qu
Si BDOCtros
e
No
BDC eSs i
Pu
NoNNo
FoyNC
FyC

,5
0,0

Ferias y certmenes

NNoomPeudbios

Escaparatistas prof.

-,5

-1,5
-2,0
-2,5
-1,5

Dimensin 2

-1,0

Tcnicas Merchandis
SSii MEeMrechand

Aguna promocin
Medio publicitario

Si Esc
T.V.

Base datos clientes

-1,0

-,5

0,0

,5

1,0

1,5

2,0

Dimensin 1
Fuente: elaboracin propia.

## Conviene remarcar que con la reclasificacin de los establecimientos comerciales en

tres categoras segn el grado de utilizacin de herramientas de marketing se preservan
los resultados obtenidos con el anlisis factorial de correspondencias mltiple. Para
verificar este aspecto hemos realizado tablas de contingencia cruzando la variable
hiptesis nula de independencia entre las variables con un nivel de confianza
prcticamente absoluto.

Recodificacin de la variable Marketing Tabla
de frecuencia Grado aplicacin de marketing
Categora
No Marketing
Marketing Bsico
Total

Definicin
Dimensin 1 <= 0
Dimensin 1 > 0 y Dimensin 2 > 0
Dimensin 1 > 0 y Dimensin 2 < 0

Frecuencia
412
261
145
818

Porcentaje
50,4
31,9
17,7
100,0

## Fuente: elaboracin propia.

15.8 CLASIFICACIN

DE

LOS

ESTABLECIMIENTOS

## COMERCIALES SEGN LA REALIZACIN O NO DE

PROGRAMAS DE FORMACIN
El anlisis CHAID utilizado para caracterizar a los establecimientos que han realizado
una determinada formacin en los dos ltimos aos divide a los establecimientos en 8
grupos:
Grupo 1: est formado por los establecimientos con un solo empleado (285
establecimientos). De estos un 37,89% no hacen formacin por falta de tiempo y un
28,42% considera que no tienen necesidad.
Grupo 2: Est formado por los establecimientos con dos empleados, que no utilizan
herramientas de marketing y que son autnomos (en total, 85 establecimientos). De
stos un 30,59% no hacen formacin porque no tienen necesidad y un 36,47% no la
hacen por falta de tiempo.
Grupo 3: Tambin est formado por los establecimientos con dos empleados que no
utilizan herramientas de marketing pero en este caso tienen forma de sociedad o
cooperativa (26 establecimientos). Un 38,46% de estos establecimientos hacen
formacin mientras que un 23,08% no hacen formacin por otros motivos.
herramientas de marketing, ya sean bsicas o sofisticadas. De estos establecimientos
ms de un 50% realizan cursos de formacin.
Grupo 5: Esta formado por aquellos establecimientos que cuentan con un nmero de
empleados que oscila entre 3 y 6, que no utilizan herramientas de marketing

o utilizan

## herramientas bsicas y que no importan productos. De estos establecimientos, 54 en

total, un 42,59% hacen cursos de formacin y un 24,07% sealan que no tienen
Grupo 6: Lo forman los establecimientos que cuentan con un nmero de empleados que
oscila entre 3 y 6, que no utilizan herramientas de marketing o utilizan herramientas
bsicas y que venden productos importados. De estos establecimientos, 95 en total, un
48,42% hacen cursos de formacin y un 10,53% sealan que no hacen porque no
Grupo 7: Este grupo est compuesto por los establecimientos que cuentan con un
nmero de empleados que oscila entre 3 y 6 y que aplican marketing sofisticado. En
total son 46 establecimientos de la muestra de los cuales el 67,39% hacen cursos de
formacin y un 15,22% no hacen cursos de formacin por diferentes motivos.
Grupo 8: Est formado por los establecimientos con ms de 6 empleados (51). De estos
ms del 82% hacen cursos de formacin mientras que no hay ninguno que diga no hacer
cursos de formacin por no tener necesidad.
En conclusin, la mayor diferenciacin entre los que realizan programas de formacin y
los que no los hacen es el tamao del establecimiento (a mayor tamao ms realizacin
de formacin). El grado de utilizacin de las herramientas de marketing tambin
diferencia entre los que realizan o no programas de formacin pero slo en
establecimientos de 2 empleados o de 3 a 6. La no existencia de programas

de

## formacin adecuados no parece ser una justificacin importante para la no realizacin

de programas de formacin puesto que en la mayora de grupos nicamente alrededor
de un 5% mencionan este aspecto, a excepcin de los establecimientos de 3 a 6
trabajadores, que no aplican marketing o bien realizan un marketing bsico y que
manifiestan un 10,5% de los establecimientos).

Resultados del Anlisis de clasificacin Chaid.
Caractersticas de las empresas segn formacin
Total
Si Form: 35,91
No nece: 20,56
No progr: 5,87
Falta tpo: 26,70
Otros mo: 10,95
n = 749

Nmero de

Si Form: 18,25
No nece: 28,42
No progr: 6,67
Falta tpo: 37,89
Otros mo: 8,77
n =285

Si Form: 34,40
No nece: 22,02
No progr: 5,05
Falta tpo: 25,69
Otros mo: 12,84
n = 218

3-6

Ms de 6

Si Form: 51,28
No nece: 12,82
No progr: 6,67
Falta tpo: 17,44
Otros mo: 11,79
n = 195

Si Form: 82,3
No nece: 0,0
No progr: 1,9
Falta tpo: 3,9
Otros mo: 11,7
n = 51

(8)

(1)
Utilizacin de
Marketing
Mark. Bsico

No Marketing
Mark. Bsico

Si Form: 50,47
No nece: 16,82
No progr: 4,67
Falta tpo: 18,69
Otros mo: 9,35
N = 107

Si Form: 46,31
No nece: 15,44
No progr: 6,71
Falta tpo: 20,81
Otros mo: 10,74
n = 149

No Marketing
Si Form: 18,92
No nece: 27,03
No progr: 5,41
Falta tpo: 32,43
Otros mo: 16,22
n = 111

Utilizacin de
Marketing

(4)

Vende produc.
Autnomo

No importa

Si importa

Si Form: 12,94
No nece: 30,59
No progr: 5,88
Falta tpo: 36,47
Otros mo: 14,12
n = 85

Si Form: 38,46
No nece: 15,38
No progr: 3,85
Falta tpo: 19,23
Otros mo: 23,08
n = 26

Si Form: 42,59
No nece: 24,07
No progr: 0,00
Falta tpo: 20,37
Otros mo: 12,96
n = 54

Si Form: 48,42
No nece: 10,53
No progr: 10,53
Falta tpo: 21,05
Otros mo: 9,47
n = 95

(2)

(3)

(5)

(6)

Marketing
Si Form: 67,39
No nece:
4,35
No progr: Falta tpo:
6,52
6,52
Otros mo: 15,22
n = 46

(7)

15.9 CLASIFICACIN

DE

LOS

ESTABLECIMIENTOS

## COMERCIALES SEGN EL TIPO DE PROGRAMA DE

anteriormente, se han identificado tres programas de formacin en marketing:
programas de formacin genricos, programas de formacin enfocados a cliente y
programas de formacin tcnicos asistidos por ordenador. A continuacin vamos a
identificar aquellos establecimientos que valoran ms cada uno de estos programas
aplicando la tcnica del AID.
15.9.1 ESTABLECIMIENTOS QUE VALORAN

LOS PROGRAMAS DE

FORMACIN GENRICOS
La aplicacin del AID tomando como variable cuantitativa el primer factor nos permite
identificar 6 grupos.

Total
Media:-0,011
D.Est.:0,999
n = 440

R = 0,041

Si Formacin

No Formacin

Media: D.Est.:
0,235
0,910
n = 178n = 262

Media:-0,178

Nmero de
R =
0,020

Ao comienzo
R = 0,030

Ms de 2

1y2

Media:0,036Media:0,484Media:
D.Est.:0,884D.Est.:0,830D.Est.:
n = 99n = 79

(1)

D.Est.: 0,989

Despus 1985

Antes 1986
Media:-0,383

0,071
0,976
n = 118

D.Est.: 0,906
n = 144

(2)

Artculos queUtilizacin de
comercializaMarketing
R = 0,020R = 0,010

y Cotidiano Media: D.Est.: y varios tipos
Media:-0,161
0,488
0,781
D.Est.: 0,801
n = 30n = 69n = 102n = 42

No Marketing
Media:-0,497
D.Est.: 0,789

Mark. Bsico
Media:-0,10
D.Est.: 1,08

Resultados del Anlisis de clasificacin AID.
Caractersticas de las empresas segn su valoracin
a los programas de formacin genricos de marketing
(3)

(4)

(5)

Grupo 1: Esta formado por 79 establecimientos que otorgan una valoracin media al
factor 1 de 0,4837. Son establecimientos que siguen cursos de formacin y que tienen 1

(6)

Grupo 2: En este grupo encontramos 118 establecimientos que otorgan una valoracin
media al factor 1 de 0,0713. Son establecimientos que no hacen formacin justificando
esta conducta por cualquiera de los motivos que se presentaban y que comenzaron su
Grupo 3: Se agrupan 30 establecimientos. Dan una valoracin al factor 1 de 0,4882. Son
establecimientos que hacen formacin, que tienen ms de 3 empleados y

que

Grupo 4: En este grupo encontramos 69 establecimientos comerciales que dan una
valoracin media al factor 1 negativa (-0,1605). Son establecimientos que hacen
formacin, que tienen ms de 3 empleados pero que comercializan artculos duraderos
especializados y artculos de varios tipos.
Grupo 5: Este grupo presenta 102 establecimientos que, como en el caso anterior,
tambin dan una valoracin negativa al factor 1 (-0,4970). Estos establecimientos no
hacen formacin y arguyen cualquiera de los motivos

son

## establecimientos que comenzaron su actividad antes de 1985 y que no aplican

herramientas de marketing.
Grupo 6: Aqu se agrupan 42 establecimientos que tambin dan una valoracin negativa
al factor 1. Como en el caso anterior, no hacen formacin y son establecimientos que
tambin comenzaron su actividad antes de 1985 pero, a diferencia de los
establecimientos del grupo anterior, utilizan herramientas de marketing bsicas y/o
En definitiva, los establecimientos que prefieren cursos de formacin genricos se
encuentran en los grupos 1 y 3. Por tanto, son establecimientos que siguen cursos de
formacin y que tienen 1 2 empleados o establecimientos que hacen formacin, que
cotidianos. Por contra, los que menos valoran este tipo de formacin son los
establecimientos del grupo 4 y 5, es decir, los que hacen formacin, tienen ms de 3
que no hacen formacin por los motivos sealados, operan desde antes de 1985 y no
utilizan herramientas de marketing.

## 15.9.2 ESTABLECIMIENTOS QUE VALORAN

LOS PROGRAMAS DE

La aplicacin del AID tomando como variable cuantitativa el segundo factor nos permite
identificar tambin en este caso 6 grupos:
Grupo 1: En este grupo encontramos 76 establecimientos que otorgan una valoracin
media al factor 2 de -0,5503. Son establecimientos que no hacen formacin justificando
Grupo 2: Esta formado por 58 establecimientos que otorgan una valoracin media al
factor 2 de 0,4736. Son establecimientos que siguen cursos de formacin o que no hacen
argumentando diferentes motivos excepto el que seala que no se hacen cursos porque
no se tiene necesidad y que comercializan varios tipos de articulo.
Grupo 3: Se agrupan 141 establecimientos. Dan una valoracin media al factor 2 de
0,0951. Son establecimientos que siguen cursos de formacin o que no hacen
argumentando diferentes motivos excepto el que seala que no se hacen cursos porque
y cotidianos, tienen una superficie de sala de ventas de hasta 50 m2 y la forma que

Resultados del Anlisis de clasificacin AID.
Caractersticas de las empresas segn su valoracin a los programas de formacin
Total
Media:-0,001
D.Est.:1,003
n = 440

R = 0,063

Si formacin
y no por otros

No tenemos

Media: D.Est.:
0,114
0,875
n = 364

Media:-0,550
D.Est.:1,266,
n = 76

(1)
Artculos que
comercializa
R =
0,020
Varios tipos

Especficos

Media:0,474Media:0,045
D.Est.:0,672D.Est.:0,884
n = 58N = 306

(2)
Superficie de ventas
R = 0,010

Ms de 50 m

Hasta 50 m

Media: D.Est.:
0,210
0,759
n = 108n = 198

Media: -0,045,
D.Est.: 0,929

Ao comienzo
R = 0,019

Tipo de
R =
0,022

Antes 1986

Despus 1985

Autnomo

Media: 0,468
D.Est.: 0,717
n = 58

Media: -0,090
D.Est.: 0,641
n = 50

Media: 0,095
D.Est.: 0,864
n = 141

Media: -0,390
D.Est.: 0,717
n = 58

(5)

(6)

(3)

(4)

## Grupo 4: En este grupo encontramos 58 establecimientos comerciales que dan una

valoracin media al factor 2 negativa (-0,39). En cuanto a las caractersticas, presentan
las mismas que los establecimientos del grupo 2 con la excepcin de que la forma que
Grupo 5: Este grupo presenta 58 establecimientos que dan una valoracin media al
factor 2 positiva (0,4683). Estos establecimientos no hacen formacin y arguyen
cualquiera de los motivos considerados excepto el de que no tienen necesidad,

tambin

## productos cotidianos, la superficie de la sala de ventas supera los 50m2 y son

establecimientos que comenzaron su actividad antes de 1985.
Grupo 6: Aqu se agrupan 50 establecimientos que dan una valoracin promedio al
factor 2 negativa (-0,0897). Respecto a las caractersticas presentan las mismas que el
grupo anterior a diferencia de que comenzaron su actividad despus de 1985.
En definitiva, los establecimientos comerciales que prefieren programas de formacin
enfocados a clientes son establecimientos que siguen cursos de formacin o que no
hacen argumentando diferentes motivos excepto el que seala que no se hacen cursos
porque no se tiene necesidad y que comercializan varios tipos de articulo. Tambin
estn los que presentan esas caractersticas pero comercializan productos duraderos de
temporada, especializados y cotidianos, tienen una superficie de sala de ventas de hasta
50 m2 y la forma que adoptan es la de autnomos o sociedad civil y, por ltimo, tenemos
los establecimientos que no hacen formacin y arguyen cualquiera de los motivos
(de temporada y especializados) y tambin productos cotidianos, la superficie de la sala
de ventas supera los 50m2 y son establecimientos que comenzaron su actividad antes de
1985. Destaca la valoracin negativa de los programas de formacin enfocados al
cliente que hacen los establecimientos que afirman que no hacen formacin porque no

200

## 15.9.3 ESTABLECIMIENTOS QUE VALORAN LOS PROGRAMAS DE

FORMACIN

TCNICOS

QUE

EMPLEAN

HERRAMIENTAS

INFORMTICAS
La aplicacin del AID tomando como variable cuantitativa el tercer factor nos permite
identificar ahora 8 grupos:
Grupo 1: Este grupo presenta 62 establecimientos que dan una valoracin media al
factor 3 positiva (0,0268). Estos establecimientos hacen formacin y utilizan
Grupo 2: Aqu se agrupan 78 establecimientos que dan una valoracin promedio al
factor 3 negativa de -0,4950. Estos establecimientos no hacen cursos de formacin y lo
justifican con los diferentes motivos que se les presentan y, en cuanto a los productos
que comercializan, son productos cotidianos.
Grupo 3: Esta formado por 28 establecimientos que otorgan una valoracin media al
factor 3 de 0,7503. Son establecimientos que siguen cursos de formacin, que no
utilizan herramientas de marketing y si utilizan son herramientas bsicas y, adems, no
importan productos.
Grupo 4: Aqu se agrupan 49 establecimientos que dan una valoracin promedio al
factor 3 negativa de -0,4450. Estos establecimientos no hacen cursos de formacin y lo
justifican con los diferentes motivos que se les presentan. En cuanto a los productos que
de productos. En este grupo encontramos los establecimientos de confeccin, moda y
textil y manufacturas.
Grupo 5: Se agrupan 66 establecimientos. Dan una valoracin media al factor 3 de
0,1231. Son establecimientos que siguen cursos de formacin, que no utilizan
herramientas de marketing y si utilizan emplean herramientas bsicas, venden productos

201

Resultados del Anlisis de clasificacin AID. Caractersticas de las empresas segn su
valoracin a los programas de formacin tcnicos con ordenador
Total
Media: -0,029
D.Est.: 0,987
n = 440

Ha
formacin
R = 0,056

Si Formacin

No Formacin

Media: 0,256
D.Est.: 1,041
n = 178

Media: -0,222
D.Est.: 0,836
n = 262

Utilizacin de
Marketing
R = 0,012

Artculos que
comercializa
R = 0,019

Marketing
Media: 0,027
D.Est.: 0,908
n = 62

No Marketing
Mark. Bsico

varios tipos

Cotidiano

Media: 0,378
D.Est.: 1,069
n = 116

Media: -0,106
D.Est.: 0,863
n = 184

Media: -0,49
D.Est.: 0,66
n = 78

(1)

(2)
Vende produc.
R = 0,012

Si

importa

R = 0,018

Confeccin y
Manufacturas

Alimentacin,
ocio, servicios

Media: 0,750
D.Est.: 0,829
n = 28

Media: -0,445,
D.Est.: 0,779
n = 49

Media: 0,017
D.Est.: 0,837
n = 135

(3)

(4)

direccin
R = 0,018

No

Media: 0,260
D.Est.: 1,087
n = 88

importa

Ao comienzo
R = 0,012

Antes 1991

Despus 1990

Menos de 46

Ms de 45

Media: 0,123
D.Est.: 1,058
n = 66

Media: 0,671
D.Est.: 0,948
n =22

Media: 0,154
D.Est.: 0,818
n = 102

Media: -0,40
D.Est.: 0,65
n = 33

(5)

(6)

(7)

(8)

## Grupo 6: En este grupo encontramos 22 establecimientos comerciales que dan una

valoracin media al factor 3 de 0,6709. Presentan las mismas caractersticas que los
establecimientos del grupo anterior pero comenzaron su actividad despus de 1990.
Grupo 7: Aqu se agrupan 102 establecimientos que dan una valoracin promedio al
factor 3 positiva de 0,1540. Estos establecimientos no hacen cursos de formacin y lo
justifican con los diferentes motivos que se les presentan. En cuanto a los productos que
de productos. En este grupo encontramos los establecimientos de alimentacin y
bebidas, ocio y recreo, servicios y otros. En estos establecimientos la edad de los
directivos oscila entre 18 y 45 aos.
Grupo 8: En este grupo encontramos 33 establecimientos que otorgan una valoracin
media al factor 3 de -0,4052. Son establecimientos que presentan las mismas
caractersticas que las del grupo anterior con la diferencia de que la edad de la direccin
supera los 45 aos (a ms edad menos preferencia por la informtica).
En definitiva, los establecimientos comerciales que ms valorar los programas de
formacin que emplean herramientas informticas son los que hacen formacin, que no
utilizan herramientas de marketing o utilizan herramientas bsicas y que no venden
productos importados (grupo 3) o los que con las mismas caractersticas s que venden
productos importados e inician su actividad despus de 1990 (grupo 6). En cambio, las
valoraciones ms negativas las realizan los establecimientos que no hacen formacin y
venden productos cotidianos (grupo 2), los que no hacen formacin, venden productos
duraderos o de varios tipos y son de confeccin o manufacturas (grupo 4) o los que son
de alimentacin, ocio o servicios y la edad de la direccin supera los 45 aos (grupo 8).
En la valoracin a este tipo de programas de formacin sorprende que los
establecimientos que utilizan marketing sofisticado y los que venden productos
importados tienen una valoracin inferior a los que no lo hacen (esto podra sugerir que
los cursos ms tcnicos no estn al nivel de exigencia esperado por aquellos

16. CONCLUSIONES
La clasificacin del comercio ha sido un aspecto desarrollado por diferentes trabajos de
la literatura, como se ha puesto de manifiesto con algunas referencias comentadas

## anteriormente. Sin embargo, no se haba realizado una clasificacin de los

establecimientos comerciales atendiendo a su valoracin y a su relacin con los
programas de formacin.
En este trabajo, con la aplicacin de tcnicas de segmentacin como el CHAID y el
AID, se han podido caracterizar a los establecimientos que hacen cursos de formacin
as como a los establecimientos que prefieren un determinado curso de formacin.
As, segn la realizacin de programas de formacin, en el lado de los que no realizan
formacin por falta de tiempo (37%) o por no tener necesidad (30%) destacan dos
grupos: los comercios con un solo empleado y los comercios con dos empleados que no
hacen marketing y son autnomos. Por otro lado, entre los comercios que mayor
formacin realizan encontramos los de ms de 6 trabajadores y los de 3 a 6 trabajadores
que hacen marketing sofisticado. Finalmente, destaca el grupo de comercios que
presentan de 3 a 6 trabajadores, que no aplican marketing o utilizan un marketing bsico
y que venden productos importados puesto que un 10,5% de los mismos detectan que no
existen programas de formacin adecuados (en los otros grupos este porcentaje se
situaba alrededor del 5%).
Como resultado general, se puede sealar que hay una clara relacin entre realizar
cursos de formacin y valorar muy positivamente los diferentes programas de
formacin en marketing. De hecho, los grupos de establecimientos que otorgan una
valoracin ms negativa a los diferentes programas de formacin en marketing son
establecimientos que no hacen formacin. Por ejemplo, los establecimientos que no
hacen formacin, creados antes de 1986 y que tampoco hacen marketing son los que
valoran ms negativamente los programas de formacin

genricos.

Los

establecimientos que dicen no tener necesidad de formacin son los que valoran ms
negativamente los programas enfocados a clientes.
En cuanto a la preferencia por un determinado curso de formacin, se puede sealar que
existen variables que influyen en la valoracin de todos los programas de formacin
aunque no de la misma forma en cada uno de ellos. As, cuando los artculos que
valoracin a los programas genricos; cuando los establecimientos comercializan
diversos tipos aumenta la valoracin de los programas enfocados a los clientes y, por

## ltimo, cuando se comercializan artculos cotidianos disminuye en gran medida la

valoracin de los programas tcnicos.
Atendiendo a la antigedad de la empresa, se observa como aquellos establecimientos
que operan desde antes de 1986 otorgan una valoracin media positiva a los programas
de formacin enfocados a clientes y negativa a los programas de formacin genricos.
Para la valoracin de los programas de formacin tcnicos, la diferencia se sita en los
comercios creados antes o despus de 1990, siendo estos ltimos los que ms los
valoran.
Finalmente, otras variables que caracterizan la valoracin de los programas de
formacin considerados son el grado de utilizacin de las herramientas de marketing.
Para aquellos establecimientos que no utilizan marketing la valoracin a los programas
de formacin genricos es ms baja que para los establecimientos que utilizan estas
herramientas. Por contra, para aqullos que ya utilizan herramientas sofisticadas de
marketing, la valoracin de los programas tcnicos asistidos por ordenador es inferior a
los que no hacen marketing o utilizan herramientas bsicas.
en un inicio. De este modo, los establecimientos que ms emplean herramientas de
marketing son los que realizan ms formacin (o viceversa) y tambin

se

puede

## observar como la preferencia por un plan de formacin especfico viene determinada

por estas dos variables ms algunas caractersticas del establecimiento comercial.

17. BIBLIOGRAFA
Davies Bush, V. y Ingram, T. (1996): Adapting to Diverse Customers: A Training
Matrix for International Marketers. Industrial Marketing Management, Vol. 25, n 5,
p. 373 - 383.
Fondo Social Europeo, FORCEM, Federacin de Empresarios de Comercio de
Zaragoza (1996): Plan de Estudios Profesionales para el Comercio. Edita IMSO,
S.L.
Hogart-Scott, S. y Jone, M.A. (1993): Advice and Training Support for the Small
Firms Sector in West Yorkshire. Journal of European Industrial Training, Vol 17, n
1, p.18 - 22.

## Kass, G. (1980): An Exploratory Technique for Investigating Large Quantities of

Categorical Data. Applied Statistics, Vol. 29, n 2, p. 119-127.
Kotler, P. (1992): Direccin de Marketing. Anlisis, planificacin, gestin y control. 7
Ed. Prentice Hall.
Magidson, J. (1988): Improved Statistical Techniques for Response

Modeling.

## Progresion Beyond Regresion. Journal of Direct Marketing, Vol. 2, n 4, p.6 - 18.

Magidson, J. y SPSS Inc (1993): SPSS. SPSS for Windows Chaid Release 6.0. SPSS
Inc. Chicago.
x

## Norusis, M.J. (1983): SPSS . Introductory Statistics Guide. McGraw-Hill Book

Company.
Obis, T.; Jimnez, E.; Rialp, J. (1997): El marketing en el comercio de Zaragoza. IX
Encuentro de Profesores Universitarios de Marketing, Murcia, 25 y 26 de
Septiembre, p. 315-334.
Rebollo, A. (1993): Clasificacin de las Formas Comerciales: el ProductoEstablecimiento. Distribucin Actualidad, n 10 (junio-julio), p. 10-18.
Rodrguez del Bosque, I.; Agudo San Emeterio, A.; Surez Vzquez, A.; Garca de los
Salmones, M. (1997): La modernizacin del Comercio minorista: Predisposicin
hacia el Cambio. IX Encuentro de Profesores Universitarios de Marketing, Murcia,
25 y 26 de Septiembre, p. 359-375.
Rodrguez del Bosque, I.; Trespalacios Gutirrez, J.A.; Agudo San Emeterio, A.; Surez
Vzquez, A.; Garca de los Salmones, M; Fernndez Polanco, J. (1997): El Sector
Comercio Minorista en Cantabria. Servicio de Publicaciones de la Universidad de
Cantabria. Gobierno de Cantabria. Santander.
Santesmases Mestre, M. (1992): Marketing. Conceptos y Estrategias. Ediciones
Santesmases, M. (1997): DYANE. Diseo y anlisis de encuestas en investigacin

## Sarabia, F.J. y Ruiz de Maya, S. (1996): Aspectos Metodolgicos para la realizacin de

Estudios en el mbito de la Distribucin Comercial. Esic Market, enero-marzo, p.
117-141.
SPSS Inc. (1990): SPSS Categories. SPSS Inc. Chicago
Weeks, W.A. y Stevens, C.G. (1997): National Account Management Sales. Training
and Directions for Improvement. Industrial Marketing Management, Vol. 26, n 5,
p. 423 - 431.
Weiers, R.M. (1986): Investigacin de Mercados. Mxico. Prentice Hall.

ANLISIS DE CLASIFICACIN
MLTIPLE (ACM)

## 18. CONCEPTO DE ACM

El anlisis de clasificacin mltiple fue diseada por Andrews, Morgan y Sonquist y
analiza la relacin entre un variable dependiente o criterio, medida en escala mtrica o
binaria, mientras que las variables explicativas deben se cualitativas, es decir medidas
en escalas nominales u ordinales o bien variables transformadas a este tipo de escalas.
Aplicacin
El ACM sustituye con ventaja a la regresin mltiple con variables ficticias (dummy),
por la dificultad o complejidad que puede suponer la transformacin de variables
categricas en ficticias.

Resumen
Y medida en escala mtrica
Las x en nominales u
ordinales

## 19. MODELO DEL ACM

El modelo estadstico expresa la variable dependiente (Y) como una funcin del valor
medio de la misma ms los coeficientes asignados a las categoras correspondientes de
las variables explicativas y un trmino de error. La ecuacin matemtica es:
Yi, j ,.... Y a b c ........ e
i
j
k
i , j, ,,,,n
Donde:

## Yi,j,k ..n Es el valor de la variable dependiente en el individuo n, que pertenece a la

categora i de la variable explicativa A, a la categora j de la variable B, etc.
Y Es la media de todos los casos de la variable dependiente. Gran media
ai Coeficiente estimado correspondiente a la categora i de la variable independiente A
bj Coeficiente estimado correspondiente a la categora j de la variable independiente B
ck Coeficiente estimado correspondiente a la categora k de la variable independiente
C ei,j,,k, . n error para el elemento o individuo n

## Los coeficientes se estiman mediante el mtodo de los mnimos cuadrados.

En el ACM la proporcin de varianza explicada por cada una de las variables
2

Su expresin matemtica es.

N
j

(Yij Y )

ij

(Y
k

Y)

Donde
Nij es el nmero de casos que pertenecen a la categora j de la variable explicativa i
Yij Valor medio de la variable dependiente de los casos incluidos en la categora j de la
variable explicativa i
Y Gran media
La medida de la relacin entre una variable explicativa y la variable
matemtica es:

N
(Y
j

ij

dependiente,

) . Su expresin

(aij )2

Y)

Donde
Nij es el nmero de casos que pertenecen a la categora j de la variable explicativa i
aij es el coeficiente de la categora j de la variable explicativa i
Yk es el valor de la variable dependiente en el caso k (k = 1,2,3,4, .. n)
Y Gran media

2

a
Y
(Y Y )
ij

ijk i

jk
k

2
k

## 19.1 CONSIDERACIONES ACERCA DEL MODELO

El modelo es aditivo, pudiendo detectar relaciones no lineales ya que los coeficientes de
la funcin estimada miden el efecto sobre la variable dependiente de todas y cada una
de las categoras de las variables explicativas.
El modelo tambin mide el efecto global de cada variable explicativa, tanto de forma
individual como teniendo en cuntale efecto simultneo de todas las dems variables.
Los coeficientes obtenidos por el ACM expresan ajustes con respecto al valor medio de
la variable dependiente.
El ACM no detecta directamente las interacciones entre las variables explicativas por