Anda di halaman 1dari 232

INTRODUCCIN AL ANLISIS MULTIVARIABLE

(PRIMERA PARTE)

Eduardo Jimnez Marqus


Curso 2004-05

Anlisis Multivariante

Anlisis Multivariante

NDICE
1. CONCEPTOS GENERALES...........................................12
1.1

INTRODUCCIN.......................................................12

1.1.1

LA ENCUESTA ESTRUCTURADA Y LOS MTODOS MULTIVARIANTES....12

1.1.2

POR QU SE USAN LAS TCNICAS MULTIVARIANTES?......................13

1.2

DEFINICIN DEL ANLISIS MULTIVARIANTE...............14

1.3

REAS DE APLICACIN DEL ANLISIS MULTIVARIANTE14

1.4

DEFINICIN Y CLASIFICACIN DE LAS VARIABLES.....14

1.4.1

TIPOS DE VARIABLES.........................................................................15

1.5

ESCALAS DE MEDIDA...............................................17

1.6

VARIABLES Y ESCALAS DE MEDIDA...........................18

1.6.1

CLASIFICACIN EN FUNCIN DEL ANLISIS DE DATOS......................19

1.7

CLASIFICACIN DE LAS TCNICAS MULTIVARIANTES...20

1.8

BIBLIOGRAFA RECOMENDADA.................................24

2.

METODOS EXPLICATIVOS O DE DEPENDENCIA. .26

2.1

INTRODUCCIN.......................................................26

2.2

OBJETIVOS DE LOS MTODOS EXPLICATIVOS:............26

2.

TCNICAS MAS HABITUALES.....................................26


2

3.

REGRESIN LINEAL.........................................28

3.1

CONCEPTO..............................................................28

3.1.1

3.2

ANLISIS DE REGRESIN MLTIPLE..........................31

3.2.1

3.3

MODELOS ESTOCSTICOS.................................................................30

QU NOS INTERESA CONOCER?:......................................................31

HIPTESIS DEL MODELO DE REGRESIN...................32

3.3.1

ESTIMACIN DEL MODELO DE REGRESIN.......................................................32

3.3.2

COEFICIENTE DE CORRELACIN MLTIPLE Y COEFICIENTE DE DETERMINACIN


MLTIPLE ......................................................................................................... 33

3.4

COLINEALIDAD........................................................36

3.4.1

MATRIZ DE CORRELACIONES.............................................................36

3.4.2

CORRELACIN PARCIAL.....................................................................36

3.4.3

CORRELACIN PARCIAL MLTIPLE......................................................37

3.4.4

MULTICOLINEALIDAD..........................................................................37

3.4.5

EFECTOS DE LA COLINEALIDAD.........................................................37

3.4.6

FORMAS DE MEDIR LA COLINEALIDAD...............................................38

3.4.7

SOLUCIN AL PROBLEMA DE MULTICOLINEALIDAD............................39

3.4.8

COEFICIENTES DE REGRESIN...........................................................39

3.4.9

ANLISIS DE LA VARIANZA EN LA REGRESIN...................................41

3.5

MODELOS CON VARIABLES FICTICIAS........................41

3.6

TABLA ESTADSTICA:DISTRIBUCIN T DE STUDENT... .42

3.7

EJEMPLO 1..............................................................43

3.8

EJEMPLO2...............................................................49

4.

4.1

ANLISIS DE REGRESIN. RESUMEN CONCEPTOS


52

ESTIMACIN DEL MODELO DE REGRESIN POR MNIMOS


CUADRADOS ORDINARIOS .............................................. 53

5.
5.1

5.7

EJEMPLO 1 DE ANLISIS DE REGRESIN LINEAL54

COEFICIENTES DE REGRESIN NO ESTANDARIZADOS:........54


5.2

CAMBIO EN LA MEDIDA DE X E Y. EFECTO EN

5.3

COEFICIENTES DE REGRESIN ESTANDARIZADOS......55

5.4

COEFICIENTE DE CORRELACIN DE PEARSON............56

5.5

EN NUESTRO EJEMPLO SOBRE EL PRECIO DE LOS PISOS:


60

5.6

COEFICIENTE DE DETERMINACIN............................61

Y 1. .55

COMPROBACIN DE LA BONDAD GLOBAL DEL MODELO:


ANALISIS DE LA VARIANZA ............................................. 61
5.8

PRECAUCIONES EN EL ANLISIS DE REGRESIN.........62

5.9

OTROS AJUSTES DE BONDAD DEL MODELO................63

5.10 USO DEL MODELO PARA ESTIMAR Y PREDECIR........64


5.11 HIPTESIS DEL MODELO DE REGRESIN SIMPLE.....67
5.12 NORMALIDAD DE LOS ERRORES.............................67

5.13 HOMOCEDASTICIDAD EN LAS PERTURBACIONES... . .68


5.14 NO AUTOCORRELACIN DE ERRORES.....................69

6.

LINEALIDAD EN EL MODELO DE REGRESIN.....71

6.1

7.
7.1

OTRAS TRANSFORMACIONES....................................71

ANLISIS DE REGRESIN MLTIPLE.................73

INFERENCIAS ACERCA DE LOS COEFICIENTES DE REGRESIN


DE CADA VARIABLE, I.....................................................73
7.2

7.3

COEFICIENTE DE DETERMINACIN............................74

COMPROBACIN DE LA BONDAD GLOBAL DEL MODELO:


ANALISIS DE LA VARIANZA ............................................. 74
7.4

HIPTESIS DEL MODELO DE REGRESIN MLTIPLE.....75

7.5

COLINEALIDAD........................................................75

7.6

EFECTOS DE LA COLINEALIDAD.................................76

7.7

FORMAS DE MEDIR LA COLINEALIDAD.......................76

7.8

NIVELES DE COLINEALIDAD......................................77

7.9

INTRODUCCIN DE VARIABLES BINARIAS..................80

7.10 VARIABLE BINARIA CON EFECTO SOBRE LA PENDIENTE


82

7.11 INTRODUCCIN DE VARIABLES CUALITATIVAS.........82


7.12 CONCLUSIN FINAL AL CASO DE LAS VIVIENDAS.....85

9.1

8.

BIBLIOGRAFA................................................91

9.

ANLISIS DE LA VARIANZA (ANOVA)................93

CONCEPTO......................................................................93
9.2

MODALIDADES DE ANLISIS DE LA VARIANZA...........93

9.3

ANOVA....................................................................94

9.3.1

9.4

EXPERIMENTACIN..................................................94

9.5

EL MTODO DE EXPERIMENTACIN...........................95

9.5.1

9.8

TIPOS DE ANOVA...............................................................................94

PRINCIPALES APLICACIONES DE LA EXPERIMENTACIN.....................96

9.6

METODOLOGA DE LA EXPERIMENTACIN..................96

9.7

ELEMENTOS DE UN EXPERIMENTO............................97

9.7.1

CONCEPTOS GENERALES...................................................................97

9.7.2

HIPTESIS DE TRABAJO.....................................................................98

POR QU SE LLAMA ANLISIS DE LA VARIANZA SI


COMPARAMOS MEDIAS? ................................................. 98
9.8.1

9.9

ESTADSTICO DE PRUEBA..................................................................99

EXPERIMENTOS ALEATORIOS CON UN FACTOR.........100

9.9.1

MODELO.......................................................................................... 101

9.10 ANLISIS DE VARIANZA CON UN FACTOR (ONE WAY)


101
9.11 ANOVA CON VARIOS FACTORES............................103
9.12 TIPOS DE EXPERIMENTOS HABITUALMENTE UTILIZADOS EN
INVESTIGACIN COMERCIAL ......................................... 104
9.12.1

EXPERIMENTO ALEATORIO O AL AZAR.............................................104

9.12.2

EXPERIMENTO DE BLOQUE ALEATORIO...........................................109

9.12.3

EXPERIMENTO DE CUADRADO LATINO.............................................113

9.12.4

EXPERIMENTO CON INTERCAMBIO...................................................117

9.12.5

EXPERIMENTO FACTORIAL...............................................................117

9.13 BIBLIOGRAFA.....................................................125

10. ANALISIS DISCRIMINANTE.............................127


10.1 CONCEPTO....................................................................127
10.1.1

EJEMPLO.......................................................................................... 128

10.2 OBJETIVOS DEL AD..............................................128


10.3 CLASIFICACIN DEL AD......................................128
10.4 RELACIN ENTRE AD, ANOVA Y REGRESIN..........129
10.5 MODELO DEL AD.................................................129
10.6 SUPUESTOS Y ESTADSTICOS DE USO EN EL AD.....130
10.6.1

SUPUESTOS:....................................................................................130

10.6.2

ESTADSTICOS.................................................................................130

10.7 PASOS DEL ANLISIS DISCRIMINANTE.................132


10.7.1

FORMULACIN DEL PROBLEMA.....................................................132

10.7.2

ESTIMACIN....................................................................................133

10.7.3

DETERMINACIN DEL GRADO DE SIGNIFICACIN..........................133

10.7.4

INTERPRETACIN.............................................................................133

10.7.5

VALIDACIN.....................................................................................136

10.8 EJEMPLO DE ANLISIS DISCRIMINANTE CON EL SPSS:


138
10.9 ANALISIS DEL EFECTO CONJUNTO:......................142
10.10 CLASIFICACIN DE LAS OBSERVACIONES:...........145
10.11 MTODO DE INCLUSIN POR PASOS: MTODO LAMBDA
DE WILKS: 149
10.12 ANLISIS DISCRIMINANTE MLTIPLE...................153
10.12.1 DETERMINACIN DEL GRADO DE SIGNIFICACIN......................153
10.12.2 INTERPRETACIN.........................................................................153
10.12.3 VALIDACIN.................................................................................153

11. CASO PRCTICO DE ADM.............................154


11.1.1

INTRODUCCIN...............................................................................154

11.1.2

ANLISIS

11.2

DISCRIMINANTE..............................................................157

BIBLIOGRAFA.....................................................165

12. SEGMENTACIN............................................167
12.1 CONCEPTO..........................................................167

12.2 REQUISITOS PARA QUE LA SEGMENTACIN DE


MERCADO
SEA

EFICAZ.................................................................167

12.3 CRITERIOS DE SEGMENTACIN DE MERCADO.......168


12.4 ETAPAS DE UN ESTUDIO DE SEGMENTACIN DE
MERCADOS....................................................................170
12.5 TCNICAS PARA CLASIFICAR UN MERCADO EN
SEGMENTOS..................................................................172

13. TCNICAS DE SEGMENTACIN......................173


13.1 MTODOS

CLSICOS..........................................173

13.1.1

MTODO

BELSON..........................................................................173

13.1.2

MTODO DE ANLISIS DE LA VARIANZA........................................176

13.1.3

MTODO DE CHI CUADRADO.........................................................170

13.1.4

MODELOS DE CANGUILHEM..........................................................170

13.2 AUTOMATIC INTERACTION DETECTION (AID)........172


13.2.1

VENTAJAS E INCONVENIENTES.........................................................173

14. CHI-SQUARED AUTOMATIC INTERACTION


DETECTION (CHAID).............................................173
14.1 CONCEPTO.........................................................173
14.1.1

PROCESO......................................................................................... 174

14.1.2

UTILIDAD......................................................................................... 175

14.1.3

VENTAJAS E INCONVENIENTES.........................................................175

15. EJEMPLO LOS PROGRAMAS DE FORMACIN EN


MARKETING EN EL COMERCIO ............................. 176
15.1 RESUMEN.....................................................................176
15.2 INTRODUCCIN...................................................176
15.3 OBJETIVOS DEL TRABAJO E HIPTESIS..................178
15.4 METODOLOGA: VARIABLES Y TCNICAS A UTILIZAR179
15.5 TCNICAS A UTILIZAR..........................................181
15.5.1

TCNICAS DE REDUCCIN DE VARIABLES.......................................181

15.5.2

TCNICAS DE SEGMENTACIN.........................................................185

15.6 RESULTADOS......................................................188
15.6.1

IDENTIFICACIN DE DIFERENTES PROGRAMAS DE FORMACIN......188

15.7 UTILIZACIN DE HERRAMIENTAS DE MARKETING...190


15.8 CLASIFICACIN DE LOS ESTABLECIMIENTOS COMERCIALES
SEGN LA REALIZACIN O NO DE PROGRAMAS DE
FORMACIN ................................................................. 192
15.9 CLASIFICACIN DE LOS ESTABLECIMIENTOS COMERCIALES
SEGN EL TIPO DE PROGRAMA DE FORMACIN REALIZADO . .
195
15.9.1

ESTABLECIMIENTOS QUE VALORAN LOS PROGRAMAS DE

FORMACIN GENRICOS................................................................................195
15.9.2

ESTABLECIMIENTOS QUE VALORAN LOS PROGRAMAS DE

FORMACIN ENFOCADOS A CLIENTE..............................................................198

15.9.3

ESTABLECIMIENTOS QUE VALORAN LOS PROGRAMAS DE

FORMACIN TCNICOS QUE EMPLEAN HERRAMIENTAS INFORMTICAS.......201

16. CONCLUSIONES.............................................203
17. BIBLIOGRAFA...............................................205
18. CONCEPTO DE ACM.....................................209
19. MODELO DEL ACM.......................................209
19.1 CONSIDERACIONES ACERCA DEL MODELO...........211

20. CASO

PRCTICO..........................................211

1. CONCEPTOS GENERALES
1.1

INTRODUCCIN.

Los procedimientos multivariables constituyen un conjunto de tcnicas estadsticas


de amplia aplicacin en el mundo cientfico, especialmente en los estudios de tipo
emprico, adquiriendo cada da ms importancia en la investigacin Comercial y
muy especialmente en el tratamiento de las encuestas.
1.1.1

LA

ENCUESTA

ESTRUCTURADA

LOS

MTODOS

MULTIVARIANTES
El objetivo fundamental de la Investigacin Comercial es

el

de

obtener

informacin objetiva, que permita el disminuir la incertidumbre del decisor en su


toma de decisiones.
A travs de la Investigacin Comercial la empresa puede disponer de una gran
cantidad de datos acerca de su actividad interna y del entorno en el que desarrolla
su negocio. El mercado donde realiza la actividad econmica la empresa, es un
fenmeno complejo donde interactan un gran nmero de factores que tienen
influencia en los resultados empresariales (Inflacin, paro, paridad de la moneda,
formacin de los trabajadores, ecologa, legislacin, demografa, etc.)
Por tanto podemos afirmar que la mayora de los problemas de la empresa son
multidimensionales, es decir cualquier actividad empresarial la podemos describir
de acuerdo con diversas dimensiones.
Esto nos conduce a que deberemos estudiar los factores que influyen o que bien
consideramos que lo puedan hacer, de una manera simultnea y para ello se
utilizan unas tcnicas estadsticas que se denominan: tcnicas multivariantes o
multivaribles.
En la Investigacin Comercial a travs de encuestas, se realizan una serie de
preguntas, mediante la administracin de un cuestionario, que permite mediante su

combinacin obtener la informacin acerca del fenmeno

objeto

de

la

investigacin.
Por ejemplo para determinar el estilo de vida, hacemos una batera de preguntas
acerca de: la profesin, el nivel de estudios, la renta familiar, el equipamiento del
hogar, electrodomsticos, vehculos, hbitos de consumo, hbitat, etc.
A travs del anlisis multivariante lo que hacemos es combinar todas las variables,
eliminando la informacin redundante y se obtiene una nueva variable que no es
observable directamente, que representa un concepto abstracto que se puede medir
obtenindose un valor para cada elemento, en el caso del ejemplo lo denominamos
estilo de vida.
Esta situacin la podemos resumir en el siguiente esquema

Esquema 1
Variables observadas
1.1.2

Anlisis multivariante

Nueva variable abstracta

POR QU SE USAN LAS TCNICAS MULTIVARIANTES?

Las tcnicas de anlisis multivariante se utilizan cada vez ms en la investigacin


comercial por las siguientes razones:
1. Permiten el analizar un gran nmero de encuestas. Simplificando muchos
datos, con la mnima prdida de informacin. Consiguiendo hacer ms
comprensible la informacin para la mente humana
2. Permiten analizar toda la informacin acerca de un determinado fenmeno,
considerando simultneamente todos los factores que intervienen.
3. Permiten trabajar con cualquier tipo de variable.

1.2

DEFINICIN DEL ANLISIS MULTIVARIANTE

Podemos definir las tcnicas multivariantes como, un conjunto de mtodos


estadsticos que permiten el anlisis de forma simultnea de mas de dos variables
observadas en una Investigacin Comercial
Desde una concepcin amplia podemos definir el Anlisis Multivariante como un
conjunto de mtodos que analizan las relaciones entre un nmero razonablemente
amplio de variables (medidas), tomadas sobre cada elemento de anlisis, en una o
ms muestras simultneamente.

1.3

REAS

DE

APLICACIN

DEL

ANLISIS

MULTIVARIANTE
El anlisis Multivariante es de aplicacin en la Investigacin Comercial, en las
siguientes circunstancias:

Reduccin de datos. Se trata de simplificar la estructura del fenmeno


investigado buscando la mayor simplicidad, lo que permitir una
interpretacin muy fcil.

Clasificacin y agrupacin Por ejemplo las tcnicas de segmentacin y


tipologa

Anlisis de las relaciones de dependencia, con el fin de predecir o bien


explicar

1.4

En la construccin de modelos. Econometra

DEFINICIN Y CLASIFICACIN DE LAS VARIABLES

En las tcnicas del anlisis multivariante se entiende por variable alguna magnitud
que representa la caracterstica de los elementos objeto de investigacin que
tratamos de medir.

En una primera clasificacin las variables las podemos clasificar en dos grupos,
variables independientes (VI) y variables dependientes (VD).
Las variables dependientes son aquellas cuyo comportamiento es explicado o
pronosticado por una o ms variables independientes. Las variables dependientes
tambin se denominan variables criterio o respuesta, mientras que las variables
independientes son las que servirn para explicar el fenmeno estudiado y se en
ocasiones se denominan como variables explicativas, factores o

variables

predictoras.
En los estudios no experimentales, la situacin de las variables no siempre es clara,
definindose su papel en el contexto de la investigacin. Una misma variable
puede adoptar diferentes roles en funcin de situaciones.
Cuando existen diferencias sistemticas en una variable dependiente (Y) asociada
a diferentes niveles de variacin de la variable independiente (X) se dice que estn
relacionadas.
Si todas las variables desempean el mismo papel se habla de relaciones de
interdependencia. En este caso no hay una variables con las que se intente explicar
el comportamiento de otras.
En ocasiones, al analizar el modelo la nica forma de diferenciar las variables es
simplemente por donde estn situadas en la ecuacin.
1.4.1

TIPOS DE VARIABLES

Una variable es una caracterstica o propiedad de un elemento (individuo, objeto,


transaccin, suceso, etc.), que toma distintos valores para cada elemento.
En general se clasifican en dos grandes grupos:

Variables no mtricas o cualitativas

Variables mtricas o cuantitativas

Los diferentes tipos de variable los resumimos a continuacin:

Variables cuantitativas o mtricas: Son aquellas en las que los valores tomados
por diferentes individuos tienen un significado propio. De hecho, son una
medicin o cuantificacin de una determinada caracterstica, la respuesta a la
pregunta: Cunto/s ?
Ejemplos: altura, peso, edad, hijos, ingresos, de un individuo, empleados, oficinas,
beneficios, de una empresa, etc.
1

Variables cualitativas o no mtricas : Son aquellas en las que las distintas


caractersticas de los elementos estudiados son cualidades o categoras alfabticas.
Sin embargo, con el fin de facilitar el tratamiento de los datos, estas categoras se
convierten en unos cdigos, sin que tenga que existir ningn tipo de relacin entre
el valor asignado y el significado de la categora representada.
Ejemplos: nacionalidad, sexo, religin, estudios cursados, clase social, calificacin
(Suspenso, Aprobado, Notable, Sobresaliente), etc.
1.4.1.1

CLASIFICACIN

POR

LOS

VALORES

QUE

PUEDEN

ADOPTAR
De acuerdo con el valor que pueden adoptar las variables estas las podemos
clasificar en los siguientes tipos:

Variable continua. Se trata de una variable cuantitativa que puede adoptar


cualquier valor numrico, Para todo par de valores siempre podemos
encontrar uno intermedio. Por ejemplo la edad, el consumo de telfono, ...

Variable discreta. Puede adoptar un nmero finito de valores distintos, entre


dos valores consecutivos no se puede encontrar ninguno intermedio. Por
ejemplo el nmero de personas por hogar.

Variable dicotmica o binaria. Solo puede tomar dos valores, si se definen


como 0 y 1 se llama binaria.

Algunos autores las denominan atributos

Variables ficticias o Dummy. Se utiliza con variables cualitativas, para


poder obtener informacin a travs de operaciones, se convierten en
binarias, indicando el valor 1 la presencia de una categora de la variable y
0 su ausencia.

Para realizar la conversin de una variable cualitativa en ficticia se necesitan tantas


variables dummy como categoras tiene la variable menos una.
Ejemplos de variables Dummy
La variable Sexo con las categoras hombre y mujer necesitara una sola variable
dummy D1: Hombre 0 Mujer 1
Consideremos la variable Color del producto A que tiene las siguientes
categoras
1 Rojo 2 Verde 3 Azul
Obtendremos las siguientes Dummy 3 1 = 2 que corresponden a:
D1 = Rojo 1 Verde y Azul 0
D2 = Verde 1 Rojo y Azul 0
La categora azul queda definida ya que tiene 0 en las dos ficticias

1.5

ESCALAS DE MEDIDA

Prcticamente todas las investigaciones de mercado recogen los datos en forma de


nmeros, interesando al investigador lo que estos nmeros representan, por medio
de las correspondientes operaciones de medida.
Medir consiste en asignar nmeros a los sucesos, elementos, objetos, atributos, ...
segn unas normas predeterminadas.
Puesto que utilizamos diferentes reglas para la asignacin de los nmeros, un
mismo nmero puede dar lugar a diferentes interpretaciones, ello da lugar a la
existencia de diferentes escalas de medida.

Por escala de medida entenderemos la correspondencia entre los nmeros


asignados a las propiedades de los elementos y la significacin de los clculos
matemticos realizadas con los nmeros. Bsicamente en el anlisis estadstico se
utilizan las cuatro escalas siguientes:
Nominal, Ordinal, Intervalo y Ratio o de proporcin
Las caractersticas de estas escalas las resumimos a continuacin:

Nominal: los posibles valores de la variable representan diferentes


categoras, no existiendo ninguna relacin entre el cdigo asignado a una
categora y su significado Ejemplos: profesin, raza, estado civil, ...
o Caso particular: variables dicotmicas, slo admiten dos posibles
respuestas. Ejemplos: sexo, verdadero / falso, si / no, ... Se
denominan binarias si se codifican 0 / 1.

Ordinal: los cdigos o valores de cada categora mantienen la misma


relacin de orden que el significado de las categoras. Ejemplos: clase
social, escala de preferencia, ...

Intervalo: los cdigos asignados a diferentes respuestas permiten conocer


la magnitud de la caracterstica medida, ya que se mantiene una relacin
de orden y distancia. Ejemplos: temperatura, fechas, cualquier variable
redondeada, ...

Ratio o razn: los cdigos representan el propio valor de la caracterstica


estudiada, observndose una relacin de orden y de distancia y la
existencia de un origen Ejemplos: cifra de ventas, ratio econmicofinanciero, ...

1.6

VARIABLES Y ESCALAS DE MEDIDA

Partiendo de los dos grandes grupos de variables, (cualitativas y mtricas),


podemos resumir la relacin entre las variables y las escalas de medida como
sigue:
18

1. Variables no mtricas o cualitativas, vienen medidas en escala nominal u


ordinal
2. Variables mtricas o cuantitativas se utilizan las escalas de intervalo o de
razn.
3. Variables binarias se utiliza la escala de razn
1.6.1

CLASIFICACIN EN FUNCIN DEL ANLISIS DE DATOS

En ocasiones en el estudio se deben realizar transformaciones de escala y origen


Las variables las podemos dividir en:
Valores o puntuaciones directas, tambin llamadas brutas, se obtienen
directamente del instrumento de medida y en sus mismas dimensiones. Se suelen
representar por letras maysculas X, Y, Z, ... teniendo medias mX, mY, mZ ... y las
correspondientes desviaciones tpicas sX, sy, sZ, ... medidas en la misma escala
Valores o puntuaciones centradas en la media o diferenciales, son el resultado de
un cambio en el origen al obtenerse de la restando de la media el valor, se suelen
representar con letras minsculas (x, y, z, ...) y se obtienen a partir de la siguiente
operacin

x = X - mX

Este tipo de puntuacin tiene de media 0 y una desviacin tpica igual a la de las
puntuaciones originales. Se produce un cambio de origen no de escala.
Valores tpicos o estandarizados. Se obtienen restando de cada valor la media y
dividiendo por la desviacin tpica. Se suelen representar por la letra Z y el
subndice de a correspondiente categora de la variable.
Se obtienen
de

X mX
sX

Los valores tipificados estn libres de escala y siempre tienen media igual a 0 y
desviacin tpica igual a 1.

1.7

CLASIFICACIN

DE

LAS

TCNICAS

MULTIVARIANTES
Los diferentes mtodos de anlisis multivariante no solo difieren entre s por el
objetivo o tipo de resultados obtenidos sino que existen ya diferencias en la
tabulacin, forma de codificar y en el trabajo con las variables ya que algunos
mtodos pueden trabajar con variables nominales, mientras que otros solo lo hacen
con variables ordinales y mtricas.
Una clasificacin de gran utilidad es el diferenciar las tcnicas multivariantes en
dos grupos bsicos:
Mtodos descriptivos o de interdependencia y mtodos explicativos o de
dependencia.
Los mtodos explicativos o de dependencia se emplean para explicar o proyectar
la(s) variable(s) dependiente(s) con base en dos o ms variables independientes.
Por ejemplo explicar las ventas en funcin de numerosas variables independientes
(nmero de vendedores, inversin en publicidad, promocin, renta de los
consumidores, etc.).
Los mtodos descriptivos o de interdependencia tratan de dar significado a un
conjunto de variables o bien tratan de agrupar las cosas. Por ejemplo cuando
realizamos un estudio de segmentacin.
La clasificacin de las tcnicas multivariantes las podemos resumir en el siguiente
esquema.

TCNICAS MULTIVARIANTES

EXISTEN VARIABLES DEPENDIENTES E INDEPENDIENTES

NO

SI
MTODOS EXPLICATIVOS

MTODOS DESCRIPTIVOS

Los mtodos explicativos y descriptivos, a su vez se dividen de acuerdo con diferentes


criterios los mas habituales son los que reseamos en los siguientes esquemas

Apuntes investigacin Comercial 2 Facultad de Econmicas UAB

1.8

BIBLIOGRAFA RECOMENDADA

Anlisis Multivariante. Hair, Anderson, otros. Editorial Prentica Hall 5 edicin


1999
Tcnicas de anlisis de datos en Investigacin de Mercados. Teodoro Luque
(Coordinador), Editorial Pirmide 2000

Mtodos Explicativos
o de
Dependencia

2. METODOS EXPLICATIVOS O DE DEPENDENCIA


2.1

INTRODUCCIN

Los mtodos explicativos o de dependencia, del anlisis multivariante,

son

tcnicas que diferencian entre variables independientes, explicativas o predictoras


y variables dependientes o a explicar.

2.2

OBJETIVOS DE LOS MTODOS EXPLICATIVOS:

El objetivo principal de los mtodos explicativos es:


Encontrar la relacin existente entre la variable/s dependiente/s y
la/s independiente/s:
Este objetivo nos conduce a los siguientes objetivos secundarios:

Explicar el comportamiento de la/s variable/s dependiente/s (Y)


Por qu la Y no es igual en todas las observaciones

Estimar el efecto de una o varias variables explicativas (X) cuantitativas o


binarias
Cules son las variables X que explican el comportamiento de Y?
En cunto vara la Y frente a un cambio de cada una de las Xs?

Predecir el valor de Y
Cul es el valor de Y para unas Xs determinadas
Hasta que punto hemos conseguido explicar Y

2.3

TCNICAS MAS HABITUALES.

En esta modalidad de anlisis multivariable de la informacin las tcnicas ms


habituales son:
La regresin, el anlisis de la varianza, segmentacin jerarquica anlisis
discriminante, regresin logstica, correlaciones cannicas, anlisis de ecuaciones
estructurales.

Anlisis Multivariante

Regresin Lineal

3. REGRESIN LINEAL
Al clasificar los mtodos explicativos por el nmero de variables dependientes y
las escalas de medida de las variables dependientes e independientes nos
encontrbamos que cuando tenemos una sola variable dependiente y todas las
mediciones de las diferentes variables estn en escala mtrica podemos aplicar la
tcnica denominada regresin
De forma esquemtica podemos representar esta situacin como

METODOS EXPLICATIVOS
NMERO DE VARIABLES DEPENDIENTES
UNA

ESCALA DE MEDIDA DE LA VARIABLE (S)


INDEPENDIENTE (S)
MTRICA

ESCALA DE MEDIDA DE LA VARIABLE DEPENDIENTE


MTRICA

REGRESIN

3.1

CONCEPTO

El anlisis de regresin trata de analizar

la

dependencia

de

una

variable

cuantitativa a explicar respecto de una o varias variables explicativas, tambin


cuantitativas.
Matemticamente la regresin la podemos representar como:

Y = f (Xi )
Donde Y es la variable dependiente y Xi representa las diferentes variables
independientes.
Si solo hay una variable independiente (X) se trata de un modelo de regresin
simple
28

Cuando hay dos o ms variables independientes se trata de un modelo de regresin


mltiple.
Si recordamos el modelo de regresin simple o modelo de regresin lineal de
primer orden responde a la siguiente frmula matemtica.

y = 0 + 1x +
donde:

y = variable dependiente o variable a explicar


x = variable independiente o variable explicativa
(epsilon) = error o perturbacin aleatoria
0 =origen de la recta: punto donde la recta corta el eje de
ordenadas o eje de la y.
1 =pendiente de la recta o coeficiente de regresin: nos indica en

cuanto aumenta (o disminuye) la variable dependiente por cada incremento en 1


unidad de la variable independiente.
Su representacin grfica corresponde a la indicada en la Fig. 1

El modelo de regresin mltiple viene expresado por:

y = 0 + 1 x1 + 2 x2 + . . . + k xk +
donde:
y = variable dependiente o variable a explicar
xi = variables independientes o variables explicativas

(epsilon) = error o perturbacin aleatoria


0 = origen cuando todas las variables independientes son 0
i = pendiente o coeficiente de regresin de la variable i.

Algunos autores utilizan como coeficiente de regresin en el origen

en vez de

0 La correspondiente ecuacin pasa a ser:

Y 1 X1

X2

X3

X 4 ...

Xn

Los coeficientes de regresin son en todos los casos los parmetros a estimar.

El modelo de regresin requiere que todas las variables sean mtricas, las
variables independientes que sean cualitativas o no mtricas se pueden
convertir en variables mtricas ficticias (Dummy) dicotomizndolas, de este
modo las convertimos en binarias (0, 1) y por consiguiente las podemos tratar
como cuantitativas

3.1.1

MODELOS ESTOCSTICOS

En los modelos denominados deterministas, para los diferentes valores de la


variables independientes corresponden valores determinados de la variable
dependiente.
Sin embargo este modelo no suele describir bien las relaciones entre las variables
porque no tienen en cuenta las posibles variaciones aleatorias en el valor de la
variable independiente (Y) y que, como tales, no se derivan de la variacin de las
variables dependientes.
Como consecuencia de lo expuesto surge la necesidad de otro tipo de modelo que
contemple esta situacin. Se trata de los denominados modelos estocsticos de
regresin, denominados as porque forma parte de ellos una variable aleatoria

denominada error y perturbacin aleatoria.


Esta variable representa todas las influencias, normalmente desconocidas, que
pueden hacer variar la variable dependiente (Y), al margen de las variaciones de
las variables independientes (X).

La ecuacin de este tipo de modelo ser:

Y 1 X1
3.2

X2

X3

X 4 ...

Xn

ANLISIS DE REGRESIN MLTIPLE

El anlisis de regresin mltiple es una extensin del anlisis

de

regresin

bivariado que nos permite la investigacin simultnea del efecto de dos o ms


variables independientes sobre una variable dependiente medida en escala mtrica.
Por consiguiente se trata de buscar la ecuacin que mejor exprese
matemticamente la relacin de los valores de una variable dependiente (Y) con
los valores de dos o ms variables independientes (X 1 X2 X3 .....Xn) consideradas
conjuntamente.
De esta forma el problema consiste en la identificacin de una relacin lineal
mediante el anlisis de regresin mltiple.
La ecuacin obtenida es del tipo:

y = 0 + 1 x1 + 2 x2 + . . . + k xk +
Los coeficientes

i muestran el efecto sobre la variable de un incremento de una

unidad en la variable independiente correspondiente. Estos coeficientes se les


denomina como coeficientes de regresin parcial. El valor original de

es el

coeficiente sencillo de la regresin bivariada, se define como el coeficiente de


correlacin parcial para el que se mantienen constantes los efectos de las otras
variables independientes.
La funcin del coeficiente

0 consiste en asegurar que la media de los valores de

Y coincide con la media de los valores de X


3.2.1

QU NOS INTERESA CONOCER?:

Cmo se calculan los coeficientes de regresin,

0 y i?

Cmo se interpretan?

Cmo se determina si son o no estadsticamente significativos?

Cmo se comprueban las hiptesis del modelo?

3.3

HIPTESIS DEL MODELO DE REGRESIN

Hiptesis sobre la forma de la distribucin de probabilidad de y sobre las


variables independientes
Partiendo del modelo:
y = 0 + 1xI + ... +
Las correspondientes hiptesis son:

La media de la distribucin de probabilidad de es 0. Es decir, la media de


los valores de para un nmero infinitamente grande de experimentos es 0
para cada valor de la variable independiente x. Esta hiptesis implica que el
valor de la media de y, E(y), para un valor dado de x es E(y) = 0 + 1x.

La distribucin de probabilidad de es normal.

Los valores de asociados a dos valores cualquiera observados de y, son


independientes. Es decir, el valor de asociado a un valor de y no tiene
ninguna influencia sobre los valores de asociados a otros valores de y
(esto implica que los errores no estn correlacionados consigo mismo o, lo
que es lo mismo, no existe autocorrelacin de errores).

La varianza de la distribucin de probabilidad de es constante, , para


todos los valores de la variable independiente, X (es decir, existe
homocedasticidad)

No debe existir excesiva colinealidad o multicolinealidad (correlacin


entre las variables independientes).

La hiptesis primera se considera ciertas y no se contrasta. Se supone que se


cumple con una muestra aleatoria suficientemente amplia. Por otro lado, tampoco
hay forma de comprobar que la media de las perturbaciones sea 0 (ya que para los
errores la estimacin por mnimos cuadrados exige que su media sea 0).
3.3.1

ESTIMACIN DEL MODELO DE REGRESIN

Los estimadores mnimos cuadrados son los mejores que se pueden conseguir
(insesgados, eficientes y consistentes) si se cumplen ciertas hiptesis sobre (las
perturbaciones)

El mtodo de estimacin por mnimos cuadrados minimiza la suma de cuadrados


de las diferencias entre los valores reales y los estimados de la

variable

dependiente, o lo que es lo mismo, los errores cometidos en la estimacin de la


variable dependiente (Y)
De conformidad con este criterio la mejor recta es aquella que haga mnima la
suma de los cuadrados de los residuos
Min
3.3.2

COEFICIENTE

DE

i2

CORRELACIN

MLTIPLE

COEFICIENTE DE DETERMINACIN MLTIPLE


El coeficiente de correlacin mltiple (R) indica el porcentaje de variacin en la
variable dependiente Y explicado por la variacin en las variables independientes
Por tanto representa el grado de asociacin entre una variable dependiente y dos o
ms variables independientes tomadas en conjunto.
Normalmente en la practica se estudia el cuadrado del coeficiente de correlacin o
2

tambin llamado coeficiente de determinacin mltiple (R ), este ndice nos


indica el tanto por ciento de la variacin total de la variable dependiente Y,
explicado por la ecuacin de regresin y es igual a la razn entre la variacin
explicada y la variacin total de la variable. Por tanto expresa la proporcin de la
varianza de la variable dependiente explicada por el modelo de regresin
Este coeficiente puede variar entre 0 y 1. Si es cero indica la inexistencia de
asociacin lineal entre la variable dependiente y las independientes tomadas en
conjunto, este valor no es incompatible con la posible existencia de una posible
correlacin curvilnea. Si el valor es 1 indica una asociacin perfecta entre las
variables.
Con el fin de ver en la practica estos conceptos vamos a realizar su estudio a travs
de un ejemplo.
Resultados estadsticos de un anlisis de regresin mltiple
Y = 10218 + 0387 X1 + 1152 X2 + 673 X3
2

Coeficiente de determinacin mltiple (R ) 0845


Test F 145
Grados de libertad numerador = 3 y denominador. = 8

El valor R = 0845 nos indica que la variacin de las variables independientes


representa 845% de la varianza en la variable dependiente.
Para probar la significacin estadstica se realiza el anlisis ANOVA (la prueba o
test F). Esta prueba permite probar las magnitudes relativas de la suma de
cuadrados debidas a la regresin (SSr) y la suma de cuadrados de error (SSe), con
sus correspondientes grados de libertad. La frmula correspondiente es

(SSr ) k
F (SSe ) (n k 1)
Donde
k es el nmero de variables independientes y n es el tamao de la muestra o el
nmero de observaciones o encuestas.
Si consideramos que trabajamos con un nivel de significacin del 5% el valor
correspondiente para F en tablas con 3 y 8 grados de libertad en el numerador y
denominador obtenemos que el valor es Ft = 407.
Por consiguiente como el valor calculado es superior al correspondiente de tablas,
obtenemos como conclusin que la relacin existente entre las variables
independientes y la dependiente no es una consecuencia de la aleatoriedad o azar.

TABLA ESTADSTICA: DISTRIBUCIN DE LA F


NIVEL DE CONFIANZA 95%
m
N

1614

1995

2157

2246

2302

1851

19

1916

1925

1930

1013

955

928

912

901

771

694

659

639

626

661

579

541

519

505

599

514

476

4,53

439

559

474

435

412

397

532

446

407

384

369

512

426

386

363

348

10

496

410

371

348

333

11

484

398

359

336

320

12

475

389

349

326

311

13

467

381

341

318

303

14

46

374

334

311

296

15

454

368

329

306

290

Siendo m los grados de libertad del numerador y n los grados de libertad del
denominador.

3.4

COLINEALIDAD

La colinealidad se produce cuando las variables independientes introducidas en el


modelo de regresin estn correlacionadas entre ellas.
Existen diferentes grados de colinealidad, dependiendo del nivel en el que estn
correlacionadas las variables independientes.
Cuando una variable independiente se puede expresar como una combinacin
lineal de las otras, la colinealidad es perfecta. En ese caso se puede omitir dicha
variable, solucionando la colinealidad. El problema se produce cuando

la

correlacin entre las Xs es alta o muy alta, pero sin llegar a ser total.
Debemos ser conscientes de que en casi todos los modelos de regresin mltiple
planteados existe cierto grado de colinealidad. Slo se ha de comprobar que sta
no sea excesiva ni perjudicial.
3.4.1

MATRIZ DE CORRELACIONES

Se trata de una matriz que tiene tantas filas y columnas como nmero de variables
correlacionadas tengamos. En cada celda se indica el coeficiente de correlacin
entre las variables que se cruzan. La diagonal expresa la correlacin de cada
variable consigo misma se consignan con 1 ( algunos autores dicen que se dejen
vacas). La celdas por debajo de esta diagonal se dejan en blanco, ya que
representan las correlaciones entre las casillas en orden invertido ( R12 = R21).
3.4.2

CORRELACIN PARCIAL

La correlacin mltiple se refiere a modelos en los que se relacionan ms de dos


variables independientes,. en este tipo de modelo es normal que si tratamos de
hallar la correlacin simple entre las variables dos a dos, esta no exprese el grado
real de asociacin entre dichas variables porque el resultado estar con toda
seguridad afectado por la influencia en dicha asociacin de las dems variables
que intervienen en el modelo.
Se trata de poder establecer la relacin o asociacin entre dos de las variables del
modelo, eliminando la influencia del resto de variables. Esto es lo que se hace
mediante los coeficientes de correlacin parcial. Mediante estos coeficientes se
puede establecer la correlacin entre dos variables, controlando o eliminando el
efecto en dicha correlacin de otras variables del modelo.
36

Existen diversos tipos de correlacin parcial, segn el nmero de variables que se


controlan.
Cuando no se controla ninguna variable, la correlacin entre dos variables, es la
correlacin simple o total se denomina de orden cero, si hay una variable de
control se denomina de orden uno, si se controlan dos variables se trata de una
correlacin de orden dos y as sucesivamente.
3.4.3

CORRELACIN PARCIAL MLTIPLE

La correlacin parcial mltiple es una modalidad de correlacin entre cuatro o ms


variables, que combina los tipos de correlacin parcial y la mltiple
Al medir la correlacin de ms de dos variables

estamos

realizando

una

correlacin mltiple y si lo hacemos controlando una o ms variables, es a su vez


una correlacin parcial.
3.4.4

MULTICOLINEALIDAD

Se denomina multicolinealidad la existencia de una elevada correlacin entre las


variables independientes que forman parte del modelo.
Se produce cuando las variables explicativas (X) estn altamente correlacionadas
entre si. Esta circunstancia perturba la explicacin de los coeficientes de regresin
estimados y sus errores estandar.
Cuando esto sucede no es posible separar la influencia propia sobre la variable
dependiente de cada una de las variables independientes, producindose el efecto
de un incremento en los errores estndar de los coeficientes de regresin.
La gravedad de la multicolinealidad depender del objetivo que se busque con el
modelo. Si lo que pretendemos es predecir los valores de la variable dependiente
(Y) entonces el problema no es grave, pero si lo es cuando se quiere determinar el
efecto de cada variable independiente sobre la dependiente.
3.4.5

EFECTOS DE LA COLINEALIDAD

La colinealidad provoca diferentes efectos, que se manifestarn tanto ms cuanto


mayor sea la correlacin entre las Xs:

Las desviaciones estndar de los coeficientes de regresin estn


sobreestimadas, con lo que aparecen como no significativos coeficientes
que en realidad s lo son.

Puede suceder que ninguno de los coeficientes de regresin sean distintos


de cero (no son significativos) y que, a nivel conjunto, s que lo sean.

Los coeficientes de regresin estimados no son consistentes, es decir,


pueden cambiar al modificar la muestra o al introducir diferentes variables
en el modelo.

En definitiva, cuando hay colinealidad se consigue explicar la variable Y, pero no


se sabe cul es el efecto de cada una de las X por separado (puesto que todas ellas
estn relacionadas).
3.4.6

FORMAS DE MEDIR LA COLINEALIDAD

La colinealidad se puede medir de distintas formas:

Matriz de correlaciones de Pearson entre cada par de variables


independientes. Da una idea pero no es concluyente.

Tolerancia = (1 Rj), donde Rj es el coeficiente de determinacin de la


variable Xj frente a todas las dems Xs.

Factor de Inflacin (o agrandamiento) de la Varianza: (FIV) =1/Tolerancia

3.4.6.1

NIVELES DE COLINEALIDAD

Lo podemos resumir en el siguiente cuadro:

Tolerancia

VIF

Colinealidad:

Toler = 1

VIF = 1

No existe colinealidad

0,3 < Toler < 1

3,33 > VIF > 1

Poca: el modelo no suele presentar


efectos (defectos) importantes

0,1 < Toler < 0,3 10 > VIF > 3,33 Elevada: se comienzan a notar las
consecuencias de la colinealidad:
inconsistencia de los estimadores y
prdida de su significacin
0,01 <Toler< 0,1 100 > VIF > 10 Excesiva:
se
producen
graves
problemas en la interpretacin de las
Xs ya que sus coeficientes de
regresin pueden llegar a cambiar
hasta de signo
Toler < 0,01

3.4.7

VIF > 100

Colinealidad perfecta: los propios


paquetes informticos dejan fuera la
variable (ya que es una combinacin
lineal de las otras independientes)

SOLUCIN AL PROBLEMA DE MULTICOLINEALIDAD

Para dar solucin a este problema se recurre al anlisis factorial. Se aplica el


anlisis factorial a las variables independientes correlacionadas entre s y se
sustituyen sus valores por las puntuaciones de los factores obtenidos, que estn
absolutamente incorrelaccionados entre s.
3.4.8

COEFICIENTES DE REGRESIN

Lo podemos resumir en:


Si se cumplen todas las hiptesis del modelo de regresin, la comprobacin de la
utilidad de cada coeficiente de regresin se realiza de la misma forma que en el
anlisis de regresin simple:

(la Xi no influye sobre la Y)

H0 : i = 0
Ha : i 0

Estadstico de prueba:

t = Regin de rechazo: se rechaza H0 si el nivel de

i
S

significacin observado es pequeo, menor

que

0,05

Observaciones: El modelo no ser eficiente si incluye variables que no sean


estadsticamente

explicativas

(las

que

tienen

un

coeficiente

de

regresin

significativamente distinto de 0)
Como cada Xi puede estar medida en diferentes unidades, la comparacin de los
coeficientes de correlacin de las diferentes variables se ha de realizar mediante los
coeficientes estandarizados

3.4.8.1

SIGNIFICACIN DE LOS COEFICIENTES DE REGRESIN

El error estndar es la desviacin tpica estimada del coeficiente de regresin.


El intervalo de confianza es el intervalo para el que se establece una probabilidad
de que el verdadero valor del coeficiente de regresin est contenido entre los
lmites del mismo.
La significacin del mismo se realiza mediante el estadstico t de Student
t

Coeficiente de
regresin Error
estndar

Normalmente se contrasta para = 5%


3.4.8.2

COEFICIENTES DE REGRESIN ESTANDARIZADOS

Son aquellos que se obtendran si se realiza la regresin con todas las variables
estandarizadas (sin unidad de medida).

Beta1

B1

S
x

Sy

o B1

S
y

Beta1

Sx

3.4.9

ANLISIS DE LA VARIANZA EN LA REGRESIN

Se utiliza para contrastar la hiptesis de dependencia lineal entre la variable


dependiente (Y) y las variables independientes (X)
La varianza total de la variable dependiente se divide en

3.5

Atribuida al modelo de regresin

Residuo no explicado por el modelo

MODELOS CON VARIABLES FICTICIAS

Una de la condiciones del anlisis de regresin es que las variables deben estar
medidas en una escala mtrica. Este anlisis tambin se puede aplicar a variables
cualitativas, con escala nominal u ordinal, para ello es necesario transformar estas
variables en otras denominadas ficticias (Dummy), esto se hace de acuerdo con el
lgebra de Boole, dando el valor 1 a la posesin del atributo y el 0 a la carencia.

3.6

TABLA ESTADSTICA:DISTRIBUCIN T DE STUDENT


Valores de la funcin de distribucin
g.l. = grados de libertad
tc tal que p(t<=tc)=p

g.l.
1
2
3
4
5

Probabilidad p
0,995 0,990 0,975 0,950 0,900 0,800 0,750 0,700 0,600 0,550
63,657 31,821 12,706
9,925 6,965 4,303
5,841 4,451 3,183
4,604 3,747 2,786
4,032 3,365 2,571

6,314
2,920
2,353
2,132
2,015

3,078
1,876
1,638
1,533
1,478

1,376
1,061
0,978
0,941
0,920

1,000
0,816
0,765
0,741
0,727

0,727
0,617
0,584
0,569
0,559

0,325
0,289
0,277
0,271
0,267

0,158
0,142
0,137
0,134
0,132

6
7
8
9
10

3,707
3,499
3,355
3,250
3,169

3,143
2,998
2,895
2,821
2,764

2,457
2,365
2,306
2,262
2,228

1,943
1,895
1,860
1,833
1,812

1,440
1,415
1,397
1,383
1,372

0,906
0,896
0,889
0,883
0,879

0,718
0,711
0,706
0,703
0,700

0,553
0,549
0,546
0,543
0,542

0,265
0,263
0,262
0,261
0,260

0,131
0,130
0,130
0,129
0,129

11
12
13
14
15

3,106
3,055
3,012
2,987
2,947

2,728
2,681
2,650
2,624
2,602

2,201
2,179
2,160
2,145
2,131

1,796
1,782
1,771
1,761
1,753

1,363
1,356
1,350
1,345
1,341

0,876
0,873
0,870
0,868
0,866

0,697
0,695
0,694
0,692
0,691

0,540
0,539
0,538
0,537
0,536

0,260
0,259
0,259
0,258
0,258

0,129
0,128
0,128
0,128
0,128

16
17
18
19
20

2,921
2,898
2,888
2,861
2,845

2,583
2,567
2,552
2,539
2,528

2,120
2,110
2,101
2,093
2,086

1,746
1,740
1,734
1,729
1,725

1,337
1,333
1,330
1,328
1,325

0,865
0,863
0,862
0,861
0,860

0,690
0,689
0,688
0,688
0,687

0,535
0,534
0,534
0,533
0,533

0,258
0,257
0,257
0,257
0,257

0,128
0,128
0,127
0,127
0,127

21
22
23
24
25

2,831
2,819
2,807
2,797
2,787

2,518
2,508
2,500
2,492
2,485

2,080
2,074
2,069
2,064
2,060

1,721
1,717
1,714
1,711
1,708

1,323
1,321
1,319
1,318
1,316

0,859
0,858
0,858
0,857
0,856

0,686
0,686
0,685
0,685
0,684

0,532
0,532
0,532
0,531
0,531

0,257
0,256
0,256
0,256
0,256

0,127
0,127
0,127
0,127
0,127

26
27
28
29
30

2,779
2,771
2,763
2,756
2,750

2,479
2,473
2,467
2,462
2,457

2,056
2,052
2,048
2,045
2,042

1,706
1,703
1,701
1,699
1,697

1,315
1,314
1,313
1,311
1,310

0,856
0,855
0,855
0,854
0,854

0,684
0,684
0,683
0,683
0,683

0,531
0,531
0,530
0,530
0,530

0,256
0,256
0,256
0,256
0,256

0,127
0,127
0,127
0,127
0,127

40
60

2,704
2,660

2,423
2,390

2,021
2,000

1,684
1,671

1,303
1,296

0,851
0,848

0,681
0,679

0,529
0,527

0,255
0,254

0,126
0,126

3.7

EJEMPLO 1

Se quiere estudiar las ventas en funcin de las inversiones en publicidad,


promocin, el nmero de vendedores y el de puntos de venta (Tienda). Para ello se
tienen en cuenta los siguientes resultados

VENTAS
PUBLICIDAD PROMOCIN VENDEDORES
1400
52
130
25
1500
60
145
30
2000
80
150
30
1990
95
200
27
2100
87
180
35
2300
100
150
32
2200
94
150
36
2700
125
125
34
2750
136
98
26
2600
124
100
30
2763
132
87
28
3469
190
100
31
3165
197
102
42
3400
175
198
29
3759
186
212
18
3896
213
129
21
3895
231
142
20
4123
248
167
19
4230
257
198
21
4567
340
158
18
3986
425
98
21

Tratamiento mediante programa DYANE.

TIENDAS
300
400
500
500
400
357
287
197
146
150
160
198
300
234
126
157
134
128
115
116
138

Anlisis Multivariante
AN LI S I S D ER E G R E S I NM LTI PL E
IDENTIFICACIN DE LAS VARIABLES
VARIABLE DEPENDIENTE: VENTAS
VARIABLES INDEPENDIENTE 1: inversin en publicidad
VARIABLES INDEPENDIENTE 2: inversin en promocin
VARIABLES INDEPENDIENTE 3: nmero de vendedores
VARIABLES INDEPENDIENTE 4: nmero de puntos de venta

Matriz de coeficientes de correlacin simple:


ventas
publicid promo
vendedor tiendas
-------- -------- -------- -------- -------ventas

1.0000

0.8868

0.0884

-0.5988

-0.7814

publicid

0.8868

1.0000

-0.0652

-0.5631

-0.6666

promo

0.0884

-0.0652

1.0000

-0.2779

0.2304

vendedor

-0.5988

-0.5631

-0.2779

1.0000

0.5508

tiendas

-0.7814

-0.6666

0.2304

0.5508

1.0000

Coeficiente de determinacin:
0.9033
Coeficiente de correlacin mltiple: 0.9504
Coeficiente de regresin alfa: 1416.4829

VARIABLE

MEDIA

DESVIACIN

COEFICIENTE

ERROR

ESTNDAR

REGRESIN

ESTNDAR

COEFIC.

SUMA DE

PROPORC.

DE

CORREL.

CUADRADOS

VARIANZA

STUDENT

PARCIAL

AADIDA

AADIDA

-------- -------------- -------------- ----------- ---------- -------- ------- -------------------- --------

ventas
publicid

2990.1429
168.9048

946.7194
94.4955

6.5105

1.1022

5.9068

0.8280

14098343.7977

0.7865

0.5804

384920.6320

0.0215

p=0.0000

promo

143.7619

38.4862

6.4704

2.2696

2.8509
p=0.0116

vendedor

27.2857

6.6268

13.4207

16.0705

0.8351

0.2044

86916.2111

0.0048

-3.8672 -0.6951

1621077.2282

0.0904

p=0.4160

tiendas

239.7619

127.1314

-3.4300

0.8869

p=0.0014
-------------------- -------16191257.8689

45

0.9033

ANLISIS DE LA VARIANZA
FUENTE DE VARIACIN

GRADOS LIBERTAD

----------------------

---------------

Debida a la regresin:
Residuo:
Varianza total:

SUMA CUADRADOS

MEDIA CUADRADOS

---------------------

---------------------

16191257.8689

4047814.4672

16

1734292.7025

108393.2939

---

---------------------

20

17925550.5714

F de Snedecor con 4 y 16 grados de libertad

= 37.3438

(p= 0.0000)

Anlisis
Multivariante
ANEXO: A N L I S I S D E C O M P O N E N T E S P R I N C I P A L E S
IDENTIFICACIN DE LAS VARIABLES
-------------------------------

VARIABLE
VARIABLE
VARIABLE
VARIABLE

1
2
3
4

:
:
:
:

inversin
inversin
nmero de
nmero de

en publicidad
en promocin
vendedores
puntos de venta

Matriz de coeficientes de correlacin simple


-------------------------------------------publicid promo
vendedor tiendas
-------- -------- -------- -------publicid
1.0000 -0.0652 -0.5631 -0.6666
promo
-0.0652
1.0000 -0.2779
0.2304
vendedor
-0.5631 -0.2779
1.0000
0.5508
tiendas
-0.6666
0.2304
0.5508
1.0000
Test de Bartlett
---------------Determinante de la matriz de correlacin = 0.247672
Ji cuadrado con 6 grados de libertad = 24.8891
(p = 0.0004)
FACTOR 1 FACTOR 2 FACTOR 3 FACTOR 4
-------- -------- -------- -------VALOR PROPIO: 2.1890
1.1866
0.3582
0.2662
% DE VARIANZA: 54.72%
29.67%
8.95%
6.65%
% VAR.ACUMUL.: 54.72%
84.39%
93.35% 100.00%
CARGAS DE
LOS FACTORES:
publicid
promo
vendedor
tiendas

-0.8756
0.0272
0.8125
0.8726

-0.0778
0.9698
-0.4079
0.2716

0.4658
0.1193
0.3109
0.1742

COMUNALIDAD
----------0.1018 1.0000
-0.2111 1.0000
-0.2771 1.0000
0.3668 1.0000

COEFICIENTES DE PUNTUACIN DE LOS FACTORES:


publicid
promo
vendedor
tiendas

-0.4000
0.0124
0.3712
0.3986

-0.0656
0.8172
-0.3437
0.2288
47

1.3004
0.3332
0.8678
0.4863

0.3825
-0.7929
-1.0409
1.3778

Cargas de los factores retenidos:


---------------------------------

publicid
promo
vendedor
tiendas

FACTOR 1
--------0.8756
0.0272
0.8125
0.8726

FACTOR 2
--------0.0778
0.9698
-0.4079
0.2716

COMUNALIDAD
----------0.7727
0.9412
0.8266
0.8351

ROTACIN VARIMAX:
Cargas de los factores retenidos (despus de la rotacin):
---------------------------------------------------------FACTOR 1
--------0.8777
0.0612
0.7977
0.8816

FACTOR 2
--------0.0470
0.9682
-0.4362
0.2407

VARIANZA:
2.1877
% DE VARIANZA: 54.69%
% VAR.ACUMUL.: 54.69%

1.1879
29.70%
84.39%

publicid
promo
vendedor
tiendas

COMUNALIDAD
----------0.7727
0.9412
0.8266
0.8351

EJEMPLO2

3.8

A travs de un anlisis factorial, una empresa de suavizantes ha


determinado que los tres conceptos bsicos que caracterizan a su producto
son: Suavidad, Aroma y Cremosidad. Ahora quiere comprobar cul o
cules de ellos influye/n en la intencin de compra.
Estadsticos descriptivos

Media
3.72
.00

Desviacin
tp.
1.12
1.00

Aroma

.00

1.00

830

Cremosidad

.00

1.00

830

Intencin de compra
Suavidad

N
830
830

Correlaciones
Intencin
de compra
Correlacin
Intencin de
de Pearson compra
Suavidad

Sig.
(unilateral)

Suavidad

Aroma

Cremosidad

1.000

.565

.458

.238
.000

.565

1.000

.000

Aroma

.458

.000

1.000

.000

Cremosidad

.238

.000

.000

1.000

.000

.000

.000

Intencin de
compra
Suavidad

.000

.500

.500

Aroma

.000

.500

.500

Cremosidad

.000

.500

.500

830

830

830

830

830

830

830

830

Aroma

830

830

830

830

Cremosidad

830

830

830

830

Intencin de
compra
Suavidad

Como se puede apreciar en estas tablas, ste es un ejemplo peculiar pues entre las
variables independientes no existe ninguna correlacin. Esto es lgico pues el anlisis
factorial de componentes principales con rotaciones ortogonales genera variables no
correlacionadas entre ellas. Por otro lado, las variables obtenidas estn estandarizadas
(media 0, desviacin tpica 1) y as debern ser interpretadas.

Autor: Teresa Obis ( Profesora Titular Universidad Autnoma de Barcelona UAB)

Resumen del modelo

Modelo
1

R
.765a

R
cuadrado
.586

R cuadrado
corregida
.584

Error tp. de la
estimacin
.72

a. Variables predictoras: (Constante), Cremosidad, Aroma, Suavidad


ANOVAb

Modelo
1

Regresin
Residual
Total

Suma de
cuadrados
606.060
428.404

gl
3
826

1034.464

Media
cuadrtica
202.020
.519

F
389.513

Sig.
.000a

829

a. Variables predictoras: (Constante), Cremosidad, Aroma, Suavidad


b. Variable dependiente: Intencin de compra

A nivel global el modelo obtenido es satisfactorio. Se ha conseguido


explicar el 58,6% de la variabilidad total de Y, la intencin de compra.
Adems, como se puede ver en la tabla ANOVA, esta varianza explicada es
suficientemente grande respecto a la residual con lo que este modelo es
capaz de explicar los cambios producidos en la Intencin de compra.
Coeficientesa

(Constante)
Suavidad
Aroma
Cremosidad

Coeficie ntes no
estanda rizados
Error
B
tp.
3.717
.025
.631
.025

Coefic.
estandar.
Beta

Sig.
.000
.000

Intervalo d e confianza
para B al 95%
Lmite
Lmite
inferior
superior
3.668
3.766
.582
.680

.565

t
148.689
25.228

.512

.025

.458

20.465

.000

.463

.561

.266

.025

.238

10.644

.000

.217

.315

a. Variable dependiente: Intencin de compra

A nivel individual, todos los coeficientes de regresin son significativamente distintos


de 0. Por ello, todas las variables incluidas en el modelo aportan explicacin sobre la
Intencin de compra. En concreto, por una unidad estndar de Suavidad, la Intencin de
compra aumenta en 0,631 puntos (en una escala de 1 a 5). Una unidad estndar de
Aroma provoca un aumento, en promedio, de 0,512 puntos en la Intencin de compra y
una de Cremosidad de 0,266 puntos.
Obsrvese como en este caso las Betas coinciden con las correlaciones de Pearson entre
cada una de las variables independientes y la dependiente. Esto es lgico ya que, no al
existir correlacin entre las Xs, cada una de ellas aporta al modelo lo mismo que es
capaz de explicar individualmente.

ANEXO
Caso: Inmobiliaria Nuez
(Teresa Obis Artal)

4. ANLISIS DE REGRESIN. RESUMEN CONCEPTOS


El modelo de regresin lineal de primer orden
y = 0 + 1x +
donde:
y = variable dependiente o variable a explicar
x = variable independiente o variable explicativa
(epsilon) = error o perturbacin aleatoria

0origen
=
de la recta: punto donde la recta corta el eje de ordenadas o eje de la
y.
1 =
pendiente de la recta o coeficiente de regresin: nos
indica en cuanto
aumenta (o disminuye) la variabledependiente por cada incremento en 1
unidad de lavariable independiente.

Qu nos interesa:
Cmo se calculan los coeficientes de regresin, 0 y 1
2. Cmo se interpretan
3. Cmo se determina si son o no estadsticamente significativos
4. Cmo se comprueban las hiptesis del modelo
1.

4.1

ESTIMACIN

DEL

MODELO

DE

REGRESIN

POR

MNIMOS CUADRADOS ORDINARIOS


Con los datos de la muestra se pueden estimar los parmetros desconocidos del modelo
del siguiente modo:
y = 0 + 1x +

yi =
yi

y ii=
y

+ 40xi

- (

) i
+x

01

SSE (Suma de Errores al Cuadrado) =

[ y
i 1

-(

+ xi)2

01

La recta de mnimos cuadrados ordinarios es, precisamente, aquella que minimiza la


suma de los errores cuadrados.
Frmulas para obtener los estimadores mnimos cuadrados
Pendiente:

SSxy
SSxx

Origen:

donde

xy
SS=

x iy i

xi

i 1

i=1

SS xx
=

i=1

2
i

i=1

yi

i 1

x
1

n = tamao de la muestra

Los estimadores mnimos cuadrados son los mejores que se


pueden conseguir (insesgados, eficientes y consistentes) si se
cumplen ciertas hiptesis sobre (los errores)

5. EJEMPLO 1 DE ANLISIS DE REGRESIN LINEAL


La Inmobiliaria Nuez ha recibido quejas de dos de sus clientes, acusndola de que
vende los pisos por debajo del precio de mercado. Para demostrar su buen hacer, el
gerente de esta inmobiliaria ha conseguido informacin sobre ventas de pisos de los
ltimos cuatro meses de su inmobiliaria y de otros competidores. En el fichero de datos
2
se dispone del precio de venta del piso as como de la superficie del mismo (en m ), el
nmero de habitaciones, la antigedad de la vivienda, en qu zona se localiza, el mes de
la venta y si lo ha vendido la Inmobiliaria Nuez u otra agencia.
El precio de la vivienda es significativamente diferente segn cul sea la inmobiliaria
que lo ha vendido?
Descriptivos
precio vivienda (miles euros)

Otra
Nuez

N
469
49

Media
56,697
52,477

Desviacin
tpica
10,931
8,920

Total

518

56,298

10,820

Error
tpico
,505
1,274
,475

Intervalo de
confianza para
la media al 95%
Lmite
Lmite
inferior
superior
55,706
57,689
49,915
55,039
55,364

57,232

Mnimo
31,205
35,000

Mximo
89,819
78,494

31,205

89,819

CONCEPTOS BSICOS:
Media: es la suma de los valores de las observaciones dividido por el nmero de
observaciones.
Desviacin tpica: raz cuadrada positiva de la suma de cuadrados de las distancias
entre la media y cada elemento, dividido por el nmero total de observaciones (menos
una). Es decir, es una distancia promedio entre las observaciones y la media.
Error tpico: se calcula como la desviacin tpica divida por la raz de n (tamao de la
muestra). Es la desviacin tpica de la distribucin muestral de las medias. Es decir, es
la distancia promedio entre las medias de distintas muestras y la media de la poblacin.
Intervalo de confianza para la media al 95%: se calcula como la media de la muestra
1,96 veces el error tpico. Es el intervalo donde se encuentra la media de la poblacin
al 95% de confianza.

5.1

COEFICIENTES DE REGRESIN NO ESTANDARIZADOS:

Cmo influye la superficie de la vivienda en el precio de la misma?

Coeficientesa

Coeficientes
no
B
Error tp.
(Constante)
13,819
1,874
superficie de la vivienda (m2)
,477
,021

Coeficientes
estandarizados
Beta

t
7,374
23,037

,712

Sig.
,000
,000

a. Variable dependiente: precio vivienda (miles euros)

Constante 0: En el origen, cuando todas las variables son cero (es decir,
un piso sin superficie) el precio del piso es de 13819 Euros.
Pendiente 1: Por cada m de ms del piso, su precio aumenta en 477 Euros.
CAMBIO EN LA MEDIDA DE X E Y. EFECTO EN

5.2

Coeficientesa

(Constante)
superficie de la vivienda (m2)

Coeficientes
no
B
Error tp.
13818,516 1873,995
477,027
20,707

Coeficientes
estandarizados
Beta
,712

t
7,374
23,037

Sig.
,000
,000

a. Variable dependiente: precio de la vivienda (euros)

Coeficientesa

(Constante)
superficie de la vivienda (m2)

Coeficientes
no
B
Error tp.
,013819
,001874
,000477
,000021

Coeficientes
estandarizados
Beta
,712

t
7,374
23,037

Sig.
,000
,000

t
7,374
23,037

Sig.
,000
,000

a. Variable dependiente: precio de la vivivenda (millones euros)

Coeficientesa

(Constante)
superficie vivienda (cm2)

Coeficientes
no
B
Error tp.
13,819
1,874
,0000477
,0000021

Coeficientes
estandarizados
Beta
,712

a. Variable dependiente: precio vivienda (miles euros)

5.3

COEFICIENTES DE REGRESIN ESTANDARIZADOS

Son aquellos que se obtendran si se realiza la regresin con todas las variables
estandarizadas (sin unidad de medida).
Beta0: Al restar las medias, la constante estndar siempre es 0

Sy
Sx
Beta 1 B1
o B 1 Beta1
Sy
Sx
Coeficientesa

Coeficientes
no
B
Error tp.
(Constante)
13,819
1,874
superficie de la vivienda (m2)
,477
,021

Coeficientes
estandarizados
Beta
,712

t
7,374
23,037

Sig.
,000
,000

a. Variable dependiente: precio vivienda (miles euros)

COEFICIENTES DE REGRESIN ESTANDARIZADOS:


Constante ETA0: la recta
de regresin con variables
estandarizadas pasa siempre
por el origen. Cuando se
estandarizan las variables se
hace un cambio de ejes y se
sitan en el valor medio de
X e Y, por donde pasa la
recta de regresin

100

90

precio vivienda (miles euros)

80

70

60

50

40
30
40

60

100

80

120

140

superficie de la vivienda (m2)

Pendiente ETA1:
Por cada unidad estndar de ms de superficie
del piso, el precio aumenta en 0,712 unidades estndares de
precio
Estadsticos descriptivos

precio vivienda (miles euros)


superficie de la vivienda (m2)

Media
56,298
89,05

0,712

u.e.Y

5.4

u.e. X

10,82 miles euros

16,15 m

Desviacin
tp.
10,820
16,15

u.e.Y

u.e. X

N
518
518

0,477

miles euros

COEFICIENTE DE CORRELACIN DE PEARSON

El coeficiente de correlacin de Pearson, o R, es una medida que resume la relacin


lineal [recta] existente entre dos variables.
56

SSxy
SSxx SSyy

precio vivienda (miles euros)

precio vivienda (miles euros)

De esta forma, se dispone de una medida de la relacin entre x e y que no depend


las unidades de las variables originales. De hecho, el coeficiente de correlacin de Pe

100

90

80

70

40

60

80

100

120

140

60

superficie de la vivienda (m2)

Correlacin positiva

Correlac

50

100
100

40

90
90

precio vivienda (miles euros)

precio vivienda (miles euros)

30

80
80

70
70

10

12

14

60

Antigedad de la casa (aos)

60

Dist

Sin correlacin
50

Sin corr
50

El coeficiente de correlacin de Pearson toma valores entre 1 y 1. Cuando ms prximo a 1 sea


Si la correlacin de Pearson es 0, no existe relacin rectilnea entre las dos variables. En este caso
40

40

30
30

57

Estadsticos descriptivos
precio vivienda (miles euros)
superficie de la vivienda (m2)

N
518
518

Mnimo
31.205
51

Mximo
89.819
137

Media
56.298
89.05

Desv. tp.
10.820
16.15

Arreglos (de 0 -nada- a 10)

518

.00

9.50

5.10

1.70

Antigedad de la casa (aos)

518

13

6.18

2.08

Distancia centro (Km)

518

.88

19.46

10.57

5.21

N vlido (segn lista)

518
Correlaciones

precio vivienda
(miles euros)

Correlacin Pearson
Sig. (bilateral)
N

superficie de la
vivienda (m2)

Correlacin Pearson
Sig. (bilateral)
N

Arreglos (de 0
-nada- a 10)

Correlacin Pearson
Sig. (bilateral)
N

Antigedad de
la casa (aos)

Correlacin Pearson
Sig. (bilateral)
N

Distancia
centro (Km)

Correlacin Pearson
Sig. (bilateral)
N

precio
vivienda
(miles
euros)
1.000
.

superfici Arreglos
Antiged
e de la
(de 0
ad de la
vivienda
casa
-nada- a
(m2)
10)
(aos)
.712**
-.667**
-.004
.000
.000
.930

518
.712**
.000

518
1.000
.

518

518

-.667**
.000

-.951**
.000

518

Distanci
a centro
(Km)
.061
.163

518

518

518

-.951**
.000

.055
.214

-.002
.966

518

518

518

1.000
.

-.069
.116

-.014
.748

518

518

518

518

-.004
.930

.055
.214

-.069
.116

1.000
.

-.014
.755

518

518

518

518

518

.061
.163

-.002
.966

-.014
.748

-.014
.755

1.000
.

518

518

518

518

518

**. La correlacin es significativa al nivel 0,01 (bilateral).

Entre el precio de la vivienda y las otras cuatro variables aparecen 2


correlaciones prximas a 1 (lo que indica relacin lineal entre cada una de
ellas y el precio) y otras 2 correlaciones prximas a 0 (lo que indica que no
existe relacin entre ellas y el precio, o que la relacin no es rectilnea)

COMPROBACIN DE LA BONDAD DEL MODELO:


INFERENCIAS ACERCA DE LA PENDIENTE 1 (o )
Distribucin muestral de

Si las hiptesis sobre se cumplen, la distribucin muestral de , el estimador


1
de la
pendiente por mnimos cuadrados, seguir una normal con una media 1 (la verdadera

SSxx

pendiente) y desviacin estndar igual


a

donde es la desviacin tpica de la perturbacin (o estimacin).

Intervalo de confianza al 100(1-)% para la pendiente 1

1
S

t/2

donde

S 1

S
SSxx

y t/2 se calcula con (n-2) grados de libertad.


Contraste sobre la utilidad del modelo
H0 : 1 = 0
Ha : 1 0

t =
S1

(la X no influye sobre la Y)

de prueba:
Estadstico
1
s
SSxx

Regin de rechazo: t < - t/2 o t > t/2;donde t/2 tiene (n-2) g.l.
Tambin se puede rechazar la H0 cuando el nivel de significacin observado (probabilidad de equivo
Supuestos: Hiptesis sobre la distribucin de probabilidad de

5.5

EN NUESTRO EJEMPLO SOBRE EL PRECIO DE LOS


PISOS:
Coeficientesa

(Constante)
superficie de la
vivienda (m2)

Coeficientes no
estandarizados
Error
tp.
B
13.819
1.874
.477

.021

Coefic.
estand.
Beta
.712

t
7.374

Sig.
.000

23.037

.000

Intervalo confianza
para B al 95%
Lmite
Lmite
inferior
superior
10.137
17.500
.436

.518

a. Variable dependiente: precio vivienda (miles euros)


2

Cuando aumenta la superficie de la vivienda en 1 m el precio de la misma


aumenta en 477 euros, en promedio. Al 95% de confianza, el incremento
podra situarse entre 436 euros y 518 euros.
Coeficientesa

(Constante)
Arreglos (de 0
-nada- a 10)

Coeficientes no
estandarizados
Error
tp.
B
77.931
1.121
-4.240

.208

Coefic.
estand.
Beta
-.667

t
69.543

Sig.
.000

-20.349

.000

Intervalo confianza
para B al 95%
Lmite
Lmite
inferior
superior
75.730
80.133
-4.649

-3.831

a. Variable dependiente: precio vivienda (miles euros)

Cuando la percepcin de arreglos a realizar en la vivienda aumenta un


punto en la escala de 10 el precio disminuye en 4240 euros, en promedio.
Coeficientesa

(Constante)
Antigedad de
la casa (aos)

Coeficientes no
estandarizados
Error
tp.
B
56.422
1.489
-.020

.228

Coefic.
estand.
Beta
-.004

t
37.890

Sig.
.000

-.088

.930

Intervalo confianza
para B al 95%
Lmite
Lmite
inferior
superior
53.497
59.348
-.469

.429

a. Variable dependiente: precio vivienda (miles euros)

Al aumentar la antigedad de la vivienda en 1 ao el precio de la misma no


vara significativamente. Es decir, sea cual sea la antigedad de la casa el
precio previsto ser siempre el mismo: 56422 euros (aproximadamente, el
promedio de precio de las observaciones disponibles).

5.6

COEFICIENTE DE DETERMINACIN

Podemos preguntarnos, por qu la Y no es igual para todos?

( yi y) ( yi y i ) ( yi y)
( yi y)= ( y i y)+ ( yi y i )
2
2
SSyy (total) = SSR (explicada)
+ SSE (residual)

El coeficiente de determinacin, R2, representa la proporcin de la variabilidad total de


la muestra respeto a y que es explicada por la relacin lineal entre x e y. Se calcula
como:

R2 =

SSR

SSyy

5.7

(y y
1 ii
2
explicada
(yi
y)

COMPROBACIN

) 2Variabilidad
Variabilidad total

DE

LA

BONDAD

GLOBAL

DEL

MODELO: ANALISIS DE LA VARIANZA

Contraste sobre la util

H0 : R = 0 (En la regre
Ha : R 0
Estadstico de
prueba:

F=

S
S

Donde n es el tamao de la muestra y


Regin de rechazo: cuando el valor de F sea suficientemente grande segn las tablas o cuando niv
Supuestos: H

En nuestro ejemplo del precio del piso explicado a travs de su superficie,


los estadsticos globales del modelo son:
Resumen del modelo
Modelo
1

R
,712a

R cuadrado
,507

R cuadrado
corregida
,506

Error tp. de la
estimacin
7,6044

a. Variables predictoras: (Constante), superficie de la vivienda (m2)

ANOVAb

Regresin

Suma de
cuadrados
30689,069

Residual
Total

Modelo
1

Media
cuadrtica
30689,069

29838,571

516

57,827

60527,639

517

gl

F
530,708

Sig.
,000 a

a. Variables predictoras: (Constante), superficie de la vivienda (m2)


b. Variable dependiente: precio vivienda (miles euros)

Con las variables incluidas en el modelo, la superficie de la vivienda y una


constante, se ha conseguido explicar el 50,7% de la variabilidad del precio
del piso (30689 / 60527). Por otro lado, la varianza explicada es 530 veces
la residual (30689 / 57). Como la significacin de la F es menor que 0,05
podemos afirmar que esta varianza explicada es suficientemente grande. Es
decir, hemos conseguido explicar porqu el precio no es igual en todas las
viviendas (por la superficie de la misma).
5.8

PRECAUCIONES EN EL ANLISIS DE REGRESIN


Cuando se rechaza la H0 sobre la utilidad del modelo por medio de la significacin
de la F se dice que el modelo es til (con un determinado nivel de confianza). Sin
embargo, til no significa que necesariamente sea el mejor. Algn otro modelo
podra ofrecer mejores estimaciones y predicciones.

Un coeficiente de determinacin (o de correlacin) alto no significa que sea muy


prximo a 1, ni un coeficiente bajo que sea prximo a 0 (no existe relacin). La
significacin del test de la F (o de la t) es la que dir si dicho coeficiente es
suficientemente grande o no (estadsticamente diferente de 0).

La ausencia de correlacin entre dos variables puede indicar, simplemente, que la


relacin entre ambas no es rectilnea.

Un nivel de correlacin elevado no implica necesariamente la existencia de una


relacin de CAUSALIDAD entre las variables analizadas. Se pueden encontrar
altas correlaciones por CASUALIDAD, lo que se denomina relaciones espurias. Se
producen porque ambas variables estn correlacionadas con una tercera variable.

5.9

OTROS AJUSTES DE BONDAD DEL MODELO

R cuadrado corregida, R 2 :
si se introduce una nueva variable en el modelo, la R2
siempre aumenta (ya que se consigue explicar algo ms, aunque sea muy poco). De la misma man

R 2 R 2 k 1 (1 R 2 )
nk

Desviacin tpica de la perturbacin o de la estimacin, : An en la poblacin, la


estimacin de Y para una X concreta puede tener cierto error, . Por este motivo se dice que sta

Esta desviacin tpica de la estimacin

5.10 USO DEL MODELO PARA ESTIMAR Y PREDECIR


Error muestral para el estimador de la media de y:
La desviacin tpica de la distribucin muestral del estimador del valor medio de y para un valor de

1 xp x
y 2
n SSxx

Se debe al error muestral: por trabajar con datos de una muestra

Error muestral para el estimador de un valor concreto de y:


La desviacin tpica del error de la prediccin de un valor concreto y cuando x =
y ), es:

(y

1 x p x
y )
1
SSxx

Por tanto, la varianza total del error de pronstico se divide en dos


partes: varianza debida a la perturbacin aleatoria ( ) y la varianza debid
muestral.

Intervalo de confianza al 100(1-)% para el valor medio de y cuando x = xp


y t /2 (la desviacin estndar estimada de y )

t /2

1 x p
;
n

donde t /2 tiene (n-2) g.l.

SSxx

100

precio vivienda (miles euros)

90

80

70

40

60

80

100

120

140

60

superficie de la vivienda (m2)

por dnde puede estar la recta de la poblacin


50

40

Intervalo de confianza al 100(1-)% para un valor individual de y cuando x = xp


y t /2 [la desviacin estndar estimada para (y - y )
30

t /2

1 x p

x t /2 tiene (n-2) g.l.


; donde

SSxx
100

90

precio vivienda (miles euros)

80

70

40

60

80

100

120

140

60

superficie de la vivienda (m2)

por dnde pueden estar las observaciones


50

40

30

En nuestro ejemplo, las dos viviendas que dicen que la agencia Nuez ha
2
vendido por debajo del precio tienen una superficie de 104,285 y 90,333 m
(observaciones 423 y 444) y las vendi a 53313 y 46084 euros:
Resmenes de casos
precio
vivienda
(miles
euros)
35.060
42.470

superfic
ie de la
vivienda
(m2)
69.238
83.238

Predicted
Value
46.847
53.525

95% L
CI for
PRECIO
mean
45.807
52.828

95% U
CI for
PRECIO
mean
47.886
54.223

95% L CI
for
PRECIO
individual
31.871
38.570

95% U CI
for
PRECIO
individual
61.822
68.481

1
2

Nme
ro de
caso
399
406

409

Otra

58.735

116.095

69.199

67.918

70.480

54.205

84.193

416

Otra

49.277

96.048

59.636

58.920

60.351

44.679

74.592

423

Nuez

53.313

104.286

63.566

62.663

64.468

48.599

78.532

424

Otra

38.253

75.190

49.686

48.821

50.552

34.722

64.651

428

Otra

41.145

84.286

54.025

53.341

54.709

39.070

68.980

430

Otra

52.470

104.095

63.475

62.577

64.372

48.508

78.441

432

Otra

50.120

100.333

61.680

60.879

62.481

46.719

76.641

10

434

Otra

47.590

96.905

60.045

59.315

60.775

45.088

75.002

11
12

437
444

Otra
Nuez

43.072
46.084

86.762
90.333

55.206
56.910

54.543
56.251

55.869
57.568

40.252
41.956

70.160
71.864

13

450

Otra

36.747

76.619

50.368

49.539

51.196

35.406

65.330

14

452

Otra

32.349

60.619

42.735

41.406

44.065

27.737

57.734

15

457

Otra

50.422

101.095

62.044

61.225

62.863

47.082

77.005

16

463

Otra

55.241

113.571

67.995

66.801

69.189

53.008

82.982

17

465

Otra

41.446

81.810

52.844

52.124

53.563

37.887

67.801

18

467

Otra

45.964

93.571

58.455

57.773

59.136

43.500

73.410

19

468

Otra

43.253

84.524

54.139

53.457

54.820

39.184

69.094

20

478

Otra

39.759

76.762

50.436

49.611

51.261

35.474

65.398

21

480

Otra

46.928

95.762

59.500

58.789

60.210

44.543

74.456

22

485

Nuez

47.831

92.476

57.932

57.261

58.603

42.978

72.887

23

499

Otra

31.205

66.000

45.302

44.158

46.447

30.319

60.285

24

503

Otra

62.229

128.048

74.901

73.184

76.618

59.863

89.938

Agen
cia
Otra
Otra

Precio previsto (ob. 423) = 13,819 + 0,477 * 104,285 = 63,555 euros.


Al 95% de confianza, la estimacin promedio podra situarse entre 62663 y
64468 euros.
Al 95% de confianza, la prediccin de una observacin particular podra
situarse entre 48599 y 78532, lo que incluye el precio de venta de 53313.
2

Lo mismo sucede con la observacin 444. Un piso de 90,333 m puede


tener un precio de venta situado entre 41956 y 71864 euros. Por ello, la
venta a un precio de 46084 euros puede ser factible.

5.11 HIPTESIS DEL MODELO DE REGRESIN SIMPLE


Hiptesis sobre la forma de la distribucin de probabilidad de :
y = 0 + 1x +

1. La media de la distribucin de probabilidad de es 0. Es decir, la media de los


valores de para un nmero infinitamente grande de experimentos es 0 para cada
valor de la variable independiente x. Esta hiptesis implica que el valor de la media
de y, E(y), para un valor dado de x es E(y) = 0 + 1x.
2. La distribucin de probabilidad de es normal.
2

3. La varianza de la distribucin de probabilidad de es constante, , para todos los


valores de la variable independiente, X (es decir, existe homocedasticidad).
4. Los valores de asociados a dos valores cualquiera observados de y, son
independientes. Es decir, el valor de asociado a un valor de y no tiene ninguna
influencia sobre los valores de asociados a otros valores de y (esto implica que los
errores no estn correlacionados consigo mismo o, lo que es lo mismo, no existe
La hiptesis 1 se considera cierta y no se contrasta. Se supone que se cumple con una
muestra aleatoria suficientemente amplia. Por otro lado, tampoco hay forma de
comprobar que la media de las perturbaciones sea 0 (ya que la estimacin por mnimos
cuadrados exige que la media de los errores sea 0).

5.12 NORMALIDAD DE LOS ERRORES


La distribucin de probabilidad de tiene que ser normal, con una media igual a 0 y una
desviacin estndar de .
Al cumplirse esta hiptesis, podemos hacer inferencia sobre 1 y comprobar si su valor
es significativamente distinto de 0.

Se contrasta analizando el histograma de los residuos o el grfico de probabilidad acumulada obser

Grfico P-P normal de regresin

Histograma
1.00

Variable dependiente: precio vivienda (miles eu

Variable dependiente: precio viv

Frecuencia

30

Prob acum esperada

40

.75

0.00
.50
0.00

.25

.50.75

20

Prob acum observada

.25
10
Desv. tp. = 1.00
Media = 0.00

0N = 518.00

Si el tamao de muestra es suficientemente grande, el teorema central

del

lmite

garantiza las propiedades


de los estimadores mnimos cuadrticos, sea cual sea la forma
Regresin Residuo tipificado
de la distribucin de las perturbaciones. Si el tamao de muestra es pequeo y la
distribucin es muy asimtrica no se garantiza la normalidad, con los intervalos de
confianza pueden ser incorrectos.

5.13 HOMOCEDASTICIDAD EN LAS PERTURBACIONES


2

Las perturbaciones, , han de tener una misma varianza, , para todos los valores de la
variable independiente, X.
Es decir, la dispersin de las perturbaciones no puede ser, por ejemplo, ms grande para
los valores ms grandes de X y ms pequea para los ms pequeos.

1.00

residuos

Se puede utilizar el grfico de la Y estimada (o de una X) frente a los


estandarizados para ver si el error vara su amplitud:
Grfico de dispersin

Grfico de dispersin

Variable dependiente: OTRA_Y

Variable dependiente: precio vivienda (miles eu

Regresin Residuo estudentizado

Regresin Residuo estudentizado

3
2

1
0

-1

-2
-3

3
2
1
0
-1
-2
-3
-3

-3

-2

-1

-2

-1

Regresin Valor pronosticado tipificado


Regresin Valor pronosticado tipificado

Homocedasticidad

Heterocedasticidad

Numricamente se comprueba comparando los errores de las observaciones con valores


ms bajos con los de las ms altas para ver si son estadsticamente diferentes. Tambin
se pueden realizar regresiones de los errores al cuadrado con cada variable X en
bsqueda de una explicacin de la heterocedasticidad.

Si se demuestra que hay heterocedasticidad, los estimadores mnimo cuadrtico son ineficientes. L
varianzas, por mnimos cuadrados ponderados.

5.14 NO AUTOCORRELACIN DE ERRORES

La autocorrelacin de errores se presenta cuando el error que se produce en u


observacin est relacionado con el de la otra.

Habitualmentesesuponeun

proceso autorregresivo de primer orden, es decir:ut

ut 1

La presencia de autocorrelacin se puede deber a: el modelo no se ha especificado


t.
correctamente (falta alguna X o la relacin no es recta); la Y depende del tiempo
o tiene comportam

El grfico de los pronsticos frente a los residuos estandarizados permite ver si los
errores tienen algn comportamiento:
Grfico de dispersin
Variable dependiente: precio vivienda (miles eu
Regresin Residuo estudentizado

4
3
2
1
0

Comportamiento autoregresivo

-1
-2
-3
-2

-1

Regresin Valor pronosticado tipificado

Relacin no rectilnea
La autocorrelacin se puede contrastar tratando de inferir el componente autoregresivo
o por medio del test de Durbin-Watson

Si la autocorrelacin se produce por un error de especificacin se ha de revisar el


modelo. Si hay autocorrelacin de errores, pero no se conoce su causa, se debe acudir a
los mnimos cuadrados generalizados (pues los estimadores mnimos cuadrados son
ineficientes) o bien aplicar un procedimiento bi-etpico.

6. LINEALIDAD EN EL MODELO DE REGRESIN

6.1

OTRAS TRANSFORMACIONES

En nuestro ejemplo de las viviendas, vimos como el precio estaba


relacionado con la distancia al centro pero no de una forma rectilnea
A la vista de esta grfica se puede
pensar que el ajuste se
puede
mejorar utilizando un modelo
cuadrtico

100

precio vivienda (miles euros)

90

80
60

y = 0 + 1x + 2x +

70
50

0
40

10

20

Distancia centro (Km)

30

Los resultados de este modelo de regresin no lineal seran los siguientes:


Dependent variable.. PRECIO
Multiple
R
R Square Adjusted Standard
R Square
Error

Method.. QUADRATI

.81267
.66044
.65912
6.31732

Analysis of Variance:
Regression
Residuals
F=

500.82914

-------------------Variable
DISTANCIA
DISTANCIA**2
(Constant)

DF
2
515

Sum of Squares
39974.734
20552.906

Mean Square
19987.367
39.909

Signif F =.0000
Variables
in the Equation -------------------SE B
Beta
TSig T
B
-10.114875
.328898 -4.872461
-30.754 .0000
.503698
.015961
4.999952
31.559 .0000
93.278782
1.367318
68.220 .0000

precio vivienda (miles euros)


100

Ahora solo hay que interpretar los


resultados:

90

Precio vivienda (miles euros)

80

70
60

50

40

Observada
Cuadrtico

30
0

10

Por cada Km. de distancia al centro


el precio disminuye en 10114 euros,
pero a la vez aumenta en 503 por
cada Km. al cuadrado.

20

Distancia centro (Km)

Curva de costes medios (transformacin inversa)

b>0
a

CT CF v Q
CT
CF
CM
v
Q
Q
1
Yab
X
a v; b CF

Curva de crecimiento vegetativo (a una tasa de g) (transformacin semi-logartmica)


x

Y AB ;
B >1
A
B<1

B (1 g)

Transformacin :
lnY lnA x lnB
(ln Y) a bX
a

A e Be

Curva de esfuerzo de marketing (transformacin logartmico-inversa)


b

b<0

Ye

a
x

Transformacin
ln Y a b
x
b 2
7. ANLISIS DE REGRESIN MLTIPLE
El modelo de regresin mltiple
y = 0 + 1 x1 + 2 x2 + . . . + k xk +
donde:
y = variable dependiente o variable a explicar
xi = variables independientes o variables explicativas
(epsilon) = error o perturbacin aleatoria
0 = origen cuando todas las variables son 0
i = pendiente o coeficiente de regresin de la variable i.

7.1

INFERENCIAS ACERCA DE LOS COEFICIENTES DE


REGRESIN DE CADA VARIABLE,

Si se cumplen todas las hiptesis del modelo de regresin, la comprobacin de la


utilidad de cada coeficiente de regresin se realiza de la misma forma que en el anlisis de regresi

H0 : i = 0
Ha : i 0

(la Xi no influye sobre la Y)

Estadstico de prueba: t =Regin d


significacin ob
i

S i

Observaciones: El modelo no ser eficiente si incluye variables que no


estadsticamenteexplicativas(lasquenotienenuncoeficientederegresin significativam
Como cada Xi puede estar medida en diferentes unidades, la comparacin de los co
Betas

7.2

COEFICIENTE DE DETERMINACIN

Como en la regresin simple, el coeficiente de determinacin, R2, re


proporcin de la variabilidad total de la muestra respeto a y que es explicad
Se calcula igual que antes:

R2 =

(yi y i ) 2Variabilidad
SSR

explicada
SSyy
Variabilidad
1 (yi
y)2

Ahora tiene una gran utilidad. La R2 mide la explicacin conjunta conseguida con todas
las variables independientes introducidas en el modelo de regresin (en cambio la R del modelo glob

7.3

COMPROBACIN

DE

LA

BONDAD

GLOBAL

DEL

MODELO: ANALISIS DE LA VARIANZA


Contraste sobre la utilidad global del modelo
H0 : R = 0
Ha : R 0

(o, H0 : 1 = 2 = . . . = k = 0
ningn coeficiente es importante para explicar la y)
(Ha : al menos un i 0
al menos un coeficiente explica la y)

Estadstico de
prueba:

F=

SS yy
SSE
k 1
SSE
nk

R2
Varianza
explicada Var
k
residual
1
1
R2
nk

donde n es el tamao de la muestra y k el nmero total de variables en el modelo (d


Regin de rechazo: cuando nivel de significacin observado sea suficientemente peq

7.4

HIPTESIS DEL MODELO DE REGRESIN MLTIPLE

Las hiptesis sobre la forma de la distribucin de probabilidad de son las mismas que
en el modelo de regresin simple.
En la regresin mltiple adems se debe cumplir que:
No debe existir excesiva colinealidad o multicolinealidad (correlacin entre las
variables independientes).

7.5

COLINEALIDAD

Como se ha indicado, la colinealidad se produce cuando las variables independientes


introducidas en el modelo de regresin estn correlacionadas entre ellas.
Existen diferentes grados de colinealidad, dependiendo del nivel en el que estn
correlacionadas las variables independientes.
Cuando una variable independiente se puede expresar como una combinacin lineal de
las otras, la colinealidad es perfecta. En ese caso se puede omitir dicha variable,
solucionando la colinealidad. El problema se produce cuando la correlacin entre las
Xs es alta o muy alta, pero sin llegar a ser total.
Debemos ser conscientes de que en casi todos los modelos de regresin mltiple
planteados existe cierto grado de colinealidad. Slo se ha de comprobar que sta no sea
excesiva ni perjudicial.

7.6

EFECTOS DE LA COLINEALIDAD

La colinealidad provoca diferentes efectos, que se manifestarn tanto ms cuanto mayor


sea la correlacin entre las Xs:
Las desviaciones estndar de los coeficientes de regresin estn sobreestimadas, con lo
que aparecen como no significativos coeficientes que en realidad s lo son.
Puede suceder que ninguno de los coeficientes de regresin sean distintos de cero (no
son significativos) y que, a nivel conjunto, s que lo sean.
Los coeficientes de regresin estimados no son consistentes, es decir, pueden cambiar al
modificar la muestra o al introducir diferentes variables en el modelo.
En definitiva, cuando hay colinealidad se consigue explicar la variable Y, pero no se
sabe cul es el efecto de cada una de las X por separado (puesto que todas ellas estn
relacionadas).

7.7

FORMAS DE MEDIR LA COLINEALIDAD

La colinealidad se puede medir de distintas formas:


Matriz de correlaciones de Pearson entre cada par de variables independientes. Da
una idea pero no es concluyente.
Tolerancia = (1 Rj), donde Rj es el coeficiente de determinacin de la variable Xj
frente a todas las dems Xs.
Factor de Inflacin (o agrandamiento) de la

Varianza: (FIV) = 1 / Tolerancia

7.8

NIVELES DE COLINEALIDAD

Tolerancia

VIF

Colinealidad:

Toler = 1

VIF = 1

No existe colinealidad

0,3 < Toler < 1

3,33 > VIF > 1

Poca: el modelo no suele presentar


efectos (defectos) importantes

0,1 < Toler < 0,3 10 > VIF > 3,33 Elevada: se comienzan a notar las
consecuencias de la colinealidad:
inconsistencia de los estimadores y
prdida de su significacin
0,01 <Toler< 0,1 100 > VIF > 10 Excesiva: se producen graves
problemas en la interpretacin de las
Xs ya que sus coeficientes de
regresin pueden llegar a cambiar
hasta de signo
Toler < 0,01

VIF > 100

Colinealidad perfecta: los propios


paquetes informticos dejan fuera la
variable (ya que es una combinacin
lineal de las otras independientes)

Volvamos al ejemplo que trataba de explicar el precio de las viviendas por


2
medio de la superficie del mismo (en m ), el nivel de reparaciones que
necesita y la antigedad de la vivienda. Ahora las incluimos todas ellas en
un modelo de regresin mltiple, obteniendo el siguiente resultado:
Correlaciones

Correlacin
de Pearson

Sig.
(unilateral)

precio vivienda (miles euros)


superficie de la vivienda (m2)
Arreglos (de 0 -nada- a 10)

precio
vivienda
(miles
euros)
1.000
.712
-.667

superfic
ie de la
vivienda
(m2)
.712
1.000
-.951

Arreglos
(de 0
-nada- a
10)
-.667
-.951
1.000

Antige
dad de
la casa
(aos)
-.004
.055
-.069

Antigedad de la casa (aos)

-.004

.055

-.069

1.000

precio vivienda (miles euros)


superficie de la vivienda (m2)

.
.000

.000
.

.000
.000

.465
.107

Arreglos (de 0 -nada- a 10)

.000

.000

.058

Antigedad de la casa (aos)

.465

.107

.058

Con las correlaciones de Pearson entre cada par de variables podemos


observar, en primer lugar, cules son las relaciones existentes entre cada
una de las variables X y la Y. En nuestro caso, tanto la superficie de la
vivienda como el nivel de arreglos tienen una alta correlacin
estadsticamente significativa con el precio de la vivienda. La nica
diferencia es que la relacin es de signo positivo en la primera variable y
negativa en la segunda. La antigedad de la casa no influye
significativamente en el precio de la vivienda.
En segundo lugar, se puede apreciar el nivel de correlacin que existe entre
las variables independientes. Parece ser que la superficie de la vivienda
tiene una alta correlacin de signo negativo con el nivel de arreglos (parece
que las casas grandes estn ms bien cuidadas que las pequeas, o al menos
lo aparentan). Esto es una indicacin de que el modelo presentar
colinealidad.

Resumen del modelo


Modelo
1

R
.714a

R cuadrado
.510

R cuadrado
corregida
.507

Error tp. de la
estimacin
7.5984

a. Variables predictoras: (Constante), Antigedad de la casa (aos),


superficie de la vivienda (m2), Arreglos (de 0 -nada- a 10)
ANOVAb
Modelo
1

Regresin
Residual
Total

Suma de
cuadrados
30851.138
29676.502
60527.639

gl
3
514

Media
cuadrtica
10283.713
57.736

F
178.115

Sig.
.000a

517

a. Variables predictoras: (Constante), Antigedad de la casa (aos), superficie de la


vivienda (m2), Arreglos (de 0 -nada- a 10)
b. Variable dependiente: precio vivienda (miles euros)

Los resultados a nivel global del modelo parecen satisfactorios. Se


consigue explicar un 51% de la variabilidad del precio, y est explicacin
es suficiente comparada con la residual. Aunque, lo cierto es que no hemos
conseguido mejorar extremadamente el coeficiente de determinacin que
tenamos en el modelo que inclua slo la superficie de la vivienda
(50,7%).

Coeficientesa

(Constante)
superficie de la vivienda (m2)
Arreglos (de 0 -nada- a 10)
Antigedad de la casa (aos)

Coeficientes no
estandarizados
Error
tp.
B
6.654
9.179
.538
.067

Coefic.
estand.
Beta
.803

t
.725
8.060

Sig.
.469
.000

Intervalo confianza
para B al 95%
Lmite
Lmite
inferior
superior
-11.379
24.688
.407
.669

.595

.634

.094

.939

.348

-.650

1.841

-.214

.161

-.041

-1.333

.183

-.530

.102

a. Variable dependiente: precio vivienda (miles euros)

Finalmente, a nivel individual parece que la nica variable con un


coeficiente de regresin significativamente distinto de 0 es la superficie.
Qu ha pasado con la significacin de la variable Arreglos? Es ms,
menos mal que no es distinta de 0 ya que su coeficiente ha pasado a tener el
signo contrario (a nivel individual influa negativamente y ahora, de
hacerlo, afecta positivamente). Por otro lado, las Betas en algunas variables
no se parecen a la correlacin de Pearson de esa variable y el precio.
Estos problemas se han producido por el alto nivel de colinealidad existente
en el modelo.
La tolerancia y el VIF as nos lo indican:
Coeficientesa
Estadsticos de
colinealidad
1

superficie de la vivienda (m2)


Arreglos (de 0 -nada- a 10)

Tolerancia
.096
.096

FIV
10.415
10.434

Antigedad de la casa (aos)

.994

1.006

a. Variable dependiente: precio vivienda (miles euros)

Concluyendo, en este modelo la colinealidad impide conocer cul es el


efecto de cada variable independiente sobre la dependiente (qu vara el
precio? la superficie de la vivienda o el nivel de arreglos que sta necesita).
De todos modos, la variable dependiente (el precio) queda perfectamente
explicada por ambas variables.

7.9

INTRODUCCIN DE VARIABLES BINARIAS

Una variable binaria es aquella que admite dos posibles valores (se cumple
cierta
propiedad o no, verdadero/falso, hombre/mujer) y se codifica con 0 (no pasa) y 1(s pasa).

si no se cumple la caracterstica
xB 0,
si se cumple la caracterstica

1,

Si se introduce tal cual en un modelo de regresin lineal supone estimar un efecto


diferencial sobre el origen de la recta en cada categora de la variable binaria: y = 0 + 1 x1 + 2 x
y(si xB = 0) = 0 + 1 x1
y(si xB = 1) = 0 + 1 x1+ 2 1 = (0 + 2) + 1 x1

Para ver si el precio de la vivienda es significativamente diferente segn


cul sea la inmobiliaria que lo ha vendido, aadimos la variable Agencia al
modelo de regresin simple que explicaba el precio en funcin de la
superficie.
100

90

precio vivienda (miles euros)

Grficamente se
puede observar que:
Parece que las ventas de
la inmobiliaria Nuez se
han realizado a unos
precios inferiores a las
de las otra agencias.

80

70

60

Agencia

40
50
30
40

Nuez
Otra
60

80

superficie de la vivienda (m2)

100

120

140

A nivel numrico, los resultados obtenidos son:


Resumen del modelob
Modelo
1

R
.726a

R cuadrado
.527

R cuadrado
corregida
.525

Error tp. de la
estimacin
7.4599

a. Variables predictoras: (Constante), Agencia que vendio la


vivienda, superficie de la vivienda (m2)
b. Variable dependiente: precio vivienda (miles euros)
ANOVAb
Modelo
1

Regresin
Residual
Total

Suma de
cuadrados
31868.045
28659.594
60527.639

gl
2
515

Media
cuadrtica
15934.023
55.650

F
286.327

Sig.
.000a

517

a. Variables predictoras: (Constante), Agencia que vendio la vivienda, superficie de la


vivienda (m2)
b. Variable dependiente: precio vivienda (miles euros)
Coeficientesa
Coeficientes no
estandarizados
1

(Constante)
superficie de la vivienda (m2)

B
14.011
.480

Error tp.
1.839
.020

Agencia que vendio la vivienda

-5.158

1.121

Coefic.
estand.
Beta
.717

t
7.620
23.632

Sig.
.000
.000

-.140

-4.603

.000

a. Variable dependiente: precio vivienda (miles euros)

A nivel global, se consigue una explicacin del 52,7% de las variaciones


del precio, que es estadsticamente significativa. Las ventas de las otras
agencias tienen un origen de 14011 euros mientras que las de la Nuez estn
5158 euros por debajo. Esta misma diferencia se mantiene para todos los
valores de la otra variable explicativa (sea cual sea la superficie).

100

Precio vivienda (miles euros)

90

80

70

Nuez

60
30
40

50

Otra
60

80100

120

140

Superficie de la vivienda (m2)

7.10 VARIABLE BINARIA CON EFECTO SOBRE LA PENDIENTE


40

Tambin se pueden introducir variables binarias con efecto en la pendiente. En este caso
debe especificarse el modelo en forma multiplicativa:
y = 0 + 1 x1 + 2 xB x1 +
y(si xB = 0) = 0 + 1 x1
y(si xB = 1) = 0 + 1 x1+ 2 1 x1 = 0 + (1+ 2) x1

As mismo, se puede especificar un modelo que incluya a la vez un efecto sobre el


origen y otro sobre la pendiente. El modelo que recoge estos efectos mixtos es:
y = 0 + 1 x1 + 2 xB + 3 xB x1 +
y(si xB = 0) = 0 + 1 x1
y(si xB = 1) = 0 + 1 x1+ 2 1 + 3 1 x1
= (0 + 2) + (1+ 3) x1

7.11 INTRODUCCIN DE VARIABLES CUALITATIVAS


No se pueden introducir variables cualitativas en un modelo de regresin tal como estn
codificadas, pues su coeficiente de regresin recogera un efecto lineal de pasar de un
valor de la variable cualitativa al siguiente. Pero si la variable es cualitativa, cul es la
categora que precede a otra?

En nuestro ejemplo de las viviendas, tenemos una variable cualitativa que nos indica en
qu zona est ubicada la casa (1. Este, 2. Oeste y 3. Sur). Mediante un anlisis de
medias se puede observar que el precio medio es diferente en cada una de estas zonas:
Descriptivos
precio vivienda (miles euros)
Intervalo confianza
para la media al 95%
Desviaci
n tpica
9.592
8.749

Error
tpico
.615
.679

Lmite
inferior
61.612
49.377

Lmite
superior
64.036
52.059

Mnimo
37.590
32.349

Mximo
89.819
78.494

50.248

7.531

.721

48.818

51.677

31.205

71.386

56.298

10.820

.475

55.364

57.232

31.205

89.819

Este
Oeste

N
243
166

Media
62.824
50.718

Sur

109

Total

518

ANOVA
precio vivienda (miles euros)

Inter-grupos
Intra-grupos
Total

Suma de
cuadrados
19508.006
41019.634

gl
2
515

60527.639

Media
cuadrtica
9754.003
79.650

F
122.461

Sig.
.000

517

Pero como puede apreciarse, la disminucin que sufre el precio de la vivienda por estar
situada en el Oeste en lugar del Este no es el mismo que si est situada en el Sur en
lugar del Oeste.
En cambio, un modelo de regresin que recogiera la variable Zona dira:
Resumen del modelo
Modelo
1

R
.512a

R cuadrado
corregida
.261

R cuadrado
.262

Error tp. de la
estimacin
9.3013

a. Variables predictoras: (Constante), Zona donde esta localizada la casa


ANOVAb
Modelo
1

Regresin
Residual
Total

Suma de
cuadrados
15886.798
44640.841
60527.639

gl
1
516

Media
cuadrtica
15886.798
86.513

F
183.634

517

a. Variables predictoras: (Constante), Zona donde esta localizada la casa


b. Variable dependiente: precio vivienda (miles euros)

Sig.
.000a

Coeficientesa
Coeficientes no
estandarizados
1

(Constante)

B
68.619

Error tp.
.997

Zona donde esta localizada la casa

-7.076

.522

Coefic.
estand.
Beta
-.512

t
68.838

Sig.
.000

-13.551

.000

a. Variable dependiente: precio vivienda (miles euros)

Por incrementar en una unidad la X el precio de la vivienda disminuye en 7076 euros.


Este incremento de la X se produce tanto al pasar de Este a Oeste como de Oeste a Sur.

Para introducir adecuadamente una variable cualitativa en una regresin se ha de


convertir dicha variable en binarias (tantas como categoras tenga la variable cualitativa
menos una) y efectuar el anlisis con las variables binarias.

1
2

Resmenes de casosa En nuestro ejemplo con- vertiramos la


Zona donde esta
localizada la casa
Zona Este
Zona Oeste
variable
zona de 3 categoras en 2
Oeste
.00
1.00
variables1.00binarias, Zona Este y Zona
Oeste
.00

Oeste

Oeste.
.00

Sur

5
6

Este
Este

.00
La

Sur

tercera.00categora no hara falta incluirla


1.00
ya que est.00representada por la ausencia de
1.00
.00
las
otras
dos.
.00
.00

Este
1.00
9 a. Limitado
Oeste a los primeros 10 casos. .00
10

1.00

Este

1.00

.00
1.00
.00

Y el resultado que obtenemos con el anlisis de regresin coincide con el


del anlisis de varianza (en el que se comparaban las medias):
Resumen del modelo
Modelo
1

R
.568a

R cuadrado
.322

R cuadrado
corregida
.320

Error tp. de la
estimacin
8.9247

a. Variables predictoras: (Constante), Zona Oeste, Zona Este

ANOVAb
Modelo
1

Regresin
Residual
Total

Suma de
cuadrados
19508.006
41019.634

gl
2
515

60527.639

Media
cuadrtica
9754.003
79.650

F
122.461

Sig.
.000a

517

a. Variables predictoras: (Constante), Zona Oeste, Zona Este


b. Variable dependiente: precio vivienda (miles euros)
Coeficientesa
Coeficientes no
estandarizados
Modelo
1

(Constante)
Zona Este

B
50.248
12.577

Error tp.
.855
1.029

Zona Oeste

.471

1.100

Coefic.
estand.
Beta
.581

t
58.781
12.224

Sig.
.000
.000

.020

.428

.669

a. Variable dependiente: precio vivienda (miles euros)

La interpretacin de los coeficientes sera la siguiente:

En promedio y cuando todas las dems variables son cero (es decir
estamos en la categora omitida de la variable cualitativa) el precio
medio de las viviendas es de 50248 euros.

Cuando estamos en la zona Este, el precio de la vivienda aumenta, en


promedio, en relacin a la zona Sur (categora omitida) en 12577 euros.
Por tanto el precio medio se situara en 62825 (50248+12577).

Cuando estamos en la zona Oeste, el precio de la vivienda aumenta en


relacin a la zona Sur en 471 euros, en promedio, situndose en 50719
euros.
Esta misma interpretacin se efectuara si hubieran otras variables
cuantitativas en el modelo. En este caso, los coeficientes de correlacin
indicaran el origen de cada una de las rectas que se mantendra a lo largo
de toda la pendiente provocada por la variable cuantitativa (rectas
paralelas). Si se quisiera modelizar un efecto no constante se podran
introducir trminos de interaccin (como vimos con las variables binarias).
7.12 CONCLUSIN FINAL AL CASO DE LAS VIVIENDAS
A lo largo de estos apuntes hemos visto como influan las variables
cuantitativas disponibles para explicar el precio de la vivienda: superficie
2
(m ), arreglos necesarios (escala 0 10), antigedad y distancia al centro.

Las dos primeras explicaban el precio de la vivienda de forma significativa


aunque entre ellas exista excesiva colinealidad. La antigedad no influa
en el precio de la vivienda y la distancia al centro lo haca de una forma no
lineal (adems se ha comprobado que est variable tambin est
relacionada con la superficie en un modelo cuadrtico). Por tanto, ante un
modelo de regresin mltiple lineal nos tenemos que conformar con incluir
2
slo la superficie de la vivienda en m (evitando as los problemas de
colinealidad).
En cuanto a las variables cualitativas, se dispone de la zona y el mes de la
venta. Para evitar supuestos de linealidad entre las categoras de estas
variables hemos definido unas variables binarias que recogen sus diferentes
categoras. Se supone adems que los efectos de estas categoras se
producen en la constante (y no en la pendiente de la curva).
Finalmente, se incorpora la variable agencia que efectu la venta para
comprobar si la Inmobiliaria Nuez acta o no de mala fe vendiendo los
pisos por debajo de su precio.
Los resultados obtenidos con este modelo son los mejores de todo el
anlisis como puede comprobarse a continuacin:
Estadsticos descriptivos
Media
56.2982
89.05

Desviacin
tp.
10.8201
16.15

Zona Este

.4691

.4995

518

Zona Oeste

.3205

.4671

518

Mes Enero

.2703

.4445

518

Mes Febrero

.2529

.4351

518

.2452

.4306

518

9.46E-02

.29

518

precio vivienda (miles euros)


superficie de la vivienda (m2)

Mes Marzo
Agencia que vendio la vivienda

N
518
518

Correlaciones

Correlacin de
Pearson

precio

superficie

Zona
Este

Zona
Oeste

Mes
Enero

Febr
ero

Mes
Marzo

Age
ncia

1.000

.712

.568

-.354

.191

.071

-.079

-.114

.712

1.000

-.053

-.051

.024

.023

.023

.035

.568

-.053

1.000

-.646

.064

-.013

-.068

-.211

Zona Oeste

-.354

-.051

-.646

1.000

-.027

.010

.003

.160

Mes Enero

.191

.024

.064

-.027

1.000

-.354

-.347

-.033

precio vivienda
(miles euros)
superficie de la
vivienda (m2)
Zona Este

Mes Febrero

Sig.
(unilateral)

.071

.023

-.013

.010

-.354

1.000

-.332

-.021

Mes Marzo

-.079

.023

-.068

.003

-.347

-.332

1.000

.015

Agencia que la
vendi

-.114

.035

-.211

.160

-.033

-.021

.015

1.000

.000

.000

.000

.000

.053

.036

.005

.000

.116

.123

.297

.300

.299

.211

Zona Este

.000

.116

.000

.074

.384

.061

.000

Zona Oeste

.000

.123

.000

.272

.413

.474

.000

Mes Enero

.000

.297

.074

.272

.000

.000

.225

Mes Febrero

.053

.300

.384

.413

.000

.000

.316

Mes Marzo

.036

.299

.061

.474

.000

.000

.366

Agencia que la
vendi

.005

.211

.000

.000

.225

.316

.366

precio vivienda
(miles euros)
superficie de la
vivienda (m2)

A nivel individual puede apreciarse como todas las variables introducidas


en el modelo aportan explicacin sobre el precio de la vivienda. Las
correlaciones ms importantes son la que se producen con la superficie de
la vivienda y la zona Este (ambas de signo positivo). Entre las variables
independientes hay muy poca correlacin. Por el gran tamao de la
muestra, son significativas los tres meses entre s y la agencia con la zona.
Resumen del modelo
Modelo
1

.959a

R cuadrado
.919

R cuadrado
corregida
.918

Error tp. de la
estimacin
3.0938

a. Variables predictoras: (Constante), Agencia que vendio la


vivienda, Mes Marzo, superficie de la vivienda (m2), Zona
Oeste, Mes Febrero, Mes Enero, Zona Este

ANOVAb
Modelo
1

Regresin
Residual
Total

Suma de
cuadrados
55646.141
4881.498
60527.639

gl
7
510
517

Media
cuadrtica
7949.449
9.572

F
830.528

Sig.
.000a

a. Variables predictoras: (Constante), Agencia que vendio la vivienda, Mes


Marzo, superficie de la vivienda (m2), Zona Oeste, Mes Febrero, Mes Enero,
Zona Este
b. Variable dependiente: precio vivienda (miles euros)

A nivel global se consigue una buena explicacin de la variabilidad del


precio de venta. Un 91,9% de las diferencias en el precio son explicadas
por las variables introducidas en el modelo. Como era de esperar, esta
variabilidad es suficiente frente a la residual. Por otro lado, el modelo tiene
una R cuadrado ajustada de 0,918, la ms alta de todos los modelos
analizados.
Coeficientesa

(Constante)
superficie de la vivienda (m2)

Coeficientes no
estandarizados
Error
tp.
B
1.061
.869
.498
.009

Zona Este
Zona Oeste

14.769
2.984

.364
.385

Mes Enero

5.375

Mes Febrero
Mes Marzo
Agencia que vendio la vivienda

Coefic.
estand.
Beta

Intervalo confianza
para B al 95%
Lmite
Lmite
inferior
superior
-.646
2.768
.482
.515

.744

t
1.221
58.529

Sig.
.223
.000

.682
.129

40.567
7.760

.000
.000

14.054
2.229

15.484
3.740

.386

.221

13.922

.000

4.617

6.134

4.147

.392

.167

10.576

.000

3.377

4.917

2.060

.396

.082

5.206

.000

1.282

2.837

-.275

.476

-.007

-.578

.563

-1.211

.660

a. Variable dependiente: precio vivienda (miles euros)

A nivel individual todas las variables son estadsticamente significativas, a


excepcin de la constante y de la agencia que vendi la casa. El modelo
sera ms eficiente si las eliminramos pero as nos sirve para comprobar
que efectivamente, la agencia no provoca diferencias significativas en el
precio de venta de la vivienda (una vez deducidos los efectos de la
superficie, la zona y el mes de la venta).
Ahora se interpretan los coeficientes como hemos hecho en otros modelos:
2
En promedio, por cada m de ms que tenga la vivienda su precio
aumenta en 498 euros.
Una vivienda localizada en la Zona Este tiene un precio 14769 euros
superior a las viviendas de la Zona Sur, en promedio. En cambio, si
se localiza en la Zona Oeste la diferencia es de solo 2984 euros.

Los precios de venta van disminuyendo cada mes. Incluso parece que
existe una disminucin similar (lineal) cada mes de unos 2000 euros.
Finalmente, se puede verificar que, como no hay mucha colinealidad, las
conclusiones que se obtenan del anlisis individual (correlaciones de
Pearson) son muy semejantes a las Betas de cada variable en el anlisis
conjunto.

Coeficientes
a
Los estadsticos de
colinealidad nos indican que no se produce altas
correlaciones
entre todas las variables indep
Estadsticos
de
colinealidad
La menor Tolerancia se sita a nivel de 0,57 con lo que los efectos de la colinealidad
1

superficie de la vivienda (m2)


Zona Este
Zona Oeste
Mes Enero
Mes Febrero
Mes Marzo
Agencia que vendio la vivienda

a. Variable dependiente: precio vivienda (miles euros)

Tolerancia
.979
.560

FIV
1.021
1.786

.574
.628

1.743
1.591

.636
.638

1.572
1.568

.951

1.051

Resmenes de casos
precio
vivienda
(miles
euros)
35.060
42.470

superficie
de la
vivienda
(m2)
69.238
83.238
116.095

Predicted
Value
38.545
45.521

95% L
CI for
PRECIO
mean
37.798
44.824

95% U
CI for
PRECIO
mean
39.292
46.218

Sur

58.909

58.013

59.804

1
2

Nme
ro de
caso
399
406

409

Otra

58.735

416

Otra

49.277

96.048

Sur

48.919

48.127

49.712

423

Nuez

53.313

104.286

Sur

52.749

51.630

53.868

424

Otra

38.253

75.190

Oeste

41.511

40.794

42.228

428

Otra

41.145

84.286

Oeste

46.043

45.347

46.739

430

Otra

52.470

104.095

Sur

52.929

52.111

53.748

432

Otra

50.120

100.333

Sur

51.055

50.251

51.858

10

434

Otra

47.590

96.905

Oeste

52.331

51.610

53.052

11
12

437
444

Otra
Nuez

43.072
46.084

86.762
90.333

Sur
Sur

44.292
45.797

43.503
44.695

45.082
46.898

13

450

Otra

36.747

76.619

Sur

39.239

38.418

40.059

14

452

Otra

32.349

60.619

Oeste

34.250

33.439

35.062

15

457

Otra

50.422

101.095

Oeste

54.419

53.676

55.161

16

463

Otra

55.241

113.571

Sur

57.651

56.775

58.527

17

465

Otra

41.446

81.810

Oeste

44.809

44.111

45.508

18

467

Otra

45.964

93.571

Sur

47.686

46.897

48.474

19

468

Otra

43.253

84.524

Oeste

46.162

45.466

46.858

20

478

Otra

39.759

76.762

Oeste

42.294

41.583

43.005

21

480

Otra

46.928

95.762

Sur

48.777

47.985

49.569

22

485

Nuez

47.831

92.476

Oeste

49.849

48.828

50.869

23

499

Otra

31.205

66.000

Sur

33.947

33.060

34.835

24

503

Otra

62.229

128.048

Sur

64.864

63.858

65.870

Agen
cia
Otra
Otra

Zona
Oeste
Oeste

Finalmente, podemos observar como los precios de venta que fij la


Inmobiliaria Nuez en las observaciones 423 y 444 estn incluidos incluso
en el intervalo de confianza de la estimacin con lo que claramente no
aplic una poltica fraudulenta.

8. BIBLIOGRAFA
KMENTA, Jan (1980): Elementos de econometra. Vicens universidad. Barcelona.
NEWBOLD, Paul (1997): Estadstica para los negocios y la economa. Prentice Hall.
Madrid.
NORUSIS, Marija J. (1997): SPSS 7.5 Guide to Data Analysis. Prentice Hall. New
Jersey.
(ya est disponible: SPSS 10.0 Guide to Data Analysis)
LUQUE MARTNEZ, Teodoro (coordinador) (2000): Tcnicas de anlisis de datos en
investigacin de mercados. Ediciones Pirmide. Madrid.

ANLISIS DE LA VARIANZA
(ANOVA)

9. ANLISIS DE LA VARIANZA (ANOVA)


9.1

CONCEPTO.

Se trata de una tcnica de anlisis adecuada para poder extraer conclusiones acerca de si
una o ms variables independientes condicionan a otra u otras variables dependientes.
Se trata de un mtodo de dependencia en el que la variable o variables dependientes
estn medidas en escala mtrica y las variables independientes estn medidas en escalas
no mtricas.
Esta tcnica es de gran utilidad en la experimentacin cientfica y por supuesto en la de
Marketing. Entendemos por experimentacin la manipulacin intencionada de las
variables independientes (tratamientos) para estudiar la respuesta en la variable o
variables dependientes.

9.2

MODALIDADES DE ANLISIS DE LA VARIANZA

En el esquema siguiente resumimos las diferentes tipos de anlisis de varianza


Variables independientes

Variables dependientes (mtricas)


Una

Varias

Una

ANOVA de un factor

MANOVA de un factor

Varias

ANOVA de 2 o k factores

MANOVA de k factores

Categricas e intervalos

ANCOVA

MANCOVA

ANOVA proviene de ANlisis Of VAriance


MANOVA de Mltiple ANlisis Of Variance
ANCOVA de ANlisis Of COVAriance MANCOVA
de Mltiple ANlisis Of COVAriance.

ANCOVA En este procedimiento se introduce una variable independiente (X) mtrica,


que no se controla pero incide en la dependiente (covariable), es decir covara. Si son
varias las dependientes (Y) se llama MANCOVA

9.3

ANOVA

Es una tcnica de dependencia diseada para medir la influencia que una o varias
variables independientes (Xi), (no mtricas, cualitativas) tienen sobre otra variable (Y)
dependiente o cuantitativa.
9.3.1

TIPOS DE ANOVA

ANOVA de un solo factor o variable explicativa (one way)


ANOVA con varios factores. Este a su vez se divide en:

Modelo factorial completo. Es cuando considera los efectos de varias variables


independientes conjuntamente con sus interacciones.

Modelo factorial incompleto. Solo se tienen en cuenta los efectos por separado
de las variables, sin tener en cuenta las interacciones. Tambin se llama modelo
de efectos principales.

9.4

EXPERIMENTACIN

Uno de los objetivos de la Investigacin de Marketing es el de tratar de definir las


relaciones que unen al mix de Marketing de la empresa con sus resultados.
Esta informacin es de suma importancia en el proceso de toma de decisiones, as como
en la planificacin estratgica y en los mecanismos de control de la misma.
Las relaciones que se identifican entre las variables del Marketing mix de la empresa y
sus resultados son de tipo causa efecto, constituyendo lo que se denomina relaciones de
causalidad.
El anlisis causal es el que pretende investigar las relaciones de influencia o causalidad
entre las diferentes variables.
Desde un punto de vista filosfico se puede entender como causa, aquello que hace ser a
algo que no es, o que venga a ser de forma distinta lo que es. Este concepto de causa
implica el que se diferencie entre la causa que produce algo nuevo de la que solo
modifica lo existente.

Teniendo en cuenta que la investigacin de Marketing no se ocupa de los consumidores


y productos en su conjunto, sino slo de las variables de estos en los estudios
descriptivos y de las relaciones entre las variables en los explicativos, es obvio que a la
Investigacin de Marketing le interesa la causalidad no en el sentido que produce un
nuevo ser, sino en la modificacin de lo existente.
Cuando se dice que dos variables, estn unidas por una relacin de causalidad, significa
que, una variable influye en la otra, en el sentido de que una modificacin en la primera
conduce a una variacin en la segunda.
El anlisis de la varianza es la tcnica mas apropiada para estudiar y explotar los datos
provenientes de situaciones experimentales. El anlisis de la varianza permite extraer
conclusiones sobre si una o ms variables independientes (X) influyen y condicionan a
una o varias dependientes (Y), e incluso nos da informacin si la interaccin de las
variables independientes (X) es significativa.

9.5

EL MTODO DE EXPERIMENTACIN

El mtodo de experimentacin consiste en reproducir fenmenos a voluntad del


investigador. Aplicado a la Investigacin de Marketing, trata de provocar la conducta
del consumidor en condiciones perfectamente controladas, lo ms parecidas posibles a
una situacin real, con el objetivo de sacar consecuencias de la respuesta a un estmulo
cuyo efecto queramos conocer.
La principal dificultad de la experimentacin consiste en realizar la prueba en las
mismas circunstancias que en la realidad, as como en aislar los resultados obtenidos,
debido a la variacin producida respecto a otras variables no controladas en el
experimento. Lo que hacemos es introducir modificaciones en variables de Marketing, y
tratamos de controlar su incidencia en el comportamiento de compra por parte de los
usuarios.
La ventaja de este mtodo es que elimina el factor distorsionador que el entrevistado
provoca al suministrar informacin en una encuesta, ya que lo que aqu se estudia es el
comportamiento del consumidor ante una determinada situacin.

La ejecucin de una experimentacin debe ser perfectamente planificada. Los aspectos


de esta planificacin son:
1. Definicin de los objetivos.
2. Definir la zona experimental.
3. Eleccin al azar de las unidades experimentales
4. Perodo de duracin de la experimentacin
5. Diseo experimental
6. Recogida de informacin
9.5.1

PRINCIPALES APLICACIONES DE LA EXPERIMENTACIN

Entre las aplicaciones ms utilizadas podemos resear las siguientes:

Fijacin

de

precios. Seleccin de medios publicitarios y promocionales. Eleccin de puntos de


venta. Determinacin del tipo de envase y su tamao. Lanzamiento de nuevos
productos.

9.6

METODOLOGA DE LA EXPERIMENTACIN

En todo experimento se deben


definir: 1 Factor principal
Variable independiente estudiada con sus diferentes alternativas, a las que se denomina
tratamientos.
2 Factores externos
Se trata de factores influyentes que es conveniente aislar y controlar.
En algunos diseos experimentales se estudian de forma individual y se denominan
factores bloque o rodeo.
3 Unidades experimentales
Son los lugares donde se realiza el experimento. Se dividen en los siguientes tipos:
a) De laboratorio

Se trata de un local donde se reproducen las condiciones reales del mercado.


Normalmente se suele hacer en el propio centro de investigacin.

b) Natural o real

El estudio se realiza en lugares muestra del mercado real, zonas geogrficas,


ciudades, tiendas, etc.

4 Variable dependiente
Es la variable de respuesta por parte del mercado. Nos permite medir los efectos de las
variables estudiadas.
EJEMPLO
Una empresa de conservas vegetales desea medir el efecto de dos estrategias de
promocin diferenciadas para comercio en rgimen de autoservicio y para tiendas
especialistas. Definir las caractersticas del experimento.
1 Factor principal: los dos tipos de promocin
2 Factor externo: situacin del producto en la tienda, en la estantera, da de la semana
3 Unidad experimental: comercio de las caractersticas requeridas (tiendas reales)
4 Variable dependiente: Unidades fsicas de producto vendidas

9.7
9.7.1

ELEMENTOS DE UN EXPERIMENTO
CONCEPTOS GENERALES

La respuesta es una variable cuantitativa que se va a estudiar en el experimento.


Tambin se denomina variable dependiente, (Y). Ejemplo: las ventas de la empresa
Los factores (uno o varios) son aquellas variables de las que el experimentador quiere
estudiar su efecto sobre la variable respuesta. Tanto si representan variables cualitativas
como cuantitativas, los factores se analizan de forma cualitativa, es decir, se
experimenta con unos valores concretos. Ejemplos: envase, promocin, precio, ...
Los niveles de un factor son los diferentes valores utilizados en el experimento de una
de las variables explicativas. Ejemplos: Envase: 1 litro, 1,5 litros, 2 litros, Promocin:
Reduccin precio, Regalo; Precio: 140 ptas., 170 ptas., 200 ptas.
Los tratamientos de un experimento son todas las combinaciones utilizadas de cada
factor-nivel.
La unidad experimental es la observacin (individuo u objeto) donde la respuesta y los
factores son observados y medidos.
Un diseo experimental es el procedimiento que utiliza el anlisis-para controlar la
especificacin de los tratamientos y el mtodo para asignar las unidades experimentales
a cada tratamiento.

Un experimento por observacin es aquel en el que el analista observa el tratamiento y


la respuesta de cada unidad experimental.
9.7.2

HIPTESIS DE TRABAJO

Como hiptesis nula se considera que no existen diferencias entre las medias de los
tratamientos. Esto es:
H0:

1= 2 = . . . = p

Ha:

Por lo menos dos de los p tratamientos tienen medias diferentes.

9.8

POR QU SE LLAMA ANLISIS DE LA VARIANZA SI


COMPARAMOS MEDIAS?

ANOVA pretende medir la influencia de una o ms variables independientes y


cualitativas (X) sobre una variable dependiente cuantitativa (Y). Es decir pretende
determinar si diversos conjuntos de muestras aleatorias de una variable proceden de la
misma poblacin o no. En el caso de que sean de la misma poblacin, el anlisis de la
varianza permite descubrir si la interaccin entre las variables explicativas provoca
cambios significativos.

La diferencia existente entre una observacin y la media general se divide entre una
parte explicada (distancia entre la media del tratamiento y la media general) y una
residual (distancia entre una observacin y la media de su tratamiento):
Es decir

(Yij Y )
(Yij

Yi ) (Yi Y )

Esta misma diferencia, elevada al cuadrado, se calcula para todas las observaciones de
la muestra:
Suma de cuadrados entre grupos (inter)
SC(Explicada) = (Y i

Y )2

Suma de cuadrados total


SC(Total) =

ij

(Y Y )

Suma de cuadrados dentro grupos (intra)

SC(Residual) = (Yij

2
Y)
i

A continuacin, se divide cada Suma Cuadrados por sus grados de libertad, obteniendo
los Cuadrados Medios o varianzas:
CM(Total) =

(Yij Y
)
n1

= Varianza Total
2

(Yi Y )2

CM(Inter-grupos) =

= Varianza Explicada

p1
(Y Y)
ij

CM(Intra-grupos) =

9.8.1

n
p

= Varianza Residual

ESTADSTICO DE PRUEBA

Para comprobar si es suficientemente grande la varianza explicada frente a la varianza


residual, se calcula el estadstico de prueba

Varianza Explicada
Varianza Re sidual

y su nivel de significacin observado (F prob), probabilidad de equivocarnos si se


rechaza la H0, con el que se podr decidir si se Rechaza o no la H0.

El estadstico F conduce al Rechazo de la H0 cuando el nivel de significacin (F prob.)


es pequeo (menor que 0,05), entonces las medias de los tratamientos son
estadsticamente diferentes. Es decir, el tratamiento influye en la respuesta o la variable
dependiente realmente depende de la independiente.
Adems, se puede:
a)

realizar comparaciones mltiples de medias por pares utilizan-do un mtodo como por
ejemplo el de Scheff, que permite ver las diferencias estadsticamente significativas que
de forma ms estricta existen entre las medias de los tratamientos.

b)

construir intervalos de confianza para una o mas medias individuales. Si el estadstico


F no conduce al Rechazo de la H0, entonces:
las medias son iguales (No rechazamos la hiptesis nula) No se puede creer que de
manera automtica esta conclusin es la adecuada. Se tiene que considerar tambin la
posibilidad de un error de tipo II, el que cometemos si no se rechaza la hiptesis nula
cuando es falsa.
Las medias son realmente diferentes, pero no hemos considera-do otros factores
importantes que tambin afectan a la respuesta. Estos factores aumentan la variabilidad
residual generando valores mas pequeos de F. Entonces se tiene que incrementar el
tamao de la muestra para cada tratamiento o se tiene que utilizar un diseo
experimental diferente que tenga en cuenta los otros factores que afectan a la respuesta.

9.9

EXPERIMENTOS ALEATORIOS CON UN FACTOR

Un diseo completamente aleatorio, es aquel en el que se seleccionan muestras


aleatorias para cada tratamiento.
Yij = i + ij
donde

Yij: es la respuesta de la observacin j a la que se le ha aplicado el

tratamiento i: es la media del tratamiento i, y ij: es una parte aleatoria especfica de


cada observacin.
Hiptesis planteadas:
La hiptesis nula es que las medias de los diferentes tratamientos son
iguales H0:

1= 2 = . . . = p

100

Ha:

Por lo menos dos tratamientos tienen medias

diferentes. Supuestos:
Las distribuciones de probabilidad de las p poblaciones son normales.
Las varianzas de las p poblaciones son iguales.
Las muestras se seleccionan aleatoria e independientemente de las poblaciones
respectivas.
9.9.1

MODELO

Este modelo tambin puede expresarse como:


Yij = + i + ij
donde

: es la media general, y i: es el efecto diferencial del tratamiento i.

H0:

1= 2 = . . . = p

Ha:

Por lo menos dos tratamientos tienen efecto diferencial.

9.10 ANLISIS DE VARIANZA CON UN FACTOR (ONE WAY)


Utiliza una sola variable explicativa (X)
El modelo tiene que cumplir los siguientes supuestos:
La variable dependiente (Y) sigue una distribucin normal
Las varianzas de todas las poblaciones deben ser aproximadamente iguales
(Homoscedasticidad)
Las muestras son independientes y son obtenidas de forma aleatoria
EJEMPLO 1: ANLISIS DE VARIANZA DE UN FACTOR (SPSS)
Caso 1:
Una empresa que quiere lanzar un nuevo refresco en lata de 33 cc. quiere saber si hay
diferencias significativas en el precio de un refresco similar vendido en los 4 tipos de
tiendas diferentes que se estn considerando (hipermercados, supermercados,
cooperativas y tiendas tradicionales).

ANOVA

Precio
lata 33 cc.

Inter-grupos
Intra-grupos
Total

Suma de
cuadrados
1419,757
5848,525
7268,282

gl
3
226
229

Media
cuadrtica
473,252
25,878

F
18,288

Sig.
,000

Como las diferencias son significativas se quiere conocer cules son los precios medios
que se aplican en cada tipo de tienda (en la muestra y para la poblacin, con un intervalo
de confianza del 95%).
Descriptivos

Precio
lata
33 cc.

Tipo
de
tienda

Hipermercado
Supermercado
Cooperativa
Tda. tradicional
Total

Intervalo de confianza
para la media al 95%
Lmite
Lmite
inferior
superior
42,0086
46,4183
46,2563
49,4543

N
52
46

Media
44,2134
47,8553

Desviacin
tpica
7,9435
5,3715

Error
tpico
1,0982
,7934

50

45,3896

1,9618

,2775

44,8318

81

50,2857

3,7471

,4154

49,4590

51,1123

230

47,3497

5,6398

,3723

46,6162

48,0832

45,9475

Finalmente, se quiere averiguar cules de estos precios medios aplicados en las


diferentes tiendas son significativamente distintos entre s, de una forma estricta
(utilizando el test de comparaciones mltiples Scheff).

Comparaciones mltiples
Variable dependiente: Precio lata 33 cc. Scheff

(I) Tipo de
tienda
Hipermercado

(J) Tipo de
tienda
Supermercado
Cooperativa
Tda. tradicional

Diferencia
de medias
(I-J)

Intervalo de confianza
al 95%
Lmite
Lmite
inferior
superior
-6,5408
-,7429
-4,0101
1,6577

Error
tpico
1,029
1,006

Sig.
,007
,714

-6,0722*

,902

,000

-8,6115

-3,5330

3,6419*
2,4657

1,029
1,040

,007
,135

,7429
-,4645

6,5408
5,3959

-3,6419*
-1,1762

Supermercado

Hipermercado
Cooperativa
Tda. tradicional

-2,4304

,939

,085

-5,0766

,2159

Cooperativa

Hipermercado
Supermercado

1,1762
-2,4657

1,006
1,040

,714
,135

-1,6577
-5,3959

4,0101
,4645

,000

-7,4709

-2,3212

,000
,085

3,5330
-,2159

8,6115
5,0766

,000

2,3212

7,4709

Tda. tradicional
-4,8960*
,914
Hipermercado
6,0722*
,902
Supermercado
2,4304
,939
Cooperativa
4,8960*
,914.05.
*. La diferencia entre las medias es significativa al nivel

Tda.
tradicional

Precio lata 33 cc.


a,b

Scheff

Tipo de tienda
Hipermercado
Cooperativa

N
52
49

Supermercado

45

Tda. tradicional
Sig.

81

Subset for alpha = .05


1
2
44,2134
45,3896
45,3896

,692

47,8553

47,8553

,096

50,2857
,104

Se muestran las medias para los grupos en los subconjuntos homogneos.


a. Uses Harmonic Mean Sample Size = 54,627
b. Los tamaos de los grupos no son iguales. Se utilizar la media armnica
de los tamaos de los grupos. Los niveles de error del tipo I no estn
garantizados.

9.11 ANOVA CON VARIOS FACTORES


En el estudio ANOVA devarios factores hemos de considerar los diferentes tipos de
efectos y factores que se pueden analizar y que indicamos a continuacin:

Interseccin: las observaciones habitualmente se sitan en torno a una media distinta


de cero.
Factores fijos: los niveles de un factor fijo incluyen todos los niveles sobre los que se
desea extraer conclusiones.
Factores aleatorios: los niveles de un factor aleatorio son una muestra aleatoria de los
posibles niveles sobre los que se desea extraer conclusiones.
Covariables: variables explicativas (factores)
cuantitativas. Habitualmente trabajaremos con factores
fijos.
Los factores tambin se pueden clasificar como:
Principales: son los que el investigador controla y modifica para verificar su efecto.
Ejemplos: precio, canal, ...
De rodeo o bloqueo: son aquellos que varan por si solos al repetir el experimento
varias veces (ya que todas las unidades experimentales no son exactamente iguales), el
investigador no los cambia expresamente. Sin embargo, como se sospecha que pueden
influir en la variable respuesta, se debe controlar su efecto. Ejemplos: Tipo de tienda,
da de la semana, ...

9.12 TIPOS

DE

EXPERIMENTOS

HABITUALMENTE

UTILIZADOS EN INVESTIGACIN COMERCIAL


Los tipos de experimentos que ms habitualmente se utilizan en la Investigacin
Comercial son:
-

Experimentacin al azar.

Experimentacin en bloques aleatorios.

Experimentacin en cuadrado latino.

Experimentacin con intercambio.

Experimentacin factorial.

La experimentacin factorial permite tratar dos o ms variables simultneamente,


mientras que los otros slo permiten manipular una variable.
9.12.1 EXPERIMENTO ALEATORIO O AL AZAR

En este tipo de experimento comercial slo se controla un factor: la variable


independiente estudiada.

La asignacin de tratamiento a las diferentes unidades experimentales se realiza de


forma aleatoria.
Vamos a desarrollar lo expuesto anteriormente mediante un caso prctico:

CASO PRCTICO
Un banco realiza un experimento comercial de tres tipos diferentes de promocin para
el lanzamiento de un nuevo producto. Estas promociones consistan en:
P1 Regalo de una bicicleta, P2 Regalo de un ordenador, P3 Regalo de los
electrodomsticos de la cocina
Cada promocin se prob en cinco sucursales diferentes durante un mes. Los resultados
obtenidos, en cuanto a unidades de producto colocadas entre la clientela, se recogen en
el cuadro siguiente:

S1

S2

S3

S4

S5

P1

65

50

30

40

65

P2

30

25

15

20

35

P3

15

10

10

25

50

SOLUCIN
Definiremos las siguientes caractersticas:
Factor principal: los diferentes tipos de promocin P1, P2, P3, luego K =
3. Unidades experimentales 15 (5 sucursales x 3 tipos de promocin)
Variable dependiente: unidades vendidas.
Nmero total de mediciones: n=15
Nmero de mediciones por cada tratamiento (promocin)
nj=5 xij= unidades fsicas vendidas en cada sucursal.

mj= media de unidades vendidas por tratamiento.


m= media total.
Partiendo del cuadro de resultados, obtenemos los valores de mj y m, los cuales son:

S1

S2

S3

S4

S5

P1

65

50

30

40

65

250 50

P2

30

25

15

20

35

125 25

P3

15

10

10

25

50

110 22

mj

y por tanto m = 32333


Una vez obtenidos estos datos, pasamos a realizar los clculos de la tcnica ANOVA
Dispersin total.
n


j 1

m )

( x

ij

i 1

Sustituyendo por los correspondientes valores obtenemos:


2

DT = (65 - 323) + (50 - 32.3) + (30 - 323) + (40 - 323) + (65 - 323) +
2

(30

- 323) + (25 - 323) + (15 - 323) + (20 - 323) + (35 - 323) + (15 - 323) + (10
- 323) + (10 - 323) + (25 - 323) + (50 - 323) = 4.693333
Dispersin factorial:
k

DF n j (mj m)2
j 1

Sustituyendo obtenemos:
2

DF = 5(50 - 323) +5(25 - 323) +5(22 - 323) = 2.363333


Dispersin residual
DR = DT - DF Luego DR = 4.69333 - 2.36333 = 2.330
Cuadrado medio factorial (CMF)
DF
CMF
DF
gl
k1
Sustituyendo obtenemos CMF = 1.1816667

Cuadrado medio residual (CMR)

DR
CMR DR
gl
nk
Sustituyendo obtenemos CMR = 1941667
Test de la F
CMF
F
CMR
Sustituyendo obtenemos F= 60858
Si buscamos el valor de F en tablas para un nivel del 95% y gl = 2 y 12, obtenemos que
F = 389
Como 60858 > 389, existe un efecto significativo de los diferentes tratamientos
estudiados para un nivel de confianza del 95%.
La conclusin es que los diferentes tipos de promocin afectan significativamente a la
demanda.
La salida realizada con el programa SPSS es:
Esta salida tiene en cuenta la influencia de la sucursal en el experimento (factor rodeo o
bloque), por lo que algunos resultados nos conducen a valores diferentes, aunque la
conclusin final es la misma.

EXPERIMENTO ALEATORIO AL AZAR


Resumen del procesamiento de los casosa

Casos
Excluidos
N
Porcentaje
0
,0%

Incluidos
Porcentaje
15
100,0%

Total
Porcentaje
15
100,0%

a. Ventas (unidades vendidas) por Tipo de promocin, Sucursal


Medias de las casillasb,c

Ventas (unidades vendidas)


Media
N
50,0000
25,0000

Tipo de
promocin
Bicicleta
Ordenador

Sucursal
Total
Total

Electrodomstico

Total

22,0000

Total

1
2

36,6667
28,3333

3
3

18,3333

28,3333

50,0000

Total

32,3333a

5
5

3
15

a. Media global
b. Ventas (unidades vendidas) por Tipo de promocin, Sucursal
c. No se han calculado las medias de orden 2 o superior
debido al lmite en el orden mximo de interaccin.
ANOVAa

Ventas (unidades vendidas)


Efectos principales (Combinadas)
Tipo de promocin
Sucursal
Modelo
Residual
Total

Suma de
cuadrados
4040,000
2363,333

Mtodo jerrquico
Media
cuadrtica
gl
F
6
673,333
8,245
2
1181,667
14,469

Sig
,004
,002

1676,667

419,167

5,133

,024

4040,000

673,333

8,245

,004

653,333

81,667

4693,333

14

335,238

a. Ventas (unidades vendidas) por Tipo de promocin, Sucursal

9.12.2 EXPERIMENTO DE BLOQUE ALEATORIO


En este tipo de experimento comercial se controlan dos
factores: 1 La variable independiente o factor principal
2 Un factor de control que se denomina factor bloque, tambin llamado de rodeo
Este tipo de experimento comercial se debe hacer cuando se intuye que existe otro
factor influyente en el aspecto estudiado, aparte del factor principal.
Se debe utilizar un nmero de unidades experimentales suficientes para probar todas las
combinaciones posibles entre las alternativas de los dos factores controlados.
Desarrollemos lo anterior con el siguiente caso:
CASO PRCTICO
Una empresa de refrescos va a lanzar al mercado un nuevo producto; para ello realiza
una prueba con tres envases diferentes:
P1 envase de 2l., P2 envase de 1l., P3 envase de 05l.
Adems la empresa controla otro factor influyente, que es el tipo de establecimiento
donde se expenden los refrescos; para ello definen el siguiente factor bloque:
B1 grandes superficies, B2 supermercados, B3 tienda tradicional y B4 autoservicio.
Cada envase se prueba en los cuatro tipos de tienda, durante un mes. Se obtienen los
resultados siguientes en miles de unidades de producto:
Tabla de resultados:
B1

B2

B3

B4

P1

P2

P3

12

SOLUCIN
Factor Principal: tratamientos P1, P2, P3. Luego k=3
Factor bloque: las alternativas B1, B2, B3, B4, luego R = 4
Unidades experimentales 4x3 =12
Variable dependiente: unidades vendidas
Siendo

n el nmero de mediciones (12)


xij las unidades vendidas en los diferentes establecimientos.
mj la media de ventas por tratamiento
mi la media de ventas por cada alternativa de
bloque m la media total
Clculos
B1

B2

B3

B4

mj

P1

12

P2

28

P3

12

32

18

24

18

12

mi

Luego m = 6
Dispersin total DT = 92
Dispersin factorial DF = 56
Dispersin bloque
DB k (mi m)2
2

DB = 3(6 - 6) + 3(8 - 6) + 3(6 - 6)2 + 3(4 - 6) = 24


Dispersin residual
DR = DT - DF - DB

Sustituyendo, DR = 12

Cuadrado medio factorial CMF = 28


Cuadrado medio bloque CMB = 8
Cuadrado medio residual CMR =
2 Test de la F
1 Factor principal
CMF
F
CMR
Luego F = 14
Como el valor en tablas para el 95% y gl 2 y 6 es 514
110

Podemos decir que existe un efecto significativo de los tratamientos estudiados para un
nivel de confianza del 95%
2 Factor bloque
CMB
F
CMR
Luego F = 4
El valor correspondiente en tablas para el 95% y gl 3 y 6 es F = 476
Como 4 < 476 podemos decir que:
NO existe un efecto significativo del factor bloque para el nivel de confianza del 95%
La correspondiente salida de SPSS es:

9.12.2.1 EXPERIMENTO DE BLOQUE ALEATORIO (SPSS)

Resumen del procesamiento de los casosa

Casos
Excluidos
N
Porcentaje
0
,0%

Incluidos
Porcentaje
12
100,0%

Total
Porcentaje
12
100,0%

a. Ventas (miles de unidades) por Tipo de promocin, Tipo de tienda


Medias de las casillasb,c

Ventas (miles de unidades)


Media
N
3,0000
4
7,0000
4

Envase
2 litros
1 litro

Tipo de tienda
Total
Total

1/2 litro

Total

8,0000

Total

Gran superficie
Supermercado

6,0000
8,0000

3
3

Tienda tradicional

6,0000

Autoservicio

4,0000

Total

6,0000a

3
12

a. Media global
b. Ventas (miles de unidades) por Envase, Tipo de tienda
c. No se han calculado las medias de orden 2 o superior debido al
lmite en el orden mximo de interaccin.

ANOVAa

Ventas (miles de unidades)


Efectos principales (Combinadas)
Envase

Suma de
cuadrados
80,000
56,000

Tipo de tienda

Mtodo jerrquico
Media
cuadrtica
gl
F
5
16,000
8,000
2
28,000
14,000

Sig
,012
,005

24,000

8,000

4,000

,070

Modelo

80,000

16,000

8,000

,012

Residual

12,000

2,000

Total

92,000

11

8,364

a. Ventas (miles de unidades) por Tipo de promocin, Tipo de tienda

9.12.3 EXPERIMENTO DE CUADRADO LATINO


En este tipo de experimentacin comercial se controlan tres factores:
1 La variable independiente o factor principal
2 Dos factores de control o rodeo que se denominan factores bloque
El diseo en cuadrado latino exige utilizar el mismo nmero de alternativas en los tres
factores controlados.
Deberemos plantear este tipo de estudio cuando se estima que existen otros dos factores
influyentes en el fenmeno estudiado, aparte del factor principal.
Se debe disear un nmero de unidades experimentales suficiente para probar todas las
combinaciones posibles entre los tres factores sometidos a control.
Vamos a desarrollarlo con el siguiente caso prctico:
CASO PRACTICO
Supongamos que una empresa de zumos realiza una prueba de mercado para estudiar el
color adecuado para confeccionar el envase. Se proponen los siguientes colores:
P1 envase verde y blanco, P2 envase rojo y verde, P3 envase azul y
verde. Para ello la empresa controla los siguientes factores influyentes:
Bloque 1 Tipo de punto de venta.
B11 gran superficie, B12 autoservicio, B13 comercio tradicional
Bloque 2 Regin geogrfica.
B21 Catalua, B22 Aragn, B23 Pas Vasco.
Cada envase se prueba en los tres tipos de punto de venta y en las tres regiones
geogrficas.
Los resultados obtenidos son (en miles de unidades):
B11

B12

B13

B21

P1

P2

P3

B22

P2

P3

P1

B23

P3

P1

P2

SOLUCIN
Supongamos los siguientes datos para la matriz
B11

B12

B13

B21

(P1) 5

(P2) 2

(P3) 3

B22

(P2) 3

(P3) 4

(P1) 6

B23

(P3) 3

(P1) 6

(P2) 2

Conceptos:
Factor principal: los diferentes tratamientos P1, P2, P3, luego K =
3 Factor bloque 1: las alternativas B11, B12, B13, luego R= 3
Factor bloque 2: las alternativas B21, B22; B23, luego L= 3
K=R=L=3
Unidades experimentales: 9 tiendas
(3x3) Variable dependiente: unidades
vendidas n el nmero de mediciones 9
xijk unidades vendidas
mi media de las unidades vendidas B1
mj media de las unidades vendidas B2
mk media de unidades vendidas por tratamiento
m la media total
Clculos
B11

B12

B13

mj

B21

10

33

B22

13

43

B23

11

34

11

12

11

mi

34

34

mk toma los valores 57, 23 y 33

mkP1 = (5+6+6) : 3 = 57,


Dispersin total DT = 19556
Dispersin factorial (mk)DF = 17556
Dispersin bloque 1 (mi) DB1 = 0
222 Dispersin bloque 2 (mj) DB2 =
1556
Dispersin residual DR = DT -DF - DB1 DB2 DR = 0222
Cuadrado medio factorial CMF =17556 : 2 = 8778
Cuadrado medio bloque 1 CMB1 =0222 : 2 = 0111
Cuadrado medio bloque 2 CMB2 = 1556 :2 = 0778
Cuadrado medio residual CMR = 0222 :2 = 0111
Test de la F
1 Factor principal F = 8778 : 0111 = 79000
El valor de tablas para el 95% y gl 2 y 2 es Ft = 19
S que existe significacin
2 Factor bloque 1 F = 0111 : 0111 = 1, siendo Ft = 19
Es vlida H0
2 Factor bloque 2 F = 0778 : 0111 = 7, siendo Ft = 19
Es vlida H0
La correspondiente salida del SPSS es:

9.12.3.1 EXPERIMENTO CUADRADO LATINO (SPSS)


Resumen del procesamiento de los casosa
Casos
Excluidos
N
Porcentaje
0
,0%

Incluidos
N
Porcentaje
9
100,0%

Total
Porcentaje
9
100,0%

a. Ventas (miles de unidades) por Envase, Tipo de tienda, REGIN


Medias de las casillasb,c

Ventas (miles de unidades)


Media
N
5,6667
3
2,3333
3

Envase
Verde/blanco
Rojo/verde

Tipo de tienda
Total
Total

Regin
Total
Total

Azul/verde

Total

Total

3,3333

Total

Gran superficie

Total

3,6667

Autoservicio

Total

4,0000

Tienda

Total

3,6667

Total

Catalua

3,3333
4,3333

3
3

3,6667

3,7778a

Aragn
Pais Vasco
Total
a. Media global

b. Ventas (miles de unidades) por Envase, Tipo de tienda, Regin


c. No se han calculado las medias de orden 2 o superior debido al lmite
en el orden mximo de interaccin.
ANOVAa
Mtodo jerrquico
Media
cuadrtica
gl
F
6
3,222
29,000
2
8,778
79,000

Ventas (miles de unidades)


Efectos principales
(Combinadas)
Envase

Suma de
cuadrados
19,333
17,556

Tipo de tienda

,222

Regin
Modelo
Residual
Total

,111

Sig
,034
,013

1,000

,500

1,556

,778

7,000

,125

19,333

3,222

29,000

,034

,222

,111

19,556

2,444

a. Ventas (miles de unidades) por Envase, Tipo de tienda, Regin

9.12.4 EXPERIMENTO CON INTERCAMBIO


Este procedimiento consiste bsicamente en la aplicacin alternativa y sucesiva de los
diferentes tratamientos a las unidades experimentales. El orden de aplicacin de los
diversos tratamientos sobre las unidades experimentales debe ser al azar, con la
condicin de que haya el mismo nmero de unidades experimentales que reciba primero
un tratamiento y despus los otros.
Este tipo de experimento combina las caractersticas de los bloques aleatorios y los de
los cuadrados latinos pequeos.
9.12.5 EXPERIMENTO FACTORIAL
En los experimentos comerciales de tipo factorial se controlan varios factores
principales, midiendo sus efectos individuales y los conjuntos sobre la variable
dependiente.
Esta es una situacin muy habitual en el rea de Marketing, donde la aplicacin del
Marketing mix produce en el mercado unos resultados diferentes del que se obtendra
por la suma de los efectos aislados de cada factor del mix de Marketing.
La tcnica estadstica que se utiliza se denomina ANOVA de va mltiple.
Veamos este experimento con un caso prctico:
CASO PRACTICO
Una empresa realiza un experimento con tres tipos de promocin (Puntos, precio y
sorteo) y dos modelos de envase (500 y 1.000 cc.). El estudio lo realiza en una gran
superficie y en una tienda tradicional, durante un mes.
Los resultados en miles de unidades de producto vendidas son las indicadas en el
siguiente cuadro.

E1
E2

P1

P2

P3

40

34

28

36

28

20

30

26

14

22

16

10

SOLUCIN
Factor principal 1 los modelos de envase E1, E2 a=2
Factor principal 2 los tipos de promocin P1, P2, P3 b=3
Unidades experimentales: 12 (dos por cada combinacin de factores) K = 2
Variable dependiente: unidades vendidas
n es el nmero de mediciones totales (12)
xijk unidades vendidas en las diferentes mediciones
mi es la media de unidades vendidas por alternativas del factor 1
mj es la media de unidades vendidas por alternativas del factor 2
mk es la media de unidades vendidas por cada combinacin de
factores m es la media total
Clculos
P1

P2

P3

mj

40

34

28

186

31

36

28

20

30

26

14

118

1967

22

16

10

128

104

72

mi

32

26

18

E1
E2

mk

304

P1E1

P1E2

P2E1

P2E2

P3E1

P3E2

38

26

31

21

24

12

Siendo m = 253
Dispersin Total DT = 930667
Dispersin Factor 1

Sustituyendo obtenemos:

DF1 aK (mj m)2


2

DF1 = (2x2) ( 31 - 253) +(2x2) ( 196 - 253) = 38533

Dispersin factor 2

Sustituyendo obtenemos

DF 2 bK(mi m)2
2

DF2 = (3x2) (32 - 253) + (3x2) (26 - 253) + (3x2) (18 - 253) = 394667
Dispersin de la
interaccin DIN = S(m
2

+mk - mj - mi) DIN = 2667


Dispersin residual
DR = DT - DF1 - DF2 - DIN
DR = 148
Cuadrado medio del factor 1

CMF1 = 385333 : 1 = 385333

Cuadrado medio del factor 2 CMF2 = 394667 :2 = 19733

(gl= a-1)
(gl=b-1)

Cuadrado medio de la interaccin (CMIN)


DIN
CMIN
Sustituyendo obtenemos: CMIN = 1333
(a 1)(b
1)
Cuadrado medio residual (CMR)
DR
CMR ab(K
Sustituyendo obtenemos CMR = 24667
1)
Test de la F
1 Factor 1
F= 385333 : 24667 = 15622
Ft para el 95% y gl 1 y 6 es 599
Por tanto existe un efecto significativo.
2 Factor 2
F = 197333 : 24667 = 8

Ft para el 95% y gl 2 y 6 es 514

Por tanto existe un efecto significativo.


3 Interaccin
F = 1333 : 24667 = 0054
Como el valor de F es menor de la unidad, nos indica que no existe un efecto
significativo de la interaccin de los dos factores objeto de la experimentacin sobre la
demanda.
No es preciso comparar con tablas.
La correspondiente salida con el paquete estadstico SPSS es la siguiente:

9.12.5.1 EXPERIMENTO FACTORIAL SIMPLE (SPSS)

Resumen del procesamiento de los casosa

Incluidos
Porcentaje
12
100,0%

Casos
Excluidos
N
Porcentaje
0
,0%

Total
Porcentaje
12
100,0%

a. Ventas (miles de unidades) por Envase, Promocin


Medias de las casillasb

Envase
500 cc.

1000 cc.

Total

Promocin
Puntos
Precio

Ventas (miles de unidades)


Media
N
38,00
2
31,00
2

Sorteo

24,00

Total

31,00

Puntos

26,00

Precio

21,00

Sorteo

12,00

Total

19,67

Puntos
Precio

32,00
26,00

4
4

Sorteo

18,00

Total

25,33a

12

a. Media global
b. Ventas (miles de unidades) por Envase, Promocin
ANOVAa

Ventas (miles de unidades)


Efectos principales

(Combinadas)
Envase

Suma de
cuadrados
780,000
385,333

Mtodo jerrquico
Media
cuadrtica
gl
F
3
260,000
10,541
1
385,333
15,622

Sig
,008
,008

Promocin

394,667

197,333

8,000

,020

Envase *
Promocin

2,667

1,333

,054

,948

Modelo

782,667

156,533

6,346

,022

Residual

148,000

24,667

Total

930,667

11

84,606

Interacciones de orden 2

a. Ventas (miles de unidades) por Envase, Promocin

TABLA ESTADSTICA: DISTRIBUCIN DE LA F (Nivel de confianza 95%)

m
n

1614

1995

2157

2246

2302

1851

19

1916

1925

1930

1013

955

928

912

901

771

694

659

639

626

661

579

541

519

505

599

514

476

4,53

439

559

474

435

412

397

532

446

407

384

369

512

426

386

363

348

10

496

410

371

348

333

11

484

398

359

336

320

12

475

389

349

326

311

13

467

381

341

318

303

14

46

374

334

311

296

15

454

368

329

306

290

Siendo m los grados de libertad del numerador y n los grados de libertad del
denominador.

ANEXO 1 RESUMEN DEL MTODO ANOVA TRADICIONAL


El proceso de este mtodo es:
Se determinan las siguientes dispersiones:
1.- Dispersin total (DT)
Mide la suma de las dispersiones.
2.- Dispersin factorial (DF)
Mide la dispersin entre los grupos creados por las diferentes alternativas del factor o
factores estudiados.
Dependiendo del tipo de experimento, pueden existir varias dispersiones factoriales,
correspondientes al factor principal y a los factores de bloque.
3.- Dispersin residual (DR)
Mide la dispersin dentro de los grupos creados por las diferentes alternativas del factor
o factores estudiados.
DT = DF + DR

DR = DT - DF

4.- Se calcula el cuadrado medio total (CMT)


Se trata de la dispersin total dividida por el nmero de grados de
libertad. CMT = DT / gl donde gl son los grados de libertad.
5.- Se calcula el cuadrado medio factorial (CMF)
Se trata de la dispersin factorial dividida por el nmero de grados de libertad.
CMF = DF / gl
Dependiendo del tipo de experimento pueden existir varias varianzas factoriales,
correspondiendo al factor principal y a los factores bloque.
6.- Se calcula el Cuadrado medio residual (CMR)
Se trata de la dispersin residual dividida por el nmero de grados de libertad.
CMR = DR / gl
7 Se realiza el test de la F
Para cada factor estudiado se
calcula: 7-1.- Se calcula el
estadstico F

F = CMF / CMR

Si el valor de F es menor que uno, es decir CMF < CMR, no existe un efecto
significativo del factor estudiado sobre la variable dependiente, y por tanto no es
necesario realizar la comparacin de F con el correspondiente valor de las tablas.
7-2.- Se determina el valor de F en las tablas estadsticas de la distribucin de la F, en
base a los grados de libertad del numerador y del denominador.
7-3.- Se comparan ambos valores.
La hiptesis nula H0 es: NO EXISTE EFECTO SIGNIFICATIVO DEL FACTOR
ESTUDIADO.
Entonces:
Si F > Ft (tabla), no se cumple H0 y por tanto el factor estudiado tiene una influencia
significativa sobre la variable dependiente.
Si F= Ft (tabla), entonces se cumple H0
ANEXO 2 RESUMEN DE TRMINOS UTILIZADOS
A continuacin vamos a explicar brevemente los conceptos utilizados habitualmente en
la Investigacin Comercial por experimentacin.
Diseo experimental. Forma de atribuir los diferentes tratamientos a las unidades
experimentales.
Dispersin de bloque. Variacin que se produce como consecuencia de la accin de
diversas variables que no pueden ser controladas, pero cuya existencia conocemos.
Dispersin factorial. Variacin producida como consecuencia de la influencia de los
diversos tratamientos (factores), cuyos efectos se quieren medir y comparar.
Dispersin residual. Variacin que se produce como consecuencia de diferentes
variables, cuyo valor y presencia no conocemos (es decir estn sin controlar). Tambin
se llama error experimental.
Dispersin total. Es la variacin total originada por los diferentes tratamientos, factores
no controlados y las interacciones entre los diversos tratamientos.
Grados de libertad. Expresan el nmero de datos independientes necesarios para
calcular el valor de un parmetro.
Interaccin. Variacin que se produce como consecuencia de la influencia recproca
entre varios tratamientos.

Repeticin. Consiste en realizar dos o ms veces una experimentacin bajo las mismas
condiciones, con el objetivo de obtener una conclusin. Tambin se denomina rplica.
Tratamiento. Proceso o variable cuyos efectos se quieren medir y comparar.
Unidad experimental. Conjunto de elementos a los que se aplica el mismo tratamiento,
cuyos efectos se quieren medir y comparar.
Varianza. Es la medida de dispersin de un conjunto de datos con relacin a su media.
Matemticamente se expresa por la frmula siguiente:
N

Xi

i 1

donde Xi es el valor del dato, es la media del universo o

poblacin (N).
Cuando la varianza que se quiere calcular corresponde a una muestra, el valor de N de
dicha muestra se sustituye por los grados de libertad (n-1). La expresin matemtica
correspondiente es.
n

x m

i1

n
1

donde n es el tamao de la muestra, m es la media de la

muestra, y xi = valor del dato correspondiente.

9.13 BIBLIOGRAFA
Anlisis Multivariable para las Ciencias Sociales. Lvy Varela Editorial Perrazo
Prentice Hall 2003
El Anlisis de la Varianza en la Investigacin Comercial. Gregoria Mateos-Aparicio y
Miguel Martn. Prentica Hall 2002

ANLISIS DISCRIMINANTE

10. ANALISIS DISCRIMINANTE


Introduccin
Vamos a resear en el siguiente esquema de situacin la tcnica del Anlisis
Discriminante entre los diferentes procedimientos multivariables

Anlisis multivariante
Dos grupos de variables
Mtodo Explicativo
Nmero de variables a explicar: UNA
Tipo de la variable a explicar: Cualitativa
Tipo de las variables explicativas: Mtricas
Anlisis Discriminante

10.1 CONCEPTO
El anlisis discriminante se utiliza para seleccionar entre diferentes grupos, mediante el
anlisis de datos con una variable dependiente categrica y variables independientes
medidas en escalas de intervalo. Trata de explicar la pertenencia de las observaciones a
las diferentes categoras o grupos preestablecidos

10.1.1

EJEMPLO

Variable dependiente o criterio: Marca de Refresco que toman los consumidores (Fanta,
Kas, Schweppes)
Variables independientes o de prediccin: Las valoraciones obtenidas a travs de una
escala Diferencial Semntico (7 puntos).

10.2 OBJETIVOS DEL AD

Explicar la pertenencia de individuos u objetos a grupos preestablecidos

Desarrollar las funciones discriminantes. Se trata de combinaciones lineales de


las variables independientes (predictoras), que discriminan mejor entre las
categoras (Grupos) de la variable dependiente.

Identificar diferencias significativas entre los grupos en funcin de las variables


predictoras

Determinar las variables independientes (predictoras) que ms contribuyen a la


diferencia entre grupos.

Clasificar los casos para uno de los grupos en funcin de las variables
predictoras.

Evaluar la exactitud de la clasificacin.

10.3 CLASIFICACIN DEL AD


Las tcnicas del AD se clasifican por el nmero de categoras que tiene la variable
criterio
1. Anlisis discriminante de dos grupos: la variable criterio tiene dos categoras
(dicotmica)
2. Anlisis discriminante mltiple: la variable criterio tiene tres o ms categoras

10.4 RELACIN ENTRE AD, ANOVA Y REGRESIN


Las similitudes entre las tres tcnicas y sus diferencias las resumimos en el siguiente
cuadro
Anlisis

ANOVA

Discriminante

REGRESION

N de variables dependientes

Una

Una

Una

N de variables independientes

Varias

Varias

Varias

Naturaleza de la variable dependiente

Categrica

Mtrica

Mtrica

Naturaleza de la variable independiente

Mtricas

Categricas

Mtricas

El anlisis discriminante de dos grupos est estrechamente relacionado con la Regresin


mltiple. En esta situacin la variable dependiente se clasifica como binaria (0 y 1) da
como resultado coeficientes de regresin parcial proporcionales a los coeficientes de la
funcin discriminante.

10.5 MODELO DEL AD


El modelo estadstico en que se fundamenta el AD comprende combinaciones lineales
de la siguiente estructura:

D = b0 + b1x1 + b2 x2 + b3 x3 + ..+ bk xk
Siendo

D la calificacin discriminante

B los coeficientes discriminantes

X variables predictoras

10.6 SUPUESTOS Y ESTADSTICOS DE USO EN EL AD


10.6.1

SUPUESTOS:

1. Cada uno de los grupos es una muestra de una poblacin normal de variables
mltiples
2. Todas las poblaciones tienen la misma matriz de covarianza
10.6.2

ESTADSTICOS

Los estadsticos que ms importancia y tienen mayor relacin son:

Correlacin Cannica: Mide la asociacin entre la nica funcin discriminante


y el conjunto de variables simuladas que definen los datos del grupo (algunos
autores llaman membresa, aunque esta palabra no existe en nuestro idioma, la
podemos considerar equivalente a membrete) del grupo. Mide el grado de
asociacin entre los valores discriminantes y los grupos.

Centroide. Esta formado por los valores medios de las calificaciones


discriminantes para un determinado grupo. Por tanto existen tantos centroides
como grupos. Las medias para un grupo en todas las funciones es el centroide
del grupo.

Matriz de clasificacin o matriz de confusin o prediccin. Contiene el


nmero de casos que se clasifican en forma correcta y errnea. Los casos
clasificados correctamente se distribuyen en la diagonal. La suma de los casos
de la diagonal dividida por el total de casos es la razn de aciertos.

Coeficientes de la funcin discriminante. Los no estandarizados son los


multiplicadores de las variables, cuando estas se encuentran en las unidades de
medicin originales.

Calificaciones discriminantes. Los coeficientes no estandarizado se multiplican


por los valores de las variables independientes y se suman al valor constante (b 0)
obtenindose el valor D (Calificacin Discriminante)

Valor especfico. Es la razn de la suma de los cuadrados entre y dentro de los


grupos. Los valores especficos altos indican funciones superiores.

Valores F. Se determinan a partir del ANOVA unidireccional, con la variable de


grupo como variable independiente categrica. Cada indicador sirve como
variable dependiente mtrica del ANOVA.

Medias y desviaciones estndar. Se determinan para cada indicador de cada


grupo

Matriz agrupada de correlaciones dentro de cada grupo. Se calcula mediante


el promedio de las matrices de covarianza separadas para todos los grupos.

Coeficientes estandarizados de funcin discriminante. Se utilizan com


multiplicadores cuando las variables se estandarizan con media 0 y varianza 1

Correlaciones de estructura. Tambin se llaman cargas discriminantes,


representan las correlaciones sencillas entre los indicadores y la funcin
discriminante

Matriz de correlacin total. Los casos se tratan como si fueran de una sola
muestra y se determinan las correlaciones

La de Wilks. Tambin llamado estadstico U Para cada indicador es la razn


de la suma de los cuadrados dentro de los grupos con la suma total de cuadrados.
Su valor esta comprendido entre 0 y 1 Los valores prximos a 1 indica que las
medias de un grupo no parecen ser muy diferentes si es cercano a 0 indica que
las medias de los grupos parecen diferentes.

10.7 PASOS DEL ANLISIS DISCRIMINANTE


Los pasos o fases que contiene el anlisis discriminante son:
1. Formular el problema,
2. Estimar los coeficientes de funcin discriminante,
3. Determinar la significacin discriminante,
4. Interpretar los resultados
5. Verificar la validez del anlisis discriminante.
10.7.1 FORMULACIN DEL PROBLEMA
Hemos de identificar a travs de los objetivos que perseguimos la variable criterio y las
variables predictoras o independientes.
La variable criterio debe establecerse en categoras mutuamente excluyentes y
colectivamente exhaustivas.
Las variables predictivas deben escogerse en funcin del criterio del
investigador. La muestra se divide en dos partes,
Una parte de la muestra se utiliza para el clculo de la funcin discriminante (Muestra
de anlisis) La otra parte que se suele denominar como proposicin o muestra de
validacin y se usa para validar la funcin discriminante.
Cuando la muestra es grande y se divide en dos partes iguales, lo que se hace es
intercambiar el papel de las mitades hacindose lo que se denomina validacin cruzada
doble.

10.7.2 ESTIMACIN
La muestra de anlisis la utilizamos para determinar los coeficientes de funcin
discriminante.
Mtodo directo. Todos los indicadores se incluyen directamente. Es decir se incluyen
todas las variables sin importar su poder de discriminacin
Anlisis discriminante discreto. Las variables de prediccin entran de forma secuencial,
en funcin de su capacidad para discriminar entre los grupos.
El primer procedimiento es apropiado cuando, por alguna causa (modelo o experiencias)
el investigador quiere que la discriminacin se base en todos los indicadores.
El mtodo discreto es de utilidad cuando se quiere seleccionar un conjunto o
subconjunto de indicadores para su inclusin en la funcin discriminante final.
10.7.3 DETERMINACIN DEL GRADO DE SIGNIFICACIN
Para probar la significacin estadstica se toma como hiptesis nula (H0) En la
poblacin las medias de todas las funciones discriminantes son iguales en todos los
grupos.
La prueba se basa en la

de Wilks La significacin se calcula con base en una

transformacin de ji cuadrado
Normalmente se trabaja para un contraste del nivel de significacin = 5%
Rechazamos H0 cuando la significacin calculada sea menor que 005
10.7.4 INTERPRETACIN
La interpretacin de los coeficientes es similar a la que se realiza en el anlisis de
regresin mltiple.
El valor del coeficiente de un indicador concreto depende del resto de indicadores que
se incluyan en la funcin discriminante.

Los signos de los coeficientes indican que valores de la variable dan como resultado
valores de la funcin altos y bajos as como las correlaciones con los grupos
Debido a la posible multicolinealidad en las variables predoctoras, no existe ninguna
medicin objetiva de la significacin relativa de los indicadores en la discriminacin
entre los grupos.
Podemos tener idea de la significacin relativa al examinar los coeficientes
estandarizados de la funcin discriminante
En la praxis, los indicadores con coeficientes estandarizados altos contribuyen ms al
poder discriminante.
Tambin se analiza la significacin relativa de las variables predoctoras (indicadores)
analizando las correlaciones de estructura (Cargas cannicas o cargas discriminantes)
Estas correlaciones simples entre el indicador y la funcin discriminante representan la
varianza que la variable independiente comparte con la funcin.
Tambin podemos aadir a la interpretacin de los resultados el Perfil Caracterstico, se
trata de interpretar los resultados mediante la descripcin de cada grupo en trminos de
las medias de los grupos para las variables de prediccin. Una comparacin entre las
medias nos ayuda a comprender sus diferencias.
Para una mejor comprensin de estos conceptos reseamos el siguiente ejemplo del
autor Narres K. Malhotra.
10.7.4.1

EJEMPLO LOS VENDEDORES SATISFECHOS CONSERVAN SU


TRABAJO.

Se utiliz el AD para determinar que factores explicaban las diferencias entre los
vendedores que permanecen en la empresa y los que la abandonaron. Las variables
utilizadas pueden observarse en la tabla de resultados

Naresh K. Malhotra Investigacin de Mercados un enfoque prctico. Segunda edicin Prentice Hall
1997

134

El resultado fue: La correlacin cannica, un ndice de discriminacin R = 0,4572 es


significativa de Wilk = 0,7909, F (26 - 173) = 1,7588 y p = 0,0180.
Por tanto el resultado indica que las variables consideradas discriminan entre los que se
fueron de la empresa y los que permanecen.
Ejemplo.

10.7.5 VALIDACIN
Si recordamos los datos se dividan aleatoriamente en dos submuestras. Una la
denominamos muestra de anlisis y la utilizamos para estimar la funcin discriminante
y la segunda que llamamos muestra de validacin se utiliza para desarrollar la matriz de
clasificacin
Los valores relativos discriminantes que se calculan a travs de la muestra de anlisis,
se multiplican por los valores de las variables de prediccin con el objetivo de obtener
las correspondientes calificaciones discriminantes (D) de la muestra de validacin. De
aqu se obtiene la razn de aciertos, que es, el porcentaje de casos que se clasifican
correctamente por medio del Anlisis Discriminante.
Es de utilidad el comparar el porcentaje de los casos que se clasificaron de forma
correcta con el AD con el porcentaje que obtendramos por la probabilidad.
Cuando las dos submuestras tienen el mismo tamao el porcentaje de clasificacin por
probabilidad es 0,5, en general cuando los grupos tienen el mismo tamao el porcentaje
de clasificacin por probabilidad es1 dividido por el nmero de grupos.
Algunos autores citan que: La exactitud alcanzada por el AD debe ser por lo menos un
25% mayor que la alcanzada por la probabilidad.
Los paquetes estadsticos utilizados habitualmente estiman una matriz de clasificacin
con base en la muestra de anlisis. Dando significacin a la variacin probable de esos
datos.

10.7.5.1 EJEMPLO:
10.7.5.2 ANLISIS DISCRIMINANTE DE DOS GRUPOS.

10.8 EJEMPLO DE ANLISIS DISCRIMINANTE CON EL

SPSS:

Estadsticos; Clasificar; Discriminante;


Variable de agrupacin ... (cualitativa);
Definir rango ... (mn., mx.);
Independientes ... (variables cuantitativas o binarias),
Introducir independientes juntas
Estadsticos: Descriptivos: Medias* y ANOVAs univariados;
Matrices: correlacin intra-grupos,
Coeficientes de la funcin: no tipificados;
Clasificar:
Mostrar: Resultados para cada caso*
Tabla de resumen
Clasificacin dejando uno fuera*.
* pedir solo si interesa.
EJEMPLO DE LAS BICICLETAS
Somos una empresa fabricante de Bicicletas y deseamos conocer, a travs
Cules son las caractersticas diferenciadoras de los consumidores de la gama Alta y de
la gama Media de nuestras bicicletas.

Resumen del procesamiento para el anlisis de casos


Casos no ponderados
Vlidos
Excluidos Cdigo de grupo de perdido o fuera de rango

180
0

Porcentaje
100,0
,0

Perdida al menos una variable discriminante

,0

Perdidos o fuera de rango ambos, el cdigo de


grupo y al menos una de las variables
discriminantes.

,0

Total
Total

,0

180

100,0

1. ANLISIS UNIVARIANTE:
Estadsticos del grupo

Gama de
Producto
Media

edad
estado civil (1=casado)

Media
28,93
,65

Desv. tp.
7,09
,48

Ingreso familiar anual (Euros)

26928,72

6726,99

141

141,000

Promedio de Km realizados por


semana

85,96

30,89

141

141,000

Autoevaluacin del nivel ciclista

2,91

,68

141

141,000

,47

,50

141

141,000

2,98

,79

141

141,000

29,21
,64

6,98
,49

39
39

39,000
39,000

sexo (1=mujer)
Promedio de veces que utiliza la
bici por semana
Alta

edad
estado civil (1=casado)
Ingreso familiar anual (Euros)

42587,18

12704,88

39

39,000

Promedio de Km realizados por


semana

168,46

60,02

39

39,000

Autoevaluacin del nivel ciclista

4,67

,62

39

39,000

,21

,41

39

39,000

4,44

1,12

39

39,000

28,99
,64

7,05
,48

180
180

180,000
180,000

sexo (1=mujer)
Promedio de veces que utiliza la
bici por semana
Total

N vlido (segn lista)


No
ponderados
Ponderados
141
141,000
141
141,000

edad
estado civil (1=casado)
Ingreso familiar anual (Euros)

30321,39

10559,63

180

180,000

Promedio de Km realizados por


semana

103,83

51,70

180

180,000

Autoevaluacin del nivel ciclista

3,29

,98

180

180,000

,41

,49

180

180,000

3,29

1,06

180

180,000

sexo (1=mujer)
Promedio de veces que utiliza la
bici por semana

Las medias de estas variables para cada uno de los grupos son significativamente
distintas?
Deberamos hacer un anlisis de la varianza, considerando cada una de las variables
independientes como la variable a explicar y como variable explicativa, el factor,
nuestra variable dependiente (el grupo al que pertenece la observacin).
Por ejemplo, el resultado obtenido en el anlisis de varianza para la variable
autoevaluacin del nivel ciclista sera el siguiente:

ANOVA de un factor
ANOVA

Autoevaluacin
del nivel
ciclista

Inter-grupos
Intra-grupos
Total

Suma de
cuadrados
94,510
78,468
172,978

gl
1
178
179

Media
cuadrtica
94,510
,441

F
214,389

Sig.
,000

El anlisis discriminante efecta ese mismo anlisis para todas las variables
explicativas:
Pruebas de igualdad de las medias de los grupos
Lambda
de Wilks
1,000
1,000

edad
estado civil (1=casado)

F
,047
,003

gl1
1
1

gl2
178
178

Sig.
,829
,960

Ingreso familiar anual (Euros)

,625

106,929

178

,000

Promedio de Km realizados por


semana

,565

136,839

178

,000

Autoevaluacin del nivel ciclista

,454

214,389

178

,000

sexo (1=mujer)

,952

9,068

178

,003

Promedio de veces que utiliza la


bici por semana

,675

85,832

178

,000

Adems del test F, ya conocido, se calcula la Lambda de Wilks:

WILKS

Suma de cuadrados intra - grupos (residual)


Suma de cuadrados Total

En ambos casos, la H0 es: las medias son iguales.


Si la Significacin es pequea (menor que 0.05 o 0.10) se rechaza la H0. Por tanto, hay
diferencias entre las medias de los grupos.
Finalmente, se obtiene una matriz de correlaciones (intra-grupo) entre las variables
explicativas

Matrices intra-grupo combinadas

Corre
lacin

edad
1,000

est.
civil
,179

Ingreso
,716

Km por
semana
,010

nivel
ciclista
,037

sexo
-,010

Veces
sem.
-,029

,179

1,000

,159

,062

-,058

,079

-,013

Ingreso
familiar anual
(Euros)

,716

,159

1,000

,102

,015

-,009

,040

Promedio de
Km realizados
por semana

,010

,062

,102

1,000

,577

-,138

,695

Autoevaluacin
del nivel
ciclista

,037

-,058

,015

,577

1,000

-,180

,393

sexo (1=mujer)

-,010

,079

-,009

-,138

-,180

1,000

-,135

Promedio de
veces que
utiliza la bici
por semana

-,029

-,013

,040

,695

,393

-,135

1,000

edad
estado civil
(1=casado)

La correlacin intra-grupo se calcula teniendo en cuenta la pertenencia a un


determinaro grupo. Ejemplo:

10.9 ANALISIS DEL EFECTO CONJUNTO:


En primer lugar se busca la Funcin discriminante:
D B0 B1 X 1 B2 X 2 BK X K
siendo los coeficientes Bs aquellos que maximizan la relacin Suma de Cuadrados
Explicada / Suma de Cuadrados Residual.
En nuestro ejemplo:
Coeficientes de las funciones cannicas discriminantes
Funcin
1
-,10273
,01998

edad
estado civil (1=casado)
Ingreso familiar anual (Euros)

,00012

Promedio de Km realizados por semana

-,00025

Autoevaluacin del nivel ciclista

1,00256

sexo (1=mujer)

-,01476

Promedio de veces que utiliza la bici por semana


(Constante)

,14424
-4,38912

Coeficientes no tipificados

Con ellos se pueden calcular las puntuaciones discriminantes para cada observacin:
D1 = 0,102 (22) + 0,019 (0) + 0,0001 (22100) 0,0002 (120) + + 1,002 (5) 0,014
(0) + 0,144 (3) 4,389 = 1,40
Resmenes de casosa

1
2
3
4
5

edad
22
22
23
23
23

estado civil
(1=casado)
soltero
soltero
soltero
soltero
soltero

Ingreso
familiar
anual
(Euros)
22100
28900
24650

Promedio
de Km
realizados
por
semana
120
200
140

Autoevaluacin del
nivel
ciclista (5)
Profesional
Profesional (5)
Profesional (5)

sexo
(1=mujer)
hombre
hombre
hombre

31450
28050

100
100

Experto (4)
Profesional (5)

mujer
hombre

a. Limitado a los primeros 5 casos.

Promedio
de veces
que
utiliza la
bici
por
semana 3
4
4

Puntuaciones
discriminantes
de la funcin 1
para el
anlisis 1
1,40039
2,33522
1,74085

3
4

1,39958
2,15595

Las puntuaciones discriminantes se pueden guardar, pudindose utilizar en otros


anlisis. Por ejemplo, podemos comprobar como se han separado los grupos con un
anlisis de varianza:
Descriptivos

Puntuaciones
discriminantes
de la funcin 1

Gama
de
Producto

Media
Alta
Total

N
141
39

Media
-,8222
2,9725

Desv.
tpica
,8910
1,3263

Error
tpico
,0750
,2124

180

,0000

1,8579

,1385

Intervalo de confianza
para la media al 95%
Lmite
Lmite
inferior
superior
-,9705
-,6738
2,5425
3,4024
-,2733

,2733

ANOVA

Puntuaciones
discriminantes
de la funcin 1

Inter-grupos
Intra-grupos
Total

Suma de
cuadrados
439,903
178,000

gl
1
178

617,903

Media
cuadrtica
439,903
1,000

F
439,903

Sig.
,000

179

Como tambin hace el anlisis discriminante:

Anlisis 1: Resumen de las funciones cannicas discriminantes


Autovalores

Funcin
1

Autovalor
2,471a

% de
varianza
100,0

%
acumulado
100,0

Correlacin
cannica
,844

439,9 SC Explicada

R
617,9
SC Total

a. Se han empleado las 1 primeras funciones


discriminantes cannicas en el anlisis.

SC Explicada / SC Residual = 439,9 / 178


Lambda de Wilks
Contraste
de las
1

Lambda
de Wilks
,288

Chi-cuadrado
217,174

gl
7

Sig.
,000

SC Residual / SC Total = 178 / 617,9

Despus de comprobar que los grupos tienen unas medias estadsticamente diferentes,
se pueden analizar los coeficientes de la funcin discriminante y la correlacin entre
sta y las variables:
Coeficientes estandarizados de las funciones discriminantes cannicas
Funcin
1
-,726
,010

edad
estado civil (1=casado)
Ingreso familiar anual (Euros)
Promedio de Km realizados por semana

,997
-,010
,666
-,007
,125

Autoevaluacin del nivel ciclista


sexo (1=mujer)
Promedio de veces que utiliza la bici por semana

Matriz de estructura

Autoevaluacin del nivel ciclista


Promedio de Km realizados por semana
Ingreso familiar anual (Euros)
Promedio de veces que utiliza la bici por semana
sexo (1=mujer)
edad
estado civil (1=casado)

Funcin
1
,698
,558
,493
,442
-,144
,010
-,002

Correlaciones intra-grupo combinadas entre las variables


discriminantes y las funciones discriminantes cannicas tipificadas
Variables ordenadas por el tamao de la correlacin con la funcin.

Coeficientes de las funciones cannicas discriminantes

edad
estado civil (1=casado)
Ingreso familiar anual (Euros)
Promedio de Km realizados por semana
Autoevaluacin del nivel ciclista
sexo (1=mujer)
Promedio de veces que utiliza la bici por semana
(Constante)
Coeficientes no tipificados

Funcin
1
-,103
,020
,000
,000
1,003
-,015
,144
-4,389

Funciones en los centroides de los grupos


Funcin
1
-,822
2,972

Gama de Producto
Media
Alta
Funciones discriminantes cannicas no
tipificadas evaluadas en las medias de los
grupos

10.10 CLASIFICACIN DE LAS OBSERVACIONES:


La probabilidad de pertenecer a un grupo g dado una puntuacin discriminante d se
calcula a travs del teorema de Bayes:
P(G g | D d ) P(D d | G g) P(G g)

P(D d | G g) P(G g)
g

donde P(G = g) es la probabilidad a priori.


Normalmente se supone que la probabilidad a priori es la misma para cada grupo, pero
se puede asignar en funcin del peso de cada grupo.
P(D > d | G = g) es una probabilidad condicionada.
Es la probabilidad de obtener un valor discriminante superior a d dado que la
observacin pertenece al grupo g. Se calcula a partir de la distribucin de puntuaciones
discriminantes de la muestra.

A partir de estas probabilidades se puede calcular la probabilidad a posteriori, la


probabilidad de pertenecer al grupo g, dado que el valor discriminante es d.
La observacin se clasifica en el grupo que tiene una mayor probabilidad.

Estadsticos de clasificacin
Probabilidades previas para los grupos

Gama de
Producto
Media
Alta
Total

Previas
,500
,500
1,000

Casos utilizados en el
anlisis
No
ponderados
Ponderados
141
141,000
39
39,000
180

180,000

Estadsticos por casos

Grupo mayor

Nmero Grupo
de caso real
1
2
2
2
3
2

P(D>d |
G=g)

Grupo
pronosticado
2
2

p
,116
,524

gl
1
1

Segundo grupo mayor

Puntuac
iones
discrimi
nantes

Distancia de
Distancia de
Mahalanobis
Mahalanobis
al cuadrado
al cuadrado
hasta el
hasta el
P(G=g
P(G=g
Funcin
centroide
centroide
1
| D=d)
Grupo | D=d)
,775
2,471
1
,225
4,940
1,400
,992
,406
1
,008
9,969
2,335

,218

,926

1,517

,074

6,569

1,741

,116

,774

2,474

,226

4,936

1,400

,414

,984

,667

,016

8,869

2,156

,185

,898

1,754

,102

6,102

1,648

7
8

2
2

2
2

,774
,610

1
1

,998
,995

,082
,261

1
1

,002
,005

12,307
10,785

2,686
2,462

,373

,979

,794

,021

8,430

2,081

10

,227

,932

1,460

,068

6,690

1,764

11

1** ,141

,834

2,165

,166

5,398

,649

12

,851

,998

,035

,002

13,007

2,784

13

1** ,216

,925

1,528

,075

6,545

,414

14

,410

,983

,679

,017

8,824

2,148

15

,503

1,000

,449

,000

19,933

3,642

16

,509

1,000

,435

,000

19,842

3,632

17

,155

,858

2,024

,142

5,627

1,550

18

,505

,991

,444

,009

9,789

2,306

19

,835

,998

,043

,002

12,865

2,765

20

,423

,985

,642

,015

8,960

2,171

**. Caso mal clasificado

Resultados de la clasificacina

Original

Recuento

Gama de
Producto
Media

Alta
Media
Alta

Grupo de pertenencia
pronosticado
Media
Alta
138
3

Total
141

2
97,9

37
2,1

39
100,0

5,1

94,9

100,0

a. Clasificados correctamente el 97,2% de los casos agrupados


originales.

Estadsticos de clasificacin utilizando el mtodo de validacin

cruzada.
Este mtodo da resultados de clasificacin algo ms realistas, puesto que trata de
clasificar cada observacin en un modelo que se estima con una muestra en la que no se
incluye dicha observacin. Por tanto, se realizan tantos modelos como observaciones
haya en la muestra, y con cada uno de ellos se comprueba si se clasifica adecuadamente
o no una observacin omitida.
Resultados de la clasificacinb,c

Original

Recuento

Gama de
Producto
Media

Alta
Media

Recuento

cruzada

Total
141
39

97,9
5,1

2,1
94,9

100,0
100,0

Alta

138
2

3
37

141
39

Media
Alta

97,9
5,1

2,1
94,9

100,0
100,0

Alta
Validacin

Grupo de pertenencia
pronosticado
Media
Alta
138
3
2
37

Media

a. La validacin cruzada slo se aplica a los casos del anlisis. En la


validacin cruzada, cada caso se clasifica mediante las funciones
derivadas a partir del resto de los casos.
b. Clasificados correctamente el 97,2% de los casos agrupados
originales.
c. Clasificados correctamente el 97,2% de los casos agrupados
validados mediante validacin cruzada.

10.11 MTODO

DE

INCLUSIN

POR

PASOS:

MTODO

LAMBDA DE WILKS:
Variables introducidas/eliminadasa,b,c,d
Lambda de Wilks

Paso
1
2
3

Introducidas
Autoevaluacin del nivel ciclista
Ingreso familiar anual (Euros)
edad

Estads
tico
.454
.360
.291

gl1
1
2
3

gl2
1
1
1

gl3
178.0
178.0
178.0

Estadstico
214.389
157.568
143.197

En cada paso se introduce la variable que minimiza la lambda de Wilks global.


a. El nmero mximo de pasos es 14.
b. La F parcial mnima para entrar es 3.84.
c. La F parcial mxima para eliminar es 2.71
d. El nivel de F, la tolerancia o el VIN son insuficientes para continuar los clculos.

Variables en el anlisis
Paso
1
2
3

Autoevaluacin del nivel ciclista


Autoevaluacin del nivel ciclista
Ingreso familiar anual (Euros)

Tolerancia
1.000
1.000
1.000

F para
eliminar
214.389
130.445
46.248

Autoevaluacin del nivel ciclista


Ingreso familiar anual (Euros)
edad

.998
.488
.487

99.817
98.642
41.805

Lambda
de Wilks
.625
.454
.455
.454
.360

F exacta
gl1
gl2
1
178.0
2
177.0
3
176.0

Sig.
.000
.000
.000

Variables no incluidas en el anlisis


P
a
0

edad
sexo (1=mujer)
estado civil (1=casado)
Ingreso familiar anual (Euros)
Promedio de veces que utiliza la bici por semana
Promedio de Km realizados por semana
Autoevaluacin del nivel ciclista
edad
sexo (1=mujer)
estado civil (1=casado)
Ingreso familiar anual (Euros)
Promedio de veces que utiliza la bici por semana
Promedio de Km realizados por semana

edad
sexo (1=mujer)
estado civil (1=casado)
Promedio de veces que utiliza la bici por semana
Promedio de Km realizados por semana

sexo (1=mujer)
estado civil (1=casado)
Promedio de veces que utiliza la bici por semana
Promedio de Km realizados por semana

Tolerancia
1.000
1.000
1.000
1.000
1.000
1.000
1.000

Tolerancia
mn.
1.000
1.000
1.000
1.000
1.000
1.000
1.000

F para
introducir
.047
9.068
.003
106.929
85.832
136.839
214.389

Lambda
de Wilks
1.000
.952
1.000
.625
.675
.565
.454

.999
.968
.997
1.000
.845
.667

.999
.968
.997
1.000
.845
.667

.047
.068
.285
46.248
6.567
7.150

.454
.453
.453
.360
.437
.436

.487
.968
.971
.844
.659
.968
.962
.835
.646

.487
.968
.971
.844
.659
.487
.482
.482
.472

41.805
.036
.252
4.223
2.865
.025
.012
1.532
.523

.291
.360
.359
.351
.354
.291
.291
.288
.290

Resumen de las funciones cannicas discriminantes


Autovalores
Funcin
1

Autovalor
% de varianza
2.441a
100.0

Correlacin
cannica
.842

% acumulado
100.0

a. Se han empleado las 1 primeras funciones discriminantes


cannicas en el anlisis.

Lambda de Wilks
Contraste de
las funciones
1

Lambda
de Wilks
.291

Chi-cuadrado
218.105

gl
3

150

Sig.
.000

Coeficientes estandarizados de las


funciones discriminantes cannicas
Funcin
1
-.745

edad
Ingreso familiar anual (Euros)
Autoevaluacin del nivel ciclista

1.019
.715

Matriz de estructura
Funcin
1
.702
.509

Autoevaluacin del nivel ciclista


Promedio de Km realizados por semanaa
Ingreso familiar anual (Euros)
Promedio de veces que utiliza la bici por

.496

semanaa

.343

sexo (1=mujer)a

-.130

estado civil (1=casado)a


edad

-.012
.010

Correlaciones intra-grupo combinadas entre las variables


discriminantes y las funciones discriminantes cannicas tipificadas
Variables ordenadas por el tamao de la correlacin con la funcin.
a. Esta variable no se emplea en el anlisis.

Coeficientes de las funciones cannicas discriminantes

edad
Ingreso familiar anual (Euros)
Autoevaluacin del nivel ciclista
(Constante)

Funcin
1
-.10544
.00012
1.07664
-4.17625

Coeficientes no tipificados
Funciones en los centroides de los grupos

Gama de Producto
1 Media
2 Alta

Funcin
1
-.817
2.954

Funciones discriminantes cannicas no tipificadas


evaluadas en las medias de los grupos

Estadsticos de clasificacin
Resumen del proceso de clasificacin
Procesados
Excluidos

180
0

Cdigo de grupo perdido o fuera de rango


Perdida al menos una variable
discriminante

Usados en los resultados

180

Probabilidades previas para los grupos

Gama de Producto
1 Media
2 Alta
Total

Previas
.500
.500

Casos utilizados en el
anlisis
No
ponderados
Ponderados
141
141.000
39
39.000

1.000

180

180.000

Resultados de la clasificacina

Original

Recuento
%

Gama de Producto
1 Media
2 Alta
1 Media
2 Alta

Grupo de pertenencia
pronosticado
1 Media
2 Alta
138
3

Total
141

2
97.9

37
2.1

39
100.0

5.1

94.9

100.0

a. Clasificados correctamente el 97.2% de los casos agrupados originales.

10.12 ANLISIS DISCRIMINANTE MLTIPLE


Se habla de tcnicas de Anlisis Discriminante Mltiple (ADM): cuando la variable
criterio tiene tres o ms categoras
Si en el ADM existen K categoras o grupos, de la variable criterio, pueden estimarse K
1 funciones discriminantes, siempre que el nmero de variables predictivas
(indicadores) sea mayor a K-1
La primera funcin tiene la razn ms alta que la suma de cuadrados entre los grupos
con la suma de cuadrados dentro de los grupos. La segunda funcin no correlacionada
con la anterior, tendr la segunda razn ms alta y as sucesivamente. Puede ocurrir que
no todas las razones sean significativas estadsticamente.
10.12.1 DETERMINACIN DEL GRADO DE SIGNIFICACIN
La hiptesis nula (H0) es que los centroides de grupo son iguales
Deben tomarse las funciones simultneamente. Seguidamente se excluye una funcin y
las medias restantes se prueban en cada paso.
10.12.2 INTERPRETACIN
La interpretacin de los resultados se realiza a travs del examen de los coeficientes
estandarizados de la funcin discriminante, de los diagramas de dispersin, examen de
la matriz de estructura y del mapa territorial
Mapa territorial: en este diagrama el centroide de cada grupo se indica con un
asterisco (*). Las fronteras de los grupos se muestran por medio de nmeros que
corresponden a los grupos, de esta forma el centroide del grupo 1 esta delimitado por el
nmero 1, el centroide del grupo 2 por el nmero 2 y as sucesivamente.
10.12.3 VALIDACIN
Se requiere que la mejora con la probabilidad sea al menos un 25% superior.

11. CASO PRCTICO DE ADM


EL PEQUEO COMERCIO DETALLISTA DE ZARAGOZA

11.1.1 INTRODUCCIN
A partir de una encuesta personal realizada por IMSO, S.L. a 818 comercios de
Zaragoza, y tras un anlisis uni y bivariante (este ltimo validado con la Chi-cuadrado)
se observa que en los comercios el conocimiento y/o empleo de algunas herramientas de
marketing no es excesivamente elevado.
Para la consecucin de los objetivos, hemos aplicado algunas tcnicas de investigacin
comercial a los datos obtenidos con una encuesta estructurada, recogida mediante
entrevista personal, de una muestra estadsticamente representativa del sector comercio
6

detallista en Zaragoza . Dado que Zaragoza en los estudios de mercado ha sido


considerada siempre como ciudad piloto, y por tanto representativa del resto de
ciudades del estado espaol, los resultados obtenidos con esta muestra se pueden
suponer que en cierto modo son representativos del comercio en todo el territorio
nacional.
Para la obtencin de la muestra se ha partido del censo de establecimientos que ha
proporcionado la Federacin de Empresarios de Comercio de Zaragoza y que est
fundamentado en la base de datos del Servicio de Informacin Empresarial de la
Diputacin General de Aragn. Segn el INE, el nmero total de establecimientos de la
ciudad de Zaragoza es de 13.996, por lo que se trata de un universo finito.
Para la obtencin de las unidades muestrales se siguieron las normas y procedimientos
del muestreo sistemtico, eligiendo el primer elemento al azar y el resto mediante
adiciones sucesivas del coeficiente de elevacin (relacin entre el universo y el tamao
de la muestra) que en este estudio tomaba un valor de 17. Para establecer el contacto

Queremos agradecer a IMSO, S.L. la cesin de la encuesta y los datos que nos han permitido la
realizacin del trabajo.

154

con el propietario, gerente o encargado del establecimiento comercial se utiliz el


procedimiento del telemarketing, concertando cita y hora para la celebracin de la
entrevista. La fase de recogida se realiz durante el primer trimestre de 1996.
Una vez depurados los cuestionarios han quedado 818 entrevistas vlidas, lo que para
un nivel de confianza del 95,5% y un nivel de indeterminacin mximo p=q=0,5,
supone trabajar con un error mximo del 3,3%. La encuesta inclua preguntas acerca de
las caractersticas de los establecimientos, nmero de empleados, actividad que realizan
en el establecimiento y nivel de estudios de estos empleados, opiniones sobre la
formacin continuada (cundo, por qu, dnde debe hacerse, qu cursos, duracin, etc.),
aspectos de marketing conocidos y/o utilizados, etc. En global se han realizado 82
preguntas que generan un total de 253 tems.
Las tcnicas aplicadas para la explotacin de esta informacin son las siguientes. En
primer lugar, se ha realizado un anlisis univariante sobre todas las variables de la base
relacionadas con caractersticas o atributos de los establecimientos as como sobre las
variables relacionadas a herramientas concretas de marketing.
Posteriormente, y dada la naturaleza cualitativa de las variables de la base, se ha
aplicado el contraste de la Chi-cuadrado que permite establecer la asociacin o la
independencia entre dos variables cualitativas.
Como se puede suponer, en este trabajo se ha establecido relacin entre las variables que
recogen atributos de los establecimientos entrevistados y las variables que contienen
informacin sobre el empleo/conocimiento de algunas herramientas del rea
marketing.

de

En el siguiente cuadro se presenta la ficha tcnica de la encuesta realizada:


CUADRO 1.

Ficha tcnica de la encuesta.


Caractersticas
Universo

Empresas seccin G, divisiones 50, 51 y 52


CNAE93

mbito geogrfico

Ciudad de Zaragoza

Unidad muestral

Empresa comercial: establecimientos

Mtodo de recogida de informacin

Encuesta personal estructurada

Tamao de la muestra

818 encuestas vlidas

Nivel de confianza

95,5%, p = q = 0,5

Error muestral

3,3%

Procedimiento de muestreo

Sistemtico: coeficiente de elevacin 17

Fecha trabajo de campo

Octubre de 1995 a Abril de 1996

Fuente: elaboracin propia

Tras la aplicacin de diferentes tcnicas de investigacin de reduccin de dimensiones


(anlisis factorial de componentes principales y de correspondencias) se produce la
siguiente reclasificacin de los establecimientos comerciales en tres categoras segn el
grado de utilizacin de herramientas de marketing.
Para verificar este aspecto hemos realizado tablas de contingencia cruzando la variable
Grado de Aplicacin de Marketing y cada una de las variables utilizadas en el anlisis
HOMALS.
En todos los casos, el estadstico de la Chi cuadrado permita rechazar la hiptesis nula
de independencia entre las variables con un nivel de confianza prcticamente absoluto.

Quedan excluidas de esta encuesta las actividades comerciales comprendidas en la divisin 526 de la
CNAE93, que corresponden al comercio al por menor no realizado en establecimientos.

CUADRO 2
Recodificacin de la variable Marketing Tabla
de frecuencia Grado aplicacin de marketing
Categora
No Marketing
Marketing Bsico
Marketing Sofisticado

Definicin
Dimensin 1 <= 0
Dimensin 1 > 0 y Dimensin 2 > 0
Dimensin 1 > 0 y Dimensin 2 < 0

Total

Frecuencia
412
261
145

Porcentaje
50,4
31,9
17,7

818

100,0

Fuente: elaboracin propia.

11.1.2 ANLISIS DISCRIMINANTE


Con los datos obtenidos vamos a ilustrar este caso de anlisis discriminante de tres
grupos.
El objetivo que se persigue es determinar las caractersticas diferenciales de las
empresas que no aplican tcnicas de marketing, frente a las que hacen un marketing
bsico o a las que realizan uno de sofisticado. Adicionalmente, el modelo permitir
predecir en que grupo se clasificarn otras empresas no incluidas en la muestra. De esta
manera, se podra por ejemplo, determinar cuales son las empresas que pueden resultar
ms interesantes para un consultor en Marketing.

Discriminante
Resumen del procesamiento para el anlisis de casos
Casos no ponderados
Vlidos
Excluidos
Cdigos de grupo perdidos o fuera de rango
Perdida al menos una variable discriminante
Perdidos o fuera de rango ambos, el cdigo de grupo
y al menos una de las variables discriminantes.
Total excluidos
Casos Totales

N
475
0

Porcentaje
100.0
.0

.0

.0

.0

475

100.0

Estadsticos de grupo
Grado
aplicacin de
marketing
1 No
Marketing

Es una sociedad
Antigedad del
establecimiento (aos)
Establecimiento asociado

19.189

19.185

228

228.000

.348

228

228.000

2.774

228

228.000

Realiza formacin

.206

.405

228

228.000

Ventas en mostrador

.860

.348

228

228.000

Val. PF Genricos Marketing

-.214

.995

228

228.000

Val. PF Atencin cliente

-.050

1.069

228

228.000

Val. PF Tnicos por ordenador

-.156

.991

228

228.000

.406

.493

155

155.000

18.942

19.395

155

155.000

.181

.386

155

155.000

Es una sociedad
Antigedad del
establecimiento (aos)
Nmero empleados

3.781

4.418

155

155.000

Realiza formacin

.445

.499

155

155.000

Ventas en mostrador

.645

.480

155

155.000

Val. PF Genricos Marketing

.087

1.003

155

155.000

Val. PF Atencin cliente

.013

.951

155

155.000

Val. PF Tnicos por ordenador

.218

1.005

155

155.000

Es una sociedad
Antigedad del
establecimiento (aos)

.467

.502

92

92.000

19.446

27.532

92

92.000

.359

.482

92

92.000

Establecimiento asociado
Nmero empleados

Total

Desv. tp.
.441

.140

Establecimiento asociado

3 Marketing
Sofisticado

Media
.263

2.184

Nmero empleados

2 Marketing
Bsico

N vlido (segn lista)


No
Pondera
ponderados
dos
228
228.000

5.630

9.490

92

92.000

Realiza formacin

.674

.471

92

92.000

Ventas en mostrador

.728

.447

92

92.000

Val. PF Genricos Marketing

.384

.871

92

92.000

Val. PF Atencin cliente

.103

.899

92

92.000

Val. PF Tnicos por ordenador

.019

.952

92

92.000

Es una sociedad
Antigedad del
establecimiento (aos)

.349

.477

475

475.000

19.158

21.072

475

475.000

Establecimiento asociado

.196

.397

475

475.000

3.373

5.389

475

475.000

Realiza formacin

.375

.485

475

475.000

Ventas en mostrador

.764

.425

475

475.000

Val. PF Genricos Marketing

.000

1.000

475

475.000

Val. PF Atencin cliente

.000

1.000

475

475.000

Val. PF Tnicos por ordenador

.000

1.000

475

475.000

Nmero empleados

Pruebas de igualdad de las medias de los grupos


Lambda
de Wilks
.968
1.000

F
7.861
.017

Establecimiento asociado

.958

Nmero empleados

.941

Realiza formacin

2
2

gl2
472
472

Sig.
.000
.983

10.472

472

.000

14.887

472

.000

.861

38.140

472

.000

Ventas en mostrador

.949

12.766

472

.000

Val. PF Genricos Marketing

.947

13.235

472

.000

Val. PF Atencin cliente

.997

.790

472

.455

Val. PF Tnicos por ordenador

.973

6.607

472

.001

Es una sociedad
Antigedad del establecimiento (aos)

gl1

Matrices intra-grupo combinadas

Correlacin
Es una sociedad
Antigedad del
establecimiento (aos)
Establecimiento
asociado
Nmero empleados
Realiza formacin
Ventas en mostrador
Val. PF Genricos
Marketing
Val. PF Atencin cliente
Val. PF Tnicos por
ordenador

Es
socie
dad
1.000

Antige
dad
(aos)
-.088

Estab.
asociado
.286

Nm.
emplea
dos
.319

Realiza
formaci
n
.186

Ventas en
mostrador
-.180

Val. PF
Genricos
Marketing
-.063

Val. PF
Atencin
cliente
-.020

Val. PF
Tnicos
ordenador
.098

-.088

1.000

-.189

.213

.056

.026

-.066

.048

.048

.286

-.189

1.000

.025

.069

-.087

.065

.064

-.019

.319
.186

.213
.056

.025
.069

1.000
.139

.139
1.000

-.175
-.035

-.080
.106

.039
.095

.115
.175

-.180

.026

-.087

-.175

-.035

1.000

.052

.146

-.135

-.063

-.066

.065

-.080

.106

.052

1.000

-.014

-.025

-.020

.048

.064

.039

.095

.146

-.014

1.000

-.005

.098

.048

-.019

.115

.175

-.135

-.025

-.005

1.000

Anlisis 1
Resumen de las funciones cannicas discriminantes
Autovalores
Funcin
1

Autovalor % de varianza
.285a
84.4
.053a

% acumulado
84.4

Correlacin
cannica
.471

100.0

.224

15.6

a. Se han empleado las 2 primeras funciones discriminantes


cannicas en el anlisis.

Lambda de Wilks
Contraste de
las funciones
1 a la 2

Lambda
de Wilks
.739

Chi-cuadrado
141.439

.950

24.090

gl
18

Sig.
.000

.002

Coeficientes estandarizados de las funciones discriminantes


cannicas
Funcin
1
Es una sociedad
Antigedad del establecimiento (aos)
Establecimiento asociado
Nmero empleados
Realiza formacin

.012
-.032

2
-.238
.046

.246
.363

.508
.309

.622

.147

-.240

.690

Val. PF Genricos Marketing

.403

-.043

Val. PF Atencin cliente

.061

-.131

Val. PF Tnicos por ordenador

.037

-.491

Ventas en mostrador

Matriz de estructura
Funcin
1

Realiza formacin
Nmero empleados

.753*
.469*

Val. PF Genricos Marketing

.443*

.043

Es una sociedad

.337*

-.138

.107*

.038

Val. PF Atencin cliente


Ventas en mostrador
Val. PF Tnicos por ordenador

.056
.097

-.324
.204

.676*
-.552*

Establecimiento asociado

.358

.387*

Antigedad del establecimiento (aos)

.004

.036*

Correlaciones intra-grupo combinadas entre las variables


discriminantes y las funciones discriminantes cannicas tipificadas
Variables ordenadas por el tamao de la correlacin con la funcin.
*. Mayor correlacin absoluta entre cada variable y cualquier
funcin discriminante.

Coeficientes de las funciones cannicas discriminantes


Funcin
1
.026
-.002

2
-.507
.002

Establecimiento asociado

.631

1.305

Nmero empleados

.069

.059

Realiza formacin
Ventas en mostrador

1.380
-.578

.327
1.664

Val. PF Genricos Marketing

.413

-.044

Val. PF Atencin cliente

.060

-.131

Val. PF Tnicos por ordenador

.037

-.497

-.412

-1.713

Es una sociedad
Antigedad del establecimiento (aos)

(Constante)
Coeficientes no tipificados

Funciones en los centroides de los grupos


Grado aplicacin de
marketing
1 No Marketing
2 Marketing Bsico
3 Marketing Sofisticado

Funcin
1
-.505
.231

2
9.837E-02
-.314

.861

.285

Funciones discriminantes cannicas no tipificadas


evaluadas en las medias de los grupos

Estadsticos de clasificacin

Resumen del proceso de clasificacin


Procesados
Excluidos

475
Cdigo de grupo perdido
o fuera de rango
Perdida al menos una
variable discriminante

Usados en los resultados

0
0
475

Probabilidades previas para los grupos

Grado aplicacin de
marketing
1 No Marketing
2 Marketing Bsico

Previas
.333
.333

3 Marketing Sofisticado
Total

Casos utilizados en el
anlisis
No
ponderados
Ponderados
228
228.000
155
155.000

.333
1.000

92
475

92.000
475.000

11.1.2.1 MAPA TERRITORIAL

En la pgina siguiente se indica el mapa territorial correspondiente.


Smbolos usados en el mapa territorial
Smbolo Grupo Etiqueta
------ ----- -------------------1

No Marketing

Marketing Bsico

Marketing Sofisticado

Indica un centroide de grupo

Mapa territorial
Discriminante cannica
Funcin 2
-3.0

-2.0

-1.0

.0

1.0

2.0

3.0


3.0
13

13

13

13

13

13

2.0

13

13

13

13

13

1.0

13

13

13

133
*

*
12233

.0
12 223

12
233

12 *
223

12
233

12
223

12
233

-1.0

12
2233

12
223

12
233

12
223

12
233

12
2233

-2.0
12

223

12
233

12
223

12
233

12
22

12

-3.0
12

-3.0
-2.0
-1.0
.0
1.0
2.0
3.0
Funcin discriminante cannica 1

Estadsticos por casos


Grupo mayor

Original

Nmero
de casos
1
2

Grupo
real
3
1

Grupo
P(D>d | G=g)
pronos
ticado
p
gl
3
.009
2
2**
.958
2

Puntuaciones
discriminantes

Segundo grupo mayor

P(G=g |
D=d)
.945
.384

Distancia
de
Mahalan
obis al
cuadrado
hasta el
centroide
9.462
.085

Grupo
2
1

P(G=g |
D=d)
.045
.313

Distancia
de
Mahalan
obis al
cuadrado
hasta el
centroide
15.550
.491

Funcin
1
3.221
.185

Funcin
2
2.257
-.026

1**

.304

.559

2.381

.249

4.002

-.613

1.638

.955

.512

.092

.342

.897

-.699

-.134

.833

.622

.366

.267

2.054

-1.095

.230

.776

.602

.507

.305

1.863

-1.132

-.239

.897

.414

.217

.396

.303

-.319

-.329

.976

.503

.048

.341

.826

-.644

-.069

.571

.484

1.120

.382

1.593

-.404

-1.160

10

2**

.630

.488

.923

.363

1.513

-.299

-1.114

11

.537

.727

1.244

.205

3.771

-1.586

.370

12

1**

.764

.504

.538

.265

1.822

-.483

.832

13

.603

.664

1.013

.211

3.302

-1.139

.880

14

.765

.515

.535

.372

1.182

-.828

-.557

15

.766

.645

.534

.244

2.477

-1.148

.445

16

3**

.944

.440

.116

.320

.751

.581

.479

17

.195

.825

3.270

.120

7.127

1.957

1.723

18

.721

.649

.654

.268

2.424

-1.301

-.040

19

.486

.742

1.443

.198

4.081

-1.683

.333

20

.872

.582

.273

.307

1.551

-.993

-.087

**. Caso mal clasificado

Resultados de la
clasificacina

Original

Recuento

Grado aplicacin de
marketing
1 No Marketing
2 Marketing Bsico
3 Marketing Sofisticado
1 No Marketing
2 Marketing Bsico
3 Marketing Sofisticado

Grupo de pertenencia pronosticado


1 No
2 Marketing
3 Marketing
Marketing
Bsico
Sofisticado
153
37
38
50
57
48

Total
228
155

21

15

56

92

67.1
32.3
22.8

16.2
36.8
16.3

16.7
31.0
60.9

100.0
100.0
100.0

a. Clasificados correctamente el 56.0% de los casos agrupados originales.

11.2 BIBLIOGRAFA
Anlisis multivariable para las Ciencias Sociales. Jean-Pierre Lvy mangin. Jesa
Valera Mallou. Prentice Hall 2003
Malhotra Investigacin de Mercados. Un enfoque prctico. PrenticeHall 1996

SEGMENTACIN

12. SEGMENTACIN.
12.1 CONCEPTO.
La segmentacin de mercado consiste en la agregacin de consumidores en grupos
homogneos, de forma tal que cada uno de ellos puede ser seleccionado como un
segmento objetivo sobre el cual podamos aplicar estrategias de Marketing mix
diferenciadas.
Las caractersticas de los segmentos resultantes deben ser tales que nos posibiliten el
establecimiento y realizacin de una oferta comercial especializada y diferenciada, es
decir orientada a satisfacer necesidades y deseos de los consumidores especficos de
cada segmento.

12.2 REQUISITOS

PARA

QUE

LA

SEGMENTACIN

DE

MERCADO SEA EFICAZ.


Los principales requisitos que hacen que la segmentacin de mercado sea eficaz son:
1. Cada segmento nos debe dar una respuesta diferente a la accin de Marketing mix.
2. Los criterios de segmentacin deben ser identificados y evaluados con facilidad.
3. La obtencin de los diferentes segmentos no implicar la existencia de categoras
mutuamente excluyentes. Esto significa que en ocasiones un mismo individuo puede
pertenecer a varios segmentos de mercado.
4. La segmentacin debe basarse en un adecuado anlisis de costes beneficios.
5. Los segmentos identificados deben representar un potencial de mercado suficiente,
por su tamao y / o por los beneficios que presentan, que sean justificables las
acciones de Marketing a realizar.
6. Los segmentos han de ser alcanzados y servidos con eficacia por la empresa.
7. La empresa tendr que disponer de recursos suficientes (econmicos y humanos),
para poder atender adecuadamente el segmento o segmentos de mercado
seleccionados.
8. Los segmentos debern ser estables a lo largo del tiempo, con el fin de rentabilizar la
estrategia adoptada de Marketing.

9. Sern prioritarios los segmentos que sean compatibles con los que ya acta la
empresa con el fin de evitar canibalizaciones.
10.Se deber involucrar a la empresa a todos los niveles, en la implantacin de la
estrategia

de

segmentacin,

con

el

fin

de

evitar

posibles

conflictos

interdepartamentales.
11.Los consumidores tienen que percibir diferencias entre los productos de lo que cabe
esperar distintas respuestas a las acciones de Marketing mix.
12.Las diferencias en las percepciones de los consumidores deben ser identificadas y
asociadas a los diferentes grupos del pblico objetivo.

12.3 CRITERIOS DE SEGMENTACIN DE MERCADO.


En el mercado de productos de consumo la segmentacin se realiza siguiendo una
serie de criterios que se dividen en: de carcter objetivo y subjetivos. Los criterios
objetivos son aquellos en los que existen parmetros que nos permiten medirlos de
forma inequvoca. Los criterios subjetivos son susceptibles de interpretacin.
Criterios objetivos.
Los mas usuales son:

Geogrficos. Es el mtodo mas sencillo, se basa en la desigualdad zonal


explicando as los diferentes comportamientos que aparecen en diferentes
territorios de cierta extensin, en los que aparecen diferencias climticas,
culturales, econmicas...etc.

Demogrficos. Las diferentes caractersticas fsicas de los consumidores, tales


como, edad ,sexo, estado civil, familia...etc., son la causa de necesidades y
deseos diferentes.

Socioeconmicos. El comportamiento de los consumidores dependera, en este


caso, de su nivel de renta y su estatus, explicando as la clase social.

Criterios subjetivos.
Los ms usuales son:

Por estilo de vida. El estilo de vida define la forma de ser y de comportarse las
personas, viene definido por sus actividades, opiniones e intereses.

Por situacin. Se separan grupos que ante un mismo producto buscan


satisfacciones diferentes en distintas circunstancias o situaciones. (caa de da
copa de noche).

Basados en ventajas buscadas. se basa en que, los consumidores encuentran en


el producto ventajas diferentes y los consumen precisamente por ello.

Psicogrfica. Integra dos grupos de criterios: estilo de vida y personalidad. La


basada en la personalidad se aprecia en el mercado cuando las empresas dotan a
sus productos de personalidad de marca que se corresponde con la personalidad
de los consumidores.

Segmentacin por comportamiento.


Segmentacin en funcin de comportamientos especficos de compra y uso del
producto. Los ms utilizados son:

El uso. El consumo no esta uniformemente repartido, unos usuarios consumen


ms que otros.

El usuario. Se hace una clasificacin considerando los usuarios regulares, los no


usuarios, los usuarios potenciales, los irregulares, los primerizos. Cada grupo
recibir un tratamiento especfico.

El grado de fidelidad. Se recompensa la fidelidad. Criterios de


segmentacin utilizados en mercados industriales.
En el mercado industrial la segmentacin puede realizarse desde dos enfoques: basarse
en las necesidades y deseos de los clientes y que el vendedor lo satisfaga, o bien partir
de las caractersticas del vendedor y segmentar el mercado de la forma ms accesible y
rentable. El mejor mtodo ser el que optimice el comportamiento de compra del cliente
con los costes del vendedor.
Normalmente en el mercado industrial se identifican criterios de segmentacin, que se
jerarquizan de la siguiente manera:

1- Factores demogrficos. Naturaleza de la empresa (pblica o privada). Sector


al que pertenece. Tamao (ventas, plantilla, capital). Localizacin.

2- Variables operativas. Tecnologa de los procesos productivos. Tecnologa del


producto, Ventajas competitivas. Productos complementarios. Productos
substitutivos.

3- Enfoques de compra. Organizacin de compras. Estructura de poder entre las


diferentes personas que intervienen en el proceso de compra. Relaciones
existentes (fidelidad). Poltica de compras. Criterios de compra.

4- Factores de situacin. Urgencia de la necesidad. Tamao del pedido.


Aplicaciones del producto. Beneficios de pedidos concretos.

5- Caractersticas personales del decisor. Similitud de actitudes y caractersticas


entre comprador y vendedor. Motivaciones del decisor. Percepcin por parte del
comprador de la empresa del vendedor. Actitud al riesgo por parte del
comprador.

Valoracin de los segmentos.


Una vez detectados diferentes segmentos en el mercado, la empresa tiene tres posibles
alternativas: Ignorarlos, centrarse en alguno o algunos de ellos y adaptarse a ellos. La
posible alternativa depende entre otros de los siguientes factores:

Intensidad de la competencia. A la empresa le interesar actuar donde la


competencia sea nula o mnima. Cuanto menor sea la probabilidad de entrada de
competidores ms atractivo resultar para la empresa ese segmento.

Aparicin de productos substitutivos en un determinado segmento.

El poder de negociacin de los diversos agentes que intervienen en el proceso de


la compra venta.

12.4 ETAPAS

DE UN ESTUDIO DE SEGMENTACIN

DE

MERCADOS.
Siguiendo a P. Kotler podemos diferenciar tres etapas:

La primera es el arte de dividir un mercado en grupos de consumidores que


puedan requerir estrategias de Marketing diferenciadas, constituye lo que se
denomina el proceso de segmentacin.

La segunda etapa consiste en definir el mercado objetivo.

La tercera etapa consiste en fijar el posicionamiento, esto es establecer la


posicin competitiva de la empresa y de su oferta en funcin del
objetivo.

pblico

Lo podemos resumir en el siguiente esquema.


Proceso

Definicin del mercado


objetivo

Posicionamiento del producto

Posibles
bases
segmentacin.

de Valorar el atractivo de cada 1- Identificar conceptos de


segmento.
posicionamiento y alternativas
de
diferenciacin
en los
segmentos objetivos.
Identificar variables de Seleccionar los segmentos - Seleccionar, desarrollar y
segmentacin
objetivos..
comunicar el concepto de
relevantes
para
el
posicionamiento escogido
estudio.
Recoger
informacin Estrategias de cobertura del
sobre
variables
de mercado
segmentacin
Derivar
segmentos
mediante tcnicas de
segmentacin
y
tipologa.
Describir perfil de los
segmentos.
Para llevar a cabo el proceso de segmentacin, en principio se recaba y ordena toda la
informacin existente y disponible en el mercado en relacin a una serie de variables
consideradas relevantes. Dichas variables emanan de las bases de segmentacin.
En gran nmero de casos no se conocen a priori todas las caractersticas importantes
para orientar la segmentacin, para esta circunstancia se realiza una investigacin
cualitativa de enfoque para as seleccionar las variables que nos permitirn segmentar el
mercado.
Ante la carencia de informacin lo que se hace es emplear tcnicas de investigacin
comercial como la observacin o la encuesta. Esta ltima tcnica es la ms utilizada, se
define el universo, la muestra, el procedimiento de muestreo, el cuestionario y se realiza
el correspondiente trabajo de campo. La informacin obtenida se analiza aplicando
tcnicas de segmentacin y tipologa para de esta manera obtener grupos de pblico
objetivo con caractersticas homogneas.
Las bases de segmentacin parten de los criterios antes indicados. No existe una forma
idnea para segmentar el mercado. Existen criterios generales y especficos, unidos a los
objetivos y subjetivos, esta situacin la podemos resumir en el siguiente esquema:

CRITERIOS OBJETIVOS
Criterios generales.

Criterios especficos.

Geogrficos.

Estatus.

Demogrficos.

Uso y situaciones

Socioeconmicos.

Fidelidad.

Sus combinaciones.

Intencin de compra.

CRITERIOS SUBJETIVOS
Criterios generales.

Criterios Especficos.

Psicogrficos.

Beneficio buscado.

Estilo de vida.

Comportamiento

Clase social.

Marketing mix.

Personalidad.

Percepciones, preferencias y actitudes.

12.5 TCNICAS

PARA

CLASIFICAR

UN

las

acciones

MERCADO

de

EN

SEGMENTOS.
Una vez definidas que variables de segmentacin son adecuadas para realizar una
segmentacin de mercado, es preciso acudir a procedimientos estadsticos, que
partiendo de la informacin obtenida sobre las bases de segmentacin, permitan dividir
el mercado en segmentos. Los tipos mas usuales son:
Tcnicas de segmentacin. En estas tcnicas el investigador selecciona una variable o
criterio de segmentacin a explicar, antes de realizar el anlisis. Posteriormente, se
consideran por parte del investigador diversas variables explicativas, tratando de
estudiar de que forma se relacionan con la variable a explicar. Se denominan diseos de
segmentacin a priori.
Tcnicas de tipologa. En este tipo de tcnicas los consumidores se agrupan de acuerdo
a la similitud de sus perfiles multivariables (actitudes, estilo de vida...), sin hacer
distincin entre variables descriptivas y variables a explicar. Se desconoce a priori el
nmero de segmentos. Se denominan diseos de segmentacin post-hoc.

13. TCNICAS DE SEGMENTACIN.


Se suelen clasificar en tres grandes grupos:

Mtodos clsicos.

Mtodos basados en la teora de la informacin

Otras tcnicas de segmentacin.

13.1 MTODOS CLSICOS.


Los mtodos clsicos desarrollan un proceso de divisin del mercado conformando una
estructura arborescente que finaliza con una norma estadstica predeterminada, el
criterio para medir la intensidad de la relacin entre la variable a explicar y las variables
explicativas es el mismo en todas las etapas del proceso. Seguidamente vamos a sealar
los fundamentos de los mtodos ms usuales.
13.1.1 MTODO BELSON.
Trata de estimar el poder discriminante de diferentes variables explicativas sobre la
variable a explicar. El procedimiento es como sigue:
- Se convierten las diversas variables explicativas y la variable a explicar en
dicotmicas.
Si tienen ms de dos categoras se sigue el siguiente criterio: Para cada variable
explicativa los individuos se agrupan de tal forma que los que dispongan de una
proporcin de la variable a explicar inferior a la de toda la muestra pertenezcan a una
categora, agrupando en otra a todos aquellos con una proporcin superior a la de la
muestra.
- Analizar, con una cualquiera de las categoras de cada variable explicativa, su
relacin con la variable a explicar mediante la siguiente formula:
C = NC ki
NC

ki

P x N ki

donde k = 1, 2.

Representa el nmero de personas que consumen el producto, (variable a

explicar), y que pertenecen a la categora k de la variable explicativa i.


P Es el porcentaje de personas que consumen el producto para toda la muestra.
N ki Es el nmero de personas que pertenecen a la categora k de la variable explicativa
y. Con independencia de que sean o no consumidores del producto).

- Tomar aquella variable explicativa (la subdivisin en categoras que la representa)


que manifiesta tener una relacin ms fuerte con la variable a explicar, mayor valor
absoluto de C.
La muestra se desglosa en dos segmentos correspondientes a la variable de mayor
relacin y sus subdivisiones.
- A cada uno de los segmentos resultantes se aplica independientemente el mtodo de
segmentacin descrito considerando tan solo las restantes variables explicativas.
Seguidamente vamos a realizar un caso practico, en el que aplicaremos los mtodos de
Belson y el de anlisis de la varianza, ms adelante.
EJEMPLO.

Una empresa desarrolla su actividad comercial en Aragn, comercializando cuatro


marcas de productos (A, B, C y D ), en tres tipos diferenciados de establecimientos,
tiendas tradicionales, hipermercados y supermercados. Con la finalidad de establecer
una adecuada segmentacin, se realiza un estudio de mercado sobre una muestra de
4.000 hogares, que en el ltimo trimestre han consumido alguna marca de los diferentes
tipos de productos.
Se obtiene informacin acerca de la marca comprada y el tipo de tienda donde efectu
la compra. Se saca el siguiente resumen de datos.

DATOS DEL CASO PRCTICO.


Tipo de producto.

Compradores marca

Total compradores.

A.

582.

2.044.

B.

204.

718.

C.

184.

646.

D.

30.

592.

TOTAL:

1.000.

4.000.

Tipo de tienda.
Tradicional. (T).

100.

450.

Hipar. (H).

575.

2.500.

Supermercado. (S).

325.

1.050.

TOTAL.

1.000.

4.000.

Mtodo BELSON. Criterio: Realizar la dicotoma de las variables agrupando por un


lado las variables que tengan un porcentaje superior a la media y por otra parte los que
sea su porcentaje inferior a la media.
Variables.

Porcentaje de consumidores.

Productos:
A.

2847 %.

B.

2841 %.

C.

2848 %.

D.
Establecimiento.
T.

506 %.
2222 %.

H.

2300 %.

S.
Media total.

3095 %.
25%.

Las agrupaciones que obtenemos de conformidad con el criterio son:


Superior a la media y para la variable producto. A+ B+ C. Inferior a la media D.

Para la variable tienda o establecimiento donde se efectan las compras, la


correspondiente agrupacin es:
Superior a la media: S. Inferior a la media; T + H.
Los resultados de esta segmentacin los podemos resumir en el siguiente cuadro:
AGRUPACIONES.

COMPRAN MARCA.

TOTAL COMPRAN.

970.

3.408.

30.

592.

Producto.
A + B + C.
D.
Tienda.
S.

325.

1050.

T + H.

675.

2.950.

Aplicando la ecuacin antes descrita obtendremos los siguientes valores.


C = NC ki

P x N ki .

Producto.
C = 970

025 x 3408 = 118.

Tiendas.
C = 325

025 x 1050 = 625.

13.1.2 MTODO DE ANLISIS DE LA VARIANZA.


Trata de encontrar la mejor divisin dicotmica cuando las variables explicativas tienen
ms de dos categoras. Selecciona la mejor dicotoma no la mejor variable explicativa
de cada rama de la estructura arborescente.
La expresin matemtica para estimar el poder discriminante es:

N N(P P )
a
b
a
b
D
n

Donde: n es el tamao total de la muestra.


N a y b es la dicotomizacin de las categoras de cada variable explicativa
en dos grupos a y b.
P a y b es el porcentaje de consumidores de las categoras a y b de la
variable explicativa objeto de estudio.

Vamos seguidamente a desarrollar el ejemplo visto con anterioridad aplicando el


mtodo de anlisis de la varianza.
DATOS DEL CASO PRCTICO.
Tipo de producto.

Compradores marca

Total compradores.

A.

582.

2.044.

B.

204.

718.

C.

184.

646.

D.

30.

592.

TOTAL:

1.000.

4.000.

Tipo de tienda.
Tradicional. (T).

100.

450.

Hipar. (H).

575.

2.500.

Supermercado. (S).

325.

1.050.

TOTAL.

1.000.

4.000.

Anlisis Multivariante
Los resultados los resumimos en el cuadro siguiente:
ANLISIS DE LA VARIANZA:
Grupo.

Total com.

Co marca.

%Co marc

A+B

2.762.

786.

2846

C+D.

1.238.

214.

1728.

A+C

2.690.

766.

2848.

B+D

1.310.

234.

1783.

A+D

2.636.

612.

2322.

B+C

1.364.

388.

2844.

2.044.

582.

2847.

B+C+D

1.956.

418.

2137.

718.

204.

2841.

A+C+D.

3.282.

796.

2425.

646.

184.

2848.

A+B+D.

3.354.

816.

2433.

592.

30.

507.

A+B+C.

3.408.

970.

2846.
2

** D = 2.690 x 1.310 ( 02848 - 01783 ) / 4.000 = 998.


Del mismo modo procederamos para la variable tiendas.

178

D discrim.
1068.
998.**
244.
504.
102
097.
2759.

Anlisis Multivariante

13.1.3 MTODO DE CHI CUADRADO.


Este procedimiento trata de comparar la distribucin efectiva de consumidores, en las
diferentes categoras de cada variable explicativa; con la que correspondera si se
distribuyera segn el porcentaje promedio para toda la muestra. Se selecciona la mejor
dicotoma de cada variable explicativa de acuerdo con el

criterio

discriminante

expresado por la siguiente frmula:

SC

(NCO i NCTi )

NCTi

Donde:
NCOi

es el nmero de personas que consumen el producto en la

categora dicotmica i de cada variable explicativa.


NCTi

es el nmero de consumidores tericos para

la categora

dicotmica i de cada variable explicativa. Su clculo es como sigue: se multiplica el


tamao de la muestra en cada categora por el porcentaje medio de consumidores para
toda la muestra.
13.1.4 MODELOS DE CANGUILHEM.
Se basa en dos posibles soluciones para segmentar el mercado:
Descripcin por categoras ponderadas de variables no agregadas.
Descripcin por segmentos ponderados de variables agregadas.
En el primer caso el mtodo a seguir es:
Se calculan los ndices de penetracin para las categoras de cada una de las variables
explicativas de acuerdo con la siguiente frmula:
IP kj = MP kj S kj
Donde:
IP

kj

es el ndice de penetracin o proporcin de consumidores en

la

categora k de la variable explicativa j respecto del pblico objetivo.


MP

kj

es el nmero de personas que consumen ( variable a explicar ) el

producto y que pertenecen a la categora k de la variable explicativa j.

kj

Es

el nmero de personas del pblico objetivo que pertenecen a la categora k de la


variable explicativa j.

170

2.Para cada categora de las variables explicativas se toma el ndice de penetracin mximo
y se pondera con un valor igual a uno (1). Las ponderaciones de las restantes categoras
de una variable se obtienen dividiendo su ndice de ponderacin por el de valor mximo.
3.La variable que ms discrimina es la que presenta mayor disparidad (recorrido o varianza)
entre las ponderaciones de sus categoras.
Mtodo de segmentos ponderados de variables agregadas
Todos los procedimientos descritos con anterioridad consideran las variables
explicativas de forma independiente. Este procedimiento que ahora vamos a desarrollar
trata de evitar este inconveniente.
Es vlido cuando se trata de encontrar un segmento optimo, resultante de la agrupacin
o cruce de diversas variables explicativas. Se tratara de obtener el segmento que mejor
discrimine el comportamiento de los consumidores.
Se estima para cada segmento o agrupacin, un ndice de penetracin y un ndice de
cobertura, el valor de la discriminancia a maximizar viene dado por la siguiente
frmula:

D
Donde

1
2

(S M ) 2 1
(S IP) 2
1 (U P) (1 IP) 2 (1 IC) 2
2
IC = M / P es el ndice de cobertura o proporcin de los consumidores de

un determinado segmento o agrupacin respecto del total de consumidores.


M es el nmero de personas que consumen (variable a explicar ) el
producto y que pertenecen a un segmento o agrupacin.
P es el total de consumidores.
IP = M / S Es el ndice de penetracin o proporcin de consumidores de
un determinado segmento o agrupacin respecto al pblico objetivo.
S es el nmero de personas del pblico objetivo que pertenecen a cada
segmento o agrupacin de consumidores.
U es el total de personas del pblico objetivo.

13.2 AUTOMATIC INTERACTION DETECTION (AID)


El AID (Deteccin automtica de interacciones) es una tcnica de anlisis estadstico
que estudia la relacin de una variable dependiente o criterio y mltiples predictivas o
independientes, detectando el efecto y las interacciones existentes en las variables
explicativas (X).
El AID no proporciona una funcin que determine la relacin existente entre la variable
dependiente (Y) y las independientes.
Las variables explicativas son de tipo cualitativo, es decir, estn medidas en escalas
nominal u ordinal, mientras que la variable dependiente debe estar en escala mtrica o
bien ser dicotmica (1,0), con dos frecuencias muy similares.
El AID procede de forma secuencial, mediante anlisis de la varianza, realizando
divisiones dicotmicas de la variable dependiente o a explicar.
Se parte del total de la muestra y se divide en dos, en funcin de la variable que mejor
explica las diferencias en el comportamiento objeto de estudio. Seguidamente cada
grupo obtenido se vuelve a subdividir de conformidad con el criterio de la variable que
mejor define las diferencias. Este proceso continua hasta alcanzar el nivel (tamao) de
grupo mnimo que fijamos con anterioridad o bien las diferencias entre los valores
medios de los grupos no son significativas.
La tcnica AID realiza un anlisis secuencial de la varianza, con el fin de obtener en
cada etapa la variable explicativa y dentro de ella la particin entre categoras de la
misma que de una parte maximiza la varianza intergrupos y minimiza la intragrupos.
Las particiones de las variables independientes dependen de si se las considere
Variables libres es decir, utiliza todas las combinaciones dicotmicas posibles entre las
categoras, permite incluir en cada grupo diversas categoras no secuenciales. Por
ejemplo en un mismo segmento pueden estas personas con ingreso inferiores a 1000
euros con de 1500 a 2000 y de 5000 a 10000 euros.
Variables montonas, la particin solo es posible en sentido ascendente o descendente.
Por ejemplo menos de 5.000 euros, ms de 5.000 euros.
Como el AID no proporciona una funcin, esta tcnica puede utilizarse conjuntamente
con otras tcnicas multivariantes para completar el anlisis. Con el AID se aslan en
primer lugar las variables y categoras que mejor explican en mayor medida la varianza

de la variable criterio (Y), seguidamente se puede aplicar un anlisis de regresin para


estimar los parmetros de las variables seleccionadas por el AID con el fin de poder
realizar predicciones.
13.2.1 VENTAJAS E INCONVENIENTES
La tcnica AID nos permite:
Conocer las variables independientes que mejor explican la independiente
Determinar el poder diferenciador de tales variables explicativas, ya que se conoce la
varianza que explica
Identificar segmentos y sus caractersticas
Conocer la media de la variable criterio para cada segmento
Fcil comprensin ya que los resultados se representan normalmente en forma
arbolescente
Por el contrario la tcnica AID presenta las siguientes limitaciones
Es necesario disponer de muestras grandes (1000 ms
unidades) Se necesita el que existan varios predictores
La primera variable elegida condiciona las sucesivas particiones

14. CHI-SQUARED

AUTOMATIC

INTERACTION

DETECTION (CHAID)
14.1 CONCEPTO
Esta tcnica estadstica estudia la relacin entre una variable criterio (Y) que puede ser
tanto cualitativa como mtrica y mltiples variables cualitativas
Este modelo es muy similar al AID, pero a diferencia de este que las particiones son
dicotmicas, en el CHAID no tienen por que ser dicotmicas. El criterio de particin de
las variables segn las categoras de las mismas se basa en la maximizacin de la ji
cuadrado de Bonferroni.
8

Segn Magidson (1994) presenta las siguientes mejoras respecto al AID

Magidson (1994) Cita en Tcnicas de anlisis de datos en investigacin de mercados. Teodoro Luque
Martinez y otros Ed. Pirmide 2000

Une aquellas categoras de un predictor ms homogneas con respecto a la variable


dependiente, pero mantiene todas las categoras que sean heterogneas. En suma,
combina categoras que no difieran mucho entre ellas.
Como varias categoras pueden diferir estadsticamente, el resultado del proceso de
CHAID no necesariamente ser una divisin dicotmica.
Para dividir un grupo solamente se eligirn variables que sean estadsticamente
significativas.
Utiliza el test de independencia de la ji cuadrado de Bonferroni.
CHAID compara el valor p asociado con el test de independencia de la variable
dicotmica con el valor p ajustado de Bonferroni para la variable con varias categoras.
La mejor variable predictora ser la que presente menor p ajustado.
CHAID considere tres tipos de variables
Variables libres es decir, utiliza todas las combinaciones dicotmicas posibles entre las
categoras, permite incluir en cada grupo diversas categoras no secuenciales.
Por ejemplo en un mismo segmento pueden estas personas con ingreso inferiores a 1000
euros con de 1500 a 2000 y de 5000 a 10000 euros.
Variables montonas, la particin solo es posible en sentido ascendente o descendente.
Por ejemplo menos de 5.000 euros, ms de 5.000 euros.
Variable Flotante es similar a la montona, salvo en la ltima categora (suele ser
Otros) que puede ser unida a cualquier otra categora. Esto no sirve si la variable es
dicotmica.
14.1.1 PROCESO
El proceso lo podemos resumir como sigue

En primer lugar se determinan la variable a explicar y las predictoras o


independientes

Se desarrollan las tabulaciones cruzadas entre las variables independientes (X) y


la dependiente (Y)

Se determina las ? para cada tabla formada por cada par de categoras capaces
de unirse y la variable dependiente

Entre los pares que resultan estadsticamente no significativos se unen en una


sola categora

Entre los pares significativos la unin se realiza para las categoras ms


parecidas, es decir las que tengan menor Chi cuadrado, y con pocas
observaciones

Se obtiene la p, la variable predictora que tenga menor valor es la que se usa


para dividir

Si p no es significativo no se procede a la divisin

Este proceso se repite hasta la obtencin de todos los grupos, o bien hasta
alcanzar la dimensin de grupo mnimo.

El resultado es un rbol, las tablas cruzadas para cada nivel de segmentacin y


las tablas de ganancia

14.1.2 UTILIDAD
La informacin obtenida nos permite:

Identificar segmentos y sus caractersticas

La secuencia de particiones y las variables independientes o predictoras que


intervienen

Agrupaciones entre variables o entre categoras

Informacin acerca de las interacciones entre las variables

14.1.3 VENTAJAS E INCONVENIENTES


Entre las ventajas podemos destacar:

Podemos tratar variables medidas en escala nominal

La particin no tiene por que ser dicotmica

Elimina o corrige el sesgo de que las variables con muchas categoras sean
seleccionadas para la particin, solamente por esta razn

Puede intervenir el investigador introduciendo variables predictoras, aunque no


sean las ms significativas.

Como inconvenientes son de destacar los


siguientes: La respuesta obtenida no tiene por que
ser la optima
Hay que tener en cuenta las restricciones dela prueba de Chi cuadrado (meno de 5
observaciones en el 20% de las celdas)
Se necesitan muestras amplias, (ms de 1000 unidades)

15. EJEMPLO LOS PROGRAMAS DE FORMACIN EN


MARKETING EN EL COMERCIO
9

M. TERESA OBIS ARTAL


JOSEP RIALP CRIADO1
EDUARDO M. JIMNEZ MARQUS
10
Universidad Autnoma de Barcelona

15.1 RESUMEN
A lo largo de este trabajo se analiza la actitud hacia la formacin en marketing por
parte del sector comercio. A partir de una encuesta personal realizada por IMSO, S.L.
a 818 comercios de Zaragoza, ciudad que consideramos representativa, y tras la
aplicacin de diferentes tcnicas de investigacin tanto de reduccin de dimensiones
(anlisis factorial de componentes principales y de correspondencias) como de
segmentacin (anlisis CHAID y AID) se caracterizan los comercios segn que realicen
o no formacin y segn la valoracin que realizan a diferentes programas de formacin
en marketing (genricos, de atencin al cliente y tcnicos con ordenador). Se concluye
que la realizacin de formacin depende, bsicamente, del nmero de trabajadores y de
la utilizacin de herramientas de marketing. En cuanto a los diferentes programas de
formacin, son estas variables junto con la antigedad del establecimiento y los
artculos que comercializa, las que proporcionan una valoracin estadsticamente
diferente de los mismos.
Palabras clave: Comercio, Formacin, Componentes principales, A. Correspondencias, AID, CHAID
Keywords: Trade, Formation, Principal Components Analysis, Correspondence Analyisis, AID, CHAID.

15.2 INTRODUCCIN
Segn la Encuesta de Comercio Interior del ao 1992, publicada en 1996, el sector
comercio en Espaa est constituido por un total de 642.780 empresas. Su relevancia en
9

Los autores agradecen la financiacin recibida de la DGES, proyecto PB95-0616 (T.Obis) y DGICYT,
proyecto PB94-0708 (J.Rialp).
10
Departamento de Economa de la Empresa. Facultad de Ciencias Econmicas y Empresariales.
Universidad Autnoma de Barcelona. Edificio B. Campus de Bellaterra. 08193 (Barcelona).
Tel.: 93 - 581 12 09. Fax: 93 - 581 25 55. E-mail: teresa.obis@uab.es / josep.rialp@uab.es

la economa queda de manifiesto si se considera que este sector ocupa a ms de 2


millones de trabajadores, lo que representa aproximadamente un 17% del empleo del
pas. Sin embargo, y como seala Kotler (1992, p. 596), nicamente algunos de los
establecimientos que estn bien situados, tengan una adecuada gestin, presten un
ptimo servicio a sus clientes y hayan adoptado prcticas modernas de marketing y
gestin, sobrevivirn.
Centrndonos en el ltimo de los aspectos enumerados por Kotler, en un estudio
elaborado por Obis et. al. (1997) se pone de manifiesto que el comercio minorista, en
general, no utiliza de forma extensiva las herramientas de marketing. Por tanto, algunas
empresas de este sector se obstaculizan su supervivencia. Estos resultados se encuentran
en la lnea de los obtenidos por Rodrguez del Bosque et al. (1997). En su trabajo se
puede observar, por ejemplo, como el pequeo comercio autnomo tiene objetivos ms
conservadores en la marcha de su negocio que las empresas que recurren a estructuras
jurdicas ms complejas, como sociedades limitadas o annimas. Asimismo, tambin se
detecta que la edad de los comerciantes influye en los objetivos perseguidos.
El inters que se origina llegados a este punto sera responder por qu los
establecimientos comerciales no utilizan herramientas de marketing si stas favorecen
su subsistencia. En nuestra opinin, la respuesta a esta pregunta podra ir por dos
direcciones: se podra pensar, por un lado, que estas herramientas realmente no se
necesitan en los establecimientos comerciales y, por otro, que los establecimientos
comerciales desconocen tanto la existencia como la forma de emplear estas
herramientas.
La primera de las causas sealadas no parece justificar el escaso empleo de estas
herramientas pues en un entorno turbulento, donde el nmero de competidores aumenta,
los consumidores estn mejor informados y el ciclo de vida de los productos cada vez es
ms corto (Santesmases, 1992), el conocimiento y la aplicacin de diversas tcnicas de
marketing pueden proporcionar una mejor satisfaccin de las necesidades del
consumidor, lo que a su vez favorece la subsistencia del comercio. En consecuencia, el
desconocimiento tanto de las herramientas como de su uso sera lo que explicara el
escaso empleo de las herramientas de marketing.

15.3 OBJETIVOS DEL TRABAJO E HIPTESIS


Dada la situacin de desconocimiento planteada en la introduccin de este trabajo, nos
parece interesante profundizar en los programas de formacin en marketing que realizan
los comercios detallistas. En la literatura especializada, los programas de formacin, de
forma general, se consideran que favorecen la subsistencia de las empresas (Davies y
Ingram, 1996; Weeks y Stevens, 1997). Por ello, con este trabajo pretendemos
establecer cul es el seguimiento de los programas de formacin por parte de los
establecimientos de comercio. Es ms, en caso de que los establecimientos de comercio
no sigan ningn programa de formacin, trataremos de determinar las causas ya que tal
vez el no seguimiento se produce porque estos programas no encajan con las
necesidades de los comercios. Los resultados del trabajo de Hogarth-Scott y Jones
(1993), por ejemplo, establecen que las pequeas empresas en West Yorkshire sienten
que el nivel de soporte no es adecuado y que no existen cursos de formacin que
encajen con las necesidades de las pequeas empresas.
Adems, en este trabajo se intenta determinar qu establecimientos siguen planes de
formacin, qu caractersticas presentan y, por ltimo, se trata de identificar aquellos
comercios que pueden estar ms interesados en seguir un plan de formacin de
naturaleza ms genrico o uno ms especifico, por ejemplo, un programa de formacin
centrado en la relacin con el cliente o con instrumentos tcnicos de soporte a la
gestin. De hecho, en la literatura hay diferentes trabajos que, con distintos fines, han
pretendido clasificar a los establecimientos comerciales (Weiers, 1986; Rebollo, 1993;
Sainz de Vicua, 1996; Sarabia y Ruiz de Maya, 1996).
En el trabajo mencionado anteriormente de Obis et al. (1997) se establece que los que
cuentan con ms de 6 empleados; los establecimientos en forma de sociedades o
asociados; los comercios dirigidos por personal contratado; los establecimientos de
confeccin, moda y textil; los que inician la actividad entre 1991 y 1996; los que
presentan una superficie de la sala de ventas superior a los 150 m2; los que cuentan con
una direccin con una edad que oscila entre 26 y 45 aos y los que el porcentaje de
clientes de la zona de influencia no supera el 50%, son los establecimientos que
emplean y/o utilizan ms herramientas de marketing. En la lnea de este resultado
nuestra primera hiptesis establece que van a ser los establecimientos que ms utilizan

las herramientas de marketing los que ms van a seguir cursos de formacin. De hecho,
no podemos establecer cul es la causa y cul el efecto, pero lo cierto es que cuanta ms
formacin ms marketing (o viceversa).
De igual forma, se puede suponer que algunas de estas caractersticas de los
establecimientos van a estar relacionadas con la preferencia por un determinado
programa de formacin. Adems, la realizacin de programas de formacin y el grado
de utilizacin de las herramientas de marketing tambin pueden afectar la valoracin a
un determinado programa de formacin.
En resumen, las hiptesis a contrastar en nuestro trabajo son dos:
H1: Los establecimientos que realizan ms formacin son los que emplean ms
herramientas de marketing.
H2: La valoracin a los distintos programas de formacin en marketing viene
determinada por la actitud hacia la formacin, el grado de utilizacin del
marketing y algunas otras caractersticas del establecimiento comercial.

15.4 METODOLOGA: VARIABLES Y TCNICAS A UTILIZAR


Para la consecucin de los objetivos previamente sealados, hemos utilizado diferentes
11

tcnicas de investigacin sobre los datos obtenidos con una encuesta estructurada ,
recogida mediante entrevista personal, a una muestra estadsticamente representativa del
12

sector comercio detallista en Zaragoza .


En el siguiente cuadro se presenta la ficha tcnica de la encuesta realizada:

11

Queremos agradecer a IMSO, S.L. la cesin de la encuesta y los datos que nos han permitido la
realizacin del trabajo.
12

Dado que Zaragoza en diferentes estudios de mercado se ha considerado ciudad piloto, por tanto
representativa del resto de ciudades del estado espaol, los resultados obtenidos con esta muestra se
suponen representativos del comercio en todo el territorio nacional. El hecho de que otros autores (p.e.
Rodrguez del Bosque et al. 1997) lleguen a conclusiones similares en otros estudios nos confirma este
supuesto.

Cuadro 1.
Ficha tcnica de la encuesta.

Caractersticas

Encuesta

Universo

Empresas seccin G, divisiones 50, 51 y 52


CNAE93

13

mbito geogrfico

Ciudad de Zaragoza

Unidad muestral

Empresa comercial: establecimientos

Mtodo de recogida de informacin

Encuesta personal estructurada

Tamao de la muestra

818 encuestas vlidas

Nivel de confianza

95,5%, p = q = 0,5

Error muestral

3,3%

Procedimiento de muestreo

Sistemtico: coeficiente de elevacin 17

Fecha trabajo de campo

Octubre de 1995 a Abril de 1996

Fuente: elaboracin propia

De la encuesta, hemos seleccionado aquellas variables que se van a utilizar en esta


investigacin. Estas pueden clasificarse en tres grupos: variables caracterizadoras de los
establecimientos encuestados, variables de utilizacin de herramientas de marketing y,
por ltimo, variables referidas a la valoracin de los programas de formacin
continuada relacionados con marketing.
Las variables de los primeros dos grupos son de naturaleza cualitativa, mientras que
entre las variables del tercer grupo encontramos dos de naturaleza cualitativa (P17 y
P17B) y el resto, valoraciones a los programas de formacin, que son de naturaleza
cuantitativa. En el Cuadro 2 se describen las variables de naturaleza cualitativa
(incluyendo los porcentajes que representan cada categora) y en el cuadro 3 las
variables cuantitativas (incluyendo su media y su desviacin tpica).

13

Quedan excluidas de esta encuesta las actividades comerciales comprendidas en la divisin 526 de la
CNAE93, que corresponden al comercio al por menor no realizado en establecimientos.

15.5 TCNICAS A UTILIZAR


15.5.1 TCNICAS DE REDUCCIN DE VARIABLES
Como se puede observar, hay un nmero considerable de variables que reflejan tanto
utilizacin de herramientas de marketing como valoraciones a programas de formacin.
Para sintetizar la informacin contenida en ambos colectivos se han utilizado dos
tcnicas descriptivas que si bien tienen el mismo objetivo requieren variables

de

diferente naturaleza. En concreto, las tcnicas que se han utilizado han sido:

un anlisis factorial de componentes principales para resumir la informacin


contenida en las variables cuantitativas.

un anlisis factorial de correspondencias mltiple para resumir la informacin


contenida en las variables cualitativas.

15.5.1.1 ANLISIS FACTORIAL DE COMPONENTES PRINCIPALES


Dentro del rea de anlisis multivariante que persigue la reduccin de dimensiones el
anlisis factorial es un tcnica estadstica utilizada para identificar un nmero
relativamente pequeo de factores que resumen la informacin compartida por muchas
variables relacionadas. Ya que la matriz de correlaciones entre todos los pares de
variables sirve como el punto del partida del anlisis factorial, la medicin de las
variables debe ser tal que el coeficiente de correlacin sea una medida estadstica
aceptable, por tanto, las variables que se utilizan en este anlisis son variables
cuantitativas o asimilables a cuantitativas. En nuestro caso, las variables que recogen las
valoraciones a los programas de formacin cumplen esta condicin.
El anlisis se efecta expresando cada variable como una combinacin lineal de un
nmero pequeo de factores, los cuales son compartidos por todas las variables, y un
factor nico que es especfico para la variable. Los factores comunes se estiman como
combinacin lineal de las variables originales y para mejorar su interpretacin se puede
proceder a alguna rotacin de la solucin inicial.
15.5.1.2 ANLISIS FACTORIAL DE CORRESPONDENCIAS MLTIPLE
Dentro del rea de anlisis multivariante que persigue la reduccin de dimensiones
tambin se encuentran los procedimientos de escalamiento ptimo, que en cierta forma

suponen una extensin de las tcnicas estadsticas de componentes principales y del


anlisis de correlacin cannica ya que las variables empleadas son de naturaleza
cualitativa. Ms concretamente, el resultado de un anlisis de escalamiento ptimo
incluye un conjunto de puntuaciones ptimas o cuantificaciones de las categoras de las
variables cualitativas que se analizan, tratando de recoger la mayor asociacin posible
entre las mismas. Estas puntuaciones permiten determinar, dentro de una misma
variable, que categoras son similares o diferentes y qu categoras podran agruparse; y
entre variables distintas, que categoras van juntas y cul es la correlacin mxima entre
las variables.

CUADRO 2:
Variables cualitativas utilizadas en este estudio. Porcentajes por categora.
Sobre los establecimientos encuestados (%)
ACT Actividad del establecimiento
1 Alimentacin y bebidas
2 Confeccin, moda y textil
3 Manufacturas
4 Ocio y recreo
5 Servicios y otros
6 NS/NC
P01 Tipo de sociedad
1 Autnomo/Soc. Civil
2 Sociedad/Cooperativa
P02 Tipo de direccin
1 Propietario
2 Persona contratada
P03 Ao comienzo actividad
1 Antes de 1980
2 De 1980 a 1985
3 De 1986 a 1990
4 De 1991 a 1996
P04 Superficie sala ventas
2
1 Hasta 50 m
2 51 100
3 101 150
4 Ms de 150
P05 Tipo de establecimiento
1 Independiente
2 Asociado
P06 Nmero de empleados
1 1
2 2
3 36
4 Ms de 6
P11.D Edad Direccin
1 18-25 aos
2 26-45 aos
3 Ms de 46
4 NS/NC
P36.1 % clientes zona influencia
1 Hasta el 50%
2 Del 50 al 99
3 Todos (100%)
4 NS/NC
P57 Vende productos importados
1 No Importa
2 Si, mayoristas
3 Si, directamente
P75
Tipo de artculo que comercializa
1 Cotidiano
2 Duradero de temporada
3 Duradero especializado
4 Varios tipos

14,2
14,9
8,3
12,3
14,7
35,6
70,8
29,2
85,6
14,4
37,9
18,6
18,7
24,8
67,0
21,4
5,0
6,6
83,5
16,5
38,1
29,1
25,8
7,0
1,6
27,8
21,6
49,0
30,3
24,2
26,9
18,6
38,3
47,3
14,4
24,1
16,0
42,4
17,5

Herramientas de marketing (%)


P37 Dispone de base datos clientes
1 No BDC
2 Si BDC
P38 Ha hecho publicidad en el ltimo ao
1 No Pub
2 Si Pub
P40 Trabaja con alguna agencia
de publicidad
1 No APu
2 Si APu
P39 Principal medio publicitario
1 T.V.
2 Radio
3 Prensa
4 Buzoneo
5 Otros
P41 Hace alguna promocin
1 No Pro
2 Si Pro
P43 Aplica tcnicas Merchandising
1 No Merchandising
2 No s que es
3 Si Merchandising
P44 Contrata escaparatistas profesionales
1 No Esc
2 Si Esc
P48 Realiz un estudio de
mercado antes de abrir
1 No EMe
2 Si EMe
P53 Acude a ferias y certmenes
1 No FyC
2 Si FyC
Variables de formacin
P17 Ha realizado formacin en
los 2 ltimos aos
1 Si hacemos formacin
2 No, no tenemos necesidad
3 No, no existen programas
4 No, por falta de tiempo
5 No, por otros motivos
NS/NC
P17B Ha realizado formacin en
los 2 ltimos aos (binaria)
1 Si Formacin
2 No Formacin
Nm. de casos vlidos

Fuente: Elaboracin propia a partir de los datos suministrados por IMSO, S.L.

58,9
41,1
49,1
50,9
80,9
19,1
5,0
25,1
29,6
25,4
14,9
52,7
47,3
39,9
40,6
19,6
90,7
9,3
78,1
21,9
30,6
69,4
%

32,9
18,8
5,4
24,4
10,0
8,4
32,9
67,1
818

CUADRO 3
Variables cuantitativas utilizadas en este estudio. Estadsticos descriptivos bsicos

Variables de valoracin de los


Programas de Formacin relacionados

Media

Desviacin
Estndar

Casos
vlidos

con Marketing
P29.AC

Val. PF Atencin a clientes

8,40

2,71

750

P29.DO

Val. PF Diseo asistido

2,87

2,95

669

ordenador
P29.ES

Val. PF Escaparatismo

7,27

3,17

735

P29.GS

Val. PF Gestin stock

5,18

3,62

674

P29.ME

Val. PF Merchandising

4,46

3,47

538

P29.MK

Val. PF Marketing

5,36

3,40

708

P29.PC

Val. PF Psicologa consumidor

6,64

3,30

714

P29.PR

Val. PF Promocin

6,56

3,45

703

P29.PU

Val. PF Publicidad

5,60

3,39

718

P29.TE

Val. PF Telemarketing

2,59

2,65

629

P29.TN

Val. PF Tcnicas de

5,25

3,50

692

7,16

3,23

739

negociacin
P29.TV

Val. PF Tcnicas de ventas

Fuente: Elaboracin propia a partir de los datos suministrados por IMSO, S.L.
Casos vlidos en el conjunto de las 12 variables: 475.

Por tanto, ya que las puntuaciones tienen propiedades mtricas, esta tcnica se ha
descrito como una forma de cuantificar datos cualitativos. El paquete estadstico SPSS
presenta diferentes procedimientos de escalamiento ptimo que se pueden clasificar en
14

funcin del nmero y tipo de variables cualitativas que se utilizan . Dado que las
variables de utilizacin de herramientas de marketing que consideramos en nuestro
14

Cuando el nmero de variables que se relaciona son 2 y estn medidas con una escala nominal, el
procedimiento a utilizar es el ANACOR (el anlisis de correspondencia simple). Cuando se relacionan
ms de 2 variables cualitativas nominales el procedimiento recomendado es el HOMALS (el anlisis de
correspondencia mltiple). Si entre las variables que se relacionan tenemos algunas ordinales o numricas
el procedimiento a utilizar es el PRINCALS (el anlisis de componentes principales no lineal) y, por
ltimo, tenemos el OVERALS (el anlisis del coeficiente de correlacin cannica no lineal) que es el ms
general de los procedimientos mencionados ya que dependiendo de la naturaleza de las variables puede
originar los resultados obtenidos con los dems procedimientos.

anlisis son de naturaleza nominal, el procedimiento que hemos utilizado ha sido el


anlisis de correspondencias mltiple (el HOMALS). El input para este anlisis es una
matriz donde las filas representan objetos (en nuestro caso los establecimientos) y las
columnas variables (las diferentes herramientas de marketing consideradas). En

el

anlisis slo se considera la informacin categrica de las variables, es decir, la nica


consideracin que se realiza es que algunos objetos estn en la misma categora
mientras que otros no. No se realizan supuestos sobre las distancias o el orden entre las
categoras de una misma variable.
El HOMALS va asignando puntuaciones a cada categora de cada variable de forma que
las categoras tengan la mxima extensin, es decir, que las categoras estn separadas
unas de otras tanto como sea posible. El anlisis HOMALS tambin asigna
puntuaciones a los objetos de forma que las cuantificaciones de las categoras son los
promedios (los centroides) de las puntuaciones a los objetos que se encuentran en la
15

misma categora .
Por diseo, el anlisis HOMALS trata de producir una solucin en la cual los objetos
dentro de la misma categora son representados juntos y objetos en diferentes categoras
son representados alejados unos de otros. Esto se hace para todas las variables en el
anlisis. Las representaciones tienen la propiedad de que cada objeto est tan prximo
como sea posible a las puntuaciones de las categoras a las que pertenece. En este
sentido, las categoras dividen los objetos en subgrupos homogneos (esta es una de las
razones para denominarlo anlisis de homogeneidad). Las variables se consideran
homogneas cuando clasifican los objetos dentro de los mismos subgrupos.
15.5.2 TCNICAS DE SEGMENTACIN
Los objetivos que persigue este trabajo son tanto la caracterizacin de las empresas de
comercio que realizan programas de formacin en marketing como la caracterizacin de
las empresas segn la valoracin a unos programas de formacin especficos del campo
de marketing.

15

El mtodo que utiliza en este procedimientos es el de los mnimos cuadrados alternativos (ALS). Se
trata de un mtodo iterativo en el cual las estimaciones mnimo cuadrado de las puntuaciones de los
objetos y nuevas cuantificaciones dadas a las puntuaciones estimadas de los objetos se calculan
alternativamente.

En cierta forma, queremos dividir los establecimientos de comercio en segmentos que


se diferencian con respecto, en este caso, a dos criterios:
1. la realizacin o no de formacin, y en caso negativo el motivo de ello.
2. la valoracin a diferentes programas de formacin de marketing.
Como se puede intuir, el primer criterio queda recogido por una variable de naturaleza
cualitativa ya que se pueden agrupar los establecimientos en diferentes categoras;
mientras que la variable o variables que representan el segundo criterio son de
naturaleza cuantitativa pues se trata de una valoracin. Ello lleva a que las tcnicas a
utilizar sean diferentes en cada caso. En concreto, para cumplir el primer objetivo
aplicaremos un anlisis CHAID mientras que para el segundo aplicaremos la tcnica del
AID.
15.5.2.1 ANLISIS CHAID.
Como se puede ver en el Cuadro 2, hay una variable que caracteriza a los
establecimientos encuestados en funcin de si el establecimiento ha realizado formacin
en los 2 ltimos aos (la variable a la que nos referimos es la P17, variable cualitativa
con 5 categoras).
Ya que nuestro objetivo es dividir los establecimientos en segmentos que se diferencian
con respecto a un determinado criterio (en este caso la realizacin o no de formacin y
en caso negativo si ha sido porque no se necesita o por otras causas), ejecutamos un
modelo de segmentacin, un CHAID, que est basado en la Chi cuadrado (Kass, 1980;
Magidson, 1988). Este anlisis divide la poblacin en grupos distintos basndose en las
16

categoras del mejor predictor de la variable dependiente , que debe ser categrica.
Cada uno de los grupos los divide posteriormente en grupos ms pequeos basndose en
otras variables predictivas. Este proceso de divisin contina hasta que no se pueden
encontrar ms predictores estadsticamente significativos o hasta que el tamao de los
grupos llega a un mnimo establecido.
Los segmentos que el CHAID obtiene son mutuamente exclusivos y exhaustivos; es
decir, los segmentos no se sobreponen y cada caso es contenido exactamente en un
segmento. Adems, como los segmentos son definidos por combinaciones de variables

predictivas, fcilmente se puede clasificar cada caso en su segmento apropiado


simplemente conociendo sus categoras en las variables predictivas. El CHAID fusiona
categoras de las variables predictoras que no son significativamente diferentes. Este
procedimiento, combinado con el algoritmo de divisin, asegura que los casos en un
mismo segmento son homogneos respecto al criterio de segmentacin mientras que los
casos en segmentos diferentes tienden a ser heterogneos con respecto al criterio de
segmentacin.
15.5.2.2 ANLISIS AID
El AID o deteccin automtica de interacciones es una tcnica de anlisis estadstico
que se utiliza para estudiar la relacin de dependencia entre una variable dependiente y
mltiples predictoras. Su aplicacin, como en el caso del CHAID, permite dividir un
conjunto de individuos o entidades de acuerdo con un determinado criterio. Sin
embargo, y a diferencia de este anlisis, la variable dependiente o a explicar debe estar
17

medida en una escala mtrica o dicotmica . En nuestro caso vamos a contar con los
factores que van a resumir la valoracin que las empresas de comercio realizan a los
programas de formacin. Los factores resultantes del anlisis factorial son variables de
naturaleza cuantitativa.
Este anlisis procede de forma secuencial, mediante el anlisis de varianza, realizando
divisiones de la variable dependiente. Como en el caso anterior, divide la poblacin en
grupos distintos basndose en la variable que mejor explica las diferencias en la variable
dependiente. Cada grupo se vuelve a subdividir por la variable que mejor explica las
diferencias entre ellos. El proceso continua hasta que las diferencias entre los valores
medios de la variable dependiente en los grupos no son diferentes o hasta que el tamao
de los grupos llega a un mnimo establecido. Por tanto, se podra pensar que el AID
constituye un anlisis de varianza secuencial que permite aislar aquellas variables, y
niveles dentro de las mismas, que explican en mayor medida la varianza de la variable
dependiente. A diferencia de las tcnicas anteriores, que se han obtenido con el paquete

16

El empleo de una variable dependiente es la principal diferencia entre el CHAID y el anlisis Cluster
tradicional.
17
Por lo que respecta a las variables independientes o explicativas pueden ser variables medidas en
escalas nominales u ordinales.

estadstico SPSS para Windows versin 7.5, los resultados del AID se han obtenido con
el DYANE (Santesmases, 1996).

15.6 RESULTADOS
15.6.1 IDENTIFICACIN

DE

DIFERENTES

PROGRAMAS

DE

FORMACIN.
La primera etapa en la aplicacin de un anlisis factorial consiste en verificar la
adecuacin del empleo de este anlisis. Para comprobar dicha adecuacin se utiliza el
KMO y la significacin del test de esfericidad de Barlett. En este caso ambos
indicadores permiten establecer la adecuacin de aplicar un factorial a la variables que
recogen la valoracin a diferentes programas de formacin (KMO = 0.875 y
significacin del test de Barlett inferior al 5%).
Los tres factores extrados por componentes principales (ver Cuadro 4) explican ms del
60% de la varianza total. Aplicando una rotacin varimax se puede establecer que:
1. El primer factor representa los programas de formacin en marketing que
podramos denominar genricos. Las variables con una mayor correlacin son la
valoracin al programa de formacin en publicidad, en marketing, en promocin y
en merchandising.
2. El segundo factor representa los programas de formacin enfocados al clientes.
Las variables que hacen referencia a la valoracin de un programa de formacin
de atencin al cliente y de psicologa del consumidor presentan correlaciones que
superan el 0,70 (concretamente, 0,768 y 0,749 respectivamente).
3. El tercer factor representa los programas de formacin tcnicos que implican el
empleo de herramientas informticas (la variable que recoge la valoracin a los
programas de formacin de diseo asistido por ordenador presenta la correlacin
ms alta con este factor: 0.758).

CUADRO 4
Resultados del Anlisis factorial.

Matriz Factorial

Comunalidad

Matriz Factorial
Rotada

Variables

F1

F2

F3

(% var.explicada)

F1

Val. PF Publicidad

,75

,01

-,38

,72

,80

Val. PF Marketing

,73

,17

-,31

,66

,75

Val. PF Promocin

,74

,11

-,16

,59

,64

Val. PF Merchandising

,66

,14

-,22

,52

,64

Val. PF Atencin Cliente

,56

-,54

,13

,63

,77

Val. PF Psicolog.

,59

-,29

,51

,70

,75

Val. PF Tc. Ventas

,66

-,37

-,00

,58

,40

,64

Val. PF Escaparatismo

,58

-,46

-,20

,60

,48

,59

Val. PF Diseo asis.

,45

,54

,31

,60

Val. PF Telemarketing

,58

,50

,14

,62

Val. PF Gestin stocks

,66

,00

,33

,55

Val. PF Tc. Negociacin

,66

,00

,13

,47

Valor propio

4,98

1,37

% varianza explicado

41,51

% varianza acumulado

41,51

F2

F3

,33

,38

consumidor

,76

ordenador
,37

,70
,49

,52

,37

,36

,45

,90

2,78

2,46

2,00

11,42

7,49

23,22

20,52

16,70

52,93

60,43

23,22

43,73

60,43

Fuente: elaboracin propia.

Por tanto, la reduccin que consigue el anlisis factorial permite identificar tres tipos
de programas en marketing: los programas genricos, los programas enfocados a
cliente y, por ltimo, los programas tcnicos asistidos por ordenador. En el apartado
4.4. se clasificarn los establecimientos comerciales que prefieren cada uno de estos
programas.

15.7 UTILIZACIN DE HERRAMIENTAS DE MARKETING


Como se ha comentado anteriormente, el anlisis HOMALS permite clasificar en un
mismo grupo a aquellas observaciones que se asemejan entre s. Como se puede ver en
18

el Cuadro 5 , la primera dimensin que extrae este anlisis, la del eje de abcisas,
claramente separa las empresas que emplean herramientas de marketing de las que no.
La segunda dimensin parece que solamente tiene influencia en

aquellos

establecimientos comerciales que emplean herramientas de marketing. No

provoca

ninguna diferencia relevante entre los que no emplean estas herramientas mientras que
entre los que s utilizan herramientas de marketing separa los que usan herramientas
ms sofisticadas o complejas de los que aplican herramientas ms bsicas.
Debido a que pretendemos utilizar esta informacin en las tcnicas de segmentacin
AID y CHAID, necesitamos recodificar estas dimensiones en una variable cualitativa.
Considerando conjuntamente las dos dimensiones hemos definido la variable Grado de
aplicacin de Marketing que permite clasificar a las empresas en tres grupos segn la
utilizacin que hacen de las diferentes herramientas de marketing (ver Cuadro 6):
empresas que NO emplean herramientas de marketing, empresas que emplean las
herramientas de marketing ms bsicas y empresas que utilizan herramientas ms
sofisticadas de marketing.

18

Los eigenvalues de las dimensiones del HOMALS son 0.323 para la primera dimensin y 0.142 para la
segunda.

CUADRO 5
Resultados del Anlisis de correspondencias mltiples.
Posicionamiento de cada categora en los factores
1,5
Buzoneo
Prensa

1,0

No Merc and
h
Si Pub
No EMesc
o
A
No
E
s e Pro
qu
Si BDOCtros
e
No
BDC eSs i
Pu
NoNNo
FoyNC
FyC
Si ProRadioSi APu

,5
0,0

Ferias y certmenes
Estudio de mercado

NNoomPeudbios

Escaparatistas prof.

-,5

-1,5
-2,0
-2,5
-1,5

Dimensin 2

-1,0

Tcnicas Merchandis
SSii MEeMrechand

Aguna promocin
Agencia publicidad
Medio publicitario

Si Esc
T.V.

Ha hecho publicidad
Base datos clientes

-1,0

-,5

0,0

,5

1,0

1,5

2,0

Dimensin 1
Fuente: elaboracin propia.

Conviene remarcar que con la reclasificacin de los establecimientos comerciales en


tres categoras segn el grado de utilizacin de herramientas de marketing se preservan
los resultados obtenidos con el anlisis factorial de correspondencias mltiple. Para
verificar este aspecto hemos realizado tablas de contingencia cruzando la variable
Grado de Aplicacin de Marketing y cada una de las variables utilizadas en el anlisis
HOMALS. En todos los casos, el estadstico de la Chi cuadrado permita rechazar la
hiptesis nula de independencia entre las variables con un nivel de confianza
prcticamente absoluto.

CUADRO 6
Recodificacin de la variable Marketing Tabla
de frecuencia Grado aplicacin de marketing
Categora
No Marketing
Marketing Bsico
Marketing Sofisticado
Total

Definicin
Dimensin 1 <= 0
Dimensin 1 > 0 y Dimensin 2 > 0
Dimensin 1 > 0 y Dimensin 2 < 0

Frecuencia
412
261
145
818

Porcentaje
50,4
31,9
17,7
100,0

Fuente: elaboracin propia.

15.8 CLASIFICACIN

DE

LOS

ESTABLECIMIENTOS

COMERCIALES SEGN LA REALIZACIN O NO DE


PROGRAMAS DE FORMACIN
El anlisis CHAID utilizado para caracterizar a los establecimientos que han realizado
una determinada formacin en los dos ltimos aos divide a los establecimientos en 8
grupos:
Grupo 1: est formado por los establecimientos con un solo empleado (285
establecimientos). De estos un 37,89% no hacen formacin por falta de tiempo y un
28,42% considera que no tienen necesidad.
Grupo 2: Est formado por los establecimientos con dos empleados, que no utilizan
herramientas de marketing y que son autnomos (en total, 85 establecimientos). De
stos un 30,59% no hacen formacin porque no tienen necesidad y un 36,47% no la
hacen por falta de tiempo.
Grupo 3: Tambin est formado por los establecimientos con dos empleados que no
utilizan herramientas de marketing pero en este caso tienen forma de sociedad o
cooperativa (26 establecimientos). Un 38,46% de estos establecimientos hacen
formacin mientras que un 23,08% no hacen formacin por otros motivos.
Grupo 4: Est formado por establecimientos con dos empleados que utilizan
herramientas de marketing, ya sean bsicas o sofisticadas. De estos establecimientos
ms de un 50% realizan cursos de formacin.
Grupo 5: Esta formado por aquellos establecimientos que cuentan con un nmero de
empleados que oscila entre 3 y 6, que no utilizan herramientas de marketing

o utilizan

herramientas bsicas y que no importan productos. De estos establecimientos, 54 en


total, un 42,59% hacen cursos de formacin y un 24,07% sealan que no tienen
necesidad.
Grupo 6: Lo forman los establecimientos que cuentan con un nmero de empleados que
oscila entre 3 y 6, que no utilizan herramientas de marketing o utilizan herramientas
bsicas y que venden productos importados. De estos establecimientos, 95 en total, un
48,42% hacen cursos de formacin y un 10,53% sealan que no hacen porque no
existen programas adecuados.
Grupo 7: Este grupo est compuesto por los establecimientos que cuentan con un
nmero de empleados que oscila entre 3 y 6 y que aplican marketing sofisticado. En
total son 46 establecimientos de la muestra de los cuales el 67,39% hacen cursos de
formacin y un 15,22% no hacen cursos de formacin por diferentes motivos.
Grupo 8: Est formado por los establecimientos con ms de 6 empleados (51). De estos
ms del 82% hacen cursos de formacin mientras que no hay ninguno que diga no hacer
cursos de formacin por no tener necesidad.
En conclusin, la mayor diferenciacin entre los que realizan programas de formacin y
los que no los hacen es el tamao del establecimiento (a mayor tamao ms realizacin
de formacin). El grado de utilizacin de las herramientas de marketing tambin
diferencia entre los que realizan o no programas de formacin pero slo en
establecimientos de 2 empleados o de 3 a 6. La no existencia de programas

de

formacin adecuados no parece ser una justificacin importante para la no realizacin


de programas de formacin puesto que en la mayora de grupos nicamente alrededor
de un 5% mencionan este aspecto, a excepcin de los establecimientos de 3 a 6
trabajadores, que no aplican marketing o bien realizan un marketing bsico y que
venden productos importados (en este grupo la no existencia de programas adecuados la
manifiestan un 10,5% de los establecimientos).

CUADRO 7
Resultados del Anlisis de clasificacin Chaid.
Caractersticas de las empresas segn formacin
Total
Si Form: 35,91
No nece: 20,56
No progr: 5,87
Falta tpo: 26,70
Otros mo: 10,95
n = 749

Nmero de
Empleados

Si Form: 18,25
No nece: 28,42
No progr: 6,67
Falta tpo: 37,89
Otros mo: 8,77
n =285

Si Form: 34,40
No nece: 22,02
No progr: 5,05
Falta tpo: 25,69
Otros mo: 12,84
n = 218

3-6

Ms de 6

Si Form: 51,28
No nece: 12,82
No progr: 6,67
Falta tpo: 17,44
Otros mo: 11,79
n = 195

Si Form: 82,3
No nece: 0,0
No progr: 1,9
Falta tpo: 3,9
Otros mo: 11,7
n = 51

(8)

(1)
Utilizacin de
Marketing
Mark. Bsico
y Sofisticado

No Marketing
Mark. Bsico

Si Form: 50,47
No nece: 16,82
No progr: 4,67
Falta tpo: 18,69
Otros mo: 9,35
N = 107

Si Form: 46,31
No nece: 15,44
No progr: 6,71
Falta tpo: 20,81
Otros mo: 10,74
n = 149

No Marketing
Si Form: 18,92
No nece: 27,03
No progr: 5,41
Falta tpo: 32,43
Otros mo: 16,22
n = 111

Utilizacin de
Marketing

(4)

Vende produc.
importados
Autnomo

Sociedad

No importa

Si importa

Si Form: 12,94
No nece: 30,59
No progr: 5,88
Falta tpo: 36,47
Otros mo: 14,12
n = 85

Si Form: 38,46
No nece: 15,38
No progr: 3,85
Falta tpo: 19,23
Otros mo: 23,08
n = 26

Si Form: 42,59
No nece: 24,07
No progr: 0,00
Falta tpo: 20,37
Otros mo: 12,96
n = 54

Si Form: 48,42
No nece: 10,53
No progr: 10,53
Falta tpo: 21,05
Otros mo: 9,47
n = 95

(2)

(3)

(5)

(6)

Marketing
Sofisticado
Si Form: 67,39
No nece:
4,35
No progr: Falta tpo:
6,52
6,52
Otros mo: 15,22
n = 46

(7)
Tipo de sociedad

15.9 CLASIFICACIN

DE

LOS

ESTABLECIMIENTOS

COMERCIALES SEGN EL TIPO DE PROGRAMA DE


FORMACIN REALIZADO
Atendiendo a los resultados del anlisis factorial de componentes principales realizado
anteriormente, se han identificado tres programas de formacin en marketing:
programas de formacin genricos, programas de formacin enfocados a cliente y
programas de formacin tcnicos asistidos por ordenador. A continuacin vamos a
identificar aquellos establecimientos que valoran ms cada uno de estos programas
aplicando la tcnica del AID.
15.9.1 ESTABLECIMIENTOS QUE VALORAN

LOS PROGRAMAS DE

FORMACIN GENRICOS
La aplicacin del AID tomando como variable cuantitativa el primer factor nos permite
identificar 6 grupos.

Total
Media:-0,011
D.Est.:0,999
n = 440

Ha realizado formacin
R = 0,041

Si Formacin

No Formacin

Media: D.Est.:
0,235
0,910
n = 178n = 262

Media:-0,178

Nmero de
empleados
R =
0,020

Ao comienzo
actividad
R = 0,030

Ms de 2

1y2

Media:0,036Media:0,484Media:
D.Est.:0,884D.Est.:0,830D.Est.:
n = 99n = 79

(1)

D.Est.: 0,989

Despus 1985

Antes 1986
Media:-0,383

0,071
0,976
n = 118

D.Est.: 0,906
n = 144

(2)

Artculos queUtilizacin de
comercializaMarketing
R = 0,020R = 0,010

Durad. Temp.
Durad. Espec.
y Cotidiano Media: D.Est.: y varios tipos
Media:-0,161
0,488
0,781
D.Est.: 0,801
n = 30n = 69n = 102n = 42

No Marketing
Media:-0,497
D.Est.: 0,789

Mark. Bsico
y Sofisticado
Media:-0,10
D.Est.: 1,08

CUADRO 8
Resultados del Anlisis de clasificacin AID.
Caractersticas de las empresas segn su valoracin
a los programas de formacin genricos de marketing
(3)

(4)

(5)

Grupo 1: Esta formado por 79 establecimientos que otorgan una valoracin media al
factor 1 de 0,4837. Son establecimientos que siguen cursos de formacin y que tienen 1
2 empleados.

(6)

Grupo 2: En este grupo encontramos 118 establecimientos que otorgan una valoracin
media al factor 1 de 0,0713. Son establecimientos que no hacen formacin justificando
esta conducta por cualquiera de los motivos que se presentaban y que comenzaron su
actividad despus de 1985.
Grupo 3: Se agrupan 30 establecimientos. Dan una valoracin al factor 1 de 0,4882. Son
establecimientos que hacen formacin, que tienen ms de 3 empleados y

que

comercializan artculos duraderos de temporada o cotidianos.


Grupo 4: En este grupo encontramos 69 establecimientos comerciales que dan una
valoracin media al factor 1 negativa (-0,1605). Son establecimientos que hacen
formacin, que tienen ms de 3 empleados pero que comercializan artculos duraderos
especializados y artculos de varios tipos.
Grupo 5: Este grupo presenta 102 establecimientos que, como en el caso anterior,
tambin dan una valoracin negativa al factor 1 (-0,4970). Estos establecimientos no
hacen formacin y arguyen cualquiera de los motivos

considerados,

son

establecimientos que comenzaron su actividad antes de 1985 y que no aplican


herramientas de marketing.
Grupo 6: Aqu se agrupan 42 establecimientos que tambin dan una valoracin negativa
al factor 1. Como en el caso anterior, no hacen formacin y son establecimientos que
tambin comenzaron su actividad antes de 1985 pero, a diferencia de los
establecimientos del grupo anterior, utilizan herramientas de marketing bsicas y/o
sofisticadas.
En definitiva, los establecimientos que prefieren cursos de formacin genricos se
encuentran en los grupos 1 y 3. Por tanto, son establecimientos que siguen cursos de
formacin y que tienen 1 2 empleados o establecimientos que hacen formacin, que
tienen ms de 3 empleados y que comercializan artculos duraderos de temporada o
cotidianos. Por contra, los que menos valoran este tipo de formacin son los
establecimientos del grupo 4 y 5, es decir, los que hacen formacin, tienen ms de 3
empleados y comercializan productos duraderos especializados o de varios tipos; o los
que no hacen formacin por los motivos sealados, operan desde antes de 1985 y no
utilizan herramientas de marketing.

15.9.2 ESTABLECIMIENTOS QUE VALORAN

LOS PROGRAMAS DE

FORMACIN ENFOCADOS A CLIENTE


La aplicacin del AID tomando como variable cuantitativa el segundo factor nos permite
identificar tambin en este caso 6 grupos:
Grupo 1: En este grupo encontramos 76 establecimientos que otorgan una valoracin
media al factor 2 de -0,5503. Son establecimientos que no hacen formacin justificando
que no tienen necesidad.
Grupo 2: Esta formado por 58 establecimientos que otorgan una valoracin media al
factor 2 de 0,4736. Son establecimientos que siguen cursos de formacin o que no hacen
argumentando diferentes motivos excepto el que seala que no se hacen cursos porque
no se tiene necesidad y que comercializan varios tipos de articulo.
Grupo 3: Se agrupan 141 establecimientos. Dan una valoracin media al factor 2 de
0,0951. Son establecimientos que siguen cursos de formacin o que no hacen
argumentando diferentes motivos excepto el que seala que no se hacen cursos porque
no se tiene necesidad, comercializan productos duraderos de temporada, especializados
y cotidianos, tienen una superficie de sala de ventas de hasta 50 m2 y la forma que
adoptan es la de autnomos o sociedad civil.

CUADRO 9
Resultados del Anlisis de clasificacin AID.
Caractersticas de las empresas segn su valoracin a los programas de formacin
enfocados al cliente
Total
Media:-0,001
D.Est.:1,003
n = 440

Ha realizado formacin
R = 0,063

Si formacin
y no por otros

No tenemos
necesidad

Media: D.Est.:
0,114
0,875
n = 364

Media:-0,550
D.Est.:1,266,
n = 76

(1)
Artculos que
comercializa
R =
0,020
Varios tipos

Especficos

Media:0,474Media:0,045
D.Est.:0,672D.Est.:0,884
n = 58N = 306

(2)
Superficie de ventas
R = 0,010

Ms de 50 m

Hasta 50 m

Media: D.Est.:
0,210
0,759
n = 108n = 198

Media: -0,045,
D.Est.: 0,929

Ao comienzo
actividad
R = 0,019

Tipo de
sociedad
R =
0,022

Antes 1986

Despus 1985

Autnomo

Sociedad

Media: 0,468
D.Est.: 0,717
n = 58

Media: -0,090
D.Est.: 0,641
n = 50

Media: 0,095
D.Est.: 0,864
n = 141

Media: -0,390
D.Est.: 0,717
n = 58

(5)

(6)

(3)

(4)

Grupo 4: En este grupo encontramos 58 establecimientos comerciales que dan una


valoracin media al factor 2 negativa (-0,39). En cuanto a las caractersticas, presentan
las mismas que los establecimientos del grupo 2 con la excepcin de que la forma que
adoptan es la de sociedad o cooperativa.
Grupo 5: Este grupo presenta 58 establecimientos que dan una valoracin media al
factor 2 positiva (0,4683). Estos establecimientos no hacen formacin y arguyen
cualquiera de los motivos considerados excepto el de que no tienen necesidad,
comercializan productos duraderos (de temporada y especializados) y

tambin

productos cotidianos, la superficie de la sala de ventas supera los 50m2 y son


establecimientos que comenzaron su actividad antes de 1985.
Grupo 6: Aqu se agrupan 50 establecimientos que dan una valoracin promedio al
factor 2 negativa (-0,0897). Respecto a las caractersticas presentan las mismas que el
grupo anterior a diferencia de que comenzaron su actividad despus de 1985.
En definitiva, los establecimientos comerciales que prefieren programas de formacin
enfocados a clientes son establecimientos que siguen cursos de formacin o que no
hacen argumentando diferentes motivos excepto el que seala que no se hacen cursos
porque no se tiene necesidad y que comercializan varios tipos de articulo. Tambin
estn los que presentan esas caractersticas pero comercializan productos duraderos de
temporada, especializados y cotidianos, tienen una superficie de sala de ventas de hasta
50 m2 y la forma que adoptan es la de autnomos o sociedad civil y, por ltimo, tenemos
los establecimientos que no hacen formacin y arguyen cualquiera de los motivos
considerados excepto el de que no tienen necesidad, comercializan productos duraderos
(de temporada y especializados) y tambin productos cotidianos, la superficie de la sala
de ventas supera los 50m2 y son establecimientos que comenzaron su actividad antes de
1985. Destaca la valoracin negativa de los programas de formacin enfocados al
cliente que hacen los establecimientos que afirman que no hacen formacin porque no
tienen necesidad (grupo 1).

200

15.9.3 ESTABLECIMIENTOS QUE VALORAN LOS PROGRAMAS DE


FORMACIN

TCNICOS

QUE

EMPLEAN

HERRAMIENTAS

INFORMTICAS
La aplicacin del AID tomando como variable cuantitativa el tercer factor nos permite
identificar ahora 8 grupos:
Grupo 1: Este grupo presenta 62 establecimientos que dan una valoracin media al
factor 3 positiva (0,0268). Estos establecimientos hacen formacin y utilizan
herramientas sofisticadas de marketing.
Grupo 2: Aqu se agrupan 78 establecimientos que dan una valoracin promedio al
factor 3 negativa de -0,4950. Estos establecimientos no hacen cursos de formacin y lo
justifican con los diferentes motivos que se les presentan y, en cuanto a los productos
que comercializan, son productos cotidianos.
Grupo 3: Esta formado por 28 establecimientos que otorgan una valoracin media al
factor 3 de 0,7503. Son establecimientos que siguen cursos de formacin, que no
utilizan herramientas de marketing y si utilizan son herramientas bsicas y, adems, no
importan productos.
Grupo 4: Aqu se agrupan 49 establecimientos que dan una valoracin promedio al
factor 3 negativa de -0,4450. Estos establecimientos no hacen cursos de formacin y lo
justifican con los diferentes motivos que se les presentan. En cuanto a los productos que
comercializan son duraderos especializados y de temporada o comercializan varios tipos
de productos. En este grupo encontramos los establecimientos de confeccin, moda y
textil y manufacturas.
Grupo 5: Se agrupan 66 establecimientos. Dan una valoracin media al factor 3 de
0,1231. Son establecimientos que siguen cursos de formacin, que no utilizan
herramientas de marketing y si utilizan emplean herramientas bsicas, venden productos
importados y comenzaron su actividad antes de 1990.

201

CUADRO 10
Resultados del Anlisis de clasificacin AID. Caractersticas de las empresas segn su
valoracin a los programas de formacin tcnicos con ordenador
Total
Media: -0,029
D.Est.: 0,987
n = 440

Ha
realizado
formacin
R = 0,056

Si Formacin

No Formacin

Media: 0,256
D.Est.: 1,041
n = 178

Media: -0,222
D.Est.: 0,836
n = 262

Utilizacin de
Marketing
R = 0,012

Artculos que
comercializa
R = 0,019

Marketing
Sofisticado
Media: 0,027
D.Est.: 0,908
n = 62

No Marketing
Mark. Bsico

Duraderos y
varios tipos

Cotidiano

Media: 0,378
D.Est.: 1,069
n = 116

Media: -0,106
D.Est.: 0,863
n = 184

Media: -0,49
D.Est.: 0,66
n = 78

(1)

(2)
Vende produc.
importados
R = 0,012

Si

importa

Actividad
R = 0,018

Confeccin y
Manufacturas

Alimentacin,
ocio, servicios

Media: 0,750
D.Est.: 0,829
n = 28

Media: -0,445,
D.Est.: 0,779
n = 49

Media: 0,017
D.Est.: 0,837
n = 135

(3)

(4)

Edad de la
direccin
R = 0,018

No

Media: 0,260
D.Est.: 1,087
n = 88

importa

Ao comienzo
actividad
R = 0,012

Antes 1991

Despus 1990

Menos de 46

Ms de 45

Media: 0,123
D.Est.: 1,058
n = 66

Media: 0,671
D.Est.: 0,948
n =22

Media: 0,154
D.Est.: 0,818
n = 102

Media: -0,40
D.Est.: 0,65
n = 33

(5)

(6)

(7)

(8)

Grupo 6: En este grupo encontramos 22 establecimientos comerciales que dan una


valoracin media al factor 3 de 0,6709. Presentan las mismas caractersticas que los
establecimientos del grupo anterior pero comenzaron su actividad despus de 1990.
Grupo 7: Aqu se agrupan 102 establecimientos que dan una valoracin promedio al
factor 3 positiva de 0,1540. Estos establecimientos no hacen cursos de formacin y lo
justifican con los diferentes motivos que se les presentan. En cuanto a los productos que
comercializan son duraderos especializados y de temporada o comercializan varios tipos
de productos. En este grupo encontramos los establecimientos de alimentacin y
bebidas, ocio y recreo, servicios y otros. En estos establecimientos la edad de los
directivos oscila entre 18 y 45 aos.
Grupo 8: En este grupo encontramos 33 establecimientos que otorgan una valoracin
media al factor 3 de -0,4052. Son establecimientos que presentan las mismas
caractersticas que las del grupo anterior con la diferencia de que la edad de la direccin
supera los 45 aos (a ms edad menos preferencia por la informtica).
En definitiva, los establecimientos comerciales que ms valorar los programas de
formacin que emplean herramientas informticas son los que hacen formacin, que no
utilizan herramientas de marketing o utilizan herramientas bsicas y que no venden
productos importados (grupo 3) o los que con las mismas caractersticas s que venden
productos importados e inician su actividad despus de 1990 (grupo 6). En cambio, las
valoraciones ms negativas las realizan los establecimientos que no hacen formacin y
venden productos cotidianos (grupo 2), los que no hacen formacin, venden productos
duraderos o de varios tipos y son de confeccin o manufacturas (grupo 4) o los que son
de alimentacin, ocio o servicios y la edad de la direccin supera los 45 aos (grupo 8).
En la valoracin a este tipo de programas de formacin sorprende que los
establecimientos que utilizan marketing sofisticado y los que venden productos
importados tienen una valoracin inferior a los que no lo hacen (esto podra sugerir que
los cursos ms tcnicos no estn al nivel de exigencia esperado por aquellos
establecimientos que estn en un estadio ms avanzado en su actividad).

16. CONCLUSIONES
La clasificacin del comercio ha sido un aspecto desarrollado por diferentes trabajos de
la literatura, como se ha puesto de manifiesto con algunas referencias comentadas

anteriormente. Sin embargo, no se haba realizado una clasificacin de los


establecimientos comerciales atendiendo a su valoracin y a su relacin con los
programas de formacin.
En este trabajo, con la aplicacin de tcnicas de segmentacin como el CHAID y el
AID, se han podido caracterizar a los establecimientos que hacen cursos de formacin
as como a los establecimientos que prefieren un determinado curso de formacin.
As, segn la realizacin de programas de formacin, en el lado de los que no realizan
formacin por falta de tiempo (37%) o por no tener necesidad (30%) destacan dos
grupos: los comercios con un solo empleado y los comercios con dos empleados que no
hacen marketing y son autnomos. Por otro lado, entre los comercios que mayor
formacin realizan encontramos los de ms de 6 trabajadores y los de 3 a 6 trabajadores
que hacen marketing sofisticado. Finalmente, destaca el grupo de comercios que
presentan de 3 a 6 trabajadores, que no aplican marketing o utilizan un marketing bsico
y que venden productos importados puesto que un 10,5% de los mismos detectan que no
existen programas de formacin adecuados (en los otros grupos este porcentaje se
situaba alrededor del 5%).
Como resultado general, se puede sealar que hay una clara relacin entre realizar
cursos de formacin y valorar muy positivamente los diferentes programas de
formacin en marketing. De hecho, los grupos de establecimientos que otorgan una
valoracin ms negativa a los diferentes programas de formacin en marketing son
establecimientos que no hacen formacin. Por ejemplo, los establecimientos que no
hacen formacin, creados antes de 1986 y que tampoco hacen marketing son los que
valoran ms negativamente los programas de formacin

genricos.

Los

establecimientos que dicen no tener necesidad de formacin son los que valoran ms
negativamente los programas enfocados a clientes.
En cuanto a la preferencia por un determinado curso de formacin, se puede sealar que
existen variables que influyen en la valoracin de todos los programas de formacin
aunque no de la misma forma en cada uno de ellos. As, cuando los artculos que
comercializa el establecimiento son duraderos de temporada y cotidianos, aumenta la
valoracin a los programas genricos; cuando los establecimientos comercializan
diversos tipos aumenta la valoracin de los programas enfocados a los clientes y, por

ltimo, cuando se comercializan artculos cotidianos disminuye en gran medida la


valoracin de los programas tcnicos.
Atendiendo a la antigedad de la empresa, se observa como aquellos establecimientos
que operan desde antes de 1986 otorgan una valoracin media positiva a los programas
de formacin enfocados a clientes y negativa a los programas de formacin genricos.
Para la valoracin de los programas de formacin tcnicos, la diferencia se sita en los
comercios creados antes o despus de 1990, siendo estos ltimos los que ms los
valoran.
Finalmente, otras variables que caracterizan la valoracin de los programas de
formacin considerados son el grado de utilizacin de las herramientas de marketing.
Para aquellos establecimientos que no utilizan marketing la valoracin a los programas
de formacin genricos es ms baja que para los establecimientos que utilizan estas
herramientas. Por contra, para aqullos que ya utilizan herramientas sofisticadas de
marketing, la valoracin de los programas tcnicos asistidos por ordenador es inferior a
los que no hacen marketing o utilizan herramientas bsicas.
En definitiva, los resultados obtenidos permiten contrastar las dos hiptesis planteadas
en un inicio. De este modo, los establecimientos que ms emplean herramientas de
marketing son los que realizan ms formacin (o viceversa) y tambin

se

puede

observar como la preferencia por un plan de formacin especfico viene determinada


por estas dos variables ms algunas caractersticas del establecimiento comercial.

17. BIBLIOGRAFA
Davies Bush, V. y Ingram, T. (1996): Adapting to Diverse Customers: A Training
Matrix for International Marketers. Industrial Marketing Management, Vol. 25, n 5,
p. 373 - 383.
Fondo Social Europeo, FORCEM, Federacin de Empresarios de Comercio de
Zaragoza (1996): Plan de Estudios Profesionales para el Comercio. Edita IMSO,
S.L.
Hogart-Scott, S. y Jone, M.A. (1993): Advice and Training Support for the Small
Firms Sector in West Yorkshire. Journal of European Industrial Training, Vol 17, n
1, p.18 - 22.

Kass, G. (1980): An Exploratory Technique for Investigating Large Quantities of


Categorical Data. Applied Statistics, Vol. 29, n 2, p. 119-127.
Kotler, P. (1992): Direccin de Marketing. Anlisis, planificacin, gestin y control. 7
Ed. Prentice Hall.
Magidson, J. (1988): Improved Statistical Techniques for Response

Modeling.

Progresion Beyond Regresion. Journal of Direct Marketing, Vol. 2, n 4, p.6 - 18.


Magidson, J. y SPSS Inc (1993): SPSS. SPSS for Windows Chaid Release 6.0. SPSS
Inc. Chicago.
x

Norusis, M.J. (1983): SPSS . Introductory Statistics Guide. McGraw-Hill Book


Company.
Obis, T.; Jimnez, E.; Rialp, J. (1997): El marketing en el comercio de Zaragoza. IX
Encuentro de Profesores Universitarios de Marketing, Murcia, 25 y 26 de
Septiembre, p. 315-334.
Rebollo, A. (1993): Clasificacin de las Formas Comerciales: el ProductoEstablecimiento. Distribucin Actualidad, n 10 (junio-julio), p. 10-18.
Rodrguez del Bosque, I.; Agudo San Emeterio, A.; Surez Vzquez, A.; Garca de los
Salmones, M. (1997): La modernizacin del Comercio minorista: Predisposicin
hacia el Cambio. IX Encuentro de Profesores Universitarios de Marketing, Murcia,
25 y 26 de Septiembre, p. 359-375.
Rodrguez del Bosque, I.; Trespalacios Gutirrez, J.A.; Agudo San Emeterio, A.; Surez
Vzquez, A.; Garca de los Salmones, M; Fernndez Polanco, J. (1997): El Sector
Comercio Minorista en Cantabria. Servicio de Publicaciones de la Universidad de
Cantabria. Gobierno de Cantabria. Santander.
Santesmases Mestre, M. (1992): Marketing. Conceptos y Estrategias. Ediciones
Pirmide, S.A. Madrid.
Santesmases, M. (1997): DYANE. Diseo y anlisis de encuestas en investigacin
social y de mercados. Ediciones Pirmide. Madrid

Sarabia, F.J. y Ruiz de Maya, S. (1996): Aspectos Metodolgicos para la realizacin de


Estudios en el mbito de la Distribucin Comercial. Esic Market, enero-marzo, p.
117-141.
SPSS Inc. (1990): SPSS Categories. SPSS Inc. Chicago
Weeks, W.A. y Stevens, C.G. (1997): National Account Management Sales. Training
and Directions for Improvement. Industrial Marketing Management, Vol. 26, n 5,
p. 423 - 431.
Weiers, R.M. (1986): Investigacin de Mercados. Mxico. Prentice Hall.

ANLISIS DE CLASIFICACIN
MLTIPLE (ACM)

18. CONCEPTO DE ACM


El anlisis de clasificacin mltiple fue diseada por Andrews, Morgan y Sonquist y
analiza la relacin entre un variable dependiente o criterio, medida en escala mtrica o
binaria, mientras que las variables explicativas deben se cualitativas, es decir medidas
en escalas nominales u ordinales o bien variables transformadas a este tipo de escalas.
Aplicacin
El ACM sustituye con ventaja a la regresin mltiple con variables ficticias (dummy),
por la dificultad o complejidad que puede suponer la transformacin de variables
categricas en ficticias.

Resumen
Y medida en escala mtrica
Las x en nominales u
ordinales

19. MODELO DEL ACM


El modelo estadstico expresa la variable dependiente (Y) como una funcin del valor
medio de la misma ms los coeficientes asignados a las categoras correspondientes de
las variables explicativas y un trmino de error. La ecuacin matemtica es:
Yi, j ,.... Y a b c ........ e
i
j
k
i , j, ,,,,n
Donde:

Yi,j,k ..n Es el valor de la variable dependiente en el individuo n, que pertenece a la


categora i de la variable explicativa A, a la categora j de la variable B, etc.
Y Es la media de todos los casos de la variable dependiente. Gran media
ai Coeficiente estimado correspondiente a la categora i de la variable independiente A
bj Coeficiente estimado correspondiente a la categora j de la variable independiente B
ck Coeficiente estimado correspondiente a la categora k de la variable independiente
C ei,j,,k, . n error para el elemento o individuo n

Los coeficientes se estiman mediante el mtodo de los mnimos cuadrados.


En el ACM la proporcin de varianza explicada por cada una de las variables
2

independientes se denomina eta cuadrado. ( )


Su expresin matemtica es.

N
j

(Yij Y )

ij

(Y
k

Y)

Donde
Nij es el nmero de casos que pertenecen a la categora j de la variable explicativa i
Yij Valor medio de la variable dependiente de los casos incluidos en la categora j de la
variable explicativa i
Y Gran media
La medida de la relacin entre una variable explicativa y la variable
manteniendo constante a las dems, se llama beta cuadrado
matemtica es:

N
(Y
j

ij

dependiente,

) . Su expresin

(aij )2

Y)

Donde
Nij es el nmero de casos que pertenecen a la categora j de la variable explicativa i
aij es el coeficiente de la categora j de la variable explicativa i
Yk es el valor de la variable dependiente en el caso k (k = 1,2,3,4, .. n)
Y Gran media

La proporcin de la varianza de la variable dependiente explicada por el modelo,


2

Coeficiente de correlacin mltiple al cuadrado (R ) viene dado por

a
Y
(Y Y )
ij

ijk i

jk
k

2
k

19.1 CONSIDERACIONES ACERCA DEL MODELO


El modelo es aditivo, pudiendo detectar relaciones no lineales ya que los coeficientes de
la funcin estimada miden el efecto sobre la variable dependiente de todas y cada una
de las categoras de las variables explicativas.
El modelo tambin mide el efecto global de cada variable explicativa, tanto de forma
individual como teniendo en cuntale efecto simultneo de todas las dems variables.
Los coeficientes obtenidos por el ACM expresan ajustes con respecto al valor medio de
la variable dependiente.
El ACM no detecta directamente las interacciones entre las variables explicativas por
ser un modelo aditivo.
El ACM guarda relacin con el Anlisis de deteccin automtica de interacciones,
tambin desarrollado por Sonquist y Morgan.

20. CASO PRCTICO