Anda di halaman 1dari 279

UNIVERSIDAD AUTONOMA

DE COAHUILA


Facultad de
Mercadotecnia


Anlisis Multivariable


Antologa





Didier Varela Castro


SALTILLO COAHUILA
25de junio de 2007
1









UNIDAD 1: Introduccin al Anlisis Multivariante

En las ciencias econmicas el anlisis numrico de la informacin generalmente se ha
realizado por medio de simples clculos estadsticos, o bien, cuando es ms complejo con el
uso del anlisis de regresin lineal. Es importante mostrar una serie de tcnicas de anlisis
que pueden ser consideradas como hermanas de la regresin lineal. Este parentesco tan
cercano se explica por provenir de la rama de la estadstica conocida como anlisis
multivariable.
Estas hermanas de la regresin lineal son las siguientes: el anlisis de componentes
principales, el anlisis discriminante, el anlisis factorial, el anlisis de correlacin cannica
y el de conglomerados. Todos estos anlisis son variaciones de un mismo tema en el que el
objetivo principal es presentar diferentes desgloses de las variancias de un conjunto de
datos y someterlos a una serie de pruebas estadsticas para determinar el grado de
asociacin entre esas variancias y, por tanto, entre las variables.
El anlisis multivariable tiene una historia que data desde el uso de la regresin lineal por
parte de Gauss en 1809 y, posteriormente, por otros estadsticos como Markov en 1900. Las
tcnicas ms recientes datan desde los aos de 1930. En la actualidad, los paquetes
estadsticos y economtricos incluyen procedimientos para aplicar estas otras tcnicas del
anlisis de datos. A continuacin se resumen las principales caractersticas de estas
tcnicas.


2
1.1 EXPLICAR EN QUE CONSISTE EL ANALISIS MULTIVARIANTE Y
CUANDO ES APROPIADO APLICARLO.

Es el conjunto de mtodos estadsticos cuya finalidad es analizar simultneamente
conjuntos de datos multivariantes en el sentido de que hay varias variables medidas para
cada individuo objeto estudiado.
Su razn de ser radica en un mejor entendimiento del fenmeno objeto de estudio
obteniendo informacin que los mtodos estadsticos univariantes y bivariantes son
incapaces de conseguir.
As, como Hair et al. (1999) dicen:
Las mujeres y hombres de negocios de hoy no pueden seguir aproximaciones ya pasadas
en las que los consumidores eran considerados homogneos y caracterizados por un
nmero pequeo de variables demogrficas. En su lugar, deben desarrollar estrategias que
atraigan a numerosos segmentos de clientes con caractersticas demogrficas y
psicogrficas diversas en un mercado con mltiples restricciones (legales, econmicas,
competitivas, tecnolgicas, etc). Slo a travs del anlisis multivariante las relaciones
mltiples de este tipo podrn ser examinadas adecuadamente para obtener un
entendimiento ms completo y real del entorno que permita tomar las decisiones ms
adecuadas.

Se debe de aplicar para evaluar caractersticas de distintas cosas, en mercadotecnia podran
ser caractersticas demogrficas, psicogrficas, etc, con el fin de desarrollar estrategias para
atraer clientes, y al final tomar las decisiones ms acertadas
El anlisis multivariante es un mtodo estadstico utilizado para determinar la
contribucin de varios factores en un simple evento o resultado.
Los factores de estudio son los llamados factores de riesgo (bioestadstica) , variables
independientes o variables explicativas.
El resultado estudiado es el evento, la variable dependiente o la variable respuesta.
El anlisis multivariante mediante tcnicas de proyeccin sobre variables latentes tiene
muchas ventajas sobre los mtodos de regresin tradicionales:
3
Se puede utilizar la informacin de mltiples variables de entrada, aunque stas no
sean linealmente independientes
Puede trabajar con matrices que contengan ms variables que observaciones
Puede trabajar con matrices incompletas, siempre que los valores faltantes estn
aleatoriamente distribuidos y no superen un 10%
Puesto que se basan en la extraccin secuencial de los factores, que extraen la
mayor variabilidad posible de la matriz de las X (variables explicativas, tienen que
ser dependientes) pueden separar la informacin del ruido. Se asume que las X se
miden con ruido. Los mtodos estadsticos multivariantes y el anlisis multivariante
son herramientas estadsticas que estudian el comportamiento de tres o ms
variables al mismo tiempo. Se usan principalmente para buscar las variables menos
representativas para poder eliminarlas, simplificando as modelos estadsticos en los
que el nmero de variables sea un problema y para comprender la relacin entre
varios grupos de variables. Algunos de los mtodos ms conocidos y utilizados son
la Regresin lineal y el Anlisis discriminante.

Cuando es apropiado aplicarlo
Pueden sintetizarse en dos:
1) Proporcionar mtodos cuya finalidad es el estudio conjunto de datos multivariantes que
el anlisis estadstico uni y bidimensional es incapaz de conseguir
2) Ayudar al analista o investigador a tomar decisiones ptimas en el contexto en el que se
encuentre teniendo en cuenta la informacin disponible por el conjunto de datos analizado.
Un AF resultar adecuado cuando existan altas correlaciones entre las variables, que es
cuando podemos suponer que se explican por factores comunes. El anlisis de la matriz de
correlaciones ser pues el primer paso a dar. Analticamente, podemos comprobar el grado
de correlacin con las siguientes pruebas o test:
- Test de esfericidad de Bartlett.
Es necesario suponer la normalidad de las variables. Contrasta la H
0
de que la
matriz de correlaciones es una matriz identidad (in correlacin lineal entre las
4
variables). Si, como resultado del contraste, no pudisemos rechazar esta H
0
, y el
tamao de la muestra fuese razonablemente grande, deberamos reconsiderar la
realizacin de un AF, ya que las variables no estn correlacionadas.
El estadstico de contraste del test de Bartlett es:
B = - ( n - 1 - (2p + 5)/6 ) ln | R
*
|
bajo la hiptesis nula resulta X
2
(p2 - p)/2

donde:
o p es el nmero de variables y
o | R
*
| es el determinante de la matriz de correlaciones mustrales.
1.2 DEFINIR Y DISCUTIR LAS TCNICAS ESPECIFICAS QUE INCLUYE EL
ANALISIS MULTIVARIANTE

En vez de limitarse a ver las ventas en funcin de la publicidad, una compaa desea
emprender un anlisis que las considere como dependientes de diversas variables. por
ejemplo, nivel de la publicidad, numero de vendedores, precio e ingresos disponibles por
persona. en esta aplicacin conviene utilizar el anlisis de regresin mltiple el cual
describe la relacin lineal de mejor ajuste entre la variable dependiente y y 2 o mas
variables independientes las x.

Se pueden clasificar
en tres grandes grupos:







Tcnicas
Multivariantes
Mtodos de
Dependencia
Dependiente
Mtrica
Dependiente
No Mtrica
Anlisis de Regresin
Anlisis de Supervivencia
MANOVA
Correlacin Cannica
Anlisis Discriminante
Regresin Logstica
Anlisis Conjoint
Modelos estructurales
Mtodos de
Interdependencia
Datos Mtricos
Datos No
Mtricos
A. Comp. Principales
Anlisis Factorial
Escalas Multidimensionales
Anlisis Cluster
Anlisis de Correspondencias
Modelos log-lineales
Escalas Multidimensionales
Anlisis Cluster
5
1. MTODOS DE DEPENDENCIA
Suponen que las variables analizadas estn divididas en dos grupos: las variables
dependientes y las variables independientes. El objetivo de los mtodos de dependencia
consiste en determinar si el conjunto de variables independientes afecta al conjunto de
variables dependientes y de qu forma.
1.1 Anlisis de Regresin
Es la tcnica adecuada si en el anlisis hay una o varias variables dependientes
mtricas cuyo valor depende de una o varias variables independientes mtricas.
Por ejemplo, intentar predecir el gasto anual en cine de una persona a partir de su
nivel de ingresos, nivel educativo, sexo y edad.
1.2Anlisis de Supervivencia
Es similar al anlisis de regresin pero con la diferencia de que la variable
Independiente es el tiempo de supervivencia de un individuo objeto.
Por ejemplo, intentar predecir el tiempo de permanencia en el desempleo de un
individuo a partir de su nivel de estudios y de su edad.
1.3 Anlisis de la varianza
Se utilizan en situaciones en las que la muestra total est dividida en varios grupos
basados en una o varias variables independientes no mtricas y las variables dependientes
analizadas son mtricas. Su objetivo es averiguar si hay diferencias significativas entre
dichos grupos en cuanto a las variables dependientes se refiere.

Por ejemplo, hay diferencias en el nivel de colesterol por sexos? Afecta, tambin,
el tipo de ocupacin?

1.4 Correlacin Cannica
Su objetivo es relacionar simultneamente varias variables mtricas dependientes e
independientes calculando combinaciones lineales de cada conjunto de variables que
maximicen la correlacin existente entre los dos conjuntos de variables.

Por ejemplo, analizar cmo est relacionado el tiempo dedicado al trabajo y al ocio
de una persona con su nivel de ingresos, su edad y su nivel de educacin
6

Si la variable dependiente es cualitativa algunas de las tcnicas que se pueden
aplicar son las siguientes:

1.5 Anlisis Discriminante
Esta tcnica proporciona reglas de clasificacin ptimas de nuevas observaciones de
las que se desconoce su grupo de procedencia basndose en la informacin proporcionada
los valores que en ella toman las variables independientes.

Por ejemplo, determinar los ratios financieros que mejor permiten discriminar entre
empresas rentables y poco rentables.

1.6 Modelos de regresin logstica
Son modelos de regresin en los que la variable dependiente es no mtrica. Se
utilizan como una alternativa al anlisis discriminante cuando no hay normalidad

1.7 Anlisis Conjoint
Es una tcnica que analiza el efecto de variables independientes no mtricas sobre
variables mtricas o no mtricas. La diferencia con el Anlisis de la Varianza radica en dos
hechos: las variables dependientes pueden ser no mtricas y los valores de las variables
independientes no mtricas son fijadas por el analista. En otras disciplinas se conoce con el
nombre de Diseo de Experimentos.

Por ejemplo, una empresa quiere disear un nuevo producto y para ello necesita
especificar la forma del envase, su precio, el contenido por envase y su composicin
qumica. Presenta diversas composiciones de estos cuatro factores. 100 clientes
proporcionan un ranking de las combinaciones que se le presentan. Se quiere determinar los
valores ptimos de estos 4 factores.

2) MTODOS DE INTERDEPENDENCIA
7
Estos mtodos no distinguen entre variables dependientes e independientes y su objetivo
consiste en identificar qu variables estn relacionadas, cmo lo estn y por qu.

Si los datos son mtricos, se pueden utilizar, entre otras, las siguientes tcnicas:

2.1 Anlisis Factorial (AF) y Anlisis de Componentes Principales (ACP)
Se utiliza para analizar interrelaciones entre un nmero elevado de variables mtricas
explicando dichas interrelaciones en trminos de un nmero menor de variables
denominadas factores (si son inobservables) o componentes principales (si son
observables). As, por ejemplo, si un analista financiero quiere determinar cul es el estado
de salud financiero de una empresa a partir del conocimiento de un nmero de ratios
financieros, construyendo varios ndices numricos que definan su situacin, el problema se
resolvera mediante un ACP. Si un psiclogo quiere determinar los factores que
caracterizan la inteligencia de un individuo a partir de sus respuestas a un test de
inteligencia, utilizara para resolver este problema un AF.

2.2 Escalas Multidimensionales
Su objetivo es transformar juicios de semejanza o preferencia en distancias representadas
en un espacio multidimensional. Como consecuencia, se construye un mapa en el que se
dibujan las posiciones de los objetos comparados de forma que aquellos percibidos como
similares estn cercanos unos de otros y alejados de objetos percibidos como distintos. Por
ejemplo, analizar, en el mercado de refrescos, las percepciones que un grupo de
consumidores tiene acerca de una lista de refrescos y marcas con el fin de estudiar qu
factores subjetivos utiliza un consumidor a la hora de clasificar dichos productos.

2.3 Anlisis Cluster
Su objetivo es clasificar una muestra de entidades (individuos o variables) en un nmero
pequeo de grupos de forma que las observaciones pertenecientes a un grupo sean muy
similares entre s y muy disimilares del resto. A diferencia del Anlisis Discriminante, en el
Anlisis Cluster se desconoce el nmero y la composicin de dichos grupos. Por ejemplo,
8
clasificar grupos de alimentos (pescados, carnes, vegetales y leche) en funcin de sus
valores nutritivos.
Si los datos fuesen no mtricos, se podran utilizar, adems de las Escalas
Multidimensionales y el Anlisis Cluster, las siguientes tcnicas:

2.4 Anlisis de Correspondencias
Se aplica a tablas de contingencia multidimensionales y persigue un objetivo similar al de
las escalas multidimensionales pero representando simultneamente las filas y columnas de
las tablas de contingencia. Por ejemplo, analizar el paro teniendo en cuenta la provincia,
sexo, edad y nivel de estudios del parado.

2.5 Modelos log-lineales
Se aplican a tablas de contingencias multidimensionales y modelizan relaciones de
dependencia multidimensional de las variables observadas que buscan explicar las
frecuencias observadas.

3) MTODOS ESTRUCTURALES
Suponen que las variables estn divididas en dos grupos: el de las variables dependientes y
el de las independientes. El objetivo de estos mtodos es analizar, no slo como las
variables independientes afectan a las variables dependientes, sino tambin cmo estn
relacionadas las variables de los dos grupos entre s.

Analizan las relaciones existentes entre un grupo de variables representadas por sistemas de
ecuaciones simultneas en las que se suponen que algunas de ellas (denominadas
constructos) se miden con error a partir de otras variables observables denominadas
indicadores.

Los modelos utilizados constan, por lo tanto, de dos partes:

Un modelo estructural, que especifica las relaciones de dependencia existente entre los
constructos latentes.
9
y un modelo de medida, que especifica como los indicadores se relacionan con sus
correspondientes constructos.
Por ejemplo, los Modelos Estructurales permiten analizar cmo se relacionan los niveles de
utilizacin de los servicios de una empresa con las percepciones que sus clientes tienen de
ella.

1.3 DETERMINAR CUAL TECNICA DEL ANALISIS MULTIVARIANTE Y
CUANDO ES APROPIADA PARA UN PROBLEMA ESPECIFICO, DANDO PARA
ELLO EJEMPLOS DEL AREA ADMINISTRATIVA

Para la aplicacin en un problema especifico, en el rea de administracin resulta adecuada
la implementacin de la tcnica de anlisis dependiente de tipo discriminante, debido a que
poya en la toma de decisiones dentro de la organizacin, control, direccin planeacin y
evaluacin de proyectos

Por ejemplo: en el departamento de proveedores de una empresa de seguridad privada se
realizan licitaciones en las cuales se evalan cada uno de los factores determinantes para la
obtencin de un buen desempeo de los servicios y materiales requeridos, despus de
evaluar cada uno de ellos se toma la decisin basada en cual es la que maneja el mejor
precio, tiempo de entrega, tiempo de vida, y cual es la que adapta a condiciones de la
empresa.
En vez de limitarse a ver las ventas en funcin de la publicidad, una compaa desea
emprender un anlisis que las considere como dependientes de diversas variables. por
ejemplo, nivel de la publicidad, numero de vendedores, precio e ingresos disponibles por
persona. en esta aplicacin conviene utilizar el anlisis de regresin mltiple el cual
describe la relacin lineal de mejor ajuste entre la variable dependiente y 2 o mas variables
independientes las x.




10
1.4 DEFINIR LA NATURALEZA DE LAS ESCALAS DE MEDICION Y SU
RELACION CON LAS TECNICAS MULTIVARIANTES.

Las variables, se pueden clasificar en uno de las escalas siguientes:
Nominal: Sus valores slo se pueden clasificar en clases (o categoras), no se pueden
ordenar de pequeo a grande o de menos a ms. Ejemplos: sexo, estado civil, profesin,
ocupacin.
Ordinal: Sus valores se pueden clasificar en categoras y se pueden ordenar en jerarquas
con respecto a la caracterstica que se evala. Ejemplos: nivel socioeconmico, Apgar,
puntaje Apache de Gravedad cardiaca, clase social, lugar en la clase.
De intervalo: Sus valores tienen un orden natural, es posible cuantificar la diferencia entre
dos valores de intervalo. Generalmente tienen unidad de medida. Una variable de intervalo
es discreta cuando slo puede tomar un valor entero (por ejemplo: nmero de hijos, veces
que se consult al establecimiento de salud); o bien es continua si puede tomar cualquier
valor en un intervalo (por ejemplo.: peso, talla, ndice de masa corporal, etc).
De proporcin: El cero representa la ausencia de la caracterstica que se evala. Ejemplos:
costo por atencin, adecuacin peso (edad).
ESCALAS DE MEDIDA
El anlisis de los datos implica la separacin, identificacin y medida de la variacin en un
conjunto de variables, tanto entre ellas mismas como entre una variable dependiente y una o
ms variables independientes. El trmino clave aqu es medida, dado que el investigador no
puede separar o identificar una variacin a menos que pueda ser mesurable. La medida es
importante para representar con precisin el concepto de nuestro inters y es crucial en la
seleccin del mtodo de anlisis multivariante apropiado. En los siguientes prrafos vamos a
discutir el concepto de medida en lo que se refiere al anlisis de datos y particularmente a las
diversas tcnicas multivariantes.
Existen dos tipos bsicos de datos: no mtricos (cualitativos) y mtricos (cuantitativos). Los
datos no mtricos son atributos, caractersticas o propiedades categricas que identifican o
describen a un sujeto. Describen diferencias en tipo o clase indicando la presencia o ausencia
de una caracterstica o propiedad. Muchas propiedades son discretas porque tienen una
11
caracterstica peculiar que excluye todas las dems caractersticas. Por ejemplo, si uno es
hombre, no puede ser mujer; No hay cantidad de gnero, slo la condicin de ser hombre o
mujer. Por el contrario, las medidas de datos mtricos estn constituidas de tal forma que los
sujetos pueden ser identificados por diferencias entre grado o cantidad. Las variables medidas
mtricamente reflejan cantidades relativas o grado. Las medidas mtricas son las ms
apropiadas para casos que involucran cantidad o magnitud, tales como el nivel de satisfaccin
o la demanda de trabajo.
Escalas de medidas no metricas
Las medidas no mtricas pueden tener escalas nominales u ordinales. La medida con una
escala nominal asigna nmeros que se usan para etiquetar o identificar sujetos u objetos. Las
escalas nominales, tambin conocidas como escalas de categora, proporcionan el nmero de
ocurrencias en cada clase o categora de la variable que se est estudiando. Por tanto, los
nmeros o smbolos asignados a los objetos no tienen ms significado cuantitativo que indicar
la presencia o ausencia del atributo o caracterstica bajo investigacin. Los ejemplos de datos
con escala nominal incluyen el sexo, la religin o el partido poltico de una persona. Para
trabajar con estos datos, el analista puede asignar nmeros a cada categora, por ejemplo, 2
para mujeres y 1 para hombres. Estos nmeros slo representan categoras o clases y no
implican cantidades de un atributo o caracterstica.
Las escalas ordinales representan un nivel superior de precisin de la medida. Las variables
pueden ser ordenadas o clasificadas con escalas ordinales en relacin a la cantidad del atributo
posedo. Cada subclase puede ser comparada con otra en trminos de una relacin de mayor
que o menor que. Por ejemplo. los diferentes niveles de satisfaccin del consumidor
individual con diferentes productos nuevos puede ilustrarse en una escala ordinal. La siguiente
escala muestra la idea que tiene un encuestado acerca de tres productos. El encuestado est
ms satisfecho con A que con B y ms satisfecho con B que con C.
Los nmeros utilizados en escalas ordinales como stas no son cuantitativos, dado que indican
slo posiciones relativas en series ordenadas. No hay medida de cunta satisfaccin recibe el
consumidor en trminos absolutos, el investigador ni conoce la diferencia exacta entre puntos
de la escala de satisfaccin. Muchas escalas de las ciencias del comportamiento caen dentro de
esta categora ordinal.
12
Escalas de medidas mtricas
Las escalas de intervalos y de razn (ambas mtricas) proporcionan el nivel ms alto de
medida de precisin, permitiendo realizar casi todas las operaciones matemticas. Estas dos
escalas tienen unidades constantes de medida, de tal forma que las diferencias entre dos
puntos adyacentes de cualquier parte de la escala son iguales. La nica diferencia real entre las
escalas de intervalo y las de razn es que las de intervalo tienen un punto cero arbitrario,
mientras que las escalas de razn tienen un punto de cero absoluto. Las escalas de intervalo
ms familiares son las escalas de temperatura Celsius y Fahrenheit. Ambas tienen un punto de
cero arbitrario, pero ese cero no indica una cantidad cero o ausencia de temperatura, dado que
podemos registrar temperaturas por debajo del punto cero de esa escala. Por tanto, no es
posible decir que un valor cualquiera situado en un intervalo de la escala es un mltiplo de
cualquier otro punto de la escala. Por ejemplo, si un da se registran 80F, no se puede decir
que sea dos veces ms caluroso que uno de 40F porque sabemos que 80F, en una escala
diferente como Celsius, equivalen a 26,7C. De la misma forma, 40F en Celsius
corresponden a 4,4C. Aunque 80F son, desde luego, dos veces 40F, no se puede afirmar
que el calor de 80F sea dos veces el calor de 40F porque usando diferentes escalas, el calor
no es dos veces mayor; esto es, 4,4F X 2 '* 26,7C.
Las escalas de razn representan la forma superior de medida de precisin, dado que poseen
las ventajas de todas las escalas inferiores ms un punto de cero absoluto. Con las medidas de
escala de razn se permiten todas las operaciones matemticas. El peso que tenemos en el
bao u otras mquinas de peso comunes utilizan estas escalas, dado que tienen un punto de
cero absoluto y que pueden ser expresados en trminos de mltiplos cuando se relaciona un
punto con otro de la escala; por ejemplo, 100 kilos es dos veces ms pesado que 50 kilos.
Es importante entender los diferentes tipos de escalas de medida por dos razones. En primer
lugar, el investigador debe identificar la escala de medida de cada variable empleada, de tal
forma que no se estn utilizando datos no mtricos como si fueran mtricos. En segundo lugar,
la escala de medida es crucial para determinar qu tcnica multivariante es la ms conveniente
para los datos, consideracin hecha tanto para las variables dependientes como las
independientes. En la discusin de las tcnicas y su clasificacin, que haremos en posteriores
secciones de este captulo, las propiedades mtricas o no mtricas de las variables
13
dependientes o independientes son los factores determinantes en la seleccin de la tcnica
apropiada.
Error de medida y medidas multivariantes
El uso de mltiples variables as como la dependencia de su combinacin (el valor terico) en
las tcnicas multivariantes tambin dirige su atencin a un tema complementario, el error de
medida.
El error de medida es el grado en que los valores observados no son representativos de los
valores verdaderos. El error de medida tiene mltiples fuentes, que van desde errores en la
entrada de datos a la imprecisin en la medicin (por ejemplo, imponiendo escalas de
puntuacin de siete puntos a la actitud medida cuando el investigador sabe que los
encuestados slo pueden responder con precisin a una puntuacin de tres puntos) pasando
por la incapacidad de los encuestados a proporcionar informacin precisa (por ejemplo, las
respuestas a la renta de una economa familiar pueden ser razonablemente precisas pero rara
vez lo son completamente). Por tanto, se debe asumir que todas las variable usadas en las
tcnicas multivariantes tienen algn grado de error de medida. El impacto del error de medida
es aadir ruido a las variables medidas u observadas. Por tanto, el valor observado obtenido
representa tanto el nivel verdadero como el ruido. Cuando se calculan correlaciones o
medias, normalmente el efecto verdadero est parcialmente camuflado por el error de
medida, causando la debilidad de las correlaciones y la prdida de precisin de las medias.
El objetivo del investigador de reducir el error de medida puede seguir varios caminos. Al
valorar el grado de error de medida presente en cualquier medicin, el analista debe
enfrentarse tanto con la validez como con la fiabilidad de la medida. La validez es el grado en
que la medida representa con precisin lo que se supone que representa. Por ejemplo, si
queremos medir la renta discrecional, no preguntaremos por la renta total de las economas
domsticas. Asegurar la validez empieza con un conocimiento profundo de lo que se va a
medir y slo entonces realizar la medida tan correcta y precisa como sea posible. Sin
embargo, la precisin no asegura la validez. En nuestro ejemplo de la renta, el investigador
podra definir muy precisamente el total de la renta familiar pero no tiene una medida vlida
de la renta discrecional porque no se ha planteado la pregunta correcta.
14
Si la validez est asegurada, el investigador debe considerar la fiabilidad de las medidas. La
fiabilidad es el grado en que la variable observada mide el valor verdadero y est libre de
error; por tanto es lo opuesto al error de medida. Si la misma medida se realiza repetidas
veces, por ejemplo, las medidas ms fiables mostrarn una mayor consistencia que las
medidas menos fiables. El investigador deber valorar siempre las variables que estn siendo
usadas y si se pueden encontrar medidas alternativas vlidas, elegir la variable con la mayor
fiabilidad.
El investigador puede tambin optar por desarrollar mediciones multivariantes, tambin
conocidas como escalas sumadas, donde diversas variables se unen en una medida compuesta
para representar un concepto (por ejemplo, una escala de personalidad de entrada mltiple o
puntuaciones sumadas de un producto). El objetivo es evitar usar slo una nica variable para
representar un concepto, y en su lugar utilizar varias variables como indicadores,
representando todos ellos diferentes facetas del concepto para obtener una perspectiva ms
completa. El uso de indicadores mltiples permite al investigador llegar a una especificacin
ms precisa de las respuestas deseadas y no deja la fiabilidad plena a una nica respuesta sino
en la respuesta media o tpica de un conjunto de respuestas relacionadas. Por ejemplo, al
medir la satisfaccin, uno podra preguntar una nica cuestin, cul es su grado de
satisfaccin?, y basar el anlisis en una nica respuesta. O se podra desarrollar una escala
aditiva que combinara varias respuestas de satisfaccin, quiz en diferentes formatos de
respuesta y en diferentes reas de inters, que contemple la satisfaccin total. La premisa
bsica es que las respuestas mltiples reflejan con mayor precisin la respuesta verdadera
que la respuesta nica.
El impacto del error de medida y la escasa fiabilidad no pueden ser observadas directamente,
dado que se encuentran en las variables observadas. El investigador debe, por tanto, trabajar
siempre para aumentar la validez y la fiabilidad, lo que al final llevar a un retrato ms
autntico de las variables de inters. Los malos resultados no siempre se deben al error de
medida, pero la presencia del error de medida es garanta de distorsin en las relaciones
observadas y hace menos poderosas las tcnicas multivariantes. Reducir el error de medida,
aunque implique esfuerzo, tiempo y recursos adicionales, puede mejorar resultados dbiles o
marginales, as como fortalecer resultados probados.

15

UNIDAD 2: Anlisis de Factores.

2.1 EXPLICAR CON SUS PROPIAS PALABRAS EN QUE CONSISTE LA
TECNICA DE ANALISIS DE FACTORES.

Es una tcnica de anlisis estadstico multivariado que sirve para explicar un problema que
est en funcin de algunas variables. Este determina el nmero y naturaleza de un grupo de
constructor subyacentes en un conjunto de mediciones (un constructo es un atributo para
explicar un fenmeno), como tambin sirve para generar variables artificiales tambin
llamadas factores que representan a un constructor. Estos factores se obtienen de las
variables originales y deben de ser interpretadas de acuerdo con estas.

Este mtodo busca factores que expliquen la mayor parte de la varianza comn. La varianza
comn es la parte de la variacin de la variable que es compartida con las otras variables.
La varianza nica es la parte de la variacin de la variable que es propia de esa variable.
El Anlisis Factorial (mtodo factor principal) supone que existe un factor comn
subyacente a las variables.
Consiste en resumir la informacin contenida en una matriz de datos con V variables. Para
ello se identifican un reducido nmero de factores F, siendo el nmero de factores menor
que el nmero de variables. Los factores representan a la variables originales, con una
prdida mnima de informacin.
El modelo del Anlisis Factorial se expresa como una combinacin lineal de factores no
directamente observables: Xij = F1i ai1 + F2i ai2+....+Fki aik + Vi.

El anlisis factorial es una tcnica que consiste en resumir la informacin contenida en una
matriz de datos de m variables (

X
1
, X
2
, ...

X
m
). Para ello se identifican un reducido
nmero de factores, menor que el nmero de variables. Los factores representarn a las
variables, con una prdida mnima de informacin.
16
Si concretamos a un modelo de 5 variables observadas de las que llegamos a 2 factores
subyacentes, la expresin algebraica y grfica
del modelo sera:

X
1
= a
11
F
1
+ a
12
F
2
+ d
1
V
1
X
2
= a
21
F
1
+ a
22
F
2
+ d
2
V
2

X
3
= a
31
F
1
+ a
32
F
2
+ d
3
V
3
X
4
= a
41
F
1
+ a
42
F
2
+ d
4
V
4
X
5
= a
51
F
1
+ a
52
F
2
+ d
5
V
5


En general el modelo factorial
se puede expresar:
X
i j
= F
i 1
a
j1
+ F
i 2
a
j 2
+ ... + F
i k
a
j k
+ V
i j
d
j

Siendo
X
i j
la puntuacin del individuo i en la variable j
F
k
el k-esimo factor comn
a
j k
puntuaciones factoriales es el peso de la regresin del factor k en la variable j.
Tambin se las llama cargas factoriales o saturacin de la variable j en el factor k
V
j
es el factor nico de cada variable
d
j
es la discrepancia existente entre la puntuacin observada y el valor que dara la
relacin funcional exacta
Se asume que los factores nicos no estn correlacionados entre s ni con los factores
comunes.
Se puede distinguir entre Anlisis Factorial exploratorio, donde no se conocen los factores
"a priori", que se calculan mediante el anlisis Factorial y anlisis Factorial Confirmatorio
donde se propone "a priori" un modelo, segn el cual hay unos factores que representan a
las variables originales, siempre hay mas variables que factores y se somete a
comprobacin el modelo.
17
Para que el anlisis factorial tenga sentido hacen falta dos condiciones: Parsimonia e
interpretabilidad. Segn el principio de parsimonia los fenmenos deben explicarse con el
menor nmero de elementos posibles, por lo que cuanto menos factores tengamos mejor.
Pero adems estos factores deben poder ser interpretados mediante teora sustantiva. Una
buena solucin factorial es siempre sencilla e interpretable.
El mtodo de Anlisis de factores exploratorios (EFA) es una tcnica que se puede utilizar
para descubrir la estructura subyacente (dimensiones) de un grupo grande de variables. Por
lo tanto, el EFA reduce un grupo grande de variables en un par de factores subyacentes.

Ejemplo: Usted ha instalado un cuestionario sobre la satisfaccin de cliente en la industria
de la aviacin civil (United Airlines, Delta, Lufthansa). Usted ha identificado 30 items para
describir y para evaluar la satisfaccin de cliente (e.g. conveniencia de boletos que
compran, conveniencia de revisando en, entorno de los salones, cordialidad de los
asistentes de vuelo, satisfaccin de deseos especiales, calidad del alimento de a bordo,
de la comodidad de los asientos, ofertas especiales tales como proyeccin de pelculas,
de la exactitud de la llegada). Usando el EFA usted puede reducir el grupo de 30 items
dentro de un proceso que analiza un par de los factores centrales que fueron la base de su
grupo de items. Usted puede considerar, por ejemplo, que los items conveniencia de
boletos que compran, conveniencia de chequeo, entorno de los salones, calidad del
alimento de a bordo, comodidad de los asientos y ofertas especiales tales como
proyeccin de pelculas son parte de una dimensin potencial. Las cosas tangibles que las
lneas areas pueden realizar para conducir su negocio. Sin embargo, la cordialidad de los
asistentes de vuelo, los la satisfaccin de deseos especiales y la exactitud de la llegada
son ms bien una dimensin de un proceso.

Eso significa que el EFA est descifrando estas estructuras - en nuestro ejemplo, el factor
potencial y proceso. Los gerentes ahora pueden conseguir una comprensin ms profunda
para desarrollar las actividades de marketing que se mejoren la satisfaccin de sus clientes
centrndose ms en la dimensin potencial o en la dimensin proceso.
18
Uso del Anlisis de factores exploratorios. Aplicaciones
- Encuestas sobre satisfaccin de cliente.
- Mediciones de Calidad del servicio.
- Pruebas de personalidad.
- Encuestas sobre imagen.
- Identificacin de segmentos de mercado.
- Tipificacin de Clientes, productos o comportamientos.

2.2 DIFERENCIAR LA TCNICA DE ANLISIS DE FACTORES DE OTRAS
TCNICAS DE ANLISIS DE FACTORES

Es un mtodo estadstico multivariado para determinar el nmero y naturaleza de un grupo
de constructo subyacentes en un conjunto de mediciones. Un constructo es un atributo para
explicar un fenmeno (Wiersma, 1986). En este anlisis se generan variables artificiales
(denominadas factores) que representan constructor. Los factores se obtienen de las
variables originales y deben ser interpretados de acuerdo con estas. Como menciona Naghi
(1984), en una tcnica para explicar un fenmeno complejo en funcin de unas cuantas
variables

Es un procedimiento estadstico que crea un nuevo conjunto de variables no
correlacionadas entre s, llamadas factores subyacentes o factores comunes, con la
esperanza de que estas nuevas variables proporcionen una mejor comprensin de los datos.

Uno de los objetivos bsicos del anlisis de factores es determinar si las P variables
respuesta exhiben patrones de relacin entre s, de tal manera que las variables se puedan
dividir en m grupos, y que cada grupo conste de variables altamente correlacionadas entre
s, pero bajamente correlacionadas con variables de otros grupos.

Los OBJETIVOS del anlisis de factores son:

19
1) Determinar si existe un conjunto ms pequeo de variables no correlacionadas que
expliquen las relaciones que existen entre las variables originales.

2) Determinar el nmero de variables (diferentes) subyacentes.

3) Interpretar estas nuevas variables.

4) Evaluar a los individuos del conjunto de datos sobre estas nuevas variables.

5) Usar estas nuevas variables en anlisis estadsticos posteriores.

- No es una tcnica de dependencia (no hay seleccin a priori de dependiente y
exgenas), es una Tcnica de Interdependencia

No es una tcnica de agrupacin: Aunque puede aplicarse con fines de agrupacin sobre
matrices de correlaciones entre objetos / sujetos (Factorial Q), lo habitual es su aplicacin
sobre matrices de correlaciones entre variables (Factorial R).
Mtodo 1 - AF de Componentes Principales (ACP)
El mtodo de componentes principales se basa en suponer que los factores comunes
explican el comportamiento de las variables originales en su totalidad de manera que el
modelo es:
X = Lf
Las comunalidades iniciales de cada variable son igual a 1, porque el 100% de la
variabilidad de las p variables se explicar por los p factores. Evidentemente, carecera de
inters sustituir las p variables originales por p factores que, en ocasiones, son de difcil
interpretacin. No obstante, si las correlaciones entre las p variables fuesen muy altas, sera
de esperar que unos pocos factores explicasen gran parte de la variabilidad total.
Supongamos que decidimos seleccionar r factores. La comunalidad final de cada variable
20
indicar la proporcin de variabilidad total que explican los r factores finalmente
seleccionados.
La estimacin de los coeficientes l
j
se obtiene diagonalizando la matriz de correlaciones.
Mtodo 2 - AF de Ejes Factoriales (PAF)
En este mtodo partimos de la base de que slo una parte de la variabilidad total de cada
variable depende de factores comunes y, por tanto, la comunalidad inicial no ser 1. Estima
dichas comunalidades mediante los coeficientes de determinacin mltiple de cada variable
con el resto. Se sustituyen estos valores en la diagonal principal de la matriz R
*
y se
procede a efectuar un ACP. Una vez obtenido el resultado, se estiman de nuevo las
comunalidades, se vuelven a sustituir en la diagonal principal de la matriz R
*
y el proceso
se retroalimenta hasta alcanzar un criterio de parada (por ejemplo cuando la diferencia entre
lasa comunalidades de dos iteraciones sucesivas sea menor que una cantidad prefijada).
La eleccin de uno u otro mtodo (ACP o PAF) depende de los objetivos del AF. As el
ACP es adecuado cuando el objetivo es resumir la mayora de la informacin original
(varianza total) con una cantidad mnima de factores con propsitos de prediccin. El AFC
resulta adecuado para identificar los factores subyacentes o las dimensiones que reflejan
qu tienen en comn las variables. El inconveniente del mtodo PAF es que el clculo de
las comunalidades requiere mucho tiempo y muchos recursos informticos y, adems, no
siempre se pueden estimar o, incluso, pueden ser no vlidas (comunalidades menores que 0
o mayores que 1).
Empricamente, se llega a resultados muy parecidos cuando el nmero de variables excede
de 30 o las varianzas compartidas exceden de 0.6 para la mayora de las variables.
2.3 APLICAR LA TCNICA DE ANLISIS DE FACTORES A UN PROBLEMA
ESPECFICO DEL REA ADMINISTRATIVA
Ejemplo 1:
Se desea extrapolar de la provincia al municipio, un modelo de regresin
explicativo del nivel de renta disponible funcin de una serie de manifestaciones de esa
21
renta. Para ello, se parte de un amplio conjunto de variables provinciales y para los 8.000
municipios espaoles.

Recaudacin de los distintos impuestos directos e indirectos
Tasa de paro y actividad
Generacin neta de empleo
Kilmetros de carreteras de cada tipo en servicios
Kilmetros de lnea frrea en servicio
Nmero de vehculos de distintos tipos por habitante
Lneas telefnicas por cada 100 habitantes
Camas hospitalarias por cada 1000 habitantes
Empresas creadas y cerradas en el ao
ndice de precios al consumo
ndice de precios industriales
ndice de comercio al por menor
Licencias fiscales concedidas
.etc

Con el fin de poder abordar con grados de libertad suficiente la estimacin del
modelo de renta, la informacin relativa a estas variables se intenta resumir en tres factores,
sin perder excesiva informacin y logrando una incorrelacin muy conveniente. El factorial
arroj tres factores cuyos significados se asociaron a:

Factor 1: Factor de renta y riqueza personal - familiar
Factor 2: Factor de salud y desarrollo del mercado laboral
Factor 3: Factor de desarrollo infraestructural



22
Ejemplo 2
Un ejemplo del uso de esta tcnica lo constituye la investigacin realizada por
Panigua (1988) con la colaboracin de los autores. El estudio pretenda analizar los factores
que determinan la relacin entre los vendedores y los compradores industriales de la ciudad
de Mxico. Se midieron diversas variables entre las que destacan: coordinacin (Coord.),
conflicto (Conf.), frecuencia de la relacin comprador-vendedor (FREC.), reciprocidad
econmica en la relacin (RF2), reciprocidad en el manejo de consideraciones
administrativas (RF1) e importancia de la relacin (monto de operaciones) (impor.). Los
resultados se muestran en la tabla.

Obsrvese que debajo de las columnas FI a FVI aparecen unos coeficientes que
corresponden a los tems de una escala. Si estos coeficientes son medios o elevados se dice
que los tems cargan o forman parte del factor correspondiente. Por ejemplo, los tems 23,
24, 25, 26 cargan en el primer factor (obtienen valores de .84392, .71642, .67853, y .74737,
respectivamente) y no cargan en otros factores (tienen valores bajos). As, descubrimos una
estructura de seis factores en 19 tems. Los factores reciben un nombre para saber que
constructor se encuentran subyacentes. El anlisis de factores tambin proporciona la
varianza explicada y puede explicarse grficamente en las coordenadas X y Y. La tcnica
es compleja y debe conocerse muy bien. Es sumamente til para la validez de constructo.
Las variables deben estar medidas en un nivel por intervalos o razn.











23






















24
Se intentan conocer los determinantes de los ingresos de la ocupacin principal de los
asalariados. Dado que se supone que estos estn asociados a un conjunto de caractersticas
de la persona y del puesto. Dado que el conjunto de variables es grande y se sospecha que
algunas de ellas estn muy relacionadas, por lo que parece conveniente antes del anlisis
intentar determinar si existen subconjuntos diferenciados de ellas.
2.4 EXPLICAR QUE ES UN FACTOR, PUNTAJE Y CARGAS DE FACTOR.
FACTOR Variable que se incluye en un modelo con el propsito de explicar la variacin
en la variable respuesta. Ver variable independiente o explicativa.
Cubre una serie de anlisis factoriales de componentes principales y anlisis de
correspondencias que tengan especificaciones comunes. Da la posibilidad de ejecutar, con
una sola lectura de datos, los anlisis factoriales de correspondencias, de productos
escalares, de productos escalares normados, de covariancias y de correlaciones.
Para cada anlisis, el programa construye una matriz que representa las relaciones entre las
variables y calcula sus valores propios y sus vectores propios. Despus calcula los factores
de "caso" y "variable" que dan, para cada "caso" y "variable", su ordenada, su calidad de
representacin y su contribucin a los factores. Tambin se puede imprimir una
representacin grfica de los factores con opciones ordinarias o simplicio-factoriales.

PUNTUACIONES FACTORIALES
Una vez que se tienen los factores puede interesar conocer que puntuacin obtendran los
sujetos en estos factores. Para contestar a esto hay que calcular lo que se conoce como
puntuaciones factoriales de cada individuo.
El clculo de las puntuaciones factoriales se realiza a partir de la matriz factorial rotada y se
basa en el modelo de la regresin mltiple, de acuerdo con la frmula:

F
ij
= P
i1
Z
l
+P
i2
Z
2
+ .... + P
i r
Z
r


Fij= en la puntuacin factorial del individuo j en el factor i.
Pil es la ponderacin factorial de la variable l en el factor i.
25
Zl son las puntuaciones tpicas del sujeto con cada variable.
Las puntuaciones factoriales exactas slo pueden calcularse estrictamente cuando el mtodo
de extraccin ha sido el de Anlisis de Componentes Principales. Con los otros mtodos
slo podrn hacerse estimaciones por medio de algn mtodo correlacionado.
Puntaje de factor
Una vez que se tienen los factores puede interesar conocer que puntuacin obtendran los
sujetos en estos factores. Para contestar a esto hay que calcular lo que se conoce como
puntuaciones factoriales de cada individuo.
El clculo de las puntuaciones factoriales se realiza a partir de la matriz factorial rotada y
se basa en el modelo de la regresin mltiple, de acuerdo con la frmula:

Fij= en la puntuacin factorial del individuo j en el factor i.
Pil es la ponderacin factorial de la variable l en el factor i.
Zl son las puntuaciones tpicas del sujeto con cada variable.
Las puntuaciones factoriales exactas slo pueden calcularse estrictamente cuando el
mtodo de extraccin ha sido el de Anlisis de Componentes Principales. Con los otros
mtodos slo podrn hacerse estimaciones por medio de algn mtodo correlacionado.
Una vez estimados los factores comunes, es importante calcular las puntuaciones de los
sujetos (individuos u objetos) investigados para saber cunto puntan en cada factor. As,
podremos:
- Sustituir los valores de las p variables originales para cada sujeto de la muestra por
las puntuaciones factoriales obtenidas. En la medida en que el nmero de factores es
menor que el nmero de variables iniciales, si el porcentaje de explicacin de la
varianza total fuese elevado, dichas puntuaciones factoriales podran sustituir a las
variables originales en muchos problemas de anlisis o prediccin. Adems, muchas
tcnicas estadsticas se ven seriamente afectadas por la correlacin entre las
variables originales. En la medida en que las puntuaciones factoriales estn
incorrelacionadas podrn utilizarse en ulteriores anlisis.
26
- Colocar a cada sujeto en una determinada posicin en el espacio factorial y conocer
qu sujetos son los ms raros o extremos, dnde se ubican ciertos grupos de la
muestra, los ms jvenes frente a los mayores; los de clase alta frente a los de clase
media o baja; los creyentes frente a los no creyentes, etc obteniendo en qu factores
sobresalen unos y otros.
Cargas factoriales:
Coeficientes bsicos para determinacin contenido conceptual de los factores en
anlisis exploratorio.
Las cargas factoriales de un factor con las variables estn cerca de 0 de 1. As, las
variables con cargas prximas a 1 se explican en gran parte por el factor, mientras que las
que tengan cargas prximas a 0 no se explican por el factor. Una variable debe tener cargas
factoriales elevadas con un slo factor. Es deseable que la mayor parte de la variabilidad de
una variable sea explicada por un solo factor. No debe haber factores con similares cargas
factoriales As, si con la solucin inicial no se consiguiese una fcil interpretacin de los
factores, stos pueden ser rotados de manera que cada una de las variables tenga una
correlacin lo ms prxima a 1 con un factor y a 0 con el resto de factores. Como hay
menos factores que variables, conseguiremos que cada factor tenga altas correlaciones con
un grupo de variables y baja con el resto. Si examinsemos las caractersticas de las
variables de un grupo asociado a un factor, se podran encontrar rasgos comunes que
permitan identificar el factor y darle una denominacin que responda a esos rasgos
comunes. As, conseguiremos desvelar la naturaleza de las interrelaciones existentes entre
las variables originales.

2.5 EXPLICAR EN QUE CONSISTE EL ANLISIS DE COMPONENTES
PRINCIPALES

El anlisis de componentes principales se ocupa de explicar la estructura de variabilidad de
un conjunto de datos a travs de unas cuantas combinaciones lineales de las variables
originales.
Sus objetivos son reducir datos y eliminar variables aleatorias irrelevantes.

27
El Anlisis de Componentes Principales trata de hallar componentes (factores) que
sucesivamente expliquen la mayor parte de la varianza total.
Mientras que el Anlisis de Componentes Principales busca hallar combinaciones lineales
de las variables originales que expliquen la mayor parte de la variacin total

El anlisis de componentes principales se ocupa de explicar la estructura de variabilidad de
un conjunto de datos a travs de unas cuantas combinaciones lineales de las variables
originales.
Sus objetivos son reducir datos y eliminar variables aleatorias irrelevantes.
e es s u un na a c co om mb bi in na ac ci i n n l li in ne ea al l d de e v va ar ri ia ab bl le es s p pt ti im ma am me en nt te e p po on nd de er ra ad da as s. .
c c1 1 = = b b1 11 1 ( (x x1 1) ) + + b b1 12 2 ( (x x2 2) ) + + . .. . b b1 1p p ( (x xp p) )
d do on nd de e: :
c1 es el puntaje del sujeto respondente en el componente extrado (creado) por el
procedimiento que analiza la matriz de correlaciones entre las variables observadas.
b b1 1p p e es s e el l c co oe ef fi ic ci ie en nt te e d de e r re eg gr re es si i n n a as so oc ci ia ad do o c co on n c ca ad da a v va ar ri ia ab bl le e n n
x xp p e es s e el l p pu un nt ta aj je e o ob bs se er rv va ad do o p pa ar ra a e el l s su uj je et to o e en n c ca ad da a v va ar ri ia ab bl le e p p

Proporciona la estructura interna, las dimensiones subyacentes, el transformado de un
conjunto amplio de variables, elaborando una estructura ms simple, con menos
dimensiones, que proporcione la misma informacin y permita globalizar as el
entendimiento del fenmeno.

Simplifica la modelizacin convirtiendo, por eliminacin de redundancias expresadas en
altas correlaciones entre variables, un amplio conjunto de variables en factores
"estructurales".

El anlisis de componentes principales (ACP), es una tcnica estadstica de vieja data ya
que fue propuesta a principios del siglo pasado por Karl Pearson como parte del anlisis de
factores. Sin embargo la complejidad de los clculos retrasaron su desarrollo hasta la
aparicin de los computadores y su utilizacin en la segunda mitad del siglo XX. El
relativamente reciente florecimiento de los mtodos basados en componentes principales
28
hace que ellos sean poco utilizados por una gran cantidad de investigadores no especialistas
en estadstica.
El propsito de estas notas es divulgar la naturaleza del ACP y mostrar algunas de sus
posibles aplicaciones.
Podra decirse que el objetivo principal que persigue el ACP es la representacin de las
medidas numricas de varias variables en un espacio de pocas dimensiones donde nuestros
sentidos puedan percibir relaciones que de otra manera permaneceran ocultas en
dimensiones superiores. Dicha representacin debe ser tal que al desechar dimensiones
superiores (generalmente de la tercera o cuarta en adelante) la prdida de informacin sea
mnima. Un smil podra ilustrar la idea: imaginemos una gran lmina rectangular (objeto
de tres dimensiones) de por ejemplo, 3m de larga, 2m de ancha y 4 cm de espesor. Para
efectos prcticos, dicha lmina puede ser considerara como un objeto plano (de dos
dimensiones) de 3m de largo por 2m de ancho. Al realizar esta reduccin de
dimensionalidad se pierde cierta cantidad de informacin ya que, por ejemplo, puntos
opuestos situados en las dos caras de la lmina aparecern confundidos en un solo. Se
pierden las distancias perpendiculares a las caras. Sin embargo, la prdida de informacin
se ve ampliamente compensada con la simplificacin realizada, ya que muchas relaciones,
como la vecindad entre puntos, es ms evidente cuando stos se dibujan sobre un plano que
cuando se hace mediante una figura tridimensional que necesariamente debe ser dibujada
en perspectiva.
Lo anterior, aunque sugiere que el ACP es una tcnica descriptiva, no niega la posibilidad
de que tambin pueda ser utilizado con fines de inferencia. Por otra parte, las aplicaciones
del ACP son numerosas y entre ellas podemos citar la clasificacin de individuos, la
comparacin de poblaciones, la estratificacin multivariada, etc.
Principios del ACP
En las lneas que siguen se presentarn los fundamentos del ACP, tratando de reducir al
mnimo el aparato matemtico formal que lo sustenta, sto en aras de la sencillez y la
brevedad y con el fin de que el tema sea adecuado a pblicos de mediana preparacin en
matemticas.
29
Comencemos con un sencillo ejemplo ficticio en dos dimensiones. Supngase que se mide
el peso en kilogramos y la longitud en centmetros de 20 peces y que se obtiene?

El Anlisis de Componentes Principales (ACP) es una tcnica estadstica de sntesis de la
informacin, o reduccin de la dimensin (nmero de variables). Es decir, ante un banco de
datos con muchas variables, el objetivo ser reducirlas a un menor nmero perdiendo la
menor cantidad de informacin posible.

Los nuevos componentes principales o factores sern una combinacin lineal de las
variables originales, y adems sern independientes entre s.
Un aspecto clave en ACP es la interpretacin de los factores, ya que sta no viene dada a
priori, sino que ser deducida tras observar la relacin de los factores con las variables
iniciales (habr, pues, que estudiar tanto el signo como la magnitud de las correlaciones).
Esto no siempre es fcil, y ser de vital importancia el conocimiento que el experto tenga
sobre la materia de investigacin.

Buscan hallar combinaciones lineales de las variables originales que expliquen la mayor
parte de la variacin total, el primer factor o componente seria aquel que explica una mayor
parte de la varianza total, el segundo factor seria aquel que explica la mayor parte de la
varianza restante y as sucesivamente

Fases de un anlisis de componentes principales

Anlisis de la matriz de correlaciones
Un anlisis de componentes principales tiene sentido si existen altas correlaciones entre las
variables, ya que esto es indicativo de que existe informacin redundante y, por tanto,
pocos factores explicarn gran parte de la variabilidad total.

Seleccin de los factores
La eleccin de los factores se realiza de tal forma que el primero recoja la mayor
proporcin posible de la variabilidad original; el segundo factor debe recoger la mxima
30
variabilidad posible no recogida por el primero, y as sucesivamente. Del total de factores
se elegirn aquellos que recojan el porcentaje de variabilidad que se considere suficiente. A
stos se les denominara componentes principales.

Anlisis de la matriz factorial
Una vez seleccionados los componentes principales, se representan en forma de matriz.
Cada elemento de sta representa los coeficientes factoriales de las variables (las
correlaciones entre las variables y los componentes principales). La matriz tendr tantas
columnas como componentes principales y tantas filas como variables.

Interpretacin de los factores
Para que un factor sea fcilmente interpretable debe tener las siguientes caractersticas, que
son difciles de conseguir:
Los coeficientes factoriales deben ser prximos a 1.
Una variable debe tener coeficientes elevados slo con un factor.
No deben existir factores con coeficientes similares.
Son las puntuaciones que tienen los componentes principales para cada caso, que nos
permitirn su representacin grfica.
2.6 EXPLICAR EL MODELO DE FACTOR COMUN.
Entidad que tiene influencia sobre ms de una variable observada se denomina factor
comn por que ms de una variable lo tiene en comn.
Para identificar la estructura factorial subyacente a un conjunto de variables observadas la
nica tcnica apropiada es el anlisis factorial. Es decir, solo esta tcnica permite identificar
el nmero y naturaleza de factores latentes a las que se puede atribuir la covariacion en el
conjunto de datos.

Variable latente hipottica a la que se atribuye al covariacion de dos o ms variables
observadas.
La variacin explicada por los factores comunes es aquella que se deriva de la varianza
comn o compartida entre dos o as variables y que corresponde al concepto de
31
comunalidad. La comunalidad se define como el porcentaje de varianza en una variable
observada que se atribuye a los factores retenidos despus de la extraccin.
La porcin restante de varianza (la que no es compartida) se considera varianza nica de las
variables.
Este es el primer caso y se emplea para factorizar una expresin en la cual todos los
trminos tienen algo en comn (puede ser un nmero, una letra, o la combinacin de los
dos). Ejemplo:

Factor Comn por agrupacin de trminos
Aqu utilizaremos el caso anterior, adicionando que uniremos los factores que se parezcan,
es decir, los que tengan un factor comn. Ejemplo:







En una expresin de multiplicacin tenemos los siguientes componentes:

a x b = ab

En muchas ocasiones es necesario escribir un producto ya obtenido en trmino de sus
factores. A este proceso lo conocemos como factorizacin.
Cuando estudiamos las expresiones algebraicas en los captulos 1 y 2 estudiamos la
factorizacin mediante mximo factor comn.
Ejemplo I: Factoriza 4x
2
- 12x + 6 = 2 (2x
2
- 6x + 3)
Sin embargo, en este caso solamente buscbamos el mximo factor comn entre los
coeficientes numricos. Ahora veremos algunos ejemplos donde la variable o variables
32
tambin forman parte del mximo factor comn. En este caso la variable deber estar en
todos los trminos del polinomio.
Ejemplo 2: Factoriza 4x
3
- 12x
2
+ 6x
En este caso podemos observar que la variable x aparece en todos los trminos y debe
formar parte del mximo factor comn. Podemos decir que el mximo factor comn de un
conjunto de variables es el producto de las variables que se repiten al exponente menor.
Volviendo al ejemplo anterior podemos decir que el mximo factor comn entre los
trminos del polinomio es 2x y la factorizacin se llevar a cabo de la siguiente manera:
4x
3
- 12x
2
+ 6x = 2x (4x
3
- 12x
2
+ 6x)
2x 2x 2x
Esto es: Buscamos el mximo factor comn y dividimos cada trmino del polinomio por el
mximo factor comn.

= 2x (2x
2
- 6x + 3)
Recuerda en divisin: si las bases son iguales los exponentes se restan.
Veamos otros ejemplos:

Ejemplo 3: Factoriza 6x
5
- 8x
4
- 10x
3


El mximo factor comn entre los coeficientes numricos es 2. La variable x se repite en
todos los trminos y al exponente menor que aparece es 3. Por lo tanto el mximo factor
comn es:

6x
5
- 8x
4
- 10x
3
= 2x
3
( 6x
5
- 8x
4
- 10x
3
)
2x
3
2x
3
2x
3

= 2x
3
( 3x
2
- 4x - 5)


El paso de divisin es opcional y lo podemos hacer mentalmente.
33

Parte de un conjunto amplio de variables que presentan interrelaciones importantes, se
asume que las relaciones existen porque las variables son manifestaciones comunes de
factores no "observables" de forma directa, se pretende llegar a un clculo de esos factores:
(a)- resumiendo informacin (b)- clarificando las relaciones entre ellas y (c) sin prdida
excesiva de informacin.

El anlisis factorial intenta identificar variables subyacentes, o factores, que expliquen la
configuracin de las correlaciones dentro de un conjunto de variables observadas. El
anlisis factorial se suele utilizar en la reduccin de los datos para identificar un pequeo
nmero de factores que explique la mayora de la varianza observada en un nmero mayor
de variables manifiestas. Tambin puede utilizarse para generar hiptesis relacionadas con
los mecanismos causales o para inspeccionar las variables para anlisis subsiguientes (por
ejemplo, para identificar la colinealidad antes de realizar un anlisis de regresin lineal).El
procedimiento de anlisis factorial ofrece un alto grado de flexibilidad.
Existen siete mtodos de extraccin factorial disponibles.
Existen cinco mtodos de rotacin disponibles, entre ellos el oblimin directo y el promax
para rotaciones no ortogonales.
Existen tres mtodos disponibles para calcular las puntuaciones factoriales; y las
puntuaciones pueden guardarse como variables para anlisis adicionales. Ejemplo. Qu
actitudes subyacentes hacen que las personas respondan a las preguntas de una encuesta
poltica de la manera en que lo hacen? Examinando las correlaciones entre los elementos de
la encuesta se deduce que hay una superposicin significativa entre los diversos subgrupos
de elementos (las preguntas sobre los impuestos tienden a estar correlacionadas entre s, las
preguntas sobre temas militares tambin estn correlacionadas entre s, y as
sucesivamente). Con el anlisis factorial, se puede investigar el nmero de factores
subyacentes y, en muchos casos, se puede identificar lo que los factores representan
conceptualmente. Adicionalmente, se pueden calcular las puntuaciones factoriales para
cada encuestado, que pueden utilizarse en anlisis subsiguientes. Por ejemplo, es posible
34
construir un modelo de regresin logstica para predecir el comportamiento de voto
basndose en las puntuaciones factoriales.

Un factor comn es una entidad que tiene influencia sobre ms de una variable observada.
se le denomina factor comn porque ms de una variable lo tiene en comn.
P Pa ar ra a i id de en nt ti if fi ic ca ar r l la a e es st tr ru uc ct tu ur ra a f fa ac ct to or ri ia al l s su ub by ya ac ce en nt te e a a u un n c co on nj ju un nt to o d de e v va ar ri ia ab bl le es s o ob bs se er rv va ad da as s l la a
n ni ic ca a t t c cn ni ic ca a a ap pr ro op pi ia ad da a e es s e el l a an n l li is si is s f fa ac ct to or ri ia al l. . e es s d de ec ci ir r, , s so ol lo o e es st ta a t t c cn ni ic ca a p pe er rm mi it te e i id de en nt ti if fi ic ca ar r
e el l n nu um me er ro o y y n na at tu ur ra al le ez za a d de e f fa ac ct to or re es s l la at te en nt te es s a a l lo os s q qu ue e s se e p pu ue ed de e a at tr ri ib bu ui ir r l la a c co ov va ar ri ia ac ci io on n e en n l le e
c co on nj ju un nt to o d de e d da at to os s. .
U Un n f fa ac ct to or r c co om m n n e es s u un na a v va ar ri ia ab bl le e l la at te en nt te e h hi ip po ot t t ti ic ca a a a l la a q qu ue e e e a at tr ri ib bu uy ye e a al l c co ov va ar ri ia ac ci io on n d de e d do os s
o o m m s s v va ar ri ia ab bl le es s o ob bs se er rv va ad da as s. .
El investigador puede utilizar dos modelos bsicos para obtener soluciones factoriales.
Estos se conocen: anlisis factorial comn, y anlisis de componentes principales. Con el
fin de seleccionar el modelo apropiado, en primer lugar se tiene que comprender la
diferencia entre los tipos de varianza. Para los propsitos del anlisis factorial, existe tres
tipos de varianza total: uno comn, dos especifica (tambin conocida como nica) y tres de
error. Estos tipos de varianza y su relacin con el proceso de seleccin de modelo factorial.
Se define la varianza comn como aqulla varianza en una variable que se comparte con
todas las otras variables en el anlisis. La varianza especifica es aqulla varianza asociada
solamente con otra variable especifica. La varianza de error es aquella varianza que se debe
a la poca fiabilidad en el proceso de recoleccin de datos, al error de medicin o un
componente aleatorio en el fenmeno medido. El anlisis de componentes principales
considera la varianza total y estima los factores que contienen proporciones bajas de la
varianza nica y, en algunos casos la varianza de error. Los factores que resultan del
anlisis factorial comn se basan solamente en la varianza comn

2.7 INTERPRETAR LA INFORMACION DE LA MATRIZ DE FACTORES NO
ROTADA UTILIZANDO UN EJEMPLO DEL AREA ADMINISTRATIVA.
El anlisis factorial (af) es una tcnica de anlisis multivariante que se utiliza para el
estudio e interpretacin de las correlaciones entre un grupo de variables. parte de la idea de
35
que dichas correlaciones no son aleatorias sino que se deben a la existencia de factores
comunes entre ellas.
El objetivo del af es la identificacin y cuantificacin de dichos factores comunes. por
ejemplo, hay fenmenos como estilo de vida, imagen de un producto, actitudes de compra,
nivel socioeconmico, que es necesario conocer pero que no se pueden medir con una sola
pregunta, porque se trata de fenmenos complejos que se manifiestan en infinidad de
situaciones, sentimientos, comportamientos y opiniones concretas. estos fenmenos son el
resultado de la medicin de un conjunto de caractersticas. el af nos permitir combinar
preguntas de manera que podamos obtener nuevas variables o factores que no son
directamente medibles pero que tienen un significado.

2.8 EXPLICAR LOS CONCEPTOS EIGENVALUE Y COMUNALIDAD
El cuadrado de una carga factorial indica la proporcin de la varianza explicada por un
factor en una variable particular.

La suma de los cuadrados de los pesos de cualquier columna de la matriz factorial es lo
que denominamos eigenvalues, indica la cantidad total de varianza que explica ese factor.

Las cargas factoriales pueden tener como valor mximo 1, por tanto el valor mximo que
puede alcanzar el valor propio es igual al nmero de variables.

COMUNALIDADES
Se denomina "comunalidad" a la proporcin de la varianza explicada por los factores
comunes en una variable.
La comunalidad (h ) es la suma de los pesos factoriales al cuadrado en cada una de las
filas.
El Anlisis Factorial comienza sus clculos a partir de lo que se conoce como matriz
reducida compuesta por los coeficientes de correlacin entre las variables y con las
comunalidades en la diagonal.
Como la comunalidad no se puede saber hasta que se conocen los factores, este resulta
ser uno de los problemas del Anlisis Factorial.
36
En el Anlisis de Componentes Principales como no suponemos la existencia de ningn
factor comn la comunalidad toma como valor inicial 1. En los otros mtodos se utilizan
diferentes modos de estimar la comunalidad inicial:
- Estimando la comunalidad por la mayor correlacin en la fila i-sima de la matriz de
correlaciones.
- Estimando la comunalidad por el cuadrado del coeficiente de correlacin mltiple entre
x y las dems variables.(Es el que da el ordenador SPSS por defecto).
- El promedio de los coeficientes de correlacin de una variable con todas las dems.
- Calculando a partir de los dos coeficientes de correlacin mayores de esa variable la
siguiente operacin:

La comunalidad final de cada variable viene dada por:
h = P 1j + P 2j + ... + P kj



Eigenvalue de dicho factor: debe interpretarse como la varianza que es capaz de explicar
ese factor de todas las variables en conjunto

La tabla de Eigenvalue
La tabla de Eigenvalue nos permite seleccionar los factores que resultan
adecuados. en el ejemplo de los test, con que venimos trabajando,
supongamos que dicha tabla nos mostrara lo siguiente:
total variance explained initial eigenvalues
component total % of variance cumulative %
1 2,4400 30,5000 30,5
2 2,3715 29,6438 60,1
3 2,3400 29,2500 89,4
4 0,4200 5,2500 94,6
37
5 0,2592 3,2400 97,9
Horacio chitarroni 7 de 13

Autovalor (Eigenvalue)
Es una medida de la cantidad de varianza contenida en la matriz de correlacin de tal forma
que la suma de los autovalores debe ser igual al nmero de variables.
Es la cantidad de informacin explicada por el modelo AF y su varianza asociada con cada
factor.
Otra definicin
El cuadrado de una carga factorial indica la proporcin de la varianza explicada por un
factor en una variable particular.
La suma de los cuadrados de los pesos de cualquier columna de la matriz factorial es lo
que denominamos eigenvalues, indica la cantidad total de varianza que explica ese factor.
Las cargas factoriales pueden tener como valor mximo 1, por tanto el valor mximo que
puede alcanzar el valor propio es igual al nmero de variables.

Comunalidad
Se denomina "comunalidad" a la proporcin de la varianza explicada por los factores
comunes en una variable. La comunalidad es la suma de los pesos factoriales al cuadrado
en cada una de las filas.
El Anlisis Factorial comienza sus clculos a partir de lo que se conoce como matriz
reducida compuesta por los coeficientes de correlacin entre las variables y con las
comunalidades en la diagonal.
Como la comunalidad no se puede saber hasta que se conocen los factores, este resulta ser
uno de los problemas del Anlisis Factorial.

2.9 CONOCER LAS DISTINTAS TCNICAS USADAS PARA DETERMINAR EL
NUMERO DE FACTORES A EXTRAER.
Existen diferentes reglas o criterios para definir este nmero de factores. El criterio
utilizado aqu es el de la raz latente [2], que indica que el nmero de factores a extraer
debe ser igual al nmero de factores con valor propio mayor que uno.
38
As, si lo que quedara por explicar de la varianza total resultara menor a uno, ese factor ya
no se
Incluir por el criterio de la raz latente, que no permite retener factores con valor propio
menor a uno.

Mtodo de las Componentes Principales
El mtodo consiste en estimar las puntuaciones factoriales mediante las puntuaciones
tipificadas de las k primeras componentes principales y la matriz de cargas factoriales
mediante las correlaciones de las variables originales con dichas componentes. Este mtodo
tiene la ventaja de que siempre proporciona una solucin. Tiene el inconveniente, sin
embargo, de que al no estar basado en el modelo de Anlisis Factorial puede llevar a
estimadores muy sesgados de la matriz de cargas factoriales, particularmente, si existen
variables con comunalidades bajas.

Mtodo de los Ejes Principales
Este mtodo est basado en la identidad fundamental del Anlisis Factorial (2) sustituyendo
la matriz de correlaciones poblacionales R por la de correlaciones mustrales R. Se sigue
de (2) que R* = R- = AA (3).

El mtodo es iterativo y consiste en alternar una estimacin de la matriz de especificidades
, con una estimacin de la matriz de cargas factoriales A respetando la identidad (3). Se
parte de una estimacin inicial de la matriz , (0) y en el paso i-simo del algoritmo se
verifica que: R-(i) = A(i)A(i) (4).
La estimacin A(i) se obtiene aplicando el mtodo de componentes principales a la matriz
R-(i-1). Posteriormente se calcula (i) a partir de la identidad (4) y se itera hasta que los
valores de dichas estimaciones apenas cambien. Este mtodo tiene la ventaja de estar
basado en el modelo del Anlisis Factorial por lo que suele proporcionar mejores
estimaciones que el mtodo anterior.
Sin embargo, no est garantizada su convergencia, sobre todo en muestras pequeas.


39
Mtodo de la Mxima Verosimilitud
Este mtodo est basado en el modelo (1) adoptando, adems, la hiptesis de normalidad
multivariante y consiste en aplicar el mtodo de la mxima verosimilitud. El mtodo tiene
la ventaja sobre los dos anteriores de que las estimaciones obtenidas no dependen de la
escala de medida de las variables. Adems, al estar basado en el mtodo de la mxima
verosimilitud, tiene todas las propiedades estadsticas de ste y, en particular, es
asintticamente insesgada, eficiente y normal si las hiptesis del modelo factorial son
ciertas. Permite, adems, seleccionar el nmero de factores mediante contrastes de
hiptesis. Este mtodo tambin se puede utilizar en el Anlisis Factorial Confirmatorio,
donde el investigador puede plantear hiptesis como que algunas cargas factoriales son
nulas, que algunos factores estn correlacionados con determinados factores, etc. y aplicar
tests estadsticos para determinar si los datos confirman las restricciones asumidas. Su
principal inconveniente radica en que, al realizarse la optimizacin de la funcin de
verosimilitud por mtodos iterativos, si las variables originales no son normales, puede
haber problemas de convergencia sobre todo en muestras finitas.

Otros mtodos de extraccin

2.10 EXPLICAR EL CONCEPTO DE ROTACIN DE FACTORES

Rotacin de los Factores Iniciales Con frecuencia es difcil interpretar los factores iniciales,
por lo tanto, la extraccin inicial se rota con la finalidad de lograr una solucin que facilite
la interpretacin. Hay dos sistemas bsicos de rotacin de factores: los mtodos de rotacin
ortogonales (mantienen la independencia entre los factores rotados: varimax, quartimax y
equamax) y los mtodos de rotacin no ortogonales (proporcionan nuevos factores rotados
que guardan relacin entre s).

MTODOS DE ROTACIN. La idea de los mtodos de rotacin es que se tengan
factores fciles de interpretar. Para ello, el objetivo es que las variables originales no tengan
peso alto en ms de un factor. El mtodo ms comn es el VARIMAX.

40
CUNTOS factores son necesarios? Recuerda que el nmero de factores comunes o
subyacentes es un nmero fijo que, en principio, se determina a priori.

Una posible eleccin inicial sera tomar a m como el nmero de componentes significativas
en un anlisis de componentes principales, o tomar el nmero de cmulos resultantes de un
anlisis de cmulos de variables usando como distancias una funcin de la correlacin.

La interpretacin de los resultados del AF se basar en el anlisis de las correlaciones entre
las variables y los factores que como sabemos viene dado por las cargas factoriales.
Para que dicha interpretacin sea factible, es recomendable que:
- Las cargas factoriales de un factor con las variables estn cerca de 0 de 1. As, las
variables con cargas prximas a 1 se explican en gran parte por el factor, mientras
que las que tengan cargas prximas a 0 no se explican por el factor.
- Una variable debe tener cargas factoriales elevadas con un slo factor. Es deseable
que la mayor parte de la variabilidad de una variable sea explicada por un solo
factor.
- No debe haber factores con similares cargas factoriales
As, si con la solucin inicial no se consiguiese una fcil interpretacin de los factores,
stos pueden ser rotados de manera que cada una de las variables tenga una correlacin lo
ms prxima a 1 con un factor y a 0 con el resto de factores. Como hay menos factores que
variables, conseguiremos que cada factor tenga altas correlaciones con un grupo de
variables y baja con el resto. Si examinsemos las caractersticas de las variables de un
grupo asociado a un factor, se podran encontrar rasgos comunes que permitan identificar el
factor y darle una denominacin que responda a esos rasgos comunes. As, conseguiremos
desvelar la naturaleza de las interrelaciones existentes entre las variables originales. Los
tipos de rotaciones ms habituales son la ortogonal y la oblicua.
La rotacin ortogonal permite rotar los factores estimados inicialmente, de manera que se
mantenga la in correlacin entre los mismos. El mtodo ms utilizado de rotacin es la
varimax (Varianza mxima), ideado por Kaiser. La rotacin oblcua no mantiene la
ortogonalidad de los factores, lo que nos lleva a aceptar que dos o ms factores expliquen a
41
la vez una misma realidad. Las comunalidades finales de cada variable permanecen
inalteradas con la rotacin.

Es una tcnica de anlisis multivariante que se utiliza para e estudio e interpretacin de las
correlaciones entre un grupo de variables. su objetivo es la identificacin y cuantificacin
de dichos factores.






Rotacin oblicua: Cuando nos es una rotacin con un ngulo de referencia de 90
2.11EXPLICAR Y DIFERENCIAR LAS DISTINTAS TCNICAS DE ROTACION
DE FACTORES.
Mtodos de rotacin de los factores.
42
Consiste en rotar o girar los ejes de referencia de los factores para lograr un patrn de
factores ms simple y ms significativo.
Rotacin ortogonal: Es una rotacin ortogonal ya que se realiza en un ngulo de 90
Rotacin oblicua: Cuando nos es una rotacin con un ngulo de referencia de 90

Anlisis factorial, variante del anlisis de componentes principales, consiste en extraer los
componentes principales de una matriz de correlacin de las variables x y de las y.

Se diferencia del anlisis de componentes principales en que las ponderaciones y se
transforman de forma tal que su suma de cuadrados es igual al valor caracterstico de la
matriz. El anlisis factorial permite seleccionar el nmero de factores retenidos en la
solucin final. Considerando que existen ciertos factores comunes F que influyen a las
variables y y simultneamente. De la misma forma, existen factores especficos G1que slo
afectan a las variables y y factores G2que afectan exclusivamente a las x.
La interpretacin de los resultados del AF se basar en el anlisis de las correlaciones entre
las variables y los factores que como sabemos viene dado por las cargas factoriales.
Para que dicha interpretacin sea factible, es recomendable que:
- Las cargas factoriales de un factor con las variables estn cerca de 0 de 1. As, las
variables con cargas prximas a 1 se explican en gran parte por el factor, mientras
que las que tengan cargas prximas a 0 no se explican por el factor.
- Una variable debe tener cargas factoriales elevadas con un slo factor. Es deseable
que la mayor parte de la variabilidad de una variable sea explicada por un solo
factor.
- No debe haber factores con similares cargas factoriales
As, si con la solucin inicial no se consiguiese una fcil interpretacin de los factores,
stos pueden ser rotados de manera que cada una de las variables tenga una correlacin lo
ms prxima a 1 con un factor y a 0 con el resto de factores. Como hay menos factores que
variables, conseguiremos que cada factor tenga altas correlaciones con un grupo de
variables y baja con el resto. Si examinsemos las caractersticas de las variables de un
43
grupo asociado a un factor, se podran encontrar rasgos comunes que permitan identificar el
factor y darle una denominacin que responda a esos rasgos comunes. As, conseguiremos
desvelar la naturaleza de las interrelaciones existentes entre las variables originales. Los
tipos de rotaciones ms habituales son la ortogonal y la oblicua.
La rotacin ortogonal permite rotar los factores estimados inicialmente, de manera que se
mantenga la incorrelacin entre los mismos. El mtodo ms utilizado de rotacin es la
varimax (Varianza mxima), ideado por Kaiser. La rotacin oblcua no mantiene la
ortogonalidad de los factores, lo que nos lleva a aceptar que dos o ms factores expliquen a
la vez una misma realidad. Las comunalidades finales de cada variable permanecen
inalteradas con la rotacin.
2.12 UTILIZAR LA MATRIZ DE FACTORES ROTADA PARA AGRUPAR LAS
VARIABLES MANEJANDO UN EJEMPLO ADMINISTRATIVO
1. Hallar un conjunto de dimensiones que estn latentes en un grupo de variables. El
anlisis factorial se creo inicialmente para resolver un problema que se enfrentaban
los psiclogos: medir la personalidad del individuo. Queran resumir o simplificar
100 preguntas, y decidir cual de ellos estn estrechamente relacionados y, por lo
tanto, parecen medir, hasta cierto punto, las mismas dimensiones.
2. Hallar la manera de agrupar a las personas en los conglomerados claramente
distintos que existen en una poblacin numerosa. La cuestin del grado y naturaleza
de la segmentacin del mercado se centra en cuestiones tales como: hasta que
punto existen segmentos familiares cuyos hbitos de compras sean claramente
distintos de los de otros segmentos? Dado un conjunto de hbitos de compras
medidos.
3. dentificar probables variables para subsecuentes anlisis de regresin, recurrieron al
anlisis factorial para ayudar a determinar cules eran las variables socioeconmicas
de las familias que deban eliminarse de un anlisis de regresin con el que trataban
de predecir el consumo familiar de marcas privadas de productos alimenticios. El
anlisis factorial proporcion una medida del grado en que las diferentes
caractersticas socioeconmicas estaban correlacionadas.
44
4. Crear un conjunto totalmente nuevo de variables para su inclusin en el anlisis de
regresin, discriminante o de conglomerados. las nuevas variables se crean y
utilizan en subsecuente, que son promedios ponderados de las variables originales.

2.13 MENCIONAR LOS DISTINTOS CRITERIOS QUE EXISTEN PARA
IDENTIFICAR CARGAS DE FACTORES DETERMINANTES.

Criterios para determinar el nivel de significacin de las cargas factoriales.
(Interpretacin de los factores)
Al interpretar los factores, se debe determinar qu cargas factoriales merece la pena
considerar. Para ello hay dos criterios importantes.
a) Asegurar la significacin prctica.
Muestra >= 100 observaciones, seleccionamos cargas factoriales>0,55
Muestra < 100 observaciones, seleccionamos cargas factoriales>0,75
b) Valorar la significacin estadstica.
Utilizar un nivel de significacin de 0,5 y potencia de 0,8.
Caso practico.
El caso TeleSake
X1 : Velocidad de entrega
X2 : Nivel de precios
X3 : Presentacin de la comida
X4 : Imagen del logotipo
X5 : Eficacia del servicio
X6 : Atencin al cliente
X7 : Calidad de la comida
El punto 6, Caso prctico, lo realizaremos con el SPSS y el Dyane, con lo que el punto 7
quedar cubierto. El punto 7 lo trataremos primero, pero slo con el Dyane y simplemente
para ver los criterios a utilizar y la interpretacin y el anlisis de los datos.
Hay que tener en cuenta que el programa Dyane ofrece tres opciones de aplicacin del
AFC:
(1) mdulo de tablas de frecuencias,
45
(2) mdulo de tablas de medios, y
(3) mdulo de tablas especficas (DYANE, pp.318-337).
Si vuestros cuestionarios se basan en variables categricas, normalmente es recomendable
utilizar el primer mdulo (es decir, las variables tanto filas como columnas son
categricas). Sin embargo, si los cuestionarios usan variables numricas con escalas de
Likert, podramos elegir el segundo mdulo (es decir, las variables filas son numricas
mientras que las variables columnas son categricas).

Existen diversos criterios para determinar el nmero de factores a conservar. Uno de los
ms utilizados es la regla de Kaiser: "conservar aquellos factores cuyos valores propios
(eigenvalues) son mayores a la unidad". Este criterio tiende a sobreestimar el nmero de
factores.

Dos cuestiones pueden ayudar a la interpretacin y reconocimiento de los factores: 1)
Ordenar la matriz rotada de forma que las variables con saturaciones altas en un factor
aparezcan juntas. 2) Eliminar las variables con cargas factoriales bajas (aquellas por debajo
de 0,25).

Hallar un conjunto de dimensiones que estn latentes en un grupo de variables. El anlisis
factorial se creo inicialmente para resolver un problema que se enfrentaban los psiclogos:
medir la personalidad del individuo. Queran resumir o simplificar 100 preguntas, y decidir
cual de ellos estn estrechamente relacionados y, por lo tanto, parecen medir, hasta cierto
punto, las mismas dimensiones.
Hallar la manera de agrupar a las personas en los conglomerados claramente distintos que
existen en una poblacin numerosa. La cuestin del grado y naturaleza de la segmentacin
del mercado se centra en cuestiones tales como: hasta que punto existen segmentos
familiares cuyos hbitos de compras sean claramente distintos de los de otros segmentos?
dado un conjunto de hbitos de compras medidos.
Identificar probables variables para subsecuentes anlisis de regresin, recurrieron al
anlisis factorial para ayudar a determinar cules eran las variables socioeconmicas de las
familias que deban eliminarse de un anlisis de regresin con el que trataban de predecir el
46
consumo familiar de marcas privadas de productos alimenticios. el anlisis factorial
proporcion una medida del grado en que las diferentes caractersticas socioeconmicas
estaban correlacionadas.
Crear un conjunto totalmente nuevo de variables para su inclusin en el anlisis de
regresin, discriminante o de conglomerados. las nuevas variables se crean y utilizan en
subsecuente, que son promedios ponderados de las variables originales.


2.14 MENCIONAR EL USO DE LOS PUNTAJES DE FACTORES PARA
MANEJAR LA INFORMACION DE LOS FACTORES EN ANALISIS
POSTERIORES

Seleccin de casos y variables. Se puede utilizar el filtro estndar para la seleccin de un
subconjunto de casos de los datos de entrada. Las variables para las cuales se desea la
correlacin se especifican con los parmetros ROWVARS y COLVARS.
Transformacin de datos. Se pueden usar las proposiciones de Recode.
Ponderacin de datos. Se puede usar una variable para ponderar los datos de entrada; esta
variable de ponderacin puede tener cifras enteras o decimales. Cuando el valor de la
variable de ponderacin para un caso es cero, negativo, dato faltante o no numrico,
entonces el caso siempre se omite; se imprime el nmero de casos as tratados.
Tratamiento de datos faltantes. El parmetro MDVALUES est disponible para indicar
cuales valores de datos faltantes, si los hay, se usarn para verificar los datos faltantes. Se
calculan las estadsticas univariadas para cada variable a partir de los casos que tengan
datos vlidos (no faltantes) para la variable.
Datos faltantes: eliminacin por pares. Las estadsticas por pares y el coeficiente de
correlacin, se pueden calcular de los casos que tengan datos vlidos para ambas variables
(MDHANDLING=PAIR). As, un caso se puede utilizar en los clculos para algunos pares
de variables y no usarse para otros. Este mtodo de manejo de datos faltantes se llama
47
algoritmo de eliminacin "por pares". Nota: si hay datos faltantes, se pueden calcular
coeficientes de correlacin individuales para diferentes subconjuntos de datos. Si hay
muchos datos faltantes, se pueden presentar inconsistencias internas en la matriz de
correlacin, las cuales pueden causar dificultades en anlisis multivariados posteriores.
Datos faltantes: eliminacin por casos. El programa puede tambin recibir la instruccin
(MDHANDLING=CASE) para calcular estadsticas pareadas y correlaciones a partir de los
casos que tengan datos vlidos en todas las variables de la lista de variables. De esta
manera, un caso se usa en el clculo para todos los pares de variables o no se usa. Este
mtodo de manejar los datos faltantes se llama algoritmo de eliminacin "por casos"
(tambin se encuentra en el programa REGRESSN) y slo se aplica a la opcin de matriz
cuadrada.

El proceso sigue los siguientes pasos:
1. Ajuste de los ingresos (va deflatacin),
2. Asignacin de puntajes a variables y combinaciones de variables, para el clculo del
puntaje de Subfactores,
3. Aplicacin de ponderadores a los puntajes de variables y Subfactores,
4. Clculo de los puntajes de los factores,
5. Estandarizacin de los puntajes de los factores vivienda, educacin ocupacin, ingreso
(ajustado) y patrimonio, va la aplicacin de los parmetros de promedio y desviacin
estndar de cada factor,
6. Cambio de escala (reescalar), de los factores estandarizados, multiplicando cada factor
por 100 y a dicho producto sumndole el valor 500,
7. Aplicacin del ponderador del factor respectivo a cada uno de los factores
Reescalados,
8. Se obtiene el puntaje, sumando los factores reescalados y ponderados.

2.15 RESOLVER PROBLEMAS DEL AREA ADMINISTRATIVA A LOS QUE
PUEDA APLICARSE LA TECNICA DEL ANALISIS DE FACTORES HACIENDO
USO DEL PAQUETE SAS

48
SAS, Statistical Analysis System
* Comprende amplias posibilidades de procedimientos estadsticos (mtodos multivariados,
regresin mltiple con posibilidades diagnsticas, anlisis de supervivencia con riesgos
proporcionales y regresin logstica) y permite clculos exactos para tablas r x c y contiene
potentes posibilidades grficas.
* Todos los procedimientos pueden emplearse de una sola ejecucin.
* Los resultados pueden guardarse como archivos y usarse como entradas para futuras
ejecuciones.
* Es particularmente til en la gestin de datos y en la redaccin de informes.
* Algunos procedimientos tienen varias opciones por lo cual debe examinarse
cuidadosamente el manual antes de seleccionar la opcin deseada.
* SAS ofrece la mayor flexibilidad para personalizar el manejo y anlisis de datos, sin
embargo su principal inconveniente es que no resulta fcil aprender a usarlo.

PROBLEMA 1
Objetivos:
*Identificar un diseo bifactorial de efectos fijos con bloques.
*Estudiar la influencia de los bloques y de la interaccin entre los factores.
*Plantear el modelo adecuado tras los anlisis anteriores.
*Utilizar el programa SAS en su resolucin.
Se desea comparar el efecto conjunto del detergente y del tipo de blanqueador empleados
en la limpieza de un tejido concreto, sobre su resistencia. Para realizar este anlisis, se
seleccionaron cuatro tipos de blanqueadores y tres detergentes distintos. En cuatro rollos de
tela, se cortaron 12 muestras de 1 metro, en las que se probaron todas las combinaciones
blanqueador-detergente. Las medidas de resistencia obtenidas son los que aparecen a
continuacin :
49


Rollo de
tela
Blanqueador
1 2 3 4
Detergente Detergente Detergente Detergente
1 2 3 1 2 3 1 2 3 1 2 3
1 63 66 60 68 71 65 70 73 68 68 73 63
2 62 66 61 67 71 66 69 72 69 66 71 64
3 62 68 62 67 72 64 70 71 68 67 73 65
4 64 67 62 67 71 65 71 72 67 68 72 64


Se pide:
1. Identificar los elementos del problema planteado. Escribir el modelo matemtico
asociado y las condiciones del mismo.
2. Construir la tabla ANOVA. Se debe realizar alguna modificacin sobre el modelo
planteado?
3. Sacar conclusiones sobre los factores que influyen en la resistencia de los tejidos.
4. Obtener un grfico de las resistencias medias con cada tratamiento. Es coherente
con los resultados del apartado 3? Interpretar las interacciones con la ayuda de este
grfico.


Solucin

1. Identificar los elementos del problema planteado. Escribir el modelo matemtico
asociado y las condiciones del mismo
La variable respuesta en este experimento es la resistencia del tejido siendo los trozos
de tela de 1 metro las unidades experimentales, contamos con 48 unidades experimentales.
Sobre la resistencia intervienen dos factores: Blanqueador, que presenta cuatro niveles, y
Detergente con tres niveles. El nmero de tratamientos es de doce, formados a partir de las
50
combinaciones de los niveles de los dos factores. Adems en el experimento aparece una
nueve fuente de variacin, el rollo de tela, que al no ser objetivo de estudio del experimento
y tal como se ha llevado a cabo la aleatorizacin, debe ser tratado como Factor Bloque con
cuatro niveles. Estos niveles de Factores y Bloque han sido fijados por el experimentador,
por lo que se tiene un Modelo Bifactorial de Efectos Fijos con Bloques.
El modelo matemtico asociado a nuestro experimento es, en consecuencia:
,
( )
ijk i j ij k ijk
y e o | o| = + + + + +
con 1,..., 4; 1,...,3; 1,..., 4. i j k = = =
donde
ijk y
es el valor de la variable respuesta para el i-simo Blanqueador, el j-simo
Detergente y el k-simo Rollo; , media global, ,
i
o efecto del i-simo Blanqueador,
j
| ,
efecto del j-simo Detergente,
k
, efecto del k-simo Rollo de tela son parmetros a
estimar, con las condiciones,
4 3 4
1 1 1
0, 0, 0
i j k
i j k
o |
= = =
= = =

. Adems consideramos
la existencia de interaccin ( )
ij
o| entre los dos factores siendo esto efecto tambin un
parmetro a estimar, con las condiciones,
4 3
1 1
( ) 0, ( ) 0,
i j
ij ij
o| o|
= =
= =

por ltimo,
) , 0 ( o N e
ijk
~ independientes.

2. Construir la tabla ANOVA. Se debe realizar alguna modificacin sobre el modelo
planteado?
Para la resolucin de este apartado, utilizamos el programa que se presenta a continuacin:

Data limpiezas;
Do rollo=1 to 4;
do blanqueador=1 to 4;
do detergente=1 to 3;
input resistencia @@;
output;
51
end;
end;
end;
datalines;
63 66 60 68 71 65 70 73 68 68 73 63
62 66 61 67 71 66 69 72 69 66 71 64
62 68 62 67 72 64 70 71 68 67 73 65
64 67 62 67 71 65 71 72 67 68 72 64

; proc print;run;
proc glm data=limpiezas;
Class rollo blanqueador detergente;
Model resistencia=rollo blanqueador|detergente;run;
En primer lugar analizamos la influencia del factor bloque en la tabla ANOVA que
se presenta a continuacin, tabla 2, obtenida mediante el programa SAS anterior. Para ello
observamos que el valor 81 . 0 = = CME CMrollo F es inferior a 1, lo que nos hace llegar a
la conclusin de que realmente los rollos de tela no influyen sobre la resistencia del tejido.
Por lo tanto, el modelo debe ser modificado.
Tabla 1. The GLM Procedure
Dependent Variable: resistencia

Source DF
Sum of
Squares
Mean Square F Value Pr > F
Model 14 576.7916667 41.1994048 57.80 <.0001
Error 33 23.5208333 0.7127525
Corrected Total 47 600.3125000



52
Tabla 2.
Source DF Type I SS
Mean
Square
F Value Pr > F
rollo 3 1.7291667 0.5763889 0.81 0.4982
blanqueador 3
260.062500
0
86.6875000 121.62 <.0001
detergente 2
294.000000
0
147.000000
0
206.24 <.0001
blanquead*deterge
nte
6 21.0000000 3.5000000 4.91 0.0011

Por tanto, tendramos un Modelo Bifactorial de Efectos fijos, con cuatro rplicas para cada
tratamiento Blanqueador-Detergente:
,
( )
ijk i j ij ijk
y e o | o| = + + + +
con 1,..., 4; 1,...,3; 1,..., 4. i j k = = =
donde
ijk
y es el valor de la k-sima rplica de la variable respuesta para el i-simo
Blanqueador y el j-simo Detergente; , media global, ,
i
o efecto del i-simo
Blanqueador,
j
| , efecto del j-simo Detergente, son parmetros a estimar, con las
condiciones,

=
=
4
1
0
i
i
o ,

=
=
3
1
0
j
j
| . Adems consideramos la existencia de interaccin
( )
ij
o| entre los dos factores siendo esto efecto tambin un parmetro a estimar, con las
condiciones, ( )

=
=
4
1
0
i
ij
o| , ( )

=
=
3
1
0
j
ij
o| por ltimo, ) , 0 ( o N e
ijk
~ independientes.
Conclusin apartado 2. El modelo debe ser modificado ya que los rollos de tela no influyen
en su resistencia.
3. Sacar conclusiones sobre los factores que influyen en la resistencia de los tejidos.
Para continuar con nuestro estudio, modificamos el Programa SAS

53

proc glm data=limpiezas;
Class blanqueador detergente;
Model resistencia=blanqueador|detergente;run;


Obtenemos la siguiente tabla ANOVA:

Tabla 3. The GLM Procedure

Dependent Variable: resistencia

Source DF
Sum of
Squares
Mean Square F Value Pr > F
Model 11 575.0625000 52.2784091 74.54 <.0001
Error 36 25.2500000 0.7013889
Corrected Total 47 600.3125000

Tabla 4.

Source DF Type I SS Mean Square F Value Pr > F
blanqueador 3 260.0625000 86.6875000 123.59 <.0001
detergente 2 294.0000000 147.0000000 209.58 <.0001
blanquead*detergente 6 21.0000000 3.5000000 4.99 0.0008


A la vista de la tabla 4 comprobamos que ambos factores son significativos, as
como la interaccin entre ambos.

54
Conclusin apartado 3. La resistencia de la tela es distinta segn el tipo de blanqueador
y el detergente que se utilice.

4. Obtener un grfico de las resistencias medias con cada tratamiento. Es coherente con los
resultados del apartado 3?. Interpretar las interacciones con la ayuda de este grfico.
Para obtener el grfico de interacciones, ejecutamos el Programa SAS
proc sort data=limpiezas;by blanqueador detergente;
run;
proc means;var resistencia;by blanqueador detergente;output out=graf mean=media;
run;
proc gplot data=graf;
plot media*detergente=blanqueador;
run;

En la tabla 4 se ha constatado la existencia de interaccin significativa entre los factores
Blanqueador y Detergente. Vamos a analizar grficamente estos resultados.
En el Grfico 1, se presentan cuatro lneas quebradas. Cada una de ellas pertenece a
uno de los niveles del factor Blanqueador con cada uno de los tres niveles del factor
Detergente. Si no existiera interaccin entre los dos factores, las cuatro lneas deberan ser
paralelas; es decir la diferencia de las resistencias medias de los tejidos con dos tipos de
Blanqueador cualesquiera se mantiene constante, no depende del tipo de detergente que se
utilice. En nuestro caso observamos que, en particular, con el Detergente 2 la diferencia
de las resistencias medias de los tejidos con el Blanqueador 4 y 3 es positiva, mientras
que con el Detergente 3 es negativa.
Si interpretamos ms detenidamente el Grafico 1, se deduce que:

*Con el Detergente 2 la resistencia media siempre es superior.

*Cuando se emplea el Blanqueador 3 la mayor resistencia en los tejidos se obtiene si
se combina con el Detergente 1 o con el Detergente 3. Sin embargo utilizndolo
55
con el Detergente 2 la resistencia media es levemente inferior a la obtenida con el
Blanqueador 4.

*La resistencia media ms baja se obtiene siempre con el Blanqueador 1.
Grfico 1. Interacciones entre Blanqueador y Detergente


No obstante, este grfico sugiere la conveniencia de hacer un estudio de
comparaciones mltiples entre las medias de cada combinacin de ambos factores.
Conclusin apartado 4. Basndose en este grafico de interacciones, si se desea mejorar la
resistencia de los tejidos, debemos utilizar las combinaciones Detergente 2, Blanqueador 4
o Detergente 2, Blanqueador 3. el blanqueador 1 nos lleva siempre a los peores resultados.

PROBLEMA 2
Para comenzar debemos plantearnos como es el proceso de construccin de los modelos,
para ello las consideraciones matemticas pueden expresarse en trminos generales, de la
siguiente manera:
Xj = j-sima variable de decisin
Cj = Coeficiente de ganancia (o costo) de la j-sima variable
Z = Funcin que debe maximizarse (o minimizarse)
Por lo tanto, para n variables de decisin, el objetivo que debe maximizarse o minimizarse
se convierte en:
Blanqueador 4
Blanqueador 1
Blanqueador 2
Blanqueador 3
56
Z = C1X1 + C2X2 + ..+CjXj + .. + CnXn
Las restricciones requieren la definicin de dos trminos generales
aij = Coeficiente de la j-sima variable en la i-sima restriccin
bi = Limitacin de capacidad de la i-sima restriccin
aij Xij Eestos es, sujeto a: <= bi
Un nuevo cliente ha solicitado que la compaa se haga cargo de administrar para l una
cartera de 100.000$. A ese cliente le agradara restringir la cartera a una mezcla de tres
tipos de acciones nicamente, como podemos apreciar en la siguiente tabla.
Al formular un modelo de Programacin Lineal para mostrar cuntas acciones de cada tipo
tendra que comprar Andrs se consigue de maximizar el rendimiento anual total estimado
de esa cartera.
Acciones Precio ($) Rendimiento Anual
Estimado por
Accin ($)
Inversin Posible
($)
Navesa 60 7 60.000
Telectricidad 25 3 25.000
Rampa 20 3 30.000
Tabla 1: Anlisis R/S para las Tasas de Inters Diarias
2002 2004

57

Luego se aplica por medio del SAS y/o SSPS una regresin lineal simple para las dos
ltimas columnas de datos de la tabla anterior. Los resultados se muestran en la tabla 2
Tabla 2: Resultados de Regresin

El resultado de un H=0,367152 explica que la serie es persistente y que refuerza la
tendencia original es decir, existir mayor probabilidad de que si un perodo es bajo el
siguiente sea bajo, y viceversa.

El manejo de estas tcnicas de anlisis multivariante se ha simplificado sustancialmente con
el uso de programas de anlisis estadstico para computadoras. En el caso del anlisis de
regresin lineal, los programas economtricos han explotado la tcnica con modelos
relativamente difciles y complejos. Generalmente, estos paquetes economtricos tambin
incorporan comandos para llevar a cabo el anlisis de componentes principales.





58

UNIDAD 3: Anlisis de Agrupamiento (Conglomerado)

3.1 EXPLICAR ANALISIS DE AGRUPAMIENTO
El anlisis de agrupamientos es una tcnica estadstica se usa para generar una estructura de
categoras para encajar un conjunto de observaciones. Los grupos formados deben tener un
alto grado de asociacin entre los miembros de un mismo grupo y un bajo grado entre
miembros de distintos grupos.
El anlisis de agrupamiento suele denominarse asignacin automtica de clase. Esta
denominacin no es estrictamente precisa.
En el anlisis de agrupamientos no se conocen los grupos antes del proceso sino que se
definen segn se asignan los elementos. En la asignacin automtica de clase debern
conocerse a priori las clases
Dado que en el anlisis de agrupamiento no es necesario conocer a priori los grupos a
formar el anlisis de agrupamientos es muy til para estructurar grandes conjuntos de datos
multivariantes.
Ha sido descrito como una herramienta de descubrimiento dado su potencial para revelar
relaciones entre datos complejos no detectadas previamente.
Dado que el anlisis de agrupamientos es una tcnica para anlisis multivariante que tiene
aplicaciones en muchos campos:
Medicina, taxonomas zoolgicas y botnicas, censos, imgenes ... se encuentra
actualmente formando parte de muchos paquetes de software por ejemplo, en los paquetes
estadsticos SPSS BMDP.
Anlisis de agrupamientos Aplicaciones en Sistemas RI
59
Su habilidad para categorizar elementos asignndolos a grupos creados automticamente le
proporciona una afinidad natural con los objetivos de los sistemas RI. Se pueden realizar
varias formas de anlisis de agrupamientos sobre los documentos :
Agrupar los documentos en base a los trminos que contienen para dotar de mayor eficacia
a las bsquedas aunque tambin puede usarse despus de una bsqueda
para proporcionar una estructura a un conjunto grande de documentos recuperados. En
sistemas distribuidos suele usarse para decidir la ubicacin de los documentos
Otras aplicaciones en sistemas RI pueden ser:
Agrupar los documentos en base a su ocurrencia en citas (referencias bibliogrficas) para
hacerse una idea sobre la naturaleza de la literatura de un tema. Agrupar los trminos en
base a los documentos en que ocurren
para ayudar en:
la construccin de tesauros
la mejora de las peticiones
Anlisis de agrupamientos Aplicaciones en Sistemas RI
Aunque el anlisis de agrupamientos puede realizarse fcilmente con los paquetes
disponibles
Es una tcnica estadstica multivariante cuya finalidad es dividir un conjunto de objetos en
grupos de forma que los perfiles de los objetos en un mismo grupo sean muy similares
entre s y los de los objetos de clusters diferentes sean distintos.



60

3.2 PROBLEMAS BASICOS DEL ANALISIS DE AGRUPAMIENTO.
Aunque el anlisis de agrupamientos puede realizarse fcilmente con los paquetes
disponibles
Se pueden encontrar en ste, algunos problemas bsicos:
o Decidir
las caractersticas por las que agrupar los elementos
su representacin
o Seleccionar el mtodo de agrupamiento adecuado y la medida de similitud
o Crear los agrupamientos jerarquas de agrupamientos
lo cual puede ser caro en recursos
o Comprobar la validez de los resultados obtenidos
o Considerar los posibles requerimientos de dinamicidad
o Seleccionar el mtodo para buscar en la estructura de grupos que se ha
formado

- Seleccin de variables de entrada
- La escogencia apropiada de la medida de distancia
- Los procedimientos numricos de agrupamiento
- Tcnicas de grupo.

3.3 EXPLICAR MODELO DE SIMILITUD
La mayora de los mtodos de agrupamiento estn basados en el emparejamiento de los
documentos o grupos ms similares
61
Es necesario conocer la similitud entre cada pareja de puntos
Se necesita entonces calcular la matriz de similitud
Si la medida de similitud es simtrica (Sij=Sji) bastar con la matriz triangular inferior
Si la medida de similitud vale 0 cuando no hay trminos en comn
es til un ndice invertido que muestre los documentos en que aparece un trmino dado
De esta forma se podr limitar la cantidad de clculo requerido para la matriz a la de las
parejas de documentos/grupos que tengan al menos un trmino en comn
La matriz de similitud
La matriz de similitud puede ser la base para identificar el vecino ms prximo
La identificacin del vecino ms prximo es un problema de muchos algoritmos de
agrupamiento que tiene un alto coste cuando el conjunto de datos es grande.
Calcular, almacenar y actualizar la matriz de similitud constituye un gran consumo para el
clculo del vecino ms prximo
Por lo tanto, se lograr un gran ahorro en tiempo si se incorpora algn algoritmo eficaz al
proceso de agrupamiento
Por desgracia este tipo de algoritmos suele ser poco eficaz cuando la dimensionalidad es
muy alta, como suele ocurrir en el mbito de los sistemas RI.
CONCEPTO DE SIMILITUD

El concepto de similitud es en el sentido de la distancia de Levenshtein, DL. El objetivo
que se persigue es la optimizacin de los recursos de tiempo y espacio de los esquemas de
bsqueda y de la estructura de datos que los soporta.
Se define una nueva distancia que se ha denominado distancia invariante trasposicional,
62
DIT, debido al hecho de que su valor no depende de las operaciones de trasposicin a que
pueda ser sometida una cadena. Si bien DIT no puede usarse por si sola para la
determinacin de las cadenas ms similares, su importancia deviene de la circunstancia de
que su valor entre dos cadenas es siempre inferior o igual a la DL entre estas dos mismas
cadenas, siendo su coste computacional sensiblemente inferior; lo cual puede ser aplicado
para la construccin de un filtro adaptivo DIT/DL que tenga por misin reducir el nmero
de cadenas de la base de datos a las que se les calcula la DL con la cadena de bsqueda.
En definir la proximidad, y no la Covariacion, y su eleccin (tipos) viene determinada por
la escala de medida de las variables: binaria u ordinal o de intervalo/razn.
- La representacin grfica de los datos est basada en distancias (similitudes) y
algoritmos que permiten dividir los datos en grupos.
- Son en general medidas subjetivas del parecido entre elementos de una base de
datos compleja.
- Para agrupar objetos se utiliza algn tipo de distancia.
Para agrupar variables se utilizan coeficientes de correlacin o medidas similares de
asociacin.

A fin de agrupar los documentos de un conjunto de datos se necesita cuantificar de alguna
forma el grado de asociacin entre ellos
o Esto puede hacerse con una medida de distancia o de similitud
Algunos mtodos de agrupamiento conllevan el uso de una medida especfica pero en
general la eleccin de la medida de asociacin queda a la eleccin del investigador
Existen varias medidas de similitud disponibles y su eleccin puede tener efecto sobre los
agrupamientos resultantes
63
La determinacin de la similitud entre documentos depende:
o de la representacin de los documentos:
los pesos asignados a los trminos indizados que caracterizan al documento
o y del coeficiente de similitud que se escoja
Los resultados de las pruebas realizadas con diversos coeficientes de similitud
o sugieren que es importante el uso de una medida que est normalizada por la
longitud de los vectores de los documentos
Los resultados de las pruebas de esquemas de asignacin de pesos son menos definitivos
pero sugieren que la asignacin de pesos a los trminos de los documentos no es tan
importante para mejorar la realizacin en los mtodos de agrupamiento como lo era en los
de clasificacin.
La mayora de los mtodos de agrupamiento estn basados en el emparejamiento de los
documentos o grupos ms similares:
Es necesario conocer la similitud entre cada pareja de puntos
Se necesita entonces calcular la matriz de similitud
Si la medida de similitud es simtrica (Sij=Sji) bastar con la matriz triangular inferior
Si la medida de similitud vale 0 cuando no hay trminos en comn es til un ndice
invertido que muestre los documentos en que aparece un trmino dado. De esta forma se
podr limitar la cantidad de clculo requerido para la matriz a la de las parejas de
documentos / grupos que tengan al menos un trmino en comn.

3.4 DEFINIR MATEMATICAMENTE MEDIDA DE DISTANCIA.

Agrupamiento: distancias

Las tcnicas de agrupamiento se basan fundamentalmente en el concepto de similitud (o
disimilitud)
64
entre ejemplos y agrupaciones. Muchas veces se utilizan mtricas (o distancias) para medir
la similitud
entre ejemplos. Las mtricas mas usadas son:
distancia de Minkowski: Se trata de una familla de mtricas con la forma general:

de entre las que destacan las siguientes:
_ Manhattan (o city block) (q = 1):


Euclidea (q = 2):


Agrupamiento: distancias
de Hamming: normalmente aplicada a vectores binarios, da el nmero de componentes con
valores
distintos.



P. ej.: La distancia de Hamming para los vectores (1; 0; 1; 0; 1) y (0; 1; 1; 1; 0) es 4.

de Tanimoto: tambin aplicada a dos vectores binarios e :



donde S1 son las componentes de con valor 1 y S2 las de
65






- La representacin grfica de los datos est basada en distancias (similitudes) y
algoritmos que permiten dividir los datos en grupos.
- Son en general medidas subjetivas del parecido entre elementos de una base de
datos compleja.
- Para agrupar objetos se utiliza algn tipo de distancia.
Para agrupar variables se utilizan coeficientes de correlacin o medidas similares de
asociacin.
Distancias
d(P,Q) >= 0
d(P,Q) > 0 si P?Q
d(P,Q) = d(Q,P)
d(P,Q) ? d(P,R) + d(R,Q) (desigualdad triangular)

Una distancia en un espacio de dimensin p es una funcin tal que si P, Q y R son puntos
del espacio.
Distancia eucldea: es la distancia geomtrica usual en espacios de dimensin p.
Si x = (x1, x2, ..., xn) e y = (y1, y2, ..., yn),
66
d(x, y) = (?i (xi yi)2)1/2
- La distancia eucldea y la distancia eucldea al cuadrado
d2(x, y) = ?i (xi yi)2 (que amplifica el efecto de objetos muy distantes) se calculan
para datos no estandarizados.
- La distancia eucldea entre dos objetos no est afectada por la introduccin de
nuevos objetos, que podran ser outliers.
- Puede ser muy sensible a las diferencias en unidades de medidas empleadas para
las distintas dimensiones (coordenadas).
Distancia de Minkowski:
d(x, y) = (?i |xi yi|m)1/m
Si m = 2 es la distancia eucldea.
Si m = 1 es la distancia city-block (Manhattan).
d(x, y) = ?i |xi yi|
A menudo proporciona resultados parecidos a los de la eucldea.
- El efecto de los outliers queda disminuido.
Distancia de Chebychev:
d(x, y) = Mximo{|xi yi|}
- Se utiliza cuando se quiere resaltar si dos objetos son muy distantes en una de las
dimensiones.
Distancia de potencias:
d(x, y) = (?i |xi yi|q)1/r
donde los parmetros q y r pueden variar.
- El parmetro q controla el peso de la diferencias en las dimensiones individuales,
el parmetro r el peso de las diferencias entre objetos.
Disimilitud porcentual:
d(x, y) = (Nmero de xi ? yi)/p
Esta distancia es til para datos categricos.
Distancia de potencias:
d(x, y) = (?i |xi yi|q)1/r
67
donde los parmetros q y r pueden variar.
- El parmetro q controla el peso de la diferencias en las dimensiones individuales,
el parmetro r el peso de las diferencias entre objetos.
Disimilitud porcentual:
d(x, y) = (Nmero de xi ? yi)/p
Esta distancia es til para datos categricos.
3.5 DEFINIR MATEMATICAMENTE MEDIDA DE SIMILITUD.
Agrupamiento: medida de similitud
No siempre la medida de similitud es una distancia:
_ distancia del coseno:

Usada en recuperacin de la informacin donde un documento se representa por un vector
de pesos

_ Distancia sim etrica de Kullback-Leibler :


_ Distancia de :

_ Distancia de edicin: puede ser de aplicacin a la comparacin de ranking

La representacin grfica de los datos est basada en distancias (similitudes) y algoritmos
que permiten dividir los datos en grupos. Son (en general) medidas subjetivas del parecido
entre elementos de una base de datos compleja. Para agrupar objetos se utiliza algn tipo de
distancia. Para agrupar variables se utilizan coeficientes de correlacin o medidas similares
de asociacin.

68
Los coeficientes o ndices de similitud ms usuales consideran dos conjuntos con un cierto
nivel de interseccin. La similitud entre ambos conjuntos depende siempre del tamao de esa
interseccin bien respecto del tamao total de los dos conjuntos o bien de parte de ellos.
Variables semejantes
Un objeto i definido en el espacio m-dimensional por su vector fila x
I es igual al objeto p definido por x p
si su distancia D
ip en el espacio m dimensional es igual a
cero. Cuanto menor sea el valor de esta distancia, ms semejantes son los
objetos que se comparan entre s.

El resultado de estos valores es lo que se denomina matriz de similitud. Es una matriz
simtrica de dimensiones (N x N).

Cuando se dispone de un grupo de objetos y se est interesado en analizar la similitud
existente entre ellos, existen dos acercamientos al problema. Uno de ellos consiste en
considerar cada objeto como un grupo aislado con identidad propia e ir incrementando su
tamao hasta obtener un nico grupo formado por el total de todos los objetos. Este
procedimiento es el denominado aglomerativo.
El grupo aumenta de tamao y, simultneamente, decrece la similitud entre los objetos.
Existe otro acercamiento al problema y es justamente el inverso, considerar que
inicialmente todos los objetos forman un grupo. Este grupo inicial se va dividiendo a
medida que se exige mayor similitud entre los objetos para que constituyan subgrupos. Este
procedimiento se denomina divisivo.

La representacin grfica de los datos est basada en distancias (similitudes) y algoritmos
que permiten dividir los datos en grupos.
Son (en general) medidas subjetivas del parecido entre elementos de una base de datos
compleja. Para agrupar objetos se utiliza algn tipo de distancia.
Para agrupar variables se utilizan coeficientes de correlacin o medidas similares de
asociacin
69

3.6 A PARTIR DE UNA MATRIZ DE DISTANCIA (O SIMILITUD) DETERMINAR
QUE OBJETOS O VARIABLES SON MAS PARECIDOS Y MENOS PARECIDOS.

Se utiliza el coeficiente elegido para crear una matriz (simtrica) de similitudes.
Si la matriz de similitud es definida no negativa y los coeficientes de similitud estn
normalizados de forma tal que los valores diagonales, si son iguales a 1, la funcin
d(i, k) = (2(1sik) )1/2 es una distancia (cumple sus propiedades).

Por otro lado, a partir de una distancia d(i, k), es siempre posible recuperar la matriz de
similitud original:
sik = 1/(1+d(i, k)).

EJEMPLO: Sea D una matriz de distancias entre 5 objetos.

Encadenamiento simple
(single linkage): distancia
mnima o vecino ms cercano
(i) D es nuestra matriz
(ii) 3 y 5 son los objetos ms cercanos
(d(3,5)=2)
(iii) nuevo cluster (35) y nueva matriz D1
(iv) (35) y 1 son los grupos ms cercanos
(d((35),1)=3)
(35) 1 2 4
(v) nuevo cluster (135) y nueva matriz D2
(vi) 2 y 4 son los grupos ms cercanos
(d(2,4)=5)
(vii) nuevo cluster (24) y nueva matriz D3
(viii) (135) y (24) son los grupos ms cercanos
(ix) nuevo cluster (12345)
70
(135) 2 4
(135) (24)
1
3
5
2
4
0
2
6
4
Encadenamiento completo (complete linkage): distancia
mxima o vecino ms lejano, las matrices son
(35) 1 2 4
(35) (24) 1
(35) (124)
Encadenamiento completo (complete linkage): distancia
mxima o vecino ms lejano, las matrices son
(35) 1 2 4
(35) (24) 1
(35) (124)
1
2
4
3
5

2 4 6 8 10 12
Encadenamiento completo .

71
Sera conveniente usar varias distancias o similitudes con los mismos objetos y observar si
se mantienen los mismos clusters o grupos. As, se comprueba la existencia de grupos
naturales. Estos mtodos se pueden usar para clasificar no slo observaciones, sino tambin
variables, usando como medida de similitud algn coeficiente de correlacin.

3.7 EXPLICAR EN QUE CONSISTEN LAS TCNICAS DE AGRUPAMIENTO
JERRQUICAS

El objetivo bsico de los algoritmos de agrupamiento, consiste en obtener grupos de
elementos a partir de la matriz de distancia (o asociacin) y sin tener que examinar todas las
posibles combinaciones de agrupamiento. Algunas caractersticas de las tcnicas son:

- Los grupos son creados por niveles.
- El resultado es una jerarqua (rbol) de grupos
- Generalmente se basa en la matriz de distancias
- Se van ajustando las clases en funcin de una cierta medida de
similitud (en un orden creciente).

Los mtodos jerrquicos consisten en la construccin de estructuras rgidas en forma de
rbol a partir de una medida de similitud.
Los datos de los grupos dentro de una estructura de clase jerrquica.
Descendente (divisivo) o ascendente (aglomerativo).
Basado normalmente en la formulacin ptima por etapas o vida.
Estructura jerrquica til para plantear hiptesis sobre las clases.
Utilizado para crear algoritmos de agrupamiento como K-medias.

Agrupamiento jerarquico
No hay decisin acerca del nmero de clusters
Existen problemas cuando los datos contienen un alto nivel de error
Puede ser muy lento
La decisin inicial influye mucho (una etapa nica)
72

Agrupamiento no jerarquico
Ms rpido, ms fable
Es necesario especificar el nmero de clusters (arbitrario)
Es necesario establecer la semilla inicial (arbitrario)

Los datos de los grupos dentro de una estructura de clase jerrquica.
Descendente (divisivo) o ascendente (aglomerativo).
Basado normalmente en la formulacin ptima por etapas o vida.
Estructura jerrquica til para plantear hiptesis sobre las clases.
Utilizado para crear algoritmos de agrupamiento como K-medias.

Los mtodos jerrquicos consisten en la construccin de estructuras rgidas en forma de
rbol a partir de una medida de similitud.
Se utilizan, bsicamente, dos mtodos:
Mtodos aglomerativos: cada objeto se incluye en un nico grupo propio. En pasos
sucesivos los objetos, o grupos, ms similares van juntndose constituyendo nuevos
conglomerados hasta llegar a un nico cluster final que los contiene todos.
Los mtodos jerrquicos producen un conjunto de datos anidado en el que los pares de
elementos o grupos se van enlazando sucesivamente hasta que todos los elementos quedan
conectados.
Los mtodos jerrquicos pueden ser:
o aglomerantes: parten de un conjunto no-agrupado de N elementos y realizan N-1
enlaces de parejas (ascendente)
o divisivos: parten de un nico grupo de N elementos y realizan N-1 divisiones de
grupo en grupos ms pequeos (descendente)
Los mtodos jerrquicos divisivos son menos usados y disponen de pocos
algoritmos para su puesta en servicio
Aqu slo se discutirn los mtodos aglomerativos
73
Los mtodos jerrquicos producen un conjunto de datos anidado en el que los pares de
elementos o grupos se van enlazando sucesivamente hasta que todos los elementos quedan
conectados.
Los mtodos jerrquicos pueden ser:
o aglomerantes: parten de un conjunto no-agrupado de N elementos y realizan N-1
enlaces de parejas (ascendente)
o divisivos: parten de un nico grupo de N elementos y realizan N-1 divisiones de
grupo en grupos ms pequeos (descendente)
Los mtodos jerrquicos divisivos son menos usados y disponen de pocos
algoritmos para su puesta en servicio
Aqu slo se discutirn los mtodos aglomerativos
El dendograma es una representacin muy til para la recuperacin en un conjunto de
documentos agrupados ya que indica el camino que debe seguir el proceso de recuperacin

3.8 EXPLICAR EN QUE CONSISTEN LAS TCNICAS DE AGRUPAMIENTO
JERRQUICAS ACLOMERATIVAS Y DIVISIONALES Y SER CAPAZ DE
DIFERENCIARLOS.

AGRUPAMIENTO JERARQUICO ACLOMERATIVO

Los mtodos jerrquicos aglomerativos empiezan con los elementos individuales,
considerndose cada uno de ellos como un grupo, los objetos ms similares son los
primeros en unirse, y los grupos as formados continan unindose en forma progresiva de
acuerdo a sus similitudes, finalmente, todos los grupos quedan fusionados en uno slo.

AGRUPAMIENTO JERARQUICO DIVISIONAL

Primeramente todos los documentos forman un solo grupo, los grupos menos coherentes
son sucesivamente divididos en subgrupos
74
Estos subgrupos son divididos sucesivamente en subgrupos, el proceso se repite hasta que
se satisface un criterio de parada.

La diferencia como ya antes se menciono es que los aglomerativos se unen en grupos
similares y los divisionales en varios grupos similares pero que tambin se puedan dividir.


Agrupamiento aglomerativo
Estructuras N muestras incluye grupos en una jerarqua
En cada iteracin, los dos grupos ms parecidos se fusionan para formar uno nuevo
Despus de las iteraciones N 1, la jerarqua queda completa
La estructura se exhibe en forma de dendograma
Al tener control del resultado de similitud cuando se crean los nuevos grupos, el
dendograma puede normalmente aportar informacin sobre el agrupamiento de los datos

Agrupamiento divisivo
Crea una jerarqua mediante la divisin sucesiva de grupos en otros ms pequeos.
En cada iteracin, algunos de los grupos existentes se separan para formar nuevos grupos.
El proceso se repite hasta que se satisface un criterio de parada.
Las tcnicas divisivas pueden incorporar heurstica de reduccin y fusin que pueda
mejorar el resultado final.
3.9 EXPLICAR Y DIFERENCIAR LAS TCNICAS DE ESLABONAMIENTO
SIMPLE, COMPLETO Y PROMEDIO.
Eslabonamiento simple

Mtodo de agrupamiento en el que la distancia entre dos conglomerados se calcula como la
distancia entre sus dos miembros ms prximos. Tambin recibe el nombre de mtodo del
vecino ms prximo.

75
Eslabonamiento completo
Mtodo de agrupamiento en el que la distancia entre dos conglomerados se calcula como la
distancia entre sus dos miembros ms alejados. Tambin recibe el nombre de mtodo del
vecino ms alejado.

Eslabonamiento Promedio (o de la media de distancias)

Para obtener la distancia entre dos conglomerados, promedia todas las distancias entre
pares de objetos donde un miembro del par pertenece a uno de los conglomerados y el otro
miembro al segundo conglomerado.

Mtodos de eslabonamiento

Enlazado simple
D(Xi,Xj) =mn xXi,x Xj d(x,x )
Enlazado completo (Complete Link):
D(X i,Xj) = max xXi ,x Xj d(x,x )
Enlazado promedio (Average Link):
D(X i ,Xj) =1ninj xXi x Xj d(x,x )

ESLABONAMIENTO SIMPLE: DISTANCIA MINIMA
ESLABONAMIENTO COMPLETO: DISTANCIA MAXIMA
ESLABONAMIENTO PROMEDIO
Mtodo de agrupamiento en el que la distancia entre dos conglomerados se calcula como la
distancia entre sus dos miembros ms prximos. Tambin recibe el nombre de mtodo del
vecino ms prximo.
Eslabonamiento completo
Mtodo de agrupamiento en el que la distancia entre dos conglomerados se calcula como la
distancia entre sus dos miembros ms alejados. Tambin recibe el nombre de mtodo del
vecino ms alejado.
76
Eslabonamiento Promedio (o de la media de distancias)

Para obtener la distancia entre dos conglomerados, promedia todas las distancias entre
pares de objetos donde un miembro del par pertenece a uno de los conglomerados y el otro
miembro al segundo conglomerado.
3.10 DEFINIR EL TERMINO DENDOGRAMA
Estructura en forma de rbol que ilustra un agrupamiento jerrquico.
Un corte en el nos indica un agrupamiento especifico.

Un dendograma es una representacin grfica en forma de rbol que resume el proceso de
agrupacin en un anlisis de clusters. Los objetos similares se conectan mediante enlaces
cuya posicin en el diagrama est determinada por el nivel de similitud / disimilitud entre
los objetos.
Para entender la construccin de un dendograma y su significado utilizaremos un ejemplo
sencillo que lo ilustre.
Consideremos un ejemplo sencillo con solo 5 objetos y dos variables.









Los puntos representados en el espacio eucldeo bidimensional aparecen en el grfico
siguiente.


OBJETO V 1 V 2
1 1 1
2 2 1
3 4 5
4 7 5
5 5 7
77





Un dendograma es una representacin grfica en forma de rbol que resume el proceso de
agrupacin en un anlisis de clusters. Los objetos similares se conectan mediante enlaces
cuya posicin en el diagrama est determinada por el nivel de similitud / disimilitud entre
los objetos.















El dendograma es una manera grafica de representar los pasos seguidos en el mtodo
iterativo: se colocan en un eje Ox los elementos en su orden de aparicin en el algoritmo, y
78
en el eje Oy las distancias. Un agrupamiento de dos clases se representa por un segmento
horizontal a la altura correspondiente a la distancia entre estas dos clases.

La figura V.2 recoge el dendograma correspondiente al ejemplo








3.11 APLICAR EL MTODO JERRQUICO AGLOMERATIVO Y CADA UNA
DE LAS TCNICAS DE ESLABONAMIENTO A UN PROBLEMA DEL REA
REPRESENTANDO LA AGRUPACIN REALIZADA EN EL DENDOGRAMA.


Mtodos jerrquicos. Mtodos de anlisis cluster que realizan un proceso de asignacin de
los individuos a los grupos de forma irreversible.
Segmentacin jerrquica. Tcnica explicativa descomposicional, que a partir de la
definicin de una variable dependiente discreta, pretende formar grupos homogneos a
partir de variables independientes explicativas.

Unos mtodos jerrquicos como ejemplo

Vecino ms prximo o distancias mnimas. Los grupos se unen en base a la distancia entre
los dos miembros ms cercanos. Los miembros son denotados por A,B,C,DyE.

79




Mtodos jerrquicos
Queremos clasificar en una jerarqua los individuos del conjunto. Esta clasificacin se har
basndose en los valores de las variables observadas para cada individuo.
Recordar que los datos se presentan en la matriz de datos


donde cada fila representa un individuo, y en cada columna vienen recogidos los valores de
una variable. Asimismo, asociamos a cada individuo un punto en el espacio Rk, cuyas
coordenadas son los valores de las variables X1, . . . ,Xk. Los grupos, subgrupos, su
subgrupos que construiremos contendrn individuos cuyos puntos asociados estn cercanos
basndonos en una medida de su distancia.

V.3.2. Distancia, similaridad

a). Para variables continuas ( que pueden tomar cualquier valor
Mtodos aglomerativos

Son los que parten de los individuos separados y los van agrupando en distintos
niveles:

a). Algoritmo

80
Tiene una forma iterativa:

1. Empezamos con tantas clases como individuos.
2. Dada una particin en clases, seleccionamos las dos clases ms prximas y
formamos una nueva que las contenga como subclases.
3. Paramos cuando todos los elementos estn en una nica clase.

La figura V.1 ilustra en un ejemplo muy simple los pasos del mtodo aglomerativo: se
empieza con tantas clases como individuos (en este caso cuatro), y se van agrupando
las dos clases ms prximas. La matriz de datos que corresponde a esta figura es



y se deja como ejercicio al lector comprobar que la matriz de distancias asociada(distancia
eucldea) es






Como definir la distancia entre dos clases
81


Para llevar a cabo el algoritmo anterior, necesitamos ser capaces de calcular la distancia
entre dos clases con el objetivo de seleccionar las dos ms prximas. Vista la manera en la
que el algoritmo va formando clases, es suficiente saber calcular la distancia entre una clase
formada por dos subclases A y B, que denotaremos por AB y una tercera clase C.
Repitiendo el procedimiento podremos calcular la distancia entre dos clases en cualquier
nivel del algoritmo. Para ello, se han propuesto varias reglas:
Regla del encadenamiento simple, o del vecino ms prximo: d(AB,C) = min(d(A,C),
d(B,C)).
Regla del encadenamiento completo, o del vecino ms lejano: d(AB,C) = max(d(A,C),
d(B,C)).
Las jerarquas que resultan de la aplicacin de una u otra regla no tienen por que
coincidir.
Calculo para el ejemplo (V.2) Recordar que la matriz de distancias para este ejemplo es
En el mtodo de encadenamiento simple, los pasos que se siguen son: puesto que
d(A,B) = 0,21, d(A,C) = 0,45, d(A,D) = 0,51, d(B,C) = 0,53, d(B,D) = 0,46 y d(C,D) = 0,32
, en el primer paso se agrupan A y B en una clase. Las distancias entre las nuevas clases
AB, C y D son d(AB,C) = mn(d(A,C), d(B,C)) = 0,45, d(AB,D) = mn(d(A,D), d(B,D)) =
0,46 y d(C,D) = 0,32. Por lo tanto se agrupan ahora C y D. Tenemos dos clases: AB y CD
que se agrupan en una nica clase.
En el mtodo de encadenamiento completo, en el primer paso se siguen agrupando
A y B, ahora las distancias necesarias son d(AB,C) = mx.(d(A,C), d(B,C)) = 0,53,
d(AB,D) = mx.(d(A,D), d(B,D)) = 0,51 y d(C,D) = 0,32. Agrupamos C y D, y obtenemos
dos clases AB y CD como en el mtodo anterior.

d). Dendograma

El dendograma es una manera grfica de representar los pasos seguidos
Mtodo aglomerativo
82
Aglomerativo ascendente, que nos muestra como se construyen las diferentes agrupaciones
de municipios a partir de un rbol de clasificacin denominado dendograma. El mtodo
aglomerativo ascendente comienza con tantos grupos como individuos hay, agrupndolos
sucesivamente

Mtodos de eslabonamiento

Enlazado simple
D(Xi,Xj) =mn xXi,x Xj d(x,x )
Enlazado completo (Complete Link):
D(X i,Xj) = max xXi ,x Xj d(x,x )
Enlazado promedio (Average Link):
D(X i ,Xj) =1ninj xXi x Xj d(x,x )

Metodos aglomerativos
Distancia mnima (single linkage)
Los grupos se unen considerando la menor de las distancias existentes entre los miembros
ms cercanos de distintos grupos.
(Crea grupos ms homogneos pero permite cadenas de alineamientos entre sujetos muy
lejanos)
Distancia mxima (complete linkage)
Los grupos se unen considerando la menor de las distancias existentes entre los miembros
ms lejanos de distintos grupos.
Mtodo de Ward
IDEA BSICA: Se trata de ir agrupando de forma jerrquica elementos de modo que se
minimice una determinada funcin objetivo.
Grupal de la estructura formada.
(Tiende a generar conglomerados demasiado pequeos y demasiado equilibrados
FUNCIN A MINIMIZAR: Se perseguir la minimizacin de la Variacin Intra en
tamao)
83
Los objetos ms similares son los primeros en unirse, y los grupos as formados continan
unindose en forma progresiva de acuerdo a sus similaridades. Finalmente, todos los grupos
quedan fusionados en uno slo.




3.12 EXPLICAR EN QUE CONSISTE LA TCNICA DE AGRUPAMIENTO NO
JERRQUICA Y DIFERENCIARLO DE LA JERRQUICA
3.12 EXPLICAR EN QUE CONSISTE LA TCNICA DE AGRUPAMIENTO NO
JERRQUICA Y DIFERENCIARLO DE LA JERRQUICA

Procedimientos jerarquicos
Aglomerativo (comienza desde n clusters, hasta llegar a obtener 1 cluster)Divisivo
(comienza desde 1 cluster, hasta obtener n cluster)
Procedimientos no jerarquicos
Cluster de K-medias


84
Agrupamiento jerarquico
No hay decisin acerca del nmero de clusters
Existen problemas cuando los datos contienen un alto nivel de error
Puede ser muy lento
La decisin inicial influye mucho (una etapa nica)
Los datos de los grupos dentro de una estructura de clase jerrquica.
Descendente (divisivo) y ascendente (aglomerativo).
Basado normalmente en la formulacin optima por etapas o vida.
Estructura jerrquica til para plantear hiptesis sobre las clases.
Utilizada para crear algoritmos de agrupamiento como K medias.


Agrupamiento no jerarquico
Ms rpido, ms fable
Es necesario especificar el nmero de clusters (arbitrario)
Es necesario establecer la semilla inicial (arbitrario)
Jerrquicos (representacin en dendrogramas) Aglomerativos:
Individuos existan.....hasta un solo grupo final Disociativos: comienzan forma
descendente... hasta individuos. Comienzan con tantos grupos como con un solo grupo y en
cada uno de los
Dado un conjunto de textos, estos mtodos generan una particin nica de ellos.
El mtodo mas popular es el K jeans.
Eficiente para agrupar muchos textos, O(n).
Se tiene que establecer nmero de grupos.
Diferente orden de insercin de los textos producen diferentes agrupamientos.
Conocidos como mtodos de error cuadrtico.
La idea es encontrar, entre todas las posibles maneras de dividir los documentos en K
grupo, la que disminuye e error cuadrtico.



85
Mtodo jerrquico
Procedimientos de aglomeracin pas a paso que se basan en la combinacin (o divisin)
de los objetos (conglomerados). El resultado es la construccin de una jerarqua o
estructura de rbol compuesta por conglomerados independientes.

Mtodo no jerrquico
En vez de utilizar el proceso de construccin en rbol, cmo lo hacen los procedimientos
jerrquicos, se utilizan las semillas de conglomerados para agrupar los objetos dentro de las
distancias preestablecidas de las semilla
Tcnica de aglomeramiento no jerrquico, Los grupos se construyen alrededor de centros
o semillas, son valores medios variables para todas las cosas u objetos de un grupo
particular.

METODOS NO JERARQUICOS
UMBRAL SECUENCIAL Se seleccionan una tras otra, "semillas" de conglomerado
agrupando en torno a ellas todos los objetos que caen dentro de una determinada distancia.
Cada objeto ya asignado no se considera para posteriores asignaciones.
UMBRAL PARELELO Similar al anterior pero se generan todas las semillas al mismo
tiempo y los umbrales mnimas de aceptacin en cada grupo.
OPTIMIZACIN Similares a los jerrquicos pero no se clasifican como tales porque en
las etapas sucesivas se permite la reasignacin de sujetos.


Los mtodos no jerrquicos se usan para agrupar objetos y no variables en un conjunto de k
clusters ya predeterminado.
No se tiene que especificar una matriz de distancias ni se tienen que almacenar las
iteraciones, todo esto permite
Trabajar con un nmero de datos mucho mayor que en el caso de los mtodos jerrquicos.
En los jerrquicos la clasificacin resultante tiene un nmero creciente de clases anidadas
mientras que en el no jerrquico las clases no son anidadas.
86

3.13 EXPLICAR LA TCNICA DE K PROMEDIOS DE AGRUPAMIENTO NO
JERRQUICO Y APLICAR A UN PROBLEMA DEL REA ADMINISTRATIVA.
Un mtodo de reasignacin dentro de los mtodos estadsticos de clasificacin. En l se
debe tomar una decisin previa acerca del nmero de grupos que queremos tener de
principio. Una vez hecho esto se han de asignar los centros de los grupos de partida.
Cuando el centro de conglomerados de partida ha sido elegido, los individuos siguientes
sern asignados a aqul cuyo centro les
sea ms prximo conforme a la distancia euclidiana. El paquete estadstico SPSS/PC+ v.
4.01 ofrece la posibilidad de conocer o desconocer esos
centros de grupo, por lo que la designacin de centros a los conglomerados no es
obligatoria. Nosotros hemos escogido determinar este anlisis partir de la distancia
euclidiana. Esta es la distancia entre dos puntos tal y como se deduce del teorema de
Pitgoras.


1.El nmero k de clusters es fijo
2.Se proporciona un conjunto inicial de k semillas (centros de agregacin)
K primeros elementos
Otras semillas
3.Dado un cierto umbral, todas unidades son asignadas a la ms cercana semilla del
grupo4.Se calculan nuevas semillas
5.Volver a la etapa 3 hasta que no sea necesaria una reclasificacin
Las unidades pueden ser reasingnadas en etapas sucesivas (particin ptima
- Procedimientos no jerrquicos
o Cluster de K -medias
o Agrupamiento aglomerativo
- Mtodos de enlace
o Enlace simple (distancia mnima)
87
o Enlace Completo (distancia mxima)
o Enlace promedio
- Mtodo de Ward
o Calcular la suma de las distancias al cuadrado dentro de los clusters
o Agregar clusters con incremento mnimo en la suma de cuadrados total
- Mtodo del centroide
o La distancia entre dos clusters se define como la distancia entre los
centroides (medias de los cluster)

Cluster de Kmedias
- El nmero K de clusters es fijo
- Se proporciona un conjunto inicial de K semillas (centros de agregacin)
o K primeros elementos
o Otras semillas
- Dado un cierto umbral, todas unidades son asignadas a la ms cercana semilla del
grupo
- Se calculan nuevas semillas
- Volver a la etapa 3 hasta que no sea necesaria una reclasificacin
Las unidades pueden ser reasingnadas en etapas sucesivas (particin ptima)

Utilizado para reunir datos en grupos K, {C 1,. . ., CK}
Cada grupo est representado por datos asignados.
El algoritmo iterativo converge a un ptimo local:
Seleccionar grupos iniciales K- medias, 1{, ...K}
Repetir hasta que se satisfaga el criterio de parada:
1. Asignar cada muestra de datos al grupo ms cercano.
x_Ci, d(x,i) d(x,j ), i _= j
2. Actualizar K medias a partir de muestras asignadas.
i = E(x), x_Ci, 1 i K
88
El cuantizador vecino ms cercano se utiliza para datos ocultos.
Utilizado para reunir datos en grupos k , {c 1, . . . ,ck}
cada grupo est representado por datos asignados.
el algoritmo iterativo converge a un ptimo local:
seleccionar grupos iniciales k- medias,1{,. . . ,k}
repetir hasta que se satisfaga el criterio de parada:
1. Asignar cada muestra de datos al grupo ms cercano.
X_ci, d(x,i) d(x,j ), i _= j
2. Actualizar k medias a partir de muestras asignadas.
i = e(x), x_ci, 1 i k
el cuantizador vecino ms cercano se utiliza para datos ocultos.

Aplica el algoritmo k-means a la coleccion de patrones
D(x) = f0:1; 0:2;0:3; 0:0; 3:0; 4:0; 3:5; 2:4;1:0;0:9;1:1g
Para descubrir 3 clases. Inicializa los centroides a 1 = 2; 2 = 1; 3 = 3.

P6 = 20:0 7:3
7:3 20:0 (13)
(14) ) (max = 7:3) c15 = ffc1; fc2; fc3;c4ggg; fc5; fc8; fc6;c7gggg

En este caso se obtiene:
1(0) = 2:0 1(1) = 1:000
2(0) = +1:0 2(1) = 0:050
3(0) = +3:0 3(1) = +3:225
Patron d1 d2 d3 2 d1 d2 d3 2


X1 -0.1 1.9 1.1 3.1 c2 0.9 0.05 3.325 c2
X2 +0.2 2.2 0.8 2.8 c2 1.2 0.25 3.025 c2
X3 -0.3 1.7 1.3 3.3 c2 0.7 0.25 3.525 c2
X4 +0.0 2.0 1.0 3.0 c2 1.0 0.05 3.225 c2
89
X5 +3.0 5.0 2.0 0.0 c3 4.0 3.05 0.225 c3
X6 +4.0 6.0 3.0 1.0 c3 5.0 4.05 0.775 c3
X7 +3.5 5.5 2.5 0.5 c3 4.5 3.55 0.275 c3
X8 +2.4 4.4 1.4 0.6 c3 3.4 2.45 0.825 c3
X9 -1.0 1.0 2.0 4.0 c1 0.0 0.95 4.225 c1
X10 -0.9 1.1 1.9 3.9 c1 0.1 0.85 4.125 c1
X11 -1.1 0.9 2.1 4.1 c1 0.1 1.15 4.325 c1
1(1) = 1:000 1(2) = 1:000
2(1) = 0:050 2(2) = 0:050
3(1) = +3:225 3(2) = +3:225
9 iji(2) 6= i(1) i(2) = i(1) ; 8i ) fin
Por tanto, en 2 iteraciones, se obtiene el agrupamiento siguiente:
Cluster patrones centroide
C1 x9; x10; x11 -1.000
C2 x1; x2; x3; x4 -0.050
C3 x5; x6; x7; x8 +3.225
El anlisis de conglomerados de K promedios es un mtodo de agrupacin de casos que se
basa en las distancias existentes entre ellos en un conjunto de variables, el cual es
especialmente til cuando se dispone de un gran numero de casos. Existe la posibilidad de
utilizar la tcnica de manera exploratoria clasificando los casos e iterando para encontrar la
ubicacin de los centroides, o solo como tcnica de clasificacin, clasificando los casos a
partir de centoides conocidos suministrados por el usuario, cuando se utiliza como tcnica
exploratoria, es habitual que el usuario desconozca e numero idneo de conglomerados por
lo que es conveniente repetir el anlisis de distinto numero de conglomerados y comparar
as soluciones obtenidas; en estos casos tambin puede utilizarse el mtodo anlisis de
conglomerados jerrquico con una submuestra de casos.


90
3.14 DESCRIBIR AGRUPACIONES DE ANLISIS DE AGRUPACIONES
(CLUSTER).

En este tipo de anlisis, a diferencia del anterior, slo disponemos de los valores de p
variables X explicativas, para N sujetos, y el objetivo es agruparlos en K grupos (K < N), de
tal manera que los individuos que pertenecen a un grupo se parezcan lo ms posible entre s
con respecto a esas variables, y a su vez difieran lo mximo posible de los individuos de
otros grupos. Este planteamiento es completamente diferente de la metodologa estadstica
habitual ya que aqu no hay una hiptesis previa. Un posible ejemplo puede ser el buscar
grupos de procesos mdicos para valoracin de costes, de tal manera que los grupos sean lo
ms homogneos en cuanto a los recursos empleados.
Existen diferentes procedimientos para construir los grupos, y diferentes formas de
determinar cmo se mide la similitud. Para ello se introduce el concepto de distancia entre
las observaciones, que a su vez tambin viene determinado por el tipo de variables que se
analizan, ya sean stas cuantitativas como por ejemplo la presin arterial, cualitativas
ordinales en las que al resultado se le puede asignar un nmero cuyo orden tiene sentido,
pero no la diferencia entre dos valores, y cualitativas nominales que corresponden a una
etiqueta y donde la similitud se determina como simple coincidencia de valores.
Cuando se analizan slo dos variables los datos son representables en unos ejes XY y de
forma visual se puede intentar determinar una posible formacin de grupos, por lo que una
sencilla tcnica a emplear es buscar, mediante algn mtodo de reduccin de variables (por
ejemplo anlisis de componentes principales), obtener dos nuevas variables, funcin de las
originales, que conserven una gran parte de la variabilidad original, y representarlas
grficamente para una inspeccin visual.
Aunque en ocasiones encontramos anlisis de agrupaciones en la literatura biomdica, no
es una tcnica muy habitual. Actualmente, un rea en la que se est utilizando con cierta
frecuencia es en epidemiologa, en estudios geogrficos de riesgos y de distribucin de
enfermedades, con el fin de determinar si existen agrupaciones sospechosas de casos,
fundamentalmente buscando relacin con entornos contaminados o con focos
contaminantes. Remitimos al lector interesado al artculo sobre "Disease mapping"
referenciado en los enlaces
91

ANLISIS DISCRIMINANTE
DEFINICIN: Si la varianza entre grupos es grande, es decir si hay grandes diferencias
entre los valores que toma la funcin Y en los distintos grupos, pero la varianza dentro de
grupos es pequea, es decir, los valores de Y para municipios de un mismo grupo son muy
similares, entonces diremos que la funcin discriminante separa bien a los grupos, que
sern, internamente muy homogneos y a la vez muy diferentes entre s.
Aunque no vamos a entrar en desarrollos formales sobre la obtencin de los coeficientes
que definen las funciones discriminantes, s es necesario plantear algunas cuestiones
importantes de cara al anlisis e interpretacin de los resultados que se obtengan.

Cmo tcnica de anlisis de dependencia:
Pone en marcha un modelo de causalidad en el que la variable endgena es una variable
NO MTRICA y las independientes mtricas.
Cmo tcnica de anlisis de clasificacin:
Ayuda a comprender las diferencias entre grupos. Explica, en funcin de caractersticas
mtricas observadas, porqu los objetos/sujetos se encuentran asociados a distintos niveles
de un factor.
DIFERENCIAS CON.........:
El anlisis de regresin: En la regresin, la endgena es mtrica
El anlisis ANOVA: En el ANOVA, la endgena es mtrica y las exgenas NO
MTRICAS (al contrario que en el discriminante).
El LOGIT - PROBIT: Idntica al discriminante en el objetivo pero apoyada en tcnicas de
estimacin paramtrica idnticas a la regresin
y no en anlisis de descomposicin de la varianza:
(1) DV: Ms adecuada para factores slo binarios
(2) DV: Ms compleja de clculo - interpretacin
(3) V: Se ve menos afectada por incumplimientos de supuestos tericos necesarios a priori
(normalidad, por ejemplo)
(4) V: Permite incorporar explicativas no mtricas en forma de ficticias
(5) Los resultados admiten explotacin en trminos de probabilidad
92
ANLISIS DISCRIMINANTE
Qu significa, en este contexto?........:
ADP y ADD: Anlisis Discriminante Descriptivo o Predictivo
MDA: Anlisis discriminante Mltiple (no binario)
A. DISCRIMINANTE DESCRIPTIVO (Un ejemplo):
(Objetivo) Se desea caracterizar el perfil de los compradores de un determinado producto
en un determinado establecimiento.
(Diseo) Para ello, se disea una muestra con 100 compradores y 100 no compradores y se
toman datos de renta, edad y cercana al establecimiento de venta.
(Resultado) El anlisis discriminante establecer la importancia relativa de cada uno de
estos atributos en la decisin de compra permitiendo orientar mejor la poltica promocional
o de distribucin del producto.
B. DISCRIMINANTE DESCRIPTIVO (otro ejemplo):
(Objetivo) Se desea valorar de qu depende la fidelidad de un clientes a un determinado
proveedor comercial.
(Diseo) Para ello, se encuesta a 15 importantes clientes sobre la posibilidad de cambiar de
proveedor y sobre la percepcin que estos tienen de su Competitividad y Nivel de Servicio.
(Resultado) El anlisis permitir aproximar la importancia relativa de la competitividad y el
nivel de servicio a la hora de conseguir fidelidad en un cliente.
C. DISCRIMINANTE PREDICTIVO (un ejemplo):
(Objetivo) Se desea prever el riesgo de morosidad relativa a los prstamos personales en
una entidad bancaria.
(Diseo) Se explota el fichero histrico de clientes morosos - no morosos y se observan
variables cuantitativas potencialmente explicativas: renta total, edad, crditos adicionales,
aos de estabilidad laboral.
ANLISIS DISCRIMINANTE
(Resultado) Aplicando el modelo estimado con el fichero histrico, el anlisis permitir
anticipar el riesgo de morosidad de nuevos clientes.



93
ETAPAS PARA DE UN ANLISIS DISCRIMINANTE
A.- Seleccin De Variables Dependiente E
Independientes
B.- Seleccin Del Tamao Muestral
C.- Divisin De La Muestra
D.- Chequeo De Las Hiptesis De Partida
E.- Estimacin Del Modelo
F- Validacin De Las Funciones Discriminantes
G.- Contribucin De Las Variables A La Capacidad
Discriminante De Las Funciones
H.- Valoracin De La Capacidad Predictiva
I.- Utilizacin Funciones
Anlisis Discriminante
A.- Seleccin De Variables Dependiente E
Independientes
La variable dependiente no tiene que ser, necesariamente, categrica en
origen
Los grupos deben ser mutuamente excluyentes
La decisin sobre el nmero de categoras
(1) debe ajustarse al poder discriminante de los predictores
(2) puede observarse en etapas sucesivas (inicial con todas, y
en el lmite, optando slo por el enfoque de extremos
polares)
Las variables explicativas:
(1) no deben ser excesivas
(2) deben atender siempre al objetivo conceptual
(3) pueden someterse a un test univariante de diferencia de
medias o un test ANOVA
B.- SELECCIN DEL TAMAO MUESTRAL
Elevada sensibilidad al tamao muestral Vs. N de predictoras. (Receta:
mnimo 5 observaciones por variable..... recomendado 20 observaciones
94
por variable).
Tambin debe vigilarse el tamao de los grupos:
(1) el equilibrio no es necesario pero es recomendable
(2) el ms pequeo de los grupos no puede serlo mucho
(Receta: como mnimo, el tamao del grupo ms pequeo
debe ser mayor al nmero de variables).
ANLISIS DISCRIMINANTE
C.- DIVISIN DE LA MUESTRA
Utilidad del enfoque de validacin cruzada (muestra de anlisis +muestra ampliada)
(1) garantizado un tamao muestral total suficiente
(2) aplicando muestreo estratificado proporcional en ambas
muestras
D.- CHEQUEO DE LAS HIPTESIS DE PARTIDA
Ausencia de normalidad multivariante problemas en la estimacin LOGIT recomendado
Matrices de varianzas y covarianzas distintas problemas en la clasificacin uso de tcnicas
de clasificacin cuadrticas Multicolinealidad problemas en la interpretacin de parmetros
estimacin secuencial
E- ESTIMACIN DEL MODELO
SELECCIN DEL MTODO (I)
Mtodo simultneo o por etapas:
(1) estimacin en una sola etapa (nmero reducido de variables, inters por el conjunto)
(2) estimacin polietpica: seleccin de menos a ms, analizando las interacciones de las
variables discriminantes (amplio nmero de variables, dudas sobre el modelo terico)
Mtodo clculo : Mtodo de Fisher, D de Mahalanobis, .


ANLISIS DISCRIMINANTE
SELECCIN DEL MTODO (II)
(Nocin bsica sobre el mtodo de Fisher)
Elemento Grupo X1 X2 X3 Y=f(x1,x2,x3)
1 A 25 25 23 10
95
2 A 15 14 26 12
3 A 14 13 21 11
4 B 25 18 41 5
5 B 65 14 18 4
6 B 15 18 48 4
Variable Y (Funcin Discriminante): combinacin lineal de las
variables originales "X" que:
(1) Presente la mnima variacin INTRA grupal
(2) Presente la mxima variacin ENTRE grupal
La funcin discriminante no ser nica: si se parte de una
clasificacin en "g" grupos, se obtendrn varios conjuntos de parmetros,
es decir, varias funciones discriminantes (Menor de g-1 o p)

El anlisis de agrupamiento suele denominarse asignacin automtica de clase
Esta denominacin no es estrictamente precisa:
En el anlisis de agrupamientos no se conocen los grupos antes del
proceso sino que se definen segn se asignan los elementos.
el anlisis de agrupamientos es muy til para estructurar grandes
conjuntos de datos multivariantes
Este mtodos se encuentra actualmente formando parte de muchos paquetes de
software por ejemplo, en los paquetes estadsticos SPSS BMDP

En la asignacin automtica de clase debern conocerse a priori las clases.
Procedimiento estadstico en donde personas u objetos son agrupados de acuerdo a
caractersticas en comn. Las unidades de estudio son combinadas entre los grupos para
permitir a los investigadores identificar similitudes y diferencias entre ellos.
96

Indice de Calidad Ambiental por valores residuales (ICA), Coeficiente de
Variacin (CV%), Coeficiente de Especializacin (CE) por Municipio para el
Area Metropolitana de Monterrey, Nuevo Len
Municipio ICA CE CV X
Apodaca 0.2915

33.17 0.4719
General Escobedo 0.3043

DS
Guadalupe 0.4391

0.1565
Monterrey 0.5916 S

X + DS
San Nicols de los Garza 0.5710 S

0.6284
San Pedro Garza Garca 0.7433 AS

X +2DS
Santa Catarina 0.3623

0.7850
S= significativo; AS= altamente significativo; ES= extremadamente significativo; X =
media; DS = desviacin estndar.





97

Dendograma del Anlisis de Agrupamiento Jerrquico de los Indicadores Ambientales
Positivos.
Despus de un reporte del anlisis de agrupamiento jerrquico se despliega dendograma ;
el cual nos indica que las municipalidades del Area Metropolitana de Monterrey se
conglomeran en tres agrupamientos de manera conspicua. Dos articulaciones aglutinan tres
municipalidades cada uno, que incluyen a Guadalupe (GPE) San Nicols de Los Garza
(SN) y Monterrey (MTY) en primera instancia; y Apodaca (APO), Santa Catarina (SC) y
General Escobedo (GE), en segundo trmino. Destacando el municipio de San Pedro Garza
Garca (SP), que integra el ltimo agrupamiento, y que predomina como aquel que es ms
dismil, con referencia a los indicadores positivos, con respecto a las otras unidades poltico
administrativas que conforman el Area Metropolitana de Monterrey.
Adems, con este anlisis se establece la prueba estadstica de Correlacin Cofenetica, (que
es una correlacin de Pearson) entre la distancia actual y la predicha sobre la configuracin
jerrquica, y que arroja una asociacin de 0.7699.
Indice de Detrimento Ambiental (IDA)
La variante del procedimiento incluyo calcular la calidad ambiental del Area Metropolitana
de Monterrey, mediante indicadores de tendencia negativa; lo cual arroj tres municipios
con ndices de detrimento ambiental notables y que constituyen el 43% de aquellos sujetos
a evaluacin; los municipios que adquirieron ndices altamente significativos incumben a
General Escobedo (IDA=0.7599) y Apodaca (IDA=0.7403), y uno significativos
correspondiente a la municipalidad de Santa Catarina (IDA=0.6653)

Indice de Detrimento Ambiental por valores
residuales (IDA), Coeficiente de Variacin
(CV%), Coeficiente de Especializacin (CE)
por Municipio para el Area Metropolitana de
Monterrey, Nuevo Len
98
Municipio IDA CE CV X
Apodaca 0.7403 AS 51.20 0.4637
General
Escobedo
0.7599 AS

DS
Guadalupe 0.3687

0.2374
Monterrey 0.3634

X + DS
San Nicols
de los Garza
0.1372

0.7011
San Pedro
Garza Garca
0.2107

X +2DS
Santa
Catarina
0.6653 S

0.9385

S=significativo; AS= altamente significativo; ES= extremadamente significativo; X =
media; DS = desviacin estndar.
Por otra parte, refiere a cuatro municipalidades (57%) ndices inferiores al IDA
significativo cuyo valor tasado es de 0.4637 (Ver Tabla 3 y 4)
Los municipios que se encuentran en esta situacin son Guadalupe (IDA=0.3687),
Monterrey (IDA=0.3634), San Pedro Garza Garca (IDA=0.2107) y San Nicols de Los
Garza (IDA=0.1372) (Ver Tabla 3 y 4).
El resultado del anlisis de agrupamiento jerrquico conlleva al dendograma; el cual nos
muestra que los municipios en del Area Metropolitana de Monterrey se aglomeran en tres
ensambles de carcter notable los cuales adhieren dos, tres y dos municipalidades cada uno,
que incluyen a Apodaca (APO) y General Escobedo (GE); Guadalupe (GPE), Monterrey
(MTY) y Santa Catarina (SC); y San Nicols de Los Garza (SN) y San Pedro Garza Garca
99
(SP), respectivamente. Descollando la asociacin de los municipios de San Pedro Garza
Garca (SP) y San Nicols de Los Garza (SN), que se yerguen como los municipios ms
discrepantes, del resto de las municipalidades del Area Metropolitana de Monterrey.
Por otra parte, el examen determin mediante la prueba estadstica de Correlacin
Cofenetica, (que es una correlacin de Pearson) entre la distancia actual y la pronosticada
sobre la configuracin jerrquica, y que emite una asociacin de 0.7160.













Dendograma del Anlisis de Agrupamiento Jerrquico de los Indicadores Ambientales
Negativos.
A partir de estos ndices es notable apreciar mediante el coeficiente de variacin (CV), las
diferencias que en su conjunto ofrecen las municipalidades en cada ndice estimado. El
coeficiente de variacin ilustra que existe una variacin del 33.17% y 51.20%, dentro de la
valoracin de la calidad y detrimento ambiental respectivamente. Lo que atae una
distancia menor entre las municipalidades con respecto a los indicadores ambientales
positivos; mientras que respecto a los indicadores ambientales negativos concierne una
diferencia bastante substancial entre los municipios contemplados en el estudio.
100
Adems en este anlisis se logr establecer la amplitud y la tendencia de asociacin y
significancia entre los Indices de Detrimento Ambiental e Indice de Calidad Ambiental
obtenidos a partir de procesos axiolgicos dismiles; presentndose una conmutacin de
correspondencia con propensin negativa con una fuerza de asociacin de 0.8571 y
significativo; con una atribucin del 73%
Equiparacin entre los ndices resultantes de
Calidad y Detrimento Ambiental (Valores
Residuales)
Municipio ICA Posicin IDA Posicin
Apodaca 0.2915 7 0.7403 2
General
Escobedo
0.3043 6 0.7599 1
Guadalupe 0.4391 4 0.3687 4
Monterrey 0.5916 2 0.3634 5
San
Nicols de
los Garza
0.5710 3 0.1372 7
San Pedro
Garza
Garca
0.7433 1 0.2107 6
Santa
Catarina
0.3623 5 0.6653 3

ICA= Indice de Calidad Ambiental; IDA= Indice de Detrimento Ambiental
101
Por otra parte, la concomitancia entre las pruebas realizadas para la obtencin del Indice de
Calidad Ambiental y de Detrimento Ambiental contrastadas con el anlisis agrupamiento
jerrquico, nos permiti convalidar la ordenacin establecida por los ndices tabulados.

Tabla 5
Matriz de Correlacin* entre el Indice de
Calidad Ambiental (ICA) e Indice de
Detrimento Ambiental (IDA)

ICA
IDA -0.857143
0.0136970
7.000000

*Coeficiente de Correlacin de Sperman; Valor de r = significativo menor 0.05;
tems =7
Es evidente, que a pesar de los riesgos que implica bosquejar la valoracin de la calidad
ambiental, el valor que tienen estudios como el presente, donde el mtodo analtico que se
empleo tiende a jerarquizar las comunidades sujetas a estudio con base a datos cuyo origen
y dimensiones provienen del conocimiento de las particularidades de las distintas
circunscripciones del Area Metropolitana de Monterrey, nos permite generar informacin
ambiental bsica que se resume de manera explcita a travs de un ndice, y que ofrece la
disyuntiva de evaluar con el paso del tiempo de manera retrospectiva y prospectiva, y
prescribir las condiciones en que subsiste la poblacin.
Hay que hacer hincapi, que los indicadores ambientales contemplados en los procesos
axiolgicos, solo dan cuenta de la situacin promedio prevaleciente en las unidades
polticas administrativas consideradas, y no se refieren por lo tanto a situaciones
individuales o de grupo.
102
3.15 USAR PAQUETE SAS

Comprende amplias posibilidades de procedimientos estadsticos (mtodos multivariados,
regresin mltiple con posibilidades diagnsticas , anlisis de supervivencia con riesgos
proporcionales y regresin logstica) y permite clculos exactos para tablas r x c y contiene
potentes posibilidades grficas.
* Todos los procedimientos pueden emplearse de una sola ejecucin.
* Los resultados pueden guardarse como archivos y usarse como entradas para futuras
ejecuciones.
* Es particularmente til en la gestin de datos y en la redaccin de informes.
* Algunos procedimientos tienen varias opciones por lo cual debe examinarse
cuidadosamente el manual antes de seleccionar la opcin deseada.
* SAS ofrece la mayor flexibilidad para personalizar el manejo y anlisis de datos, sin
embargo su principal inconveniente es que no resulta fcil aprender a usarlo.
- SPSS, Statistical Package for the Social Sciencies (SPSS Inc. , Chicago)
* Dispone de un amplio conjunto de mtodos estadsticos (multivariados, series temporales,
regresin logstica y anlisis de supervivencia).Todos los procedimientos pueden emplearse
de una sola ejecucin.
* Algunos procedimientos tienen varias opciones por lo cual debe examinarse
cuidadosamente el manual antes de seleccionar la opcin deseada. SPSS es el ms fcil de
aprender para los investigadores principiantes y tiene un manual que explica la filosofa y
los mecanismos de las tcnicas estadsticas.
* Puede creerse que SPSS es un producto caro y ligado a compras costosas. Esto no es
totalmente cierto. Si bien no es un producto barato, s es rentable. De hecho, el xito de
SPSS se debe a:
Vinculacin de los objetivos a las necesidades de la empresa.
Perfecto Acoplamiento a un Plan de Investigacin bien formulado.
Servicio de Calidad para los usuarios.
Eficaz Evaluacin de los Resultados hallados.
103
Facilidad del Manejo y de la Programacin






















104



















105

Anlisis interactivo de datos, permitiendo que los datos sean resumidos y desplegados en
diversas maneras de forma online.

Los datos puede ser modelados como datos multidimensionales (atributos de dimensin y
atributos de medida).

En el siguiente ejemplo, los nmeros que representan las ventas (sales) son considerados
atributos de medida, mientras que size, item-name y color son considerados como
dimensiones.

Algunos ejemplos seran:
- Qu productos mantener siempre en almacn ?
- Qu seguro cambiar o utilizar?
- A quin dirigir cierta campaa o determinado producto?
UNIDAD 4: Anlisis Discriminante.
4.1 EXPLICAR ANALISIS DISCRIMINANTE
El Anlisis Discriminante es una tcnica estadstica multivariante cuya finalidad es
analizar si existen diferencias significativas entre grupos de objetos respecto a un conjunto
de variables medidas sobre los mismos para, en el caso de que existan, explicar en qu
sentido se dan y proporcionar procedimientos de clasificacin sistemtica de nuevas
observaciones de origen desconocido en uno de los grupos analizados.
El anlisis discrimante permite conocer las diferencias entre los grupos y ofrece una media
para asignar cualquier caso en el grupo con el que este caso se asemeja ms estrechamente.
Su interpretacin permite conocer qu tanto los grupos difieren, o su capacidad para
discriminar
106
Se consideran las variables discriminantes como ejes que definen un espacio p-dimensional,
y se calcula el centroide de cada grupo: un punto imaginario que tienen coordenadas que
representan la media del grupo para cada variable y tambin representan la posicin
espacial tpica para este grupo.
Debido al carcter ms predictivo que descriptivo de este anlisis se utiliz el mtodo
stepwise. En este caso, para el uso del modelo predictor, la capacidad de cada variable para
separar los gruposfue el principal criterio para si inclusin al modelo. La multicolinearidad
fue tratada como un problema de menor importancia, porque el efecto exacto y de una
variable predictora y el valor preciso de los coeficientes no son el foco del anlisis.
El criterio de inclusin de variables busc construir una funcin discriminante lineal a
travs
de un listado de clasificacin que minimice la probabilidad de mala clasificacin de casos
en los diferentes grupos por condicin de pobreza. Los coeficientes obtenidos establecen
simplemente cortes que distinguen los grupos de no pobres, pobres moderados y pobres
extremos, de acuerdo con el comportamiento del conjunto de variables discriminantes
El Anlisis Discriminante es una tcnica estadstica multivariante cuya finalidad es analizar
si existen diferencias significativas entre grupos de objetos respecto a un conjunto de
variables medidas sobre los mismos para, en el caso de que existan, explicar en qu sentido
se dan y proporcionar procedimientos de clasificacin sistemtica de nuevas observaciones
de origen desconocido en uno de los grupos analizados.

Es decir, se buscan variables menos representativas para poder eliminarlas, para que el
nmero de variables no sea un problema y comprender la relacin entre varios grupos de
variables de una forma ms fcil.
El Anlisis Discriminante es una tcnica estadstica multivariante con una finalidad doble:
1.-Un fin descriptivo consistente en analizar si existen diferencias entre una serie de grupos
en los que se divide una poblacin, con respecto a un conjunto de variables y, en caso
afirmativo, averiguar a qu se deben
2.-Un fin predictivo consistente en proporcionar procedimientos sistemticos de
clasificacin de nuevas observaciones de origen desconocido en algunos de los grupos
considerados.
107

Aplicar la tcnica del anlisis discriminante para dos grupos a un problema del rea
administrativa indicando el calculo de los pesos discriminantes para la funcin lineal
establecida para cada eje variable.
Ejemplo: Considere los siguientes grupos de consumidores. El grupo 1 (G1) realiza sus
compras en shoopings y el grupo 2 (G2) en outlets. Queremos establecer las diferencias de
comportamiento entre estos dos grupos en base al ingreso y al nmero de compras que
realizan en el ao para poder decidir si un consumidor con un ingreso de 60,000 y que
realiza 25 compras por ao puede clasificarse en alguno de los grupos.
La siguiente tabla muestra los datos para estas variables:







Maximizando la funcin discriminante de Fisher tenemos los coeficientes o1= 0.098 y
o2=0.768

A dems


Grupo 1 Grupo 2
Observaciones Ingreso Compras Ingreso Compras
1 60 18.4 75 19.6
2 85.5 16.8 52.8 20.8
3 64.8 21.6 64.8 17.2
4 61.5 20.8 43.2 20.4
5 87 23.6 84 17.6
6 110.1 19.2 49.2 17.6
7 108 17.6 59.4 16
8 82.8 22.4 66 18.4
9 69 20 47.4 16.4
10 93 20.8 33 18.8
11 51 22 51 14
12 81 20 63 14.8
108
Como 25.08 > 21.27 Entonces el nuevo consumidor puede clasificarse como proveniente
del G1
4.2 Aplicar La Tcnica Del Anlisis Discriminante Para 2 Grupos A Un Problema Del
rea Administrativa Indicando El Calculo De Los Pasos Discriminantes Para La
Funcin Lineal Establecida Para Cada Eje De Variable.
Ejemplo 1 (Discriminacin con dos grupos)

Una empresa est interesada en analizar la opinin de sus clientes con respecto a su labor
comercial y de gestin. Para ello realiza una encuesta a una muestra de 100 de ellos en las
que le pide que valoren su labor en los siguientes aspectos, haciendo una valoracin entre 0
y 10: Velocidad de Entrega (VENTREGA), Nivel de Precios (NIVPREC), Flexibilidad de
Precios (FLEXPREC), Imagen de la Empresa (IMGEMPR), Servicio (SERVICIO), Imagen
de Ventas (IMGVENTA) y Calidad de Producto (CALIDAD).
Adems, tiene clasificados a sus clientes en dos grupos de acuerdo al tamao de la empresa
en la que trabajan: Empresas Pequeas (TAMAO=1) y Empresas Grandes
(TAMAO=2). El nmero de clientes pertenecientes a empresas pequeas es igual a 60 y
el de empresas grandes es igual a 40.
El objetivo del estudio es analizar si existen diferencias en cuanto a la percepcin de su
labor empresarial entre los clientes de un grupo y del otro y, en caso de que existan,
analizar en qu sentido se dan dichas diferencias.
En este caso, por lo tanto, existen 7 variables clasificadoras (p=7) y dos grupos a
discriminar (q=2). El tamao de la muestra es n=100 con n
1
= 60 y n
2
= 40.
La discriminacin entre los q grupos se realiza mediante el clculo de unas funciones
matemticas denominadas funciones discriminantes. Existen varios procedimientos para
calcularlas siendo el procedimiento de Fisher uno de los ms utilizados que es el que
exponemos, a continuacin.
El procedimiento de Fisher toma como funciones discriminantes, combinaciones lineales de
las variables clasificadoras de la forma:
D = u
1
Y
1
+ u
2
Y
2
+ ... + u
p
Y
p
= uY
109
Sean {d
gk
k=1,,n
g
; g=1,,q} los valores de la variable D en cada uno de los q grupos
donde d
gk
denota el valor de D en la k-sima observacin del g-simo grupo.
Sean

= =

=
q ,..., g ;
n
d
d
g
g
n
k
gk
g
1
1
las medias muestrales de la variable D en cada
uno de la q grupos y sea
n
d
d
q
1 g
n
1 k
gk
g

= =
=
la media de la variable D.


A.- seleccin de variables dependiente e
Independientes
B.- seleccin del tamao muestral
C.- divisin de la muestra
D.- chequeo de las hiptesis de partida
E.- estimacin del modelo
F- validacin de las funciones discriminantes
G.- contribucin de las variables a la capacidad
Discriminante de las funciones
H.- valoracin de la capacidad predictiva
I.- utilizacin funciones

Problemas:
Una empresa est interesada en analizar la opinin de sus clientes con respecto a su labor
comercial y de gestin. Para ello realiza una encuesta a una muestra de 100 de ellos en las
que le pide que valoren su labor en los siguientes aspectos, haciendo una valoracin entre 0
y 10: velocidad de entrega (VENTREGA), nivel de precios (NIVPREC), flexibilidad de
precios (FLEXPREC), imagen de la empresa (IMGEMPR), servicio (SERVICIO), imagen
de ventas (IMGVENTA) y calidad de producto (CALIDAD).
110
Adems, tiene clasificados a sus clientes en dos grupos de acuerdo al tamao de la empresa
en la que trabajan: empresas pequeas (tamao=1) y empresas grandes (tamao=2). El
nmero de clientes pertenecientes a empresas pequeas es igual a 60 y el de empresas
grandes es igual a 40.
El objetivo del estudio es analizar si existen diferencias en cuanto a la percepcin de su
labor empresarial entre los clientes de un grupo y del otro y, en caso de que existan,
analizar en qu sentido se dan dichas diferencias.
En este caso, por lo tanto, existen 7 variables clasificadoras (p=7) y dos grupos a
discriminar (q=2). El tamao de la muestra es n=100 con n
1
= 60 y n
2
= 40.

Ejemplo 1 (Discriminacin con dos grupos)
Una empresa est interesada en analizar la opinin de sus clientes con respecto a su
labor comercial y de gestin. Para ello realiza una encuesta a una muestra de 100 de ellos
en las que le pide que valoren su labor en los siguientes aspectos, haciendo una valoracin
entre 0 y 10: Velocidad de Entrega (VENTREGA), Nivel de Precios (NIVPREC),
Flexibilidad de Precios (FLEXPREC), Imagen de la Empresa (IMGEMPR), Servicio
(SERVICIO), Imagen de Ventas (IMGVENTA) y Calidad de Producto (CALIDAD).
Adems, tiene clasificados a sus clientes en dos grupos de acuerdo al tamao de la
empresa en la que trabajan: Empresas Pequeas (TAMAO=1) y Empresas Grandes
(TAMAO=2). El nmero de clientes pertenecientes a empresas pequeas es igual a 60 y
el de empresas grandes es igual a 40.

Clculo de las funciones discriminantes
La discriminacin entre los q grupos se realiza mediante el clculo de unas
funciones matemticas denominadas funciones discriminantes. Existen varios
procedimientos para calcularlas siendo el procedimiento de Fisher uno de los ms utilizados
que es el que exponemos, a continuacin.
Procedimiento Discriminante de Fisher
El procedimiento de Fisher toma como funciones discriminantes, combinaciones
lineales de las variables clasificadoras de la forma:
D = u
1
Y
1
+ u
2
Y
2
+ ... + u
p
Y
p
= uY
111

Sean {d
gk
k=1,,n
g
; g=1,,q} los valores de la variable D en cada uno de los q
grupos donde d
gk
denota el valor de D en la k-sima observacin del g-simo grupo.
Sean

= =

=
q ,..., g ;
n
d
d
g
g
n
k
gk
g
1
1
las medias muestrales de la variable D en cada uno
de los q grupos y sea n
d
d
q
1 g
n
1 k
gk
g

= =
=
la media de la variable D.

El procedimiento de Fisher determina el vector u que maximiza el cociente:

( )
( )
Wu u
Bu u
'
'
q n
d d
1 q
d d n
=
grupos intra ad Variabilid
grupos entre ad Variabilid
q
1 g
n
1 k
2
g gk
q
1 g
2
g g
g
=

= =
=
1 q
q n


donde:
W =
( )( )
y y y y
k k g g g g
k
n
j
g
G

= =

'
1 1
=

=
G
1 g
g
W
=
( ) ( )( )
( )( ) ( )
y y y y y y
y y y y y y
gk g
k
n
g
g
G
gk g Kgk Kg
k
n
g
g
G
Kgk Kg gk g
k
n
g
g
G
Kgk Kg
k
n
g
g
G
1 1
2
1 1
1 1
1 1
1 1
1 1
2
1 1

(
(
(
(
(
(
= = = =
= = = =


...
... ... ...
...

es la matriz de suma de cuadrados intra-grupos
B =
( )( )
n
g g g
g
G
y y y y
=

'
1
=
( ) ( )( )
( )( ) ( )
(
(
(
(
(





= =
= =
G
1 g
2
K Kg g
G
1 g
1 g 1 K Kg g
G
1 g
K Kg 1 g 1 g
G
1 g
2
1 g 1 g
y y n ... y y y y n
... ... ...
y y y y n ... y y n

112
es la matriz de suma de cuadrados inter-grupos.
Se impone, adems, la condicin de normalizacion uWu = 1
La solucin viene dada por el vector propio u
1
de W
-1
B asociado al mayor valor
1
de esta matriz.
En general, si se quieren calcular r funciones discriminantes con varianza 1, y que
sean incorreladas entre s, es decir, que verifiquen que u
i

Wu
j

ij
; i,j=1,,r, se obtienen
como soluciones los r vectores propios de W
-1
B asociados a los r mayores valores propios
1
> >
r
> 0. A las funciones D
i
= u
i

Y i=1,,r se les llama funciones


discriminantes cannicas o funciones discriminantes de Fisher.
Observacin
Si r es el nmero de funciones discriminantes se tiene que W
D
= I
r
y B
D
=
1 r
) donde W
D
y B
D
son las matrices W y B calculadas utilizando las
puntuaciones discriminantes. Se sigue que:
i
=
( )

=

q
1 g
2
i i
g g
d d n
; i=1,...,r
donde {
i
g
d
; g=1,..,q} son las puntuaciones medias de la i-sima funcin discriminante en
los q grupos y
i
d
es la puntuacin media total.
i
; i=1,...,r} miden el poder de discriminacin de
la i-
i
= 0 la funcin discriminante no tiene
ningn poder discriminante. Dado que el rango de la matriz W
-1
B es a lo ms min{q-1,p} el
nmero mximo de funciones discriminantes que se podrn calcular ser igual a min{q-
1,p}.
El objetivo del estudio es analizar si existen diferencias en cuanto a la percepcin de
su labor empresarial entre los clientes de un grupo y del otro y, en caso de que existan,
analizar en qu sentido se dan dichas diferencias.
En este caso, por lo tanto, existen 7 variables clasificadoras (p=7) y dos grupos a
discriminar (q=2). El tamao de la muestra es n=100 con n
1
= 60 y n
2
= 40.


113

4.3 EXPLICA EL CRITERIO DISCRIMINANTE PARA CLASIFICAR
NUEVAS OBSERVACIONES
Criterio de la lambda de Wilks en anlisis discriminante
Utiliza la lambda de Wilks para medir la potencia discriminante ganada / perdida al
introducir / sacar una variable del conjunto de discriminacin.
q
la lambda de Wilks basada en las q primeras variables.
Para ver si es necesario incluir la variable Y
q+1
en el conjunto de discriminacin se
utiliza el estadstico
F =
n G q
G
q
q

+

|
\

|
.
|
|
|
1
1
1
A
A
~ F
G-1,n-G-q


si la variable Y
q+1
no aporta informacin relevante al proceso de discriminacin entre los
grupos. Un valor alto/bajo de F indica una prdida significativa / no significativa de
informacin si la variable Y
q+1
no es incluida / es incluida en el conjunto de discriminacin.

Utilizando dicha variable es posible, por ejemplo, proporcionar un p-valor de
entrada y otro de salida de forma que si el p-valor obtenido al introducir una variable en el
conjunto de discriminacin, no es inferior al p-valor de entrada, la variable considerada no
entra en dicho conjunto y si el p-valor obtenido al eliminarla del conjunto de discriminacin
no es superior al de salida, la variable considerada no sale de dicho conjunto.

Utilizar la ecuacin discrimnate para clasificar nuevas observaciones
Para obtener los objetivos del anlisis discriminante se busca la obtencin de una funcin
discriminante:
1.-predecir la categora de una unidad de anlisis u objeto o individuo.
2.-determinar cuales son las variables predictoras con mayor poder discriminante para
clasificar a las unidades de anlisis para que tengan uno o el otro atributo de la variable
dependiente.
114

FD = 1 X1 + 2 X2 + ...............+ m Xm

donde xm es la m-sima variable independiente. La funcin discriminante obtenida por
programas computacionales como el systat, BMD-07M o el statgrafics determinan los
valores para cada variable independiente de los que reciben el nombre de coeficientes
discriminantes, betas discriminantes o pesos discriminantes. Cada beta discriminante
calculado tiene un monto o coeficiente determinado y su correspondiente signo positivo o
negativo. El coeficiente de los betas determina el peso de cada una de las variables
independientes en la discriminacin y el signo, positivo o negativo, representa su
asignacin en uno u otro de los subgrupos definidos por las variables dependientes. La
finalidad es remplazar una unidad de anlisis, objeto o individuo de la poblacin objetivo
con sus variables independientes, parmetros o caracterstica en la funcin obtenida y
calcular a priori su categora. Algebraicamente la funcin discriminante representa una
combinatoria lineal de los datos originales que maximizan la razn de variabilidad entre
grupos (por una parte la cuentas problemticas y por otra las seria) a variabilidad intra
grupos. El criterio que se utiliza para decidir cuando son diferentes al mximo la
variabilidad de grupos es la prueba anlisis de varianza F o tambin denominada F de
Snedecor, conocida para hallar diferencias entre las varianzas. Por lo tanto, los coeficientes
discriminantes se derivan de tal forma que:

Variabilidad entre Grupos
F = --------------------------------- sea mxima
Variabilidad intra Grupos

El punto de partida de cualquier anlisis discriminante es la determinacin de la matriz de
datos de variables dependientes, de carcter nominal, la que puede ser calculada por
componentes principales o dadas.

Tcnica y herramienta estadstica que permite predecir el comportamiento nominal de
una variable dependiente a travs de una combinacin lineal de las variables
115
independientes, tambin llamadas variables predictivas, caractersticas o parmetros, que
hagan que los puntajes promedios de las categoras de las variables dependientes en sta
combinacin lineal se diferencien en forma mxima.
Utilizada en investigaciones de mercado, por ejemplo, para predecir si las ventas
potenciales en un territorio dado de mercado sern "buenas" o "malas" ,las variables
dependientes, con base en ciertas evaluaciones sobre el ingreso personal disponible por
territorio, densidad de poblacin y nmero de ventas al detalle, las variables predictivas.
Otros ejemplos de aplicacin es en instituciones financieras, donde definidas cuentas
"problemticas" o "serias", a cada una de ellas se les describe parmetros como tasas de
crdito, nmeros de veces en mora, razones de deuda a capital, existencia de demandas,
posteriormente se obtienen aquellas variables predictivas que mejor puedan discriminar en
que una determinada unidad de anlisis, individuos, objetos o en ste caso una cuenta
pueda convertirse en "seria " o "problemtica". Dos son los objetivos centrales del anlisis
discriminante:
1.-predecir la categora de una unidad de anlisis u objeto o individuo.
2.-determinar cuales son las variables predictoras con mayor poder discriminante para
clasificar a las unidades de anlisis para que tengan uno o el otro atributo de la variable
dependiente.

El problema de seleccin de variables intenta responder a la pregunta Son necesarias todas
las variables clasificadoras para discriminar?
Para responderla existen, esencialmente, tres tipos de algoritmos: algoritmos de seleccin de
variables hacia adelante, eliminacin hacia atrs y de regresin por pasos.
Los algoritmos de seleccin hacia adelante comienzan eligiendo la variable que ms
discrimina entre los q grupos. A continuacin seleccionan la segunda ms discriminante y as
sucesivamente. Si de las variables que quedan por elegir ninguna discrimina de forma
significativa entre los grupos analizados el algoritmo finaliza.
Los algoritmos de eliminacin hacia detrs proceden de forma inversa a los anteriores. Se
comienza suponiendo que todas las variables son necesarias para discriminar y se elimina la
menos discriminante entre los grupos analizados y as sucesivamente. Si las variables no
eliminadas discriminan significativamente entre los grupos analizados el algoritmo finaliza.
116
.
2 1
t t
. ) ( ) (
) ( ) (
2 1
2 1
2 1
= =
= =
X V X V
X E X E
t t
t t

p p
X l X l X l X l Y + + + = =
2 2 1 1
'
Los algoritmos de regresin por pasos utilizan una combinacin de los dos algoritmos
anteriores permitiendo la posibilidad de arrepentirse de decisiones tomadas con precipitacin
bien sea eliminando del conjunto seleccionado una variable introducida en el conjunto de
discriminacin en un paso anterior del algoritmo, bien sea introduciendo en dicho conjunto
una variable eliminada con anterioridad.
Para determinar qu variables entran y salen en cada paso de este tipo de algoritmos se utilizan
diversos criterios de entrada y salida. Uno de los ms utilizados es el de la lambda de Wilks
que es el que exponemos, a continuacin. Otros criterios pueden verse, por ejemplo, en el
manual del SPSS 9.0

En muchos casos las decisiones de comercializacin dependen, en parte, de las
suposiciones de la gerencia acerca de los factores relacionados con tal o cual aspecto del
comportamiento individual o institucional que se define como una variable multictoma,
por contraste con una variable constate.

El anlisis discriminante es una tcnica de clasificacin para asignar nuevas observaciones
a grupos ya conocidos.

Regla discriminante lineal de Fisher

Sea la variable y dos poblaciones y

Sean y


Se busca una combinacin lineal de la forma
que sea ptima para clasificar una observacin en alguna de las dos poblaciones.
Se tiene que:
|
|
|
.
|

\
|
=
p
X
X
X
1
) ( ) ' ( ' ) ' ( ) (
' ) ' ( ) (
' ) ' ( ) (
2 2 1 1
2 2
1 1
2
2 2
1 1
Y V X l V l l X l V Y V
l X l E Y E
l X l E Y E
Y
Y
Y
t t t t
t t
t t
o


= = = = =
= = =
= = =
117
2
2 1
2
2 1
) ' ' ( max ) ( max l l
p p
l
Y Y
l
=
9 e 9 e
X Y
1
2 1
)' (

=
|
|
.
|

\
|
=
2
1
X
X
X

Hay que buscar l que optimice la separacin entre las dos poblaciones: se maximiza la
separacin entreblas medias:


Si se maximiza sin restricciones, el mximo puede no ser finito: se maximiza dividiendo
por la varianza

La solucin que se obtiene es:

Funcin discriminante
lineal de Fisher

Regla discriminante lineal de Fisher

En el caso en que , se tiene:

Y (mejor recta)











2
2
2 1
2
2
2 1
) ' ' (
max
) (
max
Y
l
Y
Y Y
l
l l
p p
o

o

=

9 e 9 e


1

Proyecci
n de
1
Proyecci
n de
2

118
2 2 1 1
' X l X l X l Y + = =
) ( )' (
2
1
2 1
1
2 1
+ =

m

l
1
y l
2
determinan la recta

El punto medio es:














Proposicin
Regla discriminante lineal de Fisher:
Versin muestral

Dadas dos poblaciones y , se tienen las siguientes matrices de datos:

Nota: no es necesario n
1
=n
2


1

Y=lX

Y
1
m

Y
2
x
0
lx
0
Dada una nueva observacin x
0
:

Asignar x
0
a TT
1
si


0 )' (
0
1
2 1
>

m x

Asignar x
0
a TT
2
si
0 )' (
0
1
2 1
<

m x

<
>
0 ) (
0 ) (
2
1
m Y E
m Y E
t
t
|
|
|
|
|
.
|

\
|
=
|
|
|
|
|
.
|

\
|
=
) 2 ( ) 2 (
2
) 2 (
1
) 2 (
2
) 2 (
22
) 2 (
21
) 2 (
1
) 2 (
12
) 2 (
11
) 2 (
) 1 ( ) 1 (
2
) 1 (
1
) 1 (
2
) 1 (
22
) 1 (
21
) 1 (
1
) 1 (
12
) 1 (
11
) 1 (
2 2 2 1 1 1
p n n n
p
p
p n n n
p
p
X X X
X X X
X X X
X
X X X
X X X
X X X
X

119
X S X X X l Y
p
1
2 1
)' ( '


= =







y sean

La regla lineal es:

Funcin discriminante lineal muestral de Fisher
que es ptima para clasificar entre las dos poblaciones.

El punto medio es:












.
2
) 1 ( ) 1 (
y
,
2 1
2 2 1 1
2 1
+
+
=
n n
S n S n
S
X X
p
). ( )' (
2
1

2 1
1
2 1
X X S X X m
p
+ =



Y=l
X
Y2
m
Y1
x
0
lx
0
1
X
2
X
X
X
120
0 )' (
0
1
2 1
>

m x S X X
p
0 )' (
0
1
2 1
<

m x S X X
p
| |. 7 2 ' =
o
x
|
|
|
.
|

\
|
=
p
X
X
X
1
1 2
, t t
1
t
2
. t



Dada una nueva observacin x
0
, la regla de clasificacin
sera:
x
0
a
1
si
x
0
a
2
si

4.4 Utilizar la ecuacin discriminante para clasificar nuevas observaciones.

Ejemplo

(i)Calcular la funcin de discriminacin lineal.
(ii)Clasificar la observacin


El problema general de clasificacin para dos poblaciones

Dada la variable y dos poblaciones y



siendo f
1
la funcin de densidad de y f
2
la funcin
de densidad de

(

=
(

=
(

=
(
(
(

=
(
(
(

=
2 1
1 1
8
5
6
3
8 4
7 5
9 6
7 4
4 2
7 3
2 1
2 1
p
S x x
X X
121
| |. 7 2 ' =
o
x
El problema es separar el espacio muestral W en
dos regiones R
1
y R
2
disjuntas tales que:










4.4 UTILIZAR LA ECUACIN DISCRIMINANTE PARA CLASIFICAR NUEVAS
APLICACIONES
Por ejemplo, al disear la campaa de publicidad para determinada marca de automviles,
conviene saber cuales son las caractersticas (socioeconmicas, de personalidad, etc.) Que
constituyen la diferencia entre los clientes que adquieren, pongamos a las tres principales
marcas competidoras dentro de cierto nivel de precios. Quizs tambin la diferencia entre
quienes adquieren un modelo y quienes prefieren otro. Otra cosa que interesa es determinar
aquellas caractersticas que constituyen la diferencia entre los usuarios que dan a u auto
buen o mal trato, los que son fieles a una marca y los que no lo son, los clientes que
compran en determinado tipo de distribuidora, etc. Tambin puede haber inters en hallar la
manera de predecir, cul vendedor superar el promedio de ventas que de el se espera, o
cul quedar por debajo de ese promedio.

Ejemplo

(i)Calcular la funcin de discriminacin lineal.
(ii)Clasificar la observacin
f
2

f
1

R
1
R
2

En
1
9
122
|
|
|
.
|

\
|
=
p
X
X
X
1
1 2
, t t
1
t
2
. t


El problema general de clasificacin para dos poblaciones

Dada la variable y dos poblaciones y



siendo f
1
la funcin de densidad de y f
2
la funcin
de densidad de

El problema es separar el espacio muestral W en
dos regiones R
1
y R
2
disjuntas tales que:













La forma de conseguir los objetivos es va la obtencin de una funcin discriminante:

FD = 1 X1 + 2 X2 + ...............+ m Xm

f
2

f
1

R
1

R
2

En
1
9
123
La ecuacin lineal discriminante es:


D = B0 + B1X1 + B2X2 + + BpXp

Donde X es la variable independiente

B0 es la constante

Bp son los coeficientes estimados a partir de los datos originales de modo que los valores
de la funcin difieran el mximo posible entre los grupos, o lo que es lo mismo


SC entregrupos / SC intragrupos = mximo
Donde xm es la m-sima variable independiente. La funcin discriminante obtenida por
programas computacionales como el systat, BMD-07M o el statgrafics determinan los
valores para cada variable independiente de los que reciben el nombre de coeficientes
discriminantes, betas discriminantes o pesos discriminantes. Cada beta discriminante
calculado tiene un monto o coeficiente determinado y su correspondiente signo positivo o
negativo. El coeficiente de los betas determina el peso de cada una de las variables
independientes en la discriminacin y el signo, positivo o negativo, representa su
asignacin en uno u otro de los subgrupos definidos por las variables dependientes.
La finalidad es remplazar una unidad de anlisis, objeto o individuo de la poblacin
objetivo con sus variables independientes, parmetros o caracterstica en la funcin
obtenida y calcular a priori su categora.

Algebraicamente la funcin discriminante representa una combinatoria lineal de los datos
originales que maximizan la razn de variabilidad entre grupos (por una parte la cuentas
problemticas y por otra las seria) a variabilidad intra grupos. El criterio que se utiliza para
decidir cuando son diferentes al mximo la variabilidad de grupos es la prueba anlisis de
124
varianza F o tambin denominada F de Snedecor, conocida para hallar diferencias entre las
varianzas. Por lo tanto, los coeficientes discriminantes se derivan de tal forma que:
Variabilidad entre Grupos
F = --------------------------------- sea mxima
Variabilidad intra Grupos
El punto de partida de cualquier anlisis discriminante es la determinacin de la matriz de
datos de variables dependientes, de carcter nominal, la que puede ser calculada por
componentes principales o dadas.
Utiliza la lambda de Wilks para medir la potencia discriminante ganada / perdida al introducir
/ sacar una variable del conjunto de discriminacin.
Sea L
q
la lambda de Wilks basada en la q primeras variables.
Para ver si es necesario incluir la variable Y
q+1
en el conjunto de discriminacin se utiliza el
estadstico
F =
n G q
G
q
q

+

|
\

|
.
|
|
|
1
1
1
A
A
~ F
G-1,n-G-q

Si la variable Y
q+1
no aporta informacin relevante al proceso de discriminacin entre los
grupos. Un valor alto/bajo de F indica una prdida significativa / no significativa de
informacin si la variable Y
q+1
no es incluida / es incluida en el conjunto de discriminacin.
Utilizando dicha variable es posible, por ejemplo, proporcionar un p-valor de entrada y otro de
salida de forma que si el p-valor obtenido al introducir una variable en el conjunto de
discriminacin, no es inferior al p-valor de entrada, la variable considerada no entra en dicho
conjunto y si el p-valor obtenido al eliminarla del conjunto de discriminacin no es superior al
de salida, la variable considerada no sale de dicho conjunto

4.5 EXPLICA EL CRITERIO UTILIZADO PARA VALIDAR LA ECUACIN
DISCRIMINANTE USANDO EJEMPLOS DEL AREA ADMINISTRATIVA Y SER
CAPAZ DE CALCULARLO.
En 1963, frank, maz y morrison informaron acerca del estudio del caf Folger`s en el
mercado de Chicago, a los investigadores les interesaba conocer la respuesta a la siguiente
pregunta: con base en el conocimiento de las caractersticas socioeconmicas y de los
125
hbitos de compra de las familias, antes de la introduccin de la nueva marca, hasta que
punto se poda predecir la aceptacin del caf Folger`s por dichas familias?
Este caf se introdujo a Chicago en 1959, los investigadores contaban con datos de compras
y consumos del caf regular, por transaccin para un periodo de 3 aos, de enero de 1958 a
diciembre de 1960, por parte de una muestra de 500 familiares, pertenecientes a la lista de
consumidores de Chicago tribune. Decidieron trabajar con 2 grupos extremos: a) las
familias que desde finales de 1959 compraban Folger`s con ms frecuencia que otras
marcas; b) las familias que durante el mismo periodo jams lo haban comprado. Es decir
tenan al grupo de los adoptantes y no adoptantes.
Adems contaban con medidas de 20 caractersticas socioeconmicas y de compras, para
cada una de las familias del estudio. Aqu se muestra la ilustracin grafica que utilizaron:












126
Utilizada en investigaciones de mercado, por ejemplo, para predecir si las ventas
potenciales en un territorio dado de mercado sern "buenas" o "malas" ,las variables
dependientes, con base en ciertas evaluaciones sobre el ingreso personal disponible por
territorio, densidad de poblacin y nmero de ventas al detalle, las variables predictivas.
Otros ejemplos de aplicacin es en instituciones financieras, donde definidas cuentas
"problemticas" o "serias", a cada una de ellas se les describe parmetros como tasas de
crdito, nmeros de veces en mora, razones de deuda a capital, existencia de demandas,
posteriormente se obtienen aquellas variables predictivas que mejor puedan discriminar en
que una determinada unidad de anlisis, individuos, objetos o en ste caso una cuenta pueda
convertirse en "seria " o "problemtica".

Aplicaciones de SPSS en el Sector Asegurador

Anlisis Discriminante aplicada al sector asegurador se ha dado en
llamar "Insurance Scoring". Consiste en utilizar la experiencia histrica de la empresa para
disear un modelo, aplicable a nuevos clientes, que nos asigna cada cliente a una cierta
categora con una cierta probabilidad, como por ejemplo predecir si un cliente ser rentable
o no para la compaa de seguros anticipando el riesgo de siniestro, pudiendo as ajustar la
prima de riesgo.
Existen varios mtodos de clasificacin dependiendo del nmero de grupos a clasificar (dos
o ms grupos), de las hiptesis hechas acerca del comportamiento de las variables en cada
grupo (normalidad conjunta, homocedasticidad) as como del criterio utilizado para llevar a
cabo dicha clasificacin.
Uno de los criterios ms utilizados es el criterio Bayes que es el que expondremos, a
continuacin, distinguiendo entre el caso de dos y ms de dos grupos, si la discriminacin
se lleva a cabo bajo hiptesis de normalidad o no normalidad y/o bajo hiptesis de homo y
heterocedasticidad.
Suponer que Y ~ N
p
(m
i
,S) i=1,2 en cada uno de los grupos.
Sea y el valor de las variables de clasificacin de una nueva observacin cuya pertenencia a
uno de los dos grupos se desconoce.
El criterio Bayes utiliza el teorema de Bayes para determinar a qu grupo pertenece.
127
Para ello considera {p
i
= P[G
i
] i=1,2} las probabilidades a priori de que la observacin
considerada pertenezca a cada grupo. Se suelen tomar p
i
= 0.5 i=1,2 si no se dispone de
informacin previa o p
i
= n
n
i
i=1,2 si los tamaos muestrales de cada grupo reflejan la
composicin de la poblacin analizada.
Aplicando el teorema de Bayes se tiene que:
| |
) ( f ) ( f
) (
i
f
i
=
i
G P
y y
y
y
2 2 1 1
t + t
t
; i=1,2
Donde f
i
(y) exp[-0.5(y-m
i
)S
-1
(y-m
i
)] i=1,2 son las funciones de densidad de Y en cada
uno de los grupos.
La observacin y se asignar al grupo G
1
si:
P[G
1
| y] > P[G
2
| y] p
1
f
1
(y) > p
2
f
2
(y)
(y-m
1
)S
-1
(y-m
1
) < (y-m
2
)S
-1
(y-m
2
) - log 1
2
t
t

yS
-1
(m
2
-m
1
) < 0.5(m
1
+m
2
)S
-1
(m
2
-m
1
) - log 1
2
t
t

Observaciones
1) 1) Si p
1
= p
2
el criterio Bayes asignar la observacin y al grupo cuya media, m
i
, est
a menor distancia de Mahalanobis la cual viene dada por d(y,m
i
) = (y-m
i
)

S
-1
(y-m
i
).
Esta distancia tambin se utiliza para examinar la existencia de atpicos. Para ello se
utiliza el hecho de que, bajo hiptesis de normalidad, D
obs
=
( ) ) d d ( S ' d d
i
1
D i


~
2
1 k
_

donde d = (d
1
,...,d
k
)' son las puntuaciones en las k funciones discriminantes de cada
individuo y S
D
es su matriz de varianzas y covarianzas. Para evaluar si un punto es
sospechoso de ser atpico se calcula el p-valor dado por:
| |
obs
2
1 k
D P > _

128
2) El criterio Bayes utiliza como funcin de clasificacin, la funcin lineal dada por yS
-
1
(m
2
-m
1
) y establece como punto de corte entre los dos grupos 0.5(m
1
+m
2
)S
-1
(m
2
-m
1
)
- log 1
2
t
t

3) Geomtricamente, el espacio p-dimensional de los objetos queda dividido en dos
regiones separadas por el hiperplano yS
-1
(m
2
-m
1
) = 0.5(m
1
+m
2
)S
-1
(m
2
-m
1
) - log 1
2
t
t

4) 4) Si existe un coste asociado diferente a la asignacin incorrecta a cada uno de los
grupos, de forma que la matriz de prdidas viene dada por:
Asignado\Verdadero G
1
G
2

G
1
0 c
12

G
2
c
21
0
Se calculan las prdidas esperadas medias a posteriori:
L(Asignar a G
1
/y) = c
12
P[G
2
| y]
L(Asignar a G
2
/y) = c
21
P[G
1
| y]
y se asigna la observacin y al grupo G
1
si:
L(Asignar a G
1
/y) < L(Asignar a G
2
/y)
yS
-1
(m
2
-m
1
) < 0.5(m
1
+m
2
)S
-1
(m
2
-m
1
) - log
1 12
2 21
t
t
c
c



4.6 DETERMINAR SIGNIFICANCIA DE LA ECUACIN DISCRIMNANTE
PARA CLASIFICAR NUEVAS OBSERVACIONES.
Desde el punto de vista matemtico, es la direccin a lo largo de la cual cierta razn
(variacin entre grupos dividida entre la variacin dentro de los grupos) es maximizada.
129
Los puntos de datos pueden proyectarse en esta lnea, lo cual hace posible las dos
distribuciones de curva normal mostradas sobre la lnea.
Mediante las ecuaciones estimadas en el procedimiento de anlisis discriminante
obtenemos un mecanismo para asignar un sujeto a uno de los grupos, a partir de los valores
de las variables explicativas. Si estamos trabajando slo con dos grupos, en la asignacin
existen dos posibles errores: el que se comete al clasificarlo en el primer grupo, cuando en
realidad pertenece al segundo P(I/II), y el que se cometera al incluirlo en el segundo grupo,
cuando en realidad pertenece al primero P(II/I). El criterio matemtico de clasificacin se
determina de tal manera que minimice la probabilidad de error, que en el caso ms general
de prevalencias diferentes en cada grupo con valores P(I) y P(II), ser
P(error) = P(I/II) P(II) + P(II/I) P(I)
Cuando la importancia de cada uno de los errores es diferente, por ejemplo si estamos ante
un diagnstico, cuando es ms grave el error que se comente al clasificar a un individuo
enfermo como sano (falso negativo) que el que se cometera al clasificar a uno sano como
enfermo (falso positivo), el criterio de clasificacin puede tenerlo en cuenta, introduciendo
en la ecuacin que se va a minimizar un peso o coste para cada error. Si llamamos C1 al
peso o coste del error de clasificar en el grupo II a un sujeto del grupo I, y C2 al de
clasificar en el grupo I a un sujeto del grupo II, se trata ahora de minimizar la ecuacin
C(error) = C1 P(I/II) P(II) + C2 P(II/I) P(I)
siendo C1+C2=1
Cuando tenemos dos grupos y p variables explicativas, el anlisis discriminante nos permite
estimar los coeficientes b0, b1... bp de una funcin de clasificacin

Siendo P(I) y P(II) las prevalencias de cada grupo, C1 y C2 los costes de clasificacin
incorrecta anteriormente definidos, y si denominamos

la regla de decisin consiste en clasificar una observacin concreta de X en el grupo I
cuando D > ln c, y clasificarla en el grupo II cuando D < ln c
Este procedimiento se generaliza para clasificacin en ms de dos grupos.
130
Se evala comparando los resultados obtenidos con los que se obtendran aplicando un
mecanismo aleatorio. Los dos mecanismos ms utilizados son el criterio de aleatoriedad
proporcional, que clasifica de acuerdo a la distribucin
)
`

= q ,... 1 g ;
n
n
g
y el de
mxima aleatoriedad que clasifica todas las observaciones asignndolas al grupo de mayor
tamao.

Para comparar los resultados se utilizan estadsticos con distribucin aproximadamente
normal bajo la hiptesis de que no existen diferencias. As, en el caso de que el criterio
utilizado sea el del menanismo aleatorio.
Z
g
=
) e n ( e
n ) e o (
g g g
g g g


para evaluar los resultados en cada grupo y
Z =
) e n ( e
n ) e o (


con para evaluar el proceso globalmente
siendo:
o
g
= n
gg
nmero de clasificaciones correctas en el grupo g
e
g
=
n
n
2
g
el nmero esperado de dichas clasificaciones
o =

=
G
g
g
o
1
nmero de clasificaciones correctas
e =

=
G
g
g
e
1
el nmero de clasificaciones correctas esperadas

Puede probarse el nmero de variables que agregan significancia a la discriminacin
entre grupos. Solo aquellas que sean estadsticamente significativas deben ser usadas para
131
interpretar, las no significativas deben ignorarse.
Conviene destacar los siguientes
1) No tienen por qu llegar a la solucin ptima
1) 2) Utilizan como criterios de seleccin, criterios de separacin de grupos y no de
clasificacin
2) 3) El nivel de significacin global es superior al establecido para entrar y sacar variables
debido a la realizacin simultnea de varios test de
El procedimiento de Fisher determina el vector u que maximiza el cociente:

( )
( )
Wu u
Bu u
'
'
q n
d d
1 q
d d n
=
grupos intra ad Variabilid
grupos entre ad Variabilid
q
1 g
n
1 k
2
g gk
q
1 g
2
g g
g
=

= =
=
1 q
q n


Donde:
W =
( )( )
y y y y
k k g g g g
k
n
j
g
G

= =

'
1 1
=

=
G
1 g
g
W
=


( ) ( )( )
( )( ) ( )
y y y y y y
y y y y y y
gk g
k
n
g
g
G
gk g Kgk Kg
k
n
g
g
G
Kgk Kg gk g
k
n
g
g
G
Kgk Kg
k
n
g
g
G
1 1
2
1 1
1 1
1 1
1 1
1 1
2
1 1

(
(
(
(
(
(
= = = =
= = = =


...
... ... ...
...


Es la matriz de suma de cuadrados intra-grupos
B =
( )( )
n
g g g
g
G
y y y y
=

'
1

132
=
( ) ( )( )
( )( ) ( )
(
(
(
(
(





= =
= =
G
1 g
2
K Kg g
G
1 g
1 g 1 K Kg g
G
1 g
K Kg 1 g 1 g
G
1 g
2
1 g 1 g
y y n ... y y y y n
... ... ...
y y y y n ... y y n


Es la matriz de suma de cuadrados inter-grupos.

Se impone, adems, la condicin de normalizacin uWu = 1
La solucin viene dada por el vector propio u
1
de W
-1
B asociado al mayor valor
pro
1
de esta matriz.
En general, si se quieren calcular r funciones discriminantes con varianza 1, y que
sean incorreladas entre s, es decir, que verifiquen que u
i

Wu
j

ij
; i,j=1,,r, se obtienen
como soluciones los r vectores propios de W
-1
B asociados a los r mayores valores propios
1
> >
r
> 0. A las funciones D
i
= u
i

Y i=1,,r se les llama funciones


discriminantes cannicas o funciones discriminantes de Fisher.

4.7 DETERMINAR LA IMPORTANCIA RELATIVA DE CADA VARIABLE
PARA DISCRIMINAR USANDO PARA ELLO UN EJEMPLO DEL
REA ADMINISTRATIVA .

Son los coeficientes a y b en la funcin discriminatoria, y tienden a reflejar la importancia
relativa que x1 y x2 tienen en la determinacin de la pertenencia al grupo.
Ejemplo:
Desde la muerte de su socio. Samuel ha sido el nico dueo de zapaterias rodriguez y
sanchez. Con el fin de identificar mejor a los clientes serios, samuel ha reunido datos
observacionales de tres variables.

X1: nmero de minutos que clientes pasa viendo el escaparate antes de entrar en la tienda.
133
X2: edad aproximadamente del cliente
X3: hecho de que el cliente compre o no un par de zapatos antes de marcharse del
establecimiento.
El centroide de los compradores es (x1 = 3.0 minutos, x2= 24.2 aos ), en tanto que el de
los no compradores es (x1= 1.9 minutos, x2= 32.5 aos). El eje discriminatorio se halla
aproximadamente en la direccin este-sureste y no en la vertical ni en la horizontal. Ello
indica que ambas variables sirven para diferenciar entre los miembros de los dos grupos.
La funcin discriminatoria, que describe las puntuaciones de la z a lo largo del eje
discriminatorio es z=.39 x1- .17x2. La puntuacion promedio de la z para los compradores
puede obtenerse calculando z= .39 (3.0)- .017(24.2), o sea .76; por lo tanto en el eje
descriminatorio el comprador promedio esta situado ala posicin z=.76. De manera
semejante, podemos sustituir los valores del centroide para el grupo de no compradores una
funcin discriminatoria y obtener asi su posicin promedio, la cual es z=.19. Observe que la
funcin discriminatoria asume dos medicines diferentes y los convina en una sola, la
puntuacin de z.
La lnea discriminatoria, o punto divisorio al clasificar nuevos individuos en uno de los
grupos, esta situada al aumentar entre los dos centroides e intersecta el eje discriminatorio
z= .475. Si un cliente potencial de unos 35 aos de edad (x2=35) pasara 4 minutos (x1=4)
observando el escaparate, su puntuacin de z seria .39 (4)--.017(35), o sea .965. Como .965
excede el valor lmite de .475, a este cliente lo clasificaremos en el grupo de compradores
y, supuestamente, le prestaremos mayor atencin durante su visita.la ecuacin de la lnea
discriminatoria es .457=.39x1- .017x2.

CLCULO DE LAS FUNCIONES DISCRIMINANTES

La discriminacin entre los q grupos se realiza mediante el clculo de unas
funciones matemticas denominadas funciones discriminantes. Existen varios
procedimientos para calcularlas siendo el procedimiento de Fisher uno de los ms utilizados
que es el que exponemos, a continuacin.

Procedimiento Discriminante
134
El procedimiento de Fisher toma como funciones discriminantes, combinaciones
lineales de las variables clasificadoras de la forma:
D = u
1
Y
1
+ u
2
Y
2
+ ... + u
p
Y
p
= uY
Sean {d
gk
k=1,,n
g
; g=1,,q} los valores de la variable D en cada uno de los q
grupos donde d
gk
denota el valor de D en la k-sima observacin del g-simo grupo.
Sean

= =

=
q ,..., g ;
n
d
d
g
g
n
k
gk
g
1
1
las medias muestrales de la variable D en cada
uno de los q grupos y sea
n
d
d
q
1 g
n
1 k
gk
g

= =
=
la media de la variable D.

El procedimiento de Fisher determina el vector u que maximiza el cociente:

( )
( )
Wu u
Bu u
'
'
q n
d d
1 q
d d n
=
grupos intra ad Variabilid
grupos entre ad Variabilid
q
1 g
n
1 k
2
g gk
q
1 g
2
g g
g
=

= =
=
1 q
q n


donde:
W =
( )( )
y y y y
k k g g g g
k
n
j
g
G

= =

'
1 1
=

=
G
1 g
g
W
=
( ) ( )( )
( )( ) ( )
y y y y y y
y y y y y y
gk g
k
n
g
g
G
gk g Kgk Kg
k
n
g
g
G
Kgk Kg gk g
k
n
g
g
G
Kgk Kg
k
n
g
g
G
1 1
2
1 1
1 1
1 1
1 1
1 1
2
1 1

(
(
(
(
(
(
= = = =
= = = =


...
... ... ...
...

es la matriz de suma de cuadrados intra-grupos
135
B =
( )( )
n
g g g
g
G
y y y y
=

'
1
=
( ) ( )( )
( )( ) ( )
(
(
(
(
(





= =
= =
G
1 g
2
K Kg g
G
1 g
1 g 1 K Kg g
G
1 g
K Kg 1 g 1 g
G
1 g
2
1 g 1 g
y y n ... y y y y n
... ... ...
y y y y n ... y y n

es la matriz de suma de cuadrados inter-grupos.
Se impone, adems, la condicin de normalizacion uWu = 1
La solucin viene dada por el vector propio u
1
de W
-1
B asociado al mayor valor
propio
1
de esta matriz.
En general, si se quieren calcular r funciones discriminantes con varianza 1, y que
sean incorreladas entre s, es decir, que verifiquen que u
i

Wu
j
=
ij
; i,j=1,,r, se obtienen
como soluciones los r vectores propios de W
-1
B asociados a los r mayores valores propios
de esta matriz
1
> >
r
> 0. A las funciones D
i
= u
i

Y i=1,,r se les llama funciones


discriminantes cannicas o funciones discriminantes de Fisher.
Observacin
Si r es el nmero de funciones discriminantes se tiene que W
D
= I
r
y B
D
=
diag(
1
,,
r
) donde W
D
y B
D
son las matrices W y B calculadas utilizando las
puntuaciones discriminantes. Se sigue que:
i
=
( )

=

q
1 g
2
i i
g g
d d n
; i=1,...,r
donde {
i
g
d
; g=1,..,q} son las puntuaciones medias de la i-sima funcin discriminante en
los q grupos y
i
d
es la puntuacin media total.
Por lo tanto, los valores propios {
i
; i=1,...,r} miden el poder de discriminacin de
la i-sima funcin discriminante de forma que si
i
= 0 la funcin discriminante no tiene
ningn poder discriminante. Dado que el rango de la matriz W
-1
B es a lo ms min{q-1,p} el
nmero mximo de funciones discriminantes que se podrn calcular ser igual a min{q-
1,p}.

Esta seccin analiza la importancia relativa de las dos variables contables en la formacin
del valor de la empresa. Para ello, se asume la clasificacin apuntada (baja eficiencia,
136
estado estacionario y con oportunidades de crecimiento) y se examina la importancia
relativa de las variables en cuestin en cada uno de los tres grupos propuestos.
Empecemos por las empresas de baja eficiencia. En este tipo de empresas, el valor vendr
determinado, aproximadamente, por la siguiente expresin:
V = [ 1/(R-1) ] E + Pc(E/BV) BV
Aplicando la condicin de la paridad put-call tenemos que:
V = [ (1- cd) / R ] BV + (1/R) E + Ccont(E/BV) BV
actividad
actual de la empresa.
En este enfoque alternativo, el valor de la empresa vendra dado por (1) los beneficios
obtenidos hasta el momento del cese, (2) el valor en el caso de que se diera ese cese, y (3)
el valor de la opcin de continuar la actividad (una opcin call, Cc). Dado que, tanto el
valor esperado de los beneficios obtenidos hasta el momento del cese como el valor de la
opcin de mantener la actividad, son irrelevantes en las empresas de baja eficiencia. En
este tipo de
empresas el valor vendr determinado, principalmente, por el valor de los fondos propios.
Para empresas en estado estacionario, el valor es, aproximadamente,
V = [ 1 / (R-1) ] E
Por lo tanto, en este tipo de empresas el valor vendr dado, bsicamente, por el nivel de
beneficios obtenido.
Por ltimo, en las empresas con potencial de crecimiento el valor ser,
aproximadamente,
V = [ 1 / (R-1) ] E)+ Ce(E/BV) G
donde el primer termino representa el valor en ausencia de oportunidades de crecimiento; y,
el segundo, el valor actual neto de esas oportunidades de crecimiento. Mientras que el
primer
trmino depende del nivel de beneficio, el segundo, depende de la eficiencia. En este caso,
el
nivel de beneficio siempre juega un papel relevante en la formacin del valor. Sin embargo,
137
la relevancia de los fondos propios depender del valor de G. Si G = 0, nos encontramos
ante
una empresa en estado estacionario, y los fondos propios, tal y como se ha apuntado,
poseen
escasa relevancia. Dado un nivel de beneficios, la importancia relativa de los fondos
propios
se incrementar conforme crezca G.
empresas de baja eficiencia, el poder explicativo de los
fondos propios es superior al del beneficio.
empresas en estado estacionario, el poder explicativo de
ambas variables es similar.
empresas con potencial de crecimiento, el beneficio es la
variable dominante.

CONTRIBUCIN DE LAS VARIABLES A LA CAPACIDAD DISCRIMINANTE DE
LAS FUNCIONES

ANOVA simple con cada variable y la agrupacin previa

Parmetros estandarizados de la(s) funcin(es) discriminantes

CARGAS DISCRIMINANTES: correlaciones entre cada variable inicial x y las
funciones discriminantes y.

1. El empleo de metodologas diferentes:
- El mtodo Fisher utiliza el clculo de los autos valores de una ecuacin.
- La modelizacin logit es similar al la regresin tradicional salvo que utiliza como funcin
de estimacin la funcin logstica en vez de la lineal.
2. Los resultados obtenidos
138
- Con el mtodo Fisher se obtiene una funcin discriminante que permite evaluar que
variables permiten discriminar entre grupos y la obtencin de una puntuacin, sin
interpretacin econmica, que permite asignar a los sujetos a los distintos grupos.
- Con la modelizacin logit el resultado del modelo es la estimacin de la probabilidad de
que un nuevo individuo pertenezca a un grupo o a otro, mientras que por otro lado, al
tratarse de un anlisis de regresin, tambin permite identificar las variables ms
importantes que explican las diferencias entre grupos.


Ejemplos:

- Un banco que concede crditos a sus clientes quiere conocer la probabilidad de impago
para un futuro cliente
- Una empresa que va a iniciar su negocio en el sector textil quiere conocer la probabilidad
de xito que tendr su puesta en funcionamiento.
- Un profesor quiere conocer la probabilidad de aprobar su asignatura que tendr un
alumno.
- Un poltico o inversor est interesado en conocer el riesgo que existe de producirse una
crisis cambiaria en una determinada economa.

El hecho de que el nmero de variables seleccionadas pueda ser menor que el nmero de
variables introducidas en el anlisis (nmero de variables medidas) se debe a que, en
ocasiones puede haberse introducido en el anlisis inicial, variables altamente
correlacionadas entre s (coeficiente de correlacin lineal, r>0.5).
Esto no equivale a decir que las variables extradas del anlisis no estn correlacionadas
con la funcin discriminante obtenida..
[14]

Las
p
son los coeficientes de las X
n
* variables seleccionadas (p=1 n*). Estas son
constantes desconocidas, las cuales permiten obtener la discriminacin entre dos grupos
diferenciados segn el nuevo conjunto de variables escogidas (X
n
*). Los valores
P
son
139
calculados de las n* ecuaciones lineales formadas, siguiendo el criterio de regresin lineal
de Fisher..
[18]



1

11
+
2

12
+
n*

1n*
=
11
-
21


1

21
+
2

22
+
n*

2n*
=
12
-
2



4.8. DESCRIBIR CON SUS PROPIAS PALABRAS EN QUE CONSISTE EN
ANLISIS DISCRIMINANTE MLTIPLE

Es un alargamiento de ms de dos grupos, y requiere ms de una funcin discriminatoria.
Para estos tipos de discriminacin se necesita usar un programa ya que son ms complejos
y por lo tanto dificiles de explicar.

Es una tcnica estadstica que nos ayudan a conocer el que dos objetos pertenezcan a dos o
mas categoras compuestas a su vez por variables independientes

Cuando es posible identificar ms de dos grupos, puede estimarse ms de una funcin
discriminante.
Por ejemplo cuando se tienen tres grupos, puede estimarse 1) una funcin para discriminar
entre grupo 1 y grupos 2 y 3 combinados, y 2) otra funcin para discriminar entre grupo 2 y
grupo 3.
En la prctica, cuando se realiza un anlisis discriminante entre varios grupos, no debe
especificarse cmo combinar los grupos para formar las diferentes funciones.

El paquete computacional que se emplee, por ejemplo SPSS, automticamente las
conforma de manera que la primera es la que ofrece la mayor discriminacin como un todo
entre grupos, la segunda provee una menor y as sucesivamente. Las funciones son
140
independientes u ortogonales, esto es, su contribucin a la discriminacin entre grupos no
se sobrepone

El anlisis discriminante enfoca un problema de identificacin relacionado con la pregunta
de que a cul grupo, de entre varios, pertenece la variable o unidad estadstica en
observacin.

Por ejemplo, el anlisis discriminante clasificara a un banco comercial como de utilidades
bajas o de utilidades altas, dos poblaciones diferentes, en funcin de los niveles de las
variables x. Es decir, el anlisis discriminante probablemente asocie a la condicin de
bancos con bajas utilidades a aquellos con mrgenes de intermediacin financiera elevados,
con depsitos altamente concentrados en el corto plazo o con una alta injerencia poltica. Es
decir, el anlisis definira las caractersticas para pertenecer a un grupo o a otros.
Los siguientes pasos son necesarios para resolver el problema:
(a)Conocer las densidades de probabilidad P1(y),...,Pz(y) para clasificar las variables y
en z grupos diferentes.
(b)Conocer las probabilidades a priori
frecuencias relativas de unidades estadsticas de los z grupos.
(c)Especificar valores rij que representen la prdida por identificar una variable y en el
grupo i cuando en realidad pertenece a la poblacin j.
A las variables y se les asocia un puntaje S que consiste en un promedio ponderado de las
probabilidades de que cada variable muestre los atributos que definen a una poblacin
enparticular. Es decir:
S = P (y) r p 27


El anlisis discriminante fue desarrollado por Sir R. A. Fisher desde 1936 (Fisher 1936:
179-188). Esta tcnica implica el poder dividir nuestras observaciones en grupos, segn
unos criterios, y a continuacin intentar encontrar una forma de distinguir los mismos
grupos, basndose en criterios independientes derivados de los mismos datos. En aqul su
primer trabajo Fisher realiz una clasificacin de las tres especies del gnero de flores Iris
141
(setosa, versicolor y virgi-nica, claramente diferenciables entre s por el color) a partir de la
toma de cuatro medidas del spalo de la flor. Con slo esas cuatro variables numricas
consigui diferenciar (con un 98% de eficacia) las tres especies, sabiendo con anterioridad
(por el color) que la especies resultantes del anlisis eran las que se correspondan con la
reales. En nuestro caso, partimos de la misma suposicin terica: sabemos el origen de las
nforas (puesto que se encontraron en su lugar de produccin propio) y trataremos de
diferenciar los talleres en base a slo cuatro medidas de la boca de las nforas.


El anlisis discriminante mltiple es una tcnica estadstica que puede determinar en
funcin de las variables originales disponibles, si los grupos quedan suficientemente
discriminados y en todo caso cuales son las variables que mas contribuyen a discriminar
los grupos que se han formado

Ejemplos

Qu significa, en este contexto........:

+ ADP y ADD: Anlisis Discriminante Descriptivo o Predictivo
+ MDA: Anlisis discriminante Mltiple (no binario)
A. DISCRIMINANTE DESCRIPTIVO (Un ejemplo):

(Objetivo) Se desea caracterizar el perfil de los compradores de un determinado
producto en un determinado establecimiento.

(Diseo) Para ello, se disea una muestra con 100 compradores y 100 no compradores
y se toman datos de renta, edad y cercana al establecimiento de venta.

(Resultado) El anlisis discriminante establecer la importancia relativa de cada uno de
estos atributos en la decisin de compra permitiendo orientar mejor la poltica promocional
o de distribucin del producto.
142

B. DISCRIMINANTE DESCRIPTIVO (otro ejemplo):

(Objetivo) Se desea valorar de qu depende la fidelidad de un clientes a un determinado
proveedor comercial.

(Diseo) Para ello, se encuesta a 15 importantes clientes sobre la posibilidad de
cambiar de proveedor y sobre la percepcin que estos tienen de su Competitividad y Nivel
de Servicio.

(Resultado) El anlisis permitir aproximar la importancia relativa de la competitividad
y el nivel de servicio a la hora de conseguir fidelidad en un cliente.

C. DISCRIMINANTE PREDICTIVO (un ejemplo):

(Objetivo) Se desea prever el riesgo de morosidad relativa a los prstamos personales
en una entidad bancaria.

(Diseo) Se explota el fichero histrico de clientes morosos - no morosos y se observan
variables cuantitativas potencialmente explicativas: renta total, edad, crditos adicionales,
aos de estabilidad laboral, ....

(Resultado) Aplicando el modelo estimado con el fichero histrico, el anlisis permitir
anticipar el riesgo de morosidad de nuevos clientes.


Tcnica estadstica para predecir la probabilidad de que los objetos pertenezcan a dos o
ms categoras (variable dependiente) compuestas por varias variables independientes

El anlisis discriminante mltiple, tambin es conocido como no binario ayuda a
comprender las diferencias entre grupos. Explica, en funcin de caractersticas mtricas
143
observadas, porqu los objetos/sujetos se encuentran asociados a distintos niveles de un
factor.

4.9 ESPECIFICA LOS SUPUESTOS BSICOS DEL ANLISIS DISCRIMINANTE

Para ilustrar con un ejemplo las ideas con las que se basa el anlisis discriminatorio
supongamos que tenemos informacin sobre la edad e ingresos referente a: a) suscriptores
b) no suscriptores de tres revistas hipoteticas. Los diagramas de dispercin de cada revista:

Buena condicin fisica, estos datos, que aparecen en la parte a, parece que x1 (ingresos)
tiene poco que ver con la pertenencia entre los grupos de los suscriptores y no suscriptores.
Los grupos estan dispersados sobre la dimencin x2 (edad), lo cual indica que esta variable
es la nica que realmente discrimina a los grupos.
Aviso mensual de impuestos, en estos datos, que aparecen en la parte b, sucede lo contrario
de la parte a; x1 (ingresos) es la nica variable que parece diferenciar entre los grupos.
Observese que los grupos estan separados solo la direccin horizontal.
Revista de juegos de video, en estos datos, que aparecen en la parte c los grupos se
distinguen entre si a lo largo d e ambas diencines, lo cual indica que ambas variables
influyen en la diferenciacin entre los miembros de los dos grupos. Observese en este caso,
los grupos estan separados a lo largo de la lnea que podria estar en un compas de
navegacin, aproximadamente en la direccin noreste.
Eje discriminatorio: es la lnea que acabamos de mencionar, o sea la lnea a lo largo de la
cual los grupos estn ms separados. Desde el punto de vista matemtico, es la direccin a
lo largo de la cual cierta razn es maximizada. Los puntos de datos pueden proyectarse en
esta lnea, lo cual hace posible las dos distribucines de curva normal mostradas sobre la
lnea.
Coeficientes discriminatorios: son los coeficientes a y b en la funcin discriminatorio, y
tienden a reflejar la importancia relativa que x1 y x2 tienen en la determinacin de la
pertenencia al grupo.
Centroide: en cada grupo, hay un punto correspondiente a las medidas de x1 y x2. El
centroide puede considerarse una media multidimensional. La proyeccin de cada centroide
144
al eje discriminatorio se realiza por la misma combinacin lneal aplicada a los puntos
individuales de datos.
Linea discriminatoria: es una lnea, perpendicular al eje discriminatorio, que sirve para
predecir la pertenencia al grupo o a los miembros individuales de los dos grupos. Segn las
puntuacines del individuo en x1 y x2 puede caer en uno u otro lado de la lnea. La lnea
discriminatoria representa una puntuacin neta de la funcion discriminatoria, arriba o
debajo de la cual cualquier nuevo individuo ser asignado a uno u otro grupo. La lnea
discriminatoria se encuentra a la mitad entre los dos centroides.
Clasificacin erronea: si, basandonos en las puntuacines en x1 y x2, asignamos un
individuo a un grupo al cual realmente no pertenece, lo habremos clasificado errneamente.

En el anlisis discriminante estudiamos las tcnicas de clasificacin de sujetos en grupos ya
definidos. Partimos de una muestra de N sujetos en los que se ha medido p variables
cuantitativas independientes, que son las que se utilizarn para tomar la decisin en cuanto
al grupo en el que se clasifica cada sujeto, mediante el modelo matemtico estimado a partir
de los datos. Dentro del anlisis discriminante nos encontramos a su vez con dos enfoques
diferentes, uno que denominaremos predictivo y otro explicativo.
En el anlisis discriminante predictivo se trata de estimar a partir de los datos unas
ecuaciones que aplicadas a un nuevo sujeto, para el que se determinan los valores de las
diferentes variables, pero del que se desconoce a qu grupo pertenece, nos proporcionen
una regla de clasificacin lo ms precisa posible. Se trata pues de formular un algoritmo por
el que se pueda determinar a qu grupo pertenece una nueva observacin. Este tipo de
anlisis puede constituir por ejemplo una ayuda al diagnstico, o un mtodo de ayuda a la
decisin sobre la utilizacin de una terapia concreta. En el anlisis discriminante predictivo
es importante cuantificar con qu precisin se clasificar a un nuevo sujeto.
A diferencia del anterior, en el anlisis discriminante descriptivo estamos ms
interesados en las variables empleadas para diferenciar los grupos, en las variables
explicativas, y lo que deseamos es determinar cules de esas variables son las que ms
diferencian a los grupos, cuales son importantes y cuales no a efectos de clasificar los
sujetos.

145
Distribucin normal: se asume que los datos para las variables representan una muestra
proveniente de una distribucin normal multivariable. No obstante, el no cumplimiento de
este supuesto no es problema para el anlisis.
Homogeneidad de variancias y covariancias: se supone que las matrices de variancias y
covariancias son homogneas entre grupos; de nuevo, si no se cumple tampoco se generan
problemas.

Correlaciones entre medias y variancias: el principal obstculo para la validez de las
pruebas de significancia se presenta cuando la media de las variables entre grupos estn
correlacionadas con las variancias. Si hay gran variabilidad en un grupo con alta media en
algunas variables, entonces esas medias grandes no son confiables. Sin embargo, la prueba
de significancia global est basada en variancias ponderadas, es decir en variancias
promedio entre todos los grupos. La prueba de significancia de las medias relativamente
grandes (con grandes variancias) estar basada en variancias ponderadas relativamente
menores, resultando errneamente en significancia estadstica. Esto ocurre cuando un grupo
tiene unos pocos valores extremos que afectan mucho la media y aumentan la variabilidad.
Variables no redundantes: se supone que las variables empleadas para discriminar entre
grupos no son completamente redundantes, por ejemplo que una variable no sea la suma de
otras dos que tambin estn en el modelo.

Es posible aplicar una tecnica de analisis discriminante en la solucion de problemas de area
administrativa, cuando se busca analizar si existen diferencias significativas entre grupos de
objetos respecto a un conjunto de variables medidas sobre los mismos para, en el caso de
que existan, explicar en qu sentido se dan y proporcionar procedimientos de clasificacin
sistemtica de nuevas observaciones de origen desconocido en uno de los grupos
analizados.

A.- SELECCIN DE VARIABLES DEPENDIENTE E INDEPENDIENTES

B.- SELECCIN DEL TAMAO MUESTRAL

146
C.- DIVISIN DE LA MUESTRA

D.- CHEQUEO DE LAS HIPTESIS DE PARTIDA

E.- ESTIMACIN DEL MODELO

F- VALIDACIN DE LAS FUNCIONES DISCRIMINANTES

G.- CONTRIBUCIN DE LAS VARIABLES A LA CAPACIDAD DISCRIMINANTE
DE LAS FUNCIONES

H.- VALORACIN DE LA CAPACIDAD PREDICTIVA

I.- UTILIZACIN FUNCIONES.

4.10 RECONOCER CUANDO ES POSIBLE APLICAR LA TCNICA DE
ANLISIS DISCRIMINANTE EN LA SOLUCIN DE PROBLEMAS DE REA
ADMINISTRATIVA.

Cuando existe una similitud de caractersticas que se puedan compactar a una misma
variable.
Clasificacin de objetos en grupos.
Identificacin de las variables descriptivas que mejor describan la pertenencia al grupo.

Se utiliza el anlisis discriminante para poder resolver problemas de casos grandes dentro
de la empresa en el rea administrativa como por ejemplo las ventas o la utilidad de nuestro
negocio u otro tipo de variables.
Un ejemplo de ello es el siguiente aplicado en el rea bancaria.
Anlisis Discriminante aplicada al sector bancario se ha dado en llamar
"Credit Scoring ". Consiste en utilizar la experiencia histrica de la empresa para disear un
modelo, aplicable a nuevos clientes, que nos asigna cada cliente a una cierta categora con
147
una cierta probabilidad, como por ejemplo determinar la posibilidad de recobro de un
cliente en base a ciertas variables como, salario, tiempo de amortizacin del prstamo, n de
hijos, etc.

4.11 USAR EL PAQUETE SPSS PARA LA SOLUCIN DE PROBLEMAS EN EL
REA ADMINISTRATIVA EMPLEANDO LA TCNICA DE ANLISIS
DISCRIMINANTE SIMPLE Y MLTIPLE

A travs del siguiente ejemplo, se analizaran que tan relevante son o pueden ser las
variables independientes, las cuales son, C1(sexo), C2(edad), C6(nivel de estudios), en el
modelo de regresin logstica, que permita pronosticar la situacin laboral(b1, variable
dependiente) de un individuo a partir de una serie de informaciones al mismo.


Total number of cases: 973 (Unweighted)
Number of selected cases: 973
Number of unselected cases: 0
Number of selected cases: 973
Number rejected because of missing data: 0
Number of cases included in the analysis: 973

De los 1200 individuos encuestados, 973 de ellos son menores de 65 aos, sin saber si
trabajan o no trabajan.


UNIDAD 5. Analisis de varianza y covarianza

5.1 DESCRIBIR CON TUS PROPIAS PALABRAS LA NATURALEZA GENERAL DE
LA EXPERIMENTACIN DENTRO DEL MARCO DE UN MODELO DE DECISIN
DADO


Un modelo de decisin debe considerarse como un vehculo para resumir un problema de
decisin en forma tal que haga posible la identificacin y evaluacin sistemtica de todas
las alternativas de solucin del problema. Despus se llega a una decisin seleccionando la
alternativa que se juzgue sea la mejor entre todas las opciones disponibles.

148
Esta es una prueba generalizada del contraste de medias para muestras con datos
independiente. Se comparan tres o ms muestras independientes cuya clasificacin viene
dada por la variable llamada Factor. La base de este procedimiento consiste en estudiar si
el Factor influye sobre la Variable Respuesta, y la forma de hacerlo es analizando como
varan los datos dentro de cada uno de los grupos en que clasifica el Factor a la
observaciones de la Variable Respuesta.
La experimentacin no es aplicable a todas las ramas de la ciencia; su exigencia no es
necesaria por lo general en reas del conocimiento como la vulcanologa, la astronoma, la
fsica terica, etc. Sin embargo, la repetibilidad de la observacin de los fenmenos
naturales es un requisito fundamental de toda ciencia.
Por otra parte, existen ciencias, especialmente en el caso de las ciencias humanas y
sociales, donde los fenmenos no slo no se pueden repetir controlada y artificialmente
(que es en lo que consiste un experimento), sino que son, por su esencia, irrepetibles, v.g. la
historia. De forma que el concepto de mtodo cientfico aplicado a estas ciencias habra de
ser repensado, acercndose ms a una definicin como la siguiente: "proceso de
conocimiento caracterizado por el uso constante e irrestricto de la capacidad crtica de la
razn, que busca establecer la explicacin de un fenmeno atenindose a lo previamente
conocido, resultando una explicacin plenamente congruente con los datos de la
observacin.

Supongamos que se est comparando la presin arterial sistlica de un grupo de mujeres
diabticas segn su nivel de estudios, para lo que efectuamos un anlisis de la varianza
cuyos resultados se resumen a continuacin:
Estadstica Descriptiva PAS

Sin estudios 1 grado 2 y 3 grado
Media 141,16 140,93 131,27
Desv.Tp. 13,67 16,23 18,03
Tamao 215 202 60
Anlisis de la varianza
Fuente var. Suma cuadrados gl Varianza F p Nivel signif.
Factor 5020,04 2 2510,02 10,61 0,0000310 p < 0.001
Residual 112119,55 474 236,54

Total 117139,59 476 246,09

Vemos que hay diferencias estadsticamente significativas en cuanto a la media de la PAS
entre los diferentes niveles de estudios, siendo inferior la media de PAS en el grupo de
mujeres con estudios de 2 o 3 grado (del orden de 10 mmHg inferior). Ahora bien,
sabemos que uno de los principales factores de riesgo en la hipertensin es la edad, por lo
149
que nos podemos plantear que al tratarse de un estudio observacional, en el que las
pacientes han sido seleccionadas de forma aleatoria entre las que acuden a la consulta, si
stas fueran representativas de la poblacin, es de sospechar que las mujeres con mayor
nivel de estudios sean en promedio ms jvenes, debido a que en el pasado las mujeres
solan a menudo recibir como mucho una formacin elemental.
Si para comprobarlo efectuamos un anlisis de la varianza para la edad segn el nivel de
estudios, los resultados que obtenemos son


Estadstica Descriptiva Edad

Sin estudios 1 grado 2 y 3 grado
Media 69,75 64,80 54,25
Desv.Tp. 8,26 10,57 18,33
Tamao 215 202 60
Anlisis de la varianza
Fuente var. Suma cuadrados gl Varianza F p Nivel signif.
Factor 11563,46 2 5781,73 48,19 0,0000 p < 0.001
Residual 56869,86 474 119,98

Total 68433,32 476 143,77


Donde, como nos temamos, la edad media de las mujeres con estudios de 2 o 3 grado es
inferior a la de los otros grupos, lo que por s solo podra explicar las diferencias
encontradas en cuanto a la media de PAS

La experimentacin forma parte natural de la mayora de las investigaciones cientficas e
industriales, en muchas de las cuales, los resultados del proceso de inters se ven afectados
por la presencia de distintos factores, cuya influencia puede estar oculta por la variabilidad
de los resultados muestrales. Es fundamental conocer los factores que influyen realmente y
estimar esta influencia. Para conseguir sto es necesario experimentar, variar las
condiciones que afectan a las unidades experimentales y observar la variable respuesta. Del
anlisis y estudio de la informacin recogida se obtienen las conclusiones.
La forma tradicional que se utilizaba en la experimentacin, para el estudio de estos
problemas, se basaba en estudiar los factores uno a uno, sto es, variar los niveles de un
factor permaneciendo fijos los dems. Esta metodologa presenta grandes inconvenientes:
150
* Es necesario un gran nmero de pruebas.
* Las conclusiones obtenidas en el estudio de cada factor tiene un campo de validez
muy restringido.
* No es posible estudiar la existencia de interaccin entre los factores.
* Es inviable, en muchos casos, por problemas de tiempo o costo.
Las tcnicas de diseo de experimentos se basan en estudiar simultaneamente los
efectos de todos los factores de inters, son ms eficaces y proporcionan mejores resultados
con un menor coste.
A continuacin se enumeran las etapas que deben seguirse para una correcta
planificacin de un diseo experimental, etapas que deben ser ejecutadas de forma
secuencial. Tambin se introducen algunos conceptos bsicos en el estudio de los modelos
de diseo de experimentos.
Las etapas a seguir en el desarrollo de un problema de diseo de experimentos son las
siguientes:
1. Definir los objetivos del experimento.
2. Identificar todas las posibles fuentes de variacin, incluyendo:
factores tratamiento y sus niveles,
unidades experimentales,
factores nuisance (molestos): factores bloque, factores ruido y covariables.
3. Elegir una regla de asignacin de las unidades experimentales a las condiciones de
estudio (tratamientos).
4. Especificar las medidas con que se trabajar (la respuesta), el procedimiento
experimental y anticiparse a las posibles dificultades.
5. Ejecutar un experimento piloto.
6. Especificar el modelo.
7. Esquematizar los pasos del anlisis.
8. Determinar el tamao muestral.
9. Revisar las decisiones anteriores. Modificarlas si se considera necesario.
Los pasos del listado anterior no son independientes y en un determinado momento puede
ser necesario volver atrs y modificar decisiones tomadas en algn paso previo.
A continuacin se hace una breve descripcin de las decisiones que hay que tomar en
cada uno de los pasos enumerados. Slo despus de haber tomado estas decisiones se
proceder a realizar el experimento.
151
1.- Definir los objetivos del experimento.
Se debe hacer una lista completa de las preguntas concretas a las que debe dar respuesta
el experimento. Es importante indicar solamente cuestiones fundamentales ya que tratar de
abordar problemas colaterales pueden complicar innecesariamente el experimento.
Una vez elaborada la lista de objetivos, puede ser til esquematizar el tipo de
conclusiones que se espera obtener en el posterior anlisis de datos.
Normalmente la lista de objetivos es refinada a medida que se van ejecutando las etapas
del diseo de experimentos.
2.- Identificar todas las posibles fuentes de variacin.
Una fuente de variacin es cualquier cosa que pueda generar variabilidad en la
respuesta. Es recomendable hacer una lista de todas las posibles fuentes de variacin del
problema, distinguiendo aquellas que, a priori, generarn una mayor variabilidad. Se
distinguen dos tipos:
- Factores tratamiento: son aquellas fuentes cuyo efecto sobre la respuesta es de
particular inters para el experimentador.
- Factores nuisance: son aquellas fuentes que no son de inters directo pero que se
contemplan en el diseo para reducir la variabilidad no planificada.
A continuacin se precisan ms estos importantes conceptos.
(i) Factores y sus niveles.
Se denomina factor tratamiento a cualquier variable de inters para el experimentador
cuyo posible efecto sobre la respuesta se quiere estudiar.
Los niveles de un factor tratamiento son los tipos o grados especficos del factor que se
tendrn en cuenta en la realizacin del experimento.
Los factores tratamiento pueden ser cualitativos o cuantitativos.
Ejemplos de factores cualitativos y sus niveles respectivos son los siguientes:
proveedor (diferentes proveedores de una materia prima),
tipo de mquina (diferentes tipos o marcas de mquinas),
trabajador (los trabajadores encargados de hacer una tarea),
152
tipo de procesador (los procesadores de los que se quiere comparar su velocidad de
ejecucin),
un aditivo qumico (diferentes tipos de aditivos qumicos),
el sexo (hombre y mujer),
un mtodo de enseanza (un nmero determinado de mtodos de enseanza cuyos
resultados se quieren comparar).
Ejemplos de factores cuantitativos son los siguientes:
tamao de memoria (diferentes tamaos de memoria de ordenadores),
droga (distintas cantidades de la droga),
la temperatura (conjuntos de temperaturas seleccionadas en unos rangos de inters).
Debe tenerse en cuenta que en el tratamiento matemtico de los modelos de diseo de
experimento los factores cuantitativos son tratados como cualitativos y sus niveles son
elegidos equiespaciados o se codifican. Por lo general, un factor no suele tener ms de
cuatro niveles.
Cuando en un experimento se trabaja con ms de un factor, se denomina:
Tratamiento a cada una de las combinaciones de niveles de los distintos factores.
Observacin es una medida en las condiciones determinadas por uno de los
tratamientos.
Experimento factorial es el diseo de experimentos en que existen observaciones de
todos los posibles tratamientos.
(ii) Unidades experimentales.
Son el material donde evaluar la variable respuesta y al que se le aplican los distintos
niveles de los factores tratamiento.
Ejemplos de unidades experimentales son:
en informtica, ordenadores, pginas web, buscadores de internet,
en agricultura, parcelas de tierra,
en medicina, individuos humanos u animales,
153
en industria, lotes de material, trabajadores, mquinas.
Cuando un experimento se ejecuta sobre un perodo de tiempo de modo que las
observaciones se recogen secuencialmente en instantes de tiempo determinados, entonces
los propios instantes de tiempo pueden considerarse unidades experimentales.
Es muy importante que las unidades experimentales sean representativas de la
poblacin sobre la que se han fijado los objetivos del estudio. Por ejemplo, si se utilizan los
estudiantes universitarios de un pas como unidades experimentales, las conclusiones del
experimento no son extrapolables a toda la poblacin adulta del pas.
(iii) Factores nuisance: bloques, factores ruido y covariables.
En cualquier experimento, adems de los factores tratamiento cuyo efecto sobre la
respuesta se quiere evaluar, tambin influyen otros factores, de escaso inters en el estudio,
pero cuya influencia sobre la respuesta puede aumentar significativamente la variabilidad
no planificada. Con el fin de controlar esta influencia pueden incluirse en el diseo nuevos
factores que, atendiendo a su naturaleza, pueden ser de diversos tipos.
Factor bloque. En algunos casos el factor nuisance puede ser fijado en distintos niveles,
de modo que es posible controlar su efecto a esos niveles. Entonces la forma de actuar es
mantener constante el nivel del factor para un grupo de unidades experimentales, se cambia
a otro nivel para otro grupo y as sucesivamente. Estos factores se denominan factores de
bloqueo (factores-bloque) y las unidades experimentales evaluadas en un mismo nivel del
bloqueo se dice que pertenecen al mismo bloque. Incluso cuando el factor nuisance no es
medible, a veces es posible agrupar las unidades experimentales en bloques de unidades
similares: parcelas de tierra contiguas o perodos de tiempo prximos probablemente
conduzcan a unidades experimentales ms parecidas que parcelas o perodos distantes.
Desde un punto de vista matemtico el tratamiento que se hace de los factores-bloque es
el mismo que el de los factores-tratamiento en los que no hay interaccin, pero su concepto
dentro del modelo de diseo de experimentos es diferente. Un factor-tratamiento es un
factor en el que se est interesado en conocer su influencia en la variable respuesta y un
factor-bloque es un factor en el que no se est interesado en conocer su influencia pero se
incorpora al diseo del experimento para disminuir la variabilidad residuas del modelo.
5.2 Discutir la diferencia entre un experimento clasico y n experimento
estadisticamente diseado.

La diferencia entre un experimento clsico y uno estadsticamente diseado es que cuando
son estadsticamente diseados se controlan una gran cantidad de variables como el azar
utilizando experimentos de aleatorizacin, experimentos controlados, experimentos por
bloqueos, experimentos de dos factores o bien experimentos de replica.

Los experimentos (clsicos) manipulan variables independientes para ver sus efectos sobre
las variables dependientes en una situacin de control.
154
El primer requisito de un experimento puro es la manipulacin intencional de una o ms
variables independientes. La variable independiente es la que se considera como supuesta
causa en una relacin entre variables, es la condicin antecedente; y el efecto provocado
por dicha causa se le denomina variable dependiente y un experimento estadsticamente
diseado seria el siguiente:

Diseo Factoriales
Estos manipulan dos o ms variables independientes e incluyen dos o ms niveles de
presencia en cada una de las variables independiente. La constitucin bsica de un diseo
factorial consiste en que todos los niveles de cada variable independiente son tomadas en
combinacin con todos los niveles en otras variables independientes.
Experimento estadsticamente diseado.

- Se requiere una estrecha colaboracin entre los estadsticos y el investigador o
cientficos con las consiguientes ventajas en el anlisis e interpretacin de las etapas del
programa.
- Se enfatiza respecto a las alternativas anticipadas y respecto a la pre-planeacin
sistemtica, permitiendo aun la ejecucin por etapas y la produccin nica de datos
tiles para el anlisis en combinaciones posteriores.
- Debe enfocarse la atencin a las interrelaciones y a la estimacin y cuantificacin
de fuentes de variabilidad en los resultados.
- El nmero de pruebas requerido puede determinarse con certeza y a menudo puede
reducirse.
- La comparacin de los efectos de los cambios es ms precisa debido a la agrupacin
de resultados.
- La exactitud de las conclusiones se conoce con una precisin matemticamente
definida
Experimento clsico.

- Disear un experimento significa planear un experimento de modo que rena la
informacin pertinente al problema bajo investigacin.
- El diseo de un experimento es la secuencia completa de pasos tomados de antemano
para asegurar que los datos apropiados se obtendrn de modo de modo que permitan un
anlisis objetivo que conduzca a deducciones vlidas con respecto al problema
establecido
Este enfoque permite determinar valores de probabilidad antes de ser observado el
experimento por lo que se le denomina enfoque a priori.
El enfoque clsico es aplicado cuando todos los resultados son igualmente probables y no
pueden ocurrir al mismo tiempo, mientras que el experimento estadsticamente diseado
necesita tener la informacin adecuada y los datos necesarios para poder determinar los
resultados.
155
En el caso del estadsticamente diseado los resultados no necesita ser igualmente
probables y pueden ocurrir al mismo tiempo.

Algunos diseos experimentales clsicos.
Un diseo experimental es una regla que determina la asignacin de las unidades
experimentales a los tratamientos. Aunque los experimentos difieren unos de otros en
muchos aspectos, existen diseos estndar que se utilizan con mucha frecuencia. Algunos
de los ms utilizados son los siguientes:
Diseo completamente aleatorizado.
El experimentador asigna las unidades experimentales a los tratamientos al azar. La nica
restriccin es el nmero de observaciones que se toman en cada tratamiento. De hecho si n
i

es el nmero de observaciones en el i-simo tratamiento, i = 1,...,I, entonces, los valores
n
1
,n
2
,...,n
I
determinan por completo las propiedades estadsticas del diseo. Naturalmente,
este tipo de diseo se utiliza en experimentos que no incluyen factores bloque.
El modelo matemtico de este diseo tiene la forma:

Diseo en bloques o con un factor bloque.
En este diseo el experimentador agrupa las unidades experimentales en bloques, a
continuacin determina la distribucin de los tratamientos en cada bloque y, por ltimo,
asigna al azar las unidades experimentales a los tratamientos dentro de cada bloque.
En el anlisis estadstico de un diseo en bloques, stos se tratan como los niveles de un
nico factor de bloqueo, aunque en realidad puedan venir definidos por la combinacin de
niveles de ms de un factor nuisance.
El modelo matemtico de este diseo es:


El diseo en bloques ms simple es el denominado diseo en bloques completos, en el
que cada tratamiento se observa el mismo nmero de veces en cada bloque.
El diseo en bloques completos con una nica observacin por cada tratamiento se
denomina diseo en bloques completamente aleatorizado o, simplemente, diseo en
bloques aleatorizado.
156
Cuando el tamao del bloque es inferior al nmero de tratamientos no es posible
observar la totalidad de tratamientos en cada bloque y se habla entonces de diseo en
bloques incompletos.
Diseos con dos o ms factores bloque.
En ocasiones hay dos (o ms) fuentes de variacin lo suficientemente importantes como
para ser designadas factores de bloqueo. En tal caso, ambos factores bloque pueden ser
cruzados o anidados.
Los factores bloque estn cruzados cuando existen unidades experimentales en todas las
combinaciones posibles de los niveles de los factores bloques.
Diseo con factores bloque cruzados. Tambin denominado diseo fila-columna, se
caracteriza porque existen unidades experimentales en todas las celdas (intersecciones de
fila y columna).
El modelo matemtico de este diseo es:




Los factores bloque estn anidados si cada nivel particular de uno de los factores bloque
ocurre en un nico nivel del otro factor bloque.
Diseo con factores bloque anidados o jerarquizados. Dos factores bloque se dicen
anidados cuando observaciones pertenecientes a dos niveles distintos de un factor bloque
estn automticamente en dos niveles distintos del segundo factor bloque.
En la siguiente tabla puede observarse la diferencia entre ambos tipos de bloqueo.
Diseos con dos o ms factores.
En algunas ocasiones se est interesado en estudiar la influencia de dos (o ms) factores
tratamiento, para ello se hace un diseo de filas por columnas. En este modelo es
importante estudiar la posible interaccin entre los dos factores. Si en cada casilla se tiene
una nica observacin no es posible estudiar la interaccin entre los dos factores, para
hacerlo hay que replicar el modelo, esto es, obtener k observaciones en cada casilla, donde
k es el nmero de rplicas.
El modelo matemtico de este diseo es:
157
Generalizar los diseos completos a ms de dos factores es relativamente sencillo desde un
punto de vista matemtico, pero en su aspecto prctico tiene el inconveniente de que al
aumentar el nmero de factores aumenta muy rpidamente el nmero de observaciones
necesario para estimar el modelo. En la prctica es muy raro utilizar diseos completos con
ms de factores.
Un camino alternativo es utilizar fracciones factoriales que son diseos en los que se
supone que muchas de las interacciones son nulas, esto permite estudiar el efecto de un
nmero elevado de factores con un nmero relativamente pequeo de pruebas. Por ejemplo,
el diseo en cuadrado latino, en el que se supone que todas las interacciones son nulas,
permite estudiar tres factores de k niveles con solo k
2
observaciones. Si se utilizase el
diseo equilibrado completo se necesitan k
3
observaciones.
Diseos factoriales a dos niveles.
En el estudio sobre la mejora de procesos industriales (control de calidad) es usual trabajar
en problemas en los que hay muchos factores que pueden influir en la variable de inters.
La utilizacin de experimentos completos en estos problemas tiene el gran inconveniente de
necesitar un nmero elevado de observaciones, adems puede ser una estrategia ineficaz
porque, por lo general, muchos de los factores en estudio no son influyentes y mucha
informacin recogida no es relevante. En este caso una estrategia mejor es utilizar una
tcnica secuencial donde se comienza por trabajar con unos pocos factores y segn los
resultados que se obtienen se eligen los factores a estudiar en la segunda etapa.
Los diseos factoriales 2
k
son diseos en los que se trabaja con k factores, todos ellos
con dos niveles (se suelen denotar + y -). Estos diseos son adecuados para tratar el tipo de
problemas descritos porque permiten trabajar con un nmero elevado de factores y son
vlidos para estrategias secuenciales.
Si k es grande, el nmero de observaciones que necesita un diseo factorial 2
k
es muy
grande (n = 2
k
). Por este motivo, las fracciones factoriales 2
k-p
son muy utilizadas, stas
son diseos con k factores a dos niveles, que mantienen la propiedad de ortogonalidad de
los factores y donde se suponen nulas las interacciones de orden alto (se confunden con los
efectos simples) por lo que para su estudio solo se necesitan 2
k-p
observaciones (cuanto
mayor sea p menor nmero de observaciones se necesita pero mayor confusin de efectos
se supone).
En los ltimos aos Taguchi ha propuesto la utilizacin de fracciones factoriales con
factores a tres niveles en problemas de control de calidad industrial.
El espacio de los sucesos.
Un experimento, en estadstica, es cualquier proceso que proporciona datos,
numricos o no numricos.
158
Un conjunto cuyos elementos representan todos los posibles resultados de un
experimento se llama espacio muestral y se representa como S. El espacio muestral de un
experimento siempre existe y no es necesariamente nico pues, dependiendo de nuestra
valoracin de los resultados, podemos construir diferentes espacios muestrales.
Los elementos del espacio muestral se llaman puntos muestrales y son los distintos
resultados del experimento.
Si consideramos el conjunto de las partes de (P(S)) sus elementos son los sucesos.
Un suceso, por tanto, es un subconjunto del espacio muestral.


Existen dos tipos de sucesos:
Sucesos simples, que son aquellos que comprenden un slo punto muestral.
Sucesos compuestos, que son los que engloban ms de un punto del espacio muestral.
Todo suceso compuesto se puede considerar como unin de puntos del espacio muestral o
unin de sucesos simples.
Todo el clculo de probabilidades y, con l, toda la estadstica se basan en tres propiedades
que se asignan a las probabilidades, que se llaman axiomas de Kolmogorov
1. La probabilidad de un suceso es siempre mayor o igual que cero y menor o igual que uno
Si A es un suceso
2. La probabilidad del espacio muestral es igual a uno:
Si S es el espacio muestral
Es evidente, pues si realizamos un experimento siempre a de suceder alguna cosa. Esta
propiedad se expresa como que la probabilidad de un suceso cierto es igual a uno. Si S tiene
un nico elemento se es un suceso cierto. Como consecuencia, siguiendo el razonamiento
anterior, la probabilidad de que no ocurra nada, lo cual es imposible, o en notacin de
conjuntos la probabilidad del conjunto vaco (u) es cero. P(u) = 0
Se llama suceso imposible a aquel cuya probabilidad vale cero.
159

3. Si A y B son sucesos mutuamente excluyentes, es decir, nunca ocurren simultneamente
(A B = u) la probabilidad de su unin, es decir, de que ocurra uno u otro es la suma de
sus probabilidades.
P(A B) = P(A) + P(B)

Otras propiedades de las probabilidades.
Si A y B son dos sucesos cualesquiera:


Se llama suceso contrario del suceso A al suceso A' que se define como
A = S A. La probabilidad del suceso contrario es:



Experimento clsico:

Es el procedimiento apropiado para investigar cualquier fenmeno en el que existe
incertidumbre, se realiza virtualmente en todos los campos del saber, por lo general para
descubrir algo acerca de un proceso o un sistema en particular.

Experimento estadsticamente diseado:
160

Es una prueba o una serie de pruebas en las que se inducen cambios deliberados en las
variables de entrada de un sistema o proceso, de manera que sea posible observar e
identificar las causas de los cambios en respuesta de salida.

5.3 Discutir La Dificultad Del Control De Un Experimento Y Las Diferencias Entre
Los Objetos Prueba Que Se Estn Tratando Enmarcado Dentro Del rea
Administrativa.

A fin de poder controlar un experimento se separan los distintos objetos de prueba
analizndolos en distintos tipos de experimento, en el ejemplo siguiente se utilizo un
experimento de dos factores para conocer el rendimiento de dos componentes del vehculo,
se pone un ejemplo en donde se analiza la relacin que existe en el rendimiento de unas
llantas de un automvil dado y la durabilidad de la gasolina,

La dificultad de control de un experimento se debe a que debido a que se involucra la
manipulacin intencional de una accin para analizar sus posibles efectos y se provoca
deliberadamente algn cambio y se observa o interpreta sus resultados no puedes tener la
certeza de los efectos que pueda tener el mismo.

El experimento controlado como modelo
El modelo cientfico para el estudio de las relaciones de causa y efecto es el experimento
controlado, en el cual se comparan las respuestas de un grupo experimental, expuesto al
estmulo crucial, con las de un grupo de control equivalente, que no ha sido sometido al
estmulo.

Esquemticamente el experimento controlado puede ser representado del siguiente modo:
Grupo experimental Grupo recontrol Momento 1x1y1 Exposicin al estmulo Sin
exposicin al estmulo Momento 2x2y2
Supongamos, por ejemplo, que nuestro experimento se ocupa del efecto que ejerce la
televisacon del desarrollo de las convenciones polticas sobre el inters por los asuntos
polticos. En el Momento 1, ante de que comience la convencin, dividiramos nuestra
muestra total en dos grupos equivalentes e iguales. Una de stos sera elegido para servir de
grupo experimental y el otro de control. En el Momento 1 tambin registraramos el nivel
de inters poltico manifestado por los dos grupos en ese momento, llamaramos a esas dos
medidas x1 e y1. Si los dos grupos como han sido igualados correctamente campo, deberan
tener, en un comienzo, el mismo grado de inters; en otras palabras, x1 sera igual a y1. A
medida que las convenciones se desarrollan, se mostrar al grupo experimental las sesiones
televisadas, mientras que, de algn modo, se impedir que el grupo de control las vea. Una
vez clausuradas las convenciones, se medir nuevamente el inters de ambos grupos con
respecto a los asuntos polticos y se registraran las nuevas mediciones x2 e y2.

A partir de este esquema, Cmo se puede determinar si los programas de televisin han
surtido efecto? Uno podra sentirse tentado a contestar que una comparacin del nivel de
inters manifestado por el grupo experimental antes y despus de las convenciones
proporcionar la informacin necesaria; en otras palabras, se podra decir que la
comparacin (x2-x1) es la crucial. Pero esto puede no ser del todo correcto. En el momento
161
de las convenciones, los problemas polticos suelen ser de gran inters pblico. Otros
medios de comunicacin aparte de la televisin otorgan gran importancia a la marcha de las
convenciones y a las especulaciones acerca de lo que ocurrir despus de finalizadas.

Los candidatos, sus posibilidades, sus mritos, que vuelven tpicos favoritos de
conversacin. Por lo tanto, a menos que se lo mantenga completamente aislado, el grupo
experimentales estar expuesto a estas influencias "extraas", y la diferencia (x2-x1)
reflejar tanto el efecto de estos factores como el del estmulo experimental. En otras
palabras, es imposible distinguir qu parte de la diferencia (x2-x1) se debe a la televisacon
de las convenciones y qu parte a otros estmulos "irrelevantes".

Aqu es donde interviene el grupo de control. Presumiblemente ha estado expuesto a todos
los mismos estmulos que el grupo experimental, con la nica excepcin de aquel en el que
el experimentador est vitalmente interesado; en este caso, la televisin[1]. As, la
diferencia entre el nivel de inters exhibido por el grupo de control antes y despus de las
convenciones refleja la influencia de aquellos otros estmulos. Es decir, (y1-y2) mide el
afecto de los estmulos no experimentales, aquellos que no son controlados por el
experimentador. Estas dos diferencias, consideradas en conjunto, proporcionan una medida
del efecto del estmulo como experimentador verbalmente:
Efecto de la televisin = (efecto de la televisin + efecto de otros estmulos) - (efecto de
otros estmulos), o, simblicamente:
Efecto de la televisin = (x2 - x1) - (y2 - y1).

Si los dos grupos fueron adecuadamente igualados al comienzo, de modo que inicialmente
manifestaban su idntico grado de inters poltico, esta medida del efecto se simplifica.
Pues en estas condiciones, x1 = y1, y el efecto del estmulo se reduce lo siguiente:
Efecto de la televisin = (x2 - y2)
La lgica de la experimentacin controlada y los diseos experimentales especficos
requeridos en diferentes condiciones han sido sistematizados ampliamente. Pero el
estudiante ver que se ha prestado muy poca atencin al estudio de los problemas que
aparecen cuando se intenta la experimentacin efectiva en ciencias sociales. El
experimentador, por ejemplo, encuentra difcil manipular los grupos e instituciones sociales
como querra para fines experimentales. Usualmente el experimentador de las ciencias
sociales tampoco es capaz de mantener sobre sus sujetos los controles requeridos para una
experimentacin adecuada. El resultado es, entonces, que la experimentacin se ha vuelto
un ideal raramente realizado en las ciencias sociales. Contina siendo el modelo con el que
se juzga a otros diseos de investigacin y en cuyos trminos se evalan los resultados de
las investigaciones. Pero los estudios reales en las ciencias sociales generalmente se llevan
a cabo empleando algn tipo de procedimiento aproximado.
El experimentador debe suponer que el grupo de control ha sido expuesto a estos otros
estmulos con la misma intensidad y con el mismo efecto que el grupo experimental. Si los
dos grupos fueron bien igualados desde el principio, esta suposicin probablemente es
correcta.

La estrategia experimental VUFCV presenta inconvenientes importantes cuando existe
interaccin entre factores. Existe interaccin entre dos factores A y B cuando el efecto del
factor A es diferente segn qu valor tome el factor B, y viceversa. Esta situacin se
162
presenta muy a menudo en qumica, fsica, biologa, etc... Cuando existen tales
interacciones, el mtodo VUFCV :
- No informa sobre como un factor interacta con los otros factores o como estas
interacciones afectan a la respuesta, con lo cual slo se obtiene una comprensin Limitada
de los efectos de los factores (Figura 3a). Cul es el efecto de A cuando
- No proporciona la posicin del ptimo (Figura 3b). El experimentador percibe que se ha
llegado al ptimo porque cambiando un factor cada vez la respuesta no mejora, pero se
puede encontrar lejos del ptimo real. Aunque se puede reiniciar la experimentacin
partiendo del ptimo encontrado, esta solucin es extremadamente ineficiente cuando se
deben estudiar muchos factores a muchos valores distintos, puesto que el mtodo VUFCV
requerira demasiados experimentos y demasiado tiempo.
Objetivos a tratar en el experimento.
- Obtener un conocimiento inicial sobre un nuevo sistema en estudio. En qu valores de
los factores se puede centrar la investigacin?.
- Determinar la influencia de los factores sobre las respuestas observadas. De entre todos
los factores que afectan al proceso, cuales influyen ms?, cmo interaccionan entre
ellos?.
- Optimizar respuestas. Qu valores de los factores proporcionan las respuestas de mayor
calidad?.
- Determinar la robustez del sistema. Como afectan a la respuesta variaciones no
controladas en el valor de los factores?.

1. Dificultad de elegibilidad y manejo de las variables de control.
2. Dificultad de disponer de muestras representativas.
3. Falta de realismo.
Ej. : dar un curso de educacin sanitaria en un barrio de la ciudad, formo dos grupos :
1.- con personas de la raza paya.
2.- con personas de la raza gitana.
A los payos les doy el curso y a los gitanos no les doy el curso.
Si posteriormente analizamos quien cumple mejor las reglas de higiene y nuestra
hiptesis es que el curso ha servido para aumentar la higiene, tambin deberemos tener
en cuenta que hay variables que han influido, tales como la raza y/o las diferencias en el
poder adquisitivo o nivel econmico de los grupos.
Cuando una variable hace que un grupo de partida sea diferente (por ej. Raza) se les
llama amenaza.
163
Ninguno de los estudios revisados controlaron con xito los errores derivadas de la
fungibilidad de los recursos entre la familia y la empresa. Los sesgos resultantes de la
seleccin tambin presentan complicaciones de
control. Junto con el diseo de muestreo y las tcnicas analticas, se incluyen las siguientes
recomendaciones referentes a los mtodos de control:.
# Los mtodos de control estadsticamente comparables son suficientes para tratar la
mayora de los temas relacionados al control; # El gnero de los individuos muestreados es
variable fundamental de control;
Se deben hacer esfuerzos continuos para controlar por razones de intercambio;
Los mtodos de control deben ser funcin de los datos disponibles.


5.4 ENUNCIAR LOS ASPECTOS PRINCIPALES DEL DISEO
EXPERIMENTAL.
Un diseo experimental tiene como propsito bsico mostrar las diferencias entre dos o
ms situaciones a las que son sometidos varios elementos y su influencia en las
caractersticas de dichos elementos. El investigador puede someter, segn su voluntad, a un
mismo grupo de sujetos a una sola situacin constante.
a) la medicin de variables dependientes
b) la manipulacin de las variables independientes

Un diseo experimental sirve, generalmente, para comparar las medias de ms de dos
tratamientos (niveles de factor) siguiendo el enfoque de anlisis de varianza que a
principios del Siglo XX plante Ronald A. Fisher. Dependiendo de las caractersticas del
material experimental, el experimento puede hacerse en un diseo completamente al azar
(cuando el material experimental se supone sensiblemente homogneo), en un diseo de
bloques completos al azar (variacin en una direccin), cuadrados latinos (variacin en dos
direcciones); hay otras variantes de diseo experimental como el diseo grecolatino,
parcelas divididas o anidado, bloques incompletos, bloques generalizados, entre otros.
Los dos aspectos principales del diseo experimental son:

1.-El diseo del experimento.
2.-el anlisis estadstico de los datos obtenidos del mismo.

Se podra definir el Diseo Estadstico de Experimentos (DEE), tambin denominado
diseo experimental, como una metodologa basada en tiles matemticos y estadsticos
cuyo objetivo es ayudar al experimentador a:
1. Seleccionar la estrategia experimental ptima que permita obtener la informacin
buscada con el mnimo coste.
164
2. Evaluar los resultados experimentales obtenidos, garantizando la mxima fiabilidad en
las conclusiones que se obtengan.


En un experimento el experimentador escoge ciertos factores para su estudio, los altera
deliberadamente de forma controlada y despus, observa el efecto resultante.
El experimento puede realizarse bien en laboratorio o bien en el exterior: en la fabrica, en
unos almacenes, en los locales de usuarios, etc.
El diseo experimental debera incluir un estudio longitudinal con un intervalo de 18 a 24
meses entre cada ronda de recoleccin de datos; Se pueden utilizar mtodos de
revocacin** para mejorar el perfil longitudinal; Se deberan tomar en cuenta variaciones
estacinales en el diseo experimental;
# Entrevistas detalladas podran sugerir lneas de tiempo en lo que se refiere a impactos
crediticios; Podra ocurrir que se omitan los impactos crediticios
a largo plazo.

5.5 DESCRIBIR CON SUS PROPIAS PALABRAS EN QUE CONSISTE LA
TCNICA DEL ANLISIS DE VARIANZA.

Se utiliza para probar las diferencias entre diversas medias maestrales es decir e utiliza para
determinar si varias muestras provienen de poblaciones que tienen medias iguales.

Ejemplo: lo podra aplicar el fabricante de automviles para evaluar cinco pruebas
efectuadas en el mismo modelo para ver si el rendimiento de los kilmetros por litro es
igual o solo parece serlo.
Es un metodo que analiza dos o ms medidas muestrales al mismo tiempo
El anlisis de la varianza (ANOVA) es una tcnica estadstica de contraste de hiptesis.
Tradicionalmente estas tcnicas, conjuntamente con las tcnicas de regresin lineal
mltiple, de las que prcticamente son una extensin natural, marcan el comienzo de las
tcnicas multivariantes. Con estas tcnicas se manejan simultneamente ms de dos
variables, y la complejidad del aparato matemtico se incrementa proporcionalmente con el
165
nmero de variables en juego .El anlisis de la varianza de un factor es el modelo ms
simple: una nica variable nominal independiente, con tres o ms niveles, explica una
variable dependiente continuo.
La tecnica de anlisis de varianza es una coleccin de modelos estadsticos y sus
procedimientos asociados. La tecnica de anlisis de varianza sirve para comparar si los
valores de un conjunto de datos numricos son significativamente distintos a los valores de
otro o ms conjuntos de datos. El procedimiento para comparar estos valores est basado en
la varianza global observada en los grupos de datos numricos a comparar. Tpicamente, el
anlisis de varianza se utiliza para asociar una probabilidad a la conclusin de que la media
de un grupo de puntuaciones es distinta de la media de otro grupo de puntuaciones.
La tcnica fundamental consiste en la separacin de la suma de cuadrados (SS, 'sum of
squares') en componentes relativos a los factores contemplados en el modelo. Como
ejemplo, mostramos el modelo para un ANOVA simplificado con un tipo de factores en
diferentes niveles. (Si los niveles son cuantitativos y los efectos son lineales, puede resultar
apropiado un anlisis de regresin lineal)
- SSTotal = SSError + SSFactores
El nmero de grados de libertad (gl) puede separarse de forma similar y se corresponde con
la forma en que la distribucin chi-cuadrado describe la suma de cuadrados asociada.
- glTotal = glError + glFactores

En estadstica, anlisis de varianza (ANOVA, segn terminologa inglesa) es una
coleccin de modelos estadsticos y sus procedimientos asociados. El anlisis de varianza
sirve para comparar si los valores de un conjunto de datos numricos son
significativamente distintos a los valores de otro o ms conjuntos de datos. El
procedimiento para comparar estos valores est basado en la varianza global observada en
los grupos de datos numricos a comparar. Tpicamente, el anlisis de varianza se utiliza
para asociar una probabilidad a la conclusin de que la media de un grupo de puntuaciones
es distinta de la media de otro grupo de puntuaciones.

166
5.6 ILUSTRAR CON UN EJEMPLO DEL REA ADMINISTRATIVA EL
SIGNIFICADO DEL ANLISIS DE VARIANZA

1 Se obtienen muestras del peso del llenado de cuatro paquetes de espinacas congeladas, a
partir de tres contenedores. La preguntas es si los pesos promedio de los paquetes son
iguales o diferentes entre los tres contenedores. Seguidamente se ofrecen los pesos de la
muestra (en onzas), medias de grupos, media global y estimacin de la varianza con el
mtodo dentro usando la ecuacin correspondiente

GRUPO 1 GRUPO 2 GRUPO 3


12,4 11,9 10,3
13,7 9,3 12,4
11,5 12,1 11,9
10,3 10,6 10,2
Media 12,00 11,00 11,2
Media Global 11,4
(xi - x1)2 = (12,4 - 12)2 + (13,7 - 12)2 + (11,5 - 12)2 + (10,3 - 12)2 =


6,19
(xi - x2)2 = (11,9 - 11)2 + (9,3 - 11)2 + (12,1 - 11)2 + (10,6 - 11)2 =


5,07
(xi - x3)2 = (10,3 - 11,2)2 + (12,4 - 11,2)2 + (11,9 - 11,2)2 + (10,2 - 11,2)2 = 3,74



(xIJ - xJ)2 6,19 + 5,07 + 3,74 15
167
SW2= ------------------ = ---------------------------- = -------- = 1,67
c(n-1) 3(4-1) 9
Cada valor x en la muestra se compara con la media de su propio
Grupo. Estas diferencias se elevan al cuadrado y se suman de acuerdo con la ecuacin
anteriormente descrita. Los valores que resultan se suman y se dividen entre los grados de
libertad. El resultado, 1,67, es una estimacin de la varianza comn de las tres poblaciones.
Con frecuencia el trmino SW2 se denomina error cuadrtico medio (MSE).
La razn por la que el mtodo dentro produce una estimacin vlida de la varianza
desconocida de la poblacin, sin importar el estado de H0.


Mtodo estadstico que se utiliza para conocer si existen diferencias entre medias de
tratamientos o si estas diferencias se deben solo al efecto aleatorio

Quince aprendices en un curso tcnico son aleatoriamente asignados a tres diferentes tipos
de mtodos de instruccin, todos los cuales persiguen el desarrollo de un nivel especifico
de habilidad en diseo asistido por computadora. Las calificaciones de aprovechamiento al
termino de la unidad de instruccin se muestran en la siguiente tabla. Use el procedimiento
de anlisis de varianza para probar la hiptesis nula de que las medias mustrales se
obtuvieron de la misma poblacin, con un nivel de significancia del 5%







Mtodo de Instruccin
Calificaciones
Calificaciones
totales
Calificaciones
medias
A1 86 79 81 70 84 400 80
A2 90 76 88 82 89 425 85
A3 82 68 73 71 81 375 75
1200
168
Tabla de resumen


F requerido
Fuente de
variacin
Grados de
libertad
Suma de
cuadrados
Cuadrado
medio
F
Observado 5% 1%
Total 14 698
Tratamientos 2 250 = 250/2 = 125
= 125/37.33
= 3.35 3.88 6.93
Error de muestreo 12 448 = 448/12 =37.33



El numero total de gl para total es numero de observaciones -1 = 15-1 = 14
El numero de grados de libertad para los tratamientos es tratamientos -1 = 3-1 =2
Los grados de libertad para el error de muestreo son gl totales - gl de los tratamientos = 14 -
2 = 12

Termino de correccin es sumatoria total de las observaciones y elevadas al cuadrado y
divididas entre el numero total de observaciones. = 1200 al cuadrado =1 440 000 entre 15 =
96000.

LA SCT es igual a sumar la observaciones al cuadrado y restarles el termino de correccin
( C ) lo que es igual a:
=(86)2 + (79)2 + .......+ (81)2= 96698 - 96000 =698

LA SCA es igual a elevar al cuadrado la sumatoria de cada tratamiento/ n y restarle el
termino de correccin ( C )
= 160 000/ 5 + 180625/5 + 140625/5 - 96000 = 250

LA SCE = SCT - SCA = 698 - 250 = 448

169
Conclusin : Dado que la F observada es menor que la F requerida al nivel de significancia
del 5% se concluye que no existe ningn efecto asociado con los mtodos de instruccin y
por lo tanto que las diferencias entre la medias no son significativas al nivel del 5%.


2Rodolfo leiva, el dueo de la ferreteria homero, ha ideado tres grupos de un texto
publicitario que sern examinados para incluirlos en la promocin de la tienda durante la
semana dedicada a este girode negocios. Ha decidido probar la eficiencia de las tres
alternativas usando la escala de likert y una muestra aleatorio de nueve adultos de la
comunidad en un experimento de slo despus como el siguiente:
Nueve sujetos asignados aleatoriamente:
R x1 o1
Rx2 o2
R x3 o3
Hay tres sujetos en cada grupo, la x designa las tres alternativas del texto del anuncio: o
indica las puntuaciones de sus actitudes en la escala de likert, que fueron:
Tratamiento del anuncio #1 en homero est el corazn!
12
9
15
x1= 12

Tratamiento del anuncio #2 los precios de la ferreteria homero son justos!
15
16
20

X2= 17

Tratamiento del anuncio #3 necesita algn articulo de ferreteria? vaya ahora mismo ala
ferreteria homero!
170
7
11
9
X3= 9
Se determina el valor critico de f: para el nivel de significancia .05,
V1= 2 grados de libertad (g.l.) en el numerador
V2= 6 grados de libertad (g.l.) en el denominador.
El valor critico es
F= 5.14
El valor critico se obtiene de a tabla de distribucin f en el apndice estadadstico y
depende de a) nivel de significancia que deseemos (.05 o 01); b) el valor de v1, que
identificar la columna correspondiente de la tabla; c) el valor de v2, que identificar el
rengln correspondiente de la tabla. En este ejemplo, nos gustaria hacer la prueba en un
nivel de significancia de .05; los valores son v1=2, v2=6. Por tanto, nos fijamos en la
segunda columna y en el sexto rengln de la tabla de distribucin f y encontramos 5.14, o
sea el valor crtico.

3 Se sospecha que la temperatura que se tiene en una planta industrial afecta su tasa de
produccin. Los datos de las tablas corresponden al numero x de unidades producidas en
una hora en periodos horarios seleccionados de manera aleatoria, cuando el proceso de
produccin en la fabrica se hallaba en actividad en cada uno de tres niveles de temperatura.
Los datos resultantes de muestreos repetidos se llaman repeticiones o replicaciones. Se
obtuvieron 4 repeticiones o datos para 2 niveles de temperatura y 5 para el tercer nivel.
Indican estos datos que la temperatura tiene un efecto significativo sobre el nivel de
produccin al 0.05?






171
Niveles de temperatura

Muestra obtenida a 68 f
(i=1)
Muestra obtenida a 72 F (i=2) Muestra obtenida a 76 F (i=3)
10 7 3
20 6 3
10 7 5
9 8 4
7 C3=15
C1=41 X1=10.25 C2=35 X2=7.0 C3=15 X3=3.75

Esta variacin entre las Xs se debe al azar o al efecto que tiene la temperatura sobre la tasa
de produccin

Ha: no son iguales todas las medias correspondientes a los niveles de temperatura

Fuente de variacion SC Gl CM
Temperatura 84.5 2 42.25
Error 9.5 10 0.95
Total 94.0 12

F*=44.47

La decisin sobre rechazar Ho o no rechazarla se realizara comparando el valor calculado
de F o sea F*=44.47 , con el valor critico de F, para una extremidad. El valor critico es F (2,
10, 0.05)= 4.10


172





173























174










.- Averiguar si la variabilidad de edades en una comunidad local es la misma o mayor que
la de todo el Estado. La desviacin estndar de las edades del Estado, conocida por un
estudio reciente es de 12 aos. Tomamos una muestra aleatoria de 25 personas de la
comunidad y determinamos sus edades. Calcular la varianza de la muestra y usar la
ecuacin anteriormente explicada para obtener el estadstico muestral.
Las hiptesis nula y alternativas son:
- H0 : 2 = 144
- H1 : 2 144
Se toma la muestra y resulta una desviacin estndar muestral de 15
Aos. La varianza de la muestra es entonces 225, y el estadstico ji cuadrada de la muestra
es:
(n - 1 ) s2 (25-1)(15)2
2 = --------------- = ------------------- = 37,5
2 122
Si la hiptesis nula es cierta, el estadstico muestral de 37,5 se obtiene de la distribucin ji
cuadrada terica, en particular, la distribucin con 24 grados de libertad ( 25 - 1 = 24 ).
Como se puede observar en la ecuacin anterior, cuanto mas grande es la varianza muestral
respecto a la varianza poblacional hipottica, mas grande es el estadstico que se obtiene.
Luego deducimos que de un estadstico muestral grande llevamos al rechazo de la hiptesis
nula, y un estadstico muestral pequeo implicar que no se rechaze. La tabla ji cuadrada se
175
usa para determinar si es probable o no que el valor 37,5 haya sido obtenido de la
distribucin muestral ji cuadrada hipottica.
Supongamos que esta prueba debe llevarse a un nivel de significancia de 0,02. En la
columna 0,02 de la tabla de ji cuadrada y la fila 24, se encuentra el valor critico de 40, 27.
La regla de decisin es:
Si 2 40,27, se rechaza la hiptesis nula de que la varianza de la poblacin es 144 ( Se
rechaza H0 si 2 > 40,27 ).
Como estadstico de prueba calculado es 37,5, la hiptesis nula no se rechaza (con riesgo de
un error de tipo II). Si en la tabla de ji cuadrada se hubiese elegido un alfa de 0,05, el valor
crtico de la tabla sera 36,415, y la hiptesis nula se hubiera rechazado (37,5 > 36,415). En
este ejemplo se ilustra la importancia de pensar con cuidado en el riesgo apropiado de un
error de tipo I en una prueba de hiptesis.
Se supone que la hiptesis nula es cierta, lo que conduce a la obtencin de un estadstico
muestral de una distribucin ji cuadrada con 2 grados de libertad.


Ejemplo 5.1. Supongamos que estamos interesados en conocer si existen diferencias
significativas entre el tiempo diario de dedicacin a la investigacin de los profesores, en
funcin de la categora que tienen. Para ello, elegiremos las siguientes opciones desde el
men principal:
176







y con esto se abre un cuadro de dilogo con los siguientes campos:
Dependientes: en este campo se introduce la variable respuesta a analizar. En el
Ejemplo 5.1 sera Tinvest (tiempo diario para la investigacin).
Factor: aqu se introduce la variable de clasificacin, que ha de ser categrica. Para
el ejemplo, se considera la Categora de los profesores.
Adems de los campos anteriores existen tres botones cuya utilidad es la siguiente:
CONTRASTES. Con este botn se trata de averiguar si los valores promedios de la
variable dependiente para cada nivel del factor, siguen o no alguna tendencia
determinada, lineal, cuadrtica, cbica, de grado 4 5. Adems de poder realizar
cualquier tipo de comparacin a priori, entre las medias de la variable respuesta para
los niveles del factor que se elijan. Permite realizar hasta 10 contrastes diferentes,
con 50 coeficientes en cada uno de ellos. Para excluir algn grupo se le asigna el
coeficiente 0.
POST HOC. Este tiene como finalidad averiguar cul o cules de los diferentes
grupos o niveles del factor son los que difieren entre s, a travs de una serie de
pruebas diferentes (Contrastes a posteriori).
OPCIONES. Este botn permite mostrar una serie de estadsticos descriptivos para
cada grupo de la muestra o nivel del factor, el test de Levene para comprobar la
homogeneidad de varianzas entre los distintos grupos, un grfico de las medias de
cada grupo y la forma de tratar los valores perdidos.
177
Ejecutamos el procedimiento con las variables indicadas anteriormente y elegimos dentro
de OPCIONES la prueba de homogeneidad de varianzas, obtenindose los siguientes
resultados.

Tabla 5: Anlisis de la Varianza con 1 Factor
ANOVA de un factor

Prueba de homogeneidad de varianzas
Tiempo diario para la investigacin
Estadstico
de Levene gl1 gl2 Sig.
1,713 5 74 0,142
ANOVA
Tiempo diario para la investigacin
Suma de Media
cuadrados gl cuadrtica F Sig.
Inter-grupos 190239,152 5 38047,830 47,177 ,000
Intra-grupos 59680,480 74 806,493
Total 249919,632 79



En la Tabla 5 aparecen los resultados sobre la homogeneidad de varianzas y el Anova.
Como se puede apreciar en la homogeneidad de varianzas, el p-valor es de 0.142 que es
mayor que 0.05, luego podemos aceptar la igualdad de varianzas entre los grupos. Mientras
que en el Anova, podemos ver que el estadstico es bastante grande 47.177 y el p-valor vale
0, lo que nos conduce a rechazar el que los tiempos medios dedicados a la investigacin
sean iguales segn la categora que tiene el profesor.
178

Example 5.2. Puesto que el anlisis ha dado significativo, veamos cules de los niveles del
factor difieren entre s. Para ello, volvemos a entrar en el procedimiento Anova de un
factor, y con las mismas variables seleccionadas pulsamos en el botn POST HOC. Se
muestra a continuacin otro cuadro donde aparece una serie de posibles constrastes a
posteriori. Supuestas las varianzas iguales, estn el de Bonferroni, Scheffe, Tuckey,
Duncan, etc., y entre los que se asume varianzas distintas el T2 de Tamnhane, el T3 de
Dunnett, etc. Elegimos el test de Tuckey y pulsamos CONTINUAR y ACEPTAR.
Los resultados obtenidos indican que los tiempos medios dedicados a la investigacin para
los catedrticos de escuela, los titulares de universidad y los titulares de escuela se pueden
considerar iguales, y por otro lado, tambin ocurre lo mismo con los de los profesores
asociados y los de los ayudantes.

5.7 EXPLICAR ATRAVES DE UN EJEMPLO DE AREA DE ADMINISTRACIN
O CIENCIAS SOCIALES EN QUE CONSISTE EL ANLISIS DE VARIANZA DE
UN SOLO FACTOR INDICANDO LOS SUPUESTOS ESTADSTICOS QUE SE
HACEN EN ESTE TIPO DE ANLISIS.

Esta es una prueba generalizada del contraste de medias para muestras con datos
independiente. Se comparan tres o ms muestras independientes cuya clasificacin viene
dada por la variable llamada factor. La base de este procedimiento consiste en estudiar si el
factor influye sobre la variable respuesta, y la forma de hacerlo es analizando como
varan los datos dentro de cada uno de los grupos en que clasifica el factor a la
observaciones de la variable respuesta.
Ejemplo: supongamos que estamos interesados en conocer si existen diferencias
significativas entre el tiempo diario de dedicacin a la investigacin de los profesores, en
funcin de la categora que tienen. Para ello, elegiremos las siguientes opciones desde el
men principal:
Analizar
Comparar medias
179
Anova de un factor

y con esto se abre un cuadro de dilogo con los siguientes campos:
Dependientes: en este campo se introduce la variable respuesta a analizar. En el
ejemplo 5.1 sera tinvest (tiempo diario para la investigacin).
Factor: aqu se introduce la variable de clasificacin, que ha de ser categrica. Para
el ejemplo, se considera la categora de los profesores.
Adems de los campos anteriores existen tres botones cuya utilidad es la siguiente:
Contrastes. Con este botn se trata de averiguar si los valores promedios de la
variable dependiente para cada nivel del factor, siguen o no alguna tendencia
determinada, lineal, cuadrtica, cbica, de grado 4 5. Adems de poder realizar
cualquier tipo de comparacin a priori, entre las medias de la variable respuesta para
los niveles del factor que se elijan. Permite realizar hasta 10 contrastes diferentes,
con 50 coeficientes en cada uno de ellos. Para excluir algn grupo se le asigna el
coeficiente 0.
Post hoc. Este tiene como finalidad averiguar cul o cules de los diferentes grupos
o niveles del factor son los que difieren entre s, a travs de una serie de pruebas
diferentes (contrastes a posteriori).
Opciones. Este botn permite mostrar una serie de estadsticos descriptivos para
cada grupo de la muestra o nivel del factor, el test de levene para comprobar la
homogeneidad de varianzas entre los distintos grupos, un grfico de las medias de
cada grupo y la forma de tratar los valores perdidos.
Ejecutamos el procedimiento con las variables indicadas anteriormente y elegimos dentro
de opciones la prueba de homogeneidad de varianzas, obtenindose los siguientes
resultados.
TABLA 5: ANLISIS DE LA VARIANZA CON 1 FACTOR
ANOVA DE UN FACTOR

PRUEBA DE HOMOGENEIDAD DE VARIANZAS
180
TIEMPO DIARIO PARA LA INVESTIGACIN
ESTADSTICO
DE LEVENE GL1 GL2 SIG.
1,713 5 74 0,142
ANOVA
TIEMPO DIARIO PARA LA INVESTIGACIN
SUMA DE MEDIA
CUADRADOS GL CUADRTICA F SIG.
INTER-GRUPOS 190239,152 5 38047,830 47,177 ,000
INTRA-GRUPOS 59680,480 74 806,493
TOTAL 249919,632 79


En la tabla 5 aparecen los resultados sobre la homogeneidad de varianzas y el anova. Como
se puede apreciar en la homogeneidad de varianzas, el p-valor es de 0.142 que es mayor
que 0.05, luego podemos aceptar la igualdad de varianzas entre los grupos. Mientras que en
el anova, podemos ver que el estadstico es bastante grande 47.177 y el p-valor vale 0, lo
que nos conduce a rechazar el que los tiempos medios dedicados a la investigacin sean
iguales segn la categora que tiene el profesor.
Ejemplo: puesto que el anlisis ha dado significativo, veamos cules de los niveles del
factor difieren entre s. Para ello, volvemos a entrar en el procedimiento anova de un factor,
y con las mismas variables seleccionadas pulsamos en el botn post hoc. Se muestra a
continuacin otro cuadro donde aparece una serie de posibles constrastes a posteriori.
Supuestas las varianzas iguales, estn el de bonferroni, scheffe, tuckey, duncan, etc., y entre
los que se asume varianzas distintas el t2 de tamnhane, el t3 de dunnett, etc. Elegimos el
test de tuckey y pulsamos continuar y aceptar.
Los resultados obtenidos indican que los tiempos medios dedicados a la investigacin para
los catedrticos de escuela, los titulares de universidad y los titulares de escuela se pueden
181
considerar iguales, y por otro lado, tambin ocurre lo mismo con los de los profesores
asociados y los de los ayudantes



Cierta compaa que distribuye maquinas expendedoras de refresco supone que sus
aparatos despachan 6 onzas de bebida.Se observaron varias maquinas registrando las
cantidades de refrescos servidas, como se muestra en la tabla siguiente:

Proporciona esta evidencia muestral razon suficiente para rechazar la hiptesis nula de que
las 5 maquinas en cuastion expenden la misma cantidad media de refresco?

Utilice a = .01

A B C D E
3.8 6.8 4.4 6.5 6.2
4.2 7.1 4.1 6.4 4.5
4.1 6.7 3.9 6.2 5.3
4.4 4.5 5.8

Hipotesis
Las cantidades medias servidas por las maquinas son iguales.

Fuente SC Gl CM
Maquina 20.998 4 5.2495
Error 2.158 13 0.166
total 23.156 17

Se rechaza Ho


F*= 31.6
182






183

Ejemplo. Supongamos que estamos interesados en conocer si existen diferencias
significativas entre el tiempo diario de dedicacin a la investigacin de los profesores, en
funcin de la categora que tienen. Para ello, elegiremos las siguientes opciones desde el
men principal:






y con esto se abre un cuadro de dilogo con los siguientes campos:
Dependientes: en este campo se introduce la variable respuesta a analizar.
En el Ejemplo 5.1 sera Tinvest (tiempo diario para la investigacin).
Factor: aqu se introduce la variable de clasificacin, que ha de ser
categrica. Para el ejemplo, se considera la Categora de los profesores.
Adems de los campos anteriores existen tres botones cuya utilidad es la siguiente:
CONTRASTES. Con este botn se trata de averiguar si los valores
promedios de la variable dependiente para cada nivel del factor, siguen o no
alguna tendencia determinada, lineal, cuadrtica, cbica, de grado 4 5.
Adems de poder realizar cualquier tipo de comparacin a priori, entre las
medias de la variable respuesta para los niveles del factor que se elijan.
Permite realizar hasta 10 contrastes diferentes, con 50 coeficientes en cada
uno de ellos. Para excluir algn grupo se le asigna el coeficiente 0.
POST HOC. Este tiene como finalidad averiguar cul o cules de los
diferentes grupos o niveles del factor son los que difieren entre s, a travs
de una serie de pruebas diferentes (Contrastes a posteriori).

184
OPCIONES. Este botn permite mostrar una serie de estadsticos
descriptivos para cada grupo de la muestra o nivel del factor, el test de
Levene para comprobar la homogeneidad de varianzas entre los distintos
grupos, un grfico de las medias de cada grupo y la forma de tratar los
valores perdidos.
Ejecutamos el procedimiento con las variables indicadas anteriormente y elegimos dentro
de OPCIONES la prueba de homogeneidad de varianzas, obtenindose los siguientes
resultados

5.8 Explicar En Que Consiste La Prueba De Scheff Utilizada Para Probar La
Significancia De 2 Medidas Muestrales, Usando Un Ejemplo Administrativo En El
Que Se Involucre Un Anlisis De Varianza De Un Solo Factor



















185














Hace todas las
comparaciones posibles. Por ejemplo el primer grupo con respecto a cada uno de los
restantes, pero tambien el primero con respecto al grupo formado por la union de dos de los
restantes.
186
Un problema comn al que nos podemos enfrentar en cualquier investigacin es querer
comparar ms de 2 grupos de datos para detectar posibles diferencias entre ellos. La
utilizacin de modelos de ANOVA puede permitirnos detectar diferencias, a nivel global,
entre las medias involucradas, pero en muchas ocasiones deseamos trabajar a un mayor
detalle y detectar las diferencias entre grupos concretos lo que slo es posible mediante el
uso de los Procedimientos de Comparaciones mltiples (PCM).
Bastantes crticas provienen de la pugna terica entre las diversas concepciones y corrientes
estadsticas. Otras se refieren a principios de utilizacin incorrecta. Por ejemplo, Wilcox
(1987) afirma que solamente cuando se desean realizar todas las comparaciones por pares y
si se quiere mantener la probabilidad del error de tipo I igual a a, es perfectamente legtimo
omitir la prueba F y usar uno de los procedimientos de contraste de medias. La razn
aducida es que la aplicacin de las pruebas de comparacin mltiple nicamente despus de
una prueba F significativa es una estrategia que reduce la potencia y el nivel a en una
cantidad difcil de determinar.
La utilizacin incorrecta de Comparaciones Mltiples lleva a los investigadores a
conclusiones errneas que se reflejan en ambos tipos de error (tipo I y tipo II). En un
trabajo de Coward (1991) sobre la utilizacin de las pruebas de comparaciones mltiples en
Estados Unidos se detectan cuatro posibles situaciones que pueden conducir a error en la
aplicacin de las pruebas: 1) utilizar pruebas de comparaciones de pares cuando lo correcto
es utilizar contrastes polinmicos, 2) usar comparaciones mltiples a posteriori en lugar de
a priori; 3) utilizar medias aritmticas en lugar de mnimo cuadrticas y 4) utilizar una
prueba demasiado "liberal"
A estos problemas debidos a la mala utilizacin, hay que aadir la falta de uso de este tipo
de pruebas que, como veremos, se da en nuestro pas y que a nuestro juicio se da por dos
circunstancias:
1) La falta de claridad en los textos de estadstica sobre los distintos procedimientos de
comparaciones mltiples con una clara clasificacin de las pruebas en sus aspectos ms
relevantes como: conveniencia respecto al diseo experimental utilizado, tratamiento del
control del error de tipo I, o incluso a nivel de los supuestos estadsticos necesarios para su
aplicacin (Por lo que se refiere a manuales, solamente se cuenta con algunos, el trabajo
primigenio de sntesis de Miller, ya actualizado (Miller, 1981), y las recientes exposiciones
187
en los textos de Klockars y Sax (1986) y Toothaker (1993) en la coleccin de Sage y el ms
completo de Hochberg y Tamhane (1987); ninguno de ellos traducido al castellano.) . Y
como consecuencia de lo anterior,
Se realiz el anlisis anatmico de la madera de 21 especies del gnero Vochysia. Las
especies estudiadas se caracterizaron por presentar una estructura muy homognea entre s
y no es posible su diferenciacin con base en la estructura xilemtica. Los caracteres ms
comunes fueron: tipo de parnquima axial, radios de dos tamaos, punteaduras ornadas y
conductos gomferos longitudinales. En V. lehmanii y V. venezuelana se observ la
presencia de drusas en los conductos gomferos longitudinales. Este podra ser el primer
reporte sobre la presencia de este tipo de cristal en el gnero Vochysia y el primer reporte
acerca del desarrollo de cristales en este tipo de estructura secretora. En V. cayennensis y V.
venezuelana se observ el desarrollo de trabculas




188
5.9 EXPLICAR CON SUS PROPIAS PALABRAS EN QUE CONSISTE
LA TCNICA DE DISEO FACTORIAL
El modelo de diseo de experimentos con dos factores se puede generalizar a tres o ms
factores, aunque presenta el gran inconveniente de que para su aplicacin es necesario un
tamao muestral muy grande.
El modelo de diseo de experimentos completo con tres factores (T , T y T ), interaccin
y replicacin (K rplicas) tiene el siguiente modelo matemtico:


En este modelo se tienen tres factores tratamiento: el factor T (efecto ) con niveles i
= 1,...,I, el factor T (efecto ) con niveles j = 1,...,J, y el factor T (efecto ) con niveles r
= 1,...,R. Cada tratamiento se ha replicado K veces. Por tanto se tienen n = IJRK
observaciones. El trmino()
ijk
es la interaccin de tercer orden que, en la mayora de las
situaciones, se suponen nulas.
En este modelo se verifican las siguientes restricciones

i=

j =

r
= 0
()
ij =
()
ijl=
()
jr = 0
()
ijr =
()
ijl=
()
ijr = 0

Es donde se manejan dos o ms variables de manera simultnea. Nos Permite probar
mltiples hiptesis en un solo experimento. Adems de probar los efectos principales,
tambin podemos probar la interaccin entre las variables manipuladas.

Los diseos factoriales son a ampliamente utilizados en experimentos en los que
intervienen varios factores para estudiar el efecto conjunto de estos sobre una respuesta.
189
Existen varios casos especiales del diseo factorial general que resultan importantes porque
. se usan ampliamente en el trabajo de investigacin, y porque constituyen la base para
otros diseos de gran valor prctico.
El ms importante de estos casos especiales ocurre cuando se tienen k factores, cada uno
con dos niveles. Estos niveles pueden ser cuantitativos como sera el caso de dos valores
de temperatura presin o tiempo. Tambin pueden ser cualitativos como sera el caso de
dos mquinas, dos operadores, los niveles "superior" e "inferior" de un factor, o quizs, la
ausencia o presencia de un factor.
Una rplica completa de tal diseo requiere que se recopilen 2 x 2 x .... x 2 = 2
k

observaciones y se conoce como diseo general 2
k
.
El segundo caso especial es el de k factores con tres niveles cada uno, conocido como
diseo factorial 3
k
.
Se supone que:
a) los factores son fijos
b) los diseos son completamente aleatorios
c) se satisface la suposicin usual de normalidad
El diseo 2
k
es particularmente til en las primeras fases del trabajo experimental, cuando
es probable que haya muchos factores por investigar.
Conlleva el menor nmero de corridas con las cuales pueden estudiarse k factores en un
diseo factorial completo. Debido a que slo hay dos niveles para cada factor, debe
suponerse que la respuesta es aproximadamente lineal en el intervalo de los niveles
elegidos de los factores.
Primero se hace la suma de los cuadrados de todas las muestras, menos la suma del total de
renglones y columnas, entre la multiplicacion de renglones de columnas * # de muestras
n = 4 A = 3 B = 3
otro

190
En esta tcnica se manipulan dos o ms variables de una manera simultnea, permite probar
mltiples hiptesis en un solo experimento ademas no solo prueba los principales efectos,
sino tambin la interaccin que existe entre las variables manipuladas.

5.10.-Establecer el modelo matemtico utilizado en el experimento factorial y explicar
cada uno de los temas que aparecen en el.

El Anlisis Factorial es una tcnica que consiste en resumir la informacin contenida en
una matriz de datos con V variables. Para ello se identifican un reducido nmero de
factores F, siendo el nmero de factores menor que el nmero de variables. Los factores
representan a la variables originales, con una prdida mnima de informacin.
El modelo matemtico del Anlisis Factorial es parecido al de la regresin mltiple. Cada
variable se expresa como una combinacin lineal de factores no directamente observables.
Xij = F1i ai1 + F2i ai2+....+Fki aik + Vi
Siendo:
Xij la puntuacin del individuo i en la variable j .
Fij son los coeficientes factoriales.
aij son las puntuaciones factoriales.
Vi es el factor nico de cada variable.

El modelo matemtico asociado al diseo de dos factores-tratamiento con interaccin y
replicado es el siguiente:
Para cada i = 1,...,I, j = 1,...,J, k = 1,...,K se tiene el siguiente modelo:



191



con ijk v.a. independientes con distribucin N .
(5.22)
Donde,

Y
ijk
es el resultado del tratamiento i-simo, i = 1,2,...,I del factor T y del tratamiento j-
simo, j = 1,2,...,n
i
del factor T , en la replicacin t-sima, t = 1,...,K.

es el efecto global que mide el nivel medio de todos los resultados,

i
es el efecto (positivo o negativo) sobre la respuesta debido a que se observa el nivel i
del factor T . Se verifica que
i = 1
I
i
= 0,
j
es el efecto (positivo o negativo) sobre la respuesta debido a que se observa el nivel j
del factor T . Se verifica que
j = 1
J
i
= 0,
ij
representa la interaccin y es el efecto extra (positivo o negativo) sobre la
respuesta debido a que se observan conjuntamente los niveles i y j de los factores T y
T respectivamente. Mide la desviacin de las medias de la hiptesis de aditividad de los
efectos y viene definida por:

Se verifica que
i = 1
I
ij
=
j = 1
J
ij
= 0, para i = 1,...,I; j = 1,...,J.


ijk
es el error experimental o perturbacin, son variables aleatorias independientes
idnticamente distribuidas (i.i.d.) con distribucin N .



Los diseos experimentales varian principalmente en relacion con dos dimensiones:

1. La medida en que los procedimientos aleatorio y de conglomerados se emplean
como base para incrementar su precision.
2. El numero de variables que el experimentador manipula simultneamente.
192

Tipos de experimentacin
Hay 5 tipos:
1. Diseos totalmente aleatorios
2. Diseos aleatorios de conglomerados
3. Cuadrados latinos
4. Diseos con doble cambio
5. Diseos de factoriales

Uno de los errores mas comunes en lo que a la experimentacin se refiere, es la idea de que
solo puede manipularse una variable a la vez. Pero existen muchos diseos capaces de
medir los efectos de ms de una variable a la vez, y se les conoce como diseos factoriales.

Los terminos que utiliza son:
Factor.- es un conjunto de tratamientos de una misma clase o caracterstica. Ejemplo: tipos
de riego, dosis de fertilizacin, variedades de cultivo, manejo de crianzas, etc.
Factorial.- es una combinacin de factores para formar tratamientos.
Niveles de un factor.- son los diferentes tratamientos que pertenecen a un determinado
factor. Se acostumbra simbolizar algn elemento "i" por la letra minuscula que representa
al factor y el valor del respectivo subindice.
Ejemplo:
A: tipos de riego: secano goteo aspersin
Niveles: a
0
a
1
a
2

Tipos de factores:
1.- factores cuantitativos.
2.- factores cualitativos.
1.- factores cuantitativos.- son aquellos factores cuyos niveles son cantidades numricas.
Ejemplo:
Factor a : dosis de fertilizacin
193
Niveles : 10 kg/ha (a
o
), 20kg/ha (a
1
), 30kg/ha (a
2
).
2.- factores cualitativos.- son aquellos factores cuyos niveles son procedimientos o
cualidades.
Ejemplo:
Factor a: variedades de cultivo
Niveles : variedad 1, variedad 2.

5.11 Explicar El Concepto De La Interaccin Que Puede Ocurrir En Un Trabajo De
Diseo Experimental.

Se manipula la variable independiente, es decir, se introduce un tratamiento. Carece de una
de dos propiedades del diseo experimental, que son aleatoriedad y grupo control. Son
prcticos, brindan informacin til para generalizar, se pueden llevar a cabo en ambientes
naturales. La desventaja es que pueden surgir varias hiptesis rivales que compiten con la
hiptesis de manipulacin experimental en la explicacin de los resultados observados

Interaccin: Efectos producidos por la aplicacin conjunta de los niveles de los dos
factores.
Grficos de interaccin

Efectos aditivos
194

Efectos principales e interaccin en un experimento de dos factores.
Supongamos que tenemos un experimento de dos factores A y B con cuatro niveles cada
uno, y supongamos, para simplificar que no existe variacin no controlada.
Factor B
Factor A nivel 1 nivel 2 nivel 3 nivel 4 media
nivel 1 9 11 14 15 12.25
nivel 2 12 14 17 18 15.25
nivel 3 10 12 15 16 13.25
nivel 4 13 15 18 19 16.25
media 11 13 16 17
Tenemos varias formas de cacterizar esta tabla:
a)La diferencia entre las observaciones de dos niveles cualesquiera de A es la misma para
todos los niveles de B.
b)La diferencia entre las observaciones de dos niveles cualesquiera de B es la misma para
todos los niveles de A.
c) Los efectos de los dos factores son aditivos.
d) Los residuales al restar los efectos fila y columna son cero.
En este caso se dice que los factores no interactuan o que sus efectos son aditivos.
195
Si estas condiciones no se verifican decimos que hay una interaccin entre A y B.
Se dice que hay interaccin cuando las diferencias entre dos niveles cualesquiera de uno de
los factores dependen de los niveles del otro factor.
Factor B
Factor A nivel 1 nivel 2 nivel 3 nivel 4 media
nivel 1 9 11 14 15 12.25
nivel 2 12 14 17 18 15.25
nivel 3 11 11 14 17 13.25
nivel 4 12 16 19 18 16.25
media 11 13 16 17
Efectos principales: Efectos de cada uno de los niveles de los factores por separado
(promediando sobre el otro factor).




El significado de la interaccin
Considrese el modelo con dos factores tratamiento T y T con I y J niveles,
respectivamente. El diseo completo se ha replicado K veces, esto es, para cada tratamiento
(casilla) ij se tienen K observaciones. Se denota y
ijk
a la k-sima observacin del
tratamiento ij, con k = 1,2,...,K. El tamao del experimento es n = IJK, el modelo asociado
es

Entonces la falta de interaccin entre los factores T y T se interpreta como sigue:
Se dice que no existe interaccin entre los dos factores tratamiento T y T cuando sus
efectos sobre la respuesta son aditivos. En otros trminos, la diferencia de las respuestas
medias tericas en dos niveles cualesquiera de un factor es constante en todos los niveles
del otro factor y viceversa:
196


Un grfico ilustrativo de la posible existencia de interaccin es el denominado grfico de
interaccin. Para construir este grfico se marcan en el eje de abscisas los niveles de uno de
los dos factores tratamiento, por ejemplo el A, y se dibuja la nube de puntos

uniendo a continuacin con segmentos las medias muestrales y
ij.
con igual j.
Aunque los grficos de interaccin son muy intuitivos y tiles, pueden conducir a
interpretaciones peligrosas debido a que en ellos no se refleja el tamao del error
experimental. Esto puede llevar a deducir del grfico la existencia de interaccin y, sin
embargo, el error experimental ser lo suficientemente grande como para que el anlisis de
la varianza no detecte la interaccin como significativa (y viceversa). Por tanto, se debe ser
muy prudente con las conclusiones que se derivan de un grfico de este tipo.
Frecuentemente el inters del diseo radica fundamentalmente en evaluar la contribucin
individual de cada factor tratamiento sobre la respuesta observada. A los efectos marginales
de cada factor se les denomina efectos principales. Sin embargo, cuando el efecto
interaccin entre ambos factores es importante, puede ser imposible examinar por separado
cada uno de los efectos principales.

Existe interaccin entre dos factores F
I
y F
J
si el efecto de algn nivel de F
I
cambia al
cambiar de nivel en F
J
. Esta definicin puede hacerse de forma simtrica y se puede
generalizar a interacciones de orden tres o superior




Caractersticas del diseo experimental:
1. Manipulacin: es la intervencin deliberada del investigador para provocar cambios
en la v. dependiente.
2. Aleatorizacin: mayor tamao de los efectos frente a la equiparacin.
197
Todos los diseos experimentales se caracterizan por la manipulacin, pero pueden ser
clasificados atendiendo a la aleatorizacin en:
Autnticamente experimentales.
Cuasiexperimentales.
En los diseos experimentales la aleatorizacin es como se distribuyen los sujetos en los
diferentes grupos que forman parte del estudio. El primer ensayo clnico aleatorizado se
efectu en 1.947 por Sir Austin Bradford Hill y lo llev a cabo sobre el efecto de la
Estreptomicina en la Tuberculosis, es el primer estudio realizado con un diseo
experimental, hasta ese momento el diseo investigador que se realizaba era el estudio de
casos, estudios observacionales simples.
La aleatorizacin mide y reduce el error.
En las Ciencias de la Salud como es tan importante estudiar los efectos que produce una
variable, sus consecuencias y la relacin causa-efecto que se puede producir, es muy
importante conocer el error y reducirlo en todo lo posible, por ello los estudios de
investigacin deben ser y deben reunir la caracterstica de la aleatorizacin, por ello deben
utilizarse diseos experimentales.
Ejemplo: Estudio de incidencia de Ca de pulmn. Para llevarlo a cabo se cogeran dos
grupos de personas que debern reunir idnticas caractersticas en cuanto al mismo nmero
de individuos que lo componen, grupos de edad que lo forman e idntica proporcin en
cuanto al genero, posteriormente se procedera a la comparacin e investigacin de Ca de
pulmn en cada uno de los grupos.
VENTAJAS DEL DISEO EXPERIMENTAL.
1. Se elimina el efecto de las variables perturbadoras o extraas, mediante el efecto
de la aleatorizacin.
2. El control y manipulacin de las variables predictorias clarifican la direccin y
naturaleza de la causa.
3. Flexibilidad, eficiencia, simetra y manipulacin estadstica.
VIABILIDAD DE LOS DISEOS EXPERIMENTALES.
1. Imposibilidad de manipular algunas variables.
2. Cuestiones ticas.
3. Practicabilidad.
198
INCONVENIENTES DEL DISEO EXPERIMENTAL.
1. Dificultad de elegibilidad y manejo de las variables de control.
2. Dificultad de disponer de muestras representativas.
3. Falta de realismo.
CALIDAD DEL DISEO EXPERIMENTAL.
1. Validez Interna.
2. Validez Externa.
3. Validez Ecolgica.
4. Validez de Constructo.


5.12 Aplicar El Modelo Del Experimento Factorial A Un Problema Especfico Del
rea Administrativa.

Un experimento factorial se presta para el estudio sistemtico de dos o ms
variables de decisin (factores), digamos temperatura x caudal x presin, esto es,
X1.X2.X3.
Para concretar el estudio debemos elegir un nmero adecuado de corridas para lograr
nuestro propsito, fijar el nmero de factores, que en este caso ya lo hemos fijado en tres; y
decidir sobre el nmero de niveles y su espaciamiento ptimo en el espacio de ensayos. En
realidad las tres decisiones forman un paquete de decisiones, dado que estn ligadas por
claras relaciones matemticas. Adems en la experimentacin industrial con la planta rige
una muy importante restriccin, evidente por s misma: el optimizado est inhibido de
incurrir en combinaciones de factores que arruinen la produccin a partir de la materia
prima o que resulten, a priori, ineficientes.. El espacio de ensayos est acotado por difusos
espacios tab.
199
Tenemos ya nuestros tres factores. Elegimos (arbitrariamente a esta altura) tres niveles para
cada factor. Podemos codificar estos niveles con los dgitos 0 ,1 y 2 (o bien -1, 0 , 1). Al
margen aparecen las 27 combinaciones de la frmula (niveles)
(factores)
= 3
3
= 27.
Dicha frmula es la definicin de un ensayo factorial puro.
000 (-1 -1 -1)
001 (-1 -1 0)
002 (-1 -1 1)
010 (-1 0 -1)
011 (-1 0 0)
012 (-1 0 1)
020 (-1 1 -1)
021 (-1 1 0)
022 (-1 1 1)
100 ( 0 -1 -1)
101 ( 0 -1 0)
102 ( 0 -1 1)
110 ( 0 0 -1)
111 ( 0 0 0)
112 ( 0 0 1)
120 ( 0 1 -1)
121 ( 0 1 0)
122 ( 0 1 1)
200 ( 1 -1 -1)
201 ( 1 -1 0)
202 ( 1 -1 1)
210 ( 1 0 -1)
211 ( 1 0 0)
212 ( 1 0 1)
220 ( 1 1 -1)
221 ( 1 1 0)
222 ( 1 1 1)
200
Las 27 combinaciones del ensayo factorial de 3
3
con dos nomenclaturas para los niveles
equivalentes. El baricentro del diseo es ya sea el ensayo 111 a la izquierda o el (0 0 0) a la
derecha.
Vamos a clarificar la primera de las dos listas. Cada punto del ensayo consta de tres cifras.
La primera cifra se refiere al nivel que adopta el primer factor (temperatura), la segunda
dem para el segundo factor (caudal) y la tercera est asociada con el ltimo (presin). 0
significa nivel bajo, 1 intermedio y 2 alto. Las tres cifras son as los niveles de cada factor.
La explicacin con respecto a la segunda lista difiere en el significado de los dgitos. Ahora
-1 es nivel bajo, 0 es intermedio y 1 es alto.

En el caso aqu explicado hay tres factores y hay tres niveles por cada factor. Esto no es
obligatorio sino arbitrario. Por ejemplo, siempre dentro de los ensayos factoriales, aparecen
diseos de 2x3x4 o de 4x3x3x2, que se deben interpretar as:
o 2x3x4 implica dos niveles del primer factor, tres niveles del segundo y
cuatro del tercero. Total, 24 tentativas en el ensayo total. Es el resultado de la
multiplicacin.
o 4x3x3x2 implica cuatro niveles en X
1
, el primer factor; tres niveles tanto
para X
2
, como para X
3
, y dos para X
4
. El nmero total de factores es cuatro y el de las
tentativas es de 72.
Queda claro que el ensayo tabulado de 27 tentativas responde a(niveles)
(factores)
= 3
3
= 27.
que se puede rescribir como ensayo factorial de 3 x 3 x 3. Esto se entiende as: (niveles de
X
1
).(niveles de X
2
).(niveles de X
3
).






Sea los factores a y b con sus respectivos niveles:
Factor a: a
0
a
1
a
2

201
Factor b: b
0
b
1

La combinacin de los niveles de los factores ser:
a
0
a
1
a
2

b
0
b
1
b
0
b
1
b
0
b
1

A
0
b
0
a
0
b
1
a
1
b
0
a
1
b
1
a
2
b
0
a
2
b
1
} tratamientos
al combinar ambos factores (a y b) se tiene:
3 x 2 = 6 tratamientos para ser evaluados
Niveles de a x niveles de b
Si cada tratamiento se aplica a 4 unidades experimentales, se requiere 24 unidades
experimentales, para realizar el experimento:
REPETICIONES A
0
B
0
A
0
B
1
A
1
B
0
A
1
B
1
A
1
B
0
A
2
B
1

1

2

3

4



Una vez se han identificado (seleccionados) los pocos factores ms importantes, el
siguiente paso suele ser estudiar cuantitativamente su efecto sobre la respuesta y sus
interacciones. Para este propsito se pueden utilizar los diseos factoriales completas a dos
niveles 2 k y los factoriales fraccionados 2k-r entre otros. stos ltimos contemplan un
nmero menor de experimentos que los factorial es completos a costa de no obtener ciertas
informaciones que a priori se consideran irrelevantes. Optimizacin. Una objetivo ltimo



202
EXPERIMENTOS FACTORIALES
Muchos experimentos requieren el estudio de los efectos de 2 ms factores. En general,
los experimentos factoriales son los ms eficientes para este tipo de anlisis. En un
experimento factorial se miden en cada etapa completa o replica del experimento, todas las
posibles combinaciones de los niveles de los factores.
Cuando los factores son arreglados en un experimento factorial, se dice frecuentemente que
son cruzados. El efecto de un factor se define como el cambio en la respuesta producido
por un cambio en el nivel del factor. Esto frecuentemente se llama un efecto principal por
que se refiere a los factores primarios de inters en el experimento.
Por ejemplo, considere los datos que se representan en la siguiente tabla:

Factor A
El efecto principal del factor de A podra ser calculado como la diferencia entre la respuesta
promedio del primer nivel de A y el promedio de la respuesta en el segundo nivel de A;
esto es:
A = 40 + 52/2 - 20 + 30/2 = 21
Este valor se interpreta como el incremento del factor A del nivel 1 al nivel 2 causa en
promedio una repuesta incrementar de 21 unidades. De la misma manera, el efecto
principal de B. Se calcula a continuacin:
B = 30 + 52/2 - 20 + 40/2 = 11
En algunos experimentos, se encuentra que la diferencia en la respuesta, entre los niveles de
un factor no es la misma en todos los niveles de los otros factores; cuando esto ocurre es
porque existe una interaccin entre los factores.
Por ejemplo usando los datos de la tabla siguiente, calcule el efecto de A en el 1er nivel del
factor B el cual se realiza de la siguiente manera:
A = 50-20 =30
Y el efecto de A en el segundo nivel del factor B es:
A= 12-40 = -28
Dado que el efecto de A depende del nivel seleccionado del factor B, se ve que hay una
interaccin entre A y B

203
Experimento Factorial con Interaccin
FACTOR B
B1 B2
A1 20 40
A2 50 12


Grficamente se puede representar, tanto la interaccin como su ausencia; utilizando los
datos de las tablas anteriores, se construirn dos grficas para analizar los conceptos
analizados.
EXPERIMENTO FATORIAL. (rea de calidad)
La Ingeniera de la Calidad est diseada para generar procesos de calidad. Basado en los
fines de la Ingeniera de la calidad, TAGUCHI desarroll una aproximacin al diseo de
experimentos con el objetivo de reducir los costos emanados de la experimentacin, esta
aproximacin es ms prctica que terica y se interesa ms por la productividad y los
costos de produccin que por las reglas estadsticas.
Los conceptos de estas tcnicas estn basados en las relaciones de costos y ahorros.
Existen algunos factores de ruido que afectan los procesos, y son aquellos que causan que
una caracterstica funcional se desve de un valor objetivo, estos son causantes de
variabilidad y prdida de calidad.
De acuerdo con TAGUCHI esta prdida de calidad constituye a largo plazo, una prdida de
tiempo y dinero tanto para el consumidor como para el fabricante.
Dentro de las actividades del control de la calidad, la Ingeniera de la calidad consta de las
actividades dirigidas a la reduccin de la variabilidad y de las prdidas.
1.2 Experimento factorial general
Los resultados del ANOVA para dos factores pueden ser extendidos a un caso general en
donde a son los niveles del factor A, b son los niveles del factor B, c son los factores del
nivel C, y as sucesivamente, los cuales pueden ser arreglados en un experimento factorial,
en el cual el nmero de rplicas es n.


FACTOR A

204
Est diseada para generar procesos de calidad. TAGUCHI desarroll una aproximacin al
diseo de experimentos con el objetivo de reducir los costos emanados de la
experimentacin, esta aproximacin es ms prctica que terica y se interesa mas por la
productividad y los costos de produccin que en las reglas estadsticas. Los conceptos de
estas tcnicas estn basados en las relaciones de costos y ahorros.
Disear un sistema de manufactura para elaborar un producto requiere de conocimientos
tcnicos adems de una gran experiencia en el rea a la cual pertenece el producto.
Los diseos factoriales son ampliamente utilizados en experimentos en los que intervienen
varios factores para estudiar el efecto conjunto de estos sobre una respuesta. Existen varios
casos especiales del diseo factorial general que resultan importantes porque se usan
ampliamente en el trabajo de investigacin, y porque constituyen la base para otros diseos
de gran valor prctico.
En los ltimos aos se ha observado un creciente inters por algunas de las ideas del
profesor Genechi Taguchi acerca del diseo experimental y su aplicacin al mejoramiento
de la calidad
El diseo factorial fraccionario 2 k-p se usa en experimentos de escrutinio para identificar
con rapidez y de manera eficiente el subconjunto de factores que son activos, y para obtener
alguna informacin sobre la interaccin. La propiedad de proyeccin de estos diseos hace
posible en muchos casos examinar los factores activos con ms detalle. La combinacin
secuencia de estos diseos a travs del plegamiento es una forma muy eficaz de obtener
informacin extra acerca de las interacciones, la cual puede identificarse en un experimento
inicial como potencialmente importante.

Ejemplo practico.- Con el objeto de averiguar la estabilidad de la vitamina C en
concentrado de jugo de naranja congelado reconstituido que se almacena en un refrigerador
por un periodo de hasta una semana, se probaron 3 marcas del jugo de naranja, a 3
diferentes tiempos. Estos ltimos se refieren al nmero de das que transcurren desde que el
jugo de naranja se mezcla hasta que se somete a la prueba. La informacin se recogi de 4
diferentes muestras, provenientes de 4 diferentes operarios. Los resultados expresados en
miligramos de cido ascrbico por litro se presentan a continuacin:
Factor M : (marca): M
1
, M
2
, M
3

205
Factor T : (tiempo, das) : T
1
(3 das), T
2
(5 das), T
3
(7 das)
Bloques : (Operarios) : B
1
, B
2
, B
3
, B
4


M1 M2 M3

BLOQ T1 T2 T3 T1 T2 T3 T1 T2 T3 TOTAL
1
2
3
4
52.6
54.2
49.8
46.5
56.0
48.0
49.6
48.4
52.5
52.0
51.8
53.6
49.4
49.2
42.8
53.2
48.8
44.0
44.0
42.4
48.0
47.0
48.2
49.6
42.7
48.8
40.4
47.6
49.2
44.0
42.0
43.2
48.5
43.4
45.2
47.6
447.7
430.6
413.8
432.1
TOTAL 203.1 202.0 209.9 194.6 179.2 192.8 179.5 178.4 184.7 1724.2

M1 = 615.0 M2 = 566.6 M3 = 542.6


T1 = 577.2 T2 = 559.6 T3 = 587.4

Donde: i: 1, 2, 3 (Marca) j : 1, 2, 3 (Tiempo) k : 1, 2, 3, 4 (Operario)




5.13Explicar Con Sus Propias Palabras En Que Consiste La Tcnica De
Cuadrados Latinos, Estableciendo El Modelo Matemtico Del Mismo


Un cuadro latino es un arreglo de smbolos en celdas arregladas en un cuadrado de filas
y columnas, tal que todo smbolo aparece una sola vez en cada fila y en cada columna. El
trmino se conoce como el orden del cuadro latino.
206
En el cuadrado latino las materia primas se asignan en forma aleatoria, sujetas a la
restriccin de que cada materia prima se utiliza una vez en cada mquina y una vez por
cada operador.

Un cuadrado latino es una matriz de nn elementos, en la que cada casilla est ocupada por
uno de los n smbolos de tal modo que cada uno de ellos aparece exactamente una vez en
cada columna y en cada fila.
Las siguientes matrices son cuadrados latinos:





Los cuadrados latinos se dan como una Tabla de multiplicar (Tabla Cayley) de quasigrupos.
Estos tienen su aplicacin en el diseo de experimentos.
El nombre de Cuadrados Latinos se origina con Leonhard Euler quin utiliz caracteres
Latinos como smbolos.
Un cuadrado latino se dice que est reducido (o normalizado o de forma estandarizada) si la
primera fila y la primera columna estn en orden natural. Por ejemplo, el primer cuadrado
est reducido, porque la primera fila y la primera columna son 1, 2, 3.
Es posible hacer un cuadrado latino permutando (reordenando) las filas y las columnas.
No se conoce una frmula para el calculo fcil del nmero de Cuadrados Latinos de n n
son para n=1,2,...,n. Los lmites superiores e inferiores ms exactos conocidos para n ms
grande estn demasiado separados. Aqu disponemos de todos los valores exactos
conocidos. Es posible notar que los nmeros crecen exageradamente rpido.
Para cada n, el nmero de Cuadrados Latinos disponibles es n! (n-1) veces el nmero de
Cuadrados Latinos reducidos.


207
Es un diseo de experimentos con tres factores, los tres factores tienen el mismo nmero de
niveles y no hay interacciones entre los tres factores.
La formulacin matemtica del modelo es la siguiente:
Para cada i = 1,...,k, j = 1,...,k, (el ndice k lo impone el diseo en cuadrado latino) se
tiene


Donde,
* y
ij
es el resultado del bloque i-simo, i = 1,...,k del factor bloque b y del bloque j-
simo, j = 1,...,j del factor-bloque b , y del nivel k-simo del factor t . Se denota la k entre
parntesis, para indicar que este ndice no se elige sino que viene condicionado por el par ij.
* es el efecto global que mide el nivel medio de todos los resultados,
*
i
es el efecto (positivo o negativo) sobre la media global debido al bloque i de b . Se
verifica que
i = 1
i
i
= 0,
*
j
es el efecto (positivo o negativo) sobre la media global debido al bloque j de b . Se
verifica que
j = 1
j
j
= 0,
*
k
es el efecto (positivo o negativo) sobre la media global debido al nivel k del factor f .
Se verifica que
k = 1
k
k
= 0,
*
ij
es el error experimental, son variables aleatorias i.i.d. Con distribucin n.


Este modelo se basa en aprovechar la simetra del experimento factorial seleccionando un
conjunto de condiciones experimentales con la condicin de que cada nivel de un factor
aparezca una vez con cada uno de los niveles de los otros factores. Por tanto, el diseo de
cuadrado latino se puede utilizar si se verifican las siguientes condiciones:
Es un diseo de experimentos con tres factores.
208
Los tres factores tienen el mismo nmero de niveles: K.
No hay interacciones entre los tres factores.

El diseo en cuadrado latino est especialmente indicado para estudiar un factor-
tratamiento con K niveles y con dos factores-bloque de K bloques cada uno. Este diseo se
basa en el concepto de cuadrado latino que es el siguiente
Un cuadrado latino K K es una disposicin de K letras en una matriz K K de forma
que todas las letras aparecen una vez en cada fila y una vez en cada columna.

Por ejemplo, un cuadrado latino 3 3 es el siguiente
A B C
B C A
C A B


Modelo matemtico.
Se tiene un diseo en cuadrado latino de dos factores bloque y un factor tratamiento, el
primer factor bloque se denota por B y se coloca en filas, el segundo factor bloque se
denota por B y se coloca en columnas, el factor tratamiento se denota por T y sus niveles
se colocan segn el cuadrado latino. Por tanto, el cuadrado latino condiciona el nivel de T
que se utiliza en la casilla ij (bloque i de B y bloque j de B ) y este nivel no se elige.
La formulacin matemtica del modelo es la siguiente:
para cada i = 1,...,K, j = 1,...,K, (el ndice k lo impone el diseo en cuadrado
latino) se tiene


donde,
209
* Y
ij
es el resultado del bloque i-simo, i = 1,...,K del factor bloque B y del bloque j-
simo, j = 1,...,J del factor-bloque B , y del nivel k-simo del factor T . Se denota la k
entre parntesis, para indicar que este ndice no se elige sino que viene condicionado por el
par ij.
* es el efecto global que mide el nivel medio de todos los resultados,
*
i
es el efecto (positivo o negativo) sobre la media global debido al bloque i de B . Se
verifica que
i = 1
I
i
= 0,
*
j
es el efecto (positivo o negativo) sobre la media global debido al bloque j de B . Se
verifica que
j = 1
J
j
= 0,
*
k
es el efecto (positivo o negativo) sobre la media global debido al nivel k del factor F .
Se verifica que
k = 1
K
k
= 0,
*
ij
es el error experimental, son variables aleatorias i.i.d. con distribucin N .

Es una matriz de nn elementos, en la que cada casilla est ocupada por uno de los n
smbolos de tal modo que cada uno de ellos aparece exactamente una vez en cada columna
y en cada fila.
Las siguientes matrices son cuadrados latinos:



Los cuadrados latinos son como una tabla de multiplicar y estos son utilizados en diferentes
experimentos cientficos.





210
5.14 APLICAR LA TCNICA DE CUADRADOS LATINOS A UN PROBLEMA
ESPECFICO DEL REA ADMINISTRATIVO.

Para n = 5 tenemos el siguiente conjunto completo de C.L.M.O. :


Considerando, por ejemplo A
2
511
; A
3
511
y A
4
nss
con valores respectivos :



y combinndolas dos a dos, podemos obtener los cuadrados mgicos :







Podemos ver que existen otros conjuntos completos de C.L.M.O. de orden 5, observando
que las primeras columnas de los 4 cuadrados que forman el conjunto obtenido pueden
hacerse corresponder con otros tantos elementos del grupo de las sustituciones S
4
, que tiene
4! = 24 elementos:
211

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
A
B
C
D
E
A
B
C
E
D
A
B
D
C
E
A
B
D
E
C
A
B
E
C
D
A
B
E
D
C
A
C
B
D
E
A
C
B
E
D
A
C
D
B
E
A
C
D
E
B
A
C
E
B
D
A
C
E
D
B
A
D
B
C
E
A
D
B
E
C
A
D
C
B
E
A
D
C
E
B
A
D
E
B
C
A
D
E
C
B
A
E
B
C
D
A
E
B
D
C
A
E
C
B
D
A
E
C
D
B
A
E
D
B
C
A
E
D
C
B
Es decir, tenemos la correspondencia :

Tomando cualquier otra sustitucin de S
4
y multiplicando por s mismo cada uno de sus
elementos, segn la tabla (1) de orden 5, resultan los siguientes conjuntos disjuntos :


Siendo, por
ejemplo, A
i
521
:


Que A
i
521
y A
i
511
darn, en general, cuadrados mgicos distintos puede verse sin ms que
comparar las diagonales correspondientes.

Sobre la base de mantener un cuadrado latino reducido, podemos realizar diversas
permutaciones para obtener otros conjuntos completos de C.L.M.O. Lgicamente, en la
posicin (2,2) de (1) no pueden colocarse ni el primero ni el segundo de los elementos, por
lo que tendremos (n-2)! Cuadrados latinos reducidos distintos pero isomorfos entre s o
transformables unos en otros por reasignacin de sus elementos.
212

Para n = 5, tenemos:
1 2 3 4 5 6
ABCDE
BCDEA
CDEAB
DEABC
EABCD
ABCDE
BCEAD
CEDBA
DABEC
EDACB
ABCDE
BDECA
CEBAD
DCAEB
EADBC
ABCDE
BDAEC
CAEBD
DEBCA
ECDAB
ABCDE
BEDAC
CDBEA
DAECB
ECABD
ABCDE
BEACD
CADEB
DCEBA
EDBAC
1. Para cada uno de estos (n-2)! cuadrados latinos reducidos y simtricos se obtienen
(n-1)! Cuadrados Latinos equivalentes salvo permutacin de sus filas. La representacin de
cada uno de los cuadrados latinos de cada grupo puede hacerse anotando su primera
columna y teniendo en cuenta que el cuadrado completo se obtiene a partir de
colocando las filas segn el orden dado por dicha primera
columna.
La cantidad de cuadrados mgicos que estimamos posible obtener por el mtodo de
cuadrados grecolatinos resulta de :
(n-2)! Cuadrados latinos reducidos vlidos
(n-2)! Familias de conjuntos completos para cada C.L.R. vlido
(n-1) Cuadrados latinos en cada familia completa
(n-1)n Parejas a combinar en la frmula (2)
n! Posibilidades numricas para cada cuadrado latino.

De donde :
C = [(n-2)!]
2
* (n-1)
2
* n! * n
Desarrollando las posibles combinaciones ortogonales entre los cuadrados latinos de orden
5, hemos encontrado los siguientes conjuntos completos :

En las familias 1 y 3 :
213

{1,11,14,24}; {2,12,13,23}; {3,8,17,22}; {4,7,18,21}; {5,10,15,20}; {6,9,16,19}

En las familias 4 y 6 :

{1,8,18,23}; {2,7,17,24}; {3,11,16,20}; {4,12,15,19}; {5,9,14,22}; {6,10,13,21}

En las familias 2 y 5 :

{1,10,17,19}; {2,9,18,20}; {3,12,14,21}; {4,11,13,22}; {5,7,16,23}; {6,8,15,24}

Teniendo en cuenta que una de las condiciones que ha de cumplir cada cuadrado latino para
ser la base de un cuadrado mgico es que la suma de los nmeros de las diagonales sea
igual a 10(la suma de las filas y columnas ya es trivialmente 10, hemos considerado las
posibles combinaciones de 5 elementos de los dgitos 0,1, 2, 3 y 4 cuya suma sea igual a 10.
estas combinaciones, salvo permutacin, son :
(0,0,2,4,4) (0,0,3,3,4) (0,1,1,4,4) (0,1,2,3,4) (0,1,3,3,3) (0,2,2,2,4)
(0,2,2,3,3) (1,1,1,3,4) (1,1,2,2,4) (1,1,2,3,3) (1,2,2,2,3) (2,2,2,2,2)


Un agrnomo quera comparar el efecto de cinco fuentes diferentes de
Nitrgeno y un control sobre la produccin de una materia seca sobre cebada
Forrajera. Las cinco fuentes fueron:
1( nh4 ) 2 2.nh4no3 3.c o( nh2 )2 4.ca( no3 ) 2 5.nano3 6.c ont rol(sin n)
Dado que el agrnomo deseaba aplicar sus resultados sobre mas condiciones
Relativamente amplias, decidi realizar el experimento en cuatro tipos de suelo.
E l diseo experimental usado fue el de bloques completos aleatorizados para
Controlar con los bloques el efecto de los diferentes t pos de suelo. Ubicacin
Seis parcelas en cada uno de los cuatro tipos de suelo y luego aleatorizo los
Tratamientos en las parcelas dentro de cada bloque. A la madurez del cultivo,
214
El agrnomo cosecho cada parcela y midi la cantidad de materia seca del
Forraje producido. L as producciones (kilogramos por parcela) se presentan a
Continuacin:
Bloques
Tratamientos i ii iii iv total medidas

1 32.1 35.6 41.9 35.4 145.0 32.38
2 30.1 31.5 37.1 30.8 129.5 29.42
3 25.4 27.4 33.8 31.1 117.7 31.02
4 24.1 33.0 35.6 31.4 124.1 30.70
5 26.1 31.0 33.8 31.9 122.8 25.35
6 23.2 24.8 26.7 26.7 101.4 30.85
Total 161.0 183.3 208.9 187.3 740.5
Medias 26.83 30.55 34.82 31.33 36.25
Bloques (suelos) 3 192.55 64.48
Fuente de n 5 255.28 51.06 17.19**
Error experimental 15 44.53
Total 23 492.36
S y j y j ` = r 2c m e r = r 2( 2:97) 4 = 1:22
El anlisis estadstico de los datos de produccin de cebada forrajera a
Partir de un experimento, para determinar el efecto de las diferentes fuentes
De nitrgeno sobre la materia seca del forraje, indica diferencias altamente
Signicativas entre las fuentes. Entre los tratamientos el sulfato de amonio,
(nh4) 2 so 4 ; produjo la mayor media, 36.25 k g/parcela, mientras que c o (nh2)2
Fue el menos productivo, 29.42 k g/parcela.
Fuentes de nitrgeno
Media de produccin (nh4)2so4 nh4no 3 co( nh2) 2 ca( no3)2 nano3 sin n 36.25 32.38
29.42 31.02 30.70 25.35
Error estndar de la media de un tratamiento = 0.86
El bloqueo tambin fue efectivo para aumentar la precisin del experimento,
Dado que el c m bloques es grande comparado con el c m e e
215


EJEMPLO
Se compara el rendimiento de tres procesos de fabricacin (A,B, C) en tres condiciones
experimentales tres das distintos con tres procedimientos de medicin. El diseo y
los resultados obtenidos se indican en el cuadro. El nmero entre parntesis en cada casilla
es la media de las dos replicaciones.



El modelo matemtico:


216




5.15Explicar Con Sus Propias Palabras En Que Consiste La Tcnica De Bloques Al
Azar, Estableciendo El Modelo Matemtico Del Mismo.

Concepto de bloque.
Al estudiar la influencia de un factor-tratamiento en una variable de inters puede ser
importante eliminar (controlar) estadsticamente la influencia de un factor que puede influir
en la variable respuesta. Para ello se utiliza el concepto de bloque, que se basa en
seleccionar niveles de esta variable y aplicar en cada uno de ellos todos los niveles del
factor principal, de esta forma disminuye la variabilidad residual o no explicada.
Por tanto, un factor-bloque es un factor cuyo control puede reducir significativamente la
variabilidad no explicada y que no interacciona con los factores principales.
El siguiente ejemplo ayuda a comprender estas ideas.
217
Ejemplo
Una empresa fotogrfica tiene que realizar una compra de impresoras de gran calidad que
se van a utilizar en imprimir fotografas digitales. La empresa tiene ofertas de I marcas de
impresoras de similares caractersticas y precio. Para la empresa fotogrfica es muy
importante la velocidad de impresin y por este motivo est interesada en saber si las I
impresoras ofertadas tienen la misma velocidad o si hay una que es ms rpida. Para
responder a esta pregunta decide hacer un experimento que se puede plantear de dos
formas:
[1] De los muchos ficheros de fotos digitales que tiene la empresa, elegir al azar I muestras
de J fotos e imprimir en cada una de las impresoras una de las muestras, aleatorizando la
asignacin de muestras que se deben imprimir en cada impresora.
Esta estrategia es la del modelo de diseo de experimentos completamente aleatorizado que
es perfectamente vlido. En este ejemplo la variable de inters es la velocidad de
impresin y el factor-tratamiento el tipo de impresora.
Un inconveniente que puede tener esta estrategia es que exista una fuerte variabilidad en el
tipo de fotos, esto es, que haya fotos que se impriman en poco tiempo y otras no,
independientemente de la impresora utilizada. En este caso la variabilidad de la respuesta
velocidad de impresin es debida no solo al tipo de impresora sino tambin al tipo de
fotos seleccionadas. Si la variabilidad debida al tipo de fotos es muy grande y no se
tiene en cuenta, la variabilidad residual del modelo es grande y puede enmascarar la
significatividad del factor de inters, el tipo de impresora. Este problema se puede
reducir en parte si el tamao muestral es muy grande, aunque tiene el inconveniente de
tener un mayor coste.
[2] Una estrategia alternativa es elegir una nica muestra de J fotos e imprimirlas en cada
una de las I impresoras, de esta forma se controla la variabilidad debida al tipo de
fotos. Esta estrategia es fuertemente recomendable si se supone que la variabilidad del
tipo de fotos es alta.
Tngase en cuenta que el nmero de pruebas a realizar segn las dos estrategias propuestas
es el mismo: IJ.
La segunda propuesta conlleva el bloqueo de las unidades experimentales: cada foto es un
bloque.
218
En este ejemplo se est interesado en estudiar la influencia del factor tratamiento tipo de
impresora pero eliminando o controlando la posible influencia factor bloque tipo de
foto en la variable respuesta velocidad de impresin.
Los resultados del experimento se recogen en una tabla como la siguiente










Bloq.1 Bloq.2 Bloq.J










Trat.1 y
11
y
12
y
1J











Trat.2 y
21
y
22
y
2J












Trat.I y
I1
y
I2
y
IJ



Del ejemplo anterior se deduce que
Bloquear un experimento consiste en distribuir las unidades experimentales en grupos
tales que unidades experimentales pertenecientes a un mismo grupo deben ser similares y
pueden ser analizadas en condiciones experimentales semejantes, en tanto que unidades
experimentales ubicadas en grupos distintos darn lugar, probablemente, a respuestas
diferentes an cuando sean asignadas a un mismo tratamiento.
Cada uno de los conjuntos de unidades experimentales similares se denomina bloque.
Del ejemplo anterior se deduce que:
"Bloquear un experimento consiste en distribuir las unidades experimentales en subgrupos
tales que unidades experimentales pertenecientes a un mismo subgrupo deben ser similares
y pueden ser analizadas en condiciones experimentales semejantes, en tanto que unidades
experimentales ubicadas en subgrupos distintos darn lugar probablemente a respuestas
219
diferentes an cuando sean asignadas a un mismo tratamiento. Cada uno de estos conjuntos
de unidades experimentales similares se denomina bloque."
Un diseo en bloques es apropiado cuando el objetivo del experimento es comparar los
efectos de diferentes tratamientos promediados sobre un rango de condiciones
experimentales distintas. Con los modelos de diseo de experimentos en bloques se quiere
conseguir dos cosas:

1. evitar que grandes diferencias entre las unidades experimentales enmascaren diferencias
reales entre los tratamientos,
2. medir los efectos de los tratamientos en condiciones experimentales distintas.
Un ejemplo de utilizacin de un diseo con bloques es el denominado de datos apareados
para comparar dos tratamientos o medias de dos poblaciones (expuesto en el captulo 1)
cuando se aplican los dos tratamientos a los mismos individuos, en este caso cada individuo
es un bloque.


En este diseo el experimentador agrupa las unidades experimentales en bloques, a
continuacin determina la distribucin de los tratamientos en cada bloque y, por ltimo,
asigna al azar las unidades experimentales a los tratamientos dentro de cada bloque.
En el anlisis estadstico de un diseo en bloques, stos se tratan como los niveles de un
nico factor de bloqueo, aunque en realidad puedan venir definidos por la combinacin de
niveles de ms de un factor nuisance.
.
El modelo matemtico de este diseo es:


El diseo en bloques ms simple es el denominado diseo en bloques completos, en el que
cada tratamiento se observa el mismo nmero de veces en cada bloque.
220
El diseo en bloques completos con una nica observacin por cada tratamiento se
denomina diseo en bloques completamente aleatorizado o, simplemente, diseo en
bloques aleatorizado.
Cuando el tamao del bloque es inferior al nmero de tratamientos no es posible observar
la totalidad de tratamientos en cada bloque y se habla entonces de diseo en bloques
incompletos.

Es el que se utiliza cuando las unidades experimentales no son todas iguales, cuando existe
gran heterogeneidad. Se forman tantos bloques como valores de la variable independiente
interesa contrastar, los tratamientos se asignan igualmente al azar
Diseo en bloques al azar
Supongamos que se dispone de r tratamientos a comparar y que se dividen las
observaciones en s bloques con r unidades experimentales cada uno.
Dentro de cada bloque se aplica una vez cada tratamiento utilizando un procedimiento de
aleatorizacin.
Los datos resultantes seran los siguientes

El modelo matemtico es ahora

Donde a
i
es el efecto debido al bloque, b
j
es el efecto debido al tratamiento y e
ij
es el error
experimental.
221
Obsrvese que solamente hemos sustrado del residual la parte correspondiente a los
bloques.
Este es el ms simple y quizs el ampliamente usado de los diseos de bloques al azar que
es definido por Hinkelman(1994) as: El material experimental es dividido en grupos de
unidades experimentales (UE) cada uno, donde es el nmero de tratamientos , tales que las
UE dentro de cada grupo son lo ms homognea posible y las diferencias entre las UE sea
dada por estar en diferentes grupos. Los conjuntos son llamados bloques. Dentro de cada
bloque las UE son asignadas aleatoriamente, cada tratamiento ocurre exactamente una vez
en un bloque.

Si la variacin entre las UE dentro de los bloques es apreciablemente pequea en
comparacin con la variacin entre bloques, un diseo de bloque completo al azar es ms
potente que un diseo completo al azar.

5.16 Aplicar La Tcnica De Bloques Al Azar A Un Problema Especifico Del rea
Administrativa Y Ciencias Sociales.

Se desea conocer la emergencia de semilla de seis variedades almacenadas por mas de tres
aos. El experimento consisti en sembrar 6,000 mil semillas por ha.
a) Probar la hiptesis que la emergencia promedio es la misma con a = 0.01
b) Cul variedad tiene menor emergencia con a = 0.01
c) Son validos los supuestos del modelo?
Diseo de experimentos: Diseo de experimento de bloques al azar.

Por qu? : Simplemente porque el experimento se realiza en bloques al azar
concentrados en la misma zona, eliminando el factor error de la uniformidad del terreno.

Criterio: Planteamiento de la hiptesis:
Ho: var1 = var2 = var3 = var4= var5 = var6
222
Hi : Al menos una muestra difiere de las dems.
Modelo Estadstico:
i = 1, 2, 3 ... k
y
i j
=
i
+
j
+
ij

j = 1, 2, 3... k
donde:

i = iesimo efecto del tratamiento i.
j = iesimo efecto del bloque j


ij = error aleatorio

Cuadro de Anlisis de Varianza: k = 6, N = k . b = 24

Fuente de
variacin

Suma de
cuadrados

Grados de
Libertad

Cuadrado Medio

Fc

Tratamiento
k
y
i
2
/b Y
1
2
/N
j=1


K -1

S S
trat
/ G.L.
trat


C.M.
trat
/C.M.
error


Tratamiento
k
y
i
2
/b y
j
2
/N
j=1


b -1

S S
bloq
/ G.L
bloq


C.M.
bloq
/C.M.
error

Error S S
tot
S S
trat

S S
bloq

(k-1) (b-1) S S
error
/ (k-1) (b-1)

Total
k b
y
ij
2
Y
i
2
/N
i=1 j=1


N - 1








223

Valores: k = 6; N = 24


Tratamientos

BLOQUES
1 2 3 4

i



Var
1
5113 5398 5307 4678 20 496 5 124
Var
2
5346 5952 4719 4264 20 281 5 070.25
Var
3
5272 5713 5483 4749 21 217 5 304.25
Var
4
5164 4831 4986 4410 19 391 4 847.75
Var
5
4804 4848 4432 4748 18 832 4 708
Var
6
5254 4542 4919 4098 18 813 4 703.25
TOTAL Y
j
30 953 31 284 29 846 26 947 119
030







n
y
i

y
ij
= (5113 + 5398 + ... 4678) = 20 496
j=1
y para Y
i
fue:
n
1,660.5

Se evalu la actividad de un atracticida (sirenecm: 0,16% codlemone + 6% permetrina)
en el control y atraccin de machos de cydia pomonella. Los machos fueron atrados por un
perodo prolongado (> 80 das) hacia las trampas con el atracticida. Slo una pequea
proporcin (< 11%) de machos aproximndose al atracticida (n = 64) fueron observados
224
contactndolo. Su capacidad de atraccin en el campo fue significativamente menor (en
capturas acumuladas) que la de atrayentes estndar durante una evaluacin de 20 das.
Tratamientos con 3.000 gotas (aproximadamente 50 m l por gota) de atracticida por
hectrea y 1.200 emisores para confusin de cpula por hectrea, redujeron similarmente
las capturas de c. Pomonella en trampas (92% de supresin). El control sin tratar present
capturas significativamente mayores (87% del total), mientras que en el tratamiento
atracticida se captur slo el 7%. El dao en manzanas (malus domestica borkh.) A
cosecha, sin embargo, fue estadsticamente similar entre los tres tratamientos (atracticida =
29%, confusin de cpula = 35%, control = 41%), aunque result mayor en la canopia
superior (> 2,5 m).
Evaluacin de atraccin. La formulacin atracticida mostr prolongada actividad hacia
machos de c. Pomonella en el campo (figura 1), similar a la observada por brockerhoff y
suckling (1999) empleando una formulacin semejante para epiphyas postvittana (walter)
(lepidoptera: tortricidae). En el ensayo 1 no hubo diferencias (p > 0,5) en el total de machos
capturados entre tratamientos, i.e. Atracticida fresco (1221 machos [promedio error
estndar: 407 33 machos] y no fresco (1230 [410 9,1]) durante 82 das. La frecuente
superposicin de las curvas (figura 1) sugiere que la atraccin fue similar entre los
tratamientos durante todo el perodo.













225












La respuesta prolongada de machos de c. Pomonella al atracticida se debi, probablemente,
a la persistencia de la feromona protegida por un filtro uv incorporado a la formulacin,
como ocurre en otros casos (quisumbing y kydonieus, 1989) y/o una tasa de emisin
apropiada, como se indica en kydonieus y beroza (1982). Sin embargo, en este ensayo la
formulacin atracticida estuvo protegida de la luz solar dentro de la trampa, de modo que su
actividad debi ser diferente a la de un atracticida expuesto directamente al sol, como
ocurrira en tratamientos de campo.
En el ensayo 2 el atracticida fue estadsticamente menos atractivo (p < 0,05) que el
atrayente estndar durante 20 das, con frecuente ausencia de traslape entre las curvas
respectivas (figura 2). Suckling y brockerhoff (1999), por el contrario, comparando septa
con atracticida especfico, pero con mayor contenido de feromona, reportaron capturas de
machos (e. Postvittana) similares. Las capturas acumuladas en el ensayo 2 fueron: septa,
340 (113,3 15,5), y atracticida, 164 (54,7 7,5). Las diferencias se atribuyen a una mayor
emisin de feromona y/o mayor concentracin del atrayente estndar, que contena 12
veces la cantidad de feromona que inicialmente contena una gota del atracticida. Sin
embargo, este ensayo fue breve y la atraccin en perodos ms largos depender de la
cintica de emisin de la feromona desde cada formulacin (zeoli et al., 1982).


226

Efecto de los tratamientos sobre captura de machos y dao de frutos en el campo. Las
capturas acumuladas antes de la aplicacin de los tratamientos (21 de mayo a 1 de junio,
figura 3) en las parcelas experimentales fueron: atracticida, 85; confusin de cpula, 93; y
control, 78, sin diferencias estadsticas entre ellas (p > 0,1) despus de los tratamientos, el
total acumulado (4 de junio al 12 de septiembre) evidenci diferencias (p < 0,05), con ms
capturas en el control (91 machos, i.e. 86,6% del total capturado) y sin diferencias entre el
tratamiento atracticida y el de confusin de cpula (7 machos capturados en cada
tratamiento, i.e., 6,7% en cada tratamiento). La suprepsin de capturas (porcentaje de
supresin = {100-[ 100* capturas atracticida/capturas en control]}) atribuida al atracticida
fue 92%.




Las reducidas capturas de machos en tratamientos atracticidas (figura 3) no se reflejaron en
el porcentaje de dao por c. Pomonella (cuadro 1). Excepto en la primera evaluacin (11 de
junio, no se encontraron frutos daados), ste se increment constantemente entre el 26 de
junio y el 30 de agosto y fue similar entre tratamientos a cosecha (p > 0,2), i.e. ~29% en
227
tratamiento atracticida, ~35% en confusin de cpula, y ~41% en el control. Es posible que
el alto dao en el tratamiento atracticida se deba a las densidades de fuentes utilizadas, un
aspecto que ha sido mencionado como determinante en el control de polilla de la manzana
empleando esta estrategia (krupke et al., 2002); no obstante, se emple una recomendacin
del fabricante. Sin embargo, esta hiptesis se opone al hecho que los tratamientos
mostraron diferencias en capturas con respecto al testigo, sugiriendo que efectivamente
hubo control y/o disrupcin de machos. Una explicacin alternativa es que la densidad
empleada permita slo control y/o disrupcin parcial de machos (i.e., la concentracin es
apropiada pero algunos individuos no sufren los efectos del tratamiento), sin impedir 100%
de los encuentros con hembras en las reas tratadas. El dao tambin se puede deber a la
descendencia de hembras fertilizadas en reas aledaas que migraron e infestaron los
sectores tratados con atracticida o con confusin de cpula, donde los frutos se encontraban
sin proteccin por tratamientos insecticidas. El anlisis factorial indic que el dao
acumulado en la canopia superior (cuadro 1) fue mayor que en la parte inferior (p < 0,002).
________________________________________
Tratamiento y
altura del follaje 26 junio 9 julio 22 julio 6 agosto 30 agosto
________________________________________
A < 2,5m 0,00 0,66 2,00 9,00 16,33
A > 2,5m 1,33 1,33 4,33 27,99 40,66
________________________________________
Cc < 2,5m 0,66 1,33 2,33 18,00 30,66
Cc > 2,5m 5,33 6,66 10,00 30,00 39,00
________________________________________
C < 2,5m 0,66 0,66 2,33 12,99 30,33
C > 2,5m 4,66 6,66 10,66 35,33 51,99

Se ha sealado que los atracticidas podran emplearse en superficies pequeas . Sin
embargo, los resultados presentados aqu sugieren que la alta presin de plaga inicial y/o el
uso de parcelas pequeas para este tipo de experimentos de campo (rodeadas de hospederos
de c. Pomonella) son inadecuadas para el empleo de atracticidas o confusin de cpula.
Encontraron bajo nivel de dao por c. Pomonella en frutos en tratamientos atracticida vs.
228
Tratamientos con insecticidas convencionales en parcelas pequeas, pero con baja presin
de plaga, similar a charmillot et al. (1996, 2000), kirsch (2000) y reding y alston (1999).
Por el contrario, charmillot et al. (2000) y el dr. Mark reding, (utah state university,
comunicacin personal), encontraron alto dao en parcelas pequeas tratadas con
atracticidas con alta presin inicial de plaga.

Conclusiones
La formulacin atracticida tuvo una actividad prolongada hacia los machos de cydia
pomonella cuando fue utilizada como atrayente en condiciones de campo. Pero la atraccin
fue menor que el atrayente estndar durante los 20 das de evaluacin.
Los tratamientos con atracticidas en el campo redujeron significativamente las capturas de
machos en las trampas. El porcentaje de capturas por tratamiento fue; atracticida, 6,7%,
confusin de cpula, 6,7% y control, 86,6%.


Ejemplo:
Disponemos de los siguientes datos de concentracin plasmtica mxima en un estudio en
que se ha empleado un diseo de bloques al azar como el sealado en la tabla 4.6., en el
cual se han perdido dos datos.
Tabla 4.6.

Ya que las diferencias entre la repeticiones no son notables, se pueden tomar
como valor de prueba para a, la media del tratamiento 1; 15,93/2 = 7,96.
Para estimar b, se tiene ahora:
229
B = 31,40; T = 15,50; G = 100,48 + 7,96 =108,44
Luego:
b =
x 31,40 + 5 x 15,50 -108,443
=7,91
8
Para estimar a se tiene ahora:
B= 30,53; T = 15,93; G = 108,44 + 7,91 = 108,39
de tal manera que:
a =
8 3 x 31,13 + 5 x 15,93 - 108,39
= 8,08
8
Ahora se recurre al segundo ciclo tomando a como 8,08 y se encuentra que el segundo
valor de b es 7,89, que es muy cercano al valor previamente calculado, por lo que los
clculos se detienen aqu. As, podemos asignar valores de 8,08 y 7,89 para a y b,
respectivamente.
En el caso de cuadrados latinos balanceado completos, el procedimiento es similar al de los
bloques al azar, con la excepcin de que la frmula es:
y =
r(R + C +T) - 2G
[4.2]
(r-1)(r-2)
donde R,C y T son los totales de filas, columnas y tratamientos que contienen el dato
perdido y G es el gran total.

Se utiliza cuando las unidades experimentales no son todas iguales, cuando existe gran
heterogeneidad. Se forman tantos bloques como valores de la variable independiente
interesa contrastar; los tratamientos se asignan igualmente al azar.
Caractersticas:
1. Las unidades experimentales son heterogneas.
2. Las unidades homogneas estn agrupadas formando los bloques.
3. En cada bloque se tiene un nmero de unidades igual al nmero de tratamientos (bloques
completos)
4. Los tratamientos estn distribuidos al azar en cada bloque.
5. El nmero de repeticiones es igual al nmero de bloques
230

5.17 Explicar Con Sus Propias Palabras En Que Consiste El Anlisis De Covarianza.

Ajusta el valor de una variable dependiente por medio de la relacin existente entre la
variable dependiente y una o ms variables independientes. En el caso de datos
experimentales, en ocasiones sirve para suprimir el efecto de variables externas no
controladas.

El anlisis consiste en separar las diversas causas de variacin de cada variable y de la
variacin conjunta.
Se usa a menudo en ciencias agronmicas, cuando se aplica para corregir por un diferente
nmero de plantas, el ajuste se hace como si todas las unidades experimentales contaran
con igual nmero

Fundamentalmente, se expresa en los siguientes pasos:
1. Anlisis de varianza para la variable X.
2. Anlisis de varianza para la variable Y.
3. Calculo de b y x.
4. Obtencin de la ecuacin de regresin y ajustes de los promedios de la variable
dependiente Y.

El anlisis de la covarianza es una tcnica estadstica que consiste en utilizar un modelo de
regresin lineal mltiple, busca comparar los resultados obtenidos en diferentes grupos de
una variable cuantitativa, pero "corrigiendo" las posibles diferencias existentes entre los
grupos en otras variables que pudieran afectar tambin al resultado (covariantes).

5.18 Ilustrar A Travs De Un Ejemplo Del rea Administrativa La Aplicacin Del
Anlisis De Coviarianza, Especificando El Correspondiente Modelo Matemtico.


En la tabla adjunta se presentan los tiempos, en minutos, de conexin con una
231
Direccin de internet desde cuatro puntos geogrficos de una regin y en tres horas
determinadas. El experimento se repeta cuatro veces y era diseado para estudiar la
influencia del factor hora de conexin y el factor lugar de la conexin en la variable
de inters tiempo de conexin.
Analizar estos datos y estudiar la influencia de los dos factores.



LUGAR A LUGAR B LUGAR C LUGAR D

HORA 1 0'31 0'45
0'46 0'43

0'82 1'10
0'88 0'72

0'43 0'45
0'63 0'76

0'45 0'71
0'66 0'62


HORA 2 0'36 0'29
0'40 0'23

0'92 0'61
0'49 1'24

0'44 0'35
0'31 0'40

0'56 1'02
0'71 0'38


HORA 3 0'22 0'21
0'18 0'23

0'30 0'37
0'38 0'29

0'23 0'25
0'24 0'22

0'30 0'36
0'31 0'33














232

Solucin.
Estimacin de los parmetros.
Se obtienen las siguientes tablas de medias y estimaciones


L-A L-B L-C L-D
I.. I

H-1 1J.
0'413 0'880 0'568 0'610 0'618 0'139

H-2 2J.
0'320 0'815 0'375 0'667 0'544 0'065

H-3 3J.
0'210 0'335 0'235 0'325 0'276 -0'203

..J.
0'314 0'677 0'393 0'534

J
-0'165 0'198 -0'086 0'055
... = 0'479



IJ.
L-A L-B L-C L-D

H-1 -0'040 0'064 0'036 -0'063

H-2 -0'059 0'073 -0'083 0'068

H-3 0'099 -0'139 0'045 -0'006









233
De donde se deduce la siguiente tabla de residuos:


RESIDUOS LUGAR A LUGAR B LUGAR C LUGAR D

HORA 1 -0'103 0'037
0'047 0'017

-0'060 0'220
0'000 -0'160

-0'138 -0'118
0'062 0'192

-0'160 0'100
0'050 0'010


HORA 2 0'040 -0'030
0'080 -0'090

0'105 -0'205
-0'325 0'425

0'065 -0'025
-0'065 0'025

-0'107 -0'353
0'043 -0'287


HORA 3 0'010 0'000
-0'030 0'020

-0'035 0'035
0'045 -0'045

-0'005 0'015
0'005 -0'015

-0'025 0'035
-0'015 0'005




Tabla anova
Utilizando las estimaciones y residuos obtenidos se obtiene la siguiente tabla anova
Tabla anova


FUENTES DE SUMA DE GRADOS DE SCM

P - VALOR
VARIACIN CUADRADOS LIBERTAD

FACTOR HORA
1'0330 2 0'5165 23'222 0'0000

FACTOR LUGAR
0'9212 3 0'3071 13'806 0'0000

INTERACCIN 0'2501 6 0'0417 1'874 0'1123

VARIAB. EXP. TOTAL 2'2043 11

RESIDUAL 0'8007 36 0.0222 R = 0'149

GLOBAL 3'0050 47 0'0639 Y = 0'253
234

De esta tabla se deducen los siguientes contrastes:
[1] el contraste de la hiptesis: no existe interaccin entre los factores t y t . Se realiza
por el estadstico.
Es razonable aceptar la hiptesis de no influencia de la interaccin entre lugar y hora
[2] el contraste de la hiptesis: el factor hora no influye. Se realiza por el
estadstico se rechaza esta hiptesis de no influencia del factor hora.
[3] el contraste de la hiptesis: el factor lugar no influye.
Se rechaza esta hiptesis de no influencia del factor lugar.

Supongamos que se est comparando la presin arterial sistlica de un grupo de
mujeres diabticas segn su nivel de estudios, para lo que efectuamos un anlisis de la
varianza cuyos resultados se resumen a continuacin:
Estadsita Descriptiva PAS

Sin estudios 1 grado 2 y 3 grado
Media 141,16 140,93 131,27
Desv.Tp. 13,67 16,23 18,03
Tamao 215 202 60
Anlisis de la varianza
Fuente var. Suma cuadrados gl Varianza F p Nivel signif.
Factor 5020,04 2 2510,02 10,61 0,0000310 p < 0.001
Residual 112119,55 474 236,54
Total 117139,59 476 246,09
Vemos que hay diferencias estadsticamente significativas en cuanto a la media de la PAS
entre los diferentes niveles de estudios, siendo inferior la media de PAS en el grupo de
235
mujeres con estudios de 2 o 3 grado (del orden de 10 mmHg inferior). Ahora bien,
sabemos que uno de los principales factores de riesgo en la hipertensin es la edad, por lo
que nos podemos plantear que al tratarse de un estudio observacional, en el que las
pacientes han sido seleccionadas de forma aleatoria entre las que acuden a la consulta, si
stas fueran representativas de la poblacin, es de sospechar que las mujeres con mayor
nivel de estudios sean en promedio ms jvenes, debido a que en el pasado las mujeres
solan a menudo recibir como mucho una formacin elemental.
Si para comprobarlo efectuamos un anlisis de la varianza para la edad segn el nivel de
estudios, los resultados que obtenemos son
Estadstica Descriptiva Edad
Sin estudios 1 grado 2 y 3 grado
Media 69,75 64,80 54,25
Desv.Tp. 8,26 10,57 18,33
Tamao 215 202 60
Anlisis de la varianza
Fuente var. Suma cuadrados gl Varianza F p Nivel signif.
Factor 11563,46 2 5781,73 48,19 0,0000 p < 0.001
Residual 56869,86 474 119,98
Total 68433,32 476 143,77
donde, como nos temamos, la edad media de las mujeres con estudios de 2 o 3 grado es
inferior a la de los otros grupos, lo que por s solo podra explicar las diferencias
encontradas en cuanto a la media de PAS.
Utilizando el anlisis de la covarianza nos planteamos la posiblidad de "corregir" o
"ajustar" esa diferencia de edad, con el fin de hacer comparables los grupos. Para ello se
construye un modelo de regresin entre la variable resultado PAS y la variable de confusin
EDAD y la pregunta que nos hacemos es explica la regresin por s sola la diferencia de
PAS media observada entre los grupos?.
236
Vamos pues a estimar una ecuacin de regresin entre la PAS y la EDAD, pero qu tipo
de regresin?, porque tenemos tres posibilidades, que vamos a representar para el caso de
que haya slo dos grupos de estudio:


Fig.1 Pendiente de regresin diferente para cada grupo

Fig.2 Igual pendiente para los grupos, a diferente altura
237

Fig.3 Igual pendiente, misma altura

Se trata pues de decidir, a la luz de nuestros datos, cul de las tres posibilidades es ms
verosmil .
En la primera figura vemos que hay interaccin entre la variable para la que ajustamos,
covariante, y el grupo, de tal manera que en uno de los grupos la relacin entre la PAS y la
edad es ms acusada, aumenta ms rpidamente al aumentar la edad.
Cuando existe interaccin la interpretacin es complicada ya que puede incluso ocurrir que
en uno de los grupos esa relacin se invierta y que al aumentar el covariante X el valor de
Y disminuya (pendiente negativa).
En el anlisis de la covarianza en primer lugar nos planteamos si es razonable creer que la
regresin tiene pendientes diferentes en cada grupo o si por el contrario es verosmil pensar
que la pendiente se mantiene, pudiendo entonces considerar una pendiente comn para
todos los grupos. Solo en el caso de que aceptemos esta ltima situacin tiene sentido
decidir entre la segunda y tercera alternativa: plantearnos si la diferencia observada entre
los grupos se explica slo por la regresin (figura 3) o por algo ms.
Una vez aceptada la hiptesis de igual pendiente en todos los grupos, el razonamiento a
seguir se explica de forma grfica en la figura 4, aunque un tanto exagerado
238

Fig. 4 Comparacin de medias ajustadas

Ahora, dado que no hay razn para pensar que la pendiente de la ecuacin sea diferente en
cada grupo, calculamos cul sera el valor de la PAS previsto por la ecuacin de regresin
para la media global de la edad (media calculada combinando ambos grupos), y
determinamos el valor de la PAS estimado a partir de la ecuacin de regresin en cada
grupo, este valor es lo que denominamos medias ajustadas de la PAS: aquellas que
obtendramos si ambos grupos hubiesen tenido la misma media de edad. Vemos claramente
en el dibujo como la diferencia de medias de PAS ajustadas ha disminuido con respecto a la
diferencia de medias sin ajustar, y ser tanto menor cuanto ms nos acerquemos a la
situacin reflejada en la figura 3, cuanto menor sea la separacin de alturas entre las dos
rectas de regresin.
En la siguiente figura vemos ilustrado un caso en el que la media sin ajustar de la PAS para
el grupo 2 es inferior a la del grupo 1 (representado por las lneas rectas en la figura),
mientras que si efecta la correccin para la edad estaremos en la misma situacin de la
figura anterior: media ajustada del grupo 2 superior a la del grupo 1; situacin debida a que
en el grupo 2 tenemos edades ms bajas que en el grupo 1.



239



Fig. 5
Veamos cuales son nuestros resultados cuando efectuamos un anlisis de la covarianza en
el ejemplo planteado:
Anlisis de la covarianza PAS
Fuente var. Suma cuadrados gl Varianza F p Nivel signif.
Pendientes iguales 596,28 2 298,14 1,306 0,2718 NO
Error 107501 471 228,24
Igualdad medias ajustadas 1994,7 2 997,34 4,364 0,0132 p < 0.05
Error 108097 473 228,53
Medias PAS
Grupo Media Media ajustada N de casos
Sin estudios 141,16 140,08 215
1 grado 140,93 141,17 202
2 y 3 grado 131,27 134,32 60
Total 139,82 477

240
Medias covariante EDAD segn ESTUDIOS
Sin estudios 1 grado 2 o 3 grado
EDAD 69,75 64,80 54,25

Los contrastes en el anlisis de la covarianza se efectan utilizando el valor de la suma de
cuadrados medios residual de Y (la variable respuesta estudiada) en cada una de las tres
situaciones, por lo que el parmetro obtenido se distribuye segn una F.
En primer lugar efectuamos un contraste para ver si es razonable suponer pendientes
iguales (p=0,27) hiptesis que no llegamos a rechazar. Una vez aceptada esa premisa tiene
sentido plantearnos el comprobar si son iguales las medias ajustadas, hiptesis que en este
ejemplo rechazamos (p=0.013), aunque ahora la diferencia de medias no es tan acusada
como antes de ajustar.
El modelo planteado se puede extender a ms de un covariante, en ese caso el ajuste se
realiza de tal manera que los clculos se efectan como si todos los grupos hubiesen tenido
la misma distribucin de covariantes.

5.19 Explicar En Que Consiste El Anlisis De Covarianza Mltiple.

El procedimiento Modelo Lineal General Univariante proporciona un Anlisis de
Regresin y un Anlisis de la Varianza para una variable dependiente (respuesta) con uno o
ms factores, o covariables. Los factores dividen la poblacin en grupos. Con este
procedimiento se pueden investigar las interacciones entre los factores, as como los efectos
de los factores individuales, algunos de los cuales pueden ser aleatorios. Adems se pueden
incluir los efectos de las covariables y las interacciones de las covariables con los factores.
Para el Anlisis de Regresin, las variables independientes (predictoras) se especifican
como covariables.

Es una tcnica estadstica diseada para medir si existen diferencias entre los valores
medios de una variable dependiente calculados para los distintos grupos que se pueden
obtener con otra variable independiente y nominal.
241
En el caso de que la variable independiente tuviera solo dos alternativas, sera suficiente
aplicar un test T de diferencia de medias. La variable o variables independientes, reciben el
nombre de Factor y deben ser variables de tipo nominal, y sus distintos valores el de
tratamientos, mientras que la variable dependiente debe ser mtrica, puesto que sobre ella
se debe calcular los valores medios objeto del anlisis de la varianza. La hiptesis nula a
contrastar es que se consideran iguales las medias en todos los grupos, o lo que es lo
mismo, no existen diferencias entre las medias obtenidas para cada uno de los grupos
formados por la variable independiente o factor.

Es una coleccin de modelos estadsticos y sus procedimientos asociados que sirve para
comparar si los valores de un conjunto de datos numricos son significativamente distintos
a los valores de otro o ms conjuntos de datos. El procedimiento para comparar
estos valores est basado en la varianza global observada en los grupos de datos numricos
a comparar. Tpicamente, el anlisis de varianza se utiliza para asociar una probabilidad a la
conclusin de que la media de un grupo de puntuaciones es distinta de la media de otro
grupo de puntuaciones.

5.20 Ilustrar A Trves De Un Ejemplo Del rea Administrativa La Aplicacin Del
Anlisis De Varianza Mltiple De Un Solo Factor.

Anlisis de la Varianza con un slo factor.
Esta es una prueba generalizada del contraste de medias para muestras con datos
independiente. Se comparan tres o ms muestras independientes cuya clasificacin viene
dada por la variable llamada Factor. La base de este procedimiento consiste en estudiar si
el Factor influye sobre la Variable Respuesta, y la forma de hacerlo es analizando como
varan los datos dentro de cada uno de los grupos en que clasifica el Factor a la
observaciones de la Variable Respuesta.

Ejemplo 5.1. Supongamos que estamos interesados en conocer si existen diferencias
significativas entre el tiempo diario de dedicacin a la investigacin de los profesores, en
242
funcin de la categora que tienen. Para ello, elegiremos las siguientes opciones desde el
men principal:




y con esto se abre un cuadro de dilogo con los siguientes campos:
Dependientes: en este campo se introduce la variable respuesta a analizar. En el Ejemplo
5.1 sera Tinvest (tiempo diario para la investigacin).
Factor: aqu se introduce la variable de clasificacin, que ha de ser categrica. Para el
ejemplo, se considera la Categora de los profesores.
Adems de los campos anteriores existen tres botones cuya utilidad es la siguiente:
CONTRASTES. Con este botn se trata de averiguar si los valores promedios de la
variable dependiente para cada nivel del factor, siguen o no alguna tendencia determinada,
lineal, cuadrtica, cbica, de grado 4 5. Adems de poder realizar cualquier tipo de
comparacin a priori, entre las medias de la variable respuesta para los niveles del factor
que se elijan. Permite realizar hasta 10 contrastes diferentes, con 50 coeficientes en cada
uno de ellos. Para excluir algn grupo se le asigna el coeficiente 0.
POST HOC. Este tiene como finalidad averiguar cul o cules de los diferentes grupos o
niveles del factor son los que difieren entre s, a travs de una serie de pruebas diferentes
(Contrastes a posteriori).
OPCIONES. Este botn permite mostrar una serie de estadsticos descriptivos para cada
grupo de la muestra o nivel del factor, el test de Levene para comprobar la homogeneidad
de varianzas entre los distintos grupos, un grfico de las medias de cada grupo y la forma
de tratar los valores perdidos.
Ejecutamos el procedimiento con las variables indicadas anteriormente y elegimos dentro
de OPCIONES la prueba de homogeneidad de varianzas, obtenindose los siguientes
resultados.

243
Tabla 5: Anlisis de la Varianza con 1 Factor
ANOVA de un factor

Prueba de homogeneidad de varianzas
Tiempo diario para la investigacin
Estadstico
de Levene gl1 gl2 Sig.
1,713 5 74 0,142
ANOVA
Tiempo diario para la investigacin
Suma de Media
cuadrados gl cuadrtica F Sig.
Inter-grupos 190239,152 5 38047,830 47,177 ,000
Intra-grupos 59680,480 74 806,493
Total 249919,632 79



En la Tabla 5 aparecen los resultados sobre la homogeneidad de varianzas y el Anova.
Como se puede apreciar en la homogeneidad de varianzas, el p-valor es de 0.142 que es
mayor que 0.05, luego podemos aceptar la igualdad de varianzas entre los grupos. Mientras
que en el Anova, podemos ver que el estadstico es bastante grande 47.177 y el p-valor vale
0, lo que nos conduce a rechazar el que los tiempos medios dedicados a la investigacin
sean iguales segn la categora que tiene el profesor.
Ejemplo 5.2. Puesto que el anlisis ha dado significativo, veamos cules de los niveles del
factor difieren entre s. Para ello, volvemos a entrar en el procedimiento Anova de un
factor, y con las mismas variables seleccionadas pulsamos en el botn POST HOC. Se
muestra a continuacin otro cuadro donde aparece una serie de posibles constrastes a
posteriori. Supuestas las varianzas iguales, estn el de Bonferroni, Scheffe, Tuckey,
244
Duncan, etc., y entre los que se asume varianzas distintas el T2 de Tamnhane, el T3 de
Dunnett, etc. Elegimos el test de Tuckey y pulsamos CONTINUAR y ACEPTAR.
Los resultados obtenidos indican que los tiempos medios dedicados a la investigacin para
los catedrticos de escuela, los titulares de universidad y los titulares de escuela se pueden
considerar iguales, y por otro lado, tambin ocurre lo mismo con los de los profesores
asociados y los de los ayudantes.


Los denominados diseos factoriales permiten al investigador planificar un trabajo para
evaluar el efecto combinado de dos o ms variables de forma simultnea en el resultado
medido, obtenindose tambin informacin en cuanto a la posible interaccin entre los
diversos factores.
As podemos extender el modelo presentado en la frmula [2] para considerar en cada
observacin la influencia de dos factores que vamos a denominar a y b. Expresamos la
observacin nmero k en el nivel i del factor a, nivel j del factor b, como:

Donde se ha separado en un trmino correspondiente a la media global, otro debido al
efecto diferencial por pertenecer a un nivel determinado del factor a, un efecto debido al
factor b, un efecto de la interaccin entre los factores a y b, y una variabilidad residual no
atribuible.
Este modelo es la base del anlisis de la varianza para dos factores.
El problema de los diseos factoriales clsicos cuando se aplica a la investigacin clnica,
en la que predominan los diseos observacionales y donde casi siempre es por tanto difcil
fijar el nmero de sujetos en cada uno de los niveles de los diferentes factores, radica en
que para que sea aplicable un anlisis de la varianza clsico para ms de un factor, es
necesario que se cumpla tambin la igualdad de la suma de cuadrados, y esto slo ocurre
245
cuando el nmero de sujetos por celda (llamamos celda a cada combinacin de niveles de
los distintos factores) es el mismo para todas las celdas. Es decir que la igualdad:
SC
TOTAL
=SC
A
+SC
B
+SC
AB
+SC
RESIDUAL

Slo es cierta cuando todas las celdas tienen el mismo nmero de sujetos. Si ese nmero no
es igual no podemos aplicar el anlisis de la varianza.
Existe una relacin directa entre el modelo de efectos postulado y la regresin lineal
mltiple, en la que intervendrn los factores como variables independientes. Es lo que se
conoce como modelos lineales y sern objeto de un nuevo artculo.



CAPITULO 6 Analisis de escalas multidimensionales y analisis conjunto.

6.1 DESCRIBIR LOS CONCEPTOS GENERALES Y BSICOS DE LAS ESCALAS
MULTIDIMENSIONALES.

En ingls, multidimensional scaling MDS es una tcnica estadstica utilizada habitualmente
en marketing y ciencias. Es un procedimiento para tomar preferencias y percepciones de los
encuestados y representarlos en un diagrama visual. Estos diagramas, llamados mapas
preceptales tienen generalmente, dos dimensiones pero pueden representarse en ms de
dos. Los consumidores potenciales tienen que comparar pares de productos y hacer juicios
sobre sus similitudes. Mientras otras tcnicas (como anlisis factorial, anlisis
discriminativo y anlisis conjunto) obtienen dimensiones de las respuestas a los atributos de
los productos identificados por el investigador, MDS obtiene las dimensiones de los juicios
de los encuestados sobre la similitud de los productos. Esto supone una ventaja importante
pues los resultados no dependen de los juicios de los investigadores. No es necesaria una
lista de atributos que debe ser mostrada a los encuestados. Las dimensiones resultantes
vienen de los juicios de los encuestados sobre pares de productos. Gracias a estas ventajas,
MDS es la tcnica ms comnmente utilizada en mapeado perceptual.
246

Su objetivo es transformar juicios de semejanza o preferencia en distancias representadas
en un espacio multidimensional. Como consecuencia, se construye un mapa en el que se
dibujan las posiciones de los objetos comparados de forma que aquellos percibidos como
similares estn cercanos unos de otros y alejados de objetos percibidos como distintos. Por
ejemplo, analizar, en el mercado de refrescos, las percepciones que un grupo de
consumidores tiene acerca de una lista de refrescos y marcas con el fin de estudiar qu
factores subjetivos utiliza un consumidor a la hora de clasificar dichos productos.

Es una tcnica estadstica utilizada habitualmente en marketing y ciencias. Es un
procedimiento para tomar preferencias y percepciones de los encuestados y representarlos
en un diagrama visual. Estos diagramas, llamados mapas preceptales tienen generalmente,
dos dimensiones pero pueden representarse en ms de dos. Los consumidores potenciales
tienen que comparar pares de productos y hacer juicios sobre sus similitudes, mientras otras
tcnicas (como anlisis factorial, anlisis discriminativo y anlisis conjunto) obtienen
dimensiones de las respuestas a los atributos de los productos identificados por el
investigador, las escalas multidimensionales obtienen las dimensiones de los juicios de los
encuestados sobre la similitud de los productos. Esto supone una ventaja importante pues
los resultados no dependen de los juicios de los investigadores. No es necesaria una lista de
atributos que debe ser mostrada a los encuestados. Las dimensiones resultantes vienen de
los juicios de los encuestados sobre pares de productos. Gracias a estas ventajas, es la
tcnica ms comnmente utilizada en mapeado perceptual.

Un concepto central en la escala multidimensional es el de distancia euclidiana,
denominada tambin distancia entre puntos. Es la distancia entre dos puntos cuales quiera,
y constituye el fundamento a partir del cual se determina el orden de rango en una
configuracin. Su formula es una generalizacin del teorema de pitgoras, el cual establece
que la suma de los cuadrados de dos lados de un rectngulo es igual al cuadrado de la
hipotenusa. Si bien esa relacin queda definida en dos dimensiones solamente, puede
realizarse a ms de dos.
247

El anlisis de los datos implica la separacin, identificacin y medida de la variacin en un
conjunto de variables, tanto entre ellas mismas como entre una variable dependiente y una
o ms variables independientes. El trmino clave aqu es medida, dado que el investigador
no puede separar o identificar una variacin a menos que pueda ser mesurable. La medida
es importante para representar con precisin el concepto de nuestro inters y es crucial en la
seleccin del mtodo de anlisis multivariante apropiado. En los siguientes prrafos vamos
a discutir el concepto de medida en lo que se refiere al anlisis de datos y particularmente a
las diversas tcnicas multivariantes

6.2 Mtodos de Desarrollo de Escala Multidimensional

* Mtodo MDS Mtrico
Torgerson (1952) supone que las disimilaridades estn medidas en una escala de intervalos
o de razn.
La disimilaridad, entre el estmulo i y el j ser representada en un espacio
multidimensional por la distancia eucldea, entre
los puntos que representan a los estmulos i y j, respectivamente, de forma que
donde
es la distancia eucldea.
f es una funcin lineal con pendiente positiva. En el caso ms restrictivo se asume
que

Sea la matriz de disimilaridades, . A partir de ella obtenemos, donde

(1)
Puesto que son los mismos estmulos situados en las filas y en las columnas i = j.
1 es una matriz en la que la media de las filas y las columnas es cero. Torgerson
248
demostr que si se satisface (1), entonces
(2)
es decir es el producto escalar de los vectores que representan a los estmulos i y j. As
pues,
(3)
Puesto que es simtrica, entonces es diagonalizable ortogonalmente y por tanto, es
posible encontrar X, lo cual no es ms que un problema de componentes principales.

* Mtodo MDS No Mtrico (Shepard- Kruskal)
Como ya hemos avanzado en la introduccin histrica del MDS, Shepard (1962) propone
un modelo menos restrictivo que el de Torgerson, asumiendo que la funcin que relaciona
las disimilaridades con las distancias espaciales es una funcin montona. Aspues de
nuevo



f es una funcin montona creciente si la matriz es de disimilaridad, y decreciente si es de
similaridad.

La solucin que se obtiene, an cuando slo se tiene en cuenta la relacin de orden entre las
disimilaridades, es en un espacio mtrico nico. Esto significa que dos matrices de
disimilaridades distintas pero con la misma relacin de orden entre sus elementos darn
lugar a una misma solucin, puesto que para ambas matrices se venficar una de las
siguientes alternativas:

(Criterio de monotonicidad fuerte)
(Criterio de monotonicidad dbil)
249

Kruskal se plantea la computacin de la solucin como un problema de ajuste, a saber,
tenemos unas disimilaridades y tratamos de encontrar una configuracin de puntos tal que
el ajuste entre las disimilaridades y las distancias sea lo mejor posible. Para ello hay que
definir un ndice de ajuste, el STRESS, que en este caso no es de "bondad de ajuste" sino de
error, definido como

donde llamadas "disparidades", son unos valores ajustados a las distancias y que estn
en un orden lo ms similar posible al de los datos. La introduccin de estos valores
intermedios entre las disimilaridades y las distancias evita ejecutar operaciones aritmticas
con las disimilaridades ya que se supone que stas estn en una escala ordinal. Knuskal
introduce una tcnica de ajuste conocida como "regresin montona".
El procedimiento de clculo de la solucin final es un proceso iterativo, que bsicamente
sigue los pasos siguientes:

1. Generar una configuracin inicial de puntos en un espacio de dimensionalidad prefijada.

2. Normalizar la configuracin.

3. Calcular las distancias entre cada par de puntos de esta configuracion inicial.

4. Realizar la regresin montona. Las distancias son ajustadas mediante una funcin
montona obtenindose las disparidades.

5. Obtener el STRESS entre las distancias y las disparidades.
6. Si el STRESS es aceptablemente bajo. entonces esa configuracin de puntos es la
solucin final.
250

7. Si, por el contrario, el STRESS es alto entonces hay que mover la configuracin de
puntos en alguna direccin que conduzca
a minimizar el STRESS. Esto se realiza calculando para cada punto la magnitud y la
direccin del movimiento de acuerdo con
donde
es la coordenada del punto i en la dimensin a en la iteracin t.
es un parmetro que expresa la magnitud ptima del movimiento.
es el gradiente de la funcin STRESS en la iteracin t
8) El proceso contina como en 2).


Tres son los problemas fundamentales que pueden surgir un anlisis MDS, a saber
a) La existencia de mnimos locales.
b) La decisin acerca del nmero de dimensiones de la solucin final.
c) La interpretacin de la solucin.

Mnimos locales
Uno de los problemas que se puede presentar en el algoritmo de computacin de la solucin
es que al minimizar la funcin STRESS el programa caiga en un mnimo local y pare las
iteraciones antes de obtener una solucin ptima. La mejor forma de evitar caer en mnimos
locales es partir de una buena configuracin inicial de puntos. Para ello algunos programas
utilizan el anlisis mtrico de Torgerson para obtener la solucin por componentes
principales y tomarla como configuracin inicial de puntos para realizar el anlisis no
mtrico. En general, los programas actuales tienen bin resuelto el problema de los
mnimos locales.


251
Nmero de dimensiones
La determinacin del nmero correcto de dimensiones est ligada al valor que tome el
STRESS. Dos funciones se suelen utilizar como STRESS, la que ya hemos indicado



No hay regla general para decidir cul es el nivel mnimo de STRESS aceptable. Segn
Knuskal ( 1964) un valor igual a 0.01 indica una solucin "excelente", entre 0.01 y 0,05
"buena", entre 0.05 y 0.10 "pasable", entre 0.10 y 0.15 "regular" y mayor de 0.15 indicada
una solucin "mala".

A veces se obtienen soluciones degeneradas, esto es, cuando el nmero de puntos obtenidos
es muy bajo comparndolo con el nmero de estmulos que deben ser representados y por
tanto aparecen las mismas coordenadas para diversos estmulos. Una solucin degenerada
puede significar que la dimensionalidad del espacio es muy baja y que la configuracin
ptima de puntos debiera ser buscada en un espacio de mayor dimensionalidad. En general,
el nmero correcto de dimensiones depende del nmero
de estmulos.

Interpretacin de la solucin
Es uno de los problemas con que hay que contar cuando se realiza un MDS, no siempre es
fcil interpretar la solucin. A modo indicativo puede ayudar tener en cuenta que:
I ) La colocacin de los ejes es arbitraria. Cualquier rotacin de los ejes que ayude a dar
interpretacin a las dimensiones es vlida siempre que esta rotacin mantenga las distancias
interpuntos. En general, los programas suelen rotar de forma que el primer eje
abarque la mayor variabilidad.
252
2) Si las dimensiones no tienen una interpretacin clara, entonces es preferible ofrecer una
interpretacin localizando conglomerados de puntos. Se ha sugerido realizar un anlisis de
conglomerados jerrquico con la misma matriz de datos y buscar el grado de acuerdo entre
los conglomerados obtenidos por este anlisis y los conglomerados de puntos identificados
a partir del MDS.

Escalas multidimensionales mtricas
Las escalas de intervalos y de razn (ambas mtricas) proporcionan el nivel ms alto de
medida de precisin, permitiendo realizar casi todas las operaciones matemticas. Estas dos
escalas tienen unidades constantes de medida, de tal forma que las diferencias entre dos
puntos adyacentes de cualquier parte de la escala son iguales. La nica diferencia real entre
las escalas de intervalo y las de razn es que las de intervalo tienen un punto cero arbitrario,
mientras que las escalas de razn tienen un punto de cero absoluto. Las escalas de intervalo
ms familiares son las escalas de temperatura Celsius y Fahrenheit. Ambas tienen un punto
de cero arbitrario, pero ese cero no indica una cantidad cero o ausencia de temperatura,
dado que podemos registrar temperaturas por debajo del punto cero de esa escala. Por tanto,
no es posible decir que un valor cualquiera situado en un intervalo de la escala es un
mltiplo de cualquier otro punto de la escala. Por ejemplo, si un da se registran 80F, no se
puede decir que sea dos veces ms caluroso que uno de 40F porque sabemos que 80F, en
una escala diferente como Celsius, equivalen a 26,7C. De la misma forma, 40F en Celsius
corresponden a 4,4C. Aunque 80F son, desde luego, dos veces 40F, no se puede afirmar
que el calor de 80F sea dos veces el calor de 40F porque usando diferentes escalas, el
calor no es dos veces mayor; esto es, 4,4F X 2 '* 26,7C.
Las escalas de razn representan la forma superior de medida de precisin, dado que
poseen las ventajas de todas las escalas inferiores ms un punto de cero absoluto. Con las
medidas de escala de razn se permiten todas las operaciones matemticas. El peso que
tenemos en el bao u otras mquinas de peso comunes utilizan estas escalas, dado que
tienen un punto de cero absoluto y que pueden ser expresados en trminos de mltiplos
cuando se relaciona un punto con otro de la escala; por ejemplo, 100 kilos es dos veces ms
pesado que 50 kilos.
253
Es importante entender los diferentes tipos de escalas por dos razones. En primer lugar, el
investigador debe identificar la escala de medida de cada variable empleada, de tal forma
que no se estn utilizando datos no mtricos como si fueran mtricos. En segundo lugar, la
escala de medida es crucial para determinar qu tcnica multivariante es la ms conveniente
para los datos, consideracin hecha tanto para las variables dependientes como las
independientes. En la discusin de las tcnicas y su clasificacin, que haremos en
posteriores secciones de este captulo, las propiedades mtricas o no mtricas de las
variables dependientes o independientes son los factores determinantes en la seleccin de la
tcnica apropiada.
Escalas multidimensionales no mtricas
Las medidas no mtricas pueden tener escalas nominales u ordinales. La medida con una
escala nominal asigna nmeros que se usan para etiquetar o identificar sujetos u objetos.
Las escalas nominales, tambin conocidas como escalas de categora, proporcionan el
nmero de ocurrencias en cada clase o categora de la variable que se est estudiando. Por
tanto, los nmeros o smbolos asignados a los objetos no tienen ms significado
cuantitativo que indicar la presencia o ausencia del atributo o caracterstica bajo
investigacin. Los ejemplos de datos con escala nominal incluyen el sexo, la religin o el
partido poltico de una persona. Para trabajar con estos datos, el analista puede asignar
nmeros a cada categora, por ejemplo, 2 para mujeres y 1 para hombres. Estos nmeros
slo representan categoras o clases y no implican cantidades de un atributo o
caracterstica.
Las escalas ordinales representan un nivel superior de precisin de la medida. Las
variables pueden ser ordenadas o clasificadas con escalas ordinales en relacin a la
cantidad del atributo posedo. Cada subclase puede ser comparada con otra en trminos de
una relacin de mayor que o menor que. Por ejemplo. Los diferentes niveles de
satisfaccin del consumidor individual con diferentes productos nuevos pueden ilustrarse
en una escala ordinal. La siguiente escala muestra la idea que tiene un encuestado acerca
de tres productos. El encuestado est ms satisfecho con A que con B y ms satisfecho con
B que con C.
254
Los nmeros utilizados en escalas ordinales como stas no son cuantitativos, dado que
indican slo posiciones relativas en series ordenadas. No hay medida de cunta
satisfaccin recibe el consumidor en trminos absolutos, el investigador ni conoce la
diferencia exacta entre puntos de la escala de satisfaccin. Muchas escalas de las ciencias
del comportamiento caen dentro de esta categora ordinal.



El mtrico: supone que los datos son de una escala de intervalos o ms fuertes.
El no mtrico: supone que son slo de la escala ordinal.
El resulado de ambos procedimientos es una configuracin mtrica, o de intervalos, de los
objetos. En esta exposicin nos concentraremos en la tcnica no mtrica por su gran
difusin y por que hace menos suposicin sobre la naturaleza de los datos.

6.3 Explicar En Que Consiste El Modelo De Punto Ideal.

Modelo de anlisis del posicionamiento de productos o marcas en el que se comparan los
atributos de stos con los de producto o marca "ideal". El punto ideal es el lugar en un
mapa perceptual que representa la combinacin de atributos ms apreciada por el
consumidor o usuario.


6.4 Indicar Las Aplicaciones En El rea Administrativa (Mercadotecnia Y Ciencias
Del Comportamiento) De Las Escalas Multidimensionales; Utilizando Ejemplos De
Las reas Mencionadas.

El propsito del estudio fue evaluar el procedimiento aplicndolo a un problema cuya
solucin ya se conocia. Imaginemos por un momento el desaliento de los automovilistas si
no existieran los kilmetros y algnas ciudades estuvieran simplemente ms lejos que
otras. Pues eso fue precisamente lo que un programa de escala multidimensional recibi
255
como datos de entrada: un orden de rangos de las distancias de 15 ciudades de estados
unidos. Las 105 distancias entre ella se colocaran segn su cercania reciproca (new york y
boston) y su lejania ms grande (miami y seattle). En esta etapa se prescindi por completo
de las millas o kilmetros: a la computadora tan slo se le indic el orden de rango de las
distancias que mediaban entre los objetos, en forma muy semejante a lo que se habra hecho
si el objeto de la escala hubiran sido pastas dentales, politicas p detergentes caseros.
Pese ala falta de cifras reales de millas, el programa logr colocar las ciudades en su
ubicacin geogrfica real o muy cerca de ella. Si bien algunas quedaran fuera de posicin
por unos cientos de miles (por ejemplo, miami fue puesto un poco mar adentro), ello se
debi fundamentalmente al hecho de que las distancias entre puntos de las ciudades se
clasificaron segn las millas por carretera y no segn las distancias absolutas.


Ejemplo
Qu hacen?
Medir la distancia que hay entre una serie de puntos en un mapa es sencillo: basta con
utilizar una regla. Posteriormente se confecciona una tabla de distancias, como las que
usan los automovilistas. Pero, y el proceso contrario?, es decir a partir de dicha tabla
de distancias cmo podramos representar grficamente los puntos en un mapa?. Ese
es el objetivo de las escalas multidimensionales.

Para qu sirven?
Sus aplicaciones son variadas: el tratamiento de encuestas que utilizan anlisis de
juicios de similaridad por parejas emitidos por un conjunto de sujetos, las percepciones
que un grupo de usuarios tienen de productos de diferentes compaas,...
Veamos un ejemplo de funcionamiento
La siguiente base de datos en excel es una tabla con la distancia entre ciudades
europeas: ciudades.xls ciudades.zip o ciudades.exe.
La siguiente figura muestra un mapa de Europa, con las principales capitales:


256




Figura: Mapa de Europa
A partir de dicho mapa sera sencillo con una regla obtener las distancias entre las
capitales y obtener una tabla como la siguiente:



Figura: Tabla con las distancias entre ciudades de Europa
Pero y el proceso contrario?. Es decir dada la tabla obtener el mapa. Eso es mucho ms
difcil "a mano" y de ello se encarga el algoritmo del modelo de escalas
multidimensionales.
Al aplicar las escalas multidimensionales obtuvimos el siguiente mapa:




257



Figura: Recomposicin del mapa de Europa mediante las escalas multidimensionales

Que se parece bastante al mapa real de Europa. Las diferencias se explican porque
hamos tomado la distancia por carretera.

Utilidad en el anlisis contable
Esta capacidad del escalado multidimensional de representar distancias en un mapa es
muy atractiva para analizar la informacin financiera.
Estudiando la informacin que suministran los estados contables de las empresas
podemos extraer una serie de ratios. No es difcil establecer una medida de similaridad
entre las empresas segn los valores de estos ratios y despus mediante las escalas
multidimensionales, representarlas en un plano, de forma que las empresas con ratios
similares aparezcan prximas en el mapa.
Lo que estamos haciendo es reducir un gran volumen de datos en informacin til para
la toma de decisiones. Usualmente aparecern una serie de dimensiones que se plasman
en mapas sencillos de interpretar.

Aplicacin al caso de la quiebra
En la figura vemos la ubicacin en el mapa multidimensional de las empresas
quebradas -de la 1 a la 29- y solventes -de la 30 a la 66-. Claramente observamos que se
ha producido un agrupamiento de las empresas solventes a la izquierda del mapa y de
las empresas insolventes a la derecha del mismo.
258





Figura: Mapa obtenido al aplicar las escalas multidimensionales a los datos de empresas
quebradas y solventes

Cmo se trabaja con las escalas multidimensionales?
Para obtener el mapa anterior hemos tenido que hacer varias cosas:
a) Si los datos son distancias se trabaja con ellos, en otro caso se estandarizan y es
necesario elegir la medida de distancia apropiada. Normalmente, se elige la
distancia eucldea. La estandarizacin ms habitual supone media cero y varianza
uno.
b) A continuacin se calcula el nmero de dimensiones, comprobando que el ajuste
sea bueno. Cuanto ms dimensiones mejor es el ajuste pero es ms difcil de
interpretar, as que se trata de buscar un compromiso.




259



Es bueno el ajuste?
Funcin de Stress. Se realiza el escalado
multidimensional suponiendo un nmero de
dimensiones igual a dos, y se calcula la funcin de
stress. Si el valor es inferior a un cierto lmite se
acepta como vlido que ese nmero de dimensiones
es capaz de representar correctamente el problema.
Si no, se calcula el escalado multidimensional con
tres dimensiones, reiterando el proceso hasta hallar el
nmero ptimo.


c) Se obtienen los mapas. Se visualiza la primera dimensin frente a la segunda, la
primera frente a la tercera, etc. ...y a interpretar los resultados.

Interpretacin de los resultados
En el ejemplo de las ciudades no es difcil interpretar las dos dimensiones o ejes del
grfico. Se corresponden con la longitud y latitud de las ciudades. Hay que sealar que
el grfico bien pudo haber aparecido invertido, ya que slo se garantiza que las
distancias se conservan, no la orientacin del mapa.
En otras ocasiones no ser tan sencillo interpretar los ejes, por lo que es conveniente
realizar una tcnica conocida con el nombre de anlisis profit o ajuste de propiedades
que ayuda a interpretar qu son las dimensiones que aparecen en el estudio. Es una
tcnica estadstica basada en el clculo de regresiones, que hemos aplicado utilizando el
programa SPSS.
Para ello se toman como variables independientes los valores de de las dimensiones y
como variable dependiente cada uno de los nueve ratios. Como se observa en la figura
los ratios 5, 6, 7 y 9 son casi paralelos al eje de las X, -primera dimensin- que
260
asociamos a la rentabilidad de la empresa. El eje de las Y -la segunda dimensin-, se
explica a partir de los ratios 1, 2 y 3, ratios de liquidez.


Figura: Anlisis profit, que ayuda a interpretar los resultados

Otra posibilidad interesante para interpretar los resultados es superponer al mapa los
resultados del anlisis de conglomerados, como veremos luego.

Opinin
Tcnicas multivariantes como las escalas multidimensionales son menos exigentes en
cuanto a las hiptesis de partida que la mayora de las tcnicas estadsticas, mucho ms
intuitivas y fcil de aplicar que otras tcnicas y estn siendo aplicadas con xito en las
Ciencias Sociales. No han sido suficientemente explotadas en el anlisis de la
informacin contable y pueden tener un hueco en la aplicacin en la empresa.

- Su objetivo es transformar juicios de semejanza o preferencia en distancias
representadas en un espacio multidimensional. Como consecuencia, se construye un mapa
en el que se dibujan las posiciones de los objetos comparados de forma que aquellos
percibidos como similares estn cercanos unos de otros y alejados de objetos percibidos
261
como distintos. Por ejemplo, analizar, en el mercado de refrescos, las percepciones que un
grupo de consumidores tiene acerca de una lista de refrescos y marcas con el fin de estudiar
qu factores subjetivos utiliza un consumidor a la hora de clasificar dichos productos.
1. MDS mtrico
Torgerson (1952) supone que las disimilaridades estn medidas en una escala de intervalos
o de razn.
La disimilaridad, entre el estmulo i y el j ser representada en un espacio multidimensional
por la distancia eucldea, entre
los puntos que representan a los estmulos i y j, respectivamente, de forma que
donde
es la distancia eucldea.
f es una funcin lineal con pendiente positiva. En el caso ms restrictivo se asume que

Sea la matriz de disimilaridades, . A partir de ella obtenemos, donde

(1)
Puesto que son los mismos estmulos situados en las filas y en las columnas i = j.
es una matriz en la que la media de las filas y las columnas es cero. Torgerson demostr
que si se satisface (1), entonces
(2)
es decir es el producto escalar de los vectores que representan a los estmulos i y j. As
pues,
(3)
Puesto que es simtrica, entonces es diagonalizable ortogonalmente y por tanto, es posible
encontrar X, lo cual no es ms
que un problema de componentes principales.
MDS no mtrico (Shepard- Kruskal)
262
Como ya hemos avanzado en la introduccin histrica del MDS, Shepard (1962) propone
un modelo menos restrictivo que el de
Torgerson, asumiendo que la funcin que relaciona las disimilaridades con las distancias
espaciales es una funcin montona. As
pues de nuevo
f es una funcin montona creciente si la matriz es de disimilaridad, y decreciente si es de
similaridad.
La solucin que se obtiene, an cuando slo se tiene en cuenta la relacin de orden entre las
disimilaridades, es en un espacio
mtrico nico. Esto significa que dos matrices de disimilaridades distintas pero con la
misma relacin de orden entre sus elementos
darn lugar a una misma solucin, puesto que para ambas matrices se venficar una de las
siguientes alternativas:
(Criterio de monotonicidad fuerte)
(Criterio de monotonicidad dbil)
Kruskal se plantea la computacin de la solucin como un problema de ajuste, a saber,
tenemos unas disimilaridades y tratamos
de encontrar una configuracin de puntos tal que el ajuste entre las disimilaridades y las
distancias sea lo mejor posible. Para ello
hay que definir un ndice de ajuste, el STRESS, que en este caso no es de "bondad de
ajuste" sino de error, definido como
donde llamadas "disparidades", son unos valores
ajustados a las distancias y que estn en un orden lo ms similar posible al de
los datos. La introduccin de estos valores intermedios entre las disimilaridades y las
distancias evita ejecutar operaciones
263
aritmticas con las disimilaridades ya que se supone que stas estn en una escala ordinal.
Knuskal introduce una tcnica de ajuste
conocida como "regresin montona".
El procedimiento de clculo de la solucin final es un proceso iterativo, que bsicamente
sigue los pasos siguientes:
1.
Generar una configuracin inicial de puntos en un espacio de dimensionalidad prefijada.
2.
Normalizar la configuracin.
3.
Calcular las distancias entre cada par de puntos de esta configuracion inicial.
4.
Realizar la regresin montona. Las distancias son ajustadas mediante una funcin
montona obtenindose las disparidades.
5.
Obtener el STRESS entre las distancias y las disparidades.
6.
Si el STRESS es aceptablemente bajo. entonces esa configuracin de puntos es la solucin
final.
7.
Si, por el contrario, el STRESS es alto entonces hay que mover la configuracin de puntos
en alguna direccin que conduzca
a minimizar el STRESS. Esto se realiza calculando para cada punto la magnitud y la
direccin del movimiento de acuerdo con
donde
es la coordenada del punto i en la dimensin a en la iteracin t.
es un parmetro que expresa la magnitud ptima del movimiento.
es el gradiente de la funcin STRESS en la iteracin t
8) El proceso contina como en 2).
Tres son los problemas fundamentales que pueden surgir un anlisis MDS, a saber
264
a) La existencia de mnimos locales.
b) La decisin acerca del nmero de dimensiones de la solucin final.
c) La interpretacin de la solucin.

6.5 Describir Los Pasos Bsicos Para Identificar Las Dimensiones Que Deben Ser
Obtenidas Por La Tcnica Escalas Multidimensionales.

Existen diferentes pasos que hay que dar para llevar a cabo una investigacin de mds:
- Formulacin del problema - qu marcas queremos comparar? Ms de 20 es una
locura. Menos de 8 (4 pares) no arrojara resultados fiables. con qu propsito se
va a utilizar el estudio?
- Obtencin de los datos. Los encuestados responden una serie de preguntas. Para
cada par de productos ellos tienen que puntuar la similitud (normalmente, en una
escala likert de 7 puntos de muy similar a muy diferente). La primera pregunta
podra ser entre coca-cola/pepsi por ejemplo, la siguiente entre coca-cola/hires
(cerveza), la siguiente entre pepsi/dr pepper, la siguiente entre dr pepper/hires, etc.
El nmero de preguntas es una funcin del nmero de marcas y puede ser calculado
como q = n (n - 1) / 2 donde q es el nmero de preguntas y n es el nmero de
marcas. Esta aproximacin se llama datos de percepcin : enfoque directo.
Existen otras dos formas. La "datos de percepcin: enfoque derivado" en la que los
productos se descomponen en atributos que se puntan en una escala de diferencias
semnticas. La otra es la "enfoque de datos de preferencia" en que los encuestados
son preguntados sobre sus preferencias ms que sobre similitudes.
- Manejo del programa estadstico mds - el software para conducir el proceso est
disponible en la mayora de las aplicaciones estadsticas. A menudo, se puede elegir
entre metric mds (que trata con datos de ratio de nivel o intervalo), y nonmetric mds
(que trata con datos originales). Los investigadores deben decidir el nmero de
dimensiones que quieren que el ordenador cree. Cuantas ms dimensiones haya,
ms fiable ser la estadstica pero ms difcil ser interpretar el resultado.
265
- Mapeo de los resultados y definicin de las dimensiones - el programa estadstico
(o un mdulo relacionado) mapear los resultados. El mapeo situar cada producto
normalmente, en un espacio de dos dimensiones. La proximidad de productos a los
dems indicar bien lo similares que son o lo preferidos que resultan, dependiendo
de qu sistema fue utilizado. Las dimensiones deben ser clasificadas por el
investigador. Ello requiere juicio subjetivo lo que supone un reto. Luego, los
resultados deben ser interpretados.
Testar la validez y fiabilidad de los resultados . Determinar qu proporcin o varianza de
los datos de la escala pueden ser tomados en cuenta para el procedimiento mds. Un r-
cuadrado de .6 es considerado el nivel mnimo aceptable. Otros tests posibles son kruskals
stress, tests de divisin de datos, tests de estabilidad de datos (ie.: eliminando una marca), y
fiabilidad test-retest.

El modelo de las escalas multidimensionales que vamos a considerar es una extensin de
las ideas subyacentes a los modelos de las escalas unidimensionales, aplicable a aquellos en
que la variabilidad de los estmulos analizados por ejemplo, los coches, detergentes,
naciones, etc., que juzgan los
entrevistados) se produce respecto de varias dimensiones.
Dado un nmero de estmulos que difieren respecto de una serie de
propiedades o dimensiones se trata de ver cul es el nmero mnimo de estas
dimensiones que permite explicar la variabilidad de los estmulos y cules son
sus coordenadas (parmetros-) en esas mismas dimensiones. A diferencia de las escalas
unidimensionales, que permiten observar las propiedades de los estmu-
los slo en relacin a un valor numrico, susceptible de variar a lo largo de
un continuo, el anlisis multidimensional permite analizar la complejidad de
los estmulos mediante su representacin en un espacio de dos, tres o ms
dimensiones.
En el espacio multidimensional los estmulos estn representados por pun-
tos, correspondiendo su posicin al grado o cantidad de atributo complejo


266
Escalas Multidimensionales.

Su objetivo es transformar juicios de semejanza o preferencia en distancias representadas
en un espacio multidimensional. Como consecuencia, se construye un mapa en el que se
dibujan las posiciones de los objetos comparados de forma que aquellos percibidos como
similares estn cercanos unos de otros y alejados de objetos percibidos como distintos.
Pasos bsicos
a) Si los datos son distancias se trabaja con ellos, en otro caso se estandarizan y es
necesario elegir la medida de distancia apropiada. Normalmente, se elige la distancia
eucldea. La estandarizacin ms habitual supone media cero y varianza uno.
b) A continuacin se calcula el nmero de dimensiones, comprobando que el ajuste sea
bueno. Cuanto ms dimensiones mejor es el ajuste pero es ms difcil de interpretar, as que
se trata de buscar un compromiso.
c) Se obtienen los mapas. Se visualiza la primera dimensin frente a la segunda, la primera
frente a la tercera, etc....y a interpretar los resultados.



Medir la distancia que hay entre una serie de puntos en un mapa es sencillo: basta con
utilizar una regla. Posteriormente se confecciona una tabla de distancias, como las que usan
los automovilistas. Pero, y el proceso contrario?, es decir a partir de dicha tabla de
distancias cmo podramos representar grficamente los puntos en un mapa?. Ese es el
objetivo de las escalas multidimensionales.
Sus aplicaciones son variadas: el tratamiento de encuestas que utilizan anlisis de juicios de
similaridad por parejas emitidos por un conjunto de sujetos, las percepciones que un grupo
de usuarios tienen de productos de diferentes compaas,...

Veamos un ejemplo de funcionamiento
Figura: Mapa de Europa
267
A partir de dicho mapa sera sencillo con una regla obtener las distancias entre las capitales
y obtener una tabla como la siguiente:

Figura: Tabla con las distancias entre ciudades de Europa
Pero y el proceso contrario?. Es decir dada la tabla obtener el mapa. Eso es mucho ms
difcil "a mano" y de ello se encarga el algoritmo del modelo de escalas
multidimensionales.
Al aplicar las escalas multidimensionales obtuvimos el siguiente mapa:

Figura: Recomposicin del mapa de Europa mediante las escalas multidimensionales
Que se parece bastante al mapa real de Europa. Las diferencias se explican porque hamos
tomado la distancia por carretera.
4) Utilidad en el anlisis contable
Esta capacidad del escalado multidimensional de representar distancias en un mapa es muy
atractiva para analizar la informacin financiera.
268
Estudiando la informacin que suministran los estados contables de las empresas podemos
extraer una serie de ratios. No es difcil establecer una medida de similaridad entre las
empresas segn los valores de estos ratios y despus mediante las escalas
multidimensionales, representarlas en un plano, de forma que las empresas con ratios
similares aparezcan prximas en el mapa.
Lo que estamos haciendo es reducir un gran volumen de datos en informacin til para la
toma de decisiones. Usualmente aparecern una serie de dimensiones que se plasman en
mapas sencillos de interpretar.
5) Aplicacin al caso de la quiebra
Vamos a aplicar las escalas multidimensionales a los datos de los bancos.


- En el SPSS -> ANALIZAR-> ESCALAS -> ESCALAMIENTO
MULTIDIMENSIONAL
- Como [Variables] los ratios
- [Crear distancias a partir de los datos] y all, [Medida] -> Distancia eucldea
- [Transformar valores] -> Estandarizar puntuaciones Z
- [Crear matriz de distancias] entre Casos
- [Opciones] Mostrar Resumen del modelo y opciones





269

En la figura vemos la ubicacin en el mapa multidimensional de las empresas quebradas -
de la 1 a la 29- y solventes -de la 30 a la 66-. Claramente observamos que se ha producido
un agrupamiento de las empresas solventes a la izquierda del mapa y de las empresas
insolventes a la derecha del mismo. Ntese que sale muy similar al anlisis de
componentes principales. Si los datos no son distancias y se toma la medida de distancia
eucldea ambas tcnicas darn resultados muy similares. Las escalas multidimensionales
son muy interesantes cuando nuestros datos ya son distancias.

Figura: Mapa obtenido al aplicar las escalas multidimensionales a los datos de empresas quebradas y
solventes
270

6) Cmo se trabaja con las escalas multidimensionales?
Para obtener el mapa anterior hemos tenido que hacer varias cosas:
a) Si los datos son distancias se trabaja con ellos, en otro caso se estandarizan y es
necesario elegir la medida de distancia apropiada. Normalmente, se elige la distancia
eucldea. La estandarizacin ms habitual supone media cero y varianza uno.
b) A continuacin se calcula el nmero de dimensiones, comprobando que el ajuste sea
bueno. Cuanto ms dimensiones mejor es el ajuste pero es ms difcil de interpretar, as que
se trata de buscar un compromiso.

Es bueno el ajuste?
Funcin de Stress. Se realiza el escalado
multidimensional suponiendo un nmero de
dimensiones igual a dos, y se calcula la funcin de
stress. Si el valor es inferior a un cierto lmite se
acepta como vlido que ese nmero de
dimensiones es capaz de representar
correctamente el problema. Si no, se calcula el
escalado multidimensional con tres dimensiones,
reiterando el proceso hasta hallar el nmero
ptimo.
c) Se obtienen los mapas. Se visualiza la primera dimensin frente a la segunda, la primera
frente a la tercera, etc. ...y a interpretar los resultados.
7) Interpretacin de los resultados
En el ejemplo de las ciudades no es difcil interpretar las dos dimensiones o ejes del
grfico. Se corresponden con la longitud y latitud de las ciudades. Hay que sealar que el
grfico bien pudo haber aparecido invertido, ya que slo se garantiza que las distancias se
conservan, no la orientacin del mapa.
En otras ocasiones no ser tan sencillo interpretar los ejes, por lo que es conveniente
realizar una tcnica conocida con el nombre de anlisis profit o ajuste de propiedades que
ayuda a interpretar qu son las dimensiones que aparecen en el estudio. Es una tcnica
271
estadstica basada en el clculo de regresiones, que hemos aplicado utilizando el programa
SPSS.
Para ello se toman como variables independientes los valores de de las dimensiones y como
variable dependiente cada uno de los nueve ratios. Como se observa en la figura los ratios
5, 6, 7 y 9 son casi paralelos al eje de las X, -primera dimensin- que asociamos a la
rentabilidad de la empresa. El eje de las Y -la segunda dimensin-, se explica a partir de los
ratios 1, 2 y 3, ratios de liquidez.

Figura: Anlisis profit, que ayuda a interpretar los resultados
Otra posibilidad interesante para interpretar los resultados es superponer al mapa los
resultados del anlisis de conglomerados, como veremos luego.
8) Opinin
Tcnicas multivariantes como las escalas multidimensionales son menos exigentes en
cuanto a las hiptesis de partida que la mayora de las tcnicas estadsticas, mucho ms
intuitivas y fcil de aplicar que otras tcnicas y estn siendo aplicadas con xito en las
272
Ciencias Sociales. No han sido suficientemente explotadas en el anlisis de la informacin
contable y pueden tener un hueco en la aplicacin en la empresa

a) Si los datos son distancias se trabaja con ellos, en otro caso se estandarizan y es
necesario elegir la medida de distancia apropiada. Normalmente, se elige la distancia
eucldea. La estandarizacin ms habitual supone media cero y varianza uno.

b) A continuacin se calcula el nmero de dimensiones, comprobando que el ajuste sea
bueno. Cuanto ms dimensiones mejor es el ajuste pero es ms difcil de interpretar, as que
se trata de buscar un compromiso.

Es bueno el ajuste?
Funcin de Stress. Se realiza el escalado multidimensional suponiendo un nmero de
dimensiones igual a dos, y se calcula la funcin de stress. Si el valor es inferior a un cierto
lmite se acepta como vlido que ese nmero de dimensiones es capaz de representar
correctamente el problema. Si no, se calcula el escalado multidimensional con tres
dimensiones, reiterando el proceso hasta hallar el nmero ptimo.

c) Se obtienen los mapas. Se visualiza la primera dimensin frente a la segunda, la primera
frente a la tercera, etc. y a interpretar los resultados

6.6 Explicar En Que Consiste La Tcnica Llamada Anlisis Conjunto.

El anlisis conjunto es una tcnica estadstica que permite obtener la preferencia de los
consumidores hacia un conjunto de productos definidos de acuerdo a una serie de atributos.

El anlisis conjunto, llamado tambin modelo composicional multiatributo, es una tcnica
estadstica que se origin en la psicologa matemtica. Hoy se utiliza en muchas de las
ciencias sociales y ciencias aplicadas incluyendo el marketing, la administracin del
producto y la investigacin operativa. El objetivo del anlisis conjunto es determinar qu
combinacin de un nmero limitado de atributos es el ms preferido por los encuestados.
273
Se utiliza con frecuencia para comprobar la aceptacin de diseos nuevos de productos por
parte del cliente y valorar el atractivo de anuncios. Se ha utilizado en el posicionamiento de
producto, pero hay algunos problemas con la aplicacin de la tcnica.

Algunas ventajas de usar esta tcnica es:
- es posible utilizar objetos fsicos
- mide la preferencia en un nivel individual
Algunas desventajas de usar esta tcnica son:
- slo un conjunto limitado de caractersticas se puede utilizar porque el nmero de
combinaciones aumenta muy rpidamente cuantas ms caractersticas se agregan...
- la etapa de la recogida de informacin es compleja
- es difcil de utilizar para investigacin de posicionamiento de producto porque no
hay procedimiento para convertir percepciones sobre caractersticas reales en
percepciones acerca de un conjunto reducido de caractersticas fundamentales
El anlisis conjunto, llamado tambin modelo composicional multiatributo, es una tcnica
estadstica que se origin en la psicologa matemtica. Hoy se utiliza en muchas de las
ciencias sociales y ciencias aplicadas incluidas el marketing, la administracin del producto
y la investigacin operativa. El objetivo del anlisis conjunto es determinar qu
combinacin de un nmero limitado de atributos es el ms preferido por los encuestados.
Es una tcnica que se origin en la psicologa matemtica. Hoy se utiliza en muchas de las
ciencias sociales y ciencias aplicadas incluyendo el marketing, la administracin del
producto y la investigacin operativa. El objetivo del anlisis
conjunto es determinar qu combinacin de un nmero limitado de atributos es el ms
preferido por los encuestados. Se utiliza con frecuencia para comprobar la aceptacin de
diseos nuevos de producto (objeto) por parte del cliente y valorar el atractivo de anuncios.
Se ha utilizado en el posicionamiento de producto, pero hay algunos problemas con la
aplicacin de la tcnica.
274
EL METODO DEL ANALISIS CONJUNTO:
Mediante este mtodo de valoracin, los individuos entrevistados se enfrentan a un
conjunto de escenarios hipotticos con varios niveles de dos o ms atributos y se les
pregunta que elijan el que ms prefieren (choice experiment), que otorguen una puntuacin
a cada uno (rating contingent) o que ordenen stos desde el ms preferido al menos
preferido (ranking contingent). De esta forma, a travs de las elecciones que realizan se
puede obtener la estructura de sus preferencias hacia los diferentes atributos considerados.
Los pasos bsicos son:
- Seleccin de las caractersticas que deben ser probadas
- Muestra de las combinaciones del producto a clientes potenciales
- Los encuestados categorizan las combinaciones
- Se meten los datos de una muestra representativa de clientes potenciales en un
software estadstico y escoge el procedimiento conjunto del anlisis. El software producir
las funciones de utilidad para cada una de las caractersticas.
- Incorporacin de las caractersticas ms preferidas en un nuevo producto o anuncio
A los encuestados se les muestra un conjunto de productos, prototipos, maquetas o retratos.
Cada ejemplo es suficientemente semejante al otro como para que los consumidores lo vean
como sustitutivo, pero suficientemente diferente para que puedan determinar claramente
una preferencia. Cada ejemplo se compone de una combinacin extraordinaria de
caractersticas de producto. Se obtienen un rango de preferencias. Las respuestas se
codifican y se introducen en un programa estadstico como SPSS o SAS.


6.7 Explicar En Que Consiste Las Evaluaciones De Dos Factores.

Permitan estudiar la influencia de los factores sin necesidad de realizar todas las pruebas
pero manteniendo la propiedad de ortogonalidad de los efectos a estudiar. Como ejemplo de
este tipo de modelos se expone a continuacin la fraccin factorial denominada cuadrado
latino.
Dos factores sin rplicas. Los datos recogen un solo experimento por cada com-
275
binacion de niveles de los factores.
Interesan principalmente los dos estadsticos F y sus correspondientes p-valores y tambin
la media cuadrtica de los residuos (varianza residual,) que se utilizara como estimacin de
la varianza comn.
Dos factores con replicas. Interaccin. Los datos recogen mas de un experi
Es un mtodo estadstico utilizado para determinar la contribucin de solo dos factores en
un simple evento o resultado. Ya que con solo dos factores se puede hacer este tipo de
evaluaciones. Dependiendo de los datos con los vamos a trabajar.
6.8 EXPLICAR EN QUE CONSISTEN LAS EVALUACINES DE MLTIPLES
FACTORES.

Con este procedimiento se pueden contrastar hiptesis nulas sobre los
Efectos de otras variables en las medias de varias agrupaciones de una nica variable
dependiente. Se pueden investigar las interacciones entre los factores as como los efectos
de los factores individuales, algunos de los cuales pueden ser de efectos aleatorios.
Adems, aunque no es de nuestro inters en este tema, se pueden incluir los efectos de
covariables y las interacciones de covariables con los factores. Para el anlisis de regresin,
las variables independientes (predictoras) se especifican como covariables.
Es posible contrastar modelos equilibrados (si todas las casillas del modelo contienen igual
nmero de casos) y no equilibrados. Tambin permite estimar los parmetros del modelo.
Adems, se encuentran disponibles contrastes a priori y a posteriori.
Una caracterstica de los mtodos factoriales es que siempre producen resultados mas o
menos interpretables y estos no son una simple descripcin, sino que ponen de manifiesto
la estructura existente entre los datos, de ah la necesidad de estudiar la validez de los
resultados. Es preciso analizar si representan una estructura existente entre ellos o
simplemente es debida a las fluctuaciones de los datos o a la definicin y codificacin de
las variables.
Un mapa se considera estable si su forma permanece aproximadamente igual cuando se
producen pequeas alteraciones en los datos, es decir, si la orientacin definida en el mismo
no esta determinada por aspectos aislados de los datos.
276
Los estudios de la estabilidad interna se realizan mediante mtodos empricos. Estos
mtodos trabajan sobre modificaciones de la tabla inicial y permiten verificar su estabilidad
a travs del mantenimiento de la configuracin obtenida en el anlisis.
Los mtodos empricos utilizados habitualmente para determinar el numero de factores
estables, realizan los anlisis por separado de cada tabla y miden la correlacin entre los
factores obtenidos en cada uno de ellos y los generados en el anlisis de la tabla original.
Si los ejes son estables los factores obtenidos en la diversas tablas estarn altamente
correlacionados. En caso contrario, si las correlaciones son semejantes con factores de
distinto orden, el eje es arbitrario resultado del azar, y no se considera estable. El
procedimiento consiste en generar diferentes tablas mediante alguna de las alteraciones
indicadas y analizarlas simultneamente utilizando una metodologa de anlisis de tablas
mltiples, el Anlisis Factorial Mltiple (AFM). Este anlisis permitir la verificacin de la
estabilidad de los factores. La forma de alteracin de la tabla inicial seleccionada para
ilustrar la bondad del mtodo ha sido la ltima de las anteriormente citadas, esto es,
mediante la suma de errores aleatorios. A continuacin se presenta una breve exposicin de
los principios del AFM.

Es un mtodo estadstico utilizado para determinar la contribucin de varios factores en un
simple evento o resultado. En este tipo de evaluacin suelen utilizarse mas de dos factores.

6.9 USO DEL PAQUETE SAS ( STATICAL ANLISIS SYSTEMS ) EN LA
SOLUCIN DE PROBLEMAS DEL REA ADMINISTRATIVO APLICANDO LA
TCNICA DE ESCALAS MULTIDIMENSIONALES

Anlisis interactivo de datos, permitiendo que los datos sean resumidos y desplegados en
diversas maneras de forma online.

Los datos puede ser modelados como datos multidimensionales (atributos de dimensin y
atributos de medida).

277
En el siguiente ejemplo, los nmeros que representan las ventas (sales) son considerados
atributos de medida, mientras que size, item-name y color son considerados como
dimensiones.

Algunos ejemplos seran:
- Qu productos mantener siempre en almacn ?
- Qu seguro cambiar o utilizar?
- A quin dirigir cierta campaa o determinado producto













278
Bibliografa:

LIBRO DE TEXTO
De la Garza Garca, Jorge
Anlisis de la Informacin Mercadolgica a travs de la estadstica multivariante.
Primera Edicin, 1995
Editorial Alhambra

LIBROS DE CONSULTA
1. Paul E. Green y Donald S. Tull
Investigacin de Mercados
Editorial Prentice Hall
2. J.F. Hair, R.E. Anderson Et al
Multivariate Data Analysis with reading
Editorial: The Petroleum Publishing Company
Primera edicin, 1979.
3. N.H. Nie, C.H. Hull et al
Manual del SPSS
Editorial: Mc. Graw Hill Book Company
Segunda edicin, 1975.
4. Jagdish N. Sheth
Multivariate Methods for Market and Survey Research
Editorial: American Marketing Associatio
Primera edicin,1977.

Anda mungkin juga menyukai