Anda di halaman 1dari 16

CARTOGRAFIADO DE DATOS Y TABLAS DE DATOS

matilde.cesari@gmail.com
Nos encontramos en la denominada “sociedad de la información”, porque se destinan gran cantidad de
recursos a la adquisición, almacenamiento, procesado, análisis, etc. de la información. El conocimiento más
valioso suele aparecer oculto entre los datos recogidos, en forma de patrones o reglas que relacionan entre sí
otras partes más superficiales de la información. Este conocimiento se ha venido obteniendo,
tradicionalmente, mediante análisis manual, aplicando la inferencia inductiva sobre el conjunto de datos de
partida.
Sin embargo, la adquisición y almacenamiento de los datos se realiza a un ritmo cada vez mayor. Por
ejemplo, los satélites de observación de la Tierra generarán, previsiblemente, del orden de un petabyte de
datos (1015bytes) diariamente a finales de siglo; otros sistemas menos sofisticados, como las transacciones
realizadas en un supermercado, cabinas de información de turismo, operaciones de tarjetas de crédito, etc.
también son susceptibles de generar un volumen de datos imposible de analizar de forma manual. La
explosión en el número de fuentes de información disponibles en Internet ofrece una nueva oportunidad de
búsqueda y extracción de información útil a partir de esta “base de datos” dinámica y creciente. Se estima
que cada 20 meses se duplica la cantidad de información en el mundo.
Parece claro que el clásico método hipotético-deductivo de la ciencia positiva resulta inoperante ante tal
avalancha de datos, al menos, aplicado de la forma tradicional, esto es, analizando manualmente los datos
disponibles. Cada vez se necesita más la ayuda de ordenadores potentes para automatizar el proceso
inductivo, para analizar de forma inteligente las montañas de datos existentes, y extraer de ellas ese
conocimiento oculto y valioso. Sin duda, el término “minería de datos”, con que se conocen las nuevas
técnicas de análisis automático, refleja bastante bien esta idea.
Por otro lado, el esfuerzo inicial por adquirir conocimiento del mundo real está dejando paso a un mayor
esfuerzo por conocer aspectos del propio conocimiento. Hoy en día nos encontramos este último punto,
quizá como consecuencia de los fallos en el conocimiento adquirido mediante ese esfuerzo inicial. La
preocupación principal ya no es la mera adquisición de conocimiento, sino la delimitación de su alcance y
validez; necesitamos asignar un grado de certeza al conocimiento, saber en qué medida conocemos algo.
Diagnóstico Por Imagen de Datos (DID)
Metodología y herramienta de análisis de datos que permite descubrir patrones, regularidades y relaciones
entre variables en grandes bases de datos de procesos o sistemas de cualquier tipo. Esta tecnología combina
procedimientos de clasificación y agrupamiento. Para llevarlos a cabo, emplea algoritmos de aprendizaje
inductivo que genera descripciones simbólicas que puedan ser interpretadas de forma sencilla. Finalmente,
se utilizan técnicas estadísticas que permite descartar los datos irrelevantes y contrastar objetivamente la
significación de los patrones y relaciones descubiertos en los datos.
Utilidad del Diagnóstico por Imagen de Datos: Analizar la información con el objetivo de resolver
un problema determinad y producir una información útil o bien rara y que interesa un campo de
investigación. Se dice que una información es útil cuando ésta sirve las intenciones de un destinatario en
particular. Lo que es útil para un físico puede no serlo para un biólogo. En suma, la utilidad está asociada
al destinatario de la información. Se dice que una información es rara si es escasa, no abundante en las
fuentes de información. En la teoría de la información, la entropía mide si una información es rara o no. En
nuestro caso, no es un valor absoluto, la información "rara" es aquélla que no es frecuente, que no se
encuentra a primera vista.
Cartografiado o Mapas de los Datos: Lo que interesa a “todo investigador”, en primera instancia, es
hacer una lectura de la información contenida en la tabla de datos; ¿Cómo abordar la información que hay
en una tabla de datos?, ¿cómo leer una tabla de datos?, es decir, ¿qué información importante hay en una
tabla de datos en relación con los objetivos del estudio?, ¿cómo obtener un mensaje que pueda ser luego
contextualizado por el “investigador” y sirva para la interpretación y comunicación de los resultados?
Para lograr que el cerebro humano pueda captar lo más importante de la información de una tabla hay que
consentir perder información para ganar en significación. El cerebro entiende mejor la información en
forma análoga, es decir en forma gráfica, en lugar de la información digital o el conjunto de cifras de una
tabla. Al menos en un comienzo es de gran ayuda observar gráficas que representen de alguna manera la
Información más importante de las cifras y símbolos puestos en la tabla. Uno de los elementos de la
estadística descriptiva que cumple con ese cometido es el Análisis Factorial Multivariado. [Lebart Morineau
y Fénelon, 1985]

Matilde I. Césari 1
Cuando la mayoría de las personas piensan en mapas, lo primero que les viene a la mente son imágenes
geográficas. No se trata de mapas geográficos, sino de mapas de ideas y de datos. Así como el cartógrafo, el
investigador recaba información, aunque no sea de naturaleza geográfica. Así como el cartógrafo, el
investigador también analiza y representa información, decide cuál es la mejor forma de representarla,
minimiza la subjetividad y describe gráficamente las perspectivas. Al igual que el cartógrafo, los
investigadores esperan que sus representaciones sean útiles para guiar a otras personas y para ayudarlas a
tomar decisiones con mayor fundamento.
Se propicia la creación de estos mapas (cartografiado de datos) como complemento y alternativa para las
formas tabulares, numéricas y textuales de representar información más tradicional. Igualmente, se espera
que, así como los mapas geográficos, los mapas de datos ayuden a informar y guiar a otras personas y les
permita tomar mejores decisiones.
El Análisis Factorial Multivariado es el fundamento del Cartografiado de Datos. Se trata de una
técnica de análisis que permite estudiar un conjunto de individuos estadísticos descritos por un grupo de
variables y representar gráficamente los elementos de esta tabla de datos en un espacio de pequeña
dimensión, posibilitando interpretar las relaciones entre variables y semejanzas entre individuos.
La técnica del Análisis Factorial Multivariado se aplica al estudio de tablas de datos rectangular T(n x p), en
las que por filas se tiene n “individuos” (individuos estadísticos o muestras); y por columnas p variables
numéricas o categóricas mutuamente excluyentes y exhaustivas. Construye la visualización de hechos,
basado en la relación entre las variables analizadas y la asociación de individuos que la producen..
Con sus gráficos de análisis factorial, ha devuelto los individuos a la estadística: durante mucho tiempo
ignorados, los individuos hacen su ingreso en la escena estadística bajo la forma de puntos en una nube. Las
posiciones respectivas que ellos ocupan en el seno de esa nube demuestran en primer lugar que ellos se
diferencian unos de otros. Las distancias y las proximidades que ellos mantienen con las modalidades de
las variables consideradas permiten a continuación comprender en qué difiere cada uno del otro.
Recientemente, debido a la influencia de los autores de la Escuela Estadística Francesa, (Benzecri en 1977 y Lebart en
1982), se insiste en la representación de toda información por medio de gráficos, antes, durante y después de un
análisis numérico de datos, ya que la información que se deriva de un gráfico es siempre de tipo cualitativo y es más
fácil de interpretar ya que con frecuencia, un gráfico permite aprehender relaciones de una manera más simple que su
presentación algebraica. La Escuela Francesa, más "descriptiva" que "inferencial" en su enfoque, ha considerado la
importancia de los individuos en el análisis de modo que también puedan ponerse de manifiesto en los estudios.
EL cartografiado de los datos es una metodología de aplicación en la investigación profesional
Si se pretende conocer, simular y manejar una realidad, debe hacerse a través de una imagen de ella, que es
un “análisis”, en el que los conceptos observados son representados simbólicamente. El Cartografiado es la
representación gráfica, simple y completa de la información contenida en datos alfanuméricos, estadísticos
y textuales, de cualquier área (social, médica, científica, ambiental, periodístico, etc.), de fuentes propias,
externas y aportada por los mismos interesados.
Se trata de la ejecución de una estrategia metodológica de análisis exploratorio mediante algoritmos
matemáticos. Constituye una tecnología de punta, está basado en la utilización de algoritmos de generación
de hipótesis (el juicio del usuario) y de la neurociencia (teoría de la percepción gráfica humana).
Presentación gráfica, conformando un sistema de comunicación simbólica de la información y una
caracterización de la realidad, que se representa mediante una Imagen.
Es una nueva herramienta exploratoria que ha surgido hace muy poco tiempo, lleva implícito un proceso de
observación de los datos, un análisis exploratorio, la creatividad y el conocimiento del especialista en el
tema, que logra realizar un gráfico final (mapa) expresando toda la información relevante contenida en los
datos. Tiene sus principios en la Epistemología y constituye una herramienta para la práctica de la
investigación profesional.
El proceso de cartografiado parte de la observación. “Observamos”, “comparamos” y “describimos”. O
sea, es pertinente a la observación y a la medición. Parte de la información extraída de las características de
una realidad estudiada, continúa con la conservación de las observaciones y las resume en una tabla de
datos. Posteriormente se efectúa el análisis de datos y se presenta una síntesis analógica y gráfica. Este es el
análisis multidimensional, obteniéndose una síntesis de los planos factoriales y de los indicadores
estadísticos. Con en base a estos resultados y su interpretación construimos el cartografiado, que tiene la
realidad observada a través de una imagen. Ahora lo más fácil, hacer el diagnóstico bajo la lupa del experto
en el dominio.
No es muy costoso y muy distinto al que hace un radiólogo de una radiografía. Vemos una imagen y
hacemos el diagnóstico de la realidad que se ha observado a través de los datos obtenidos. Es lo mejor como
resultado final. La ventaja: que es accesible para todos.

Matilde I. Césari 2
Desde el punto de vista práctico, El Cartografiado de Datos permite la “EXTRACCIÓN” bastante rápida de
la información contenida en un conjunto de datos y su “TRANSMISIÓN” en forma simple a cualquier nivel
de usuario.
Beneficios:
 Si se pretende conocer, simular y manejar una realidad, debe hacerse a través de una imagen de ella, que
es un “análisis”, en el que los conceptos observados son representados simbólicamente.
 El objetivo principal del Servicio de “Cartografiado de la información” , es la construcción de un nuevo
“lenguaje de la información” y brindarlo a los usuaruios. Se trata de realizar gráficos de amplios conjuntos
de datos donde las personas , los entes, los objetos o el medio a describir se trasforman en
representaciones sobre un plano.
 Tiene aplicaciones generales y permite una lectura fácil de la información que contiene, ya que la regla de
interpretación es la de la “proximidad de los puntos representados”.
 El método algorítmico que aplica su transformación, tiene el papel de instrumento de observación,
sistematizando los volúmenes de datos y proporcionando imágenes a partir de una realidad.
 Permite utilizar las facultades de percepción humana cotidianamente utilizadas. Sobre los gráficos se “ve”
con los ojos y el misterioso análisis iconográfico que nuestro celebro hace de una imagen: las
agrupaciones, oposiciones y tendencias , imposibles de discernir directamente sobre una tabla de datos,
inclusos después de un examen prolongado.
 Estas prestaciones de representaciones gráficas son también un “medio de comunicación” notable ya que
no es necesario ser estadístico para comprender que la “proximidad entre los puntos graficados traduce la
semejanza entre los objetos que representan” sin que sea necesario comprender la formalización
matemática de esta semejanza, se transmite una imágen de los datos.
 El Servicio de Cartografiado permite diagnosticar situaciones: las tablas de datos son precisamente un
obstáculo para su lectura fácil y su asimilación directa; el “cartografiado de la información contenida” se
ofrece mediante una panorámica excepcional, permitiendo una crítica particular de la realidad para el
usuario. Las figuras dadas por los gráficos presentan constataciones, inferencias, estimaciones, entrañan
conjeturas, y por esto constituyen preciosos instrumentos de análisis y comunicación simultáneamente.
 El Servicio de cartografiado permite hacer conocer la “realidad”: uno de los principales problemas con los
que se enfrenta todo periodista , gobernante, político o investigador, es la “conceptualización“ del medio
en donde se desarrolla; es decir, “lograr sintetizar afirmaciones generalizables a una situación
determinada”. Es aquí donde precisamente el servicio propuesto tiene su máxima aportación.
 Es posible medir ciertos aspectos intrínsecos del medio real y transformarlos a un “espacio de información
básico” que produce un modelo simulado, que es imagen actualizada de esa realidad. En ese sentido, esto
constituye principalmente el Servicio de Cartografiado .
 También , otro aspecto es el que permite exhibir aspectos que se escapan a la observación directa: propone
ir más lejos de las apariencias de los datos: “el Servicio de cartografiado de la información” establece un
compromiso entre el poder explicativo y la simplicidad; cumple una función de transferencia iconográfica
y su contribución más importante es hacer viva la estructura de la información y trasmitirla a todos los
usuarios por igual.
El Servicio planteado permite construir un “observatorio de datos”:
a) del Estado en materia de medio ambiente, salud, epidemias, demografía, necesidades básicas
insatisfechas poblacionales, socioeconómicas, etc...
b) de las Instituciones, en materia de análisis de la percepción, imágenes institucionales, análisis de
encuestas, análisis actitudinales, estudios e investigaciones en las ciencias, artes y tecnologías.
c) de las Empresas , en materia de posicionamiento frente al sector, comercialización, estudio e mercado,
imágenes de productos y servicios.
d) para establecer peritajes de la información a través de: el gobierno, empresas , entidades de protección a
los consumidores, medios periodísticos, municipios, etc.
También, permite crear un vínculo, entre la prestacion de consultoria a través de “mapas de indicadores
estadísticos” con el debate social, la argumentación y justificación de las decisiones ejecutivas y la
comunicación eficiente de la información al medio.

Matilde I. Césari 3
Tipos de tablas
1. Introducción
En la caracterización de la problemática a estudiar se encuentra el núcleo de la pre-comprensión
modelizante, que estructurará nuestra mirada para la elaboración de una hipótesis, teoría o modelo. El
modelo incluye una serie de operaciones o procedimientos de relación entre conceptos. Samaja considera
cuatro operaciones básicas intrínsecas a la tarea científica:
 Entificación, que se refiere al proceso de reconocimiento de las unidades de análisis
 Categorización, que se refiere al procedimiento de identificación de categorías semánticas (variables) y sus semas
respectivos (valores).
 Operacionalización, que se refiere a los procedimientos que se ponen en juego con las dimensiones de las variables
para llegar a los indicadores o concepto empírico de variable.
 Procesamiento de las observaciones, que vendrá condicionado por las operaciones anteriores, y que podrá ser
centrado en las variables, en las unidades de análisis o en los valores.
Según este enfoque, todos los datos de todas las investigaciones científicas poseen una estructura
invariante: Unidad de Análisis, Variables, Valores e Indicadores. La matriz de datos es el instrumento
básico para intentar una descripción de esa fase del comportamiento científico que consiste en diseñar la
información empírica para confrontar sus marcos teóricos.
Estas operaciones son verdaderas mediadoras entre la teoría previa y el momento empírico, y constituyen
los procedimientos necesarios para la determinación del Objeto Modelo o sistema de matrices de datos.
2. Matrices de datos
Los tres componentes son los elementos portadores de información y se representan en un matriz de fila
columna cuya celda, según podemos ver en la Figura 1.2., es un valor cuantitativo (con propiedades
numéricas) asociado a una unidad de medida o un valor discreto que representa frecuencias, proporciones o
valores binarios (lógicos); también puede ser un valor cualitativo representado por clases o categorías que
pueden o no tener un orden lógico.

Figura 1. Técnicas de análisis: de la matriz de datos al análisis multidimensional


Los datos textuales son oraciones, párrafos, fragmentos de textos, este tipo de valor conlleva un
procesamiento previo denominado anales léxico que permite representar la información en una tabla
“léxica” de frecuencia.

Figura 2. Tipos de Datos

Matilde I. Césari 4
El "individuo", representa la mínima unidad de análisis que observamos, está relacionado con el objeto de
estudio; cada unidad de análisis es observada y se puede medir o caracterizar por un valor (dato), este valor
puede ser un número o una cadena de caracteres (etiqueta). Cada característica o atributo observada
representa una variable, ya que para un conjunto de unidades de análisis pueden observarse diferentes
valores para esa característica.
Por ejemplo, si se está estudiando los factores asociados al riesgo de morir o vivir, para un paciente con
infarto de corazón, las unidades de análisis van a ser cada caso observado que llega a emergencia
(paciente), donde se mide su presión arterial, pulmonar entre otras características (datos numéricos) y se
observa su sexo (dato cualitativo), estas características medidas, incluyendo el sexo representan las
variables ya que para cada caso observado las mediciones varían, (si todos fuesen varones, en vez de tener
una variable sexo tendría una constante).
En el caso de las variables cualitativas cuyo valor es una cadena de caracteres, cada etiqueta representa una
categoría en que cada unidad de análisis puede ser clasificado, a esta categoría se le denomina "modalidad",
también le llamamos categoría o clase. En el ejemplo el sexo tiene dos posibles valores "mujer" o "hombre",
son dos modalidades en que los casos pueden ser clasificados o agrupados.

Cada fila representa la mínima unidad


de observación (puede haber una
columna con un identificador para cada
observación). En el cartografiado se
representan mediante puntos.
Cada Columna representa una variable
cuantitativa que representa
características o atributos medidos.
Poseen propiedades numéricas (media,
desvio…). En el cartografiado se
representan mediante vectores.

Cada fila representa la mínima unidad de


observación. En el cartografiado se representan
mediante puntos.
Cada Columna representa una variable
cualitativa representados por una cadena de
caracteres (etiqueta) que clasifica a cada
observación. No Poseen propiedades numéricas
y para cada variable se tiene un número dado de
posibles categorías, mutuamente excluyentes.
En el cartografiado se representan mediante
puntos, ya que representan grupos de
individuos..

En las tablas de contingencia las unidades de observación (de análisis) están implícitas en la tabla
representadas por la información contenida en ella. Tanto filas, como columnas representan grupos de
individuos de una cierta característica, el cruce provee un valor numérico que relaciona ambos grupos (uno
fila y otro columna).

Matilde I. Césari 5
Relacione características de fila con las de columna a través de un valor numérico que generalmente
representa frecuencia o ponderación pero puede ser un valor continuo positivo asociado a una unidad de
media. En estas tablas el total de filas (marginales fila) y el total columnas (marginales columnas) coinciden
Las tablas de frecuencia también son tablas de contingencia, pero en las filas tengo explícitos la mínima
unidad de análisis (no están agrupados en modalidades). Este tipo de tabla permite representar las tablas
disyuntivas o binarias y las tablas léxicas. Es muy útil cuando para una observación se presentan atributos
con valores cualitativos que no son mutuamente excluyentes (múltiple opción), e este caso cada columna
representa una modalidad y en el cruce un valor dicotómico (0 o 1) que indica si la observación está o no en
esa categoría (también podría asociarse un peso que indica la intensidad de la asociación).

Tablas Cuantitativas – Gráfica sobre la base de un Análisis de Componentes Principales


En estas tablas las variables “activas” cuyas relaciones se quiere representar en un Cartografiado, son
numéricas continuas.
Siendo cuantitativas continuas, tienen propiedades numéricas (sobre cada una de ellas se puede calcular
suma, promedio, mínimo y máximo), por lo tanto, las variables se representan mediante vectores. Los
extremos representan el mínimo y máximo valor y en el centro se encuentra la media de todas las varibles.
Por lo tanto, que todos los individuos estén en el centro significa que no hay mucha variabilidad, mientras
más dispersas están las observaciones mayores diferencias hay entre las unidades de análisis.
Las observaciones se distribuyen en el mapa en función de las variables, la proximidad entre ellos se da por
características comunes permitiendo agruparlos en cluster. Si proyectamos todos los individuos sobre uno
de los vectores podemos ver a todas las observaciones ordenadas según el mínimo y máximo de la variable.

Las variables pueden o no estar relacionadas entre si, esto se puede visualizar a través del ángulo entre
vectores (el coseno cuadrado equivale a la correlación), dos variables casi paralelas (ángulo pequeño)
representa una relación positiva, cuando una variable crece la otra también tiende a crecer. Si el ángulo es
casi 90º no hay relación entre ellas, es decir la variación de
una no tiene nada que ver con la variación de la otra. En
caso de estar casi a 180º (opuestas) se representa una
relación inversa, cuando una crece la otra tiende a
decrecer. La intensidad (longitud) del vector representa el
impacto o información que aporta la variable a estudio, si
es muy pequeño es posible eliminarlo y la distribución en
el plano no tendrá mucha variación.
En un estudio se puede tener otras características que
sirven para explicar por lo cual se proyectan
ilustrativamente sobre el mapa; estas variables pueden ser
otras variables continuas que se representan por ventores
o variables cualitativas cuyas modalidades se representan
a través de puntos (dado que son grupos de
observaciones), se proyectan para explicar algo sobre las
observaciones.

Matilde I. Césari 6
Ejemplo Tabla Cuantitativa Continua

Las unidades de observación son los


alimentos cuyas características medidas
son las calorías, hidratos, grasas y
proteínas.
El tipo de alimento es una variable
cualitativa que clasifica a los alimentos,
en el gráfico se coloreo a los individuos
en función de sus modalidades.

Tablas Cualitativas – Gráfica sobre la base de un Análisis Factorial de Correspondencias


En estas tablas las variables “activas” cuyas relaciones se quiere representar en un Cartografiado, son
numéricas cualitativas categóricas.
Tanto las observaciones como las variables se representan mediante puntos, en el caso de las variables cada
punto es una modalidad o categoría que aglomera a un grupo de individuos.
La proximidad entre puntos permite visualizar grupos de observaciones y las modalidades que caracterizan
al grupo y lo diferencia de otras observaciones alejadas.

Matilde I. Césari 7
Pueden incluirse otras variables que no forman parte del
análisis pero sirven para explicar y se proyectan
ilustrativamente. Pueden ser otras variables cualitativas
o variables continuas donde se proyecta los vectores.

Ejemplo Tabla Cualitativa Nominal

Las unidades de
observación son jóvenes
encuestados cuyas
características son su
opinión sobre actividades
que realiza
El sexo y nivel de
estudios sirve para
explicar y se proyecta
ilustrativamente

Matilde I. Césari 8
Si marcamos la trayectoria entre modalidades podemos visualizar las relaciones lineales entre tramos, de la
misma manera que hacíamos entre vectores. En este caso los individuos no están identificados pero pueden
verse en el gráfico mediante pequeños puntos azules.

Tablas Contigencia – Gráfica sobre la base de un Análisis Factorial de Correspondencias


En estas tablas las variables “activas” cuyas relaciones se quiere representar en un Cartografiado, son
numéricas cuantitativas y por lo general son frecuencia, conteo o ponderación.
Tanto fila como columnas representan categorías o modalidades de una variable, y se representan mediante
puntos. La proximidad permite asociar los grupos fila y los grupos columnas.

Algunas filas o algunas columnas pueden proyectarse ilustrativamente sin incluirlas en el análisis.
Las tablas de frecuencias son tablas de contingencia donde en columnas tenemos categorías pero en
cada fila la mínima unidad de observación, el dato es un valor entero positivo que puede ser 0 o 1 (binario) o
frecuencia.

La más conocida es la tabla disyuntiva que se crea a partir de


variables cualitativas, en cada columna se coloca una modalidad de
la variable y para cada individuo se indica 0 o 1 según pertenezca a
esa categoría. Otras tablas relacionadas son las tablas léxicas con
formas o segmentos característicos que se obtienen en el esudio de
textos; o tablas que se crean de esta manera cuando las categorías
en que puede clasificarse los individuos en una variable cualitativa
no son mutuamente excluyentes, es decir pueden estar en varias
categorías a la vez.
En este caso cada fila es la mínima unidad de análisis y pude
visualizar se en el grafico.
Pueden proyectarse ilustrativamente variables continuas y
cualitativas.

Matilde I. Césari 9
Ejemplo Tabla Contingencia

Datos que representan las estimaciones del consumo promedio en kg, de 9 fuentes diferentes de proteinas,
por los habitantes de 25 países, Greenacre (1984)

Matilde I. Césari 10
Ejemplo Tabla Frecuencia

Matilde I. Césari 11
3. De los instrumentos de observación a las tablas de investigación

Matilde I. Césari 12
Matilde I. Césari 13
Matilde I. Césari 14
Métodos multivariados para el diagnóstico por Imagen de Datos
El Análisis Multivariado de Datos (AMD) en la versión de la escuela francesa, surge en la década de los 70,
planteando fines menos deterministas que los de la Estadística tradicional, su objetivo general es la
búsqueda de una estructura presente en los datos, en un contexto de tipo más abductivo que deductivo,
que revaloriza el rol del individuo. Su naturaleza, fundamentalmente descriptiva y el acercamiento
geométrico asignan un rol muy importante a las representaciones gráficas, sobre todo en una etapa
exploratoria.
Los algoritmos desarrollados en el contexto del AMD se adaptan a diferentes niveles de complejidad de la
información: datos numéricos, textuales, simbólicos. Es decir que el dato puede ser algo más que un único
valor numérico resultado de la asignación de una medida o código a una unidad de análisis: puede ser una
palabra, un conocimiento, una posibilidad, una conjunción de valores.
Lebart (1995) han acuñado para estos métodos el nombre de exploratorios multidimensionales, pero se usó
mucho en el pasado el de análisis de datos y es sinónimo de estadística descriptiva multivariada o análisis
multivariado de datos. Se constituyen en una generalización de la estadística descriptiva univariada y
bivariada, pero la presencia de más variables o dimensiones la hace más compleja.
La interpretación de las representaciones gráficas requieren del conocimiento de la lógica de los métodos
y están siempre acompañadas de índices numéricos que complementan y enriquecen los análisis. En otras
palabras la utilización de estos métodos requiere de un entrenamiento para su utilización e interpretación
y hace prácticamente indispensable el trabajo interdisciplinario en la investigación.
Siendo el objetivo de estos métodos de análisis la descripción y exploración de la información, no se
requiere de modelos preestablecidos, ni de supuestos que muchas veces no se cumplen. Los métodos logran
la presentación analógica de la información recurriendo a principios geométricos.
Los métodos buscan documentar con datos los fenómenos que están siendo observados sobre poblaciones,
muestras o grupos más o menos grandes. La información sobre las unidades de observación ("individuos")
se transforma en tablas de datos. Una 2tabla de datos generalmente tiene filas que representan a los
"individuos" y columnas que representan a las variables, las cuales pueden ser continuas o nominales según
la escala de medición.
La tabla de datos (anexo 1) se representa, luego de una transformación adecuada, en un espacio de
múltiples dimensiones: nube de puntos. En la representación geométrica la distancia entre puntos significa
la diferencia entre los elementos considerados: si están cerca se parecen, si están lejos son muy diferentes.
La nubes de puntos construidas son abstractas pues no podemos ver espacios de más de tres dimensiones,
en realidad, en nuestros documentos, vemos bien dos dimensiones (planos). Pero la geometría abstracta de
esas representaciones hipergeométricas cumple con las mismas propiedades de la geometría plana y del
espacio euclidiana. Se recurre entonces a proyecciones sobre planos y a agrupamientos de puntos
cercanos, para observar lo más importante de esas representaciones.
La lectura, utilizando proyecciones, es el principio de los métodos factoriales, en cuyo caso la pérdida de la
información se manifiesta en forma de errores de proyección. En los métodos factoriales se busca el plano
para el cual los errores de proyección son en conjunto los menores posibles: primer plano factorial. La
lectura de la representación de clases o grupos de puntos cercanos, constituye los métodos de clasificación.
En estos métodos la pérdida de información se da porque cada elemento pierde sus características
específicas y se caracteriza, en cambio, por la clase a la que pertenece. Se buscan grupos de tal manera que
los elementos al interior de un grupo se parezcan y los elementos de diferentes grupos sean lo más
diferenciados posible. (Lebart et al. (1995).
La nomenclatura que aparece en el gráfico es propia del álgebra lineal. Sobre una tabla de datos son posibles
dos representaciones complementarias: la nube de los puntos fila y la nube de los puntos columna. Para
ubicar un punto en el plano se requieren dos coordenadas y para ubicarlo en un espacio abstracto de p
dimensiones, p coordenadas. El conjunto de las coordenadas necesarias para ubicar un punto se denomina
vector. En una tabla de n filas y p columnas, se tiene una nube de n puntos filas en donde cada fila está
representada mediante un vector de p coordenadas y una nube de p puntos columna con cada punto
representado por un vector de n coordenadas.
La naturaleza de las filas y columnas de una tabla de datos junto con los objetivos del estudio determinan
los métodos a utilizar: “estrategia metodológica”.
Dentro de los métodos factoriales el más útil es el análisis factorial de correspondencias múltiples (AFCM),
ya que es el adecuado para la lectura de tablas de “individuos” por variables cualitativas (nominales u
ordinales). El AFCM es una generalización del análisis de correspondencias simples (AFCS), utilizado para
la lectura de tablas de contingencia. El AFCS se puede ver como la aplicación simultánea de dos análisis en

Matilde I. Césari 15
Componentes principales (ACP). En la mayoría de las aplicaciones se utilizan métodos de clasificación que
dan lecturas complementarias a los métodos factoriales, de la tabla de datos.
El propósito de esta Sección es hacer una presentación comprensible mediante el modelo geométrico, que
da al menos un punto de vista intuitivo.

Bibliografía de Referencia :
L. Lebart, A. Morineau, J. Fénelon. "Tratamiento Estadístico de Datos". Edt. Marcombo- España.1985.
L. Lebart, A Morineau, M. Pirón. "Statistique exploratoire multidimensionnelle". Edt. DUNOD, París, 1995.
B. Escofier, J. Pagés. "Análisis factoriales simples y múltiples, objetivos, métodos e interpretación". Serv-
Edt. Universidad del País Vasco. Publ. DUNOD - BORDAS, París 1990.-
J. Batista Foguet, Mª.del Rosario M. Arias. "Análisis multivariante". Edit. Hipano Europea S.A., España
1989.-
Material científico y pedagógico de los Seminarios PRESTA. Universidad Libre de Bruselas- Unión Europea
- 1997.

Matilde I. Césari 16

Anda mungkin juga menyukai