Anda di halaman 1dari 7

ANEXOS N04

Actividad cuyo propósito es proponer a los participantes un trabajo grupal en


torno a un tópico específico, crea un entorno muy propicio para compartir sus
conocimientos con los demás compañeros de taller y fomentar el aprendizaje.

Taller Práctico sobre Estudio de


Tablas Cualitativas y de
Contingencia con el Análisis de
Correspondencias Relaciones No
Lineales
ANEXO 1 N04

Discretización
Análisis de
Correspondencias

ANEXO 1
Variable cuantitativa en clases (discretización)
a. Discretización por clases óptimas / partición univariada con Xlstat
Utilice la partición univariada para repartir los individuos en clases homogéneas de manera
óptima, sobre la base de su descripción por una única variable cuantitativa.
La partición univariada consiste en obtener una partición que minimiza la inercia
intraclase. XLSTAT utiliza un algoritmo de programación dinámico: el algoritmo de Fisher
(1958). Este algoritmo garantiza que la solución obtenida es la solución óptima, es decir, la
mejor solución posible.
Los primeros datos usados (demoDiscretization.xls) corresponden a una lista de pacientes
con información relativa a su peso, masa y BMI (IMC, índice de masa corporal)1.
Masa Altura
BMI
(kg) (m)
56 1.59 22.15
68 1.79 21.22
97 1.67 34.78
82 1.83 24.49
47 1.59 18.59
112 1.7 38.75
148 1.68 52.44
125 1.86 36.13
72 1.83 21.50
76 1.65 27.92
75 1.89 21.00
87 1.78 27.46
89 1.75 29.06
59 1.62 22.48
62 1.64 23.05
67 1.63 25.22
105 1.92 28.48
98 1.48 44.74
82 2.05 19.51
51 1.61 19.68

Una vez activado XLSTAT, seleccione XLSTAT / Preparación de datos / Discretización, o


haga clic en el botón correspondiente de la barra de herramientas “Preparación de datos”

1 https://help.xlstat.com/customer/es/portal/articles/2062316-convertir-en-discreta-una-variable-continua-en-
excel
Césari 2018 Página 1
ANEXO 1 N04

Discretización
Análisis de
Correspondencias

Tras hacer clic en el botón correspondiente, aparece el cuadro de diálogo.


Seleccione los datos en la hoja de Excel correspondiente al IMC (columna D). Marque la
opción Etiquetas de las columnas, puesto que la selección contiene el nombre de la variable
“BMI”. Marque la opción Etiquetas de las filas y seleccione el nombre de los pacientes
(columna A). Dispone de varias opciones con las que agrupar a las muestras:
 Amplitud constante: Elija este método para crear clases que tienen el mismo rango.
Descomposición a paso constante entre los valores mínimos y máximo de la columna de valores
seleccionada. A continuación, introduzca el valor del rango. Opcionalmente, puede especificar el
"mínimo" que corresponde al límite inferior del primer intervalo si es necesario.
 Intervalos: Use este método para crear un número predeterminado de intervalos con el mismo
rango.
 Frecuencias iguales: Seleccione este método de forma que todas las clases contengan tantas
observaciones con el mismo número como sea posible.
 Automática (Fisher): Use este método para crear las clases mediante el algoritmo de Fisher
clases óptimas. Frente de la minimización de la inercia intraclase con efectivos iguales en el caso
de datos no ponderados, o a peso constante, cuando los datos son ponderados
 Automática (k-means): Elija este método para crear clases (o intervalos) usando el algoritmo de
k-medias.
 Intervalos (definidos por el usuario): Elija esta opción para seleccionar una columna que
contenga el límite inferior del primer intervalo, y el límite superior de todos los intervalos en
orden creciente.
 80-20: Utilizar este método para crear dos clases, la primera contiene el primer 80% de la serie,
y la segunda contiene el 20% restante con los datos ordenados en orden creciente.
 20-80: Utilizar este método para crear dos clases, la primera contiene el primer 20% de la serie,
y la segunda contiene el 80% restante con los datos ordenados en orden creciente.
 80-15-5(ABC): Utilizar este método para crear dos clases, la primera que contiene el primer 80%
de la serie, la segunda contiene el siguiente 15%, y la tercera contiene el 5% restante con los
datos ordenados en orden creciente. Este método se conoce a veces como "Clasificación ABC".
 5-15-80: Utilizar este método para crear dos clases, la primera que contiene el primer 5% de la
serie, la segunda contiene el siguiente 15%, y la tercera contiene el 80% restante con los datos
ordenados en orden creciente.
Seleccionamos la opción Intervalos (definidos por el usuario) y usamos los límites
definidos por XLSTAT en la hoja de Microsoft Excel.

Césari 2018 Página 2


ANEXO 1 N04

Discretización
Análisis de
Correspondencias

Vaya a la pestaña Resultados para


seleccionar qué resultados
calcular.
Seleccione Centroides, Resultados
por clase y Resultados por objeto.

Vaya a la pestaña Gráficos y


seleccione Histogramas y a
continuación Barras.

Cuando esté listo, haga click


en OK.

Los resultados se muestran en la nueva hoja denominada “Discretización”.


El primer resultado es el
histograma.

Advierta que el tamaño de


las barras corresponde al
tamaño de las clases.

Césari 2018 Página 3


ANEXO 1 N04

Discretización
Análisis de
Correspondencias

Seguidamente está la tabla de estadísticos descriptivos de los intervalos.

A continuación aparecen los centroides de las clases.

Finalmente, se ofrece la dispersión de los pacientes dentro de las clases BMI.

Seleccionamos la columna BMI con las clases discretizadas y activamos el autofiltro. Esto
permitirá ir reemplazando cada código numérico por una etiqueta.
Los intervalos están prefijados por el investigador pero en la muestra observada no están
presentes todos los intervalos.

Césari 2018 Página 4


ANEXO 1 N04

Discretización
Análisis de
Correspondencias

Si lo que se desea es particionar la variable tratando de conservar la variabilidad observada


es decir obtener tramos de la variable como naturalmente se observa en la muestra, el
método de clases óptimas (Fisher) es más apropiado y coherente con los análisis
factoriales.

Seleccionamos la
opción Automática (Fisher) y
establecemos que busque 5
particiones optimas.

Obtenemos los siguientes resultados

Los dos últimos rangos solo tienen una sola observación, tienen una inercia grande con
respecto a los centros de clase, por lo que no se pueden clasificar en ninguna partición por
ser valores atípicos (se alejan del resto). En conclusiones anotaremos lo que sucede. Luego,
una opciones, es no incluir estos dos pacientes en la discretización y luego agregarlos al
último rango (para no eliminar todo el individuo lo reclasificamos al rango más cercano).
Ubiquemos quienes son los pacientes de estos dos rangos para colocarlos al final de la tabla
y volver a realizar la discretización sin considerarlos.

Césari 2018 Página 5


ANEXO 1 N04

Discretización
Análisis de
Correspondencias

Volvemos a realizar la discretización por clases óptimas sin p7 y p18


Los resultados muestran tres particiones, a pesar que indicamos 5 según la variabilidad o
inercia solo es poible dividir esta variable en tres clases o rangos. En el último rango
agregamos p7 y p18.

Escribir etiquetas:
No deben superar los 20 caracteres, evitar usar espacio y caracteres como “-“, %”, u otros
Debe incluir –de manera codificada- variable, rango y orden. Por lo general lo más
compatible con la mayoría de las herramientas de análisis es colocar los rangos entre
corchetes [_a_], sin espacio y separar límites con la letra a. Es una etiqueta lingüística
simbólica, no es necesario invertir el corchete para indicar límite abierto o cerrado, no es
una notación científica. Dos a cuatro letras para la variable y luego del corchete o usar un
numero o una letra para indicar orden, esto facilita la interpretación de los resultados del
análisis factorial.
En nuestro ejemplo, a la derecha de la tabla de Estadísticos las etiquetas apropiadas serían:

Césari 2018 Página 6

Anda mungkin juga menyukai