Discretización
Análisis de
Correspondencias
ANEXO 1
Variable cuantitativa en clases (discretización)
a. Discretización por clases óptimas / partición univariada con Xlstat
Utilice la partición univariada para repartir los individuos en clases homogéneas de manera
óptima, sobre la base de su descripción por una única variable cuantitativa.
La partición univariada consiste en obtener una partición que minimiza la inercia
intraclase. XLSTAT utiliza un algoritmo de programación dinámico: el algoritmo de Fisher
(1958). Este algoritmo garantiza que la solución obtenida es la solución óptima, es decir, la
mejor solución posible.
Los primeros datos usados (demoDiscretization.xls) corresponden a una lista de pacientes
con información relativa a su peso, masa y BMI (IMC, índice de masa corporal)1.
Masa Altura
BMI
(kg) (m)
56 1.59 22.15
68 1.79 21.22
97 1.67 34.78
82 1.83 24.49
47 1.59 18.59
112 1.7 38.75
148 1.68 52.44
125 1.86 36.13
72 1.83 21.50
76 1.65 27.92
75 1.89 21.00
87 1.78 27.46
89 1.75 29.06
59 1.62 22.48
62 1.64 23.05
67 1.63 25.22
105 1.92 28.48
98 1.48 44.74
82 2.05 19.51
51 1.61 19.68
1 https://help.xlstat.com/customer/es/portal/articles/2062316-convertir-en-discreta-una-variable-continua-en-
excel
Césari 2018 Página 1
ANEXO 1 N04
Discretización
Análisis de
Correspondencias
Discretización
Análisis de
Correspondencias
Discretización
Análisis de
Correspondencias
Seleccionamos la columna BMI con las clases discretizadas y activamos el autofiltro. Esto
permitirá ir reemplazando cada código numérico por una etiqueta.
Los intervalos están prefijados por el investigador pero en la muestra observada no están
presentes todos los intervalos.
Discretización
Análisis de
Correspondencias
Seleccionamos la
opción Automática (Fisher) y
establecemos que busque 5
particiones optimas.
Los dos últimos rangos solo tienen una sola observación, tienen una inercia grande con
respecto a los centros de clase, por lo que no se pueden clasificar en ninguna partición por
ser valores atípicos (se alejan del resto). En conclusiones anotaremos lo que sucede. Luego,
una opciones, es no incluir estos dos pacientes en la discretización y luego agregarlos al
último rango (para no eliminar todo el individuo lo reclasificamos al rango más cercano).
Ubiquemos quienes son los pacientes de estos dos rangos para colocarlos al final de la tabla
y volver a realizar la discretización sin considerarlos.
Discretización
Análisis de
Correspondencias
Escribir etiquetas:
No deben superar los 20 caracteres, evitar usar espacio y caracteres como “-“, %”, u otros
Debe incluir –de manera codificada- variable, rango y orden. Por lo general lo más
compatible con la mayoría de las herramientas de análisis es colocar los rangos entre
corchetes [_a_], sin espacio y separar límites con la letra a. Es una etiqueta lingüística
simbólica, no es necesario invertir el corchete para indicar límite abierto o cerrado, no es
una notación científica. Dos a cuatro letras para la variable y luego del corchete o usar un
numero o una letra para indicar orden, esto facilita la interpretación de los resultados del
análisis factorial.
En nuestro ejemplo, a la derecha de la tabla de Estadísticos las etiquetas apropiadas serían: