Enfoque
El Análisis de datos exploratorios (EDA) es un enfoque / filosofía para el análisis de datos
que emplea una variedad de técnicas (principalmente gráficas) para
1. Maximizar el conocimiento de un conjunto de datos;
2. Descubrir la estructura subyacente;
3. Extraer variables importantes;
4. Detectar valores atípicos y anomalías;
5. Probar suposiciones subyacentes;
6. Desarrollar modelos parsimoniosos;
7. Y determinar la configuración óptima del factor.
Atención
El enfoque de EDA es precisamente eso, un enfoque, no un conjunto de técnicas, sino una
actitud / filosofía sobre cómo debe llevarse a cabo un análisis de datos.
Filosofía
La EDA no es idéntica a la gráfica estadística, aunque los dos términos se usan de manera
casi intercambiable. Los gráficos estadísticos son una colección de técnicas, todas basadas
en gráficas y todas enfocadas en un aspecto de caracterización de datos. EDA abarca un lugar
más grande; EDA es un enfoque para el análisis de datos que pospone los supuestos
habituales sobre qué tipo de modelo siguen los datos con el enfoque más directo de permitir
que los datos revelen su estructura y modelo subyacentes. EDA no es una mera colección de
técnicas; EDA es una filosofía sobre cómo diseccionar un conjunto de datos; lo que
buscamos; cómo nos vemos; y cómo interpretamos. Es cierto que EDA usa mucho la
colección de técnicas que llamamos "gráficos estadísticos", pero no es idéntica a los gráficos
estadísticos per se.
Historia
El trabajo seminal en EDA es El Análisis Exploratorio De Datos, Tukey, (1977). A lo largo
de los años se ha beneficiado de otras publicaciones dignas de mención como Análisis de
Datos y la Regresión, Mosteller y Tukey (1977), Análisis Interactivo de Datos, Hoaglin
(1977), El ABC de EDA, Velleman y Hoaglin (1981) y ha ganado un gran número de
seguidores. Como "la" forma de analizar un conjunto de datos.
Técnicas
La mayoría de las técnicas de EDA son de naturaleza gráfica con algunas técnicas
cuantitativas. La razón de la gran dependencia de los gráficos es que, por su propia naturaleza,
la función principal de EDA es explorar con mente abierta, y los gráficos dan a los analistas
el poder incomparable para hacerlo, atrayendo a los datos para revelar sus secretos
estructurales, y estar siempre listos para obtener una nueva percepción, a menudo
insospechada, de los datos. En combinación con las capacidades naturales de reconocimiento
de patrones que todos poseemos, los gráficos proporcionan, por supuesto, una potencia sin
igual para llevarlo a cabo.
Las técnicas gráficas particulares empleadas en EDA son a menudo bastante simples, que
consisten en varias técnicas de:
1. Trazar los datos brutos (como trazas de datos, histogramas, bihistogramas, diagramas de
probabilidad, diagramas de retraso, diagramas de bloques y diagramas de Youden).
1.1.2 ¿Cómo se diferencia el análisis de datos exploratorios del análisis de datos clásicos?
Enfoques de análisis de datos.
EDA es un enfoque de análisis de datos. ¿Qué otros enfoques de análisis de datos existen y
cómo difiere la EDA de estos otros enfoques? Tres enfoques populares de análisis de datos
son:
1. Clásico
2. Exploratorio (EDA)
3. Bayesiano
Paradigmas para técnicas de análisis
Estos tres enfoques son similares en que todos comienzan con un problema general de ciencia
/ ingeniería y todos arrojan conclusiones de ciencia / ingeniería. La diferencia es la secuencia
y el enfoque de los pasos intermedios.
Para el análisis clásico, la secuencia es:
Problema => Datos => Modelo => Análisis => Conclusiones
Para EDA, la secuencia es:
Problema => Datos => Análisis => Modelo => Conclusiones
Para Bayesian, la secuencia es:
Problema => Datos => Modelo => Distribución previa => Análisis => Conclusiones.
El método para tratar el modelo subyacente de los datos distingue los 3 enfoques:
Por lo tanto, para el análisis clásico, la recolección de datos va seguida de la imposición de
un modelo (normalidad, linealidad, etc.) y el análisis, la estimación y las pruebas que siguen
se centran en los parámetros de ese modelo. Para EDA, la recopilación de datos no es seguida
por una imposición del modelo; más bien es seguido inmediatamente por análisis con el
objetivo de inferir qué modelo sería apropiado. Finalmente, para un análisis bayesiano, el
analista intenta incorporar conocimiento / experiencia científica / de ingeniería en el análisis
mediante la imposición de una distribución independiente de los datos en los parámetros del
modelo seleccionado; por lo tanto, el análisis consiste en combinar formalmente tanto la
distribución previa en los parámetros como los datos recopilados para hacer inferencias de
forma conjunta y / o suposiciones de prueba sobre los parámetros del modelo.
En el mundo real, los analistas de datos combinan libremente los elementos de los tres
enfoques anteriores (y otros enfoques). Las distinciones anteriores se hicieron para enfatizar
las principales diferencias entre los tres enfoques.
Discusión adicional de la distinción entre los enfoques clásico y EDA
Centrándose en EDA versus clásico, estos dos enfoques difieren de la siguiente manera:
1. Modelos
2. Atención
3. Técnicas
4. Rigor
5. Tratamiento de datos
6. Suposiciones
1. Modelo
Clásico
El enfoque clásico impone modelos (tanto deterministas como probabilísticos) en los datos.
Los modelos determinísticos incluyen, por ejemplo, modelos de regresión y modelos de
análisis de varianza (ANOVA). El modelo probabilístico más común asume que los errores
sobre el modelo determinista se distribuyen normalmente; esta suposición afecta la validez
de las pruebas ANOVA F.
Exploratorio
El enfoque de Análisis de datos exploratorios no impone modelos determinísticos o
probabilísticos sobre los datos. Por el contrario, el enfoque EDA permite que los datos
sugieran modelos admisibles que se ajusten mejor a los datos.
2. Atención
Clásico
Los dos enfoques difieren sustancialmente en el enfoque. Para el análisis clásico, el foco
está en el modelo: estimar parámetros del modelo y generar valores pronosticados a partir
del modelo.
Exploratorio
Para el análisis exploratorio de datos, la atención se centra en los datos: su estructura, valores
atípicos y modelos sugeridos por los datos.
3. Técnicas
Clásico
Las técnicas clásicas son generalmente de naturaleza cuantitativa. Incluyen ANOVA,
pruebas t, pruebas chi-cuadrado y pruebas F.
Exploratorio
Las técnicas EDA son generalmente gráficas. Incluyen diagramas de dispersión, diagramas
de caracteres, diagramas de cajas, histogramas, bihistogramas, diagramas de probabilidad,
diagramas residuales y diagramas medios.
4. Rigor
Clásico
Las técnicas clásicas sirven como la base probabilística de la ciencia y la ingeniería; la
característica más importante de las técnicas clásicas es que son rigurosas, formales y
"objetivas".
Exploratorio
Las técnicas de EDA no comparten ese rigor o formalidad. Las técnicas de EDA compensan
esa falta de rigor al ser muy sugerentes, indicativas y perspicaces sobre cuál debería ser el
modelo apropiado.
Las técnicas de EDA son subjetivas y dependen de la interpretación, que puede diferir de
analista a analista, aunque los analistas experimentados comúnmente llegan a conclusiones
idénticas.
5. Tratamiento de datos
Clásico
Las técnicas de estimación clásica tienen la característica de tomar todos los datos y mapear
los datos en unos pocos números ("estimaciones"). Esto es a la vez una virtud y un vicio. La
virtud es que estos pocos números se enfocan en características importantes (ubicación,
variación, etc.) de la población. El vicio es que concentrarse en estas pocas características
puede filtrar otras características (asimetría, longitud de cola, auto correlación, etc.) de la
misma población. En este sentido, hay una pérdida de información debido a este proceso de
"filtrado".
Exploratorio
El enfoque EDA, por otro lado, a menudo hace uso de (y muestra) todos los datos disponibles.
En este sentido, no hay una pérdida de información correspondiente
6. Suposiciones
Clásico
La "buena noticia" del enfoque clásico es que las pruebas basadas en técnicas clásicas suelen
ser muy sensibles, es decir, si se produce un verdadero cambio en la ubicación, por ejemplo,
tales pruebas tienen frecuentemente la facultad de detectar dicho cambio y concluir que tal
cambio es "estadísticamente significativo". La "mala noticia" es que las pruebas clásicas
dependen de suposiciones subyacentes (p. Ej., Normalidad) y, por lo tanto, la validez de las
conclusiones de la prueba se vuelve dependiente de la validez de los supuestos subyacentes.
Peor aún, los supuestos subyacentes exactos pueden ser desconocidos para el analista, o si se
conocen, no probados. Por lo tanto, la validez de las conclusiones científicas se vincula
intrínsecamente con la validez de los supuestos subyacentes. En la práctica, si tales
suposiciones son desconocidas o no probadas, la validez de las conclusiones científicas se
vuelve sospechosa.
Exploratorio
Muchas técnicas de EDA hacen pocas suposiciones o ninguna: presentan y muestran los
datos, todos los datos, tal como están, con menos suposiciones engorrosas.
Exploratorio
Por el contrario, EDA tiene como objetivo más amplio el deseo de obtener información sobre
el proceso de ingeniería / científico detrás de los datos. Mientras que las estadísticas
resumidas son pasivas e históricas, la EDA es activa y futurista. En un intento por
"comprender" el proceso y mejorarlo en el futuro, EDA utiliza los datos como una "ventana"
para mirar en el corazón del proceso que generó los datos. Existe un papel de archivo en el
mundo de la investigación y la fabricación para estadísticas resumidas, pero el enfoque de
EDA tiene un papel enormemente mayor.
1.1.4 ¿Cuáles son los objetivos de EDA?
El objetivo principal de EDA es maximizar la visión del analista sobre un conjunto de datos
y dentro de la estructura subyacente de un conjunto de datos, al tiempo que proporciona todos
los elementos específicos que un analista querría extraer de un conjunto de datos, como:
un modelo ajustado y parsimonioso
una lista de valores atípicos
un sentido de robustez de las conclusiones
estimaciones de parámetros
incertidumbres para esas estimaciones
una lista clasificada de factores im portantes
conclusiones sobre si los factores individuales son estadísticamente significativos
ajustes óptimos
Las estadísticas y los procedimientos de análisis de datos se pueden dividir en dos partes:
cuantitativo
gráfico
Cuantitativo
Las técnicas cuantitativas son el conjunto de procedimientos estadísticos que producen
resultados numéricos o tabulares. Los ejemplos de técnicas cuantitativas incluyen:
evaluación de la hipótesis
Análisis de variación
estimaciones puntuales e intervalos de confianza
regresión de mínimos cuadrados
Estas y otras técnicas similares son todas valiosas y se han generalizado en términos de
análisis clásico.
Gráfico
Por otro lado, hay una gran colección de herramientas estadísticas a las que generalmente
nos referimos como técnicas gráficas. Éstas incluyen:
gráfico de dispersión
histogramas
parcelas de probabilidad
parcelas residuales
diagramas de caja
parcelas de bloques
Ejemplo de Anscombe
Un ejemplo simple y clásico (Anscombe) de la función central que juegan los gráficos en
términos de proporcionar información sobre un conjunto de datos comienza con el siguiente
conjunto de datos:
Datos X Y
10.00 8.04
8.00 6.95
13.00 7.58
9.00 8.81
11.00 8.33
14.00 9.96
6.00 7.24
4.00 4.26
12.00 10.84
7.00 4.82
5.00 5.68
Resumen estadístico
Gráfico de dispersión
Por el contrario, el siguiente diagrama de dispersión simple de los datos
sugiere lo siguiente:
1. El conjunto de datos "se comporta como" una curva lineal con algo de dispersión;
2. no hay justificación para un modelo más complicado (por ejemplo, cuadrático);
3. no hay valores atípicos;
4. la dispersión vertical de los datos parece ser de igual altura, independientemente del
valor X; esto indica que los datos son igualmente precisos en todo momento, por lo
que un ajuste "regular" (es decir, equi-ponderado) es apropiado.
Lo que implica que en cierto sentido cuantitativo, los cuatro conjuntos de datos son
"equivalentes". De hecho, los cuatro conjuntos de datos están lejos de ser "equivalentes" y
un diagrama de dispersión de cada conjunto de datos, que sería el paso 1 de cualquier enfoque
de EDA, nos lo diría de inmediato.
Gráfico de dispersión
Comparativo y Cribado
COMPARATIVO CRIBADO
Datos: Datos:
Una sola variable de respuesta yk variables Una sola variable de respuesta yk variables
independientes (Y, X1, X2, ..., Xk), el foco independientes (Y, X1, X2, ..., Xk).
primario está en uno (el factor principal) de Modelo:
estas variables independientes. y = f (x1, x2, ..., xk) + error
Modelo: Salida:
y = f (x1, x2, ..., xk) + error Una lista clasificada (de la más importante a
Salida: la menos importante) de los factores.
Un "sí" o un "no" a la pregunta "¿Es La mejor configuración para los factores.
significativo el factor primario?". Una buena ecuación de modelo / predicción
Técnicas: que relaciona Y con los factores.
Diagrama de bloque Técnicas:
Gráfico de dispersión Diagrama de bloque
Diagrama de caja Diagrama de probabilidad
Bihistograma
Optimización y Regresión
MEJORAMIENTO REGRESIÓN
Datos: Datos:
Una sola variable de respuesta yk variables Una sola variable de respuesta yk variables
independientes (Y, X1, X2, ..., Xk). independientes (Y, X1, X2, ..., Xk). Las
Modelo: variables independientes pueden ser
y = f (x1, x2, ..., xk) + error continuas.
Salida: Modelo:
La mejor configuración para las variables de y = f (x1, x2, ..., xk) + error
factor. Salida:
Técnicas: Una buena ecuación de modelo / predicción
Diagrama de bloque que relaciona Y con los factores.
Ajuste de mínimos cuadrados Técnicas:
Dibujo de contorno Ajuste de mínimos cuadrados
Gráfico de dispersión
6-Parcela
Series temporales y multivariante
SERIES DE TIEMPO MULTIVARIADO
Datos: Datos:
Una columna de números dependientes del k variables de factor (X1, X2, ..., Xk).
tiempo, Y. Además, el tiempo es una Modelo:
variable independiente. La variable de El modelo no es explícito.
tiempo puede ser explícita o implícita. Si los Salida:
datos no están equiespaciados, la variable de Identificar la estructura de correlación
tiempo debe proporcionarse explícitamente. subyacente en los datos.
Modelo: Técnicas:
yt = f (t) + error Star Plot
El modelo puede basarse en el dominio del Matriz de trazado de dispersión
tiempo o en el dominio de la frecuencia. Parcela de acondicionamiento
Salida: Parcela de perfil
Una buena ecuación modelo / predicción Componentes principales
que relaciona Y con los valores previos de Agrupación
Y. Discriminación / Clasificación
Técnicas: Tenga en cuenta que el análisis
Parcela de autocorrelación multivariable solo está cubierto ligeramente
Espectro en este Manual.
Diagrama de amplitud de demodulación
compleja
Diagrama de fase de demodulación
compleja
Modelos ARIMA