Anda di halaman 1dari 19

ANALISIS GRAFICO Y ANALISIS

EXPLORATORIO DE LOS DATOS (AED)


Notas
Indice
1. OBJETIVOS DEL TEMA

2. CONCEPTOS BSICOS PREVIOS

3. INTRODUCCIN

4. APUNTE HISTRICO

5. ETAPAS DEL AED

6. PROCEDIMIENTOS AED RELACIONADOS CON DISTRIBUCIONES UNIVARIADAS

7. PROCEDIMIENTOS AED RELACIONADOS CON DISTRIBUCIONES BIVARIADAS

12

8. PROCEDIMIENTOS AED RELACIONADOS CON DISTRIBUCIONES MULTIVARIADAS

13

9. PROCEDIMIENTOS RELACIONADOS CON ANLISIS DE SERIES TEMPORALES

13

10. PROCEDIMIENTOS GRFICOS RELACIONADOS CON EL DISEO EXPERIMENTAL UNIFACTORIAL

14

11. PROCEDIMIENTOS RELACIONADOS CON EL DISEO EXPERIMENTAL MULTIFACTORIAL

17

12. PROCEDIMIENTOS RELACIONADOS CON EL CONTROL DE LA CALIDAD

18

13. OTROS PROCEDIMIENTOS DE ANLISIS EXPLORATORIO DE DATOS: EL DIAGRAMA DE TALLO Y HOJAS

18

1. Objetivos del tema

Conocer y comprender el concepto de anlisis exploratorio de los datos (AED)

Conocer las etapas a seguir para realizar un AED

Conocer las herramientas grficas y numricas que constituyen el AED

Saber seleccionar los procedimientos ms adecuados para examinar los datos y relaciones de inters

Comprobar si se verifican las hiptesis de inters

Saber identificar la presencia de datos atpicos (extremos o anmalos)

Saber evaluar la trascendencia de datos ausentes y su potencial impacto

2. Conceptos bsicos previos


Distribuciones aleatorias
Estadsticos descriptivos
Muestreo

3. Introduccin
3.1. Concepto del AED
El anlisis exploratorio de los datos (AED) ms que un conjunto de tcnicas o herramientas grficas y
numricas, es un enfoque, actitud, lnea de investigacin o filosofa del anlisis estadstico previo a la
comprobacin de hiptesis o anlisis especializados para diseccionar y entender la estructura de los datos u
observaciones de la muestra y las posibles relaciones entre las variables medidas. (1, 2).
Aunque muy a menudo se identifica anlisis grfico y AED no debieran confundirse. El anlisis grfico es
una coleccin de procedimientos estadsticos basados en grficos enfocados a caracterizar un aspecto
determinado de los datos. AED es un concepto ms ambicioso, que combina procedimientos numricos y
grficos y se propone investigar la estructura subyacente a una base de datos sugiriendo modelos,
relaciones e interpretaciones como primer paso de un estudio estadstico. El siguiente paso ser el anlisis
confirmatorio, o inferencial (3).
Con todo no hay que olvidar que el anlisis exploratorio de los datos fue diseado en una poca preinformtica, donde no exista la facilidad de componer grficos como hoy en da.
El AED Se compone de un conjunto de tcnicas diseadas para identificar modelos fundamentales,
conceptualmente significativos, las relaciones entre los datos y para llamar la atencin sobre aquellas
observaciones que se desvan del modelo fundamental. Entre las principales herramientas grficas del AED
estn:

Histograma

Diagrama de cajas

Diagrama multivari

Diagrama continuo

Diagrama de Pareto

Diagrama de dispersin

Grfico de tronco y hojas

3.2. Objetivos del AED


El anlisis exploratorio de los datos (AED), en oposicin al anlisis explicativo de los datos, tiene por
finalidad general:

ahondar en la estructura (normal, asimtrica, lineal, homocedstica, etc.) de los datos

Descubrir estructuras subyacentes

Sugerir hiptesis causales de los fenmenos observados

Descubrir las relaciones o patrones sistemticos existentes entre las variables analizadas

Desarrollar modelos con el mnimo nmero de parmetros (parsimoniosos)

Ayudar a seleccionar las herramientas estadsticas apropiadas

Determinar el conjunto ptimo de factores

Sintetizar y presentar la informacin contenida en el conjunto de datos de forma ptima

Proporcionar una base para muestreos (observacionales o experimentales) subsiguientes

3.3. Estrategia del AED


Entre sus estrategias estn:

Organizar y preparar los datos para ulteriores anlisis estadsticos;

Detectar fallos de diseo, errores en la obtencin o codificacin de datos y tratamiento de datos


ausentes

Identificar la presencia de datos atpicos (extremos o anmalos)

Comprobar que las suposiciones subyacentes en las tcnicas estadsticas inferenciales se cumplen
en la muestra de datos

4. Apunte histrico

John Wilder Tukey (1915-2000)


Las numerosas contribuciones a la estadstica de John W Tukey, pionero del AED (3), tuvieron un impacto
definitivo sobre el anlisis estadstico de los datos. John W Tukey acu trminos como software, bit, etc.

5. Etapas del AED


5.1. Preparacin de los datos
Seleccin del mtodo de entrada al sistema informtico:
(a) entrada manual por teclado;
(b) entrada a un paquete ofimtico (ej.: MS Excel);
(c) entrada a un paquete estadstico (ej.: SPSS);
(d) importacin, si procede al paquete estadstico.
Codificacin de los datos:
(a) continuos o de intervalo;
(b) ordinales;
(c) nominales;
(d) dicotmicos.
Transformaciones y manipulaciones de los datos:
(a) combinar o segregar conjuntos de datos;
(b) ordenar datos;
(c) agregar o suprimir datos o variables;
(d) transformar datos (ex.: logaritmos, dicotomizacin);
(e) guardar, imprimir o exportar datos.
Establecer claves de los cdigos utilizados.

5.2. Anlisis grfico de las variables individuales


Segn la naturaleza de los datos
(a) diagrama de datos ordenados
(b) diagrama de dispersin en el diseo experimental (DEX)
(c) diagramas de medias DEX
(d) Interaccin de efectos
(e) diagrama de cajas
(f) sondas DEX
(g) efectos
(h) diagrama seminormal
(i) diagrama residual acumulativo
(j) diagrama de contorno

5.3. Anlisis grfico de las relaciones entre variables


Diagrama de dispersin

5.4. Evaluacin de supuestos bsicos subyacentes


Grficos PP
Grficos cuantil-cuantil

5.5. Investigacin de la presencia de datos atpicos


Diagrama de cajas

5.6. Investigacin de la existencia de datos ausentes


escala de
medida
Intervalo
Ordinal
Nominal

mtodos numricos
localizacin
dispersin

mtodos grficos
Histograma
Polgono de frecuencias
Diagrama de cajas
Diagrama de barras
Diagrama de lneas
Diagrama de sectores

Media
Mediana
Moda

Desviacin tpica
Coeficiente de variacin
Rango interfractlico

Procedimientos relacionados Diagrama bootstrap


con distribuciones univariadas Diagrama de demora
Diagrama de linealidad de Cox y Box
Diagrama de probabilidad
Diagrama de normalidad de Cox y Box
Diagrama de probabilidad normal
Diagrama de probabilidad del coeficiente de correlacin
Diagrama de secuencia serial
Diagrama de Weibull
Diagrama mltiple
Histograma
Procedimientos relacionados Diagrama de dispersin
con distribuciones bivariadas Diagrama 6
Diagrama de correlacin lineal
Diagrama de interceptacin lineal
Diagrama de pendiente lineal
Diagrama de desviacin tpica residual lineal
Procedimientos relacionados Diagrama de estrella
con distribuciones
Grficos funcionales de Andrews
multivariadas
Procedimientos relacionados Diagrama de autocorrelacin
con anlisis de series
temporales
Procedimientos relacionados Bihistograma
con el diseo experimental
Diagrama de cajas
unifactorial
Diagrama de desviaciones tpicas
Diagrama de dispersin
Diagrama de medias
Diagrama cuantilcuantil
4

Procedimientos relacionados
con el diseo experimental
multifactorial

Procedimientos relacionados
con el control de la calidad

Diagrama de bloques
Diagrama de contorno
Diagrama de desviacin tpica en diseo experimental
Diagrama de dispersin en diseo experimental
Diagrama de medias en diseo experimental
Diagrama de Youden
Grficas de control para observaciones individuales: CuSum,
MA, MR, EWMA
Grficas de Pareto
2

Grficas de Shewhart para control de variables: R , s , s , x


Grficas de Shewhart para control de atributos: C , N P , P , U
2

Grficas T de Hotelling para control multivariado

6. Procedimientos AED relacionados con distribuciones univariadas


6.1. Diagrama bootstrap
(ver Mdulo 4: Bootstrap)

6.2. Diagrama de demora


Definicin:

El diagrama de demora es un grfico de dispersin de cada observacin respecto a la


observacin anterior. Una demora (lag) es un desplazamiento temporal fijo. En el conjunto
de datos

{ X 1 , X 2 , , X n }

la demora entre X 8 y X 3 es 8 3 = 5 . Pueden dibujarse

grficos para cualquier demora, aunque quizs los ms utilizados son los de demora 1. Un
diagrama de demora 1 tiene por:

Sinnimo:
Propsito:

Ejemplos:

(a) abscisas:

X i 1

i1

(b) ordenadas:

Xi

Lag plot
La finalidad del diagrama de demora es comprobar (a) la aleatoriedad de un conjunto de
datos o serie temporal; (b) la presencia de autocorrelacin en una serie temporal2; (c) la
presencia o ausencia de datos extremos (datos aberrantes, outliers); y (d) si existe un
modelo adecuado a la estructura de los datos.
(4)

1 El smbolo se lee para todo, en este caso, i significa para todo (alternativamente, para
cualquier), valor de i .
2 Una serie temporal es una secuencia de observaciones sucesivas, y por lo tanto estadsticamente no
independientes. Se caracteriza por presentar (o no) tendencia (aumentos o decrementos en los valores
medios), periodicidad (fluctuaciones por ejemplo diarias, mensuales, estacionales o anuales) y
autocorrelacin (las observaciones ms prximas son ms probablemente similares que las ms alejadas
en el tiempo).
5

Tcnicas estadsticas relacionadas:

Diagrama de autocorrelacin (vase Mdulo 3: anlisis de series


temporales);
Diagrama espectral (vase Mdulo 3: anlisis de series temporales);
Test de rachas.
Interpretacin: En caso de tratarse de un conjunto aleatorio de datos, el grfico no presentar ninguna
estructura identificable. En el ejemplo (a) se observa un modelo lineal, fuertemente no
aleatorio y sin presencia de datos aberrantes.

6.3. Diagrama de linealidad de Cox y Box


Definicin:

La transformacin linear de Box y Cox (5, 6) es una familia particularmente til de


transformaciones utilizadas para mejorar el ajuste lineal. Se definen como

X 1

X =

ln ( X )
donde:

si 0
si = 0

X
X

es la variable transformada;

es el parmetro de transformacin.

es la variable transformada; y

El diagrama de linealidad de Box y Cox es un grfico que permite hallar de una forma
sencilla el valor del parmetro de la correlacin existente entre la variable Y y la variable
X ( X transformada) para un valor dado de . Se define,

Sinnimo:
Propsito:
Ejemplo:

(a) en abscisas:

(el valor ptimo para es la correlacin mxima cuando es


positiva, o la mnima cuando es negativa).

(b) en ordenadas:

la correlacin entre Y y X .

El valor ptimo para ser la correlacin mxima cuando es positiva, o la mnima cuando
es negativa.
Box-Cox linearity plot
Investigar si el ajuste mejorar con una transformacin y en este caso, hallar el mejor valor
para el parmetro de la transformacin.
(4)

Tcnicas estadsticas relacionadas:

Regresin lineal;
Diagrama de normalidad de Box y Cox
Interpretacin: En el ejemplo se observa como el grfico de los datos originales y los residuales sugiere un
ajuste no lineal (cuadrtico, concretamente) o, alternativamente una transformacin. El
coeficiente de correlacin es de 1 para = 2, 0 . La transformacin de Box Cox con ste
valor de parmetro permite el ajuste lineal mostrado en el tercer diagrama.

6.4. Diagrama de normalidad de Box y Cox


Definicin:
Sinnimo:
Propsito:
Ejemplo:

Box-Cox normality plot


(4)

Tcnicas estadsticas relacionadas:


Interpretacin:

6.5. Diagrama de probabilidad y de probabilidad normal


Definicin:

Sinnimo:
Propsito:

es un diagrama que representa la distribucin acumulada de las observaciones


estandarizadas. Puede incorporar una lnea correspondiente a la distribucin terica (por
ejemplo, la distribucin normal) para enfatizar el ajuste de los datos experimentales
(a) abscisas:
resultados ordenados en forma creciente (algunas versiones utilizan
las medianas ordenadas);
(b) ordenadas:
frecuencia (es decir, probabilidad) acumulada de los resultados de la
variable dependiente escalada segn la distribucin que se desea
comprobar (papel probabilstico normal en el caso de la distribucin
normal)3;
diagrama PP, PP plot, [normal] probability plot
Evaluar la bondad de ajuste de la distribucin de los datos a una distribucin determinada.
El diagrama de probabilidad normal es un caso especial del diagrama de probabilidad en el
que la distribucin a examen es la normal. Permite investigar si los datos se ajustan a una
determinada distribucin, por ejemplo la normal, y en caso que no sea as; cul es la posible
razn de este alejamiento de la normalidad (por ejemplo, el sesgo) y cul puede ser la
distribucin terica ms apropiada

Por ejemplo, en el caso de la distribucin normal, los valores estandarizados, resultado de la


transformacin:

z=

xx
s

utilizando tablas de la distribucin normal inversa o funciones implementadas en paquetes estadsticos para
obtener el fractil de la distribucin normal y representarlo en una escala decimal. No obstante, la mayor
parte de paquetes estadsticos proporciona directamente el diagrama y no es necesaria esta
transformacin.
7

Ejemplo:

(4)

Tcnicas estadsticas relacionadas:

diagramas de probabilidad;
diagrama de probabilidad del coeficiente de correlacin;
histograma;
tests de normalidad (Shapiro Wilks, Anderson Darling, Kolmogorov,

2 , etc.)
Interpretacin: Cuando la distribucin observada se ajusta a la terica, los puntos se disponen en lnea
recta. Cuando este ajuste no es bueno, adoptan otras formas. En los siguientes grficos se
indica cuando la distribucin es (A) asimtrica a la derecha, (B) asimtrica a la izquierda, (C)
leptocrtica, o (D) platicrtica:

Las principales ventajas son la sencillez de interpretacin, la extensin a cualquier tipo de


distribucin y, en el caso de la distribucin normal, la facilidad de obtener el diagrama ya
que est implementado en muchos paquetes estadsticos. Adems, no requieren muestras
tan numerosas como algunos tests de normalidad. El principal inconveniente es la
subjetividad de la interpretacin visual, ya que al contrario de los tests de normalidad
numricos, no se concluye con una p objetiva.

6.6. Diagrama de probabilidad del coeficiente de correlacin


Definicin:

el diagrama de probabilidad del coeficiente de correlacin (1) es un grfico que representa


el coeficiente de correlacin frente al parmetro de forma de la distribucin, :
(a) abscisas:

Sinnimo:

valor del parmetro de la forma de la distribucin

;y

(b) ordenadas: diagrama de probabilidad del coeficiente de correlacin.


PPCC, probability plot correlation coefficient plot, diagrama lambda de Tukey4

4 La distribucin lambda generalizada (lambda asimtrica, lambda de Tukey) es una distribucin con un
amplio abanico de formas. Se define por su funcin cuantil la inversa de la funcin (acumulativa) de
distribucin, con cuatro parmetros: 1 , 2 , 3 , 4 . Existen varias parametrizaciones, por ejemplo la
propuesta por Freimer (7) con una funcin cuantil:
8

Propsito:

estimar parmetros de localizacin y escala, proporcionando al mismo tiempo una


evaluacin grfica de la bondad de ajuste en aquellos problemas en que el anlisis
estadstico asume un cierto tipo de distribucin. Es aplicable a distribuciones (como la de
Weibull) que se definen mediante un parmetro de forma adems de los parmetros de
localizacin y escala. Por esta razn no es adecuada para caracterizar distribuciones como
la normal caracterizadas nicamente por parmetros de localizacin y escala. Una
aplicacin adicional es decidir qu familia de distribuciones se ajusta mejor a los datos
observados.

Ejemplo:

Tcnicas estadsticas relacionadas:


diagrama de probabilidad.
Interpretacin: El parmetro formal es especialmente til para orientar si una distribucin posee una cola
ms o menos extensa e indica varias distribuciones comunes:

1
-1
0
0,14
0,5
1

Forma de la distribucin
Cauchy (aproximada)
Logstica (exacta)
Normal (aproximada)
U
Uniforme (exacta)

6.7. Diagrama secuencial


(Vase el tema Anlisis de series temporales)

6.8. Diagrama de Weibull


Definicin:

El diagrama de Weibull es una tcnica grfica para evaluar el ajuste y obtener una
estimacin de los parmetros de forma y escala de una distribucin de Weibull5. Est
definido por:

u 3 1
F 1 ( u ) = 1 +
donde:

(1 u )

es un parmetro de localizacin;

es un parmetro de dispersin; y

3 , 4

son dos parmetros de forma, tales que si

1 = 2

la distribucin es simtrica.

5 La distribucin de Weibull es una familia de distribuciones caracteriza por:

Y = ( X )
donde:

es el parmetro de escala;
9

e ( X )

(a) abscisas:
(b) ordenadas:

el logaritmo neperiano de la respuesta ordenada; y


la probabilidad acumulada (en porcentaje) de la distribucin de
Weibull, una escala diseada para que, de seguir tal distribucin, el
grfico resultante del ajuste por mnimos cuadrados sea
aproximadamente linear:

Y = ln ( ln (1 p ) )

donde:

p=

i 0,3
;y
n + 0, 4

i es el orden (el ordinal) de la observacin: se requiere un mnimo de


7 observaciones:
Sinnimo:
Propsito:

Ejemplo:

Weibull plot
Es una tcnica grfica para establecer si un conjunto de datos procede de una poblacin
que se ajusta razonablemente a la distribucin de Weibull con dos parmetros, suponiendo
que la localizacin es cero (8)..
(4)

Tcnicas estadsticas relacionadas:

Diagrama de probabilidad de Weibull;


Diagrama PPCC de Weibull;
Diagrama de riesgo de Weibull.
Estos dos ltimos permiten a diferencia del diagrama de Weibull la existencia de datos ausentes.
Interpretacin: la misma que otros diagrama de ajuste de datos a distribuciones trericas.

6.9. Diagramas mltiples


Sinnimo:
Propsito:
Ejemplos:

4Plot, 6 plot
Combinar en un mismo diagrama diversos grficos (4, 6, etc.).
(4)

es el parmetro de forma;
es el parmetro de localizacin.

10

6.10. Histograma
Definicin:

El histograma es un grfico que presenta frecuencias tabuladas. Viene a ser la versin


grfica de la tabla, mostrando la proporcin de casos que caen dentro de determinadas
categoras o clase. Formalmente el histograma puede definirse como un mapa que
presenta el recuento de observaciones que pertenecen a n categoras disjuntas o clases y
el diagrama histograma es su expresin grfica. El histograma hi satisface la condicin

N =

h
i =1

donde: N

es el nmero total de observaciones; y


es el ndice que identifica la clase.

Un histograma acumulativo H i de un histograma hi es un mapa que presenta el recuento


acumulativo de observaciones que pertenecen a las i categoras disjuntas o clases previas,
definindose como:

Hi =

h
j =1

Un histograma estandarizado (clsico o acumulativo) es aquel en que se representan


frecuencias relativas en lugar de frecuencias absolutas.
El nmero de clases n tiene una importancia decisiva en el aspecto e interpretacin del
histograma, por lo que debe seleccionarse con cuidado, a partir de reglas empricas como:

n=

n=2 N
n = 10 log N
(esta ltima regla requiere un nmero de observaciones superior a 50). O alternativamente,
usando parmetros estadsticos: as, el nmero ptimo de clases es el que minimiza la
siguiente expresin

2 x s2
n = min

c
donde: c

es la amplitud o intervalo de la clase.

El intervalo de clase c puede ser estimado a partir de la regla de FreedmanDiaconis (9):

c = 2 rango intercuartlico N

Una vez establecido el nmero de clases, la representacin grfica del histograma consiste
en dibujar n rectngulos adosados correspondientes a las clases en que se clasifican los
datos:

11

Propsito:
Ejemplo:

(a) abscisas: clases; y


(b) ordenadas: densidad de frecuencia: el rea de cada barra y no su altura representa la
frecuencia, por lo que sera ms correcto nombrar el eje de ordenadas como densidad
de frecuencia. Si la base de los rectngulos, es decir el intervalo de la clase, es igual, la
altura es proporcional al rea y no aplica esta distincin. Cuando la altura representa la
frecuencia, se habla de polgono de frecuencias
La finalidad del histograma es resumir grficamente la distribucin univariada de un conjunto
de observaciones.
(4)

Tcnicas estadsticas relacionadas:

Diagrama de cajas
Diagrama de probabilidad
Interpretacin: En el histograma debe evaluarse la localizacin (centralizacin) de los datos y
eventualmente la presencia de varias modas; su dispersin (escala); la existencia de sesgo;
la presencia de valores extremos.
Calculadoras on line: http://www.ton.scphys.kyoto-u.ac.jp/~hideaki/res/histogram.html
http://people.hofstra.edu/faculty/Stefan_Waner/stats/histogram.html
http://nlvm.usu.edu/en/nav/frames_asid_145_g_4_t_5.html?open=instructions

7. Procedimientos AED relacionados con distribuciones bivariadas


7.1. Diagrama mltiple
(Vase el apartado 6.9)

7.2. Diagrama de dispersin


(Vase el tema Correlacin)

7.3. Diagrama de correlacin lineal


(Vase el tema Correlacin)

7.4. Diagramas de interceptacin y de pendiente lineales


(Vase el tema Regresin)

7.5. Diagrama de desviacin residual estndar lineal


(Vase el tema Regresin)

12

8. Procedimientos AED relacionados con distribuciones multivariadas


8.1. Diagrama de estrella
Definicin:

Sinnimo:
Propsito:
Ejemplo:

El diagrama de estrella es un mtodo para representar datos multivariados (10), estudiando


las variables dominantes en cada observacin, las observaciones ms parecidas (nubes o
clusters) y la existencia de datos extremos (outliers). Cada estrella representa una
observacin individual formada por la unin de los vrtice de vectores (separados por
ngulos iguales) que representan las variables. Estos vectores emergen del centro de un
crculo, siendo la longitud de cada vector proporcional a la magnitud de la variable en todos
los puntos. El nombre proviene del aspecto que presenta estas observaciones.
Ya que representan datos individuales, su principal limitacin es que es vlido para un
nmero limitado de observaciones. Cuando este nmero crece el grfico se hace cada vez
ms confuso.
star plot
Este diagrama se utiliza para examinar en un mismo grfico los valores relativos de
determinadas variables y localizar observaciones similares.
(4)

Tcnicas estadsticas relacionadas:


Grfico de caras de Chernoff.
Interpretacin: Estos diagramas pueden interpretarse desde el punto de vista de las observaciones
individuales, buscando por ejemplo qu variables son ms determinantes, o desde el punto
de vista de las variables, buscando modelos de comportamiento y agrupando los casos por
el aspecto similar de las estrellas respectivas

9. Procedimientos relacionados con anlisis de series temporales


9.1. Diagrama de autocorrelacin
(Vase Modulo 3 Anlisis de series temporales).

9.2. Diagrama espectral


(Vase Modulo 3 Anlisis de series temporales).

9.3. Diagramas de desmodulacin compleja de la amplitud y la fase


(Vase Modulo 3 Anlisis de series temporales).

9.4. Diagrama secuencial


(Vase Modulo 3 Anlisis de series temporales).

9.5. Diagrama funcional de Andrews


(Vase Modulo 3 Anlisis de series temporales).

13

10. Procedimientos grficos relacionados con el diseo experimental unifactorial


10.1. Bihistograma
Definicin:

Sinnimo:
Propsito:
Ejemplo:

El bihistograma es un grfico basado en el histograma clsico para visualizar dos


distribuciones simultneamente consistente en la yuxtaposicin de dos histogramas: en la
parte superior la medicin en el primer nivel 1 del factor y en la parte inferior la distribucin
corresponde a la medicin en el segundo nivel. Est, pues restringido a examinar los
efectos de factores que tienen nicamente dos niveles. Desde el punto de vista grfico
puede ser ms ilustrativo que un test estadstico equivalente (como el test t de Student) ya
que pone en evidencia simultneamente los parmetros de localizacin, dispersin y forma
y la existencia o no de datos extremos.
histograma bidimensional
evaluar si una modificacin de nivel de un factor ha modificado la localizacin, variacin o
forma y caractersticas de una distribucin
(4)

Tcnicas estadsticas relacionadas:

Diagramas QQ;
Test t de Student;
Test F de Snedecor;
Test de KolmogorovSmirnov.

10.2. Diagrama de cajas


Definicin:

Sinnimos:
Propsito:
Ejemplo:

El diagrama de cajas representa en una forma simple y cmoda una o varias poblaciones de
observaciones sin prejuzgar el tipo de distribucin terica subyacente. Es un grfico
esquemtico que representa cuatro de las principales caractersticas de la distribucin de
los datos: (a) localizacin: media, mediana; (b) dispersin: rango, rango intercuartlico; (c)
aspecto: sesgo; y (d) presencia de datos extremos.
Tiene el aspecto de una caja central que abarca la mitad de los datos, con una lnea de
prolongacin trazada a la altura de la mediana y una indicacin de la media. De la caja
emergen unas lneas (bisagras) acotadas en el percentil 25 y 75 y a partir de estas
acotaciones se indican los valores extremos.
Diagrama de cajas y bigotes; Boxandwhisker plot, candlestick chart
Representar las distribuciones y sus principales caractersticas de una o varias muestras
simultneamente
(4)

14

Variantes:

Existen numerosas variantes de este esquema clsico que incluye la presencia de muescas
que representan intervalos de confianza, modificaciones de las acotaciones de lneas que
emergen de la caja, etc. (11, 12)
Por ejemplo, construyendo muescas (11) en:

mediana 1, 7

1, 25 rango intercuatlico
1,35 N

o adoptando formas ms sofisticadas, como la de un violn (12):

Calculadores on line:

http://www.physics.csbsju.edu/stats/box2.html
http://nlvm.usu.edu/en/nav/frames_asid_200_g_3_t_5.html?open=instructions

10.3. Diagrama de dispersin


(Vase el tema Correlacin)

10.4. Diagrama de escalas


Definicin:

Sinnimo:
Propsito:
Ejemplo:

Los diagramas de escala (desviacin tpica, desviacin absoluta, etc.) se utilizan para
averiguar si la dispersin vara entre diferentes grupos de observaciones, y la magnitud o el
modelo de esta variacin. El agrupamiento puede ser natural, forzado por el investigador o
arbitrario (dividiendo aleatoriamente los datos). Tpicamente se asocian a diagramas de
localizacin (vase 10.5).
(a) abscisas: identificador de la clase o grupo; y
(b) ordenadas: dispersin (por ejemplo, desviacin tpica) de la clase.
Diagrama de desviaciones tpicas, Standard deviation plot
Comprobar la igualdad de la dispersin de diferentes grupos o clases.
(4)

15

Tcnicas estadsticas relacionadas:

Diagrama de localizacin
Diagrama de dispersin de diseo experimental
Interpretacin: Bajo la hiptesis nula de igualdad de dispersin, el diagrama proporciona una aproximacin
visual para comprobar esta suposicin.

10.5. Diagrama de localizacin


Definicin:

Sinnimo:
Propsito:

Ejemplo:

Los diagramas de localizacin (media, media truncada, mediana, etc.) se utilizan para
averiguar si la localizacin o centralizacin vara entre diferentes grupos de observaciones,
y la magnitud o el modelo de esta variacin. Al igual que los grficos de dispersin (con los
que suele asociarse el grfico de localizacin), los grupos o clases pueden ser naturales,
definidos por el investigador o arbitrarios.
(c) abscisas: identificador de la clase o grupo; y
(d) ordenadas: localizacin (por ejemplo, media) de la clase.
Es frecuente dibujar una lnea recta, paralela a las abscisas en el punto de ordenadas
correspondiente a la media global.
Mean plot, median plot, trimmed mean plot
Valorar la consistencia de una medida de localizacin (media, media recortada, mediana)
entre grupos o subconjuntos de datos objeto de estudio, organizados segn niveles de una
variable de agrupacin o factor (por ejemplo la variable o factor tiempo en meses tiene 12
niveles por ao). Permite investigar cul es la magnitud de los cambios en las medidas de
localizacin en los diferentes grupos y averiguar si existe un modelo bien definido en el caso
de que tales medidas de localizacin no sean consistentes.
(4)

Tcnicas estadsticas relacionadas:

Diagrama de escalas
Diagrama de medias en diseo experimental (DEX)
Diagrama de cajas
Interpretacin: En el anlisis experimental unifactorial o en el diseo de estudios univariados se asume que
la medida de localizacin o centralizacin es constante, es decir consistente, entre todos los
grupos. Este diagrama permite una comprobacin grfica de que se cumple este supuesto.

16

10.6. Diagrama cuantilcuantil


Definicin:

El diagrama cuantilcuantil es una representacin grfica de la distribucin de los datos


procedentes de dos poblaciones para comprobar que proceden de una distribucin comn.
(a) abscisas:

Sinnimo:
Propsito:
Ejemplo:

k
cuantiles6 observados en una distribucin acumulada estandarizada; y
n +1

(b) ordenadas: cuantiles observados en una segunda muestra.


Se traza la bisectriz del cuadrante como linea de referencia,
En cierto modo se parece al diagrama de probabilidad7, con la salvedad que no se
representan frecuencias estandarizadas (el valor k -simo de una distribucin de media 0 y
varianza 1) sino cuantiles. Igualmente puede utilizarse para visualizar alejamientos de la
distribucin normal si la distribucin esperada es la normal.
No requiere que ambas muestras sean iguales. Si lo son, el diagrama es esencialmente una
representacin de los datos ordenados de una muestra frente a los datos ordenados de la
segunda
QQ plot
Averiguar si dos poblaciones tienen una distribucin comn. Adems es til para descubrir
datos aberrantes o extremos.
(4)

Tcnicas estadsticas relacionadas:

Bihistograma
Test t

Test F
Test jicuadrado para dos muestras
Test de KolmogorovSmirnov para dos muestras
Interpretacin: Cuanto ms se aleje la dispersin de puntos de la lnea de pendiente 45 , menos verosmil
es que las dos distribuciones procedan de una distribucin comn. Permite detectar
diferencias en localizacin, escala, forma (sesgo) y la presencia de datos extremos.
Conclusiones:

11. Procedimientos relacionados con el diseo experimental multifactorial


11.1. Diagrama de bloques
(Vase Mdulo 3 Diseo experimental)

Cuantil es la fraccin (por ejemplo porcentual) de casos por debajo de un valor determinado. As, el cuantil
0,25 (percentil 25 %) es aquel valor que deja un por debajo suyo un 25 % de casos de la distribucin, y un
75 % por encima.
7
Cuando n es grande, los dos grficos son idnticos
17

11.2. Diagrama de contorno


(Vase Mdulo 3 Diseo experimental)

11.3. Diagramas de dispersin, media y desviacin tpica en diseo experimental


(Vase Mdulo 3 Diseo experimental)

12. Procedimientos relacionados con el control de la calidad


Los principales grficos asociados a la gestin de la calidad son: el hsitograma, el diagrama de Youden, el
diagrama de Pareto, los grficos de Schewhart, el diagrama de causa efecto y el diagrama de dispersin.

12.1. Diagrama de Youden


(Vase Mdulo 3 Calidad)

12.2. Diagrama de control para observaciones individuales: CuSum, MA, MR, EWMA
(Vase Mdulo 3 Calidad)

12.3. Diagrama de Pareto


(Vase Mdulo 3 Calidad)

12.4. Diagrama de Shewhart para control de variables: R , s , s 2 , x


(Vase Mdulo 3 Calidad)

12.5. Diagrama de Shewhart para control de atributos: C , N P , P , U


(Vase Mdulo 3 Calidad)

12.6. Diagrama T 2 de Hotelling para control multivariado


(Vase Mdulo 3 Calidad)

13. Otros procedimientos de anlisis exploratorio de datos: el diagrama de tallo y


hojas
Definicin:

Sinnimo:
Propsito:
Ejemplo:

El diagrama de tallo y hojas de Tukey presenta la distribucin de los valores observados en


una muestra utilizando las cifras principales como tallo de un rbol, y las dems cifras, a la
derecha del tallo, representan las hojas. Si hay datos extremos se agrupan en la parte o
inferior del tallo como ALTOS y BAJOS respectivamente.
Stemandleaf plot, stemplot
Representar de forma rpida una muestra de datos, manteniendo visible su valor numrico,
y facilitar el calculo de medianas, fractiles, etc.
La siguiente informacin corresponde a una muestra de 150 observaciones.
BAJO |96,3 96,4
2 96
|
6 96
|7789
19 97 |0111222344444
40 97 |556666777888888899999
(38) 98 |00000000000111222222222233333444444444
52 98 |555666666666677777777888888888899
19 99 |000001112223344
4 99
|59
2 100 |0
ALTO |100,8

18

Tcnicas estadsticas relacionadas:


Calculadora on line:

Histograma
http://math.uc.edu/~pelikan/probandstat/stem.htm

Bibliografa
Bibliografa citada
1. Filliben JJ. The probability plot correlation coefficient test for normality. Technometrics 1975;17(1):111117.
2. Smith AF, Prentice DA. Exploratory data analysis, a handbook for data analysis in the behavioral
sciences: statistical issues; 1993.
3. Tukey JW. Exploratory data analysis: Addison Wesley; 1977.
4. NIST/SEMATECH. e-Handbook of Statistical Methods. In:: NIST,; 2003.
5. Box GEP, Cox DR. An analysis of transformations. J R Stat Soc, Ser. B 1964;26:211-243.
6. Box GEP, Cox DR. An analysis of transformations revisited, rebutted. J Am Stat Assoc 1982;77(377):209210.
7. Freimer M, Mudholkar GS, Kollia G, Lin CT. A study of the generalized Tukey lambda family. Com Stat Theor Meth 1988;17:3547-3567.
8. Nelson W. Applied life data analysis: Addison-Wesley; 1982.
9. Freedman D, Diaconis P. On the histogram as a density estimator L2 theory. Prob Theor Rel Fields
1981;57(4):453-476.
10.Chambers J, Cleveland W, Kleiner B, Tukey P. Graphical methods for data analysis: Wadsworth; 1983.
11.McGill R, Tukey JW, Larsen WA. Variations of box plots. Am Stat 1978;32:12-16.
12.Hintze JL, Nelson RD. Violin plots: a box plot-density trace synergism. Am Stat 1998;52(2):181-184.

En Internet
http://www.5campus.com/leccion/aed
http://ciberconta.unizar.es/LECCION/aed/ead.pdf
http://www.statsoft.com/textbook/stdatmin.html
http://www.statgraphics.com/eda.htm

SPSS
www.sussex.ac.uk/Users/andyf/eda.pdf

Excel
http://www.qualitydigest.com/oct97/html/excel.html

19