Anda di halaman 1dari 61

GEOESTADSTICA

APLICADA

Tema: Anlisis Exploratorio


de Datos
FINALIDAD
- La finalidad del Anlisis Exploratorio de Datos
(AED) es examinar los datos previamente a la
aplicacin de cualquier tcnica estadstica. De esta
forma el analista consigue un entendimiento bsico
de sus datos y de las relaciones existentes entre
las variables analizadas.
- El AED proporciona mtodos sencillos para
organizar y preparar los datos, detectar fallos en el
diseo y recogida de datos, tratamiento y
evaluacin de datos ausentes, identificacin de
casos atpicos y comprobacin de los supuestos
subyacentes en la mayor parte de las tcnicas
multivariantes.
OBJETIVOS DEL AED
1) Definir qu es el Anlisis Exploratorio de Datos
(A.E.D.) y cules son sus objetivos.
2) Indicar cules son las etapas a seguir en la
realizacin de un A.E.D.
3) Seleccionar los mtodos grfico y numrico
apropiados para examinar las caractersticas de los
datos y/o relaciones de inters.
4) Comprobar si se verifican algunas hiptesis de
inters en los datos (normalidad, linealidad,
homocedasticidad).
5) Identificar casos atpicos univariantes, bivariantes y
multivariantes.
6) Comprender los diferentes tipos de datos ausentes
y evaluar su impacto potencial.
Qu es el AED?

- Es un conjunto de tcnicas estadsticas y grficas que


permiten establecer un buen entendimiento bsico del
comportamiento de los datos y de las relaciones existentes
entre las variables que se estudian.
- Proporcionando mtodos sencillos para preparar y
organizar datos, detectar fallas en el diseo y recogida de
los mismos, tratamiento y evaluacin de datos ausentes
(missing), identificacin de casos atpicos (outliers) y
comprobacin de los supuestos subyacentes en la mayor
parte de las tcnicas multivariantes (normalidad, linealidad,
homocedasticidad).
Importancia del AED
El anlisis exploratorio de datos (AED) es un
paso previo e indispensable para la aplicacin
exitosa de cualquier mtodo estadstico.
En particular permite la deteccin de fallas en el
diseo y toma de datos, el tratamiento y/o la
evaluacin de datos ausentes, la identificacin de
valores atpicos y la comprobacin de los
supuestos requeridos por parte de las tcnicas
geoestadistica.
Etapas de un AED
Para realizar un A.E.D. conviene seguir las siguientes
etapas:
1) Preparar los datos para hacerlos accesibles a
cualquier tcnica estadstica.
2) Realizar un examen grfico de la naturaleza de las
variables individuales a analizar y un anlisis
descriptivo numrico que permita cuantificar algunos
aspectos grficos de los datos.
3) Realizar un examen grfico de las relaciones entre
las variables analizadas y un anlisis descriptivo
numrico que cuantifique el grado de interrelacin
existente entre ellas
Etapas de un AED
4) Evaluar, si fuera necesario, algunos supuestos
bsicos subyacentes a muchas tcnicas
estadsticas como, por ejemplo, la normalidad,
linealidad y homocedasticidad.
5) Identificar los posibles casos atpicos (outliers) y
evaluar el impacto potencial que puedan ejercer en
anlisis estadsticos posteriores.
6) Evaluar, si fuera necesario, el impacto potencial
que pueden tener los datos ausentes (missing)
sobre la representatividad de los datos analizados.
Herramientas del AED

Estadstica univariada

Estadstica bivariada

Regresin lineal y mnimos cuadrados


MEDIDAS DESCRIPTIVAS NUMERICAS Y REPRESENTACIONES GRAFICAS

ESCALA DE REPRESENTACION MEDIDA DE TENDENCIA MEDIDA DE


MEDIDA GRAFICA CENTRAL DISPERSION
Diagrama de barras
NOMINAL Diagrama de lineas Moda
Diagrama de sectores
ORDINAL Box-Plot Mediana Rango intercuartilico
INTERVALO Histrogramas Media Desviacion Tpica
Poligono Frecuencias
Coeficiente de
RAZON Media Geometrica variacin
Estadstica univariada
Variable Aleatoria (V.A.): Es una variable Z que
puede tomar una serie de valores o realizaciones (zi
cada una de las cuales tiene asociadas una
probabilidad de ocurrencia (pi).
Ejemplo: Al lanzar un dado puede resultar (
1,2,3,4,5,o 6) con una probabilidad de ocurrencia
igual 1/6.
Las probabilidades cumplen las condiciones:
Estadstica univariada
Variable Aleatroria Discreta: Cuando el
numero de ocurrencias es finito o contable,
se conoce como variable aleatoria discreta.
Ejemplo: Tipo de facies de un yacimiento.

Variable Aletatoria continua: Si el numero de


ocurrencias posibles es infinito.

Ejemplo: El valor de la porosidad de un


medio se encuentra en el Intervalo (0, 100%)
Estadstica univariada
Funcin de Distribucin de Probabilidad (FDP)
La FDP caracteriza completamente a la VA.
Se define como: F(z) = Pr{Z z}[0,1]

Su grfica es el histograma acumulativo


Estadstica univariada
Funcin de Densidad de Probabilidad (fdp).
dF ( z )
Se define como: f z = --------------
dz
Su grfica es el histograma.
Estadstica univariada
Percentiles o cuartiles de una distribucin .
El percentil de una distribucin F(z) es el
valor Zp de la V.A. que corresponde a un
valor p de probabilidad acumulada, es
decir:
F(zp ) = p

Si existe la funcin inversa se puede


expresar como:
Estadstica univariada
Algunos cuantiles de inters:
Mediana, p=0.5
Cuartiles
(primer cuartil o inferior) p=0.25
1
(tercer cuartil o superior) p=0.75 z0.75 F (0.75)

Rango o intervalo intercuartil (IR) z0.25 , z0.75


Estadstica univariada
Ejemplo de cuartiles y rango intercuartil
Estadstica Univariada
Valor esperado o esperanza matemtica de una VA.
Es el valor ms probable que puede tomar una VA. Se
conoce tambin como valor medio o media. Se define
como:

Su estimador ms comn es el promedio de todas las


observaciones de la variable Z

Este estimador es muy sensible a los valores atpicos (outliers)


Estadstica Univariada
Valor esperado o esperanza matemtica de una VA.
Es el valor ms probable que puede tomar una VA. Se
conoce tambin como valor medio o media. Se define
como:

Su estimador ms comn es el promedio de todas las


observaciones de la variable Z

Este estimador es muy sensible a los valores atpicos


Estadstica Univariada
Momento de orden r de una FDP

Momento central de orden r de una FDP


Estadstica Univariada
Varianza de una VA (2do momento central)
Se define como

Y caracteriza la dispersin de la distribucin


alrededor de la media.

Su estimador es
Estadstica Univariada
Distribucin Normal o Gaussiana.
Esta distribucin est completamente
caracterizada por sus dos parmetros: media y
varianza y se designa mediante

La fdp normal o Gaussina est dada por

Es simtrica respecto a la media


Estadstica Univariada
Ejemplos de distribuciones Gaussianas
Estadstica Univariada
Distribucin Log Normal
Una VA positiva Y se dice que tiene una distribucin log
normal si su logaritmo ln (Y) esta normalmente distribuido.

Muchas distribuciones experimentales en Ciencias


de la Tierra tienden a ser asimtricas y la mayora
de las variables toman valores no negativos
Estadstica Univariada
Ejemplos de distribuciones Log normales
Estadstica Univariada
Desviacin Estndar

Coeficiente de variacin (dispersin relativa)

Coeficiente de simetra (medida de la simetra)

Coeficiente de curtosis (medida del achatamiento)


Estadstica Univariada
Simetra y Curtosis de una distribucin
Estadstica Univariada
BOX PLOT
Estadstica Univariada
BOX PLOT
Estadstica Univariada
Histograma (Porosidad)
Estadstica Univariada
Estadstica Univariada
Histograma (Permeabilidad)
Estadstica Univariada
Transformacin logartmica de la Permeabilidad
Estadstica Univariada
Q-Q Plot de la Permeabilidad
Estadstica Univariada
Q-Q Plot de la Permeabilidad
Estadstica Univariada
Con valores atpicos (outliers)
Estadstica Univariada
Con valores atpicos (outliers)
Estadstica Univariada
Sin valores atpicos (outliers)
Estadstica Univariada
Sin valores atpicos (outliers)
Estadstica Univariada
Sern valores atpicos?
Estadstica Univariada
Sern valores atpicos?
Estadstica Univariada
Despus de eliminar los valores atpicos
Estadstica univariada
Despus de eliminar los valores atpicos
Estadstica Bivariada
Hasta el momento, slo hemos considerado a las
variables aleatorias por separado, sin que exista
ninguna interrelacin entre stas.
En muchos campos de aplicacin y en particular,
en las Ciencias de la Tierra, es frecuentemente ms
importante conocer el patrn de dependencia que
relaciona a una variable aleatoria X (porosidad) con otra
variable aleatoria Y (permeabilidad).
Por lo que le dedicaremos especial atencin al
anlisis conjunto de dos variables aleatorias,
conocido como anlisis bivariado
Estadstica Univariada
Funcin de Distribucin de Probabilidad Bivariada
La distribucin de probabilidad conjunta de un
par de variables aleatorias X y Y se define
como:

En la prctica se estima mediante la proporcin


de pares de valores de X y Y que se encuentran
por debajo del umbral x, y respectivamente.
Estadstica Bivariada

Diagrama de Dispersin (Scattergram)


El equivalente bivariado del histograma es el
diagrama de dispersin o scattergram, donde
cada par (xi, yi) es un punto.
El grado de dependencia entre dos variables
aleatorias X y Y puede ser caracterizado por el
diagrama de dispersin alrededor de cualquier
lnea de regresin.
Estadstica Bivariada
Covarianza
Se define la covarianza de manera anloga
a los momentos centrales univariados, como

Se calcula como
Estadstica Bivariada
Semivariograma
Es el momento de inercia del diagrama de
dispersin con respecto a una lnea con
pendiente de 45o y se define como

Permite caracterizar la carencia de


dependencia
Estadstica bivariada

Semivariograma
Mientras mayor sea el
valor del
semivariograma ms
dispersos estarn los
valores en el diagrama
de dispersin y menor
ser la dependencia
entre las dos variables
aleatorias
Estadstica Bivariada
Coeficiente de correlacin lineal de Pearson
Se define como:

Caracteriza el grado de dependencia lineal entre


dos variables aleatorias.
Por ejemplo si Y=aX+b, entonces se cumple que:
Estadstica bivariada
Diagrama de Dispersin (Scattergram)
Coeficiente de correlacin=0.716875
Estadstica multivariada
Existen muchas tcnicas multivariadas:

Anlisis de Regresin
Anlisis de Conglomerados
Anlisis de Componentes Principales
Anlisis Factorial
Anlisis Discriminante, etc
Regresin lineal y Mnimos cuadrados

La regresin trata de establecer relaciones


funcionales entre variables aleatorias.
En particular la regresin lineal consiste en
establecer una relacin descrita mediante una
recta.
Los modelos de regresin nos permiten hacer
predicciones o pronsticos a partir del modelo
establecido.
El mtodo que se emplea para estimar los
parmetros del modelo de regresin es el de los
Mnimos Cuadrados
Regresin lineal
Dados N valores de dos v.a. X y Y.
Suponemos que:
1. X es una variable independiente
2. Y depende de X en forma lineal
Modelo lineal:

Donde

son los parmetros del modelo

errores o residuos del modelo


Regresin lineal
Condiciones que deben cumplir los
residuos
(valor esperado cero)

(varianza constante)

(no correlacionados)

(distribucin normal)
Mnimos Cuadrados Ordinarios (MCO)

Mnimos Cuadrados Ordinarios consiste en hallar los


parmetros del modelo de manera que la suma de los
cuadrados de los errores sea mnima.

Sistema de ecuaciones a resolver


Mnimos Cuadrados Ordinarios (MCO)

Coeficiente de determinacin R2

Para los modelos lineales


1. Mide el grado de la bondad del ajuste

2. Es igual al coeficiente de correlacin


lineal al cuadrado.

3. Representa la proporcin de varianza


explicada por la regresin lineal
Mnimos Cuadrados Ordinarios (MCO)
Criterios de la bondad del ajuste
Si R21, el ajuste es bueno (Y se puede calcular
de modo bastante aproximado a partir de X y
viceversa).
Si R20, las variables X y Y no estn relacionadas
(linealmente al menos), por tanto no tiene sentido
hacer un ajuste lineal.
Sin embargo no es seguro que las dos variables
no posean ninguna relacin en el caso r=0, ya
que si bien el ajuste lineal puede no ser
procedente, tal vez otro tipo de ajuste s lo sea.
Regresin lineal
Y=Permeabilidad, X=Porosidad
Regresin lineal
Y=logPermeabilidad, X=Porosidad
Regresin lineal
Y=log Permeabilidad, X=Porosidad
Regresin lineal
Y=log Permeabilidad, X=Porosidad
Anlisis de los residuos

Anda mungkin juga menyukai