Anda di halaman 1dari 52

ESTADISTICA

Grado en CC. de la Alimentacion

Tema 1:
Analisis exploratorio de datos

Estadstica (Alimentacion). Profesora: Amparo Ballo Tema 1: Analisis exploratorio de datos 1


Estructura del Tema 1

Tipos de variables
Distribucion de una variable
Representacion grafica de la distribucion
Medidas numericas para resumir la distribucion
Correlacion
Transformaciones: estandarizacion y transformacion
logartmica

Estadstica (Alimentacion). Profesora: Amparo Ballo Tema 1: Analisis exploratorio de datos 2


Introduccion
Queremos estudiar una caracterstica o variable en una poblacion.

Ejemplos:
Contenido en grasa de una hamburguesa de una cierta marca
Cantidad de albumina por litro de suero sanguneo de una persona
Longitud de los peces de una cierta especie en un lago
Marca de e-book preferida por un comprador
Porcentaje de una vitamina perdida al irradiar una fruta

A veces es imposible o demasiado caro observar la variable en toda


la poblacion (censo), as que se extrae una muestra. Llamamos
individuo o elemento a cada miembro de la poblacion o de la
muestra.

Objetivo de la Estadstica Descriptiva: Hacer una descripcion


sencilla (numerica o grafica) de la informacion muestral.
Estadstica (Alimentacion). Profesora: Amparo Ballo Tema 1: Analisis exploratorio de datos 3
Poblacion: Conjunto de elementos objeto de estudio (ninos
menores de 6 meses; personas con ndice de masa corporal superior
a 25; pinas exportadas por la India; pepinos ecologicos producidos
en Andaluca; etc.).

Muestra: Subconjunto de la poblacion en el que se observa la


variable de interes.

Tamano muestral: Cardinal de la muestra (se suele denotar n).

Un conjunto de datos es el resultado de medir una o mas


variables en una muestra.

Estadstica (Alimentacion). Profesora: Amparo Ballo Tema 1: Analisis exploratorio de datos 4


Pregunta: Por que necesitamos de una muestra y no estudiamos
toda la poblacion (censo)?
1 En poblaciones infinitas (o de tamano muy grande) es
materialmente imposible efectuar un censo.

2 Coste economico mas reducido.

3 Menor tiempo empleado.

4 En ocasiones los elementos muestreados se destruyen o


modifican en el proceso. Por ejemplo, pruebas de airbag o de
armamento explosivo.

5 Precision: En muchos casos, la recogida de la informacion


muestral se puede realizar de forma mas fiable y controlada
que en el caso de datos de toda la poblacion.

Estadstica (Alimentacion). Profesora: Amparo Ballo Tema 1: Analisis exploratorio de datos 5


Clases importantes de variables estadsticas

Variables cualitativas

Son cualidades o atributos de los individuos. No son un numero: no


podemos operar con sus valores.

Ejemplos:
Sexo de un individuo: hombre o mujer
Grado de reacciones secundarias a un tratamiento oncologico (alto,
medio, bajo)
Tiempo (soleado, lluvioso, parcialmente cubierto, ...) en una zona

A veces se asigna un numero a cada una de las cualidades. Por ej.,


si la v. cualitativa es el sexo de un paciente, podemos asignar a
hombres el numero 0 y a mujeres el numero 1.

Estadstica (Alimentacion). Profesora: Amparo Ballo Tema 1: Analisis exploratorio de datos 6


Tenemos una muestra de tamano n: hemos observado n datos, que
agrupamos en K categoras o clases.
Ejemplo 1.1: Variable = Estado de una pieza de fruta recolectada
en una huerta
Categora= Perfecta, aceptable, pasada, verde, podrida K =
Llamamos frecuencia absoluta al numero de frutas observados en
cada una de las categoras:

n1 = 23, n2 = 5, n3 = 20, n4 = 7, n5 = 15 n =
ni
La proporcion de datos observados en cada clase fi = se
n
denomina frecuencia relativa. Observemos que siempre fi 0 y
f1 + f2 + . . . + fK = 1.

f1 = , f2 = , f3 = , f4 = , f5 = .

Representaciones graficas: diagrama de barras, diagrama de Pareto


y diagrama de sectores.
Estadstica (Alimentacion). Profesora: Amparo Ballo Tema 1: Analisis exploratorio de datos 7
Variables cuantitativas
Miden algo cuantificable en cada individuo. Toman valores
numericos. Las denotamos por X , Y , Z , ...
Si la variable cuantitativa solo puede tomar una cantidad finita o
numerable de valores entonces es una variable discreta.
Ejemplos: Numero de hijos de una familia, numero de goles de un
equipo en cada partido, numero de accesos diarios a una pagina
web.
Las variables continuas pueden tomar una cantidad infinita no
numerable de valores.
Ejemplos: La estatura de una persona, el nivel de alcohol en
sangre de un individuo, el contenido en hierro de un mineral.
En la practica siempre hay un lmite de precision en el numero de
dgitos con el que expresamos una variable continua.

Estadstica (Alimentacion). Profesora: Amparo Ballo Tema 1: Analisis exploratorio de datos 8


Descripcion grafica de variables cuantitativas
Variables discretas: diagrama de barras
Ejemplo 1.2: Se realiza un examen tipo test con 5 preguntas a un
grupo de estudiantes.
No respuestas No estudiantes (n ) Frecuencia Frecuencia
correctas i relativa fi acumulada Fi
0 3
1 11
2 9
3 20
4 5
5 2
n= 1

Estadstica (Alimentacion). Profesora: Amparo Ballo Tema 1: Analisis exploratorio de datos 9


20

15
Recuento

10

0
0 1 2 3 4 5
Respuestas

Estadstica (Alimentacion). Profesora: Amparo Ballo Tema 1: Analisis exploratorio de datos 10


Variables continuas: histograma
Se agrupan los datos en una serie de clases o intervalos A1 , . . . , Ak .
Calculamos la frecuencia absoluta ni de cada intervalo Ai (no de
observaciones en Ai ). Cada dato debe pertenecer a solo una clase.
Se representan los lmites de los intervalos sobre el eje de abscisas.
Luego se dibujan rectangulos cuya base es el intervalo y cuyo area
es la frecuencia absoluta de cada intervalo (ni ).
En la practica, dadas unas observaciones, elegimos nosotros el
lmite inferior del primer intervalo y la amplitud.
Por ejemplo, se determina primero el rango de valores de los datos
(maximo - mnimo de las observaciones).
Luego se subdivide el rango en m intervalos iguales. Es habitual

tomar m ' n, siendo n el numero total de observaciones.
A veces se utiliza la frecuencia relativa fi en lugar de la frecuencia
absoluta ni . Entonces el area bajo el histograma es 1.

Estadstica (Alimentacion). Profesora: Amparo Ballo Tema 1: Analisis exploratorio de datos 11


Ejemplo 0 (contaminacion por mercurio en el pescado):

Mnimo = 0,11 Maximo = 3,60


Rango = 3,49

n = 171 n ' 13 Rango/ n ' 0, 27
50

40
Frecuencia

30

20

10

0
0 1 2 3 4
CONC

Estadstica (Alimentacion). Profesora: Amparo Ballo Tema 1: Analisis exploratorio de datos 12


Aspectos a tener en cuenta para interpretar un histograma

Normalmente la base de todos los rectangulos es la misma por


lo que la altura es proporcional a la frecuencia.
Identificar si se han usado frecuencias absolutas o relativas.
Cuantas modas hay?
Hay algun dato atpico en relacion al resto?
Es simetrica la distribucion?
En caso de asimetra, es asimetrica a la izquierda o a la
derecha
En torno a que valor aproximado estan centrados los datos?
Estan muy dispersos los datos en torno a este centro o muy
concentrados?

Estadstica (Alimentacion). Profesora: Amparo Ballo Tema 1: Analisis exploratorio de datos 13


50 40

40
30

30
20
20

10
10

0 0
Distribucin simtrica unimodal Distribucin simtrica bimodal

100 100

80 80

60 60

40 40

20 20

0 0
Distribucin asimtrica a la derecha Distribucin asimtrica a la izquierda

Estadstica (Alimentacion). Profesora: Amparo Ballo Tema 1: Analisis exploratorio de datos 14


La forma del histograma depende del numero de intervalos:

50

75 40

Recu ento
30
Recuento

50

20

25
10

0
1,00 2,00 3,00 1,00 2,00 3,00

CONC CONC

Estadstica (Alimentacion). Profesora: Amparo Ballo Tema 1: Analisis exploratorio de datos 15


Ejemplo 1.3 (arsenico en unas):
En Karagas et al. (1996) se estudia el contenido en arsenico (en
p.p.m.) de las unas de los pies como indicador de la presencia de
arsenico en el agua de bebida. La muestra esta formada por 21
libaneses que utilizaban pozos particulares (ilegales):

Edad Sexo Uso en Uso en As en agua As en unas


(1=V, 2=M) bebida comida
44 2 5 5 .00087 .119
45 2 4 5 .00021 .118
44 1 5 5 0 .099
66 2 3 5 .00115 .118
37 1 2 5 0 .277
45 2 5 5 0 .358
47 1 5 5 .00013 .08
38 2 4 5 .00069 .158
41 2 3 2 .00039 .31
49 2 4 5 0 .105
72 2 5 5 0 .073
45 2 1 5 .046 .832
53 1 5 5 .0194 .517
86 2 5 5 .137 2.252
8 2 5 5 .0214 .851
32 2 5 5 .0175 .269
44 1 5 5 .0764 .433
63 2 5 5 0 .141
42 1 5 5 .0165 .275
62 1 5 5 .00012 .135
36 1 5 5 .0041 .175

Estadstica (Alimentacion). Profesora: Amparo Ballo Tema 1: Analisis exploratorio de datos 16


Dibujar el histograma de la concentracion de arsenico en las unas.

Estadstica (Alimentacion). Profesora: Amparo Ballo Tema 1: Analisis exploratorio de datos 17


Resumen numerico de datos cuantitativos
Medidas de centralizacion, posicion o localizacion
Informan acerca de la posicion alrededor de la cual se centran o
distribuyen los datos x1 , . . . , xn (muestra aleatoria).
Pn
x1 + x2 + . . . + xn xi
media muestral = x = = i=1
n n
Ejemplo 1.3 (cont.):

Ejemplo 1.2 (cont.):

Estadstica (Alimentacion). Profesora: Amparo Ballo Tema 1: Analisis exploratorio de datos 18


Posicion de la media en un histograma:

Estadstica (Alimentacion). Profesora: Amparo Ballo Tema 1: Analisis exploratorio de datos 19


La mediana es el dato que ocupa el lugar central respecto a los
datos ordenados x(1) , x(2) , . . . , x(n) .
Si el tamano muestral es impar (n = 2m + 1), med = xm+1 .
Ejemplo 1.3 (arsenico en unas): Calcular la media y la mediana.

La mediana es mas robusta que la media pero hace un uso menos


eficiente de la informacion contenida en los datos.
Pregunta: Cual es la relacion entre la simetra de una
distribucion y la posicion relativa entre la media y la mediana?

Estadstica (Alimentacion). Profesora: Amparo Ballo Tema 1: Analisis exploratorio de datos 20


xm + xm+1
Si el tamano muestral es par (n = 2m), med = .
2
Ejemplo 1.4: Contaminacion por metilmercurio (p.p.m.) en el
sushi de atun obtenido en 10 tiendas:

0,60 0,40 0,74 0,30 0,79 0,35 0,55 1,90 0,21 0,58

Calcular la media y la mediana.

Estadstica (Alimentacion). Profesora: Amparo Ballo Tema 1: Analisis exploratorio de datos 21


Medidas de dispersion o variabilidad
Dispersion respecto a la media
La media es un valor representativo de la variable de interes en la
poblacion o en la muestra. Por tanto, es util para comparar
poblaciones o muestras entre s.
Sin embargo, lo bien o lo mal que la media represente a la muestra
depende de la dispersion de esta.
Si los datos estan agrupados cerca de la media, esta sera muy
representativa de la localizacion de los datos.
Por el contrario, si los datos estan muy dispersos, la media no
sera un buen representante de las observaciones.

Estadstica (Alimentacion). Profesora: Amparo Ballo Tema 1: Analisis exploratorio de datos 22


Ejemplo 1.5:

Nota obtenida
2 3 4 5 6 7 8 9 10
No alumnos grupo A 0 0 0 40 60 0 0 0 0
No alumnos grupo B 1 5 15 24 31 18 4 1 1
No alumnos grupo C 6 12 14 18 24 9 3 5 9
Grupo A Grupo B Grupo C
60 60 60

50 50 50

40 40 40
Frecuencia

Frecuencia

Frecuencia
30 30 30

20 20 20

10 10 10

0 0 0
2 3 4 5 6 7 8 9 10 2 3 4 5 6 7 8 9 10 2 3 4 5 6 7 8 9 10
Nota Nota Nota

Estadstica (Alimentacion). Profesora: Amparo Ballo Tema 1: Analisis exploratorio de datos 23


Podemos medir las discrepancias de los individuos respecto a la
media mediante las diferencias

x1 x, x2 x, . . . , xn x.

Desventaja: La suma de estas discrepancias es cero.


Por ello definimos las discrepancias de los individuos respecto a la
media como las diferencias al cuadrado

(x1 x)2 , (x2 x)2 , . . . , (xn x)2 .

Cuantificamos la dispersion de la muestra x1 , . . . , xn en torno a la


media mediante la varianza muestral
n n
1X 1X 2
vx = (xi x)2 = xi (x)2 .
n n
i=1 i=1

Estadstica (Alimentacion). Profesora: Amparo Ballo Tema 1: Analisis exploratorio de datos 24


Ejemplo 1.5 (notas en grupos A, B y C):

Ejemplo 1.4 (metilmercurio en sushi):

Estadstica (Alimentacion). Profesora: Amparo Ballo Tema 1: Analisis exploratorio de datos 25


La cuasivarianza muestral es
n
2 1 X n
s = (xi x)2 = vx .
n1 n1
i=1

Es lo que muchos programas estadsticos llaman varianza muestral.


Ejemplo 1.4 (metilmercurio en sushi):

Una medida mas conveniente de la dispersion es la desviacion


tpica, que se define como la raz cuadrada de la varianza y se
expresa en las misma unidades que X y x:
Ejemplo 1.4:

Estadstica (Alimentacion). Profesora: Amparo Ballo Tema 1: Analisis exploratorio de datos 26


Para comparar la dispersion de variables de magnitudes
distintas a
vx
veces se usa el coeficiente de variacion CV = . El CV no
x
depende de las unidades de medida de la variable X (es
adimensional). A mayor CV, menos representativa es la media x.
Ejemplo 1.3 (arsenico en unas): Sabiendo que
21
X 21
X 21
X 21
X
xi = 0, 34186, yi = 7, 695, xi2 = 0, 02815, yi2 = 7, 560,
i=1 i=1 i=1 i=1

calcular el CV del arsenico en el agua (X ) y en las unas (Y ) y


comparar.

Estadstica (Alimentacion). Profesora: Amparo Ballo Tema 1: Analisis exploratorio de datos 27


Dispersion respecto a la mediana
Ordenamos las observaciones x1 , x2 , . . . , xn de menor a mayor:
x(1) , x(2) , . . . , x(n) .
n+1
Q1 = Primer cuartil= La observacion x(i) que ocupa el lugar
4
2(n + 1)
Q2 = Mediana= La observacion x(i) que ocupa el lugar
4
3(n + 1)
Q3 = Tercer cuartil= La observacion x(i) que ocupa el lugar
4
Cuando n + 1 no es multiplo de 4, los cuartiles se pueden calcular
por interpolacion lineal. En este caso el cuartil sera una media
ponderada de la observacion ordenada inmediatamente anterior e
inmediatamente posterior.
Pero no es la unica manera de calcular los cuartiles.

Estadstica (Alimentacion). Profesora: Amparo Ballo Tema 1: Analisis exploratorio de datos 28


Ejemplo 1.4 (metilmercurio en sushi):

Estadstica (Alimentacion). Profesora: Amparo Ballo Tema 1: Analisis exploratorio de datos 29


De acuerdo con las anteriores definiciones, responde a las
siguientes cuestiones:

Que porcentaje de datos hay...


(a) ... entre Q1 y Q3 ?
(b) ... a la izquierda de Q1 ?
(c) ... a la derecha de Q3 ?
(d) ... entre el mnimo y Q3 ?

Una descripcion util de un conjunto de datos viene dada por los


cinco numeros siguientes:

Mnimo, Q1 , Mediana, Q3 , Maximo

Estadstica (Alimentacion). Profesora: Amparo Ballo Tema 1: Analisis exploratorio de datos 30


El rango intercuartlico (RI) es la diferencia entre el primer y el
tercer cuartil: RI = Q3 Q1 .
Si separamos los datos ordenados en cuatro grupos del mismo
tamano, el RI mide la distancia entre los grupos mas extremos.

Para visualizar estas medidas de dispersion respecto a la mediana


se utiliza el diagrama de caja (box plot).
Para construir el diagrama de caja de la muestra, calculamos Q1 ,
Q2 , Q3 , RI y los lmites inferior y superior del diagrama
LI = La menor observacion en el intervalo
[Q1 1,5 RI, Q3 + 1,5 RI]
LS = La mayor observacion en el mismo intervalo

Consideramos que un dato xi que se salga del intervalo [LI,LS] es


un dato atpico o outlier.

Estadstica (Alimentacion). Profesora: Amparo Ballo Tema 1: Analisis exploratorio de datos 31


Ejemplo 1.3 (arsenico en unas):

2,5
14

2,0

1,5

1,0 15
12

0,5

0,0
Concentracin de As en uas

Estadstica (Alimentacion). Profesora: Amparo Ballo Tema 1: Analisis exploratorio de datos 32


Los diagramas de caja son especialmente utiles para comparar
varios conjuntos de datos.
Ejemplo 0 (contaminacion por mercurio en el pescado):

4,00

162
70

66
CONC

2,00

0,00

,00 1,00

RIO

Concentracion del mercurio segun el ro

Estadstica (Alimentacion). Profesora: Amparo Ballo Tema 1: Analisis exploratorio de datos 33


4,00

66

123
CONC

2,00
24
25 76
82 138

75

0,00

,00 1,00 2,00 3,00 4,00 5,00 6,00 7,00 8,00 9,00 10,00 11,00 12,00 13,00 14,00 15,00

ESTACION

Concentracion de mercurio segun la estacion

Estadstica (Alimentacion). Profesora: Amparo Ballo Tema 1: Analisis exploratorio de datos 34


Relaciona cada histograma con su diagrama de cajas

5
2

4
1

3
5
0

2
4
1

Estadstica (Alimentacion). Profesora: Amparo Ballo Tema 1: Analisis exploratorio de datos 35


El concepto de percentil o cuantil es una generalizacion del de
cuartil: Q1 es el percentil 25 (cuantil 0.25 o 25 %), la mediana es el
percentil 50 y Q3 es el percentil 75 (cuantil 0.75 o 75 %).
El percentil 100 p o cuantil p, con 0 < p < 1, es el punto que
deja a la izquierda una proporcion p de los individuos.
Si p n no es un numero entero, entonces se interpola entre las
observaciones ordenadas que estan en la posicion bp nc y
bp nc + 1, donde bzc denota el mayor entero menor o igual que z.
Ejemplo 1.3 (arsenico en unas):

Estadstica (Alimentacion). Profesora: Amparo Ballo Tema 1: Analisis exploratorio de datos 36


Estadstica descriptiva de dos variables (bivariante)

Ahora estamos interesados en dos variables estadsticas X e Y o


un vector bidimensional (X , Y ) en cada individuo de una poblacion.

X x1 , x2 , . . . , xn
(x1 , y1 ), . . . , (xn , yn )
Y y1 , y2 , . . . , yn

A partir de la informacion muestral deseamos encontrar una


relacion funcional aproximada entre Y y X : Y ' g (X ). A g la
llamamos la funcion de regresion de Y sobre X .

Se comienza estudiando el diagrama de dispersion de Y frente a X .

Estadstica (Alimentacion). Profesora: Amparo Ballo Tema 1: Analisis exploratorio de datos 37


Ejemplo 1.6 (sabor del queso cheddar) (Moore y McCabe 1989,
Introduction to the Practice of Statistics):
A medida que el queso se aneja, se producen procesos qumicos
que determinan el sabor del producto final. En 30 porciones de
queso cheddar curado se evaluo el sabor (Y ) y se midio la
concentracion de acido lactico (X ). La variable sabor resulta de la
combinacion de puntuaciones dadas por varios degustadores.

Caso 1 2 3 4 5 6 7 8 9 10
Sabor 12,3 20,9 39,0 47,9 5,6 25,9 37,3 21,9 18,1 21,0
Ac. Lactico 0,86 1,53 1,57 1,81 0,99 1,09 1,29 1,78 1,29 1,58
Caso 11 12 13 14 15 16 17 18 19 20
Sabor 34,9 57, 2 0,7 25,9 54,9 40,9 15,9 6,4 18,0 38,9
Ac. Lactico 1,68 1,90 1,06 1,30 1,52 1,74 1,16 1,49 1,63 1,99
Caso 21 22 23 24 25 26 27 28 29 30
Sabor 14,0 15,2 32,0 56,7 16,8 11,6 26,5 0,7 13,4 5,5
Ac. Lactico 1,15 1,33 1,44 2,01 1,31 1,46 1,72 1,25 1,08 1,25

Estadstica (Alimentacion). Profesora: Amparo Ballo Tema 1: Analisis exploratorio de datos 38


60

50

40
Sabor

30

20

10

0
0,8 1,0 1,2 1,4 1,6 1,8 2,0 2,2
cido lctico
Estadstica (Alimentacion). Profesora: Amparo Ballo Tema 1: Analisis exploratorio de datos 39
Interpretacion de un diagrama de dispersion:
Se observa alguna asociacion entre las variables?

Como es de estrecha la asociacion entre las variables?

Que forma tiene la asociacion entre variables (recta,


cuadratica, ...)?

Cual es la direccion de la asociacion entre las variables?

Hay algun punto o coleccion de puntos que no siga el patron


general del resto?

Estadstica (Alimentacion). Profesora: Amparo Ballo Tema 1: Analisis exploratorio de datos 40


El modelo mas sencillo es el de regresion lineal, en el que Y es
funcion lineal de X , es decir, g (x) = a + bx, recta de pendiente b
y ordenada en el origen a.

Covarianza muestral entre X e Y :


n n
1X 1X
covx,y = (xi x)(yi y ) = xi yi x y
n n
i=1 i=1

Depende de las unidades en que se midan x e y .

Ejemplo 1.6 (sabor del queso cheddar):

Estadstica (Alimentacion). Profesora: Amparo Ballo Tema 1: Analisis exploratorio de datos 41


La recta de regresion de Y sobre X es la recta g (x) = a + bx que
minimiza el error cuadratico medio
n
1X
ECM = (yi a bxi )2 .
n
i=1

covx,y
b= a = y bx
vx
Ejemplo 1.6 (sabor del queso cheddar):

Estadstica (Alimentacion). Profesora: Amparo Ballo Tema 1: Analisis exploratorio de datos 42


60

50

40
Sabor

30

20

10

0
0,8 1,0 1,2 1,4 1,6 1,8 2,0 2,2
cido lctico

Estadstica (Alimentacion). Profesora: Amparo Ballo Tema 1: Analisis exploratorio de datos 43


El coeficiente de correlacion
covx,y
r=
vx vy

mide el grado de relacion lineal entre X e Y .


Solo puede tomar valores entre -1 y 1.
No depende de las unidades (es adimensional).
Un valor de r cercano a 0 indica ausencia de relacion lineal.

0.2

0.4
y

0.6

0.8

3.2 3.4 3.6 3.8 4


x

Estadstica (Alimentacion). Profesora: Amparo Ballo Tema 1: Analisis exploratorio de datos 44


r=1 r=1
xy
xyy

r
xy prximoa1 r
xy prximoa1

Estadstica (Alimentacion). Profesora: Amparo Ballo Tema 1: Analisis exploratorio de datos 45


A menudo la relacion lineal g (x) = a + bx no sera la que mejor
describa la relacion entre X e Y , o simplemente no tendra sentido.
Ejemplo 1.7 (alcalinidad y mercurio en lagos): En 1990 y 1991
se tomaron muestras de percas y agua en 53 lagos de Florida para
estudiar los factores ambientales relacionados con la contaminacion
por mercurio de estos peces. Se midio, por ejemplo, la alcalinidad
del agua (mg CaCO3 l1 ). El grafico representa los valores medios
de alcalinidad frente a la concentracion media de mercurio (ppm)
para los 53 lagos.
1.4
Concentracin de mercurio

1.2

0.8

0.6

0.4

0.2

0
0 20 40 60 80 100 120 140
Alcalinidad
Estadstica (Alimentacion). Profesora: Amparo Ballo Tema 1: Analisis exploratorio de datos 46
Ejemplo 1.7 (alcalinidad y mercurio en lagos):
Lago Alcalinidad Mercurio Lago Alcalinidad Mercurio
Alligator 5.9 1.23 Lochloosa 55.4 0.34
Annie 3.5 1.33 Louisa 3.9 0.84
Apopka 116.0 0.04 Miccasukee 5.5 0.50
Blue Cypress 39.4 0.44 Minneola 6.3 0.34
Brick 2.5 1.20 Monroe 67.0 0.28
Bryant 19.6 0.27 Newmans 28.8 0.34
Cherry 5.2 0.48 Ocean Pond 5.8 0.87
Crescent 71.4 0.19 Ocheese Pond 4.5 0.56
Deer Point 26.4 0.83 Okeechobee 119.1 0.17
Dias 4.8 0.81 Orange 25.4 0.18
Dorr 6.6 0.71 Panasoffkee 106.5 0.19
Down 16.5 0.50 Parker 53.0 0.04
Eaton 25.4 0.49 Placid 8.5 0.49
East Tohopekaliga 7.1 1.16 Puzzle 87.6 1.10
Farm-13 128.0 0.05 Rodman 114.0 0.16
George 83.7 0.15 Rousseau 97.5 0.10
Griffin 108.5 0.19 Sampson 11.8 0.48
Harney 61.3 0.77 Shipp 66.5 0.21
Hart 6.4 1.08 Talquin 16.0 0.86
Hatchineha 31.0 0.98 Tarpon 5.0 0.52
Iamonia 7.5 0.63 Tohopekaliga 25.6 0.65
Istokpoga 17.3 0.56 Trafford 81.5 0.27
Jackson 12.6 0.41 Trout 1.2 0.94
Josephine 7.0 0.73 Tsala Apopka 34.0 0.40
Kingsley 10.5 0.34 Weir 15.5 0.43
Kissimmee 30.0 0.59 Wildcat 17.3 0.25
Yale 71.8 0.27
Estadstica (Alimentacion). Profesora: Amparo Ballo Tema 1: Analisis exploratorio de datos 47
Si modelizamos la relacion entre X e Y incorrectamente, nuestro
modelo no dara predicciones fiables de valores desconocidos de Y
en funcion de valores conocidos de X .
Una solucion sencilla es transformar las variables Y y/o X
mediante una funcion no lineal (log x, x 2 , e x , . . . ) y calcular la
recta de regresion entre las variables transformadas.
Ejemplo 1.7 (alcalinidad y mercurio en lagos):
1 1

0 0

1 1
log(y)

log(y)
2 2

3 3

4 4
0 20 40 60 80 100 120 140 0 1
x
Estadstica (Alimentacion). Profesora: Amparo Ballo Tema 1: Analisis exploratorio de datos 48
Ejemplo 1.7 (alcalinidad y mercurio en lagos):
Transformar una variable tiene efectos sobre su media, su varianza,
su simetra, ...

8 Media =0,53
10 Media =-0,91
Desviacin tpica =0,341 Desviacin tpica =0,839
N =53 N =53

8
6

Frecuencia
Frecuencia

6
4
4

2
2

0 0
0,00 0,25 0,50 0,75 1,00 1,25 -4 -3 -2 -1 0 1
Mercurio LogMercurio

Estadstica (Alimentacion). Profesora: Amparo Ballo Tema 1: Analisis exploratorio de datos 49


Ejemplo 1.8: Peso del cerebro (en g) en funcion del peso corporal
(en kg) para 62 especies de mamferos (Fuente: Allison &
Sacchetti 1976, Science)

6000 10

5000 Elefante africano 8


Peso cerebro (en g)

Log(Peso cerebro)
4000 Elefante asitico 6

4
3000
2
2000
Humano 0
1000
2
0
0 2000 4000 6000 8000 5 0 5 10
Peso cuerpo (en kg) Log(Peso cuerpo)

Estadstica (Alimentacion). Profesora: Amparo Ballo Tema 1: Analisis exploratorio de datos 50


Ejemplo 1.6 (sabor del queso cheddar): Analisis con SPSS

Estadsticos descriptivos

N Rango Mnimo Mximo Suma Media Desv. tp. Varianza


Sabor 30 56,5 ,7 57,2 736,0 24,533 16,2554 264,237
c. Lactico 30 1,15 ,86 2,01 43,26 1,4420 ,30349 ,092
N vlido (segn lista) 30

Correlaciones

Sabor c. Lctico
**
Sabor Correlacin de Pearson 1 ,704
Sig. (bilateral) ,000
Suma de cuadrados y 7662,887 100,753
productos cruzados
Covarianza 264,237 3,474
N 30 30
**
c. Lctico Correlacin de Pearson ,704 1
Sig. (bilateral) ,000
Suma de cuadrados y 100,753 2,671
productos cruzados
Covarianza 3,474 ,092
N 30 30
**. La correlacin es significativa al nivel 0,01 (bilateral).

Estadstica (Alimentacion). Profesora: Amparo Ballo Tema 1: Analisis exploratorio de datos 51


Ejemplo 1.6 (sabor del queso cheddar): Analisis con SPSS
Regresin
b
Variables introducidas/eliminadas

Variables Variables
Modelo introducidas eliminadas Mtodo
a
1 Ac. Lactico . Introducir
a. Todas las variables solicitadas introducidas.
b. Variable dependiente: Sabor

Resumen del modelo

R cuadrado Error tp. de la


Modelo R R cuadrado corregida estimacin
a
1 ,704 ,496 ,478 11,7450
a. Variables predictoras: (Constante), AcLactico

b
ANOVA

Suma de Media
Modelo cuadrados gl cuadrtica F Sig.
a
1 Regresin 3800,398 1 3800,398 27,550 ,000
Residual 3862,489 28 137,946
Total 7662,887 29
a. Variables predictoras: (Constante), AcLactico
b. Variable dependiente: Sabor

a
Coeficientes

Coeficientes
Coeficientes no estandarizados tipificados
Modelo B Error tp. Beta t Sig.
1 (Constante) -29,859 10,582 -2,822 ,009
AcLactico 37,720 7,186 ,704 5,249 ,000
a. Variable dependiente: Sabor

Estadstica (Alimentacion). Profesora: Amparo Ballo Tema 1: Analisis exploratorio de datos 52