Anda di halaman 1dari 18

ESTADSTICA BSICA I

1.
2.
3.
4.
5.

La estadstica y sus objetivos


Aplicacin de la Estadstica en Qumica Analtica
Variabilidad analtica. Distribucin normal
Otros conceptos bsicos. Intervalos de confianza
Test de significancia: t-test

Taller 2
Leonardo Merino
NATIONAL FOOD
ADMINISTRATION

Science Department-Swedish National Food Agency

Santiago de Chile, Julio 2013

Porqu varan los resultados analticos?


Por

las incontrolables variaciones de las condiciones de operacin


(ej. Condiciones de repetibilidad y reproducibilidad)

Por las variaciones de las muestras


(ej. inhomogeneidad de las muestras)

Es muy importante saber diferenciar entre estas dos variaciones debido a que las
acciones correctivas necesarias son muy diferentes.
Estas dos variaciones estn relacionadas a los dos fundamentales tipos de error
analtico. (La estadstica nos ayuda a distinguirlos de manera objetiva).

NATIONAL FOOD
ADMINISTRATION

Estadstica
Ciencia matemtica que se ocupa de la variacin de las muestras
y la variacin de los resultados de las mediciones.
(La ciencia de inferir generalidades a partir de observaciones particulares).

Objetivos de la Estadstica
Darnos un procedimiento lgico para sacar conclusiones en
presencia de la incertidumbre de la medicin.

Se realiza al:
Resumir grupos de datos para describirlos de una manera
concisa, clara y cientfica (Estadstica descriptiva).
Establecer probabilidades de obtener ciertos resultados a

partir de observaciones parciales (Estadstica inferencial).


(M. Thompson (2011). Notes on Statistics and Data Quality for Analytical Chemists)

NATIONAL FOOD
ADMINISTRATION

Aplicacin de la Estadstica en Qumica Analtica


Clculo de la variabilidad (precisin) y el sesgo
Identificacin de diferencias estadsticamente significativas
Construccin, evaluacin y uso de curvas de calibracin
Clculo de lmites de deteccin y determinacin
Clculo de la incertidumbre de los valores medidos
Diseo de experimentos para el desarrollo de mtodos y
estudios de validacin
Control estadstico del proceso de medicin
Los conceptos estadsticos son relevantes en todos las etapas de la experimentacin
comprendidos desde la planificacin a la interpretacin de los resultados.

NATIONAL FOOD
ADMINISTRATION

Estadstica Clsica, Robusta y no-paramtrica

-3

Estadstica clsica es usada con datos


que siguen una distribucin normal. Se
supone que los datos analticos siguen
esta distribucin
- Media y desviacin estndar

+3

Estadstica robusta es usada con datos que


siguen una distribucin unimodal y simtrica
pero con colas extendidas. Los datos
analiticos siguen este comportamiento.
- Media robusta y desviacin estndar robusta

Estadstica no-paramtrica o de
distribucin libre no hace ninguna
suposicin sobre la distribucin de los
datos.
- Mediana, MAD (Median Absolute Deviation)

NATIONAL FOOD
ADMINISTRATION

Distribucin normal

p ( x )

95%

-2

( x )2
2 2

+2

La distribucin normal es definida por :

NATIONAL FOOD
ADMINISTRATION

1
e
2

= ubicacin
= dispersin

Al aplicar la Estadstica en qumica analtica se asume que el error


analtico sigue la distribucin normal. Se considera que el error total
esta conformado por la combinacin de un gran nmero de pequeos e
independientes errores surgidos a lo largo de las varias etapas del
procedimiento analtico (esto en un sistema analtico bien controlado).

Distribution Normal - Ubicacin


1

La distribucin puede ser caracterizada por su ubicacin con el parmetro

NATIONAL FOOD
ADMINISTRATION

nos permite distinguir entre diferentes distribuciones

Distribution Normal - Dispersion


2
1

1= 2
1> 2

NATIONAL FOOD
ADMINISTRATION

El estadstico no es suficiente por si solo para caracterizar


completamente una poblacin. Otras distribuciones podran estar
localizadas en el mismo punto.
Un segundo estadstico ( ), que mide la dispersin de la distribucin,
ayuda a diferenciarlas.

Caracterizando completamente una distribution normal


= ubicacin

= dispersin

NATIONAL FOOD
ADMINISTRATION

Distribucin Normal Propiedades importantes


La curva es simtrica alrededor de .
Aproximadamente 68% de los datos se encuentran entre 1
Aproximadamente 95 % de los datos se encuentran entre 2
Aproximadamente 99.7 % de los datos se encuentran entre 3

68 %

95%
99.7%
Nota: Un importante aspecto de esta distribucin es que representa la probabilidad
de que un simple resultado analtico est dentro del rango definido por la curva
normal.
NATIONAL FOOD
Lo
contrario tambien se cumple, i.e., la probabilidad de que el valor verdadero puede
ADMINISTRATION
encontrarse dentro de un rango alrededor de nuestro simple resultado.

La media es calculada de la ecuacin


0

n
i 1

n 1
i 1

xi

x i = suma de resultados
n = nmero de resultados

El parmetro , define la ubicacin de la distribucin

NATIONAL FOOD
ADMINISTRATION

Normalmente no se tiene acceso a la poblacin total, sino slo a un grupo n


de datos, los cuales representan a la poblacin. Por consiguiente, cuando
calculamos la media de n resultados, estamos estimando la media de la
poblacin, . La media es representada por x

Desviacin estndar

n
i 1

( xi x )2

( n 1 )

El estadstico , define la dispersin de la poblacin

La desviacin estndar s es una medida de la dispersin de los


resultados alrededor de la media. La desviacin estndar est
expresada en las mismas unidades que la media.
NATIONAL FOOD
ADMINISTRATION

Desviacin estndar relativa (RSD)

RSD

s
x

Coeficiente de variacin (CV)

s
CV % RSD 100
x

NATIONAL FOOD
ADMINISTRATION

Cuando queremos comparar la dispersin de resultados que tienen


diferente magnitud o unidades, la relacin de la desviacin estndar
con respecto a la media puede ser de ms utilidad que el solo valor
absoluto de la dispersin.

La varianza S2, es el cuadrado de la desviacin estndar

Varianzas son aditivas


S2 = S12 + S22 +.+ Sn2
la varianza tambin describe la dispersin

NATIONAL FOOD
ADMINISTRATION

Esta propiedad juega un rol de fundamental importancia en el anlisis


estadstico y tiene muchas aplicaciones, por ejemplo, errores provenientes
de diferentes etapas en un procedimiento analtico pueden ser
identificados y cuantificados. Asi, el analista est en la posibilidad de
dirigir su atencin a reducir slo las fuentes de error significativas.

Desviacin estndar de la media


sM = Desviacin estndar de la media, cuantifica la precisin de la media. Es decir,
es una medida del intervalo en que podemos encontrar la media de la poblacin.
x

n=1

n=3

NATIONAL FOOD
ADMINISTRATION

n = 19

s
SM
n

S, cuantifica dispersin, i.e. que tanto varian los datos entre si.
SM, cuantifica que tan exactamente se conoce la media de la poblacin,
i.e. la media de un nmero grande de muestras esta ms cerca de la
media poblacional que la media de un nmero pequeo de muestras.

Intervalos de Confianza (IC)


El Intervalo de Confianza de un resultado nos da el rango donde
podramos encontrar el valor verdadero de la media con una
probabilidad determinada.
El intervalo de confianza se calcula de la siguiente ecuacin:

IC x

t (v, )s
n

t(, ) es el valor de t-students para grados de libertad y un nivel de significacin de P ()

NATIONAL FOOD
ADMINISTRATION

Nota: Evite la confusin entre el nivel de significancia (P = ) y su complemento,


el nivel de confianza (comunmente usado en las tablas estadsticas).

El Error (Analtico)

Es definido como la diferencia entre un resultado individual y el


valor verdadero de la medicin. Es un valor simple.

Tipos de errores

Errores sistemticos (veracidad,sesgo/recuperacin), se dan cuando en el


anlisis repetido de una medicin, el resultado permanece constante o varia de
un manera previsible.

Es independiente del nmero de mediciones y por lo tanto no disminuye con el


aumento del nmero de anlisis.
Errores aleatorios (precisin, desviacin estndar), se dan cuando los
resultados individuales de una medicin varan de un modo imprevisible.

Este tipo de error no se puede compensar por correccin, sin embargo puede
ser reducido con el aumento del nmero de observaciones.
Errores espurios se dan tpicamente como consecuencia de errores humanos o
el
malFOOD
funcionamiento de los instrumentos.
NATIONAL

Eurochem/CITAC, 2012

ADMINISTRATION

Prueba de significancia 1: t-test

NATIONAL FOOD
ADMINISTRATION

Evalua la evidencia dada por un dato, en favor de


alguna afirmacin hecha en relacin a la poblacin

Comparacin de dos grupos de datos (A)


Son las medias diferentes?
Las medias probablemente son iguales, es decir, pertenecen a la
misma poblacion

x1

x2

NATIONAL FOOD
ADMINISTRATION

Comparacin de dos grupos de datos (B)


Son las medias diferentes?
Las medias probablemente son diferentes, es decir, pertenecen
a dos poblaciones diferentes

x1

x2

La prueba de significancia nos ayuda a decidir objetivamente si la diferencia entre


dos medias es real, o si ella proviene de variaciones aleatorias de la medicin.
La decisin no solo depende de la magnitud de las diferencias de las medias sino
NATIONAL
FOODde la cantidad de datos disponibles y de sus respectivas dispersin.
tambien
ADMINISTRATION

10

t-test (detectando errores sistemticos)


1. Comparacin de una media experimental con un valor conocido
(one sample t-test)
2. Comparacin de dos medias experimentales (two sample t-test)
- Dos mtodos analticos (A y B) son usados repetidas veces en el
anlisis de una misma muestra.

Son los mtodos diferentes?

- Un mtodo analtico es usado repetidas veces en el anlisis de


dos grupos de muestras (C y D).

Son las muestras diferentes?

3. Comparacin entre pares de muestras (paired samples)


NATIONAL FOOD
ADMINISTRATION

1. Comparacin de una media experimental con un valor


de referencia
Calcular el valor observado, tobs

media

Valor de referencia

tobs

x
s n

Donde: S = desviacin estndar de las mediciones


n = nmero de mediciones
= n-1 (grados de libertad)

NATIONAL FOOD
ADMINISTRATION

Comprobar si hay un error sistemtico en un mtodo analtico, chequear


la pureza de un material o si un valor critico (mximo lmite) es excedido

11

2. Comparacin de dos medias experimentales


Calcular el valor observado, tobs
media A

t obs

xA

media B

(x A xB )
scom nA1 nB1

2
s 2 n 1 sB2 nB 1
scom A A

nA nB 2

xB

Donde:
scom = desviacin estndar combinada
= nA + nB - 2 (grados de libertad)
NATIONAL FOOD
ADMINISTRATION

Esto es vlido si las desviaciones estndares son similares (misma poblacin)

3. Comparacin entre pares de muestras (a)


Muestra
6

d5

d4

d3

3
2
1

Distinguiendo y
separando dos
fuentes de variacin

d6

d2
d1
Resultados

Muestra
6
5

d6 = B-A
d5

4
3

d4

d3

d2

1
NATIONAL FOOD
ADMINISTRATION

d1

Diferencias

12

3. Comparacin entre pares de muestras (b)

Calcular el valor observado, tobs

t obs

d
S

n
Donde:

d = la media de las diferencias de resultados


Sd = desviacin estndar de las diferencias
n = nmero de diferencias de pares
= n-1 (grados de libertad)

Nota: El rango de variacin entre las concentraciones de los diferentes


pares de muestras debe ser restringido.
NATIONAL FOOD
ADMINISTRATION

Hallando el valor crtico (tcrit)


Calcular los grados de libertad (1 )
Elegir la probabilidad (usualmente 95% o P=0.05)
Usar las tablas estadsticas (para el correcto nmero de colas)
Comparar: Si tobs > tCrit hay diferencia estadsticamente significativa

NATIONAL FOOD
ADMINISTRATION

Observar que aun cuando el anlisis estadstico puede detectar una


significancia estadstica esto puede no tener una significacin
qumica de importancia prctica.
El criterio de importancia prctica proviene de una fuente externa
independiente, no de los resultados.

13

Una cola

Una o dos-colas ?

Ej: Cuando se quiere saber si un lmite de especificacin es excedido o no


Ejemplo, un lmite
mximo de un
contaminante (ML)

tcrit

Dos-colas
Ej: Queremos saber, si el valor medido esta dentro de un rango establecido

95 %
NATIONAL FOOD
ADMINISTRATION

tcrit

Ejemplo,
uso de un material
de referencia

Total 5%

Prueba de significancia: Mtodo clsico


Prueba de una-cola o de dos-colas
1. La media es igual al valor dado
vs la media no es igual al valor dado

( = x0)
( x0)

dos-colas

2. La media es igual al valor dado


vs la media es menor que el valor dado

( = x0)
( < x0)

una-cola

3. La media es igual al valor dado


vs la media es mayor que el valor dado

( = x0)
( > x0)

una-cola

Al hacer una prueba de significancia se comprueba la veracidad de una hiptesis


experimental, llamada hiptesis alternativa (HA, si hay diferencia,) con
respecto a la hiptesis nula (H0, no hay diferencia).
Es la hiptesis alternativa la que determina el nmero de colas.

NATIONAL FOOD
ADMINISTRATION

Si la hiptesis alternativa contiene la frase mayor que menor que, la


prueba es de una-cola. Si la hiptesis alternativa contiene la frase no es igual
que, la prueba es de dos-colas.

14

Valores Crticos para la distribucin t


: Una cola:

0.25
(75%)

0.10
(90%)

0.05
(95%)

0.025
(97.5%)

0.01
(99%)

0.005
(99.5%)

: Dos colas:

0.50
(50%)

0.20
(80%)

0.10
(90%)

0.05
(95%)

0.02
(98%)

0.01
(99%)

1.000

3.078

6.314

12.706

31.821

63.657

0.816

1.886

2.920

4.303

6.965

9.925

0.765

1.638

2.353

3.182

4.541

5.841

0.741

1.533

2.132

2.776

3.747

4.604

0.727

1.476

2.015

2.571

3.365

4.032

0.718

1.440

1.943

2.447

3.143

3.707

0.711

1.415

1.895

2.365

2.998

3.499

0.706

1.397

1.860

2.306

2.896

3.355

0.703

1.383

1.833

2.262

2.821

3.250

10

0.700

1.372

1.812

2.228

2.764

3.169

11

0.697

1.363

1.796

2.201

2.718

3.106

12

0.695

1.356

1.782

2.179

2.681

3.055

13

0.694

1.350

1.771

2.160

2.650

3.012

14

0.692

1.345

1.761

2.145

2.624

2.977

15

0.691

1.341

1.753

2.131

2.602

2.947

Grados de
libertad:

NATIONAL FOOD
ADMINISTRATION

http://www.microbiologybytes.com/maths/t.html

Interpretacin del t-test


Si al aplicar el test de significancia encontramos que:

tcrit > tobs


Podemos afirmar lo siguiente:
no hay diferencia estadsticamente significativa
no hay error sistemtico medible (bajo las condiciones experimentales)
Pero NO podemos afirmar que:
No existe error sistemtico (puede haber un error sistemtico no detectado)

NATIONAL FOOD
ADMINISTRATION

15

Secuencia de aplicacin de una prueba de significancia

Formular la pregunta (error sistemtico o aleatorio?)

Seleccionar el tipo de prueba (t-test? F-Test?)


Calcular el estadstico observado (tobs o Fobs)
Calcular los grados de libertad ()
Elegir el nivel de confianza (generalmente 95%, =0.05)
Decidir el nmero de colas (una-cola ? dos-colas ?)
Buscar en las tablas el valor crtico del estadstico (tcrit o Fcrit)
Comparar ambos valores y tomar la decisin estadstica
NATIONAL FOOD
ADMINISTRATION

p-value: Mtodo moderno de la prueba de significancia


Un p-value es una medida de la evidencia que se tiene en contra de la
hipotesis nula.
La hipotesis nula (Ho) es la hiptesis de no-cambio o no-efecto.
Alta probabilidad (P cercanos a 1)
Baja probabilidad (P < 0.05)

p-value > 0.05 = no significancia


(aceptamos la Ho)
p-value < 0.05 = si hay significancia
(rechazamos la Ho)

95%

En anlisis qumico se acostumbra


afirmar que p-value 0.05 son
estadsticamente significantes.

NATIONAL FOOD
ADMINISTRATION

Las reas rojas muestras la probabilidad de que la hiptesis nula es verdadera.

16

Activando las funciones estadsticas en Excel (97-2003)


En el Menu marcar Tools,
marcar Add-Ins... (1), marcar

Analysis Toolpak (2)


En el Men tool se puede ver
ahora Data analysis...(3)

2.

1.
3.
NATIONAL FOOD
ADMINISTRATION

t-test en EXCEL (Versin 97-2003)

3.

2.
1.

4.

NATIONAL FOOD
ADMINISTRATION

17

Recordar que:
Hemos visto 3 tipos de aplicaciones del t-test:
Comparacin de una media con un valor (one sample t-test)
Comparacin de dos medias (two samples t-test)
Comparacin entre pares de muestras (paired samples)
y dos alternativas de colas para usar las tablas estadsticas:

Una-cola
Dos-colas

Por lo tanto, se tiene seis combinaciones, cinco son


equivocadas y slo una es la correcta.

NATIONAL FOOD
ADMINISTRATION

Taller 2

Usando las notas del curso y una calculadora (si es necesario), identifique
el tipo de variacin que corresponde en cada uno de los casos dados y el
tipo de t-test que debe aplicarse.
Referencias
Miller, J.N. & Miller, J.C. Estadstica y Quimiometra para Qumica Analtica. Prentice Hall.
4ta Ed. 2000
Method validation Course 0072. LGC limited. London 2002
Morgan, E. Chemometrics. Experimental Design. John Wiley & Sons, London 1991
Thompson, M. The Frequency Distribution of Analytical Error, Analyst, (1980) Vol. 105
Thompson, M & Lowthian, P. (2011) Notes on Statistics and Data Quality for Analytical

Chemists. Imperial college Press, London

VAMSTAT II. Statistic Training for Valid Analytical Measurement. VAM. LGC Teddington
Ltd. 1996-2000
NATIONAL FOOD
ADMINISTRATION

18

Anda mungkin juga menyukai