Anda di halaman 1dari 17

TRANSFORMACIN DE

DATOS
Profesor
Juan Barile Sanhueza
Procedimientos para verificar el ajuste a una
distribucin de probabilidad

Existen diferentes pruebas para verificar el ajuste de


los datos a una distribucin de probabilidad normal.
Las ms utilizadas son:
Prueba de Kolmogorov-Smirrnov (Slo para
variables continuas)
Prueba de Shapiro-Wilks
Contraste de Pearson
Prueba de Kolmogorov-Smirnov
Compara la funcin de distribucin (probabilidad
acumulada) terica con la observada, y calcula un valor
de discrepancia (D), que corresponde a la discrepancia
mxima en valor absoluto entre la distribucin observada
y la distribucin terica, proporcionando asimismo un valor
de probabilidad P, que corresponde, si estamos
verificando un ajuste a la distribucin normal, a la
probabilidad de obtener una distribucin que discrepe
tanto como la observada si verdaderamente se hubiera
obtenido una muestra aleatoria, de tamao n, de una
distribucin normal.
Prueba de Shapiro-Wilks
Aunque esta prueba es menos conocida es la que se
recomienda para contrastar el ajuste de los datos a una
distribucin normal, sobre todo cuando la muestra es
pequea (n<30).
Mide el ajuste de la muestra a una recta, al dibujarla en
papel probabilstico normal.
Este tipo de representacin tambin lo proporcionan
algunos programas de estadstica, de tal manera que
nos permite adems apreciar el ajuste o desajuste de
forma visual:
En escala probabilstica normal
se representa en el eje
horizontal, para cada valor
observado en nuestros datos, la
funcin de distribucin o
probabilidad acumulada
observada, y en el eje vertical la
prevista por el modelo de
distribucin normal. Si el ajuste
es bueno, los puntos se deben
distribuir aproximadamente
segn una recta a 45. En la
imagen vemos que en este
ejemplo existe cierta
discrepancia.
Y si los datos no siguen una distribucin
normal?... (rechazo de la hiptesis de
normalidad

En el anlisis de datos de una VCC, las pruebas


estadsticas de estimacin y contraste
frecuentemente empleadas suponen que se ha
obtenido una muestra aleatoria de una
distribucin de probabilidad de tipo normal.
Si los datos no cumplen esta condicin, lo que
resta es evaluar alguna otra potencial solucin
Se dispone de dos posibles alternativas

1. Los datos se pueden transformar de manera


que sigan una distribucin normal, y por ende
se aplican pruebas paramtricas
2. Se puede acudir a pruebas estadsticas que no
se basan en ninguna suposicin en cuanto a
la distribucin de probabilidad es decir
pruebas no paramtricas,
Analicemos la transformacin
Las transformaciones para ajustar los datos a una
distribucin normal es en general la solucin ms
natural. Considerando que muchos parmetros
biolgicos tienen distribucin asimtrica, y que se
convierten en aproximadamente simtricas al
transformarlas mediante el logaritmo.
Analicemos la transformacin

Caso 1. Si la distribucin es ms apuntada que la


normal (mayor parte de los valores
agrupados en torno de la media y colas
ms largas en los extremos), se debe
investigar la presencia de heterogeneidad
en los datos y de posibles valores atpicos
o errores en los datos. La solucin puede
ser emplear pruebas no paramtricas.
Caso 2. Si la distribucin es unimodal y
asimtrica, la solucin ms simple y
efectiva es utilizar una
transformacin para convertir los
datos en normales.
Caso 3. Cuando la distribucin no es unimodal
hay que investigar presencia de
heterogeneidad, ya que en estos
casos la utilizacin de
transformaciones no es adecuada y
los mtodos no paramtricos
pueden tambin no serlo.
Consideraciones
Si se cambia la escala (transformamos los datos),
todas las observaciones, de todos los grupos a
comparar deben ser transformadas con la misma
escala. Aunque algunos otros grupos poseen
Los datos transformados son an los mismos,
solamente estn expresados en una escala diferente.
Ejemplo, en vez de una longitud en mm, se tiene
longitud en logaritmo de mm.
En todos los casos para los clculos estadsticos
basados en la teora normal, se utilizarn los valores
transformados, pero despus para la presentacin de
los resultados se efectuar la transformacin inversa
para presentarlos en su escala de medida natural.
Otras trasformaciones

x, 1/x y 1/x2, Estas transformaciones, que tambin precisan


sumar una cantidad a cada valor si existen ceros, comprimen
los valores altos de los datos y expanden los bajos, en el
siguiente orden de menor a mayor:x , ln x, 1/x, 1/x2
Si los datos son proporciones o % se utiliza la transformacin
basadas en arcoseno. Si los valores estn distribuidos
homogneamente entre 0-100% o entre 20-80% etc. con
media cercana a 50%, no es necesario transformar los datos.
Cuando los datos promedios estn por sobre o bajo el 50%,la
curva ser asimtrica y ser necesario la transformacin de los
datos para acercarse a la distribucin normal
Ejemplo
A B El efecto del tratamiento B es
40 80
multiplicativo,al aplicar el log x
20 40
30 60
cambiar los efectos multiplicativos
15 30 por efectos aditivos
25 50
A B Log A Log B
Media Estadstico 26,0000 52,0000 1,3908 1,6919
Desv. tp. Estadstico 9,61769 19,23538 ,16301 ,16301
Varianza Estadstico 92,500 370,000 ,027 ,027
Asimetra Estadstico ,590 ,590 -,054 -,054
Error tpico ,913 ,913 ,913 ,913
Curtosis Estadstico -,022 -,022 -,498 -,498
Error tpico 2,000 2,000 2,000 2,000

Al aplicar la transformacin, las varianzas se han igualado. Puesto


que los datos son inventado se obtienen resultados exactos pero
con datos reales lo ms probable que las varianzas mostrarn
algunas veces rangos aceptables de homogeneidad
Ejemplo
Por ejemplo tenemos los siguientes porcentajes
A 85 82 83 79 81 78 80 88
B 45 51 50 56 53 47 55 52
arcosenA 67,2 64,9 65,6 62,7 64,2 62,0 63,4 69,7
arcosenB 42,1 45,6 45,0 48,4 46,7 43,3 47,9 46,1
Estadsticos descriptivos

A B arcsenA arcsenB
Media Estadstico 82,0000 51,1250 64,9625 45,6375
Desv. tp. Estadstico 3,29502 3,75832 2,52922 2,15402
Varianza Estadstico 10,857 14,125 6,397 4,640
Asimetra Estadstico ,767 -,431 ,894 -,445
Error tpico ,752 ,752 ,752 ,752
Curtosis Estadstico ,138 -,601 ,450 -,562
Error tpico 1,481 1,481 1,481 1,481

Pruebas de normalidad

Kolmogorov-Smirnov Shapiro-Wilk
Estadstico gl Sig. Estadstico gl Sig.
A ,131 8 ,200(*) ,957 8 ,785
B ,132 8 ,200(*) ,965 8 ,856
arcsenA ,150 8 ,200(*) ,946 8 ,667
arcsenB ,134 8 ,200(*) ,963 8 ,839
* lmite inferior de la significacin verdadera.
Pruebas no paramtricas
Son aquellas que no presuponen una distribucin de
probabilidad para los datos, por ello se conocen
tambin como de distribucin libre.
En la mayor parte de ellas los resultados estadsticos
se derivan nicamente a partir de procedimientos de
ordenacin y recuento, por lo que su base lgica es de
fcil comprensin.
En estos casos se emplea como parmetro de
centralizacin la mediana
Prueba de Wilcoxon. Contrasta datos pareados
Prueba de Wilcoxon de los rangos con signo. Compara
datos con una mediana terica (ejemplo: un valor publicado en un
artculo).

Prueba de Mann-Whitney. Compara dos series de valores de


una variable continua obtenidas en muestras independientes.

Prueba de Kruskal-Wallis. Comparar K muestras


Prueba de Friedman. Compara K muestras pareadas (bloques)
Coeficiente de correlacin de Spearman para rangos
Prueba de rachas de Wald-Wolfowitz

Anda mungkin juga menyukai