http://www.lapaginadelprofe.cl/UAconcagua/ICanalisisdatoscuantitativos.htm
Anteriormente ya han visto la forma de analizar datos descriptivos, correspondientes a la estadística descriptiva,
para lo que se recomendó trabajar en MINITAB o EXCEL, si es que Ud. no se ha introducido en el SPSS, entre otros
software de análisis estadísticos.
En esta sección veremos algunos de los más corrientes aspectos del análisis de datos cuantitativos
correspondientes a la estadística inferencial, como son los análisis paramétricos y no paramétricos.
Los métodos de estadística inferencial presentados a través del curso, son llamados métodos paramétricos
porque ellos son basados en muestreo de una población con parámetros específicos, como la media (µ), la
desviación estándar (σ) o la proporción (p). Estos métodos paramétricos usualmente tienen que ajustarse a
algunas condiciones completamente estrictas, así como el requisito de que los datos de la muestra provengan
de una población normalmente distribuidas.[2]
Las pruebas paramétricas requieren supuestos acerca de la naturaleza o forma de las poblaciones involucradas. Las
pruebas no paramétricas no requieren estos supuestos. Consecuentemente, las pruebas no paramétricas de
hipótesis son frecuentemente llamadas pruebas de libre distribución.
PRUEBAS PARAMÉTRICAS
Se llaman así porque su cálculo implica una estimación de los parámetros de la población con base en
muestras estadísticas. Mientras más grande sea la muestra más exacta será la estimación, mientras más
pequeña, más distorsionada será la media de las muestras por los valores raros extremos.
San valores numéricos dados.
Los análisis paramétricos partes de los siguientes supuestos:
1. La distribución poblacional de la variable dependiente es normal: el universo tiene distribución
normal.
2. El nivel de medición de las variables es por intervalos de razón.
3. Cuando dos o más poblaciones son estudiadas, tienen una varianza homogénea: las poblaciones en
cuestión poseen una dispersión similar en sus distribuciones.
Como estos criterios son muy rigurosos, algunos investigadores sólo basan sus análisis en el tipo de Hi y los
niveles de medición de las variables.
Las pruebas paramétricas más utilizadas son (HFB2):
Coeficiente de correlación de Pearson y regresión lineal.
Prueba t.
Prueba de contraste de las diferencias de proporciones.
Análisis de varianza unidireccional (ANOVA en un solo sentido o oneway)
Análisis de Varianza factorial (ANOVA)
Análisis de covarianza (ANCOVA)
ESTATURA PESO
1,72 98
1,64 65
1,84 98
1,66 65
1,63 70
1,70 105
1,82 110
r= 0,79
Correlación positiva considerable
Regresión lineal
Es modelo matemático para estimar el efecto de una variable sobre otra. Está asociado con el coeficiente r de
Perason.
Sirve para resolver Hi correlacionales y causales.
Mide variables de Intervalos y de razón.
La regresión lineal se determina con base al diagrama de dispersión. Este consiste en una gráfica donde se
relacionan las puntuaciones de una muestra en dos variables, como la de estatura y peso del ejemplo anterior.
Gráfica de dispersión simple
Gráfica de dispersión con regresión lineal. Correlación positiva muy fuerte, tendencia ascendente con altas
puntuaciones en X y altas puntuaciones en Y. Obtenidas con MINITAB.
Distribución ideal para valores de post test de grupos tratados (en experimento) y de comparación.
Sirve para medir Hi de diferencia entre dos grupos. La Hi propone que los grupos difieren significativamente
entre sí y la Hn propone que los grupos no difieren significativamente.
La comparación se realiza sobre una variable. Si hay diferentes variables, se efectuarán varias pruebas “t” (una
para cada variable). Aunque la razón que motiva la creación de los grupos puede ser una variable
independiente. Por ejemplo: un experimento con dos grupos, uno al cual se le aplica el estímulo experimental
y el otro grupo el de control.
Tres escenarios para diferencias de promedios
El valor “t” se obtiene de muestras grandes mediante la fórmula:
Muy usado para medir performances, rendimientos, posibilidades de ganar para dos o más corredores de
carreras de autos y otras situaciones en que hay que compara rendimientos promedios. Tendencias por un
candidato en dos comunas.
El ejemplo de HFB2 es “Hi: “Los varones le atribuyen mayor importancia al atractivo físico en sus relaciones
heterosexuales que las mujeres”. (385)
Hi: Los profesionales jóvenes prefieren vivir en departamento en vez de casas.
Hi: ¿Linux Vs. Microsoft?
Coeficiente rho de Spearman
Es un coeficiente para medir el grado de asociación entre dos variables ordinales cuyos valores indican
rangos en cada una de ellas. Rho toma el valor +1 cuando existe igualdad de rangos de los casos en las dos
variables y -1 cuando tienen rangos exactamente opuestos. Los valores intermedios pueden ser interpretados
según sus magnitudes relativas. Su fórmula de cálculo es:
En la cual:
D = diferencia de rangos en las dos variables, o, diferencia entre los correspondientes estadísticos de orden
de x - y.
N = número de parejas.
Se tiene que considerar la existencia de datos idénticos a la hora de ordenarlos, aunque si éstos son pocos, se
puede ignorar tal circunstancia
La interpretación de coeficiente de Spearman es igual que la del coeficiente de correlación de Pearson. Oscila
entre -1 y +1, indicándonos asociaciones negativas o positivas respectivamente, 0 cero, significa no
correlación pero no independencia. La tau de Kendall es un coeficiente de correlación por rangos, inversiones
entre dos ordenaciones de una distribución normal bivariante.
Ejercicio: A un grupo de 10 vendedores se les asigna rangos según la cantidad de ventas y el rango de tiempo
en hacerlo. Se desea saber si existe asociación entre las dos variables.
Vendedor Rango de ventas Rango de tiempo D D2
1 1 1 0 0
2 2 3 -1 1
3 3 4 -1 1
4 4 5 -1 1
5 5 8 -3 9
6 6 4 2 4
7 7 9 -2 4
8 8 6 2 4
9 9 2 7 49
10 10 7 3 9
∑ 82
Colocados los valores en la fórmula se tiene:
= 0.50
Respuesta al problema: existe asociación positiva medianamente alta entre el rango de ventas y tiempo
empleado.
Ejercicio: diferencias de notas entre dos asignaturas, en un curso.
ANÁLISIS NO PARAMETRICOS.
Qué es un análisis no paramétrico.
Se denominan pruebas no paramétricas aquellas que no presuponen una distribución de probabilidad para los
datos, por ello se conocen también como de distribución libre (distribution free). En la mayor parte de ellas
los resultados estadísticos se derivan únicamente a partir de procedimientos de ordenación y recuento, por lo
que su base lógica es de fácil comprensión. Cuando trabajamos con muestras pequeñas (n < 10) en las que se
desconoce si es válido suponer la normalidad de los datos, conviene utilizar pruebas no paramétricas, al
menos para corroborar los resultados obtenidos a partir de la utilización de la teoría basada en la normal.
Según Wikipedia: La estadística no paramétrica es una rama de la estadística que estudia las pruebas y modelos
estadísticos cuya distribución subyacente no se ajusta a los llamados criterios paramétricos. Su distribución no
puede ser definida a priori, pues son los datos observados los que la determinan. La utilización de estos métodos
se hace recomendable cuando no se puede asumir que los datos se ajusten a una distribución conocida, cuando el
nivel de medida empleado no sea, como mínimo, de intervalo.
Aunque el término no paramétrico sugiere que la prueba no está basada en un parámetro, hay algunas pruebas no
paramétricas que dependen de un parámetro tal como la media. Las pruebas no paramétricas, sin embargo, no
requieren una distribución particular, de manera que algunas veces son referidas como pruebas de libre
distribución. Aunque libre distribución es una descripción más exacta, el término no paramétrico es más
comúnmente usado. Las siguientes son las mayores ventajas y desventajas de los métodos no paramétricos. [6]
Ventajas de los Métodos No Paramétricos
1. Los métodos no paramétricos pueden ser aplicados a una amplia variedad de situaciones porque ellos no
tienen los requisitos rígidos de los métodos paramétricos correspondientes. En particular, los métodos no
paramétricos no requieren poblaciones normalmente distribuidas.
2. Diferente a los métodos paramétricos, los métodos no paramétricos pueden frecuentemente ser
aplicados a datos no numéricos, tal como el género de los que contestan una encuesta.
3. Los métodos no paramétricos usualmente involucran simples computaciones que los correspondientes en
los métodos paramétricos y son por lo tanto, más fáciles para entender y aplicar.
Desventajas de los Métodos No Paramétricos
1. Los métodos no paramétricos tienden a perder información porque datos numéricos exactos son
frecuentemente reducidos a una forma cualitativa.
2. Las pruebas no paramétricas no son tan eficientes como las pruebas paramétricas, de manera que con
una prueba no paramétrica generalmente se necesita evidencia más fuerte (así como una muestra más
grande o mayores diferencias) antes de rechazar una hipótesis nula.
Cuando los requisitos de la distribución de una población son satisfechos, las pruebas no paramétricas son
generalmente menos eficientes que sus contrapartes paramétricas, pero la reducción de eficiencia puede ser
compensada por un aumento en el tamaño de la muestra.
Según HFyB, Para realizar análisis no paramétricos debe partirse de las siguientes consideraciones:
1. La mayoría de estos análisis no requiere n de presupuestos acerca de la forma de la distribución
poblacional. Aceptan distribuciones no normales.
2. Las variables no necesariamente deben estar medidas en un nivel para intervalos o de razón, pueden
analizar datos nominales u ordinales. De hecho, si se quiere aplicar análisis no paramétricos a datos
de intervalos o razón, éstos deben ser resumidos a categorías discretas (a unas cuantas). Las variables
deben ser categóricas.
Métodos o pruebas estadísticas no paramétricas más utilizados.
La ji cuadrada o x2
Los coeficientes de correlación en independencia para tabulaciones cruzadas.
Los coeficientes de correlación por rangos ordenados de Spearman y Kendall.
La ji cuadrada o X2
Es una prueba estadística para evaluar hipótesis acerca de la relación entre dos variables categóricas.
Sirve para probar Hi correlacionales.
Mide variables nominales u ordinales (o intervalos o razón reducidas a ordinales)
MINITAB:
Los conteos esperados se imprimen debajo de los conteos observados
Las contribuciones Chi-cuadradas se imprimen debajo de los conteos esperados
d c Total
1 18 10 28
13,81 14,19
1,269 1,236
2 19 28 47
23,19 23,81
0,756 0,736
Total 37 38 75
Los datos son altamente interpretables ya que el coeficiente Phi se usa para datos nominales y ordinales,
donde varía su interpretación de acuerdo a los datos de las variables dicotómicas.
El coeficiente oscila entre los valores +1 y -1 siendo 0.50 el equilibrio perfecto. Asociación positiva perfecta es
(+1) cuando todos los individuos que se ubican en una categoría equivalente de otra variable, por ejemplo
Todos los “si” son damas y todos los “no” son varones. El valor (-1) indica asociación negativa perfecta, lo que
quiere decir que las personas que pertenecen a una cierta categoría en una variable se ubican en una categoría
contraria en otra, en datos ordinales.
Ejercicios: Dónde pasarían sus vacaciones: playa Vs. cordillera, por sexos.
Preferencias por dos productos de igual calidad, por edad, educación u otro.
Biobliografía
Hernández, Fernandez y Baptista, Metodología de Investigación, Ediciones 2º y5ª.
Briones, Guillermo, Análisis e Interpretación de Datos, SECAB, 1992.
Briones, Guillermo, (1996) Metodología De La Investigación Cuantitativa En Las Ciencias Sociales, ICFES,
Colombia.
Edgardo José Avilés-Garay, Estadística no paramétrica, pdf.
Wikipedia
EFB2:406; EFB5: 329