Anda di halaman 1dari 11

ANÁLISIS DE DATOS CUANTITATIVOS

http://www.lapaginadelprofe.cl/UAconcagua/ICanalisisdatoscuantitativos.htm
Anteriormente ya han visto la forma de analizar datos descriptivos, correspondientes a la estadística descriptiva,
para lo que se recomendó trabajar en MINITAB o EXCEL, si es que Ud. no se ha introducido en el SPSS, entre otros
software de análisis estadísticos.
En esta sección veremos algunos de los más corrientes aspectos del análisis de datos cuantitativos
correspondientes a la estadística inferencial, como son los análisis paramétricos y no paramétricos.

ANALISIS PARAMETRICO Y NO PARAMÉTRICO


Un parámetro[1] es un dato que es tomado como necesario para analizar o valorar una situación. A partir del
parámetro, una determinada circunstancia puede entenderse o situarse en perspectiva. Por ejemplo: “Si nos
basamos en los parámetros habituales, resultará imposible comprender esta situación”, “El paciente está
evolucionando de acuerdo a los parámetros esperados”, “Estamos investigando pero no hay parámetros que nos
permitan establecer una relación con el caso anterior”, “La actuación del equipo en el torneo local es el mejor
parámetro para realizar un pronóstico sobre su participación en el campeonato mundial”.
Para las matemáticas, un parámetro es una variable que permite identificar, en una familia de elementos, a cada
uno de ellos mediante su valor numérico.
Un parámetro estadístico es una función definida sobre los valores numéricos de una población. Se trata, por lo
tanto de un valor representativo que permite modelizar la realidad.
La utilidad de los parámetros estadísticos se encuentra ante la dificultad para manejar una gran cantidad de datos
individuales de una misma población. Este tipo de parámetros permite obtener un panorama general de la
población y realizar comparaciones y predicciones.
En las ciencias de la computación, un parámetro es una variable que puede ser recibida por una rutina o una
subrutina (que utilizan los valores asignados a un parámetro para modificar su comportamiento en el tiempo de
ejecución).
La parametrización de una base de datos, por otra parte, es la organización y estandarización de la información que
se ingresa en un sistema. De esta forma, es posible realizar distintos tipos de consulta y obtener resultados fiables.
A continuación se muestra una tabla en que se clasifican las variables como paramétricas y no paramétricas:
Ejemplos de variables
Variable dimensión código Observaciones.
Genero hombre 1 Variable nominal. El código esta expresado en
mujer 2 número que no se puede sumar; son excluyentes

Comuna Norte 1 Variable nominal. Se ubica la comuna del lugar de


sur 2 residencia y se asigna el código teniendo como base
de clasificación los puntos cardinales para la comuna
Poniente 3 de Santiago y empleados por el Sistema Nacional de
Oriente 4 Servicios de Salud y de Educación.
Sur Oriente 5 Los códigos no se suman;

edad años Variable paramétrica u ordinal; el número significa


años de edad; se puede sumar.
Notas Número de 1 a 7 Variable ordinal. Los códigos se pueden sumar y cada
valor tiene un significado
Colegio Municipal 1 Variable nominal o no paramétricas
Particular subvencionado 2
Particular 3
otro 4

Los métodos de estadística inferencial presentados a través del curso, son llamados métodos paramétricos
porque ellos son basados en muestreo de una población con parámetros específicos, como la media (µ), la
desviación estándar (σ) o la proporción (p). Estos métodos paramétricos usualmente tienen que ajustarse a
algunas condiciones completamente estrictas, así como el requisito de que los datos de la muestra provengan
de una población normalmente distribuidas.[2]
Las pruebas paramétricas requieren supuestos acerca de la naturaleza o forma de las poblaciones involucradas. Las
pruebas no paramétricas no requieren estos supuestos. Consecuentemente, las pruebas no paramétricas de
hipótesis son frecuentemente llamadas pruebas de libre distribución.

PRUEBAS PARAMÉTRICAS
Se llaman así porque su cálculo implica una estimación de los parámetros de la población con base en
muestras estadísticas. Mientras más grande sea la muestra más exacta será la estimación, mientras más
pequeña, más distorsionada será la media de las muestras por los valores raros extremos.
San valores numéricos dados.
Los análisis paramétricos partes de los siguientes supuestos:
1. La distribución poblacional de la variable dependiente es normal: el universo tiene distribución
normal.
2. El nivel de medición de las variables es por intervalos de razón.
3. Cuando dos o más poblaciones son estudiadas, tienen una varianza homogénea: las poblaciones en
cuestión poseen una dispersión similar en sus distribuciones.
Como estos criterios son muy rigurosos, algunos investigadores sólo basan sus análisis en el tipo de Hi y los
niveles de medición de las variables.
Las pruebas paramétricas más utilizadas son (HFB2):
 Coeficiente de correlación de Pearson y regresión lineal.
 Prueba t.
 Prueba de contraste de las diferencias de proporciones.
 Análisis de varianza unidireccional (ANOVA en un solo sentido o oneway)
 Análisis de Varianza factorial (ANOVA)
 Análisis de covarianza (ANCOVA)

Descripción. (Otra lista de pruebas paramétricas):[3]


 Prueba del valor Z de la distribución normal
 Prueba T de Student para datos relacionados (muestras dependientes)
 Prueba T de Student para datos no relacionados (muestras independientes)
 Prueba T de Student-Welch para dos muestras independientes con varianzas no homogéneas
 Prueba de ji cuadrada de Bartlett para demostrar la homogeneidad de varianzas
 Prueba F (análisis de varianza o ANOVA)

El coeficiente de Correlación de Pearson (r)


Es una prueba estadística para analizar la relación entre dos variables medidas en un nivel por intervalos o
de razón.
Prueba Hi del tipo de “A mayor X, mayor Y”; “A mayor X, menor Y”; etc.
La prueba en si no considera a una como independiente y la otra como dependiente, porque no evalúa la
causalidad, solo la relación mutua(correlación).
El coeficiente[4] se calcula a partir de las puntuaciones obtenidas en una muestra de dos variables. Se
relacionan las puntuaciones obtenidas de una variable con las puntuaciones obtenidas de otra variable, en los
mismos sujetos.
Mide niveles de variables de intervalo o de razón.
Puede variar de -1,00 a +1,00
(HFB2: 377)
Ejemplo de la (co)relación entre la variable “estatura” y “peso” de alumnos de Ing. Comercial en clases el
12.2011. (Calculo obtenido con Excel).

ESTATURA PESO
1,72 98
1,64 65
1,84 98
1,66 65
1,63 70
1,70 105
1,82 110

r= 0,79
Correlación positiva considerable

Regresión lineal
Es modelo matemático para estimar el efecto de una variable sobre otra. Está asociado con el coeficiente r de
Perason.
Sirve para resolver Hi correlacionales y causales.
Mide variables de Intervalos y de razón.
La regresión lineal se determina con base al diagrama de dispersión. Este consiste en una gráfica donde se
relacionan las puntuaciones de una muestra en dos variables, como la de estatura y peso del ejemplo anterior.
Gráfica de dispersión simple

Gráfica de dispersión con regresión lineal. Correlación positiva muy fuerte, tendencia ascendente con altas
puntuaciones en X y altas puntuaciones en Y. Obtenidas con MINITAB.

Prueba “t” (paramétrica)


En estadística, una prueba t de Student[5], prueba t-Student, o Test-T es cualquier prueba en la que el
estadístico utilizado tiene una distribución t de Student si la hipótesis nula es cierta. Se aplica cuando la
población se asume ser normal pero el tamaño muestral es demasiado pequeño como para que el estadístico
en el que está basada la inferencia esté normalmente distribuido, utilizándose una estimación de la desviación
típica en lugar del valor real.
En probabilidad y estadística, la distribución t (de Student) es una distribución de probabilidad que surge del
problema de estimar la media de una población normalmente distribuida cuando el tamaño de la muestra es
pequeño.
Aparece de manera natural al realizar la prueba t de Student para la determinación de las diferencias entre
dos medias muestrales y para la construcción del intervalo de confianza para la diferencia entre las medias de
dos poblaciones cuando se desconoce la desviación típica de una población y ésta debe ser estimada a partir
de los datos de una muestra. (Wikipedia)
Es una prueba estadística para evaluar si dos grupos difieren estadísticamente entre sí, de manera
significativa respecto a sus medias (HFB384). Es una prueba apropiada para comparar los promedios de dos
grupos, y especialmente apropiado como análisis para el diseño experimental de solo postest de dos grupos al
azar.
Mide variables de intervalo o de razón.

Distribución ideal para valores de post test de grupos tratados (en experimento) y de comparación.
Sirve para medir Hi de diferencia entre dos grupos. La Hi propone que los grupos difieren significativamente
entre sí y la Hn propone que los grupos no difieren significativamente.
La comparación se realiza sobre una variable. Si hay diferentes variables, se efectuarán varias pruebas “t” (una
para cada variable). Aunque la razón que motiva la creación de los grupos puede ser una variable
independiente. Por ejemplo: un experimento con dos grupos, uno al cual se le aplica el estímulo experimental
y el otro grupo el de control.
Tres escenarios para diferencias de promedios
El valor “t” se obtiene de muestras grandes mediante la fórmula:

Muy usado para medir performances, rendimientos, posibilidades de ganar para dos o más corredores de
carreras de autos y otras situaciones en que hay que compara rendimientos promedios. Tendencias por un
candidato en dos comunas.
El ejemplo de HFB2 es “Hi: “Los varones le atribuyen mayor importancia al atractivo físico en sus relaciones
heterosexuales que las mujeres”. (385)
Hi: Los profesionales jóvenes prefieren vivir en departamento en vez de casas.
Hi: ¿Linux Vs. Microsoft?
Coeficiente rho de Spearman
Es un coeficiente para medir el grado de asociación entre dos variables ordinales cuyos valores indican
rangos en cada una de ellas. Rho toma el valor +1 cuando existe igualdad de rangos de los casos en las dos
variables y -1 cuando tienen rangos exactamente opuestos. Los valores intermedios pueden ser interpretados
según sus magnitudes relativas. Su fórmula de cálculo es:

En la cual:
D = diferencia de rangos en las dos variables, o, diferencia entre los correspondientes estadísticos de orden
de x - y.
N = número de parejas.

Se tiene que considerar la existencia de datos idénticos a la hora de ordenarlos, aunque si éstos son pocos, se
puede ignorar tal circunstancia

Para muestras mayores de 20 observaciones, podemos utilizar la siguiente aproximación a la distribución t


de Student.

La interpretación de coeficiente de Spearman es igual que la del coeficiente de correlación de Pearson. Oscila
entre -1 y +1, indicándonos asociaciones negativas o positivas respectivamente, 0 cero, significa no
correlación pero no independencia. La tau de Kendall es un coeficiente de correlación por rangos, inversiones
entre dos ordenaciones de una distribución normal bivariante.

Ejercicio: A un grupo de 10 vendedores se les asigna rangos según la cantidad de ventas y el rango de tiempo
en hacerlo. Se desea saber si existe asociación entre las dos variables.
Vendedor Rango de ventas Rango de tiempo D D2
1 1 1 0 0
2 2 3 -1 1
3 3 4 -1 1
4 4 5 -1 1
5 5 8 -3 9
6 6 4 2 4
7 7 9 -2 4
8 8 6 2 4
9 9 2 7 49
10 10 7 3 9

∑ 82
Colocados los valores en la fórmula se tiene:

= 0.50
Respuesta al problema: existe asociación positiva medianamente alta entre el rango de ventas y tiempo
empleado.
Ejercicio: diferencias de notas entre dos asignaturas, en un curso.

ANÁLISIS NO PARAMETRICOS.
Qué es un análisis no paramétrico.
Se denominan pruebas no paramétricas aquellas que no presuponen una distribución de probabilidad para los
datos, por ello se conocen también como de distribución libre (distribution free). En la mayor parte de ellas
los resultados estadísticos se derivan únicamente a partir de procedimientos de ordenación y recuento, por lo
que su base lógica es de fácil comprensión. Cuando trabajamos con muestras pequeñas (n < 10) en las que se
desconoce si es válido suponer la normalidad de los datos, conviene utilizar pruebas no paramétricas, al
menos para corroborar los resultados obtenidos a partir de la utilización de la teoría basada en la normal.
Según Wikipedia: La estadística no paramétrica es una rama de la estadística que estudia las pruebas y modelos
estadísticos cuya distribución subyacente no se ajusta a los llamados criterios paramétricos. Su distribución no
puede ser definida a priori, pues son los datos observados los que la determinan. La utilización de estos métodos
se hace recomendable cuando no se puede asumir que los datos se ajusten a una distribución conocida, cuando el
nivel de medida empleado no sea, como mínimo, de intervalo.
Aunque el término no paramétrico sugiere que la prueba no está basada en un parámetro, hay algunas pruebas no
paramétricas que dependen de un parámetro tal como la media. Las pruebas no paramétricas, sin embargo, no
requieren una distribución particular, de manera que algunas veces son referidas como pruebas de libre
distribución. Aunque libre distribución es una descripción más exacta, el término no paramétrico es más
comúnmente usado. Las siguientes son las mayores ventajas y desventajas de los métodos no paramétricos. [6]
Ventajas de los Métodos No Paramétricos
1. Los métodos no paramétricos pueden ser aplicados a una amplia variedad de situaciones porque ellos no
tienen los requisitos rígidos de los métodos paramétricos correspondientes. En particular, los métodos no
paramétricos no requieren poblaciones normalmente distribuidas.
2. Diferente a los métodos paramétricos, los métodos no paramétricos pueden frecuentemente ser
aplicados a datos no numéricos, tal como el género de los que contestan una encuesta.
3. Los métodos no paramétricos usualmente involucran simples computaciones que los correspondientes en
los métodos paramétricos y son por lo tanto, más fáciles para entender y aplicar.
Desventajas de los Métodos No Paramétricos
1. Los métodos no paramétricos tienden a perder información porque datos numéricos exactos son
frecuentemente reducidos a una forma cualitativa.
2. Las pruebas no paramétricas no son tan eficientes como las pruebas paramétricas, de manera que con
una prueba no paramétrica generalmente se necesita evidencia más fuerte (así como una muestra más
grande o mayores diferencias) antes de rechazar una hipótesis nula.
Cuando los requisitos de la distribución de una población son satisfechos, las pruebas no paramétricas son
generalmente menos eficientes que sus contrapartes paramétricas, pero la reducción de eficiencia puede ser
compensada por un aumento en el tamaño de la muestra.
Según HFyB, Para realizar análisis no paramétricos debe partirse de las siguientes consideraciones:
1. La mayoría de estos análisis no requiere n de presupuestos acerca de la forma de la distribución
poblacional. Aceptan distribuciones no normales.
2. Las variables no necesariamente deben estar medidas en un nivel para intervalos o de razón, pueden
analizar datos nominales u ordinales. De hecho, si se quiere aplicar análisis no paramétricos a datos
de intervalos o razón, éstos deben ser resumidos a categorías discretas (a unas cuantas). Las variables
deben ser categóricas.
Métodos o pruebas estadísticas no paramétricas más utilizados.
 La ji cuadrada o x2
 Los coeficientes de correlación en independencia para tabulaciones cruzadas.
 Los coeficientes de correlación por rangos ordenados de Spearman y Kendall.

La ji cuadrada o X2
Es una prueba estadística para evaluar hipótesis acerca de la relación entre dos variables categóricas.
Sirve para probar Hi correlacionales.
Mide variables nominales u ordinales (o intervalos o razón reducidas a ordinales)

Ejemplo: Presentación o en su defecto, no presentación, de un aviso publicitario y compra o no compra de un


producto.
Ejemplo: Un corredor de propiedades quiere saber qué tipo de vivienda prefieren los profesionales. Se le
pregunta a un grupo de profesionales sobre sus preferencias de vivienda (casa o departamento) y si prefiere
vivir en Temuco o en Villarrica - Pucón.
Vivienda que posee / prefiere
Dónde departamento casa
Temuco (a) 18 (b) 10 (a+b) 28
Villarrica-Pucón (c) 19 (d) 28 (c+d) 47
(a+c) 37 (b+d) 38 N: 75

Para ingresarlo al Minitab hay que reducir la tabla con códigos:


d c
1 18 10
2 19 28

MINITAB:
Los conteos esperados se imprimen debajo de los conteos observados
Las contribuciones Chi-cuadradas se imprimen debajo de los conteos esperados

d c Total
1 18 10 28
13,81 14,19
1,269 1,236

2 19 28 47
23,19 23,81
0,756 0,736

Total 37 38 75

Chi-cuadrada = 3,996; GL = 1; Valor P = 0,046


Comentario de H,FyB: Cuando al calcular X2 se utiliza un paquete estadístico de computadora, el resultado de
X2 se proporciona junto con sus significancia, si ésta es menor a .05 o a .01, se acepta la Hi.
Puede haber tres o más filas.
Ejercicio:
Puesto que el ejemplo anterior es imaginado, sería interesante saber si es verdad. La Hi de investigación es
que los profesionales jóvenes (menores de 40 años) prefieren vivir en Departamento en Temuco (no tiene
patio que moleste) pero prefieren Casa en Villarrica-Pucón (tiene patio para tomar el sol o recibir visitas y
hacer asados). Averiguarlo entrevistando a tantos profesionales como se pueda en la semana y calcularlo
con X2.
Otro ejercicio:
Averiguar si los profesionales jóvenes (menores de 40 años) prefieren vivir en departamento o casa,
separándolos por sexo. Establecer la Hi y la Hn. Resolver con X2 en Minitab.
Otros ejercicios: Preferencias entre PCs (escritorio/notebook; notebook/netbook; portátil/tablet).

Coeficiente phi (fi) o Ø , (de 2x2)


El coeficiente Phi (también llamado coeficiente de correlación de cuatro campos) Ø (también ) es
una medida para la intensidad de la relación entre variables dicotómicas (Wikipedia). Este coeficiente se
aplica a cuadros confeccionados con variables con dicotomías claramente establecidas que definen
cuadros de 2x2.
El coeficiente Phi nos permite evaluar el grado de asociación entre dos variables, pero sólo está normalizada,
es decir oscila entre 0 y 1 en tablas de 2X2, en tablas con otras características toma valores >1. En estos casos
lo recomendable es utilizar el Coeficiente de Contingencia.
Por ejemplo:
Situación “X”
“Y” Damas Varones
Si-compran (a) (b) (a+b)
No-compran (c) (d) (c+d)
(a+c) (b+d)
Se aplica la fórmula phi:

Los datos son altamente interpretables ya que el coeficiente Phi se usa para datos nominales y ordinales,
donde varía su interpretación de acuerdo a los datos de las variables dicotómicas.
El coeficiente oscila entre los valores +1 y -1 siendo 0.50 el equilibrio perfecto. Asociación positiva perfecta es
(+1) cuando todos los individuos que se ubican en una categoría equivalente de otra variable, por ejemplo
Todos los “si” son damas y todos los “no” son varones. El valor (-1) indica asociación negativa perfecta, lo que
quiere decir que las personas que pertenecen a una cierta categoría en una variable se ubican en una categoría
contraria en otra, en datos ordinales.
Ejercicios: Dónde pasarían sus vacaciones: playa Vs. cordillera, por sexos.
Preferencias por dos productos de igual calidad, por edad, educación u otro.
Biobliografía
Hernández, Fernandez y Baptista, Metodología de Investigación, Ediciones 2º y5ª.
Briones, Guillermo, Análisis e Interpretación de Datos, SECAB, 1992.
Briones, Guillermo, (1996) Metodología De La Investigación Cuantitativa En Las Ciencias Sociales, ICFES,
Colombia.
Edgardo José Avilés-Garay, Estadística no paramétrica, pdf.
Wikipedia
EFB2:406; EFB5: 329

[1] Tomado de: http://definicion.de/parametro/


[2] Edgardo José Avilés-Garay, Estadística no paramétrica, pdf.
[3] http://www.buenastareas.com/ensayos/An%C3%A1lisis-Parametrico/1276277.html
[4]
1 Número que indica la cantidad de veces por las que debe multiplicarse una expresión matemática: en la
expresión 8x, el 8 es el coeficiente. 2 Número que expresa el valor de una propiedad o un cambio en relación con
las condiciones en que se produce: el coeficiente de dilatación de los cuerpos es la relación que existe entre la
longitud o el volumen de un cuerpo y la temperatura. Wikipedia.
[5]
Historia: La distribución de Student fue descrita en 1908 por William Sealy Gosset. Gosset trabajaba en una
fábrica de cerveza, Guinness, que prohibía a sus empleados la publicación de artículos científicos debido a una
difusión previa de secretos industriales. De ahí que Gosset publicase sus resultados bajo el seudónimo de Student.
[6]
Edgardo José Avilés-Garay, Estadística no paramétrica, pdf

Anda mungkin juga menyukai