Anda di halaman 1dari 63
Diseño de Cuestionarios y Análisis de Datos Dr. Luis Alzamora de los Godos Dra. Jully Pahola
Diseño de Cuestionarios y
Análisis de Datos
Dr. Luis Alzamora de los Godos
Dra. Jully Pahola Calderón Saldaña
Diseño de Cuestionarios y Análisis de Datos Dr. Luis Alzamora de los Godos Dra. Jully Pahola
Formulación del cuestionario  Cuestiones a considerar: – Claridad: ¿los encuestados entienden correctamente la formulación de
Formulación del cuestionario
 Cuestiones a considerar:
– Claridad: ¿los encuestados entienden correctamente la
formulación de las preguntas?
– Comprensión: ¿son las preguntas y las posibles respuestas
suficientemente comprensivas?
 Podría ser que algunas preguntas sean irrelevantes, otras
incompletas y finalmente, que no se hayan incorporado
preguntas que generen información importante para la
investigación.
– Aceptabilidad: ¿es el cuestionario aceptable? ¿No contiene
preguntas inaceptables?
2
Formulación del cuestionario  Reglas básicas: – Ser específico. – Usar palabras simples. – Armar preguntas
Formulación del cuestionario
 Reglas básicas:
– Ser específico.
– Usar palabras simples.
– Armar preguntas cortas.
– No generar un diálogo con el entrevistado.
– No ser excesivamente específico.
3
Tipos de preguntas: De respuesta abierta  Estas preguntas no proveen respuestas opcionales.  Estas preguntas
Tipos de preguntas: De respuesta
abierta
 Estas preguntas no proveen respuestas opcionales.
 Estas preguntas suelen ser las mas fáciles de
formular. Sin embargo, poseen claras desventajas.
– son difíciles de responder,
– pueden generar respuestas de cualquier tipo y,
– son muy complicadas de codificar.
4
Tipos de preguntas: De respuesta abierta  Estas preguntas pueden ser útiles cuando: – El entrevistador
Tipos de preguntas: De respuesta abierta
 Estas preguntas pueden ser útiles cuando:
– El entrevistador no conoce el tema a fondo,
– Cuando queremos obtener mayor información sobre la respuesta a
una pregunta anterior. Por ejemplo, “si respondió sí en la pregunta
anterior, ¿podría explicar por qué?”
– Para evaluar comportamientos rutinarios, por ejemplo, “¿cuántas
horas mira TV por día?”
– Cuando se necesita información precisa, como la provincia de
nacimiento.
– Para darle una oportunidad al entrevistado de expresarse. Por
ejemplo, al final de la encuesta, “¿hay algo más que le gustaría
comentar respecto de este tema?
5
Tipos de preguntas: De opciones ordenadas El club necesita más canchas de tenis completamente en desacuerdo
Tipos de preguntas: De opciones
ordenadas
El club necesita más canchas de tenis
completamente en desacuerdo
medianamente en desacuerdo
ni de acuerdo ni en desacuerdo
medianamente de acuerdo
completamente de acuerdo
¿Cuál es su edad?
Menos de 25
entre 25 y 35
entre 36 y 50
entre 51 y 65
más de 65
 Las posibles respuestas son provistas en el cuestionario. El
entrevistado debe seleccionar entre una de ellas.
 Este tipo de preguntas es menos demandante para el encuestado
que las preguntas de respuesta abierta y son mas fáciles de
codificar.
6
Tipos de preguntas: De opciones ¿Cuál de las siguientes opciones describe mejor su vivienda actual? departamento
Tipos de preguntas: De opciones
¿Cuál de las siguientes opciones describe mejor su vivienda
actual?
departamento
casa
pensión
casa rodante
 En este caso, a diferencia del anterior, no existe una
secuencia ordinal de opciones entre una respuesta y otra.
 El encuestado debe elegir la respuesta que mejor describe
su situación.
7
Tipos de preguntas: De opciones, parcialmente abierta En que área prefiere que se realicen mejoras en
Tipos de preguntas: De opciones,
parcialmente abierta
En que área prefiere que se realicen mejoras en su barrio
calles y veredas
red cloacal
parques y plazas
Otra (especificar): ___________
 En este caso, si bien hay opciones, se deja la posibilidad de que el
encuestado pueda crear su propia respuesta.
 Generalmente, la opción de la respuesta abierta no se utiliza. Sin embargo,
tiene la ventaja de que si el encuestado no considera ninguna respuesta
apropiada a su situación, no esta forzado a responder dentro de la
opciones predefinidas y, ocasionalmente, generan nueva información.
8
Estructura de una pregunta: Comparaciones  Respuesta abierta: En su opinión, ¿qué problemas tuvo que afrontar
Estructura de una pregunta:
Comparaciones 
Respuesta abierta:
En su opinión, ¿qué problemas tuvo que afrontar la
agricultura durante los 90s?
 Es ideal para focus groups y para otro tipo de entrevistas
exploratorias.
 Sirve para identificar distintos tipos de respuestas que
pueden ser posteriormente utilizadas en cuestionarios más
estructurados.
 Raramente puede darnos alguna idea sobre que porcentaje de
personas poseen pensamientos o características particulares.
9
Estructura de una pregunta: Comparaciones  Respuesta con opciones ordenadas: Durante los 90s la agricultura sufrió
Estructura de una pregunta:
Comparaciones 
Respuesta con opciones ordenadas:
Durante los 90s la agricultura sufrió algunos problemas.
En su opinión, ¿qué tan serio fue cada uno de ellos?
A- Problemas ambientales
B- Problemas económicos
C- Problemas políticos
muy serio
muy serio
muy serio
serio
serio
serio
poco serio
poco serio
poco serio
 En este caso, cada entrevistado responde a cada problema en
forma independiente y se mide cuán serio considera a cada uno
de ellos.
10
Estructura de una pregunta: Comparaciones  Respuesta con opciones: En su opinión, ¿cuál de los siguientes
Estructura de una pregunta:
Comparaciones
 Respuesta con opciones:
En su opinión, ¿cuál de los siguientes problemas que
afectaron a la agricultura durante los 90s es el más
serio?
A- Problemas ambientales
B- Problemas económicos
C- Problemas políticos
 El entrevistado debe elegir el problema que considera
más importante dentro de una lista predefinida.
11
Estructura de una pregunta: Comparaciones  Respuesta con opciones, parcialmente abierta: En su opinión, ¿cuál de
Estructura de una pregunta:
Comparaciones 
Respuesta con opciones, parcialmente abierta:
En su opinión, ¿cuál de los siguientes problemas que
afectaron a la agricultura durante los 90s fue el más serio?
A- Problemas ambientales
B- Problemas económicos
C- Problemas políticos
D- Otro (especificar): ___________________
 En este caso, la situación es similar a la anterior, pero se
permite que el encuestado tenga la libertad de elegir algún
otro problema que no ha sido considerado.
12
Secuencia del cuestionario  Preguntas introductorias: Las primeras preguntas deben estar relacionadas al tema principal de
Secuencia del cuestionario
 Preguntas introductorias: Las primeras preguntas deben
estar relacionadas al tema principal de investigación y
deben despertar el interés del encuestado.
 Preguntas relacionadas: Deben agruparse en secciones
del cuestionario.
 Preguntas sensitivas: Se recomienda incluirlas hacia el
final del cuestionario.
 Preguntas importantes: Es deseable incorporar tests sobre
la calidad de las respuestas a estas preguntas.
 Secuencia lógica: Siempre debe respetarse.
13
Diseño de Cuestionario  1) Con que frecuencia visita el shopping?  4) Cual de las
Diseño de Cuestionario
1) Con que frecuencia visita el shopping?
4) Cual de las promociones del shopping recuerda?
Diaria
3 por semana
1 por semana
1 por mes
2) Cual es el motivo de la visita?
Compras
Entretenimientos
Pascuas
Día del padre
Día de la madre
Día del amigo
Navidad
Ninguna
Otros
5) Y qué recuerda?
3) Es usted de participar en promociones?
Premios
No
Juegos
Nada
Por que?
No me interesan
No creo en ellas
No me gustan los premios
Otros
6) Participó?
Si
No
Si
Sigue el cuestionario con otras preguntas.
Diseño de Cuestionario  1) Con que frecuencia visita el shopping?  4) Cual de las

14

Diseño de Cuestionario  1) Con que frecuencia visita el shopping?  4) Cual de las
Resultados Participa en promociones? 27% No Si 73% n = 200 15
Resultados
Participa en promociones?
27%
No
Si
73%
n = 200
15
Resultados Figura 2 25% No participa en las promociones del shopping Participa en las promociones del
Resultados
Figura 2
25%
No participa en las
promociones del
shopping
Participa en las
promociones del
shopping
75%
n = 200
16
Resultados Participa en promociones y ademas ... 70 63 60 50 37 40 30 20 10
Resultados
Participa en promociones y ademas ...
70
63
60
50
37
40
30
20
10
0
No participa en las promociones
del shopping
Participa en las promociones
del shopping
n = 54 (El resto no participa en promociones)
17
%
Diseño de Cuestionario   0) Presentación general y datos personales. 1) Con que frecuencia visita
Diseño de Cuestionario
0) Presentación general y datos personales.
1) Con que frecuencia visita el shopping?
4) Cual de las promociones del shopping recuerda?
Diaria
3 por semana
1 por semana
1 por mes
2) Cual es el motivo de la visita?
– Pascuas
Día del padre
Día de la madre
Día del amigo
– Navidad
– Ninguna
Compras
5) Y qué recuerda?
– Premios
Entretenimientos
– Juegos
Otros
– Nada
3) Es usted de participar en promociones?
6) Participó?
No
Si
Distintas opciones de
por que. (Fin
entrevista)
No
Sigue el cuestionario con otras preguntas.
Si
(Pase a pregunta 4)
Diseño de Cuestionario   0) Presentación general y datos personales. 1) Con que frecuencia visita

18

Diseño de Cuestionario   0) Presentación general y datos personales. 1) Con que frecuencia visita
Resultados Participa de promociones? Shopping 17% No Si 73% 27% Otras 10% No Si y ademas
Resultados
Participa de promociones?
Shopping
17%
No
Si
73%
27%
Otras
10%
No
Si y ademas shopping
Si pero no shopping
19
Algunas consideraciones especiales  Muchas veces los encuestados responden de forma apresurada. Ello puede generar errores
Algunas consideraciones especiales
 Muchas veces los encuestados responden de forma
apresurada. Ello puede generar errores de medición.
 Un diseño cognitivo puede ayudar para evitar que ello
ocurra.
 Si bien este diseño hace que los cuestionarios se alarguen,
es efectivo y se recomienda utilizarlo en aquellas
preguntas que requieren una respuesta precisa.
20
Diseño cognitivo: Ejemplo  Queremos responder a la siguiente pregunta: – ¿Utilizó el cinturón de seguridad
Diseño cognitivo: Ejemplo
 Queremos responder a la siguiente pregunta:
¿Utilizó el cinturón de seguridad la ultima vez que anduvo en
auto como acompañante?
 Bajo un diseño cognitivo, esta pregunta se divide en tres:
¿Cuándo fue la última vez que viajo en auto como acompañante?
Hoy
Ayer
Anterior a ayer
¿Qué tan largo fue el viaje?
1 KM
Entre 1 y 2 KM
Mas de 2 KM
¿Usó cinturón de seguridad?
Todo el tiempo
Parte del tiempo
No lo utilizo
21
Tipos de Datos D a tos C a te g ó ricos C u a n
Tipos de Datos
D a tos
C a te g ó ricos
C u a n tita tivo s
O rd in a les
N o m in a les
22
Variables discretas y continuas Una variable es discreta si toma solo un número contable de valores.
Variables discretas y
continuas
Una variable es discreta si toma solo un
número contable de valores. Una variable es
contínua si la misma toma un número
incontable de valores.
Variable discreta
Variable continua
0
1
2
3 ...
0
1/16
1/4
1/2
1
Por lo tanto, el número de
valores es contable
Por lo tanto, el número de
valores es incontable
23
Estadística Descriptiva  Abarca la agrupación, resumen y presentación de los datos para permitir su interpretación
Estadística Descriptiva
 Abarca la agrupación, resumen y presentación
de los datos para permitir su interpretación y
poder tomar decisiones basadas en dicha
interpretación.
 La estadística descriptiva utiliza
– Técnicas gráficas
– Medidas de descripción numéricas
24
Variables Categóricas Pie chart Gráfico de barras  Estas son algunas de las representaciones más utilizadas
Variables Categóricas
Pie chart
Gráfico de barras
 Estas son algunas de las representaciones
más utilizadas para variables categóricas.
25
Variables cuantitativas  Las variables cuantitativas continuas toman un número considerable de valores.  Su representación
Variables cuantitativas
 Las variables cuantitativas continuas toman un
número considerable de valores.
 Su representación gráfica resulta más clara si se
agrupan los valores próximos de la variable.
 El gráfico más común de la distribución de una
variable cuantitativa continua es un histograma.
26
Histograma: distribución del salario horario en el Gran Buenos Aires 200 200 160 120 80 40
Histograma: distribución del salario horario en
el Gran Buenos Aires
200
200
160
120
80
40
0
0
1
2
3
4
160
27
Medidas de Posición Central:  Usualmente, nuestra atención se centra en dos aspectos de las medidas
Medidas de Posición Central:
 Usualmente, nuestra atención se centra en
dos aspectos de las medidas de posición
central:
– Medición del punto central (promedio)
– Medición de la dispersión en torno al promedio
28
Medidas de Posición Central: la media  Es la medida mas popular. Media = Suma de
Medidas de Posición Central: la media
 Es la medida mas popular.
Media =
Suma de las observaciones
Número de observaciones
 Es decir, tenemos una muestra de n
observaciones: x 1 , x 2 ,…,x n . Su media muestral
(x
x
...
x
)
es:
1
2
n
x 
n
29
La mediana  La mediana (M) es el “valor central” de un histograma.  Para hallar
La mediana
 La mediana (M) es el “valor central” de un histograma.
 Para hallar la mediana de una distribución debemos:
1.
1. Ordenar las observaciones en orden ascendente.
2.
2. Si el número de observaciones n
es impar, M es la
observación central de la lista ordenada. M se halla
contando (n+1)/2 observaciones desde el comienzo de
la lista.
3.
3. Si el número de observaciones n es par, M es la media
de las dos observaciones centrales de la lista ordenada.
30
La Moda La Moda es el valor que ocurre con mayor frecuencia en un grupo de
La Moda
La Moda es el valor que ocurre con
mayor frecuencia en un grupo de
observaciones. El modo
Cuando la muestra
es grande, los datos
se agrupan en intervalos
y obtenemos el
Intervalo modal
En un conjunto de observaciones puede haber más de un modo.
31
Media y Mediana  La media es sensible a observaciones extremas y a outliers.  La
Media y Mediana
 La media es sensible a observaciones extremas y a outliers.
 La mediana solo es sensible a cambios en su entorno que la cruzan.
Por ello, se dice que la mediana es un estimador robusto de la
tendencia central.
 La media y la mediana de una distribución simétrica se encuentran
muy cerca. Si la distribución es exactamente simétrica, la media y la
mediana coinciden.
 Si la distribución es asimétrica, la media queda desplazada hacia la
cola más larga del histograma de la distribución.
32
Distribuciones simétricas y asimétricas  Una distribución es simétrica si el lado derecho e izquierdo del
Distribuciones simétricas y
asimétricas
 Una distribución es simétrica si el lado derecho e
izquierdo del histograma con respecto a la mediana son
aproximadamente iguales.
 Un distribución es asimétrica hacia la derecha si el lado
derecho del histograma se extiende sobre un mayor
número de valores (intervalos) que el lado izquierdo.
 Una distribución es asimétrica hacia la izquierda si el
lado izquierdo del histograma se extiende sobre un mayor
número de valores (intervalos) que el lado derecho.
33
Aspecto general de una  La figura muestra la distribución de ventas de distribución libros por
Aspecto general de una
La figura muestra la distribución de ventas de
distribución
libros por individuo en la feria del libro. Esta
distribución es asimétrica hacia la derecha. Es
decir hay muchas ventas de 3 o 4 libros y pocas
ventas de 10 libros.
25
20
15
10
5
0
1
2
3
4
5
6
7
8
9
10
11
12
Aspecto general de una  La figura muestra la distribución de ventas de distribución libros por

34

Aspecto general de una  La figura muestra la distribución de ventas de distribución libros por
Medidas de dispersión  Caracterizar una distribución solamente a través de una medida central no es
Medidas de dispersión
 Caracterizar
una
distribución
solamente
a
través
de
una
medida central no es apropiado.
 Las distribuciones del ingreso de dos provincias con el mismo
ingreso medio por hogar son muy distintas si una de ellas
tiene extremos de pobreza y de riqueza, mientras que la otra
tiene poca variación de ingresos entre familias.
 Estamos interesados en la dispersión o variabilidad de los
ingresos, además de estarlo en sus centros.
35
Medidas de dispersión  Rango Una manera de medir la dispersión es calcular el recorrido de
Medidas de dispersión
 Rango
Una manera de medir la dispersión es calcular el
recorrido de la distribución empírica, es decir, la
diferencia entre las observaciones máxima y mínima.
Su mayor ventaja es que se puede calcular facilmente,
sin embargo, no brinda información sobre la dispersión
existente entre ambos valores extremos.
36
Medidas de dispersión  El rango depende sólo de las observaciones máxima y mínima, que podrían
Medidas de dispersión
 El rango depende sólo de las observaciones
máxima y mínima, que podrían ser observaciones
atípicas.
 Podríamos mejorar nuestra descripción de la
dispersión fijándonos, por ejemplo, también en la
dispersión del 50% de los valores centrales de
nuestros datos.
 Un conjunto de estadísticos de utilidad son los
cuartiles de una distribución.
37
Cuartiles Para calcular los cuartiles de una distribución debemos: 1. 1. Ordenar las observaciones en orden
Cuartiles
Para
calcular
los
cuartiles
de
una
distribución
debemos:
1.
1.
Ordenar las observaciones en orden creciente y
localizar la mediana.
22..
El primer cuartil Q 1 es la mediana de las
observaciones situadas a la izquierda de la mediana de
la distribución.
3.
3.
El tercer cuartil Q 3 es la mediana de las observaciones
situadas a la derecha de la mediana de la distribución.
38
Cuartiles  Los cuartiles son medidas de tendencia no central de una distribución.  Dividen los
Cuartiles
 Los cuartiles son medidas de tendencia no central de una
distribución.
 Dividen los datos ordenados en 4 cuartos iguales:
25%
25%
25%
25%
Q 1
Q 2
Q 3
 El segundo cuartil de una distribución es su mediana.
 El Rango Intercuartil es la diferencia entre el tercer y el primer
cuartil.
Cuartiles  Los cuartiles son medidas de tendencia no central de una distribución.  Dividen los

39

Cuartiles  Los cuartiles son medidas de tendencia no central de una distribución.  Dividen los
Percentiles  Los percentiles son otro conjunto de medidas de tendencia no central de una distribución.
Percentiles
 Los percentiles son otro conjunto de medidas de
tendencia no central de una distribución.
 Dividen los datos ordenados en 100 partes iguales.
 El percentil 25 es el primer cuartil ...
40
Diagrama de caja  Los cinco números resumen de una distribución son representados gráficamente por un
Diagrama de caja
 Los cinco números resumen de una distribución son
representados gráficamente por un diagrama de caja.
 L
- Observación máxima
 Q 3 - Tercer cuartil
 Q 2 - Mediana
 Q 1 - Primer cuartil
 S
- Observación mínima
41
Diagrama de caja  Los lados inferior y superior de la caja van del primer al
Diagrama de caja
 Los lados inferior y superior de la caja van del primer al
tercer cuartil. Por tanto, la altura de la caja es la
amplitud del 50% de los datos centrales.
 El segmento del interior de la caja indica la mediana.
Los extremos de los segmentos perpendiculares a los
lados superior e inferior indican, respectivamente, los
valores máximo y mínimo de la distribución.
L
S
Q 1
Q 2
Q 3
42
Una medida de dispersión: La varianza  La varianza s 2 de un conjunto de observaciones
Una medida de dispersión: La varianza
La varianza s 2 de un conjunto de observaciones es el
promedio de los cuadrados de la desviaciones de las
observaciones respecto a su media. Formalmente:
2
2
2
(x
x)
(x
x)
...
(x
x)
2
1
2
n
s
n
1
 De forma compacta:
1
2
2
s
(x
x)
i
n
1
43
El desvío estándar  La desviación típica es la raíz cuadrada positiva de la varianza s
El desvío estándar
 La desviación típica es la raíz cuadrada positiva
de la varianza s 2 :
1
2
s 
(x
x)
i
n
1
44
Coeficiente de variación  El coeficiente de variación es una medida de dispersión relativa.  Muestra
Coeficiente de variación
 El coeficiente de variación es una medida de dispersión relativa.
 Muestra la dispersión de una distribución en relación a su media.
 Se utiliza para comparar distintas distribuciones.
 Su fórmula es:
 Por ejemplo, un desvio standard de 10, puede ser grande si la
s
media es 100, pero no lo es si la media es 500.
CV 
x
45
Medidas de asociación en variables cuantitativas  (x  x)(y  y) i i Covarianza muestral
Medidas de asociación en variables
cuantitativas
(x
x)(y
y)
i
i
Covarianza muestral
cov(X,Y)
n -1
Coeficiente de correlacion muestral
cov(
X
,
Y
)
r 
s s
x
y
46
Coeficiente de Correlación +1 Correlación lineal positiva fuerte El valor se encuentra cerca de 1 COV(X,Y)>0
Coeficiente de Correlación
+1
Correlación lineal positiva fuerte
El valor se encuentra cerca de 1
COV(X,Y)>0
o
r
=
0
No hay correlación lineal
Coeficiente cercano a cero
COV(X,Y)=0
-1
Correlación lineal negativa fuerte
El valor se encuentra cerca de -1
COV(X,Y)<0
47
Medidas de Asociación en Variables Categóricas  Tablas de Contingencia  El objetivo de la tabulación
Medidas de Asociación en
Variables Categóricas
 Tablas de Contingencia
 El objetivo de la tabulación cruzada es identificar la
relación que existe entre dos variables. Con los datos de
una muestra podemos observar si existe alguna relación
entre dos variables y la pregunta que surge naturalmente
es si esta relación es verdadera o es el resultado del error
muestral.
 Las tablas de contingencia son tabulaciones cruzadas
entre dos variables X e Y con r y c categorías
respectivamente. Es decir que la tabla de contingencia
entre X e Y tendrá r filas y c columnas.
48

Tablas de Contingencia y Medidas de Asociación Para identificar si existe relación entre dos variables categóricas
Tablas de Contingencia y
Medidas de Asociación
Para identificar si existe relación entre dos variables categóricas se
utiliza un test de hipótesis conocido como el test Chi-cuadrado de
Pearson. La hipótesis nula del test es que las dos variables
analizadas son independientes. La hipótesis alternativa es que las
variables no son independientes, es decir que existe una relación
entre las dos variables.
Por
ejemplo,
la
siguiente
tabla
de
contingencia muestra la
tabulación cruzada de la variable ingreso anual (dividido en tres
categorías) y la última marca de coche comprada (dividida en tres
marcas).
49
Tablas de Contingencia y Medidas de Asociación Marca del último auto comprado Ford Toyota Renault Total
Tablas de Contingencia y
Medidas de Asociación
Marca del último auto comprado
Ford
Toyota
Renault
Total
Ingreso anual
Menos de 20,000
20,000 - 40,000
más de 40,000
50
200
125
375
200
100
350
650
100
25
50
175
Total
350
325
525
1200
Existe relación entre el ingreso anual y la marca del
último auto comprado?
Tablas de Contingencia y Medidas de Asociación Marca del último auto comprado Ford Toyota Renault Total

50

Tablas de Contingencia y Medidas de Asociación Marca del último auto comprado Ford Toyota Renault Total
Tablas de Contingencia y Medidas de Asociación  Las entradas de la tabla representan el número
Tablas de Contingencia y
Medidas de Asociación
 Las entradas de la tabla representan el número de
personas en la muestra con cada combinación de
ingreso y marca de auto. Por ejemplo, 50 personas que
ganan menos de 20,000 $ compraron un auto marca
Ford.
 El test Chi-cuadrado de Pearson se basa en encontrar
cual hubiera sido el valor de cada entrada si las
variables fueran independientes. Es decir el valor
esperado de cada celda de la tabla si las variables
ingreso y marca son independientes.
51
Tablas de Contingencia y Medidas de Asociación  Si ingreso y marca son independientes, la probabilidad
Tablas de Contingencia y
Medidas de Asociación
 Si ingreso y marca son independientes, la probabilidad
del evento conjunto
"A 1 :
ganar menos de 20,000$" y
"B 1 :
comprar marca Ford" es el producto de esas
dos
probabilidades:
Pr(A 1 y B 1 ) = Pr(A 1 )*Pr(B 1 )
Pr(A 1 ) = A 1 /A = 375/1200,
 Pr(B 1 ) = B 1 /B = 350/1200
 Donde A y B son las frecuencias totales de los eventos.
52
Tablas de Contingencia y Medidas de Asociación  Por lo tanto:  Pr(A 1 y B
Tablas de Contingencia y
Medidas de Asociación
 Por lo tanto:
 Pr(A 1 y B 1 ) = Pr(A 1 )*Pr(B 1 ) = 375*350/
(1200*1200) = 0.091
 El número esperado en la entrada A 1 B 1 es entonces:
 N* Pr(A 1 y B 1 ) = 1200*0.091 = 109.38
53
Tablas de Contingencia y Medidas de Asociación  En general la fórmula del valor esperado es:
Tablas de Contingencia y Medidas
de Asociación
 En general la fórmula del valor esperado es:
 E ij = (N Ai *N Bj )/N.
– E ij = número esperado
N Ai = número de elementos en la categoría A i
N Bi = número de elementos en la categoría B i
 Para A 1 B 1 el número esperado es:
E 11 = (375*350)/1200 = 109.38
54

Tablas de Contingencia y Medidas de Asociación Este proceso se puede repetir para cada una de
Tablas de Contingencia y
Medidas de Asociación
Este proceso se puede repetir para cada una de las entradas
de la tabla. Una vez hecho esto el estadístico Chi-cuadrado
se calcula con la siguiente fórmula:
2
r
c
O
E
2
ij
ij
 
i 
1
j
1
E
ij
r = número de categorías de la variable en las filas
c = número de categorías de la variable en las columnas
O ij = número observado en entrada ij
E ij = número esperado en la entrada ij
Este estadístico Chi-cuadrado tiene (r-1)*(c-1) grados de
libertad.
55
Tablas de Contingencia y Medidas de Asociación  En nuestro ejemplo hay (3-1)*(3-1) = 4 grados
Tablas de Contingencia y
Medidas de Asociación
 En nuestro ejemplo hay (3-1)*(3-1) = 4 grados de
libertad. Realizando todas las cuentas con la tabla
del ejemplo, el estadístico da 252.2.
 Comparando este número con el valor crítico de la
distribución Chi-cuadrado con 4 grados de libertad
a un nivel de significatividad del 5% el valor
crítico correspondiente es 9.49.
 Como 252.2 > 9.49 se rechaza la hipótesis nula. Es
decir, las variables no son independientes.
56
Tablas de Contingencia y Medidas de Asociación  El estadístico de Pearson nos dice si dos
Tablas de Contingencia y
Medidas de Asociación
 El estadístico de Pearson nos dice si dos variables son
independientes una de otra pero no nos dice nada
acerca de la naturaleza de la relación.
 Esto es, no sabemos cuan fuerte es la asociación entre
las variables analizadas.
 Para medir el grado de relación entre las variables se
utiliza el denominado Coeficiente de Contingencia (C).
57
Tablas de Contingencia y Medidas de Asociación  El coeficiente de contingencia se calcula fácilmente desde
Tablas de Contingencia y
Medidas de Asociación
 El coeficiente de contingencia se calcula
fácilmente desde el estadístico de Pearson:
2
C
2
n 
 donde n es el tamaño muestral.
58
Tablas de Contingencia y Medidas de Asociación  El coeficiente de contingencia es una extensión del
Tablas de Contingencia y
Medidas de Asociación
 El coeficiente de contingencia es una extensión del
coeficiente  al caso de que al menos una de las
variables presente más de dos categorías. Toma
valores entre 0 y C max , donde si r y c son el número
de categorías de cada una de las variables:
 Cuando no hay relación entre las variables el
coeficiente C = 0. El valor máximo de C está dado
por C max = [min(r-1,c-1)/(1+ min(r-1,c-1))] 1/2
59
Medidas de Asociación para Tablas de 2x2  Cuando analizamos variables dicotómicas (adoptan solo los valores
Medidas de Asociación para
Tablas de 2x2
 Cuando analizamos variables dicotómicas
(adoptan solo los valores 0, 1) el estadístico
de Pearson puede ser poco preciso. En esos
casos se suelen utilizar otras medidas de
asociación.
60
Medidas de Asociación para Tablas de 2x2  El Coeficiente Phi ()  Es una medida
Medidas de Asociación para
Tablas de 2x2
 El Coeficiente Phi ()
 Es una medida del grado de asociación entre
dos variables dicotómicas basada en el
estadístico Chi-cuadrado de Pearson.
 Este coeficiente toma valores en el intervalo
cero-uno. Valores próximos a cero indican
poca asociación entre las variables y valores
cercanos a uno indican una fuerte asociación.
61
Medidas de Asociación para Tablas de 2x2  Puede ser calculado utilizando el estadístico Chi-cuadrado de
Medidas de Asociación para
Tablas de 2x2
 Puede ser calculado utilizando el estadístico
Chi-cuadrado de Pearson con la siguiente
fórmula:
  =
( 2 /N) 1/2
 donde N es el número de datos.
62
GRACIAS Consultores de Investigación Página Web: conasin.es.tl Correos: paholitacalderon@yahoo.es alzamoradelosgodos@yahoo.es Telefonos: 992740368 63
GRACIAS
Consultores de Investigación
Página Web: conasin.es.tl
Correos: paholitacalderon@yahoo.es
alzamoradelosgodos@yahoo.es
Telefonos:
992740368
63