GRUPO N° 8
INTEGRANTES:
2017 – II
1. PREPARACION DE LOS DATOS
El primer paso consiste en verificar que los cuestionarios sean aceptables, seguido por
la verificación, codificación y trascripción de los datos. Se depuran los datos y se
recomienda un tratamiento para las respuestas faltantes. Con frecuencia resulta
necesario un ajuste estadístico de los datos para que sean representativos de la
población de interés.
El investigador debe entonces elegir la estrategia apropiada para el análisis de los datos.
La estrategia final de análisis de los datos difiere del plan preliminar de análisis, debido
a la información y los conocimientos obtenidos desde que se formuló el plan original. La
preparación de los datos debe empezar tan pronto como se reciba el primer grupo de
cuestionarios del campo, mientras el trabajo de campo continúa. De este modo, si se
detecta algún problema, es factible modificar el trabajo de campo para incorporar alguna
acción correctiva.
El paso inicial en la revisión del cuestionario implica verificar todos los cuestionarios en
cuanto a la calidad de las entrevistas y a que estén terminados. A menudo estas
revisiones se realizan mientras el trabajo de campo sigue en proceso. Si se contrató a
2
una empresa de recolección de datos para realizar el trabajo de campo, el investigador
debe hacer una revisión independiente luego de que ésta ha terminado. Un cuestionario
que regresa del campo podría ser inaceptable por varias razones:
1. Algunas partes del cuestionario están incompletas: faltan una o más páginas.
2. El patrón de respuestas indica que el encuestado no entendió o siguió las
instrucciones. Por ejemplo, cuando no se siguieron los patrones de salto.
3. Las respuestas muestran poca varianza. Por ejemplo, se solicita al encuestado
que valorice las características de una variable en una escala de 0 a 20 y el
encuestado para todas las características contesta 5 puntos, demostrando que
no comprendió o no hubo seriedad en la respuesta.
4. El cuestionario se recibió después de la fecha establecida.
5. El cuestionario fue contestado por alguien que no estaba calificado para
participar. Si se impusieron cuotas o el tamaño de las células de trabajo, los
cuestionarios aceptables deberán clasificarse y contabilizarse de acuerdo con
ello. Antes de revisar los datos, deben identificarse los problemas para cumplir
los requisitos del muestreo y tomar las medidas correctivas pertinentes, como
realizar entrevistas adicionales en las células poco representadas.
6. Cuando las respuestas del estudio no presentan coherencia con las respuestas
de las preguntas de control.
7. Cuando una vez seleccionada las muestras o elementos muestrales, se aplican
los instrumentos a otros elementos no seleccionados.
8. Cuando se detecta que los instrumentos han sido llenados por el encuestador y
no por el encuestado.
9. Cuando los instrumentos han sido llenados en oficina y no en campo.
Antes de revisar los datos, deben identificarse los problemas para cumplir los requisitos
del muestreo y tomar las medidas correctivas pertinentes, como realizar entrevistas
adicionales en las células poco representadas.
1.3. EDICIÓN
Esta etapa es la revisión de los cuestionarios con el objetivo de incrementar su exactitud
y precisión, para poder examinar e identificar respuestas ilegibles, incompletas o
ambiguas.
Los resultados pueden ser ilegibles, si se registraron mal. Este caso, se debe
frecuentemente en cuestionarios con un gran número de preguntas no estructuradas.
Los datos deben ser legibles para codificarlos en forma correcta. Asimismo, pueden estar
incompletos en diferentes grados. Las preguntas no respondidas pueden ser pocas o
muchas.
1.3.1. Tratamiento de las respuestas insatisfactorias
Consiste en regresar el cuestionario al campo para obtener mejores datos, asignar
valores faltantes o descartar a los encuestados insatisfactorios.
• Devolución al campo. Los cuestionarios con respuestas insatisfactorias
pueden devolverse al campo, donde los entrevistadores vuelven a hacer contacto
con los encuestados. Este enfoque se utiliza para encuestas de mercados
industriales y de negocios, donde los tamaños de las muestras son pequeños y
resulta sencillo identificar a los encuestados.
• Asignación de valores faltantes. Si no es posible regresar los cuestionarios
al campo, el editor puede asignar valores faltantes a las respuestas insatisfactorias.
Este enfoque sería deseable si:
1. El número de encuestados insatisfactorios es pequeño
2. La proporción de respuestas insatisfactorias para cada uno de estos encuestados
es pequeña o
3. Las variables con respuestas insatisfactorias no son las más importantes.
Descartar a los encuestados insatisfactorios. En este enfoque simplemente se
descarta a los encuestados con repuestas insatisfactorias.
1 .La proporción de encuestados insatisfactorios es pequeña (menos del 10 por
ciento).
2. El tamaño de la muestra es grande.
3. Los encuestados insatisfactorios no difieren de los encuestados satisfactorios de
forma evidente (por ejemplo, en factores demográficos o características de uso
del producto)
3
4. La proporción de respuestas insatisfactorias para cada uno de estos encuestados
es grande o
5. Faltan respuestas para las variables más importantes.
Sin embargo, los encuestados insatisfactorios pueden diferir de manera sistemática
de los encuestados satisfactorios y la decisión para designar a un encuestado como
insatisfactorio podría ser subjetiva. Ambos factores sesgan los resultados. Si el
investigador decide descartar a los encuestados insatisfactorios, debería informar
cuál fue el procedimiento adoptado para identificarlos y cuántos fueron.
1.4. CODIFICACIÓN
Codificar es asignar un código o número a cada resultado posible, el código incluye una
indicación de la posición en la columna (campo) y el registro que ocupará el dato. Por
ejemplo, el sexo de los encuestados se codifica con 1 para las mujeres y 2 para los
hombres. Un campo representa un solo dato, como el sexo de los encuestados. Un
registro consta de campos relacionados, como sexo, estado civil, edad, tamaño de la
casa, ocupación, etcétera.
Una forma práctica de ingresar los datos es usar una hoja de cálculo como EXCEL, que
permite asignar con facilidad columnas específicas para preguntas y respuestas
concretas. Cada fila contiene los datos de un encuestado.
4
La figura 2 es un ejemplo de la codificación de un cuestionario, donde se muestra la
codificación de datos demográficos que suelen obtenerse en encuestas a los
consumidores.
El cuestionario del siguiente ejemplo fue objeto de una codificación previa.
Los avances tecnológicos han dado por resultado el sistema computarizado de análisis
sensorial que automatiza el proceso de recolección de datos. Las preguntas aparecen
en un formato computarizado y un dispositivo sensorial registra las respuestas
directamente en la computadora.
5
experimentados suelen ser bastante precisos, se puede verificar sólo entre 25 y 50 por
ciento de los datos.
La elección del método de trascripción de datos depende del tipo de entrevista utilizado
y de la disponibilidad de equipo. Si se utilizan sistemas computarizados como CATI o
CAPI, los datos se ingresan directamente en la computadora. La captura en un teclado
con terminal CRT se utiliza más a menudo para entrevistas telefónicas, en casa, en
centros comerciales o por correo. Sin embargo, en las entrevistas personales cada vez
es más común el uso de sistemas computarizados de análisis sensorial debido al
incremento en el uso de las computadoras de bolsillo (gridpads) y las computadoras
laptop. Los lectores ópticos pueden usarse en entrevistas estructuradas y repetitivas;
mientras que las formas de marcado sensorial se usan en casos especiales.
1.6. DEPURACIÓN DE DATOS
Esta etapa incluye la verificación de la congruencia y el tratamiento de las respuestas
faltantes. Las verificaciones son más minuciosas y exhaustivas que durante la etapa de
edición, porque se realizan por computadora.
1.6.1. COMPROBACIÓN DE LA CONGRUENCIA
Identifica los datos que están fuera de rango, que son incongruentes o que tienen
valores extremos. Estos datos son inadmisibles, por lo que tienen que corregirse.
Ejemplo, suponga que se pidió a los encuestados responder a una serie de
enunciados de estilos de vida en una escala de 1 a 5. Si se supone que se designó
9 para las respuestas faltantes, los valores de 0, 6, 7 y 8 están fuera de rango.
Es posible programar paquetes de cómputo como SPSS, SAS, EXCEL y MINITAB
para identificar los valores fuera de rango para cada variable, e imprimir el código
del encuestado, el código de la variable, el nombre de la variable, el número de
registro, el número de columna y el valor fuera de rango. Esto facilita la revisión
sistemática de cada variable para detectar los valores fuera de rango.
Las respuestas también llegan a presentar diversas incongruencias lógicas. Por
ejemplo, un encuestado que indico que no está familiarizado con un producto pero
también dice que lo usa con frecuencia. Estos paquetes imprimen la información
necesaria para localizar aquellas respuestas y tomar acciones correctivas.
Además, los valores extremos deben revisarse de manera minuciosa, ya que no
todos son resultados de errores, pero pueden indicar problemas con los datos.
6
1.6.2. TRATAMIENTO DE RESPUESTAS FALTANTES
Las respuestas faltantes representan valores de una variable que se desconocen,
ya sea porque los encuestados dieron respuestas ambiguas o porque éstas se
registraron en forma inadecuada. El tratamiento de respuestas faltantes plantea
problemas, sobre todo si su proporción es mayor del 10%. Existen 4 opciones para
tratar este tipo de respuestas:
Sustituir con un valor neutro
El valor neutro debe ser, por lo regular, la respuesta promedio a la variable. Así, no
cambiaría la media de la variable ni afectaría demasiado otros cálculos estadísticos.
Aunque es cuestionable la lógica de sustituir con un valor promedio (digamos 4)
para encuestados que, de haber respondido, quizás hubieran asignado
calificaciones altas (6 o 7) o bajas (1 o 2).
Sustituir con una respuesta atribuida
Se usa el patrón de respuestas de los encuestados a otras preguntas, para atribuir
o calcular una respuesta adecuada para las preguntas faltantes. A partir de los datos
disponibles, el investigador intenta inferir las respuestas que habrían dado los
encuestados si hubieran contestado las preguntas.
Esto puede hacerse en forma estadística, determinando la relación de la variable en
cuestión con otras variables a partir de los datos disponibles. Sin embargo, este
enfoque requiere de gran esfuerzo y puede introducir sesgos considerables. Se han
desarrollado procedimientos estadísticos complejos para calcular valores atribuidos
para las respuestas faltantes.
Eliminación por casos
Se descartan del análisis los casos o encuestados con alguna respuesta faltante.
Dado que muchos encuestados podrían tener algunas respuestas faltantes, este
enfoque daría como resultado una muestra pequeña. No es recomendable desechar
grandes cantidades de datos porque su recolección es costosa y consume mucho
tiempo. Además, los encuestados con respuestas faltantes pueden diferir de manera
sistemática de los encuestados con todas las respuestas. De ser así, la eliminación
por casos introduciría un sesgo grave en los resultados.
Eliminación por pares
El investigador sólo usa los casos o encuestados con respuestas completas para
cada cálculo. Como resultado, los distintos cálculos del análisis pueden basarse en
muestras de diferentes tamaños.
Este procedimiento puede ser apropiado cuando
1. El tamaño de la muestra es grande.
2. Las respuestas faltantes son pocas.
3. No hay mucha relación entre las variables. No obstante, el procedimiento puede
producir resultados poco atractivos o incluso poco verosímiles.
1.7.1. PONDERACIÓN
A cada caso o encuestado de la base de datos se le asigna un peso que refleje su
importancia en relación con otros casos o encuestados. El valor 1.0 representa el
caso no ponderado. El efecto de la ponderación es incrementar o disminuir el
número de casos de la muestra que poseen ciertas características.
La ponderación se usa sobre todo para hacer que los datos de la muestra sean más
representativos de una población meta en características específicas. Por ejemplo,
se utiliza para dar más importancia a casos o encuestados con datos de mayor
calidad. Sin embargo, otro uso de la ponderación consiste en ajustar la muestra para
dar mayor importancia a encuestados con ciertas características.
7
Si se realiza un estudio para determinar qué modificaciones deberían hacerse a un
producto existente, el investigador quizá desee dar más peso a las opiniones de
quienes consumen más ese producto. Esto puede lograrse mediante la asignación
de un peso de 3.0 a los usuarios frecuentes, 2.0 a los usuarios medios y 1.0 a los
usuarios esporádicos y a quienes no usan el producto. La ponderación debe
aplicarse con cautela porque destruye la naturaleza auto ponderada del diseño de
la muestra. Si se utiliza el método de ponderación, debe documentarse e incluirse
en el informe del proyecto.
8
con una consideración de los primeros pasos del proceso: definición del problema (paso
I), desarrollo del enfoque (paso II) y diseño de la investigación (paso III).
El plan preliminar de análisis de los datos que se preparó como parte del diseño de
investigación debe usarse como un trampolín. Quizá sea necesario hacer cambios a la
luz de la información adicional generada en las etapas posteriores del proceso de
investigación.
El segundo paso es considerar las características conocidas de los datos. Las escalas
de medición usadas ejercen una fuerte influencia en la elección de las técnicas
estadísticas. Además, el diseño de investigación puede favorecer ciertas técnicas. Por
ejemplo, el análisis de varianza es adecuado para el análisis de los datos experimentales
de los diseños casuales. La información sobre los datos obtenida durante su preparación
es una valiosa ayuda para la elección de una estrategia de análisis.
El tercer paso a tomar en cuenta son las propiedades de las técnicas estadísticas,
especialmente, su propósito y sus suposiciones subyacentes. Algunas técnicas
estadísticas son adecuadas para examinar las diferencias entre variables, otras para
evaluar la magnitud de las relaciones entre variables, y otras más para realizar
predicciones. Las técnicas también suponen diferentes suposiciones y algunas pueden
resistir mejor que otras el incumplimiento de las suposiciones subyacentes.
Y por último, la experiencia y la filosofía del investigador influyen en la elección de la
estrategia de análisis de datos. El investigador experimentado y con formación
estadística empleará una variedad de técnicas que incluye los procedimientos
estadísticos avanzados. Los investigadores difieren en su disposición a hacer
suposiciones sobre las variables y las poblaciones subyacentes. Quienes son
conservadores acerca de las suposiciones limitarán su elección a los procedimientos de
distribución libre.
En general, diversas técnicas pueden ser apropiadas para analizar los datos de un
determinado proyecto.
9
Figura 5: Clasificación de técnicas univariadas
Las técnicas estadísticas multivariadas se clasifican como técnicas de dependencia o de
interdependencia. Las técnicas de dependencia son adecuadas cuando es posible
identificar a una o más variables como variables dependientes y al resto como variables
independientes. Cuando hay una sola variable dependiente, se puede utilizar la
tabulación cruzada, el análisis de varianza y covarianza, la regresión, el análisis
discriminante de dos grupos y el análisis conjunto. Sin embargo, si hay más de una
variable dependiente, las técnicas apropiadas serían el análisis multivariado de varianza
y covarianza, la correlación canónica y el análisis discriminante múltiple. En las técnicas
de interdependencia, las variables no se clasifican como dependientes o independientes;
más bien se examina todo el conjunto de relaciones de interdependencia. Estas técnicas
se enfocan en la interdependencia de las variables o en la semejanza entre objetos. La
principal técnica para estudiar la interdependencia de las variables es el análisis factorial.
El análisis de la semejanza entre objetos puede realizarse usando el análisis de
conglomerados y el escalamiento multidimensional.
PRUEBA T
Las pruebas paramétricas dan inferencias para hacer afirmaciones sobre las medias
de poblaciones originales. La prueba t generalmente se utiliza para este propósito,
y se basa en el estadístico t de Student. El estadístico t supone que la variable se
distribuye normalmente y que se conoce la media (o asume que se conoce), y la
varianza de la población se estima a partir de la muestra.
Supongamos que la variable X se distribuye normalmente, con una media μ y una
varianza poblacional ơ2 desconocida, que se estima por medio de la varianza
muestral s2. Recuerde que la desviación estándar de la media de la muestra, Xm,
se calcula como
11
Pasos:
-Calcular el promedio y la desviación estándar de las observaciones de la muestra
en estudio.
-Calcular la diferencia que existe con respecto al promedio -Dividir la diferencia
calculada entre la desviación estándar obtenida de la muestra en estudio, que
corresponde al valor Z -Decidir si se acepta o rechaza la hipótesis.
El significado del valor Z en la curva normal de frecuencias: es el número de
desviaciones estándar que se desvían con respecto al promedio o media aritmética.
MUESTRA PAREADA
En muchas aplicaciones de la investigación de mercados las observaciones de los
dos grupos no se seleccionan de muestras independientes, sino que se refieren a
muestras pareadas, porque los dos conjuntos de observaciones corresponden a los
mismos sujetos. Una muestra de sujetos podría calificar a dos marcas rivales, indicar
la importancia relativa de los atributos de un producto o evaluar una marca en dos
momentos distintos. La diferencia en estos casos se examina por medio de una
prueba t de muestras pareadas. Para calcular t para muestras pareadas, se crea la
variable de la diferencia de pares, simbolizada por D, y se calculan su media y su
varianza. Luego, se calcula el estadístico t. Los grados de libertad son n - 1, donde
n es el número de pares. Las fórmulas relevantes son:
Donde:
1.9.3. BINOMIAL
La prueba de los signos o binomial puede ser considerada una aplicación de la
prueba de contraste de hipótesis sobre proporciones cuando se desea hacer
inferencias sobre parámetros obtenidos con datos medidos a nivel ordinal como la
Mediana. El estadístico de contraste es el número de datos con valor superior al
definido en la Hipótesis Nula, y la prueba contrasta el nivel de significación con la
probabilidad de ocurrencia de datos con valor igual o superior al observado.
Ejemplo: En una investigación piden a una muestra de sujetos que indiquen en una
escala de 0 a 10 la preferencia por una bebida. Los resultados son:
c) Estadístico de contraste:
13
Fue propuesto inicialmente en 1945 por Frank Wilcoxon para muestras de igual
tamaños y extendido a muestras de tamaño arbitrario como en otros sentidos por
Henry B. Mann y D. R. Whitney en 1947.
La prueba de Mann-Whitney se usa para comprobar la heterogeneidad de dos
muestras ordinales. El planteamiento de partida es:
Las observaciones de ambos grupos son independientes.
Las observaciones son variables ordinales o continuas.
Bajo la hipótesis nula, la distribución de partida de ambos grupos es la misma y,
Bajo la hipótesis alternativa, los valores de una de las muestras tienden a exceder a
los de la otra: P(X > Y) + 0.05 P(X = Y) > 0.05.
Para calcular el estadístico U se asigna a cada uno de los valores de las dos
muestras su rango para construir
Esta prueba estadística es útil cuando las mediciones se pueden ordenar en escala
ordinal (es decir, cuando los valores tienden a una variable continua, pero no tienen
una distribución normal) y resulta aplicable cuando las muestras son
independientes.
Este procedimiento es una buena alternativa cuando no se puede utilizar la prueba
t de Student, en razón de no cumplir con los requisitos que esta prueba exige.
1.9.5. SIGNOS
La prueba de los signos permite contrastar la hipótesis de que las respuestas a dos
''tratamientos'' pertenecen a poblaciones idénticas. Para la utilización de esta prueba
se requiere únicamente que las poblaciones subyacentes sean continuas y que las
respuestas de cada par asociado estén medidas por lo menos en una escala ordinal.
La hipótesis nula puede expresarse como:
14
Si H0 es cierta, S tiene distribución binomial de parámetros n= nº de diferencias
nulas y = 0'5. Si n es grande, la distribución de S puede aproximarse mediante
una normal de parámetros y la
decisión dependerá del valor tipificado de S. Para mejorar la aproximación se realiza
una corrección de continuidad, de forma que el estadístico de prueba es:
1.9.6. WILCOXON
Cuando se trata de variables medibles en por lo menos una escala ordinal y pueden
suponerse poblaciones continuas la prueba no paramétrica más potente es la de
Wilcoxon. La hipótesis nula del contraste postula que las muestras proceden de
poblaciones con la misma distribución de probabilidad; la hipótesis alternativa
establece que hay diferencias respecto a la tendencia central de las poblaciones y
puede ser direccional o no.
El contraste se basa en el comportamiento de las diferencias entre las puntuaciones
de los elementos de cada par asociado, teniendo en cuenta no sólo el signo, sino
también la magnitud de la diferencia.
Sea la diferencia entre las puntuaciones de la pareja iésima; si
alguna de estas diferencias es nula la pareja correspondiente se elimina del análisis,
de forma que el tamaño de la muestra es n, el número de diferencias no nulas. A
continuación se asignan rangos desde 1 hasta n atendiendo únicamente al valor
absoluto de las di y se suman los rangos correspondientes a las diferencias positivas
y a las diferencias negativas por separado. Si la hipótesis nula es cierta, X e Y tienen
el mismo valor central y es de esperar que los rangos se distribuyan aleatoriamente
entre las diferencias positivas y negativas y, por tanto, que ambas sumas de rangos
sean aproximadamente iguales. El estadístico de prueba, T, es la menor de las dos
sumas de rangos. Cuando n > 15 la distribución muestral de T bajo el supuesto de
que H0 es cierta se aproxima a una
normal de parámetros:
El estadístico de prueba es el valor Z:
Que se distribuye según una normal tipificada. Para el nivel de significación deseado
se rechazará la hipótesis nula si Z pertenece a la región crítica localizada en las dos
colas o en una cola de la normal tipificada, según la naturaleza de la hipótesis
alternativa.
1.9.7. MC NEMAR
La prueba de McNemar se utiliza para decidir si puede o no aceptarse que
determinado ''tratamiento'' induce un cambio en la respuesta dicotómica o
dicotomizada de los elementos sometidos al mismo, y es aplicable a los diseños del
tipo ''antes-después'' en los que cada elemento actúa como su propio control.
Los resultados correspondientes a una muestra de n elementos se disponen en una
tabla de frecuencias 2 x 2 para recoger el conjunto de las respuestas de los mismos
elementos antes y después. El aspecto general de dicha tabla, en la que los signos
+ y - se utilizan para representar las diferentes respuestas, es el siguiente:
Antes/Después - +
- a b
+ c d
16
La tabulación cruzada se utiliza ampliamente en la investigación de mercados
comercial porque:
1. El análisis y los resultados de una tabulación cruzada pueden interpretarse y
comprenderse fácilmente por parte de gerentes sin conocimientos de estadística.
2. La claridad de la interpretación ofrece un vínculo más fuerte entre los resultados
de la investigación y las acciones gerenciales.
3. Una serie de tabulaciones cruzadas puede dar más información sobre un
fenómeno complejo, que un solo análisis multivariado.
4. La tabulación cruzada puede resolver el problema de celdas escasas, el cual
sería grave en los análisis multivariados discretos.
5. El análisis de una tabulación cruzada es sencillo de hacer y atractivo para los
investigadores menos expertos.
Coeficiente fi
El coeficiente fi (ɸ) se utiliza como una medida de la fuerza de la asociación en el
caso especial de una tabla con dos renglones y dos columnas (una tabla 2*2). Este
coeficiente es proporcional a la raíz cuadrada del estadístico chi cuadrada. Para una
muestra de tamaño n, este estadístico se calcula de la siguiente manera:
Coeficiente de contingencia
El coeficiente de contingencia (C) se utiliza para evaluar la fuerza de la asociación
en una tabla de cualquier tamaño. Este índice también está relacionado con chi
cuadrada de la siguiente forma:
V de Cramer
Es una versión modificada del coeficiente de correlación fi, ɸ, y se utiliza en tablas
más grandes que las de 2x2. Cuando se calcula fi para una tabla más grande que
2x2, no tiene un límite superior. Se obtiene al ajustar fi al número de renglones o al
número de columnas de la tabla, dependiendo de cuál de los dos sea más pequeño.
El ajuste es tal que V va del 0 al 1. Un valor grande de V sólo indica un alto grado
de asociación, y no la forma en que las variables están relacionadas.
Para una tabla con “r” renglones y “c” columnas, la relación entre la V de Cramer y
el coeficiente de correlación fi se expresa de la siguiente manera:
Coeficiente Lambda
La lambda asimétrica mide el porcentaje de mejoría para pronosticar el valor de la
variable dependiente, dado el valor de la variable independiente. Lambda también
varía entre 0 y 1. Un valor de 0 significa que no mejora el pronóstico; un valor de 1
indica que la predicción puede hacerse sin error. Esto sucede cuando cada
categoría de la variable independiente está asociada con una sola categoría de la
variable dependiente.
La lambda asimétrica se calcula para cada una de las variables (tratada como la
variable dependiente). También se calcula una lambda simétrica, que es un tipo de
promedio de los dos valores asimétricos. La lambda simétrica no hace ninguna
17
suposición sobre cuál variable es la dependiente, sino que mide la mejoría general
cuando el pronóstico se hace en las dos direcciones.
Por ejemplo, en una encuesta que busca determinar las diferencias entre las
evaluaciones de varias aerolíneas, cada encuestado evalúa todas las líneas aéreas
principales. Debido a que se obtienen medidas repetidas de cada sujeto, a este
diseño se le conoce como diseño dentro de sujetos o análisis de varianza de
medidas repetidas. El análisis de varianza de medidas repetidas se considera una
extensión de la prueba t de muestras pareadas cuando existen más de dos muestras
relacionadas.
18
1. Normalmente, se supone que las categorías de la variable independiente son
fijas. Sólo se hacen inferencias de las categorías específicas consideradas. A esto
se le conoce como el modelo de efectos fijos. También hay otros modelos: en el
modelo de los efectos aleatorios se considera que las categorías o los tratamientos
son muestras aleatorias de un universo de tratamientos, y se hacen inferencias de
otras categorías que no se examinan en el análisis; el modelo de efectos mixtos se
usa cuando algunos tratamientos se consideran fijos y otros aleatorios.
2. El término de error se distribuye normalmente, con una media de cero y una
varianza constante. El error no está relacionado con ninguna de las categorías de
X. Pequeñas variaciones de estos supuestos no afectan gravemente la validez del
análisis. Además, los datos pueden transformarse para satisfacer el supuesto de
normalidad o de varianzas iguales.
3. Los términos de error no están correlacionados. Si los términos de error están
correlacionados (es decir, las observaciones no son independientes), la razón F
podría distorsionarse gravemente
El análisis discriminante es útil para examinar los datos cuando la variable de criterio
o dependiente es categórica, y las variables predictivas o independientes se basan
en una escala de intervalo. Cuando las variables de criterio tienen dos categorías,
la técnica se conoce como análisis discriminante de dos grupos. El análisis
discriminante múltiple se refiere al caso que incluye tres o más categorías.
Por ejemplo, la variable dependiente sería la elección de una marca de computadora
personal (marca A, B o C); y las variables independientes, las calificaciones de los
atributos de las computadoras personales en una escala Likert de 7 puntos.
Los objetivos del análisis discriminante son los siguientes:
1. Desarrollar las funciones discriminantes, o combinaciones lineales de las
variables predictivas o independientes, que hagan una mejor diferenciación entre
las categorías de las variables dependientes o de criterio (grupos).
2. Examinar si hay diferencias significativas entre los grupos, en términos de las
variables predictivas.
3. Determinar qué variables predictivas contribuyen más a las diferencias entre
grupos.
19
4. Clasificar los casos en uno de los grupos, con base en los valores de las
variables predictivas.
5. Evaluar la precisión de la clasificación. Las técnicas de análisis discriminante
se describen usando el número de categorías que posee la variable de criterio.
Cuando ésta tiene dos categorías, la técnica se conoce como análisis discriminante
de dos grupos. Cuando hay tres o más categorías, la técnica se conoce como
análisis discriminante múltiple.
Las técnicas de análisis discriminante se describen usando el número de categorías
que posee la variable de criterio. Cuando ésta tiene dos categorías, la técnica se
conoce como análisis discriminante de dos grupos. Cuando hay tres o más
categorías, la técnica se conoce como análisis discriminante múltiple. La diferencia
principal es que, en el caso de dos grupos, sólo puede derivarse una función
discriminante; mientras que, en el análisis discriminante múltiple, puede calcularse
más de una función. En la investigación de mercados abundan los ejemplos de
análisis discriminante. Esta técnica sirve para responder preguntas como:
■ En términos de las características demográficas, ¿en qué difieren los clientes que
muestran lealtad hacia una tienda de quienes no lo hacen?
■ ¿Existen diferencias entre usuarios frecuentes, moderados y esporádicos de
bebidas gaseosas, en cuanto al consumo de alimentos congelados?
■ ¿Qué características psicográficas ayudan a diferenciar a los compradores de
comestibles sensibles a los precios de los quienes no lo son?
■ ¿Los segmentos del mercado difieren en sus hábitos de exposición a los medios
de comunicación masiva?
1.9.12. ANALISIS LOGIT
Resulta útil para los casos en los que se desea predecir la presencia o ausencia de una
característica o resultado según los valores de un conjunto de predictores. Es similar a un modelo
de regresión lineal, pero está adaptado para modelos en los que la variable dependiente es
dicotómica. Los coeficientes de regresión logística pueden utilizarse para estimar la odds ratio
de cada variable independiente del modelo. La regresión logística se puede aplicar a un rango
más amplio de situaciones de investigación que el análisis discriminante.
El análisis discriminante aborda la cuestión de a qué grupo de observaciones es probable que
pertenezca. Por otro lado, el modelo Logit binario por lo común trata el problema de qué tan
probable es que una observación pertenezca a cada grupo. El modelo calcula la probabilidad de
que una observación pertenezca a un grupo específico, que el valor de Y que se pronostica es
0.
Los valores pronosticados de Y luego se comparan luego con los valores reales
correspondientes, para determinar el porcentaje de predicciones correctas.
Ejemplo. ¿Qué características del estilo de vida son factores de riesgo de enfermedad
cardiovascular? Dada una muestra de pacientes a los que se mide la situación de fumador, dieta,
ejercicio, consumo de alcohol, y estado de enfermedad cardiovascular, se puede construir un
modelo utilizando las cuatro variables de estilo de vida para predecir la presencia o ausencia de
enfermedad cardiovascular en una muestra de pacientes. El modelo puede utilizarse
posteriormente para derivar estimaciones de la odds ratio para cada uno de los factores y así
indicarle, por ejemplo, cuánto más probable es que los fumadores desarrollen una enfermedad
cardiovascular frente a los no fumadores.
1.9.13. ANALISIS CONJUNTO
El análisis conjunto, llamado también modelo composicional multiatributo, es una técnica
estadística que se utiliza en muchas de las ciencias sociales y ciencias aplicadas incluyendo el
marketing, la administración del producto y la investigación operativa.
El objetivo del análisis conjunto es determinar qué combinación de un número limitado de
atributos es el más preferido por los encuestados. Se utiliza con frecuencia para comprobar la
aceptación de diseños nuevos de producto por parte del cliente y valorar el atractivo de anuncios.
Se ha utilizado en el posicionamiento de producto, pero hay algunos problemas con la aplicación
de la técnica.
Los pasos básicos son:
- Selección del producto/servicio.
- Selección de las características que deben ser probadas.
- Muestra de las combinaciones del producto a clientes potenciales.
- Los encuestados categorizan las combinaciones
20
- Se analizan los datos de una muestra representativa de clientes potenciales en
conjunto con un profesional de la estadística. El análisis producirá las características
más preferidas por los potenciales clientes.
- Incorporación de las características más preferidas en un nuevo producto o anuncio.
El análisis de conglomerados es una técnica usada para clasificar objetos o casos en grupos
relativamente homogéneos llamados conglomerados. Los objetos de cada conglomerado tienden
a ser similares entre si y diferentes de los objetos de otros conglomerados. El análisis de
conglomerados también se le conoce como análisis de clasificación o taxonomía numérica.
Tanto el análisis de conglomerados como el análisis discriminante se interesan en la clasificación.
Sin embargo, el análisis discriminante requiere de un conocimiento previo del conglomerado o la
pertenencia al grupo de cada objeto o caso incluido, para desarrollar la regla de clasificación.
1.9.17. ESCALAMIENTO MULTIDIMENSIONAL
Conjunto de técnicas estadísticas utilizadas habitualmente en marketing y ciencias sociales para
la visualización y exploración de datos. Es un procedimiento para tomar preferencias y
percepciones de los encuestados y representarlos en un diagrama visual. Estos diagramas,
llamados mapas perceptuales tienen generalmente dos dimensiones, pero pueden representarse
en más de dos. Los consumidores potenciales tienen que comparar pares de productos y hacer
juicios sobre sus similitudes. Mientras otras técnicas (como análisis factorial, análisis
discriminante y análisis conjunto) obtienen dimensiones de las respuestas a los atributos de los
productos identificados por el investigador, el escalamiento multidimensional obtiene las
dimensiones de los juicios de los encuestados sobre la similitud de los productos. Esto supone
una ventaja importante pues los resultados no dependen de los juicios de los investigadores. No
es necesaria una lista de atributos que debe ser mostrada a los encuestados. Las dimensiones
resultantes vienen de los juicios de los encuestados sobre pares de productos. Gracias a estas
ventajas, el escalamiento multidimensional es la técnica más comúnmente utilizada en mapeado
perceptual.
21
2. CUESTIONARIO
JHORVIN BARBOZA GIL
Preguntas
1. ¿De qué opciones se dispone para el tratamiento de los datos faltantes? Rpta: Se
dispone de las siguientes opciones: Sustituir con un valor neutro, sustituir con una
respuesta atribuida, la eliminación por casos y por pares.
2. Explique porqué se hacen las transformaciones de las escalas.
Rpta: Porque mejora las suposiciones de algunas técnicas estadísticas:
normalidad, linealidad, homocedasticidad, etc.
3. La media, moda y mediana son:
Rpta: Medidas de la tendencia central, La consideraremos el valor central de una distribución
de frecuencias.
4. ¿Qué se entiende por una variable?
Rpta: Una variable es un elemento de una fórmula, proposición o algoritmo que puede adquirir
o ser sustituido por un valor cualquiera (siempre dentro de su universo).
2. ¿Qué actividades se dan en la revisión preliminar de los cuestionarios que han sido
devueltos del campo?
Rpta: Cuando un cuestionario es devuelto al campo es porque se detectó que: Algunas
partes del cuestionario están incompletas.
El patrón de respuestas indica que el encuestado no entendió o siguió las instrucciones.
Las respuestas muestran poca varianza.
El cuestionario se recibió después de la fecha establecida.
El cuestionario fue contestado por alguien que no estaba calificado para participar
Cuando los instrumentos han sido llenados en oficina y no en campo, etc.
3. ¿Porque motivo sería importante preparar al personal antes de salir al campo?
Rpta: Porque se ha observado que al momento de efectuar el levantamiento de información,
se cometen muchos errores por parte de los encuestadores y los respondientes o
encuestados. Y una manera de minimizar estos errores seria prepararlos.
4. ¿De qué manera me resulta hacer más practica el proceso de codificación?
Rpta: Una forma práctica de realizar el proceso de codificación es la de ingresar los datos es
usar una hoja de cálculo como EXCEL.
5. ¿Cuál es el objetivo de la etapa de edición en el proceso de preparación de datos?
Rpta: El objetivo es incrementar su exactitud y precisión, para poder examinar e identificar
respuestas ilegibles, incompletas o ambiguas.
JHONATAN BENITO ESCOBAR
Preguntas
1. ¿Qué implica la transformación de escala?
Rpta: Implica manipular los valores de la escala para asegurar que sea comparable con otras
escalas o adecuar de otra manera los datos para el análisis.
2. ¿Cuál es la diferencia entre la codificación previa y la posterior?
22
Rpta: En la codificación previa se asignan códigos antes de realizar el trabajo de campo y en
la codificación posterior, los códigos se asignan después de que el cuestionario se haya
devuelto del campo.
3. ¿Cuál es la mejor manera de evaluar el grado de satisfacción de una demanda ante la
oferta de un producto, un servicio o incluso ante el tratamiento dado por un vendedor en
el momento de una compra?
Rpta: Estando en la piel del cliente, y esto se consigue a través de la estrategia del cliente
misterioso mistery shopping, una herramienta sencilla y muy eficiente a la hora de detectar
los posibles fallos en la actividad que uno se propone.
4. ¿Cómo se aplica la técnica del chi-cuadrado?
• Cuando queremos comprobar si una variable, cuya descripción parece adecuada, tiene
una determinada función de probabilidad. La prueba correspondiente se llama chi-cuadrado
de ajuste.
• Cuando queremos averiguar si dos variables (o dos vías de clasificación) son
independientes estadísticamente. En este caso la prueba que aplicaremos ser la chi-cuadrado
de independencia o chi-cuadrado de contingencia.
24