Preparacion de Datos

“AÑO DEL BUEN SERVICIO AL CIUDADANO”
UNIVERSIDAD NACIONAL DE UCAYALI
FACULTAD DE CIENCIAS ECONOMICAS ADMINISTRATIVAS Y

CONTABLES
ESCUELA PROFESIONAL DE ECONOMIA Y NEGOCIOS

INTERNACIONALES
GRUPO N° 8
DOCENTE: DR. MIGUEL OSCAR LOPEZ Y OJEDA
TEMA: PREPARACIÓN DE LOS DATOS
INTEGRANTES:
Presentación Exposición Trabajo Nota

1. Barboza Gil Jhorvin
2. Bastos Cortez Emely Giordana
3. Benito Escobar Jhonatan
4. D’ambrosio Linares María Victoria
5. Valera Ocmin Annie Milagro
6. Vásquez Arévalo Dany Luis
7. Vásquez Sias Lady Elgiva
2017 – II
1. PREPARACION DE LOS DATOS
Para llevar a cabo con éxito este proceso es necesario realizar la

Preparación del personal para el procesamiento:
Muy a menudo se ha observado que al momento de efectuar el levantamiento de información,
se cometen muchos errores por parte de los encuestadores y los respondientes o
encuestados, todos estos errores pueden resumirse en los siguientes:
1. Errores por falta de respuesta
2. Errores de selección de entrevistadores
3. Errores en el estímulo a la respuesta
4. Errores por respuestas incompletas
5. Errores por llenado inadecuado de los cuestionarios
6. Errores por disminución de la muestra
Todos estos posibles errores deben minimizarse por el procesamiento de los datos, en
consecuencia la preparación del personal de procesamiento se orienta a que todos
conozcan cómo detectar lo errores en los cuestionarios o instrumentos de recolección, así
que deberán tener especial cuidado, en primer lugar sobre la veracidad de la información
que contiene cada encuesta , en tal sentido se verificara que los datos correspondan
adecuadamente a las áreas elegidas para la investigación, fijándose específicamente en la
dirección de la muestra encuestada, se debe verificar también si se han contestado todas
las preguntas del cuestionario, si las respuestas son coherentes con todos los aspectos en
estudio, el personal de procesamiento deberá tener la autoridad suficiente y la
responsabilidad para efectuar la depuración de los documentos que tengan errores
insalvables , y realizar el procesamiento para lograr la información necesaria y requerida por
el estudio.
1.1. EL PROCESO DE PREPARACION DE LOS DATOS
El primer paso consiste en verificar que los cuestionarios sean aceptables, seguido por
la verificación, codificación y trascripción de los datos. Se depuran los datos y se
recomienda un tratamiento para las respuestas faltantes. Con frecuencia resulta
necesario un ajuste estadístico de los datos para que sean representativos de la
población de interés.
El investigador debe entonces elegir la estrategia apropiada para el análisis de los datos.
La estrategia final de análisis de los datos difiere del plan preliminar de análisis, debido
a la información y los conocimientos obtenidos desde que se formuló el plan original. La
preparación de los datos debe empezar tan pronto como se reciba el primer grupo de
cuestionarios del campo, mientras el trabajo de campo continúa. De este modo, si se
detecta algún problema, es factible modificar el trabajo de campo para incorporar alguna
acción correctiva.
Figura 1: El proceso de preparación de datos
1.2. REVISION DE CUESTIONARIO
El paso inicial en la revisión del cuestionario implica verificar todos los cuestionarios en
cuanto a la calidad de las entrevistas y a que estén terminados. A menudo estas
revisiones se realizan mientras el trabajo de campo sigue en proceso. Si se contrató a
2
una empresa de recolección de datos para realizar el trabajo de campo, el investigador
debe hacer una revisión independiente luego de que ésta ha terminado. Un cuestionario
que regresa del campo podría ser inaceptable por varias razones:
1. Algunas partes del cuestionario están incompletas: faltan una o más páginas.
2. El patrón de respuestas indica que el encuestado no entendió o siguió las
instrucciones. Por ejemplo, cuando no se siguieron los patrones de salto.
3. Las respuestas muestran poca varianza. Por ejemplo, se solicita al encuestado
que valorice las características de una variable en una escala de 0 a 20 y el
encuestado para todas las características contesta 5 puntos, demostrando que
no comprendió o no hubo seriedad en la respuesta.
4. El cuestionario se recibió después de la fecha establecida.
5. El cuestionario fue contestado por alguien que no estaba calificado para
participar. Si se impusieron cuotas o el tamaño de las células de trabajo, los
cuestionarios aceptables deberán clasificarse y contabilizarse de acuerdo con
ello. Antes de revisar los datos, deben identificarse los problemas para cumplir
los requisitos del muestreo y tomar las medidas correctivas pertinentes, como
realizar entrevistas adicionales en las células poco representadas.
6. Cuando las respuestas del estudio no presentan coherencia con las respuestas
de las preguntas de control.
7. Cuando una vez seleccionada las muestras o elementos muestrales, se aplican
los instrumentos a otros elementos no seleccionados.
8. Cuando se detecta que los instrumentos han sido llenados por el encuestador y
no por el encuestado.
9. Cuando los instrumentos han sido llenados en oficina y no en campo.
Antes de revisar los datos, deben identificarse los problemas para cumplir los requisitos
del muestreo y tomar las medidas correctivas pertinentes, como realizar entrevistas
adicionales en las células poco representadas.
1.3. EDICIÓN
Esta etapa es la revisión de los cuestionarios con el objetivo de incrementar su exactitud
y precisión, para poder examinar e identificar respuestas ilegibles, incompletas o
ambiguas.
Los resultados pueden ser ilegibles, si se registraron mal. Este caso, se debe
frecuentemente en cuestionarios con un gran número de preguntas no estructuradas.
Los datos deben ser legibles para codificarlos en forma correcta. Asimismo, pueden estar
incompletos en diferentes grados. Las preguntas no respondidas pueden ser pocas o
muchas.
1.3.1. Tratamiento de las respuestas insatisfactorias
Consiste en regresar el cuestionario al campo para obtener mejores datos, asignar
valores faltantes o descartar a los encuestados insatisfactorios.
• Devolución al campo. Los cuestionarios con respuestas insatisfactorias
pueden devolverse al campo, donde los entrevistadores vuelven a hacer contacto
con los encuestados. Este enfoque se utiliza para encuestas de mercados
industriales y de negocios, donde los tamaños de las muestras son pequeños y
resulta sencillo identificar a los encuestados.
• Asignación de valores faltantes. Si no es posible regresar los cuestionarios
al campo, el editor puede asignar valores faltantes a las respuestas insatisfactorias.
Este enfoque sería deseable si:
1. El número de encuestados insatisfactorios es pequeño
2. La proporción de respuestas insatisfactorias para cada uno de estos encuestados
es pequeña o
3. Las variables con respuestas insatisfactorias no son las más importantes.
Descartar a los encuestados insatisfactorios. En este enfoque simplemente se
descarta a los encuestados con repuestas insatisfactorias.
1 .La proporción de encuestados insatisfactorios es pequeña (menos del 10 por
ciento).
2. El tamaño de la muestra es grande.
3. Los encuestados insatisfactorios no difieren de los encuestados satisfactorios de
forma evidente (por ejemplo, en factores demográficos o características de uso
del producto)
3
4. La proporción de respuestas insatisfactorias para cada uno de estos encuestados
es grande o
5. Faltan respuestas para las variables más importantes.
Sin embargo, los encuestados insatisfactorios pueden diferir de manera sistemática
de los encuestados satisfactorios y la decisión para designar a un encuestado como
insatisfactorio podría ser subjetiva. Ambos factores sesgan los resultados. Si el
investigador decide descartar a los encuestados insatisfactorios, debería informar
cuál fue el procedimiento adoptado para identificarlos y cuántos fueron.
1.4. CODIFICACIÓN
Codificar es asignar un código o número a cada resultado posible, el código incluye una
indicación de la posición en la columna (campo) y el registro que ocupará el dato. Por
ejemplo, el sexo de los encuestados se codifica con 1 para las mujeres y 2 para los
hombres. Un campo representa un solo dato, como el sexo de los encuestados. Un
registro consta de campos relacionados, como sexo, estado civil, edad, tamaño de la
casa, ocupación, etcétera.
Una forma práctica de ingresar los datos es usar una hoja de cálculo como EXCEL, que
permite asignar con facilidad columnas específicas para preguntas y respuestas
concretas. Cada fila contiene los datos de un encuestado.
Si el cuestionario sólo contiene preguntas estructuradas o muy pocas preguntas no

estructuradas, se realiza una codificación previa. Esto significa que se asignan códigos
antes de realizar el trabajo de campo. Si el cuestionario contiene preguntas no
estructuradas, los códigos se asignan después de que el cuestionario se haya devuelto
del campo (codificación posterior).
1.4.1. Codificación de las preguntas:

El código del encuestado y el número de registro deben aparecer en cada registro de
los datos. Sin embargo, si sólo hay un registro para cada encuestado puede
prescindirse del código de registro. Para cada encuestado tienen que incluirse los
siguientes códigos adicionales: código de proyecto, código del entrevistador, códigos
de fecha y hora, y código de validación.
Es muy deseable el uso de códigos de campo fijo, lo cual significa que el número de
registros para cada encuestado es el mismo y que para todos los encuestados
aparecen los mismos datos en las mismas columnas. De ser posible, deben usarse
códigos estándar para los datos faltantes. Por ejemplo, puede emplearse el código 9
para una variable de una sola columna, 99 para una variable de dos columnas y así
sucesivamente. Los códigos de los valores faltantes deben ser distintos de los
códigos asignados a las respuestas legítimas.
La codificación de las preguntas estructuradas es relativamente sencilla porque las
opciones de respuestas se determinan con anticipación. El investigador asigna un
código a cada respuesta de cada pregunta, y especifica el registro y la columna
adecuados en que deben aparecer los códigos de la respuesta. Por ejemplo, ¿Tiene
usted un pasaporte vigente?
1. Sí 2. No (1/54)
Para esta pregunta, la respuesta “Sí” se codifica con el número 1 y la respuesta “No”
con el número 2. Los números entre paréntesis indican que el código asignado
aparecerá en el primer registro de este encuestado en la columna 54. Dado que sólo
se permite una respuesta y sólo hay dos respuestas posibles (1 o 2), basta con una
columna. Por lo general, una columna es suficiente para codificar una pregunta
estructurada con una sola respuesta, si las respuestas posibles son menos de nueve.
1.4.2. Libro de códigos:
Contiene las instrucciones para la codificación y la información necesaria sobre las
variables en el conjunto de datos ya que orienta el trabajo de los codificadores y ayuda
al investigador a identificar y localizar adecuadamente las variables.
Por lo general, un libro de códigos contiene la siguiente información:
1. Número de columna 2. Número de registro 3. Número de variable 4. Nombre de la
variable 5. Número de la pregunta 6. Instrucciones para la codificación.
4
La figura 2 es un ejemplo de la codificación de un cuestionario, donde se muestra la
codificación de datos demográficos que suelen obtenerse en encuestas a los
consumidores.
El cuestionario del siguiente ejemplo fue objeto de una codificación previa.
Figura 2: Ejemplo de codificación de un cuestionario que muestra

la codificación de datos demográficos
1.5. TRANSCRIPCIÓN
Implica transferir los datos codificados de los cuestionarios o de las hojas de codificación,
a discos o cintas magnéticas o directamente a la computadora por medio del teclado.
Si los datos se recolectaron usando La entrevista telefónica asistida por ordenador

(Computer-assisted telephone interviewing) CATI o CAPI, este paso sería innecesario ya
que los datos se capturan directamente en la computadora según se reciben. Además
del teclado, los datos pueden transferirse mediante los lectores ópticos. El lector óptico
implica que la máquina lea los códigos de forma directa y los trascriba al mismo tiempo.
Un ejemplo común del lector óptico es la trascripción de los datos CUP (código universal
de productos) en los cajeros de los supermercados.
Los avances tecnológicos han dado por resultado el sistema computarizado de análisis
sensorial que automatiza el proceso de recolección de datos. Las preguntas aparecen
en un formato computarizado y un dispositivo sensorial registra las respuestas
directamente en la computadora.
En el caso de utilizar el teclado se requiere de dos operadores ya que en la trascripción

pueden cometerse errores, lo cual haría necesario verificar el conjunto de datos o al
menos una parte de ellos. El segundo operador vuelve a teclear los datos de los
cuestionarios codificados y registro por registro se comparan los datos transcritos por
ambos operadores. Cualquier discrepancia entre ambos conjuntos de datos transcritos
se investiga para identificar y corregir errores de tecleo.
La verificación de todo el conjunto de datos duplicará el tiempo y costo de la trascripción.

Dadas las restricciones de tiempo y costos, así como el hecho de que los capturistas
5
experimentados suelen ser bastante precisos, se puede verificar sólo entre 25 y 50 por
ciento de los datos.
Figura 3: Transcripción de datos

Cuando se emplean sistemas computarizados como CATI o CAPI, los datos se verifican
conforme se recolectan. En el caso de respuestas inadmisibles, la computadora lo indica
al entrevistador o al encuestado. En el caso de respuestas admisibles, el entrevistador o
el encuestado pueden ver en la pantalla la respuesta registrada y verificarla antes de
continuar.
La elección del método de trascripción de datos depende del tipo de entrevista utilizado
y de la disponibilidad de equipo. Si se utilizan sistemas computarizados como CATI o
CAPI, los datos se ingresan directamente en la computadora. La captura en un teclado
con terminal CRT se utiliza más a menudo para entrevistas telefónicas, en casa, en
centros comerciales o por correo. Sin embargo, en las entrevistas personales cada vez
es más común el uso de sistemas computarizados de análisis sensorial debido al
incremento en el uso de las computadoras de bolsillo (gridpads) y las computadoras
laptop. Los lectores ópticos pueden usarse en entrevistas estructuradas y repetitivas;
mientras que las formas de marcado sensorial se usan en casos especiales.
1.6. DEPURACIÓN DE DATOS
Esta etapa incluye la verificación de la congruencia y el tratamiento de las respuestas
faltantes. Las verificaciones son más minuciosas y exhaustivas que durante la etapa de
edición, porque se realizan por computadora.
1.6.1. COMPROBACIÓN DE LA CONGRUENCIA
Identifica los datos que están fuera de rango, que son incongruentes o que tienen
valores extremos. Estos datos son inadmisibles, por lo que tienen que corregirse.
Ejemplo, suponga que se pidió a los encuestados responder a una serie de
enunciados de estilos de vida en una escala de 1 a 5. Si se supone que se designó
9 para las respuestas faltantes, los valores de 0, 6, 7 y 8 están fuera de rango.
Es posible programar paquetes de cómputo como SPSS, SAS, EXCEL y MINITAB
para identificar los valores fuera de rango para cada variable, e imprimir el código
del encuestado, el código de la variable, el nombre de la variable, el número de
registro, el número de columna y el valor fuera de rango. Esto facilita la revisión
sistemática de cada variable para detectar los valores fuera de rango.
Las respuestas también llegan a presentar diversas incongruencias lógicas. Por
ejemplo, un encuestado que indico que no está familiarizado con un producto pero
también dice que lo usa con frecuencia. Estos paquetes imprimen la información
necesaria para localizar aquellas respuestas y tomar acciones correctivas.
Además, los valores extremos deben revisarse de manera minuciosa, ya que no
todos son resultados de errores, pero pueden indicar problemas con los datos.
6
1.6.2. TRATAMIENTO DE RESPUESTAS FALTANTES
Las respuestas faltantes representan valores de una variable que se desconocen,
ya sea porque los encuestados dieron respuestas ambiguas o porque éstas se
registraron en forma inadecuada. El tratamiento de respuestas faltantes plantea
problemas, sobre todo si su proporción es mayor del 10%. Existen 4 opciones para
tratar este tipo de respuestas:
Sustituir con un valor neutro
El valor neutro debe ser, por lo regular, la respuesta promedio a la variable. Así, no
cambiaría la media de la variable ni afectaría demasiado otros cálculos estadísticos.
Aunque es cuestionable la lógica de sustituir con un valor promedio (digamos 4)
para encuestados que, de haber respondido, quizás hubieran asignado
calificaciones altas (6 o 7) o bajas (1 o 2).
Sustituir con una respuesta atribuida
Se usa el patrón de respuestas de los encuestados a otras preguntas, para atribuir
o calcular una respuesta adecuada para las preguntas faltantes. A partir de los datos
disponibles, el investigador intenta inferir las respuestas que habrían dado los
encuestados si hubieran contestado las preguntas.
Esto puede hacerse en forma estadística, determinando la relación de la variable en
cuestión con otras variables a partir de los datos disponibles. Sin embargo, este
enfoque requiere de gran esfuerzo y puede introducir sesgos considerables. Se han
desarrollado procedimientos estadísticos complejos para calcular valores atribuidos
para las respuestas faltantes.
Eliminación por casos
Se descartan del análisis los casos o encuestados con alguna respuesta faltante.
Dado que muchos encuestados podrían tener algunas respuestas faltantes, este
enfoque daría como resultado una muestra pequeña. No es recomendable desechar
grandes cantidades de datos porque su recolección es costosa y consume mucho
tiempo. Además, los encuestados con respuestas faltantes pueden diferir de manera
sistemática de los encuestados con todas las respuestas. De ser así, la eliminación
por casos introduciría un sesgo grave en los resultados.
Eliminación por pares
El investigador sólo usa los casos o encuestados con respuestas completas para
cada cálculo. Como resultado, los distintos cálculos del análisis pueden basarse en
muestras de diferentes tamaños.
Este procedimiento puede ser apropiado cuando
1. El tamaño de la muestra es grande.
2. Las respuestas faltantes son pocas.
3. No hay mucha relación entre las variables. No obstante, el procedimiento puede
producir resultados poco atractivos o incluso poco verosímiles.
En conclusión, los diferentes procedimientos para el tratamiento de las respuestas

faltantes darían lugar a resultados distintos, sobre todo cuando la falta de las
respuestas no se debe al azar y las variables están relacionadas, de ahí que sea
necesario reducir al mínimo las respuestas faltantes. El investigador tiene que
considerar con cuidado las implicaciones de los diversos procedimientos, antes de
elegir un método particular para el tratamiento de la falta de respuesta.
1.7. AJUSTE ESTADISTICO DE LOS DATOS

Los procedimientos para el ajuste estadístico de los datos son la ponderación, la
redefinición de las variables y las transformaciones de la escala. Estos ajustes no
siempre son necesarios, pero pueden mejorar la calidad del análisis de los datos.
1.7.1. PONDERACIÓN
A cada caso o encuestado de la base de datos se le asigna un peso que refleje su
importancia en relación con otros casos o encuestados. El valor 1.0 representa el
caso no ponderado. El efecto de la ponderación es incrementar o disminuir el
número de casos de la muestra que poseen ciertas características.
La ponderación se usa sobre todo para hacer que los datos de la muestra sean más
representativos de una población meta en características específicas. Por ejemplo,
se utiliza para dar más importancia a casos o encuestados con datos de mayor
calidad. Sin embargo, otro uso de la ponderación consiste en ajustar la muestra para
dar mayor importancia a encuestados con ciertas características.
7
Si se realiza un estudio para determinar qué modificaciones deberían hacerse a un
producto existente, el investigador quizá desee dar más peso a las opiniones de
quienes consumen más ese producto. Esto puede lograrse mediante la asignación
de un peso de 3.0 a los usuarios frecuentes, 2.0 a los usuarios medios y 1.0 a los
usuarios esporádicos y a quienes no usan el producto. La ponderación debe
aplicarse con cautela porque destruye la naturaleza auto ponderada del diseño de
la muestra. Si se utiliza el método de ponderación, debe documentarse e incluirse
en el informe del proyecto.
1.7.2. REDEFINICIÓN DE LAS VARIABLES

Implica transformar los datos para crear variables nuevas o modificar las existentes.
El propósito de la redefinición es crear variables que sean congruentes con los
objetivos del estudio. Por ejemplo, suponga que la variable original era el uso de un
producto, con diez categorías de respuesta, las cuales podrían reducirse a cuatro:
uso frecuente, moderado, esporádico o nulo. O el investigador puede crear nuevas
variables que sean combinaciones de muchas otras.
Por ejemplo, el investigador puede crear un índice de búsqueda de información (IBI)

que sea la suma de la información que buscan los clientes de los proveedores,
materiales de promoción, Internet y otras fuentes independientes. Asimismo, podría
tomarse la razón de las variables. Si se han medido la cantidad de compras hechas
en tiendas departamentales (X1) y la cantidad de compras cargadas a crédito
(X2), la proporción de estas últimas sería una variable nueva creada al obtener la
razón entre ambas (X2/X1). Otras redefiniciones de las variables incluyen las
transformaciones logarítmicas y de raíz cuadrada, las cuales suelen utilizarse para
mejorar la utilidad del modelo estimado.
Un importante procedimiento de redefinición supone el uso de variables ficticias para

la redefinición de variables categóricas. Las variables ficticias (llamadas también
variables binarias, dicotómicas, instrumentales o cualitativas) son variables que sólo
pueden adoptar dos valores, como 0 o 1. La regla general es que para re especificar
una variable categórica con K categorías, se requieren K _ 1 variables ficticias. La
razón de tener K _ 1 en vez de K variables ficticias es que sólo K _ 1 categorías son
independientes. Dados los datos de la muestra, la información sobre la categoría K-
ésima puede derivarse de la información sobre las otras categorías K _ 1. Considere
el sexo: como es una variable que tiene dos categorías, sólo se necesita una
variable ficticia. La información sobre el número o porcentaje de hombres en la
muestra puede derivarse con facilidad del número o los porcentajes de mujeres.
1.7.3. TRANSFORMACIÓN DE LA ESCALA
Implica manipular los valores de la escala para asegurar que sea comparable con
otras escalas o adecuar de otra manera los datos para el análisis. Con frecuencia
se emplean diferentes escalas para medir diferentes variables. Por ejemplo, las
variables de imagen pueden medirse con una escala de diferencial semántico de 7
puntos, las variables de actitud con una escala de calificación continua y las
variables de estilos de vida con una escala Likert de 5 puntos.
Por lo tanto, no tendría sentido hacer comparaciones entre las escalas de medición
de ningún encuestado. Para comparar las calificaciones de actitud con las
calificaciones de estilos de vida o las de imagen, sería necesario transformar las
diferentes escalas. Incluso si se utiliza la misma escala para todas las variables,
diferentes encuestados pueden usar la escala de manera distinta.
Por ejemplo, algunos encuestados usan de manera sistemática la parte superior de
la escala de calificación; en tanto que otros utilizan de manera constante la parte
inferior. Tales diferencias pueden corregirse mediante la transformación adecuada
de los datos.
1.8. ELECCION DE UNA ESTRATEGIA DE ANALISIS DE DATOS

Esta elección debe basarse en las primeras etapas del proceso de investigación de
mercados, las características conocidas de los datos, las propiedades de las técnicas
estadísticas, y la experiencia y filosofía del investigador.
El propósito del análisis de datos consiste en producir información que ayude a abordar
el problema en cuestión. La elección de la estrategia de análisis de datos debe iniciar
8
con una consideración de los primeros pasos del proceso: definición del problema (paso
I), desarrollo del enfoque (paso II) y diseño de la investigación (paso III).
El plan preliminar de análisis de los datos que se preparó como parte del diseño de
investigación debe usarse como un trampolín. Quizá sea necesario hacer cambios a la
luz de la información adicional generada en las etapas posteriores del proceso de
investigación.
El segundo paso es considerar las características conocidas de los datos. Las escalas
de medición usadas ejercen una fuerte influencia en la elección de las técnicas
estadísticas. Además, el diseño de investigación puede favorecer ciertas técnicas. Por
ejemplo, el análisis de varianza es adecuado para el análisis de los datos experimentales
de los diseños casuales. La información sobre los datos obtenida durante su preparación
es una valiosa ayuda para la elección de una estrategia de análisis.
El tercer paso a tomar en cuenta son las propiedades de las técnicas estadísticas,
especialmente, su propósito y sus suposiciones subyacentes. Algunas técnicas
estadísticas son adecuadas para examinar las diferencias entre variables, otras para
evaluar la magnitud de las relaciones entre variables, y otras más para realizar
predicciones. Las técnicas también suponen diferentes suposiciones y algunas pueden
resistir mejor que otras el incumplimiento de las suposiciones subyacentes.
Y por último, la experiencia y la filosofía del investigador influyen en la elección de la
estrategia de análisis de datos. El investigador experimentado y con formación
estadística empleará una variedad de técnicas que incluye los procedimientos
estadísticos avanzados. Los investigadores difieren en su disposición a hacer
suposiciones sobre las variables y las poblaciones subyacentes. Quienes son
conservadores acerca de las suposiciones limitarán su elección a los procedimientos de
distribución libre.
En general, diversas técnicas pueden ser apropiadas para analizar los datos de un
determinado proyecto.
Figura 4: Elección de la estrategia de análisis de

datos
1.9. CLASIFICACION DE LAS TECNICAS ESTADISTICAS

Las técnicas estadísticas pueden clasificarse en univariadas y multivariadas. Las
técnicas univariadas son recomendables cuando hay una sola medición para cada
elemento de la muestra, o cuando hay varias mediciones para cada elemento, pero cada
variable se analiza por separado. Por otro lado, las técnicas multivariadas son
convenientes para el análisis de los datos, cuando hay dos o más mediciones de cada
elemento y las variables se analizan al mismo tiempo. Las técnicas multivariadas se
interesan en las relaciones simultáneas entre dos o más fenómenos. Difieren de las
técnicas univariadas en el hecho de que no se concentran en los niveles (promedios) y
las distribuciones (varianzas) del fenómeno, sino en la medida de las relaciones
(correlaciones o covarianzas) entre esos fenómenos.
Las técnicas univariadas usan los procedimientos de pruebas de hipótesis, que pueden
clasificarse en función de si los datos son métricos o no métricos. Los datos métricos o
pruebas paramétricas se miden en una escala de intervalo o de razón. Los datos no
métricos o pruebas no paramétricas se miden en una escala nominal u ordinal.
9
Figura 5: Clasificación de técnicas univariadas
Las técnicas estadísticas multivariadas se clasifican como técnicas de dependencia o de
interdependencia. Las técnicas de dependencia son adecuadas cuando es posible
identificar a una o más variables como variables dependientes y al resto como variables
independientes. Cuando hay una sola variable dependiente, se puede utilizar la
tabulación cruzada, el análisis de varianza y covarianza, la regresión, el análisis
discriminante de dos grupos y el análisis conjunto. Sin embargo, si hay más de una
variable dependiente, las técnicas apropiadas serían el análisis multivariado de varianza
y covarianza, la correlación canónica y el análisis discriminante múltiple. En las técnicas
de interdependencia, las variables no se clasifican como dependientes o independientes;
más bien se examina todo el conjunto de relaciones de interdependencia. Estas técnicas
se enfocan en la interdependencia de las variables o en la semejanza entre objetos. La
principal técnica para estudiar la interdependencia de las variables es el análisis factorial.
El análisis de la semejanza entre objetos puede realizarse usando el análisis de
conglomerados y el escalamiento multidimensional.
Figura 6: Clasificación de técnicas multivariadas
1.9.1. PRUEBA DE HIPOTESIS

Las pruebas de Hipótesis permiten comparar Estadísticos de una o más muestras
con respecto a los parámetros de la población. El procedimiento general para la
prueba de hipótesis es:
10
1. Formular la hipótesis nula H0 y la hipótesis alternativa H1.
2. Elegir una técnica estadística adecuada y su estadístico de prueba
correspondiente.
3. Seleccionar el nivel de significancia, α.
4. Determinar el tamaño de la muestra y reunir los datos. Calcular el valor del
estadístico de prueba.
5. Determinar la probabilidad asociada con el estadístico de prueba con respecto a
la hipótesis nula, utilizando la distribución de la muestra del estadístico de prueba.
Como alternativa, determinar los valores críticos asociados con el estadístico de
prueba, que dividen las regiones de rechazo y no rechazo.
6. Comparar la probabilidad asociada con el estadístico de prueba, al nivel de
significancia especificado. Como alternativa, determinar si el estadístico de
prueba cae en la región de rechazo o de no rechazo.
7. Tomar la decisión estadística de rechazar o no rechazar la hipótesis nula.
8. Expresar la decisión estadística en términos del problema de investigación de
mercados.
PRUEBA T
Las pruebas paramétricas dan inferencias para hacer afirmaciones sobre las medias
de poblaciones originales. La prueba t generalmente se utiliza para este propósito,
y se basa en el estadístico t de Student. El estadístico t supone que la variable se
distribuye normalmente y que se conoce la media (o asume que se conoce), y la
varianza de la población se estima a partir de la muestra.
Supongamos que la variable X se distribuye normalmente, con una media μ y una
varianza poblacional ơ2 desconocida, que se estima por medio de la varianza
muestral s2. Recuerde que la desviación estándar de la media de la muestra, Xm,
se calcula como
Entonces es la t distribuida con n - 1

grados de libertad.
La distribución t tiene una apariencia similar a la distribución normal, ya que ambas
son simétricas y tienen forma de campana. Sin embargo, a diferencia de la
distribución normal, la distribución t tiene un área mayor en las colas y menor en el
centro. Esto se debe a que se desconoce la varianza poblacional ơ2, ya que ésta se
estima por medio de la varianza de la muestra s2. Dado que no se conoce el valor
de s2, los valores observados de t son más variables que los de z. Así pues,
debemos abarcar un mayor número de desviaciones estándar a partir de 0, para
incluir cierto porcentaje de valores de la distribución t, que con la distribución normal.
Sin embargo, a medida que aumenta el número de grados de libertad, la distribución
t se aproxima a la distribución normal.
De hecho, en muestras grandes de 120 o más, la distribución t y la distribución
normal son prácticamente indistinguibles.
PRUEBA Z
La prueba z es una prueba paramétrica de hipótesis univariada. Para aplicar la
Prueba Z los datos deben cumplir las siguientes condiciones: 1) El tamaño de la
muestra debe ser mayor o igual a 30 unidades. De ser menor se utiliza la prueba t
de Student 2) La prueba
Z se basa en la distribución Normal Estándar
Formula de la prueba del valor Z de la distribución normal:
11
Pasos:
-Calcular el promedio y la desviación estándar de las observaciones de la muestra
en estudio.
-Calcular la diferencia que existe con respecto al promedio -Dividir la diferencia
calculada entre la desviación estándar obtenida de la muestra en estudio, que
corresponde al valor Z -Decidir si se acepta o rechaza la hipótesis.
El significado del valor Z en la curva normal de frecuencias: es el número de
desviaciones estándar que se desvían con respecto al promedio o media aritmética.
MUESTRA PAREADA
En muchas aplicaciones de la investigación de mercados las observaciones de los
dos grupos no se seleccionan de muestras independientes, sino que se refieren a
muestras pareadas, porque los dos conjuntos de observaciones corresponden a los
mismos sujetos. Una muestra de sujetos podría calificar a dos marcas rivales, indicar
la importancia relativa de los atributos de un producto o evaluar una marca en dos
momentos distintos. La diferencia en estos casos se examina por medio de una
prueba t de muestras pareadas. Para calcular t para muestras pareadas, se crea la
variable de la diferencia de pares, simbolizada por D, y se calculan su media y su
varianza. Luego, se calcula el estadístico t. Los grados de libertad son n - 1, donde
n es el número de pares. Las fórmulas relevantes son:
1.9.2. CHI CUADRADA

El estadístico chi cuadrada (X2) se utiliza para probar la significancia estadística de
la asociación observada en una tabulación cruzada. Nos ayuda a determinar si
existe una relación sistemática entre las dos variables. La hipótesis nula, H0, plantea
que no hay una asociación entre las variables.
La prueba se realiza al calcular las frecuencias de celda que se esperaría observar
si no hubiera una asociación entre las variables, dados los totales por renglón y por
columna. Estas frecuencias de celda esperadas, que se simbolizan fe, luego se
comparan con las frecuencias reales observadas, fo, que aparecen en la tabulación
cruzada para calcular el estadístico chi cuadrada. Cuantos mayores sean las
discrepancias entre las frecuencias esperadas y las reales, mayor será el valor del
estadístico.
Se puede calcular la frecuencia esperada de cada celda usando la siguiente formula:
Donde:
Luego el valor se calcula de la siguiente manera:
Para determinar si existe una asociación sistemática, se estima la probabilidad de

obtener un valor de chi cuadrada, tan grande o más grande que el calculado a partir
de la tabulación cruzada.
Una característica importante del estadístico chi cuadrada es el número de grados
de libertad (gl) asociados a éste. En el caso de un estadístico chi cuadrada asociado
12
con una tabulación cruzada, el número de grados de libertad es igual al producto del
número de renglones (r) menos uno, y el número de columnas (c) menos uno; es
decir, gl = (r -1) * (c - 1).
La distribución chi cuadrada es una distribución asimétrica, cuya forma depende
únicamente del número de grados de libertad. Conforme el número de grados de
libertad aumenta, la distribución chi cuadrada se vuelve más simétrica.
Figura 7: Prueba chi-cuadrada

El estadístico chi cuadrada sólo debe calcularse en conteos de datos. Cuando los
datos se presentan en forma de porcentaje, primero deben convertirse a conteos
absolutos o números. Además, uno de los supuestos que subyace a la prueba de
chi cuadrada es que las observaciones se obtienen de manera independiente. Como
regla general, el análisis de chi cuadrada no debe realizarse cuando las frecuencias
esperadas o teóricas en cualquier celda sean menores que cinco.
1.9.3. BINOMIAL
La prueba de los signos o binomial puede ser considerada una aplicación de la
prueba de contraste de hipótesis sobre proporciones cuando se desea hacer
inferencias sobre parámetros obtenidos con datos medidos a nivel ordinal como la
Mediana. El estadístico de contraste es el número de datos con valor superior al
definido en la Hipótesis Nula, y la prueba contrasta el nivel de significación con la
probabilidad de ocurrencia de datos con valor igual o superior al observado.
Ejemplo: En una investigación piden a una muestra de sujetos que indiquen en una
escala de 0 a 10 la preferencia por una bebida. Los resultados son:
Desean saber si la Mediana de la población de la que procede la muestra de los

datos es igual a 5.
a) Supuestos: Los datos están medidos a nivel ordinal o superior.
b) Hipótesis:
c) Estadístico de contraste:
d) Distribución del estadístico de contraste: Bin(7,0.5). (7 es el número de datos. 0.5

es la probabilidad que una observación tenga valor superior a 5 bajo el supuesto
establecido en la Hipótesis Nula).
e) Significación del estadístico de contraste: La probabilidad de obtener 3 datos por
encima de 5 (n=7, p= 0.5) es 0.5
f) Decisión: Se acepta la Hipótesis Nula.
1.9.4. MAN WHITNEY

En estadística la prueba U de Mann-Whitney (también llamada de Mann-Whitney-
Wilcoxon, prueba de suma de rangos Wilcoxon, o prueba de Wilcoxon-Mann-
Whitney) es una prueba no paramétrica aplicada a dos muestras independientes.
Es, de hecho, la versión no paramétrica de la habitual prueba "t" de Student.
13
Fue propuesto inicialmente en 1945 por Frank Wilcoxon para muestras de igual
tamaños y extendido a muestras de tamaño arbitrario como en otros sentidos por
Henry B. Mann y D. R. Whitney en 1947.
La prueba de Mann-Whitney se usa para comprobar la heterogeneidad de dos
muestras ordinales. El planteamiento de partida es:
Las observaciones de ambos grupos son independientes.
Las observaciones son variables ordinales o continuas.
Bajo la hipótesis nula, la distribución de partida de ambos grupos es la misma y,
Bajo la hipótesis alternativa, los valores de una de las muestras tienden a exceder a
los de la otra: P(X > Y) + 0.05 P(X = Y) > 0.05.
Para calcular el estadístico U se asigna a cada uno de los valores de las dos
muestras su rango para construir
Donde n1 y n2 son los tamaños respectivos de cada muestra; R1 y R2 es la suma

de los rangos de las observaciones de las muestras 1 y 2 respectivamente.
El estadístico U se define como el mínimo de U1 y U2. Los cálculos tienen que tener
en cuenta la presencia de observaciones idénticas a la hora de ordenarlas. No
obstante, si su número es pequeño, se puede ignorar esa circunstancia.
La prueba calcula el llamado estadístico U, cuya distribución para muestras con más
de 20 observaciones se aproxima bastante bien a la distribución normal. La
aproximación a la normal, z, cuando tenemos muestras lo suficientemente grandes
viene dada por la expresión:
Donde mU y sU son la media y la desviación estándar de U si la hipótesis nula es

cierta, y vienen dadas por las siguientes fórmulas:
Esta prueba estadística es útil cuando las mediciones se pueden ordenar en escala
ordinal (es decir, cuando los valores tienden a una variable continua, pero no tienen
una distribución normal) y resulta aplicable cuando las muestras son
independientes.
Este procedimiento es una buena alternativa cuando no se puede utilizar la prueba
t de Student, en razón de no cumplir con los requisitos que esta prueba exige.
1.9.5. SIGNOS
La prueba de los signos permite contrastar la hipótesis de que las respuestas a dos
''tratamientos'' pertenecen a poblaciones idénticas. Para la utilización de esta prueba
se requiere únicamente que las poblaciones subyacentes sean continuas y que las
respuestas de cada par asociado estén medidas por lo menos en una escala ordinal.
La hipótesis nula puede expresarse como:
Siendo Xi la respuesta del elemento i-ésimo al primer ''tratamiento'' e Yi la respuesta

del elemento i-ésimo al segundo ''tratamiento''.
La hipótesis alternativa puede ser direccional, cuando postula que X es
estocásticamente mayor (o menor) que Y, o no direccional, cuando no predice la
dirección de la diferencia.
Para realizar el contraste se hallan los signos (+ o -) de las diferencias no nulas entre
las respuestas de los dos componentes de cada par y se cuenta cuántas son
positivas, S+, y cuántas negativas, S-. Si H0 es cierta, es de esperar que
aproximadamente la mitad de las diferencias sean positivas y la otra mitad
negativas.
El estadístico de prueba es S= mín [S+, S-].
14
Si H0 es cierta, S tiene distribución binomial de parámetros n= nº de diferencias
nulas y = 0'5. Si n es grande, la distribución de S puede aproximarse mediante
una normal de parámetros y la
decisión dependerá del valor tipificado de S. Para mejorar la aproximación se realiza
una corrección de continuidad, de forma que el estadístico de prueba es:
Z se distribuye según una normal tipificada.

Cuando el número de diferencias no nulas es pequeño la aproximación de la
distribución de S mediante la normal no es buena y en este caso el SPSS realiza
directamente la prueba binomial, dando el nivel de significación a partir del cual se
rechaza H0 en un contraste de dos colas. Si el contraste se realiza a una cola dicho
nivel de significación se reduce a la mitad.
1.9.6. WILCOXON
Cuando se trata de variables medibles en por lo menos una escala ordinal y pueden
suponerse poblaciones continuas la prueba no paramétrica más potente es la de
Wilcoxon. La hipótesis nula del contraste postula que las muestras proceden de
poblaciones con la misma distribución de probabilidad; la hipótesis alternativa
establece que hay diferencias respecto a la tendencia central de las poblaciones y
puede ser direccional o no.
El contraste se basa en el comportamiento de las diferencias entre las puntuaciones
de los elementos de cada par asociado, teniendo en cuenta no sólo el signo, sino
también la magnitud de la diferencia.
Sea la diferencia entre las puntuaciones de la pareja iésima; si
alguna de estas diferencias es nula la pareja correspondiente se elimina del análisis,
de forma que el tamaño de la muestra es n, el número de diferencias no nulas. A
continuación se asignan rangos desde 1 hasta n atendiendo únicamente al valor
absoluto de las di y se suman los rangos correspondientes a las diferencias positivas
y a las diferencias negativas por separado. Si la hipótesis nula es cierta, X e Y tienen
el mismo valor central y es de esperar que los rangos se distribuyan aleatoriamente
entre las diferencias positivas y negativas y, por tanto, que ambas sumas de rangos
sean aproximadamente iguales. El estadístico de prueba, T, es la menor de las dos
sumas de rangos. Cuando n > 15 la distribución muestral de T bajo el supuesto de
que H0 es cierta se aproxima a una
normal de parámetros:
El estadístico de prueba es el valor Z:
Que se distribuye según una normal tipificada. Para el nivel de significación deseado
se rechazará la hipótesis nula si Z pertenece a la región crítica localizada en las dos
colas o en una cola de la normal tipificada, según la naturaleza de la hipótesis
alternativa.
1.9.7. MC NEMAR
La prueba de McNemar se utiliza para decidir si puede o no aceptarse que
determinado ''tratamiento'' induce un cambio en la respuesta dicotómica o
dicotomizada de los elementos sometidos al mismo, y es aplicable a los diseños del
tipo ''antes-después'' en los que cada elemento actúa como su propio control.
Los resultados correspondientes a una muestra de n elementos se disponen en una
tabla de frecuencias 2 x 2 para recoger el conjunto de las respuestas de los mismos
elementos antes y después. El aspecto general de dicha tabla, en la que los signos
+ y - se utilizan para representar las diferentes respuestas, es el siguiente:
Antes/Después - +
- a b
+ c d
En las celdas de la tabla, a es el número de elementos cuya respuesta es la misma,

-; b es el número de elementos cuya respuesta es - antes del ''tratamiento'' y +
15
después de éste; c es el número de elementos que han cambiado de + a -; y d es el
número de elementos que mantienen la respuesta +.
Por tanto, b+c es el número total de elementos cuyas respuestas han cambiado, y
son los únicos que intervienen en el contraste. La hipótesis nula es que el
''tratamiento'' no induce cambios significativos en las respuestas, es decir, los
cambios observados en la muestra se deben al azar, de forma que es igualmente
probable un cambio de + a - que un cambio de - a +. Así pues, si H0 es cierta, de
los b+c elementos cuya respuesta ha cambiado es de esperar que (b+c)/2 hayan
pasado de + a -, y (b+c)/2 hayan pasado de - a +. En otras palabras, si H0 es cierta,
la frecuencia esperada en las correspondientes celdas es (a+b)/2.
La hipótesis alternativa puede ser no direccional, cuando postula que la probabilidad
de un cambio de + a - tiene distinta probabilidad que un cambio de - a +, o
direccional, cuando predice que un cambio de - a + es más (o menos) probable que
un cambio de + a -.
El estadístico de prueba que permite contrastar si existen diferencias significativas
entre las frecuencias esperadas y las observadas es:
Oi= frecuencia observada en la i-ésima celda

Ei = frecuencia esperada en la i-ésima celda si H0 es cierta k = número de
celdas
Para contrastar la significación de los cambios interesan sólo las celdas que recogen
cambios, por tanto el estadístico puede expresarse como
Si H0 es cierta, el estadístico tiene distribución aproximadamente chi-cuadrado

con 1 grado de libertad. La aproximación es más precisa si se realiza la corrección
de continuidad de Yates, quedando el estadístico:
La hipótesis nula, de que ambos tipos de cambio son igualmente probables, se

rechaza si el valor del estadístico se encuentra en la región crítica.
Cuando la frecuencia esperada (b+c)/2 es pequeña la aproximación de la
distribución del estadístico de prueba a la chi-cuadrado no es buena y, en tal caso,
el SPSS no calcula el estadístico anterior, sino que realiza la prueba binomial. El
contraste se plantea en este caso de la siguiente forma: supongamos que c<b; en
este caso la hipótesis nula es que c es un valor de una variable X con distribución
binomial de parámetros n=b+c y =0,5. El nivel de significación para una prueba
de dos colas es y se rechazará H0 para niveles de
significación iguales o superiores a éste. Si la hipótesis alternativa es direccional el
nivel de significación a partir del cual se rechazará H0 es la mitad del nivel de
significación bilateral.
1.9.8. TABULACION CRUZADA
Una tabulación cruzada o tabla de contingencia es la combinación de la distribución

de frecuencias de dos o más variables en una sola tabla, y nos ayuda a entender la
manera en que una variable, como la lealtad hacia la marca, se relaciona con otra
variable, como el sexo. Se considera que los datos incluidos son cualitativos o
categóricos, ya que se asume que cada variable sólo tiene una escala nominal. La
tabulación cruzada con dos variables también se conoce como tabulación cruzada
bivariada.
La tabulación cruzada produce tablas que reflejan la distribución conjunta de dos o
más variables con un número limitado de categorías o valores distintos. Las
categorías de una variable se cruzan con las categorías de otra u otras variables.
Así, la distribución de frecuencias de una variable se subdivide de acuerdo con los
valores o las categorías de las otras variables.
16
La tabulación cruzada se utiliza ampliamente en la investigación de mercados
comercial porque:
1. El análisis y los resultados de una tabulación cruzada pueden interpretarse y
comprenderse fácilmente por parte de gerentes sin conocimientos de estadística.
2. La claridad de la interpretación ofrece un vínculo más fuerte entre los resultados
de la investigación y las acciones gerenciales.
3. Una serie de tabulaciones cruzadas puede dar más información sobre un
fenómeno complejo, que un solo análisis multivariado.
4. La tabulación cruzada puede resolver el problema de celdas escasas, el cual
sería grave en los análisis multivariados discretos.
5. El análisis de una tabulación cruzada es sencillo de hacer y atractivo para los
investigadores menos expertos.
Coeficiente fi
El coeficiente fi (ɸ) se utiliza como una medida de la fuerza de la asociación en el
caso especial de una tabla con dos renglones y dos columnas (una tabla 2*2). Este
coeficiente es proporcional a la raíz cuadrada del estadístico chi cuadrada. Para una
muestra de tamaño n, este estadístico se calcula de la siguiente manera:
El estadístico toma un valor de 0 cuando no haya asociación, lo que también

indicaría una chi cuadrada de 0. Cuando las variables están perfectamente
relacionadas, fi toma un valor de 1 y todas las observaciones caen justo en la
diagonal principal o secundaria.
Coeficiente de contingencia
El coeficiente de contingencia (C) se utiliza para evaluar la fuerza de la asociación
en una tabla de cualquier tamaño. Este índice también está relacionado con chi
cuadrada de la siguiente forma:
El coeficiente de contingencia varía entre 0 y 1. El valor 0 ocurre cuando no hay una

asociación (es decir, cuando las variables son estadísticamente independientes);
pero nunca se alcanza el valor máximo de 1. El valor máximo del coeficiente de
contingencia, en cambio, depende del tamaño de la tabla (del número de renglones
y de columnas). Por esta razón, sólo debe emplearse para comparar tablas del
mismo tamaño.
V de Cramer
Es una versión modificada del coeficiente de correlación fi, ɸ, y se utiliza en tablas
más grandes que las de 2x2. Cuando se calcula fi para una tabla más grande que
2x2, no tiene un límite superior. Se obtiene al ajustar fi al número de renglones o al
número de columnas de la tabla, dependiendo de cuál de los dos sea más pequeño.
El ajuste es tal que V va del 0 al 1. Un valor grande de V sólo indica un alto grado
de asociación, y no la forma en que las variables están relacionadas.
Para una tabla con “r” renglones y “c” columnas, la relación entre la V de Cramer y
el coeficiente de correlación fi se expresa de la siguiente manera:
Coeficiente Lambda
La lambda asimétrica mide el porcentaje de mejoría para pronosticar el valor de la
variable dependiente, dado el valor de la variable independiente. Lambda también
varía entre 0 y 1. Un valor de 0 significa que no mejora el pronóstico; un valor de 1
indica que la predicción puede hacerse sin error. Esto sucede cuando cada
categoría de la variable independiente está asociada con una sola categoría de la
variable dependiente.
La lambda asimétrica se calcula para cada una de las variables (tratada como la
variable dependiente). También se calcula una lambda simétrica, que es un tipo de
promedio de los dos valores asimétricos. La lambda simétrica no hace ninguna
17
suposición sobre cuál variable es la dependiente, sino que mide la mejoría general
cuando el pronóstico se hace en las dos direcciones.
1.9.9. ANALISIS VARIANZA Y COVARIANZA

El análisis de varianza y el análisis de covarianza se utilizan para examinar las
diferencias entre los valores promedio de la variable dependiente, asociadas con el
efecto de las variables independientes controladas, después de tomar en cuenta la
influencia de las variables independientes no controladas.
En esencia, el análisis de varianza (ANOVA) se usa como una prueba de medias
para dos o más poblaciones. La hipótesis nula generalmente plantea que todas las
medias son iguales.
Las variables independientes categóricas también se conocen como factores. Una
combinación particular de niveles de factores o categorías se denomina tratamiento.
El análisis de varianza de un factor sólo incluye una variable categórica o un factor.
En el análisis de varianza de un factor, un tratamiento es igual a un nivel de factor.
Si participan dos o más factores, al análisis se le llama análisis de varianza de n
factores.
Si el conjunto de variables independientes consta de variables categóricas y

métricas, a la técnica se le denomina análisis de covarianza (ANCOVA). Las
variables independientes categóricas también se llaman factores; en tanto que las
variables independientes métricas se denominan covariables. Proceso del análisis
de varianza de un factor
Implica identificar las variables dependiente e independiente, descomponer la
variación total, medir los efectos, probar la significancia e interpretar los resultados.
Figura 8: Proceso de análisis de varianza de un factor
ANOVA DE MEDIDAS REPETIDAS

En la investigación de mercados, con frecuencia hay grandes diferencias en los
antecedentes y las características individuales de los participantes. Si esta fuente
de variación puede separarse de los efectos del tratamiento (efectos de la variable
independiente) y del error experimental, entonces mejora la sensibilidad del
experimento. Una forma de controlar las diferencias entre sujetos consiste en
observar a cada uno de ellos bajo cada condición experimental. En este sentido,
cada sujeto sirve como su propio control.
Por ejemplo, en una encuesta que busca determinar las diferencias entre las
evaluaciones de varias aerolíneas, cada encuestado evalúa todas las líneas aéreas
principales. Debido a que se obtienen medidas repetidas de cada sujeto, a este
diseño se le conoce como diseño dentro de sujetos o análisis de varianza de
medidas repetidas. El análisis de varianza de medidas repetidas se considera una
extensión de la prueba t de muestras pareadas cuando existen más de dos muestras
relacionadas.
SUPUESTOS DEL ANÁLISIS DE VARIANZA

Los principales supuestos del análisis de varianza se resumen de la siguiente
manera:
18
1. Normalmente, se supone que las categorías de la variable independiente son
fijas. Sólo se hacen inferencias de las categorías específicas consideradas. A esto
se le conoce como el modelo de efectos fijos. También hay otros modelos: en el
modelo de los efectos aleatorios se considera que las categorías o los tratamientos
son muestras aleatorias de un universo de tratamientos, y se hacen inferencias de
otras categorías que no se examinan en el análisis; el modelo de efectos mixtos se
usa cuando algunos tratamientos se consideran fijos y otros aleatorios.
2. El término de error se distribuye normalmente, con una media de cero y una
varianza constante. El error no está relacionado con ninguna de las categorías de
X. Pequeñas variaciones de estos supuestos no afectan gravemente la validez del
análisis. Además, los datos pueden transformarse para satisfacer el supuesto de
normalidad o de varianzas iguales.
3. Los términos de error no están correlacionados. Si los términos de error están
correlacionados (es decir, las observaciones no son independientes), la razón F
podría distorsionarse gravemente
1.9.10. REGRESION MULTIPLE

La regresión múltiple implica una sola variable dependiente y dos o más variables
independientes. Las respuestas que surgen en el contexto de la regresión bivariada
también se pueden responder usando la regresión múltiple al tomar en cuenta
variables independientes adicionales.
Estadísticos asociados con la regresión múltiple
1. 𝑹𝟐 ajustada. 𝑅2, el coeficiente de determinación múltiple, se ajusta al número
de variables independientes y al tamaño de la muestra para explicar regresiones
menores. Después de las primeras variables, las variables independientes
adicionales no contribuyen mucho.
2. Coeficiente de determinación múltiple. La fuerza de la asociación en la
regresión múltiple se mide usando el cuadrado del coeficiente de correlación
múltiple, 𝑅2, que también se conoce como coeficiente de determinación múltiple.
3. Prueba F. La prueba F se utiliza para probar la hipótesis nula que afirma que el
coeficiente de determinación múltiple en la población, 𝑅2pob, es igual a cero. Esto
es equivalente a probar la hipótesis nula
H0: β1 = β2 =β3 = . . . = βk = 0. El estadístico de prueba tiene una distribución F con
k y (n – k - 1) grados de libertad.
4. Prueba F parcial. La significancia de un coeficiente de regresión parcial, βi, de
Xi se pone a prueba utilizando un estadístico F creciente. El estadístico F creciente
se basa en el incremento de la suma de cuadrados explicada, que resulta de la suma
de la variable independiente Xi para la ecuación de regresión, después de haber
incluido todas las demás variables independientes.
5. Coeficiente de regresión parcial. El coeficiente de regresión parcial, b1,
denota el cambio en el valor predicho, Yˆ, por unidad de cambio de X1, cuando las
otras variables independientes, X2 a Xk, se mantienen constantes.
1.9.11. ANALISIS DISCRIMINANTE
El análisis discriminante es útil para examinar los datos cuando la variable de criterio
o dependiente es categórica, y las variables predictivas o independientes se basan
en una escala de intervalo. Cuando las variables de criterio tienen dos categorías,
la técnica se conoce como análisis discriminante de dos grupos. El análisis
discriminante múltiple se refiere al caso que incluye tres o más categorías.
Por ejemplo, la variable dependiente sería la elección de una marca de computadora
personal (marca A, B o C); y las variables independientes, las calificaciones de los
atributos de las computadoras personales en una escala Likert de 7 puntos.
Los objetivos del análisis discriminante son los siguientes:
1. Desarrollar las funciones discriminantes, o combinaciones lineales de las
variables predictivas o independientes, que hagan una mejor diferenciación entre
las categorías de las variables dependientes o de criterio (grupos).
2. Examinar si hay diferencias significativas entre los grupos, en términos de las
variables predictivas.
3. Determinar qué variables predictivas contribuyen más a las diferencias entre
grupos.
19
4. Clasificar los casos en uno de los grupos, con base en los valores de las
variables predictivas.
5. Evaluar la precisión de la clasificación. Las técnicas de análisis discriminante
se describen usando el número de categorías que posee la variable de criterio.
Cuando ésta tiene dos categorías, la técnica se conoce como análisis discriminante
de dos grupos. Cuando hay tres o más categorías, la técnica se conoce como
análisis discriminante múltiple.
Las técnicas de análisis discriminante se describen usando el número de categorías
que posee la variable de criterio. Cuando ésta tiene dos categorías, la técnica se
conoce como análisis discriminante de dos grupos. Cuando hay tres o más
categorías, la técnica se conoce como análisis discriminante múltiple. La diferencia
principal es que, en el caso de dos grupos, sólo puede derivarse una función
discriminante; mientras que, en el análisis discriminante múltiple, puede calcularse
más de una función. En la investigación de mercados abundan los ejemplos de
análisis discriminante. Esta técnica sirve para responder preguntas como:
■ En términos de las características demográficas, ¿en qué difieren los clientes que
muestran lealtad hacia una tienda de quienes no lo hacen?
■ ¿Existen diferencias entre usuarios frecuentes, moderados y esporádicos de
bebidas gaseosas, en cuanto al consumo de alimentos congelados?
■ ¿Qué características psicográficas ayudan a diferenciar a los compradores de
comestibles sensibles a los precios de los quienes no lo son?
■ ¿Los segmentos del mercado difieren en sus hábitos de exposición a los medios
de comunicación masiva?
1.9.12. ANALISIS LOGIT
Resulta útil para los casos en los que se desea predecir la presencia o ausencia de una
característica o resultado según los valores de un conjunto de predictores. Es similar a un modelo
de regresión lineal, pero está adaptado para modelos en los que la variable dependiente es
dicotómica. Los coeficientes de regresión logística pueden utilizarse para estimar la odds ratio
de cada variable independiente del modelo. La regresión logística se puede aplicar a un rango
más amplio de situaciones de investigación que el análisis discriminante.
El análisis discriminante aborda la cuestión de a qué grupo de observaciones es probable que
pertenezca. Por otro lado, el modelo Logit binario por lo común trata el problema de qué tan
probable es que una observación pertenezca a cada grupo. El modelo calcula la probabilidad de
que una observación pertenezca a un grupo específico, que el valor de Y que se pronostica es
0.
Los valores pronosticados de Y luego se comparan luego con los valores reales
correspondientes, para determinar el porcentaje de predicciones correctas.
Ejemplo. ¿Qué características del estilo de vida son factores de riesgo de enfermedad
cardiovascular? Dada una muestra de pacientes a los que se mide la situación de fumador, dieta,
ejercicio, consumo de alcohol, y estado de enfermedad cardiovascular, se puede construir un
modelo utilizando las cuatro variables de estilo de vida para predecir la presencia o ausencia de
enfermedad cardiovascular en una muestra de pacientes. El modelo puede utilizarse
posteriormente para derivar estimaciones de la odds ratio para cada uno de los factores y así
indicarle, por ejemplo, cuánto más probable es que los fumadores desarrollen una enfermedad
cardiovascular frente a los no fumadores.
1.9.13. ANALISIS CONJUNTO
El análisis conjunto, llamado también modelo composicional multiatributo, es una técnica
estadística que se utiliza en muchas de las ciencias sociales y ciencias aplicadas incluyendo el
marketing, la administración del producto y la investigación operativa.
El objetivo del análisis conjunto es determinar qué combinación de un número limitado de
atributos es el más preferido por los encuestados. Se utiliza con frecuencia para comprobar la
aceptación de diseños nuevos de producto por parte del cliente y valorar el atractivo de anuncios.
Se ha utilizado en el posicionamiento de producto, pero hay algunos problemas con la aplicación
de la técnica.
Los pasos básicos son:
- Selección del producto/servicio.
- Selección de las características que deben ser probadas.
- Muestra de las combinaciones del producto a clientes potenciales.
- Los encuestados categorizan las combinaciones
20
- Se analizan los datos de una muestra representativa de clientes potenciales en
conjunto con un profesional de la estadística. El análisis producirá las características
más preferidas por los potenciales clientes.
- Incorporación de las características más preferidas en un nuevo producto o anuncio.
1.9.14. CORRELACION CANONICA

El análisis de correlación canónica es un método de análisis multivariante desarrollado por Harold
Hotelling. Su objetivo es buscar las relaciones que pueda haber entre dos grupos de variables y
la validez de las mismas. Se diferencia del análisis de correlación múltiple en que éste solo
predice una variable dependiente a partir de múltiples independientes, mientras que la
correlación canónica predice múltiples variables dependientes a partir de múltiples
independientes. En este análisis, entonces, se crean combinaciones lineales de las variables
originales, sobre la base de su estructura de correlación. Al diseñar el experimento hay que
considerar el tamaño de la muestra ya que son necesarias un mínimo de observaciones por
variable, para que el análisis pueda representar las correlaciones adecuadamente.
Finalmente, hay que interpretar las cargas canónicas para determinar la importancia de cada
variable en la función canónica. Las cargas canónicas reflejan la varianza que la variable
observada comparte con el valor teórico canónico. El autovalor de cada eje indica la correlación
multivariada entre las nuevas variables lineales creadas a partir del análisis.
1.9.15. ANALISIS FACTORIAL
Es un método estadístico que tiene como finalidad la búsqueda de factores comunes a un

conjunto de variables que tienen entre si grandes correlaciones. En la investigación de mercado
puede haber una gran cantidad de variables, que en su mayoría están correlacionadas y deben
reducirse a un nivel manejable. Las relaciones entre los conjuntos de muchas variables
interrelacionadas se examinan y se representan en términos de algunos factores subyacentes.
Tiene numerosas aplicaciones en la investigación de mercado:
• Es útil la segmentación de mercado para identificar las variables subyacentes
en que se agrupan los clientes.
• El análisis factorial sirve para determinar los atributos de la marca que influyen
en la elección del consumidor.
• En estudios sobre publicidad, se utiliza el análisis factorial para entender los
hábitos de consumo de medios de comunicación.
1.9.16. ANALISIS DE CONGLOMERADOS
El análisis de conglomerados es una técnica usada para clasificar objetos o casos en grupos
relativamente homogéneos llamados conglomerados. Los objetos de cada conglomerado tienden
a ser similares entre si y diferentes de los objetos de otros conglomerados. El análisis de
conglomerados también se le conoce como análisis de clasificación o taxonomía numérica.
Tanto el análisis de conglomerados como el análisis discriminante se interesan en la clasificación.
Sin embargo, el análisis discriminante requiere de un conocimiento previo del conglomerado o la
pertenencia al grupo de cada objeto o caso incluido, para desarrollar la regla de clasificación.
1.9.17. ESCALAMIENTO MULTIDIMENSIONAL
Conjunto de técnicas estadísticas utilizadas habitualmente en marketing y ciencias sociales para
la visualización y exploración de datos. Es un procedimiento para tomar preferencias y
percepciones de los encuestados y representarlos en un diagrama visual. Estos diagramas,
llamados mapas perceptuales tienen generalmente dos dimensiones, pero pueden representarse
en más de dos. Los consumidores potenciales tienen que comparar pares de productos y hacer
juicios sobre sus similitudes. Mientras otras técnicas (como análisis factorial, análisis
discriminante y análisis conjunto) obtienen dimensiones de las respuestas a los atributos de los
productos identificados por el investigador, el escalamiento multidimensional obtiene las
dimensiones de los juicios de los encuestados sobre la similitud de los productos. Esto supone
una ventaja importante pues los resultados no dependen de los juicios de los investigadores. No
es necesaria una lista de atributos que debe ser mostrada a los encuestados. Las dimensiones
resultantes vienen de los juicios de los encuestados sobre pares de productos. Gracias a estas
ventajas, el escalamiento multidimensional es la técnica más comúnmente utilizada en mapeado
perceptual.
21
2. CUESTIONARIO
JHORVIN BARBOZA GIL
Preguntas
1. ¿De qué opciones se dispone para el tratamiento de los datos faltantes? Rpta: Se
dispone de las siguientes opciones: Sustituir con un valor neutro, sustituir con una
respuesta atribuida, la eliminación por casos y por pares.
2. Explique porqué se hacen las transformaciones de las escalas.
Rpta: Porque mejora las suposiciones de algunas técnicas estadísticas:
normalidad, linealidad, homocedasticidad, etc.
3. La media, moda y mediana son:
Rpta: Medidas de la tendencia central, La consideraremos el valor central de una distribución
de frecuencias.
4. ¿Qué se entiende por una variable?
Rpta: Una variable es un elemento de una fórmula, proposición o algoritmo que puede adquirir
o ser sustituido por un valor cualquiera (siempre dentro de su universo).
5. ¿Qué se entiende por probabilidad?

Rpta: La probabilidad mide la frecuencia con la que se obtiene un resultado (o conjunto de
resultados) al llevar a cabo un experimento aleatorio, del que se conocen todos los resultados
posibles, bajo condiciones suficientemente estables. La teoría de la probabilidad se usa
extensamente en áreas como la estadística, la física, la matemática, la ciencia y la filosofía
para sacar conclusiones sobre la probabilidad de sucesos potenciales y la mecánica
subyacente de sistemas complejos.
EMELY BASTOS CORTEZ
Preguntas
1. En que consiste el proceso de preparación de datos.
Rpta: Es el llevar acabo los procesos de aceptación de los cuestionarios que realice para mi
investigación, seguido por la verificación, codificación y trascripción de los datos. Todo este
proceso lo llevo a cabo después de que se define el problema de investigación y que se
desarrolla un enfoque apropiado, que se formula un diseño de investigación adecuado y que
se realiza el trabajo de campo.
2. ¿Qué actividades se dan en la revisión preliminar de los cuestionarios que han sido
devueltos del campo?
Rpta: Cuando un cuestionario es devuelto al campo es porque se detectó que: Algunas
partes del cuestionario están incompletas.
 El patrón de respuestas indica que el encuestado no entendió o siguió las instrucciones.
 Las respuestas muestran poca varianza.
 El cuestionario se recibió después de la fecha establecida.
 El cuestionario fue contestado por alguien que no estaba calificado para participar
Cuando los instrumentos han sido llenados en oficina y no en campo, etc.
3. ¿Porque motivo sería importante preparar al personal antes de salir al campo?
Rpta: Porque se ha observado que al momento de efectuar el levantamiento de información,
se cometen muchos errores por parte de los encuestadores y los respondientes o
encuestados. Y una manera de minimizar estos errores seria prepararlos.
4. ¿De qué manera me resulta hacer más practica el proceso de codificación?
Rpta: Una forma práctica de realizar el proceso de codificación es la de ingresar los datos es
usar una hoja de cálculo como EXCEL.
5. ¿Cuál es el objetivo de la etapa de edición en el proceso de preparación de datos?
Rpta: El objetivo es incrementar su exactitud y precisión, para poder examinar e identificar
respuestas ilegibles, incompletas o ambiguas.
JHONATAN BENITO ESCOBAR
Preguntas
1. ¿Qué implica la transformación de escala?
Rpta: Implica manipular los valores de la escala para asegurar que sea comparable con otras
escalas o adecuar de otra manera los datos para el análisis.
2. ¿Cuál es la diferencia entre la codificación previa y la posterior?
22
Rpta: En la codificación previa se asignan códigos antes de realizar el trabajo de campo y en
la codificación posterior, los códigos se asignan después de que el cuestionario se haya
devuelto del campo.
3. ¿Cuál es la mejor manera de evaluar el grado de satisfacción de una demanda ante la
oferta de un producto, un servicio o incluso ante el tratamiento dado por un vendedor en
el momento de una compra?
Rpta: Estando en la piel del cliente, y esto se consigue a través de la estrategia del cliente
misterioso mistery shopping, una herramienta sencilla y muy eficiente a la hora de detectar
los posibles fallos en la actividad que uno se propone.
4. ¿Cómo se aplica la técnica del chi-cuadrado?
• Cuando queremos comprobar si una variable, cuya descripción parece adecuada, tiene
una determinada función de probabilidad. La prueba correspondiente se llama chi-cuadrado
de ajuste.
• Cuando queremos averiguar si dos variables (o dos vías de clasificación) son
independientes estadísticamente. En este caso la prueba que aplicaremos ser la chi-cuadrado
de independencia o chi-cuadrado de contingencia.
5. ¿Cómo se utiliza la técnica de las corridas?

Rpta: Se utiliza para determinar secuencias, patrones sistemáticos, cambios secuenciales,
etc., que denoten tendencias predecibles.
VICTORIA D’AMBROSIO LINARES

Preguntas
1. ¿Qué significa editar un cuestionario?
Rpta: Porque incrementar su exactitud y precisión, para poder examinar e identificar
respuestas ilegibles, incompletas o ambiguas.
2. ¿Qué es la codificación y cómo podemos emplearlo?
Rpta: La codificación es asignar un código o número a cada resultado posible, el código
incluye una indicación de la posición en la columna (campo) y el registro que ocupará el dato.
Podemos emplearlo usando una hoja de cálculo como EXCEL, que permite asignar con
facilidad columnas específicas para preguntas y respuestas concretas. Cada fila contiene los
datos de un encuestado.
3. ¿Para qué es útil el análisis discriminante?
Rpta: Es útil para examinar los datos cuando la variable de criterio o dependiente es
categórica, y las variables predictivas o independientes se basan en una escala de intervalo.
4. ¿De qué manera resulta útil el análisis logit?

Rpta: Prediciendo la presencia o ausencia de una característica o resultado según los valores
de un conjunto de predictores.
5. ¿Qué es el análisis conjunto?

Rpta: Es una técnica estadística que se utiliza en muchas de las ciencias sociales y ciencias
aplicadas incluyendo el marketing, la administración del producto y la investigación operativa.
ANNIE VALERA OCMIN
Preguntas
1. ¿Qué implica la trascripción de los datos?
Rpta: La trascripción implica transferir los datos codificados de los cuestionarios o de las hojas
de codificación, a discos o cintas magnéticas o directamente a la computadora por medio del
teclado.
2. ¿Qué tipos de ajustes estadísticos se hacen en ocasiones a los datos? Rpta: Los tipos
de ajuste estadístico que se hacen a los datos son la ponderación, la redefinición de las
variables y las transformaciones de la escala.
3. ¿Cuáles son los estadísticos más utilizados para evaluar la significancia y fuerza
estadística de la asociación de variables en tabulaciones cruzadas?
Rpta: La significancia estadística de la asociación observada generalmente se mide usando
el estadístico chi cuadrada. La fuerza de la asociación se puede medir mediante el coeficiente
de correlación fi, el coeficiente de contingencia, la V de Cramer y el coeficiente Lambda.
4. ¿Cuáles son los estadísticos asociados con la regresión múltiple?
Rpta:- 𝑅2 Ajustada, el Coeficiente de Determinación Múltiple, La Prueba F, La Prueba F
parcial, y el Coeficiente de Regresión Parcial.
5. ¿Para qué se utiliza el análisis de Varianza y Covarianza?
23
Rpta: El análisis de varianza y el análisis de covarianza se utilizan para examinar las
diferencias entre los valores promedio de la variable dependiente, asociadas con el efecto de
las variables independientes controladas, después de tomar en cuenta la influencia de las
variables independientes no controladas
DANY VASQUEZ ARÉVALO
Preguntas
1. ¿Cuál es el uso de la ponderación en el ajuste estadístico de los datos? Rpta: La
ponderación se usa sobre todo para hacer que los datos de la muestra sean más
representativos de una población meta en características específicas. Sin embargo, otro
uso de la ponderación consiste en ajustar la muestra para dar mayor importancia a
encuestados con ciertas características.
2. ¿Qué son las variables ficticias?
Rpta: Las variables ficticias (llamadas también variables binarias, dicotómicas, instrumentales
o cualitativas) son variables que sólo pueden adoptar dos valores, como 0 o 1
3. ¿Para qué sirve la segmentación en la investigación de mercado?
Rpta: Es una técnica que usan los investigadores para dividir el mercado en segmentos más
pequeños, de esta manera elegir sus consumidores metas, así poder clasificarlos y poder
conocer sus gustos y preferencias.
4. ¿Qué es un análisis factorial?
Rpta: Es un nombre general que se denota de una clase de procedimientos que se usa sobre
todo para reducir y resumir los datos a investigar. Esta técnica se aplica en investigación de
mercado ya que existen muchas variables que están correlacionadas y deben reducirse a un
nivel manejable para la investigación.
5. ¿A qué se refiere sobre escalamiento multidimensional?
Rpta: Se refiere al conjunto de técnicas estadísticas utilizadas habitualmente en marketing y
ciencia sociales para la visualización y exploración de datos. Es un procedimiento para tomar
preferencias y percepciones de los encuestados y representarlos en un diagrama visual. De
esta manera los consumidores potenciales tienen que comparar pares de productos y hacer
juicios sobre similitudes.
LADY VÁSQUEZ SIAS
Preguntas
1. ¿Qué es la comprobación de la congruencia en la depuración de los datos? Rpta: La
comprobación de la congruencia identifica los datos que están fuera del rango, que son
lógicamente incongruentes o que tienen valores extremos.
2. ¿Qué consideraciones están implicadas en la elección de la estrategia de análisis de los
datos?
Rpta: La elección de la estrategia de análisis de datos debe iniciar con una consideración de
los primeros pasos del proceso de investigación de mercados: definición del problema (paso
I); desarrollo del enfoque (paso II) y el diseño de investigación (paso III).
3. ¿Qué son las respuestas faltantes?

Rpta: Las respuestas faltantes son valores de una variable que se desconocen, ya sea porque
los encuestados dieron respuestas ambiguas o porque sus respuestas no se registraron en
forma adecuada.
4. ¿Porque es importante tomar en cuenta las propiedades de las técnicas estadísticas?

Rpta: Porque algunas técnicas estadísticas son adecuadas para examinar las diferencias
entre variables, otras para evaluar la magnitud de las relaciones entre variables, y otras más
para realizar predicciones. Las técnicas también suponen diferentes suposiciones y algunas
pueden resistir mejor que otras el incumplimiento de las suposiciones subyacentes.
5. ¿Qué es una muestra pareada?

Rpta: Una muestra pareada es aquella en que las observaciones se aparean para que los dos
conjuntos de datos se relacionen con los mismos sujetos.
24

Preparacion de Datos

Diunggah oleh

Informasi Dokumen

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Preparacion de Datos

Diunggah oleh

Hak Cipta:

Format Tersedia

“AÑO DEL BUEN SERVICIO AL CIUDADANO”

UNIVERSIDAD NACIONAL DE UCAYALI

FACULTAD DE CIENCIAS ECONOMICAS ADMINISTRATIVAS Y

ESCUELA PROFESIONAL DE ECONOMIA Y NEGOCIOS

DOCENTE: DR. MIGUEL OSCAR LOPEZ Y OJEDA

TEMA: PREPARACIÓN DE LOS DATOS

Presentación Exposición Trabajo Nota

Para llevar a cabo con éxito este proceso es necesario realizar la

1.1. EL PROCESO DE PREPARACION DE LOS DATOS

Figura 1: El proceso de preparación de datos

1.2. REVISION DE CUESTIONARIO

Si el cuestionario sólo contiene preguntas estructuradas o muy pocas preguntas no

1.4.1. Codificación de las preguntas:

Figura 2: Ejemplo de codificación de un cuestionario que muestra

Si los datos se recolectaron usando La entrevista telefónica asistida por ordenador

En el caso de utilizar el teclado se requiere de dos operadores ya que en la trascripción

La verificación de todo el conjunto de datos duplicará el tiempo y costo de la trascripción.

Figura 3: Transcripción de datos

En conclusión, los diferentes procedimientos para el tratamiento de las respuestas

1.7. AJUSTE ESTADISTICO DE LOS DATOS

1.7.2. REDEFINICIÓN DE LAS VARIABLES

Por ejemplo, el investigador puede crear un índice de búsqueda de información (IBI)

Un importante procedimiento de redefinición supone el uso de variables ficticias para

1.8. ELECCION DE UNA ESTRATEGIA DE ANALISIS DE DATOS

Figura 4: Elección de la estrategia de análisis de

1.9. CLASIFICACION DE LAS TECNICAS ESTADISTICAS

Figura 6: Clasificación de técnicas multivariadas

1.9.1. PRUEBA DE HIPOTESIS

Entonces es la t distribuida con n - 1

Formula de la prueba del valor Z de la distribución normal:

1.9.2. CHI CUADRADA

Luego el valor se calcula de la siguiente manera:

Para determinar si existe una asociación sistemática, se estima la probabilidad de

Figura 7: Prueba chi-cuadrada

Desean saber si la Mediana de la población de la que procede la muestra de los

d) Distribución del estadístico de contraste: Bin(7,0.5). (7 es el número de datos. 0.5

1.9.4. MAN WHITNEY

Donde n1 y n2 son los tamaños respectivos de cada muestra; R1 y R2 es la suma

Donde mU y sU son la media y la desviación estándar de U si la hipótesis nula es

Siendo Xi la respuesta del elemento i-ésimo al primer ''tratamiento'' e Yi la respuesta

Z se distribuye según una normal tipificada.

En las celdas de la tabla, a es el número de elementos cuya respuesta es la misma,

Oi= frecuencia observada en la i-ésima celda

Si H0 es cierta, el estadístico tiene distribución aproximadamente chi-cuadrado

La hipótesis nula, de que ambos tipos de cambio son igualmente probables, se

1.9.8. TABULACION CRUZADA

Una tabulación cruzada o tabla de contingencia es la combinación de la distribución

El estadístico toma un valor de 0 cuando no haya asociación, lo que también

El coeficiente de contingencia varía entre 0 y 1. El valor 0 ocurre cuando no hay una

1.9.9. ANALISIS VARIANZA Y COVARIANZA

Si el conjunto de variables independientes consta de variables categóricas y

Figura 8: Proceso de análisis de varianza de un factor

ANOVA DE MEDIDAS REPETIDAS

SUPUESTOS DEL ANÁLISIS DE VARIANZA

1.9.10. REGRESION MULTIPLE

1.9.11. ANALISIS DISCRIMINANTE

1.9.14. CORRELACION CANONICA

1.9.15. ANALISIS FACTORIAL

Es un método estadístico que tiene como finalidad la búsqueda de factores comunes a un

1.9.16. ANALISIS DE CONGLOMERADOS

5. ¿Qué se entiende por probabilidad?

5. ¿Cómo se utiliza la técnica de las corridas?

VICTORIA D’AMBROSIO LINARES

4. ¿De qué manera resulta útil el análisis logit?