Anda di halaman 1dari 21

FACULTAD DE TURISMO

DEPARTAMENTO DE SERVICIOS TURSTICOS ORIENTACIN MARKETING TURSTICO

CUADERNO DE CTEDRA

Anlisis de Datos
(Segunda Edicin)

Marina Zanfardini y Andrea Gutauskas

Septiembre 2010

Anlisis estadstico de datos

Luego de recolectar los datos y de almacenarlos en una tabla, llega el momento de analizarlos e interpretarlos. Nos interesa poder ver los resultados, es decir, transformar los datos en informacin que nos permita tomar decisiones. Leer los datos puede resultar una tarea muy sencilla si nuestro estudio relev unos pocos casos. Con una simple vista de la tabla de los datos o una lectura de las encuestas, se pueden identificar algunas respuestas que se repiten, coincidencias en la simultaneidad de los mismos pares de respuestas para dos preguntas diferentes, etc. Pero qu sucede cuando nuestros casos son muchos, es decir, cuando tenemos que procesar y generar resultados sobre grupos de 50, 100 o ms de 1000 casos de estudio? Es en este tipo de contextos cuando la estadstica y todas sus tcnicas de anlisis nos pueden ayudar a obtener conclusiones sobre los datos recabados. En este cuaderno vamos a indagar sobre tcnicas estadsticas bsicas para analizar datos de tipo numricos (cuantitativos) y de tipo categricos (cualitativos). Veremos algunos conceptos estadsticos como tablas de frecuencias, promedio, mediana, modo y desvo estndar. Tambin analizaremos los grficos asociados a estas tcnicas. Utilizaremos el Programa Dyane que nos permite obtener los resultados de los datos recabados a travs de las encuestas y aprenderemos cmo exportarlos a otros documentos.

De qu se ocupa la Estadstica?
La Estadstica es una ciencia que se ocupa de describir, analizar e interpretar ciertas caractersticas de un conjunto de individuos llamado poblacin. Estudia las propiedades de un grupo de casos para hallar en ellos regularidades en el comportamiento de los mismos. Tambin se ocupa de realizar inferencias a partir de ellos, con la finalidad de ayudar a la toma de decisiones y, cuando es necesario, formular predicciones. El origen etimolgico de la palabra est vinculado al trmino alemn satistik, introducido por Gottfried Achenwall (1749), quien lo utiliz para identificar la tarea de analizar datos del Estado, es decir, la "ciencia del Estado" (tambin llamada aritmtica poltica de su traduccin directa del ingls). Recin en el sigo XIX el trmino estadstica adquiri el significado de recolectar y clasificar datos, a travs de los aportes del ingls John Sinclair (Wikipedia).

Anlisis estadstico de datos

Un poco de historia Desde los comienzos de la civilizacin han existido formas sencillas de estadsticas, pues ya
se utilizaban representaciones grficas y otros smbolos en pieles, rocas, palos de madera y paredes de cuevas para contar el nmero de personas, animales o ciertas cosas. Hacia el ao 3000 A.C. los babilonios usaban ya pequeas tablillas de arcilla para recopilar datos en tablas sobre la produccin agrcola y de los gneros vendidos o cambiados mediante trueque. Los egipcios analizaban los datos de la poblacin y la renta del pas mucho antes de construir las pirmides en el siglo XXXI a.C. Los libros bblicos de Nmeros y Crnicas incluyen, en algunas partes, trabajos de estadstica. () El Imperio romano fue el primer gobierno que recopil una gran cantidad de datos sobre la poblacin, superficie y renta de todos los territorios bajo su control. Durante la edad media slo se realizaron algunos censos exhaustivos en Europa. Los reyes carolingios Pipino el Breve y Carlomagno ordenaron hacer estudios minuciosos de las propiedades de la Iglesia en los aos 758 y 762 respectivamente. Despus de la conquista normanda de Inglaterra en 1066, el rey Guillermo I de Inglaterra encarg un censo. La informacin obtenida con este censo, llevado a cabo en 1086, se recoge en el Domesday Book. El registro de nacimientos y defunciones comenz en Inglaterra a principios del siglo XVI, y en 1662 apareci el primer estudio estadstico notable de poblacin, titulado Observations on the London Bills of Mortality (Comentarios sobre las partidas de defuncin en Londres). Un estudio similar sobre la tasa de mortalidad en la ciudad de Breslau, en Alemania, realizado en 1691, fue utilizado por el astrnomo ingls Edmund Halley como base para la primera tabla de mortalidad. En el siglo XIX, con la generalizacin del mtodo cientfico para estudiar todos los fenmenos de las ciencias naturales y sociales, los investigadores aceptaron la necesidad de reducir la informacin a valores numricos para evitar la ambigedad de las descripciones verbales. Fragmento del artculo Comprensin y Uso de la Estadstica, (Valdes, 2006).

Segn Fernndez Aguado (1999) en la actualidad el trmino Estadstica puede referirse a: La coleccin de datos numricos ordenados y clasificados segn un determinado criterio. La ciencia que, utilizando como instrumento la matemtica y el clculo de probabilidades, estudia las leyes de comportamiento de aquellos fenmenos que, por no estar sometidos a leyes rgidas, dependen del azar. La tcnica o mtodo que se sigue para recoger, organizar, resumir, presentar, analizar, generalizar y contrastar los resultados de las observaciones de los fenmenos reales.

Conceptos bsicos de estadstica


Como mencionamos al inicio, la estadstica no estudia hechos aislados sino gran cantidad de datos vinculados a grupos o colectivos. Cuando el colectivo estudiado es muy grande su observacin es prcticamente imposible (por cuestiones de tiempo, recursos econmicos, etc.) y se estudia slo una parte del mismo.

Anlisis estadstico de datos

En este sentido es importante diferenciar los conceptos de Poblacin, Muestra e Individuo (Cobo Valeri, 1993).

La poblacin es el conjunto de todos los elementos que cumplen con ciertas propiedades y entre los cuales se desea estudiar un determinado fenmeno. La muestra es un subconjunto de la poblacin en estudio y a partir de ella se sacan conclusiones sobre las caractersticas de la poblacin. Este proceso se denomina inferencia. El individuo es cada uno de los elementos de la muestra o de la poblacin. Pueden ser personas pero tambin pueden ser hoteles, familias, grupos de viaje, organizaciones sindicales, agencias de viaje o un Alien como lo muestra la figura.

Tipos de anlisis estadsticos


Si bien la Estadstica ofrece diferentes tcnicas que los datos, cada una de ellas es apropiada para situacin. En este sentido, es importante que quienes sean conscientes de las cuestiones que deben aplicarlas. permiten analizar una determinada analizan los datos considerar para

Ante una necesidad de anlisis de datos, la eleccin de la tcnica a utilizar depende bsicamente de:

El objetivo que se pretende: se quiere simplemente describir una situacin? Se desea explicar un fenmeno? Se quiere inferir los datos de una muestra a toda la poblacin? El nmero de variables a analizar a la vez: cuntas variables quiero analizar en forma simultnea? Tan slo una? Dos o ms variables? El tipo de variable que se desea analizar: cmo se registraron los datos de las variables? Las respuestas son datos numricos? Son categoras? Es una respuesta abierta, textual, sin precodificar? (Luque, 1997)

En esta clase abarcaremos tcnicas que tienen por objetivo describir los datos, abocndonos a aquellas que permiten realizar el anlisis de una variable y hasta dos variables simultneas.

Anlisis estadstico de datos

Anlisis Univariado
El anlisis univariado o univariable incluye un conjunto de tcnicas que estudian la medida y el comportamiento de una sola variable a la vez (Santesmases Mestre, 2001). Cuando se estudia una variable, como por ejemplo la edad de los turistas o la procedencia, quisiera poder resumir todas las respuestas en uno o dos valores y tambin quisiera saber cun homogneas o heterogneas son las respuestas. Por esta razn, cuando se realiza un anlisis univariado se observan como mnimo dos cuestiones: Las Medidas de Tendencia Central, que permiten resumir todos los datos que se observaron en esa variable en pocos valores que los representen, Y las Medidas de Dispersin, que nos indican cmo se distribuyen las respuestas de los casos, es decir, qu error se est cometiendo al considerar todos los casos iguales a las medidas de tendencia central.

Las medidas de tendencia central o de dispersin varan de acuerdo al tipo de variable. A continuacin se indican las medidas de tendencia central y medidas de dispersin para las variables categricas y para las variables numricas. Variables Categricas Las variables categricas son aquellas cuyos valores representan categoras. No indican cantidades, sino simplemente identifican distintos atributos o modalidades que puede asumir una variable (Santesmases Mestre, 2001). Tradicionalmente son denominadas variables cualitativas. Ejemplos de este tipo de variables pueden ser Motivo de viaje con las siguientes categoras de respuestas: turismo, estudio, salud, negocios, otros. Otro ejemplo es Sexo, con las categoras: Hombre, Mujer. Tambin entran en este grupo aquellas preguntas que se refieren a cantidades pero en las que el encuestado no nos indica el nmero exacto, sino que selecciona entre clases ordenadas que muestran tramos o intervalos de la variable medida. Por ejemplo: Podra indicar en que rango de ingresos mensuales se ubicara? Menos de $1.000; De $1.001 a $2.000; - De $2.001 a $3.000; - Ms de $3.000. En el caso de las variables categricas, para poder resumir lo que sucede con todas las respuestas (medida de tendencia central) se utiliza el modo o moda.
5

Anlisis estadstico de datos

El modo es la categora o valor que ms veces se observa en el conjunto de respuestas que obtuvimos para una determinada pregunta. Representa lo que coloquialmente llamamos la mayora. Por ejemplo, el modo para la pregunta Cul es el principal motivo por el que decidi venir a Junn de los Andes?, result ser la opcin 3: Recorrido por la Zona. Esta opcin fue la ms elegida (64 de un total de 109 respuestas). En otras palabras, la mayora de los turistas de Junn de los Andes tienen como motivo de la visita al destino recorrer la zona. Otro ejemplo: El modo para la pregunta Cul es el ingreso mensual promedio de su grupo familiar? fue la opcin 2: Entre $1.001 y $2.000.-, seleccionada 44 veces.

Si bien el modo es una manera de simplificar y resumir lo que sucede con todas las respuestas a esa variable o pregunta, a veces no es representativo de lo que le sucede a todos los casos con esa variable. Si observamos qu sucede con las dems respuestas de los encuestados veremos que entre 2.001/3.000 tambin ha sido elegida por un importante grupo. Si bien no llega a ser la mayora, representa una porcin importante de las respuestas. Por esta razn siempre es necesario complementar las medidas de tendencia central con las de dispersin. Para las variables categricas este anlisis se realiza con la distribucin de frecuencias. La distribucin de frecuencias permite visualizar en una tabla todos los valores posibles de la variable y el nmero de veces que se presenta cada uno de los mismos. Las frecuencias suelen ser expresadas en valores absolutos o relativos porcentuales. La relacin que existe entre una frecuencia absoluta y el total de respuestas que recibi dicha variable recibe el nombre de frecuencia relativa. Al multiplicar las frecuencias relativas por 100, se obtienen las frecuencias relativas porcentuales (%). En el programa DYANE se puede aplicar la distribucin de frecuencias a una o ms variables utilizando el men Anlisis/Tabulacin Simple Una vez que se hace clic con el mouse sobre Tabulacin simple, el siguiente cuadro de dilogo nos propone un listado de variables

Anlisis estadstico de datos

categricas sobre las cuales es posible realizar el anlisis (el programa permite seleccionar una o ms variables, elegir todas las variables as como elegir la opcin grficos). Se selecciona las opciones deseadas y se presiona el botn Calcular. Los resultados de este anlisis aparecern en la ventana Resultados del programa. Si se pidieron adems grficos, en esta ventana estar activado el icono de la barra de herramientas por el que se accede a los grficos de la tabulacin. Al pulsar este botn se muestra el mdulo de grficos.
Figura 1: Comando Dyane para Tabulacin simple (distribucin de frecuencias)

En cuanto a los resultados del anlisis, en primer lugar se indica la Variable de la que se trata el anlisis realizado. Luego se observa una Tabla con cuatro columnas. En la primera, se muestran los valores (cdigos) de las categoras de respuestas posibles a la pregunta analizada. En nuestro ejemplo, los valores van desde el 1 al 6. En la segunda columna, aparece el significado de cada nmero. As, el 1 tiene como significado Actividades religiosas, el 2 Pesca, etc. Estos significados son los que oportunamente se establecieron al definir las variables de la Base de Datos (las preguntas del cuestionario).
Figura 2: Resultado de Tabulacin Simple (Anlisis de frecuencias) en DYANE

En la tercera representan el variable en el religiosas, fue

columna se disponen las frecuencias absolutas, que conteo de las veces que se observ un valor para una total de las respuestas. Por ejemplo, la opcin 1, Act. seleccionada por 2 entrevistados -2 es la frecuencia
7

Anlisis estadstico de datos

absoluta para esa categora. La suma de todas las frecuencias absolutas para todas los valores de una variable es el nmero total (N) de elementos que componen la muestra (o la poblacin) estudiada. En este caso, el nmero de casos o N asciende a 109. Las frecuencias relativas porcentuales aparecen en la cuarta columna de la tabla. En el caso de Actividades religiosas, la frecuencia relativa es el 1,83% del total de respuestas (surge de dividir 2/109 y luego multiplicarlo por 100). La suma de todas las frecuencias relativas es el 100% (siempre que la pregunta sea de respuesta nica). La representacin grfica de la distribucin de frecuencias de una variable se denomina grfico de barras. En el grfico de barras el eje horizontal muestra los valores de la variable que se est analizando y las alturas de las barras representan sus respectivas frecuencias de ocurrencia (Cuenca & Miquel, 2000).
Grfico 1: Grfico de Barras en DYANE V4

Variables Numricas Las variables numricas son las que miden cantidades, es decir, cuantifican alguna caracterstica que se quiere estudiar en la poblacin. Sus valores pueden ser positivos o negativos, con decimales o sin ellos. Supongamos que preguntamos a 15 personas cul ser su estada (en noches) en el destino y sus respuestas son: 2, 3, 3, 4, 4,5, 6, 6, 7, 7, 7, 8, 10, 14, 30 El Modo nuevamente es aplicable a las variables numricas como medida de tendencia central, interpretndolo de la misma forma en que se lo hizo con las variables categricas. El modo entonces es el valor ms frecuente de la variable en la poblacin estudiada. En el ejemplo, la estada que ms frecuentemente indicaron fue de 7 noches.
8

Anlisis estadstico de datos

Al existir un nmero de opciones de respuestas posibles mayor que en el caso de las variables categricas, el modo no siempre es la mejor medida de resumen. Decir que la estada en un destino es de 7 noches en este caso puede ser un poco arriesgado, porque tan slo tres personas indicaron este valor. Existen otras medidas de tendencia central que se pueden realizar a las variables numricas y que ayudan a complementar el anlisis. Las ms comunes son el Promedio aritmtico y la Mediana. El promedio (o la media) se obtiene a travs de una frmula que implica la suma de los valores (respuestas) obtenidos para una variable dividida por el nmero de ellos (Fernndez Aguado, 1999). En nuestro ejemplo, el promedio de estada en noches es de 7,7333333 noches, se redondea en 8 noches.
Formula 1: Clculo del promedio aritmtico para la variable Estada

PromedioEstada

2 3 3 4 4 5 6 6 7 7 7 8 10 14 30 116 7,73333333 8 15 15

El promedio es una medida resumen que contempla todos los valores que se observaron. Puede ser que el valor promedio no sea una respuesta efectivamente observada entre los encuestados, ya que surge de un clculo matemtico y en el caso de las variables discretas -que no tienen decimales- el resultado debe redondearse para que adquieran sentido (no existen 7,73 noches, en todo caso sern 8 noches). Una dificultad del promedio es que justamente por contemplar todos los valores, se puede ver afectada por valores extremos. Noten que el valor del promedio es mayor al del modo, afectado por el caso que contest que se queda 30 noches. En este caso tal vez convendra seguir resumiendo lo que sucede con el comportamiento de la variable a travs del modo. La mediana se define como el valor central de los valores de la variable, una vez que stos han sido ordenados en sentido creciente o decreciente. Es un valor intermedio en la serie ordenada de los datos, dejando tantos casos por encima como por debajo (Cobo Valeri, 1993).

Anlisis estadstico de datos

Para calcularlo en nuestro ejemplo, vemos los casos ordenados de menor a mayor. Como son 15 caso, el caso en la posicin 8 es el que la mitad de los casos por debajo (7 estadas iguales o ms cortas) y la otra mitad por encima (7 estadas iguales o ms prolongadas). La mediana es el valor que obtiene la variable para el caso 8. El caso 8 tiene como valor para la variable Estada 6 noches. La estada intermedia es de 6 noches.
2, 3, 3, 4, 4,5, 6,

6,

7, 7, 7, 8, 10, 14, 30

En este ejemplo, ubicar la mediana es sencillo porque el nmero de respuestas es impar (15). Si el conjunto de respuestas fuera un nmero par, entonces la mediana es el promedio de los valores colocados el medio de la serie ordenada (Berenson, Levine, & Krehbiel, 2006). A diferencia del promedio, la mediana no se ve afectada por valores extremos. A diferencia del modo, la mediana considera la presencia de todos los valores con sus respectivas repeticiones. En este caso sera ms justo resumir la variable a travs de la mediana. Resumiendo lo arrojado por las medidas de tendencia central podemos decir que la estada en este destino entre los entrevistados ronda las 6 noches. Para analizar la homogeneidad o heterogeneidad de las respuestas, el rango y la desviacin tpica o desvo estndar son las medidas de dispersin que ms frecuentemente se utilizan para las variables numricas. El rango es la diferencia entre el valor de la variable numricamente superior y el inferior, es decir, entre el valor mximo y el valor mnimo. En nuestro ejemplo, el valor mximo observado de estada es el 30 y el mnimo es 2, por lo que el rango es 28 noches (30 - 2). Su tamao nos indica en cierta forma la heterogeneidad de respuestas. Quiere decirnos que entre la persona que menos se qued en el destino y la que ms se qued hay una variacin de 28 noches.

2, 3, 3, 4, 4,5, 6, 6, 7, 7, 7, 8, 10, 14, 30


El rango es una buena medida por su facilidad para la interpretacin, pero depende slo de dos valores extremos y, por esta razn vara en funcin de la casualidad de incluir en el conjunto de casos estudiados elementos extremadamente altos o bajos. Supongamos que un nuevo encuestado nos indica que su estada ser de 60 noches, el rango variar sustancialmente (de 28 a 58), sin embargo el resto de los valores permanecen iguales.

2, 3, 3, 4, 4,5, 6, 6, 7, 7, 7, 8, 10, 14, 30 2, 3, 3, 4, 4,5, 6, 6, 7, 7, 7, 8, 10, 14, 60


10

Anlisis estadstico de datos

Para contemplar todas las respuestas y analizar cmo es su nivel de heterogeneidad promedio se utiliza el desvo estndar. Para su clculo se compara la diferencia que hay entre la respuesta de cada individuo y el valor promedio de la variable y se promedia esta diferencia. Cuando el valor de un individuo es superior al promedio esta diferencia adquiere valores positivos. Si el promedio es 8, las estadas mayores a este valor darn diferencias positivas. Por ejemplo la respuesta del ltimo individuo difiere con respecto al promedio en aproximadamente 22 noches ms. Si el valor que indic un individuo es inferior, por ejemplo si su respuesta es 4, la diferencia ser negativa, porque este individuo indic aproximadamente 4 noches menos. Si queremos hacer un promedio de las diferencias observadas (un promedio de la dispersin) lo lgico sera proceder como en cualquier promedio: sumar todas las diferencias y dividirlas por la cantidad de casos. Sucede que si sumamos todas las diferencias estas se compensan y el resultado es cero. Si tenemos un denominador 0 no podemos dividir (0 dividido cualquier cantidad es 0), no podemos promediar. Cmo hacer para evitar esta situacin? Transformar en positivas esas diferencias elevndolas al cuadrado y luego dividirla por los casos estudiados. Este valor que obtendremos ser la varianza. La varianza para nuestra variable ejemplo es 44,13 noches al cuadrado1, interpretndose como el error promedio que cometemos al decir todos los encuestados se quedan en el destino en promedio 8 noches.
Frmula 1: Clculo de Varianza para la Variable Estada
Varianza
2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 ( 2 8) (3 8) (3 8) ( 4 8) ( 4 8) (5 8) (6 8) (6 8) (7 8) (7 8) (7 8) (8 8) (10 8) (14 8) (30 8) 15 2 2 2 2 2 2 ( 6) ( 5) ( 5) ( 4) ( 4) ( 3) ( 2) ( 2) ( 1) ( 1) ( 1) (0) ( 2) (6) ( 22) 2 2 2 2 2 2 2 2 2 15 36 25 25 16 16 9 4 4 1 1 1 0 4 36 484 15 662 44,13 15

La dificultad de interpretacin que representa el cuadrado al lado de la unidad (en este caso noches) puede eliminarse obteniendo la raz cuadrada de la varianza, lo que se conoce como desviacin tpica o desvo estndar.

Utilizaremos directamente el valor 8 como valor de la media, para que sea ms simple su visualizacin en la Frmula. En un programa informtico como Excel, DYANE, etc. el clculo de la varianza se calcular con el valor exacto de la media 7,73 y la varianza ser de 47,2

11

Anlisis estadstico de datos

La Desviacin estndar es exactamente la raz cuadrada del promedio de las desviaciones al cuadrado de la media, pero a nivel de interpretacin debe entenderse como el error promedio que se comete al asignar la media a cada caso. En nuestro ejemplo, el error promedio cometido es de 7 noches (redondeo de 6,64 noches).
Frmula 3: Clculo de Desviacin tpica para la Variable Estada

DesvacinTpica Estada Varianza de estada 44,13 noches2 6,64 noches

El desvo estndar tender a ser menor cuando las respuestas numricas sean homogneas. Y tender a ir aumentando cuando la heterogeneidad sea mayor. El desvo estndar es una herramienta interesante porque nos permite hacer rpidamente clculos sobre entre qu valores se encuentra aproximadamente el 95% de los casos para aquellas variables que siguen una distribucin normal (es decir, que su Modo, Media y Mediana no difieren sustancialmente). Para esto se debe sumar y restar dos veces la desviacin tpica al valor de la media para obtener los valores lmites entre los que se encuentra el 95% de las respuestas. En nuestro ejemplo el valor medio es de 8 noches. Si a la media le sumamos dos desviaciones tpicas (14 noches) obtenemos el lmite superior: 22 noches (8+14) y si le restamos dos desviaciones tpicas obtenemos el lmite inferior: -6 (8-14). Como una persona no puede quedarse menos que 0 noches, el lmite inferior sera 0. Entonces podemos decir que aproximadamente el 95% de los casos se quedan en Junn de los Andes entre 0 y 22 noches. Si volvemos a los datos corroboramos la utilidad de esta herramienta. Tan slo un caso no est entre esos dos valores, el registro 15 con una estada de 30 noches, el cual representa el 6% de los casos estudiados. Es necesario que realicemos estos clculos manualmente o con una calculadora auxilindonos? Por suerte ya no es necesario. Imaginen el tiempo que les insumira estimar estas medidas para cada variable de una encuesta El avance de las tecnologas de informacin ha perm itido que cada vez sea ms sencillo poder estimar estos valores. Para obtener las medidas de tendencia central y de dispersin para una variable numrica en DYANE existe el comando Anlisis/Estadsticas bsicas. Una vez que se hace clic con el mouse sobre Estadsticas bsicas, el siguiente cuadro de dilogo nos propone un listado de variables numricas sobre las cuales es posible realizar este anlisis (el programa permite seleccionar una o ms variables), se debe seleccionar la opcin Relacin Completa (seleccione estadsticas) y de esa manera elegir todas las medidas o simplemente alguna/s de ellas.

12

Anlisis estadstico de datos


Figura 3: Comando Dyane para Estadsticas bsicas (Medidas de tendencia central y de dispersin)

Adems de las medidas mencionadas, Dyane ofrece las opciones N de casos vlidos, Suma de los casos, Mximo valor de la variable y Mnimo valor de la variable. Se seleccionan las opciones deseadas y se presiona el botn Calcular. Tambin ofrece la posibilidad de generar un Grfico. Los resultados de este anlisis aparecern en la ventana Resultados del programa
Figura 4: Resultados de Estadsticas Bsicas en DYANE2

Los valores de la Varianza y del desvo estndar son diferentes a los de las Frmulas, porque estn calculados sobre el valor exacto de la media.

13

Anlisis estadstico de datos

Anlisis Bivariado
El anlisis estadstico bivariable es el conjunto de tcnicas que estudian la relacin (de asociacin o de dependencia) entre dos variables (Santesmases Mestre, 2001). Las tcnicas ms comunes y que se van a utilizar en esta materia son: Tabulacin cruzada y Tabulacin cruzada de valores medios. Nuevamente, la eleccin de qu tcnica utilizar ante una determinada situacin depender la definicin de cada una de las dos variables que se desean cruzar, es decir, si se trata de variables categricas o numricas. En este cuaderno nos abocaremos nicamente a dos tcnicas de anlisis bivariado: las tablas cruzadas y la tabulacin de valores medios. Variable categrica vs. Variable categrica En un destino puede resultar interesante analizar, por ejemplo qu tipos de grupos de viajes estn asociados ms frecuentemente a los motivos principales por los que los turistas arriban al mismo. Este tipo de informacin es de utilidad tambin para las empresas. Si un hotel est buscando orientarse a personas que vienen a pescar al destino, necesita saber en qu tipo de grupo se mueven para planificar, por ejemplo, la cantidad de plazas que debe ofrecer en cada habitacin, si debe incluir en su oferta juegos para nios o ms bien un lugar de reunin de amigos (como un quincho), etc. Lo mismo sucede con los establecimientos gastronmicos, agencias de viajes, etc. Contando con la informacin mencionada, podrn disear mejor sus productos. Para poder dar respuesta a esta inquietud, es necesario un anlisis bivariado que permita cruzar dos variables. La tabulacin cruzada permite analizar la relacin entre dos variables categricas. Proporciona una tabla de doble entrada, tambin llamada tabla de contingencia, en la que se presentan los valores de las frecuencias conjuntas de dos variables. Las frecuencias conjuntas representan el nmero de ocasiones en que dos pares de valores de las variables se observaron conjuntamente.

14

Anlisis estadstico de datos

Veamos un ejemplo de la encuesta en Junn de los Andes. Se midieron las dos variables categricas (tipo de grupo y motivo de viaje)
Figura 5: Definicin variables Motivo de viaje y Grupo de viaje Pregunta 6: motivo de viaje 1. 2. 3. 4. 5. 6. Act. Religiosas Pesca recorrido por la zona asistencia a evento Reincidencia Otro 1. 2. 3. 4. 5. 6. 7. 8. tipo de grupo familia familia, amigos y/o parientes amigos pareja solo contingente otro

Si observamos los datos sin procesar, veremos que la categora 3 de Motivo (recorriendo la zona) se observa en forma conjunta con la categora 4 de Grupo de viajes (pareja) en nueve oportunidades. Por lo tanto, la frecuencia conjunta para el par de categoras es 9, en otras palabras, 9 encuestados respondieron que el motivo principal era recorrer y a su vez indicaron estar viajando con sus parejas.
Figura 6: Frecuencias conjuntas para el motivo 3 y el grupo 4

La tabulacin cruzada calcula entonces todas las frecuencias conjuntas que se observan al cruzar las categoras de dos variables, permitiendo analizar cuales son las categoras que se atraen (es decir que tiene frecuencias conjuntas altas) o categoras que se repelen (es decir que tienen frecuencias conjuntas cercanas a 0). Para realizar un anlisis de Tabulacin cruzada en DYANE, es necesario utilizar el comando Anlisis/Tabulacin cruzada. Una vez ejecutado, un cuadro de dilogo solicita que se indique qu variable ir en las columnas de la tabla y cul ir en las filas. Las variables filas pueden ser de respuesta nica o mltiple, mientras que las variables columnas

15

Anlisis estadstico de datos

slo pueden ser de respuesta nica. Adems se puede pedir la prueba ji-cuadrado y grficos
Figura 7: Comando Dyane para Tabulacin cruzada

Para recordar: Las variables filas pueden ser de respuesta nica o mltiple, mientras que las variables columnas slo pueden ser de respuesta nica

El resultado es una tabla de doble entrada, en la que las columnas son las distintas categoras de motivos y las filas son las distintas categoras de tipo de grupo. Las dos primeras columnas representan la distribucin simple de frecuencia de la variable fila, en el ejemplo: tipo de grupo, para el total de la muestra. Para cada categora de la variable columna se observan dos subcolumnas: una de frecuencias conjuntas y otra de frecuencias relativas. Las frecuencias relativas siempre estn calculadas sobre el total de cada columna o categora de la variable columna.
Figura 8: Resultados de Tabulacin Cruzada en DYANE

Cmo se interpretan los resultados? Por lo general se suele hacer un anlisis por columnas y filas. Por esta razn si existe alguna suposicin de relacin causa-efecto entre las variables, se coloca a la variable causa en la columna.
16

Anlisis estadstico de datos

Si observamos la tabla veremos que quienes vienen a pescar lo hacen sobre todo con sus familias y con sus amigos. En otras palabras, el 35,7% de los que vienen a pescar vienen con sus familias y el mismo porcentaje se observa que viene con amigos. Otra relacin interesante es que quienes hacer recorrido por la zona son principalmente las parejas (un 44% de los que recorren la zona son parejas). Otro elemento a subrayar es que el 100% de los encuestados que vienen a realizar actividades religiosas lo hacen en contingentes. Una forma grfica de visualizar los resultados de una tabla de contingencia o tabla cruzada son los grficos de barras agrupadas y apiladas. En el primer caso se elige armar grupos de columnas de acuerdo a la variable que se utiliz como columna en la tabla cruzada y las columnas son las categoras de la variable fila.
Grfico 2: Ejemplo grfico de barras agrupadas

La segunda opcin que ofrece DYANE es apilar las categoras de la variable fila.
Grfico 3: Ejemplo grfico de barras apiladas

17

Anlisis estadstico de datos

Variable numrica vs. Variable cate grica La tabulacin cruzada es muy til y de fcil lectura, cuando los valores que puede adquirir una variable son acotados y no tienen un significado numrico. Pero si nos interesa analizar, por ejemplo si hay algn tipo de relacin entre la Estada de las personas en el destino (medido en cantidad de noches) y el Motivo por el que visitan lo visitan la aplicacin de una tabla de cruzada sera muy engorrosa y poco til. Imaginemos que si bien las opciones de motivos son acotadas en 7 categoras, las respuestas para la pregunta Estada pueden variar de 1 a 365 noches (por poner un lmite superior extremo). Es imposible leer una tabla con 365 filas o columnas. Por esta razn, para cruzar variables numricas con variables categricas se utiliza el anlisis Tabulacin de valores medios. Esta tabla tambin es de doble entrada, con mltiples columnas y slo dos filas (una para indicar el promedio y otra para indicar la cantidad de respuestas sobre las que se estim el promedio). A diferencia de la tabulacin cruzada, en la que los valores de las celdas son frecuencias conjuntas, en la Tabulacin de valores medios, las celdas contienen el promedio de la variable numrica para cada categora de la variable categrica. Lo que se hace es estimar hacia adentro de cada subgrupo definido por la variable categrica, el promedio de la variable numrica. Si volvemos al ejemplo planteado ms arriba, la Tabulacin de valores medios permite observar si la estada de los turistas vara en funcin del motivo de su viaje a Junn de los Andes. Permite contestar a cuestiones como si los pescadores se quedan en el destino en promedio ms o menos das comparado con aquellos que vienen todos los aos (reincidentes) o comparado con quienes estn recorriendo la zona.
Figura 9: Obtencin de valores medios segn categoras (ejemplo para los primeros dos motivos)

Quienes viajan por motivo 1 (Act. religiosas) se quedan en promedio 4,5 noches (4+5)/2

Quienes viajan por motivo 2 (pesca) se quedan en promedio 6,45 noches (3+5+15+2+2+1+10+3+3+8+19)/11 (se omiten los casos que no tienen respuestas para las dos variables)

18

Anlisis estadstico de datos

Para realizar este anlisis en DYANE se utiliza el comando Anlisis/Tabulacin de valores medios. Posteriormente, en el cuadro de dilogo se debe indicar la/s variable las variables a las que se desea calcular el valor promedio (numricas) en la lista de la izquierda y la/s variables que definirn las columnas (categricas). Tambin se puede solicitar el clculo de la Prueba F de Snedecor y Grficos.
Figura 10: Comando Dyane para Tabulacin de valores medios

Los resultados del anlisis se arrojan a la ventana de Resultados. En la primera columna se observan las estadsticas bsicas para la variable estada para toda la muestra. En este ejemplo el promedio de estada de los 99 encuestados es de 4,5455 (se redondea 5 noches).
Figura 11: Resultados de Tabulacin de valores medios en DYANE

En las siguientes columnas aparecen los valores medios de la variable estada para cada subgrupo y el tamao del subgrupo. Como puede observarse, la estada promedio ms alta la realizan quienes reinciden en el destino ao a ao (aprox. se quedan 9 noches); quienes van a pescar, se quedan alrededor de una semana (aprox. 6 noches), mientras que las estadas ms cortas se observan en quienes estn recorriendo la zona (aprox. 4 noches) y quienes estn por otros motivos. La tabla incluye tambin una segunda fila que informa sobre el tamao de los grupos (N) segn categoras de la variable motivo.
19

Anlisis estadstico de datos

La versin 4 de DYANE ofrece tambin un grfico de barras que muestra a travs de la altura de las mismas el valor promedio obtenido para el total de la muestra y para cada categora de motivo.
Grfico 4: Grfico de barras para la Tabulacin de valores medios

Preguntas para revisar la lectura:


Luego de la lectura del cuaderno de ctedra les proponemos las siguientes preguntas para evaluar si han comprendido los principales temas abordados.

Cul es la utilidad de las tcnicas estadsticas en el contexto de la Gestin de la Informacin? Qu elementos debo analizar para elegir la tcnica estadstica que debo utilizar? Por qu se utilizan como complementarias las medidas de tendencia central y de dispersin en el anlisis univariado? Podras mencionar un ejemplo? Cmo se observa la heterogeneidad/homogeneidad de respuestas si se analiza una variable categrica? Cundo se usa la mediana como medida de tendencia central y por qu? Cundo es conveniente utilizar una tabulacin cruzada de datos? Podras mencionar un ejemplo? Si deseo comparar el gasto diario (en U$S) de los huspedes del hotel segn su procedencia (nacional o internacional), qu tcnica debera utilizar?

20

Anlisis estadstico de datos

Trabajos citados:
Berenson, M. L., Levine, D. M., & Krehbiel, T. C. (2006). Estadstica para administracin. Mxico : Pearson Educacin. Cobo Valeri, E. (1993). Estadstica para no estadsticos. Barcelona: Eada Gestin. Cuenca, A., & Miquel, M. (2000). Investigacin de mercados. Madrid: Mc Graw Hill. Fernndez Aguado, C. (1999). Manual de Estadstica Descriptiva aplicada al sector turstico. Madrid: Sntesis. Luque, T. (1997). Investigacin de mrketing. Barcelona: Ariel Economa. Santesmases Mestre, M. (2001). DYANE v.2 Diseo y anlisis de encuestas en investigacin social y de mercados. Madrid: Ed. Pirmide. Wikipedia. (s.f.). www.wikipedia.org. Recuperado el 15 de Abril de 2010, de Estadstica: http://es.wikipedia.org/wiki/Estad%C3%ADstica#Etimolog.C3.ADa

21