Anda di halaman 1dari 9

CUBOS OLAP El procedimiento Cubos OLAP (siglas en ingles de On-Line Analytic Processing, Procesamiento Analtico Interactivo) es uno de los

mtodos ms empleados en la exploracin de datos. A travs de los Cubos OLAP se puede observar el comportamiento de los datos de varias variables de escala de a cuerdo a una combinacin especfica de categoras de mltiples variables categricas. La utilidad de este procedimiento radica en la capacidad de actualizar la tabla de resultados a medida que se va modificando la combinacin de categoras, sin necesidad de redefinirlas en el cuadro de dilogo del procedimiento. Para el anlisis de las variables de escala el programa cuenta con una serie de medidas estadsticas como la media, la mediana o la desviacin estndar, a su vez para las variables categricas el procedimiento genera listas desplegables en las que se incluye cada una de las categoras de la variable, as como la opcin total. Para comprender la metodologa empleada en la definicin y creacin de los cubos OLAP, antes de iniciar el procedimiento, es necesario contar con el archivo de datos abierto en el editor de SPSS, por lo que debemos abrirlo a travs de la ruta Archivo.. Abrir.. Datos. Una vez cargado el archivo, estamos listos para la generacin del ejemplo. Para acceder al procedimiento, debemos ir al men Analizar... Informes... Cubos OLAP; al seleccionarlo aparece el cuadro de dilogo correspondiente [Fig.1]. Este cuadro se encuentra dividido en tres secciones definidas como la Lista de variables, las Casillas de seleccin y los Botones de opcin.

[Fig.1]. Dentro de la seccin casillas de seleccin se definen las variables que harn parte del procedimiento. En la casilla de resumen (Variables de resumen), se deben ingresar las variables de escala que sern empleadas en el cubo; el contenido de estas variables se resume a travs de los diferentes estadsticos que se seleccionen; si por algn motivo se ingresa una variable categrica en esta casilla, el programa asume que es de escala y le realiza los clculos de los estadsticos de resumen.

En la casilla Agrupacin, se deben ingresar las variables categricas que definirn los subgrupos de datos que sern descritos a travs de los resultados de los estadsticos de resumen de las variables de escala; si por algn motivo se ingresa una variable de escala en esta casilla, el programa asume que cada valor de la variable corresponde a una categora. Para comprender mejor el funcionamiento vamos a generar un Cubo OLAP con las variables Edad del entrevistado (Escala) y Gnero (Categrica). Para realizarlo, debemos ingresar la variable Edad del entrevistado en la casilla Resumen y la variable Gnero la ingresamos en la casilla Agrupacin; para finalizar hacemos clic en Aceptar con lo que el cubo ser creado en el visor de resultados de SPSS [Fig.2].

[Fig.2]. Para poder observar los resultados de las diferentes categoras de la variable gnero, es necesario activar el Cubo haciendo doble clic en l, de manera que aparezca al lado de la variable Gnero la lista desplegable de las categoras [Fig.3]. Al hacer clic sobre el icono de la lista ( ), aparecen todas las categoras de la variable que para el caso corresponden a Femenino, Masculino y Total, para seleccionar alguna de ellas basta con hacer clic sobre la categora deseada, con lo cual los resultados de la tabla cambiarn y harn referencia exclusivamente a los casos de la categora seleccionada.

[Fig.3]. Si seleccionamos la categora Femenino obtendremos los valores de la figura [4]. Si nos fijamos en los resultados notaremos que todos los valores han cambiado y ahora hacen referencia nicamente a los casos de la categora Femenino. A partir de

estas respuestas podemos deducir que en el archivo de datos hay un total de 154 mujeres, con un promedio de edad de 31.82 32 aos, con una desviacin tpica de 7.066 y que a su vez conforman el 51.3% de las respuestas validas.

figura [4]. De igual manera ocurre si seleccionamos la categora Masculino, en cuyo caso los valores de cada casilla cambiaran expresando el comportamiento de la edad para los hombres. Para realizar los clculos de los estadsticos de resumen de las variables de escala, el programa toma exclusivamente los casos que correspondan a la categora que se haya seleccionado. Para desactivar el Cubo basta con hacer clic fuera del rea de la tabla. Desde luego esta es la aplicacin ms sencilla que se puede realizar con un Cubo OLAP, ya que slo vincula una variable de escala (Resumen) y una variable categrica (Agrupacin). En las siguientes lecciones haremos ejemplos de Cubos OLAP ms complejos. En algunas ocasiones los estadsticos de resumen que el procedimiento emplea por defecto no son realmente tiles, ya sea por el objetivo del anlisis o por la naturaleza de los datos. Por ejemplo, si nos fijamos en el estadstico Suma generado en el ejercicio anterior, notaremos que nos da como resultado 4900, lo que nos indicara el total de aos que acumulan las mujeres de la encuesta; por mltiples motivos este valor no es de utilidad dada la naturaleza de los datos, sin embargo si se tratase de los ingresos o las ventas de las mujeres si tendra una aplicacin ms apropiada. Para modificar estos parmetros debemos volver al cuadro de dilogo, ya sea mediante la ruta Analizar.. Informes.. Cubos OLAP por medio del botn Recuperar cuadro de dilogo ( ). La segunda seccin del cuadro de dilogo corresponde a los Botones de opcin, a travs de ellos se puede definir diferentes parmetros del procedimiento como los estadsticos de resumen, las diferencias entre grupos o variables y los ttulos de los resultados. Es necesario resaltar que el botn Estadsticos slo se activa cuando se han ingresado variables a las casillas de seleccin (Resumen y Agrupacin). Al seleccionar el botn Estadsticos, aparece el cuadro de dilogo correspondiente [Fig.5].

[Fig.5]. A travs de este cuadro podemos definir los estadsticos de resumen que sern incluidos en el Cubo; dentro del cuadro encontramos dos casillas, la primera corresponde a la Lista de estadsticos y la segunda a la casilla de seleccin (Estadsticos de casilla). El procedimiento Cubos OLAP, nos ofrece una gran variedad de estadsticos de resumen entre los que encontramos la Suma, Nmero de casos, Media, Mediana, Mediana agrupada, Error tpico de la media, Mnimo, Mximo, Rango, Valor de la variable para la primera categora de la variable de agrupacin, Valor de la variable para la ltima categora de la variable de agrupacin, Desviacin tpica, Varianza, Curtosis, Error tpico de Curtosis, Asimetra, Error tpico de asimetra, Porcentaje de casos totales, Porcentaje de la suma total, Porcentaje de casos totales dentro de las variables de agrupacin, Porcentaje de la suma total dentro de las variables de agrupacin, Media geomtrica y Media armnica. Todos los estadsticos de resumen que se seleccionen mantendrn en los resultados el mismo orden al que aparece en la casilla de seleccin. Par ingresar una estadstico se debe resaltar en la lista haciendo clic sobre l y posteriormente hacer clic en el botn flecha ( ) simplemente haciendo doble clic sobre el estadstico de inters. Por el momento no seleccionaremos ninguno por lo cual hacemos clic en el botn Continuar. El segundo botn de opcin que encontramos corresponde a Diferencias, al seleccionarlo aparece el cuadro de dilogo correspondiente [Fig.6-47]; este cuadro se encuentra dividido en cuatro secciones correspondientes a Diferencias para estadsticos de resumen, Tipo de diferencia, Diferencias entre variables y Diferencias entre grupos de casos. Mediante estas secciones podemos especificarle al programa que realice comparaciones de porcentaje o aritmticas entre las variables de resumen o entre las categoras de una variable. FUNDIR

Es posible que en algunas ocasiones se cuente con informacin complementaria distribuida en varios archivos de datos, lo que impide realizar un anlisis con la totalidad de la informacin, debido a que SPSS nicamente nos permite tener un solo archivo de datos abierto a la vez. Para poder generar anlisis con el total de la informacin, es necesario aglomerar los datos (Variables y casos) de las diferentes fuentes dentro de un nico archivo. Para esta labor SPSS cuenta con un procedimiento que nos permite congregar informacin proveniente de diferentes archivos, con la condicin que el proceso se realice en pares de ficheros; es decir, slo podemos reunir informacin de dos archivos por cada proceso de fusin que se ejecute. Para la unin de informacin, el procedimiento nos ofrece dos posibilidades, la primera consiste en agregar los casos o respuestas de una fuente externa dentro del archivo principal y la segunda consiste en importar las variables y sus respectivas respuestas desde una fuente externa. Cada una de estos procedimientos cuenta con unos criterios que se deben cumplir para su correcto funcionamiento, los cuales conoceremos en los apartados siguientes. Agregar o aadir Casos Este procedimiento se utiliza cuando se cuenta con dos o ms archivos con el mismo tipo de variables o preguntas y cuya nica diferencia radica en las respuestas o casos. Un ejemplo de este tipo de archivos pueden ser las ventas regionales de un producto, las encuestas realizadas a personas de diferentes departamentos de un pas, etc. Para poder realizar la fusin de archivos con variables iguales y casos diferentes, es necesario abrir primero uno de los archivos en el Editor de datos de SPSS, ya sea por medio del men Archivo..Abrir...Datos mediante el icono Abrir ( ). En nuestro caso utilizaremos el archivo X.sav como archivo de destino, por lo que es necesario abrirlo en el editor de datos. Una vez abierto el archivo, elegimos en el men Datos la opcin Fundir archivos y dentro de ella seleccionamos el procedimiento Aadir casos [Fig.7]. Al hacer clic en l, aparece una ventana de navegacin en donde ubicamos el archivo externo, del cual vamos a extraer la informacin, que para el caso corresponde a Y.sav , Ejemplo utilizar el caso Datos Clientes con Informacin Clientes. Despus de localizar el archivo, lo seleccionamos y hacemos clic en Abrir, con lo que aparece el cuadro de dilogo correspondiente Aadir casos desde [Fig.8]; note como en la parte superior del cuadro se hace referencia a la ubicacin y nombre del archivo externo, de donde sern extrados los casos.

Fig.8 Este cuadro se encuentra dividido en tres secciones; la primera corresponde a la lista de variables desemparejadas, en donde aparecen las variables que por algn motivo no se encuentran en los dos archivos. Generalmente son dos los factores que causan su aparicin, ya sea por que tienen nombres diferentes en cada uno de los archivos (EJ: NMHAB y HABITANT estas dos variables hacen referencia al nmero de habitantes de un hogar y su diferencia radica en el nombre que se le asigno en cada archivo); la segunda razn es por la existencia de variables nicas en cada archivo, es decir variables que fueron creadas en uno de los archivos pero omitidas en el otro. Adicionalmente, se suelen incluir en este listado las variables que no tengan el mismo tipo de caracteres definido as su nombre coincida en ambos archivos (Ej: una variable de cadena con una numrica), as como tambin las variables de cadena que contengan diferente longitud de caracteres. La segunda seccin del cuadro corresponde a Variables en el nuevo archivo de datos de trabajo; en esta casilla encontraremos las variables que han coincidido en los dos archivos, la nica condicin que han cumplido estas variables es tener el mismo nombre y el mismo tipo de datos (Numrico o Cadena) en los dos archivos. Si nos fijamos en el listado observaremos que cada una de las variables cuenta con un nombre nico y no se encuentran duplicados; esto se debe a que el programa rene los casos de los dos archivos en una sola variable y le asigna el nombre que aparece en los dos archivos. La tercera seccin del cuadro corresponde a especificacin de archivos, en donde encontramos dos leyendas que nos informan la procedencia de las variables. Para la identificacin, el programa utiliza dos marcadores, el primero corresponde al Asterisco (*), quien identifica a las variables procedentes del archivo de datos de trabajo (archivo que se encuentra abierto en el editor de datos), al cual le estamos

importando la informacin. El segundo marcador es el signo Suma (+), quien identifica las variables del archivo externo o archivo al que se le extraer la informacin. Adems de las secciones, encontramos en el cuadro cuatro opciones adicionales correspondientes a Cambiar Nombre; esta opcin nos permite modificar el nombre de una variable, generalmente se manipula el nombre de una variable para generar una pareja, es decir se le asigna el nombre de una de las variables del otro archivo, con el fin de facilitar el reconocimiento de la variable en el archivo resultante. Por ltimo encontramos el icono Flecha ( ), con el cual podemos agregar al archivo de resultado las variables desemparejadas que deseemos, esta opcin la utilizamos en las variables que no se encuentran en los dos archivos, es decir variables no relacionadas. El segundo procedimiento con que cuenta SPSS para la fusin de informacin corresponde a Aadir variables. A travs de esta aplicacin podemos reunir las variables de dos o ms archivos en un solo fichero, con la condicin que la informacin de las variables sea complementaria y pertenezca a los mismos individuos o casos. Generalmente estos archivos se presentan al realizar nuevas pruebas o exmenes al mismo grupo de individuos con un intervalo de tiempo entre pruebas. Su utilidad radica en la capacidad de medir los resultados de un proceso o mtodo y se pueden hallar en la medicina, la industria, la publicidad, etc. Para poder realizar la fusin de informacin cuando se tienen archivos con los mismos Casos pero variables diferentes, es indispensable que los archivos tengan en comn por lo menos una variable; es decir, debe existir una variable con el mismo nombre y con los mismos valores en cada uno de los archivos, a la cual el programa denomina Variable de Control. Adems de la variable de control, SPSS tiene dos requerimientos que se deben cumplir antes de realizar la fusin de los archivos: Los casos deben estar ordenados en forma ascendente de acuerdo con los valores de la variable de control en los dos archivos Las variables de los dos archivos deben estar en el mismo orden de acuerdo a las variables de control. Esta opcin se utiliza cuando tenemos ms de una variable de control y lo que nos indica es que las variables de control deben estar ubicadas en el mismo orden dentro de los dos archivos. Si nos fijamos en la variable ID (Nmero de identificacin por lo general ) notaremos que los casos se encuentran en desorden, lo que infringe el primer requisito del programa. Para ordenar los casos, debemos seleccionar la variable haciendo clic sobre ella. Al activarse la variable ubicamos el puntero del ratn en la parte superior de la columna y hacemos clic derecho, con lo cual aparece el men desplegable En la parte inferior del men encontramos dos opciones de ordenamiento (Ascendente y Descendente); para continuar seleccionamos la opcin correspondiente

a Ordenar de forma ascendente, con lo que desaparece el men y los datos se ordenan. Una vez se ejecuta la opcin Ordenar, es necesario guardar los cambios o de lo contrario perderamos el orden establecido; en este caso guardaremos los cambios del archivo . Una vez abierto, nos dirigimos al men Datos, ubicamos la opcin Fundir archivos y seleccionamos el procedimiento Aadir variables. [Fig.9]. Al surgir la ventana de navegacin, ubicamos el archivo secundario o externo (en este caso Hogar.sav) y hacemos clic en abrir con lo que aparece el cuadro de dilogo correspondiente Aadir variables de [Fig.10], el cual nos indica el nombre del archivo del que se estn importando las variables.

. [ Fig. 9 - 10 ] Este cuadro de dilogo se encuentra dividido en cuatro secciones; la primera de ellas corresponde a Variables excluidas, en donde encontraremos un listado de las variables que han sido separadas del archivo de datos fusionado. Por defecto, la lista contiene los nombres de las variables del archivo externo que duplican los del archivo de trabajo. Si se desea incluir en el archivo fusionado una variable excluida con un nombre duplicado, es necesario cambiar el nombre de la variable y aadirla a la lista de variables del nuevo archivo de trabajo, haciendo clic en el botn Flecha ( ) que aparece al costado derecho de la casilla. La segunda seccin la componen el Nuevo archivo de datos de trabajo, en donde se muestra un listado de las variables que se van a incluir en el nuevo archivo de datos fusionado. Por defecto, el programa incluye en la lista todos los nombres de variable nicos que existan en ambos archivos (Trabajo y Externo), as como una de las variables que tengan el mismo nombre en los dos archivos. Adicionalmente incluye las variables de control, las cuales utiliza para emparejar los casos de los dos archivos. En el suceso que uno de los archivos cuente con ms casos que el otro, el nuevo archivo de datos los incluye, pero slo contendr informacin para los casos del archivo que los proporcione, mientras que para los casos del otro archivo ingresa valores perdidos por el sistema; es decir, casillas vacas.

La tercera seccin la componen las Opciones de fusin, en donde encontramos el botn Cambiar nombre, el cual utilizamos para modificar el nombre de las variables que seran excluidas. En esta seccin tambin aparece la opcin Emparejar los casos en las variables clave para los archivos ordenados, en donde hallamos tres posibilidades; Ambos archivos facilitan casos, archivo externo es una tabla de claves y el archivo de trabajo es una tabla de claves. La opcin ambos archivos facilitan casos nos permite indicarle al programa que los dos archivos cuentan con casos nicos y por lo tanto no aparecen en el otro; al seleccionar esta opcin es indispensable definirle al programa una variable clave que le permita al archivo determinar el orden de emparejamiento de los casos o de lo contrario no es posible realizar el procedimiento. Es necesario resaltar que una tabla de claves o tabla de referencia, es un archivo en el que los datos de cada "caso" se pueden aplicar a varios casos del otro archivo de datos. Por ejemplo, si un archivo contiene informacin sobre los diferentes miembros de la familia (como el sexo, la edad, la formacin) y el otro contiene informacin global (como los ingresos totales, el nmero de miembros o la ubicacin), se puede utilizar el archivo global como una tabla de referencia y aplicar los datos comunes de la familia a cada uno de sus miembros en el archivo fusionado. Una de las caractersticas principales de los archivos de claves es el reducido nmero de casos que contienen, ya que su utilidad radica en poder disminuir la cantidad de registros dentro del archivo. La tercera parte de esta seccin corresponde a Indicar el origen del caso como variable, esta opcin genera una nueva variable en el archivo de resultado en donde ubicar un valor 0 a los casos del archivo de trabajo y un valor 1 a los casos del archivo externo o secundario; adems cuenta con una casilla para la asignacin del nombre de la variable de identificacin. Por ltimo encontramos la seccin de especificacin de archivos, en donde aparecen dos leyendas que nos informan la procedencia de las variables; es decir, nos indica el archivo en el que se localiza la variable. Para esta funcin el programa emplea dos marcadores; el primero corresponde al Asterisco (*), quien identifica a las variables procedentes del archivo de datos de trabajo o archivo al cual le estamos importando la informacin; el segundo marcador es el signo Suma (+), quien identifica las variables del archivo secundario o externo, a quien se le extraer la informacin. En conclusin la opcin Aadir variables nos permite unir la informacin de dos archivos cuyas variables estn relacionadas, siempre que sus casos correspondan a los mismos sujetos u observaciones. Adems este procedimiento nos permite aplicar en el archivo de resultado las propiedades definidas para cada una de las variables en su archivo de origen.