INDICE
1.2.3.4.5.6.7.8.INTRODUCCION . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 ENTRADA DE DATOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 VENTANA DE VARIABLES.....................................................................10 ANLISIS ESTADSTICOS GENERALES....................................................12 DESCRIPTIVA BSICA..........................................................................14 DISTRIBUCIN DE FRECUENCIAS..........................................................19 CALCULO DE PERCENTILES..................................................................21 BOX PLOTS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 3
9.SELECCIN DE UN CRITERIO DE INCLUSIN PARA ANALIZAR SOLAMENTE UN SUBCONJUNTO DE LOS DATOS..................................................................24 10.MODIFICACIN DE LOS VALORES DE UNA VARIABLE CATEGRICA O DE UN CRITERIO....................................................................................................26 11.MODIFICACIN DE LOS GRFICOS, DIBUJOS Y COMENTARIOS A LOS RESULTADOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 8 12.CONTRASTES DE HIPTESIS E INTERVALOS DE CONFIANZA PARA UNA SOLA MUESTRA PROCEDENTE DE UNA POBLACIN NORMAL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 1 13.CONTRASTES DE HIPTESIS E INTERVALOS DE CONFIANZA PARA LA COMPARACIN DE LA TENDENCIA CENTRAL DE DOS POBLACIONES NORMALES..33 .1..2.DATOS INDEPENDIENTES............................................................................................33 DATOS APAREADOS .....................................................................................................36
14.CONTRASTES NO PARAMTRICOS PARA LA COMPARACIN DE LA TENDENCIA CENTRAL DE DOS POBLACIONES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 7 15.16.17.CONSTRUYENDO NUEVAS COLUMNAS MEDIANTE LA OPCIN RECODE.......40 EL ANLISIS DE LA VARIANZA DE UNA VA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 2 EL ANLISIS DE REGRESIN SIMPLE.....................................................46
.1.DIBUJO DE DIAGRAMAS DE DISPERSIN CON REGRESIONES LINEALES SUPERPUESTAS .........................................................................................................................46 .2.ANLISIS DE REGRESIN ............................................................................................48 18.EL ANLISIS DE TABLAS DE CONTINGENCIA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 4
1.-
INTRODUCCION
Uno de los cambios principales en los planes de estudio de nuestras Universidades es la disminucin del nmero de crditos tericos y el aumento del nmero de crditos prcticos en laboratorios o aulas de ordenadores. Desde el punto de vista de las asignaturas de Estadstica esto implica que se dispone de un menor nmero de clases de pizarra lo cual dificulta la realizacin de problemas de clculo por parte del alumno. La enseanza se centrar ahora en la explicacin de los conceptos claves en las clases de teora para llevarlos a la prctica mediante el uso del ordenador, de esta forma, las prcticas pasan a tener una importancia clave y dejan de ser una herramienta complementaria. Es necesario explicar no slo el manejo del programa de ordenador sino tambin la interpretacin prctica de los conceptos aprendidos en la teora para resolver problemas que los futuros profesionales tendrn que resolver en su trabajo diario. Por otra parte, la informatica avanza rpidamente, por lo que es probable que nuestros alumnos se encuentren con unas mquinas y unos programas completamente diferentes cuando tengan que enfrentarse a problemas reales. Esto implica que las prcticas con ordenador de las asignaturas de Estadstica traten de transmitir el modo en que trabaja un profesional y no el manejo de un programa concreto, este es solamente un medio en el que el fin es ensear la filosofa de trabajo. Los apuntes que se han desarrollado a continuacin se han apoyado en el programa Statview 4.01, aunque con pequeas modificaciones podran adaptarse a cualquiera de los programas del mercado (SPSS, Sysat, JMP, etc ...). La entrada de datos es similar e todos ellos, las tcnicas de anlisis tambin y los resultados, salvo la presntacin ms o menos cuidada, son prcticamente idnticos. Trataremos de desarrollar un manual de prcticas basado en ejemplos concretos y su realizacin sobre Statview, la explicacin de los conceptos estdaticos ser mnima y puede consultarse en cualquiera de los libros recomendados en las distintas explicaciones. En la parte final se presentarn ejemplos similares a los desarrollados para que el alumno desarrolle o para que el profesor utilice en sus clases de repaso. Se complementa el manual con cuadernos de ejercicios que pueden servir para que el
profesor tenga en control de asistencia y desarrollo de las prcticas de cada uno de los alumnos. El manual ha sido llevado a cabo con la experiencia, a lo largo de varios aos de prcticas, de los profesores del rea de Estadstica e Investigacin Operativa del Departamento de Estadstica y Matemtica Aplicadas de la Universidad de Salamanca. El programa Statview es un paquete estadstico medio con un amplio rango de tcnicas estadsticas bsicas, ideal para el trabajo diario de profesionales con un nmero no muy elevado de datos. Mediante el programa es posible construir anlisis visuales de los datos de forma rpida y versatil, con una presentacin muy cuidada que hace mnimo el tiempo de edicin de informes. Se supone que el alumno conoce el manejo bsico del ordenador, manejo del sistema operativo y el manejo de las principales cracteraticas comunes a todos los programas.
2.-
ENTRADA DE DATOS
El propsito general de la estadstica es la recoleccin y el anlisis de datos experimentales que ayuden al profesional de distintos campos en la toma de decisiones. Por ejemplo, un empresario que desea tomar informacin sobre las personas que compran alguno de sus productos con el fin de mejorar la imagen de su marca, o un cientfico que desea contrastar su hiptesis mediante datos experimentales, necesitan de la Estadstica como herramienta para conseguir sus fines. Disponemos de una poblacin que deseamos estudiar, a cada elemento de la poblacin lo denominaremos individuo. El primer paso de cualquier tipo de investigacin es el de definir claramente la poblacin a estudiar, bien mediante un listado de sus miembros (individuos) o bien a travs de caractersticas de los mismos que los identifiquen completamente. En general no es posible estudiar todos los individuos de la poblacin, por falta de medios o porque los procedimientos de anlisis son destructivos, de forma que analizamos solamente un subconjunto al que denominamos muestra. La muestra ha de ser representativa de la poblacin, en el sentido de que ha de tener una composicin similar en cuanto a las caracteraticas a estudiar. La forma de garantizar la representatividad de la muestra consiste en seleccionarla por algn procedmiento al azar. Este punto se estudiar en temas posteriores. Al nmero de individuos que componen la muestra lo denominamos Sobre cada uno de los individuos se miden una o varias caractersticas que denominamos variables, ya que toman distintos valores para distintos individuos. Las variables pueden ser de distintos tipo: Cualitativas: Variables que miden cualidades de los individuos que no pueden representarse de forma numrica. Se denominan tambin variables categricas. Si la variable toma solamente dos valores (categoras) se dice que es dicotmica. Si los valores de la variable no estn ordenados se dice que la variable es nominal (por ejemplo el color del pelo) mientras que si los valores de la variable estn ordenados se dice que la variable es ordinal (por ejemplo las notas: suspenso, aprobado, notable, sobresaliente).
Cuantitativas: Variables cuyos resultados son cuantificables. Las dividiremos en Discretas cuando toman un nmero finito o numerable de valores (por ejemplo, el nmero de hijos) y Continuas cuando toman valores en un intervalo de nmeros reales. Para un experimento concreto disponemos de un valor de cada una de las variables en cada uno de los individuos. Supondremos que la informacin se ordena en forma de tabla en la que cada fila corresponde a un individuo y cada columna a una variable. Para ilustrarlo supongamos que tratamos de realizar un estudio con una muestra de tamao 10 en la que medimos tres variables: Estatura, peso y sexo. La tabla de datos de la que disponemos es la siguiente:
Individuo 1 2 3 4 5 6 7 8 9 10
Estatura 1,75 1,69 1,66 1,55 1,67 1,80 1,75 1,52 1,90 1,67
Peso 82 73 62 58 74 85 70 55 90 69
Sexo hombre hombre mujer mujer hombre hombre mujer mujer hombre hombre
Esta es precisamente la forma en que hemos de introducir los datos en cualquier programa para Estadstica, en una tabla en la que cada uno de los individuos ocupa una fila y cada una de las variables ocupa una columna. Para introducir un nuevo conjunto de datos en el programa Statview seleccionamos el Item New (nuevo) del men File (Archivos). Aparecer entonces una nueva ventana como la de la figura siguiente.
Nombre
Definicin y Estadstica
Datos
La ventana nos permitir construir la tabla de datos completa. En primer lugar hemos de definir las variables mediante el nombre y el tipo. Si situamos el ratn sobre la palabla Input Column en el area destinada al nombre de la variable podremos asignar el nombre deseado desde el teclado, por ejemplo, Estatura. Bajo el rea destinada al nombre
Informacin sobre la variable Type: Tipo de variable. Integer (Entero) , Long Integer (Entero largo) Real (Con decimales) Category (Categrica)
Anlisis Estadstico con Statview String (Cadena de caracteres informativa) Currency (moneda) Data/time (Fecha y hora) Definicin de nuevas categoras. Aparece la ventana:
Nueva
para seleccionar una ya existente o crear una nueva. Si seleccionamos new, aparece la ventana de definicin.
(Nombre de la variable)
Cancelar la definicin Velores de la variable que se aaden sucesivamente a la lista Reemplazar el valor sealado por el introducido Borrar el valor sealado
El procedimiento consiste en dar un nombre a la variable categrica e ir aadiendo los posibles valores de la variable en la lista.
Source: Fuente de procedencia de la variable User Entered (Valores introducidos por el usuario) Static formula (Frmula esttica calculada de una sola vez) Dynamic Formula (Formula ligada a otras columnas que se modifica cada vez que se modifican las columnas a las que est ligada) Class: Clase de variable Continuous: Variable numrica para los anlisis. Nominal: Variable cualitativa nominal Informative: Informacin sobre el individuo El programa selecciona automticamente la primera opcin para variables enteras y reales, la segunda para categricas y la tercera para string. Si se desea que una variable entera sea considerada como nominal es necesario seleccionarlo. Format: Formato de las variable. (Depende del tipo seleccionado) Real: Free format fixed: Decimales fijos Free format : Decimales variables. Fixed places: Decimales fijos. Scientific: Formato cientfico. Engineering: Formato ingenieros. Currency: Diversos formatos dependiendo del pas. Date/time: 27 formatos diferentes para fecha y hora. Dec. Places: Nmero de decimales para los formatos reales. Estadstica descriptiva de la variable: Mean: Media. Std. Deviation: Desviacin tpica. Std. Error: Error estndar de la media. Variance: Varianza Coeff. of variation: Coeficiente de variacin. Minimum: Mnimo. Maximum: mximo. Range: Recorrido. Count: Recuento. Missing Cells: Celdas sin datos. (datos perdidos)
Anlisis Estadstico con Statview Sum: Suma de los valores de la variable Sum of Squares: Suma de los cuadrados de los valores. (Los estadsticos dependen del tipo seleccionado). Datos Introduccin de datos. Reales (con comas). Categoras con el nmero de orden o la primera letra. Monedas corrientes, con nmeros. Fecha y hora, depende del formato. 1.3.- Men: File (Archivos) Items: Save as (Guardar archivo de datos con un nuevo nombre) Save (Guardar archivo de datos con el nombre anterior) 1.4.- Men: File (Archivos) Items: Open (Abrir archivo anterior)
10
3.-
VENTANA DE VARIABLES
Ventana de ayuda que sirve para la seleccin de las variables que intervienen en los anlisis. Se muestra y se esconde en la esquina superior derecha de la ventana de datos o de las ventanas de anlisis. Sus contenidos dependen de la ventana activa y de los anlisis seleccionados.
11
(2)
(1)
Haz click aqui para seleccionar variables Haz click aqui para ver todo el contenido
Est dividida en tres partes: (1) Contenido del archivo actual (Parte inferior de la ventana) Nombres de las variables acompaados de un crculo con una c si la variable es continua y de un cuadrado con una n si la variable es nominal. Permite seleccionar una variable marcndola con el ratn. (2) Procedencia y orden de los datos. Data: (Fichero del que vamos a tomar los datos) Order: Orden de las variables en la parte inferior Dataset order: El mismo que en la ventana de datos. Alphabetical: Por orden alfabtico. By Class: Por el tipo de variable (Continua o nominal) By Usage: Por el tipo de variable en los anlisis posteriores. (3) Seleccin y manejo de las variables (Es la parte superior que cambia con la ventana y el anlisis) En la ventana de datos: Show: Localiza sobre la ventana de datos la variable seleccionada en la parte inferior que contiene el listado de los nombres. Compact y Expand: Funciones idnticas a las situadas en la parte superior izquierda de la ventana. Se explicarn posteriormente.
12
4.-
Modificar el anlisis
Construir el anlisis seleccionado sobre el espacio de resultados (2) Seleccin de Anlisis Estadsticos (1) Seleccin de variables a analizar (3)
Los anlisis estadsticos se realizan sobre la ventana en tres pasos (1) Seleccin del anlisis haciendo click con el ratn sobre la lista que aparece en la parte inferior izquierda de la ventana.
13
Haciendo click sobre las flechas que preceden a algunos de los anlisis, se mostrarn opciones adicionales. (2) Construir el anlisis sobre el espacio destinado al efecto (Reservar el espacio y construir las tablas) seleccionando el botn "Create Analysis". Los pasos (1) y (2) pueden realizarse simultneamente haciendo doble click sobre el anlisis deseado. (3) Seleccionar las variables que intervendrn en el anlisis. Seleccionar la ventana Variables. Seleccionar un nombre en la parte inferior. Pulsar el botn "Add" en la parte superior. (O doble click en las variables) Con la tecla de maysculas se pueden seleccionar varios anlisis o varias variables consecutivas (mantenindola pulsada y tocando con el ratn en la primera y la ltima eleccin) Con la tecla Option () pueden seleccionarse anlisis o variables no consecutivos mantenindola pulsada mientras se seleccionan. Nota: Se pueden intercambiar los pasos de seleccin de variables y de anlisis.
14
5.-
DESCRIPTIVA BSICA
Seleccionar con doble click la opcin "Descriptive Statistics" con lo que aparecer la ventana correspondiente para seleccionar las medidas que queremos calcular.
Ms elecciones
La opcin por defecto calcula unas cuantas medidas bsicas. Si queremos personalizar la salida seleccionando los estadsticos que queremos mostrar seleccionaremos el botn , con lo que aparecer una nueva ventana que contiene cuales son los estadsticos bsicos y cuales son los adicionales.
Cuando tenemos los estadsticos deseados pulsamos el botn espacio destinado a los resultados aparecer una tabla.
y sobre el
15
Estadstica bsica para variables continuas Media Desviacin tpica Error estndar de la media Nmero de observaciones Mnimo Mximo Observaciones perdidas Estadstica bsica para variables nominales Nmero de niveles Moda
Estadsticos adicionales Varianza Coeficiente de variacin Recorrido Suma Suma de cuadrados Media geomtrica Media armnica Asimetra Apuntamiento Mediana Recorrido intercuartlico Moda Media sin los extremos Desviacin absoluta de la mediana
16
Sobre la ventana variables seleccionamos las que deseamos. El programa distinguir entre las variables continuas y las nominales a la hora de calcular los estadsticos bsicos. Es posible seleccionar varias variables simultneamente que quedarn marcadas sobre la ventana con una X. Los resultados aparecern en una tabla de la forma siguiente
Descriptive Statistics EDAD Mean Std. Dev. Std. Error Count Minimum Maximum # Missing Variance Coef. Var. Median IQR 43,881 7,521 ,565 177 30,000 64,000 2 56,560 ,171 44,000 10,000 N HIJOS 2,034 1,530 ,115 177 0,000 10,000 2 2,340 ,752 2,000 2,000 HORAS OCIO 3,021 1,532 ,118 168 0,000 8,000 11 2,349 ,507 3,000 2,000 HORAS SUEO 6,853 ,822 ,062 174 4,000 10,000 5 ,676 ,120 7,000 ,500
El botn "Remove" de la ventana Variables permite eliminar variables de la tabla seleccionada y el botn "Split By" Sirve para partir los anlisis de acuerdo con las categoras de una variable nominal. La tabla siguiente muestra el resultado de un anlisis que ha sido dividido de acuerdo con las categoras de la variable CATEGORIA PROFESIONAL.
17
Descriptive Statistics Split By: CATEGORIA EDAD, Total Mean Std. Dev. Std. Error Count Minimum Maximum # Missing 43,881 7,521 ,565 177 30,000 64,000 2 EDAD, JEFE 48,938 5,980 ,863 48 38,000 64,000 0 EDAD, ADJUNTO 42,000 7,175 ,632 129 30,000 63,000 1
Results for totals may not agree with results for individual cells because of missing values for split variables.
El programa permite crear, simultneamente en el mismo "View", distintas tablas para distintas variables en distintas situaciones. Para modificar el anlisis que representan basta con seleccionar la tabla (haciendo click sobre ella). Se pueden modificar: -La anchura de las columnas de la tabla arrastrando a derecha e izquierda (con el ratn presionado) las lineas que separan a las columnas. -Las variables que intervienen (manipulando la ventana de Variables). -El anlisis, pulsando el botn "Edit Analysis" de la parte superior de la ventana para traer de nuevo la ventana del anlisis correspondiente. -El aspecto, pulsando el botn "Edit Display"
18
Formato de la tabla (Varias opciones) Separacin entre las filas de la tabla Cambiar filas por columnas
19
6.-
DISTRIBUCIN DE FRECUENCIAS
Tiene varios subanlisis tal y como aparece en la figura siguiente. Si se selecciona la opcin "Frecuency distribution" solo aparecer representado el histograma. Tabla resumen de la distribucin de frecuencias Histograma Histograma de puntuaciones tipificadas Diagrama de sectores
Tras seleccionar cualquiera de los anlisis aparecer la ventana siguiente: Nmero de intervalos de clase Dibuja, sobre el histograma de frecuencias una normal con los mismos parmetros que la distribucin de la variable seleccionada
Valor Inicial
Los resultados que se obtienen son los siguientes, para las distintas posibilidades:
20
Frequency Distribution for EDAD From () To (<) Count 30,000 35,000 40,000 45,000 50,000 55,000 60,000 35,000 40,000 45,000 50,000 55,000 60,000 65,000 Total 26 20 44 53 21 9 4 177
Tabla de frecuencias
Histograma de frecuencias
21
Histograma de puntuaciones z
30 - 35 35 - 40 40 - 45 45 - 50 50 - 55 55 - 60 60 - 65
Diagrama de sectores
7.-
CALCULO DE PERCENTILES
Anlisis Estadstico con Statview Doble click para seleccin de tabla y grfico de percentiles
22
Percentiles Plot 65 60 Percentiles EDAD 10 25 50 75 90 33,000 44,000 49,000 53,000 EDAD 39,000 55 50 45 40 35 30 25 0 20 40 60 Percentile 80 100
23
8.-
BOX PLOTS
EDAD
En este tipo de anlisis es particularmente interesante la opcin "Split By" ya que permite comparar las distribuciones de varios grupos mediante los respectivos boxplots. Para ello, seleccione primero la variable a representar y luego la variable que contiene los grupos a comparar junto con el botn "Split By". La divisin se puede repetir tantas veces como se quiera, el programa realizar el anlisis para los grupos resultantes de la combinacin de todas las categoras de las variables seleccionadas.
24
Box Plot Split By: CATEGORIA, Especialidad 65 60 55 50 Units 45 40 35 30 25 JEFE, Medica JEFE, Quirurgica JEFE, Lab-Imagen ADJUNTO, Medica ADJUNTO, Quirurgica ADJUNTO, Lab-Imagen
EDAD
9.-
Regresar a la ventana de datos a travs de la lista del men Window o haciendo click en cualquier punto de la misma. En la parte superior central de la ventana de datos se encuentra un men flotante etiquetado con la palabra "Criteria" y tres opciones - No Criteria (Seleccionado cuando queremos incluir todos los individuos) - New (Construccin de un nuevo criterio de inclusin) - Random (Inclusin al azar de un determinado porcentaje de los individuos) Supongamos que tenemos una variable que contiene el nmero de hijos y queremos seleccionar las familias que tienen ms de un hijo. Seleccionar "New" en el men flotante para que aparezca la pantalla de definicin del criterio.
Anlisis Estadstico con Statview Nombre del criterio que se aadir a las opciones del menu flotante
25
Espacio para la definicin del criterio. La definicin es de la forma NOMBRE DE VARIABLE (OPERADOR) VALOR En la parte inferior irn apareciendo ayudas a la definicin.
Esta parte ira cambiando a medida que se define el criterio. Cuando hay que escribir el nombre de la variable, aparecern todos los nombres, que pueden seleccionarse haciendo doble click. Aparecern tambien los operadores y los valores de lavariable, cuando sean necesarios Aplicar a los datos Guardar el criterio pra sesiones posteriores
La ventana permite definir un criterio de inclusin mediante expresiones lgicas de la forma (Nombre de variable) NUMERO DE HIJOS Operador DISTINTO DE 1 Valor
La ventana cuenta con ayudas que van mostrando sucesivamente los nombres de las variables, los operadores y los posibles valores de la variable. Pueden encadenarse varias expresiones lgicas mediante "AND", "OR", etc...
26
10.-
(Men Manage):
La modificacin de las categoras se realiza en la opcin Edit categories ... del menu Manage. Tras la seleccin aparece la siguiente ventana que permite elegir la categora que se quiere corregir. Nombres de las categoras existentes en el archivo Se eligen marcando con el ratn
Terminar la edicin
Borrar de la lista
Corregir
Si la eleccin es Edit aparecer una nueva ventana que permite corregir los valores.
27
Aadir el nuevo valor a la lista Seleccin de valores de la variable Reemplazar el valor seleccionado por el nuevo Borrar el valor seleccionado Terminar la correccin
La correccin de los criterios se realiza tambin en el men Manage en la opcin Edit/Apply criteria ...
Lista de opciones y criterios similar a la del menu en la ventana de datos. Los criterios se seleccionan marcando con el ratn.
28
Anlisis Estadstico con Statview Escalas lineales o logartmicas Limites de la escala Superior e inferior Escalas bloqueadas Formato de los nmeros de la escala
29
Cuadrcula
30
Posicin de la leyenda
Adems es posible incluir comentarios y dibujos sobre el propio view mediante el men draw.
Anlisis Estadstico con Statview Texto Cursor normal Dibujar un arco Dibujar un circulo Enviar el objeto delante Patrn de llenado de las figuras Tamao de las lneas Tipo de punto Dibujar una lnea recta Dibujar un cudrado
31
Seleccin de colores
Las figuras construidas con este men son objetos cuyas caractersticas se pueden modificar con el propio men. El men se aplica tambin a los grficos de resultados.
12.-
CONTRASTES DE HIPTESIS E INTERVALOS DE CONFIANZA PARA UNA SOLA MUESTRA PROCEDENTE DE UNA POBLACIN NORMAL
Seleccionamos la opcin "One sample Analysis" (Anlisis de una muestra) en la ventana de anlisis estadsticos. Esta opcin permite realizar contrastes e intervalos de confianza para la media y la varianza de una poblacin normal. La ventana de seleccin de los anlisis es la siguiente:
32
-Contraste de hiptesis para la media de una poblacin normal con varianza desconocida -Intervalo de confianza para la media de una poblacin normal con varianza desconocida Contraste de hiptesis para la varianza de una poblacin normal Intervalo de confianza para la varianza de una poblacin normal
Tipo de contraste:
Bilateral ( ) Unilateral superior ( Unilateral inferior ( ) )
La opcin admite separacin en distintos grupos para obtener intervalos de confianza y realizar comparaciones simples.
One Sample Analysis Split By: SEXO Hypothesized Mean = 0 Mean EDAD, Total EDAD, VARON EDAD, MUJER 43,599 44,929 38,771 DF 161 126 34 t-Value 71,808 65,766 40,214 P-Value <,0001 <,0001 <,0001 95% Lower 42,400 43,577 36,812 95% Upper 44,798 46,281 40,731
One Sample Analysis Split By: SEXO Hypothesized Variance = 1 Variance EDAD, Total EDAD, VARON EDAD, MUJER 59,720 59,273 32,534 DF 161 126 34 Chi Square 9614,920 7468,362 1106,171 P-Value <,0001 <,0001 <,0001 95% Lower 50,180 48,750 22,760 95% Upper 72,476 73,890 51,060
33
13.-
CONTRASTES DE HIPTESIS E INTERVALOS DE CONFIANZA PARA LA COMPARACIN DE LA TENDENCIA CENTRAL DE DOS POBLACIONES NORMALES
.1.-
DATOS INDEPENDIENTES
Seleccionamos la opcin "Unpaired comparisons" (Comparaciones no apareadas) en la ventana de anlisis estadsticos. Despus seleccionamos dos variables (en la ventana de Variables), una que contiene los valores numricos y otra nominal (entera o categrica) que contiene los grupos.
34
-Contraste de hiptesis para la diferencia de medias de dos poblacines normales con varianzas desconocidas -Intervalo de confianza para la diferencia de medias de dos poblacines normales con varianzas desconocidas Contraste de hiptesis para el cociente de varianzas de dos poblaciones normales Intervalo de confianza para el cociente de varianzas de dos poblaciones normales
1 2
Tipo de contraste:
Bilateral ( ) Unilateral superior ( Unilateral inferior ( ) )
Obsrvese que la validez del contraste sobre las medias depende del contraste sobre las varianzas, ya que el clculo del contraste se realiza en el supuesto de que las varianzas son iguales. Si se rechaza la hiptesis de igualdad de las varianzas, tendramos que utilizar la f de Welch o un contraste no paramtrico como la U de Mann-Whitney. El programa permite contrastar la hiptesis de que la diferencia de medias es cualquier valor, aunque en la prctica slo se utiliza el contraste de que la diferencia de medias vales cero. Lo mismo ocurre con el cociente de varianzas, son iguales si el cociente vale 1. Los resultados que se obtienen son los siguientes: Test de medias:
de libertad
P-Value <,0001
x1 x 2 1 1 S + n1 n 2
Grados de libertad
Num. DF 126 Den. DF 34 F-Value 1,822 P-Value ,0316
2 S1 S2
2 Informacin sobre los grupos
Group Info for EDAD Grouping Variable: SEXO Count VARON MUJER 127 35 Mean 44,929 38,771 Variance 59,273 32,534 Std. Dev. 7,699 5,704 Std. Err ,683 ,964
36
.2.-
DATOS APAREADOS
Seleccionamos la opcin "Paired comparisons" (Comparaciones apareadas) en la ventana de anlisis estadsticos. Despus seleccionamos dos variables (en la ventana de Variables), ambas sern continuas y se corresponden con medidas del mismo individuo en distintas ocasiones. La ventana de informacin es similar a la del resto de los contrastes: -Contraste de hiptesis para la diferencia de medias de dos poblacines normales con varianzas desconocidas (Datos apareados) -Intervalo de confianza para la diferencia de medias de dos poblacines normales con varianzas desconocidas (Datos apareados) Contraste de hiptesis para el coficiente de correlacin Intervalo de confianza para el coficiente de correlacin
Tipo de contraste:
Bilateral ( ) Unilateral superior ( Unilateral inferior ( ) )
37
d Sd
d n1
14.-
Si no se verifican las condiciones de aplicacin de los contrastes paramtricos utilizaremos contrastes sobre medianas. Seleccionamos la opcin "Nonparametrics" (No paramtricos) en la ventana de anlisis estadsticos. Despus seleccionamos de la misma forma que en los contrastes anteriores y dependiendo de si los datos son apareados o no. Aunque el programa permite hacer otros contrastes, nos referiremos aqu solo a los de comparacin de medianas de dos poblaciones.
38
U de Mann-Whitney U corregida para empates Aproximacin normal para muestras grandes Aproximacin normal corregida Empates
2 cases were omitted due to missing values. Mann-Whitney Rank Info for EDAD Grouping Variable: SEXO Count VARON MUJER 139 38 Sum Ranks 13603,500 2149,500 Mean Rank 97,867 56,566
39
Nmero de diferencias nulas Empates Aproximacin normal Aproximacin normal corregida para empates
Wilcoxon Rank Info for DESPERSONALIZACION, LOGROS PERSONALES Count Sum Ranks Mean Rank # Ranks < 0 # Ranks > 0 171 2 15045,500 5,500 87,985 2,750
40
15.-
En algunas ocasiones es necesario convertir una variable continua en una categrica, por ejemplo, el nmero de horas de sueo en una variable con dos categoras: menos de 7 horas, ms de 7 horas. Esto puede hacerse mediante la opcin Recode... que se encuentra en el men Manage. Tras seleccionar la opcin, aparecer una ventana como la siguiente
Seleccin de la variable que se quiere recodificar Tipo de recodificacin Recodificar en una variable categrica
Si la opcin elegida es recodificar en una categrica, el ordenador nos presentar una pantalla para definir la variable categrica tal y como se haca en la entrada de datos. Una vez definida la variable, se nos presenta una nueva ventana que nos permite completar la recodificacin. Nota: Este tipo de recodificacin se puede aplicar tambin a variables categricas teniendo en cuenta la representacin numrica de las mismas.
41
Mover el ratn y hacer click cuando se llegue al punto de divisin deseado Alternativamente van apareciendo los valores de la variable categrica
Tras la recodificacin aparecer , al final del archivo, una nueva variable con los valores recodificados.
42
16.-
El men de Anlisis de la Varianza tiene varios submens que permiten la seleccin de distintas partes de los resultados (Tanto en forma de tablas como en forma grfica)
Anlisis de la varianza Tabla del Anlisis de la varianza Tabla de medias de los grupos Graficos de interaccin -Barras -Lneas
La seleccin por defecto es simplemente la tabla de ANOVA que incluir las tablas de comparaciones por parejas siempre que estas sean solicitadas en la ventana de definicin del anlisis que aparece a continuacin.
43
Comparacionespor parejas
Nivel de significacin para las comparaciones por parejas Las tablas demedias y los grficos muestran
Slo la interacin
Las barras de error en los grficos indican: Sin barras Desviacin tpica Error estndar de la media Intervalo de confianza al 95% Tras la seleccin de las caractersticas del anlisis, seleccionaremos dos variables, una nominal conteniendo los grupos y otra continua conteniendo los valores de la variable a estudiar. Los resultados finales para este tipo de anlisis son bastante limitados y la informacin es insuficiente cuando se quiere hacer un anlisis exhaustivo de los datos utilizando contrastes distintos de las simples comparaciones por parejas.
Se muestran a continuacin los resultados tpicos de un anlisis. Grados de Libertad Sumas de cuadrados
ANOVA Table for DESPERSONALIZACION DF Grp. edad Residual 2 171 Sum of Squares 226,912 4868,083 Mean Square 113,456 28,468 F-Value 3,985 P-Value ,0203
Estimadores
Q E = n i (x i x ) 2
i=1 r ni i =1 j=1
S2 = E
Q D = (x ij x i )2
QE r 1
F exp. S2 = D
QD nr
S2 E = 2 SD
44
Junto con los resultados del anlisis aparecen las tablas de comparaciones por parejas que son similares para los tres casos considerados. Mostramos a continuacin las correspondientes a los tests LSD y Bonferroni.
Fisher's PLSD for DESPERSONALIZACION Effect: Grp. edad Significance Level: 5 % Mean Diff. Joven, Adulto Joven, Maduro Adulto, Maduro 2,295 3,112 ,817 Crit. Diff 1,906 2,393 2,105 P-Value ,0186 ,0111 ,4446
xi x j
t ;n r S D
1 ni
+ n1
La tabla de bonferroni es esencialmente la misma, cambia solamente el valor de la diferencia crtica ya que el valor crtico ha sido calculado utilizando, para cada comparacin individual, el nivel de significacin global dividido por el nmero de comparaciones.
xi x j
Bonferroni/Dunn for DESPERSONALIZACION Effect: Grp. edad Significance Level: 5 % Mean Diff. 2,295 3,112 ,817 Crit. Diff 2,334 2,931 2,578 Joven, Adulto Joven, Maduro Adulto, Maduro
P-Value
tB ;n r S D
S
1 ni
+ nj
Comparisons in this table are not significant unless the corresponding p-value is less than ,0167. 5 cases were omitted due to missing values.
Tal y como se muestra en la indicacin de la tabla, el test de Bonferroni puede realizarse comprobando si el p valor del contraste es menor que la cantidad
n , es decir, el r
nivel de significacin global dividido entre el nmero total de comparaciones por parejas.
La informacin sobre cada uno de los grupos aparece en una table de la forma siguiente:
45
Means Table for DESPERSONALIZACION Effect: Grp. edad Count Joven Adulto Maduro 45 95 34 Mean 9,200 6,905 6,088 Std. Dev. 6,884 4,640 4,795 Std. Err. 1,026 ,476 ,822
que se puede representar en forma grfica mediante lneas y mediante diagramas de barras. En la prctica suele hacerse ms a menudo mediante lneas en un grfico de la forma siguiente:
Interaction Line Plot for DESPERSONALIZACION Effect: Grp. edad Error Bars: 95% Confidence Interval 12 11 10 9 8 7 6 5 4
Cell Mean
Joven
Adulto Cell
Maduro
Hay que hacer notar que el programa titula a los grficos siempre como "Interaction plot" incluso cuando se trata de los efectos principales.
46
17..1.-
Seleccionamos la subopcin "Scattergram" (diagrama de dispersin) del menu "Bivariate plots". La ventana variables cambia para mostrar la posibilidad de seleccionar la variable como X o como Y dependiendo del papel que tenga en el anlisis.
Grficos bivariantes
Media Pendiente
Cuando se divide, mostrar las lneas para Todos los grupos juntos Cada grupo por separado
Anlisis Estadstico con Statview Los resultados del anlisis se muestran en el grfico siguiente
Scattergram 95% Confidence Bands 10 9,5 9 8,5 T 8 7,5 7 6,5 6 5,5 -5 0 5 10 15 20 25 Profundidad 30 35 40 45
47
Recta de regresin
RECTA DE REGRESIN Y COEFICIENTE DE DETERMINACIN Separando para cada uno de los grupos obtenemos el grfico siguiente
18 16 14 1 12 T 10 8 6 4 -5 0 5 10 15 20 25 30 Profundidad 35 40 45 50 2 3 4
T T T T
* * * *
= = = =
48
Estos resultados pueden ser tiles cuando se desea simplemente un estudio des criptivo de regresin lineal simple. Si se desea un estudio inferencial es necesario seleccionar la opcin de regresin.
.2.-
ANLISIS DE REGRESIN
La tcnica seguida para la seleccin del anlisis es similar a la de los explicados hasta el momento. Las opciones son las que aparecen a continuacin. Las selecciones por defecto son las tres primeras. La ventana de variables cambia para asignarlas dependiendo del papel que ocupan en el modelo.
Resumen de la regresin Tabla de ANOVA Coeficientes de la regresin Intervalos de confianza Estadsticos para los residuales Grfico de regresin Residuales frente a ajustados Dependiente frente a valores ajustados Residuales frente a dependiente
Tras la seleccin del anlisis aparece la ventana de deficin del mismo que, en este caso incluye dos opciones, una primera opcin reducida y una segunda con mayores posibilidades de eleccin
49
Calcular los residuales slo para las filas incluidas o para todas las observaciones
Menos opciones
50
Algunas de las opciones como la de Regresin Mltiple o Paso a Paso (Stepwise) sern comentadas posteriormente. De momento nos limitamos a comentar los resultados que se obtienen pra la regresin lineal simple y para la parbola de regresin. La tabla de resumen es similar en cualquiera de los anlisis:
Regression Summary T vs. Profundidad Count Num. Missing R R Squared Adjusted R Squared RMS Residual 7 0 ,995 ,989 ,984 ,163
Se
La nica diferencia es que cuando se trata de una regresin polinmica, R es el coeficiente de correlacin entre los valores observados y los ajustados con la parbola, mientras que, en el caso lineal es el valor absoluto del coeficiente de correlacin entre las variables originales. La tabla del anlisis de la varianza es la misma en todos los casos, la diferencia est en la hiptesis que se contrasta. La idea bsica consiste en comparar el modelo reducido y=cte. con el modelo que incluye toda la informacin sobre las variables independientes.
ANOVA Table T vs. Profundidad DF Regression Residual Total 2 4 6
51
H 0 :y = H1 : y = + x
o lo que es lo mismo, se trata de contrastar si la pendiente es cero
H 0 : = 0 H1 : 0
H 0 :y = H1 : y = + x + x 2
o bien
H 0 : = = 0 H1 : ambos distintos de 0
El anlisis de la varianza permite saber si alguno de los parmetros es igual a cero, la tabla siguiente permite buscar exactamente cuales
52
=b
=a
H 0 : = 0, H1 : 0
t-Value -9,710 4,509 P-Value 82,137 <,0001 ,0006 ,0107
=c
H : = 0, H1 : 0 0 H 0 : = 0, H1 : 0
Es posible, adems, obtener los intervalos de confianza para cada uno de los parmetros:
I 95% = [b t n 2;0.05 S ]
Si el modelo fuese lineal solamente tendramos los dos primeros contrastes los dos primeros intervalos de confianza. Los grficos que pueden obtenerse son similares a los del apartado anterior, que se complementan con los grficos de residuales que permiten diagnosticar el ajuste individual acada una de las observaciones.
53
54
18.-
Seleccionamos la opcin tablas de contingencia en la ventana de anlisis. Podemos seleccionar varias subopciones que con
Resultados
Summary Table for INGRESOS, SATISFACCION Num. Missing DF Chi Square Chi Square P-Value G-Squared G-Squared P-Value Contingency Coef. Cramer's V 0 6 258,377 <,0001 251,643 <,0001 ,473 ,380
Grados de libertad
2 = exp G2 exp
r
( fo ij fe ij ) 2 fe ij fo ij fe ij
c
i =1 j=1
= fo ij log
i =1 j=1
pf ij
f ij f i
55
pc ij
f ij fj
p ij =
f ij f
Frecuencias esperadas
Expected Values for INGRESOS, SATISFACCION INSATISFECHOS <6 6-15 15-25 >25 Totals 67,518 94,722 77,023 54,736 294,000 MODERAD. 60,399 84,735 68,902 48,964 263,000 MUY SATIS 78,082 109,543 89,075 63,300 340,000 Totals 206,000 289,000 235,000 167,000 897,000
fe ij =
f i f j f
56
Cell Chi Squares for INGRESOS, SATISFACCION INSATISFECHOS <6 6-15 15-25 >25 132,212 12,728 16,848 10,293 MODERAD. 21,936 4,380 2,124 ,518 MUY SATIS 43,205 2,181 6,426 5,524
(fo ij fe ij ) fe ij