Introduccin
Msc. Renzo Claure Aracena
SPSS-PASW-PASW Statistics
2005-2007, compra por IBM
Caractersticas
Entorno
Msc. Renzo Claure Aracena
Inicio
Mens
Herramientas
rea de edicin
Edicin de datos
Edicin de variables
Barra mens
Archivo: Mediante este men se pueden abrir, crear o grabar los diferentes ficheros que SPSS emplea, ya
sean de datos, instrucciones, resultados o procesos. Igualmente, es posible controlar las tareas de
impresin.
Edicin: Permite realizar las tareas habituales de edicin: modificar, borrar, copiar, pegar, seleccionar, etc.
Ver: Permite controlar diversos parmetros de visualizacin en pantalla.
Datos: Este men permite insertar variables, as como efectuar modificaciones en los ficheros de datos:
seleccionar, aadir, ponderar, etc.
Transformar: Aqu se encuentran todas las opciones relativas a la modificacin y generacin de nuevas
variables.
Analizar: Mediante este men se accede a los diferentes anlisis estadsticos que se pueden realizar con
los datos.
Grficos: Permite la creacin y edicin de diversos tipos de grficos de alta resolucin. Algunos de ellos
son tambin accesibles a travs de determinadas tcnicas estadsticas.
Utilidades: Entre otras, posibilita mostrar informacin sobre los ficheros de SPSS, las variables o el
tratamiento de conjuntos de variables.
Ventana: Dispone de las funciones habituales para controlar las ventanas.
Ayuda: Proporciona ayuda al usuario en el formato tpico de Windows.
Msc. Renzo Claure Aracena
Variables
Msc. Renzo Claure Aracena
Variables cuantitativas
Variables discretas
Variables contnuas
Msc. Renzo Claure Aracena
Otras caractersticas
Anchura
Etiqueta: Breve descripcin de la variable
Etiqueta de valor: til para representar
niveles, clases o categoras con nmeros,
algunos procedimientos que veremos
exigen que los datos est clasificados.
Valores perdidos
Se pueden introducir hasta tres valores perdidos (individuales) de tipo
discreto, un rango de valores perdidos o un rango ms un valor de tipo
discreto
Solo pueden especificarse rangos para las variables numricas.
No se pueden definir los valores perdidos para variables de cadena larga
(variables de cadena cuyos resultados tengan ms de 8 caracteres).
Para las variables de cadena, se considera que son validos todos los
valores de cadena, incluidos los valores vacos o nulos, a no ser que se
definan explcitamente como perdidos. Para definir como perdidos los
valores vacos o nulos de una variable de cadena, se escribe un espacio en
blanco en uno de los campos de Valores perdidos discretos.
Manejo de fechas
Existe una diferencia importante
entre definir fechas y definir los
formatos de fecha
Manejo de Decimales
Ejemplo de Clase
Definir una base de datos, con el nombre autos, que contenga las
siguientes variables.
Ir a un caso
Seleccionar
Corregir un dato
Buscar un dato
Insertar un nuevo caso
Ir a una variable
Barra de estado: Sirve para mostrar (cuando est sealado con un X) u ocultar
(cuando no lo est) la barra de estado del sistema.
Barras de herramientas: Sirve para mostrar u ocultar, personalizar y crear nuevas
barras de herramientas. En las barras de herramientas puede incluirse cualquier
herramienta disponible, incluso la de cualquier accin de men. Adems pueden
contener herramientas personalizadas que ejecutan otras aplicaciones, que
ejecutan archivos de sintaxis de comandos o archivos de procesos.
Fuentes: Si se elige esta opcin se abre un cuadro de dialogo similar al de todas las
aplicaciones Windows, que permite seleccionar las fuentes, estilos y tamaos.
Cuadricula: Sirve para mostrar (cuando est sealado) u ocultar (cuando no lo
est) la cuadricula que separa las diferentes casillas del editor de datos.
Etiquetas de valor: Sirve para mostrar (cuando est sealado) u ocultar (cuando
no lo est) las etiquetas de las variables en el editor de datos.
Variables (o Datos): Sirve para ver la carpeta Vista de variables o la carpeta Vista
de datos.
Msc. Renzo Claure Aracena
Archivos de datos grabados en cdigo ASCII, con o sin tabulacin (con la opcin Archivo)Leer
datos de texto).
Archivos de otros paquetes estadsticos, como Systat (se selecciona Archivo)Abrir)Datos y en
el cuadro de dialogo que aparece se indica Systat(*.sys) en Tipo de archivos).
Archivos de hojas de clculo, como Lotus, Excel o formato SYLK (se selecciona
Archivo)Abrir)Datos y en Tipo de archivos se indica Lotus(*.w*), Excel(*.xls) o SYLK(*.slk),
respectivamente).
Archivos de sistemas de gestin de bases de datos, como dBASE (se selecciona Archivo
)Abrir)Datos y en el cuadro de dialogo que aparece se indica dBASE(*.dbf) en Tipo de
archivos).
Por supuesto, ficheros de datos SPSS creados en otros entornos y sistemas operativos (se
selecciona Archivo)Abrir)Datos y en Tipo de archivos se indica SPSS/PC+(*.sys) si estn
generados por SPSS en su versin para MS-DOS; o se indica SPSS portable(*.por) si se trata de
ficheros porttiles creados en otros entornos como Macintosh o VMS).
Adicionalmente, y mediante ODBC, se pueden capturar y manejar datos de Access,
Msc. Renzo Claure Aracena
Ejemplo
Importar el archivo autos2.xlsm
Importar el archivo autos3.csv
Un Parntesis
El Proceso de descubrimiento de conocimiento
KDD
Msc. Renzo Claure Aracena
Extraccin de Conocimiento
Fuentes de
Informacin
(CRM, Trfico, etc.)
Almacn
de Datos
(Datawarehouse)
Datos seleccionados
Limpios
(Vista Minable)
1.- Recopilacin e
Integracin de
Bases de Datos
2.-Seleccin,
Limpieza y
Transformacin
3.- Minera de
Datos
Patrones
4.- Evaluacin e
Interpretacin
Msc. Renzo Claure Aracena
Decisiones
Preparacin de datos
Msc. Renzo Claure Aracena
Ordenar
Se puede ordenar de dos
formas
Desde la barra de
mens
Directamente desde la
columna
Identificar duplicados
Se puede ordenar por ms
de un criterio
Crea una variable que
identifica los valores
duplicados, donde asigna 0
al caso original y 1,2,3 a
los duplicados
Contabiliza la cantidad de
duplicados
Se puede ordenar el
resultado para mejorar la
visibilidad
Msc. Renzo Claure Aracena
Agregar casos
Agregacin es un proceso donde
se resumen los datos en funcin
de una o ms variables nominales
Es posible entonces definir la
variable de segmentacin, las
variables de agregacin
Se puede tambin definir la
funcin de agregacin
Se puede generar un nuevo
archivo de las variables agregadas
(recomendable)
Msc. Renzo Claure Aracena
Agregacin
TIPO
a
b
a
a
b
c
Valor
1
3
5
7
9
11
Tipo
a
b
c
Suma_valor
13
16
0
Tipo
a
b
c
Contar_valor
3
2
1
Ejercicio
Ordenar el archivo autos1.sav por las siguientes variables y orden
Origen, ascendente
Peso_lb, ascendente
Potencia_HP, descendente
Transformacin de variables
Msc. Renzo Claure Aracena
Calcular variables
Calcular Si
Ejemplos
Crear una variable que sea
igual al logaritmo de MPG,
solo en los casos que el auto
sea de origen asitico o
europeo
Recodificacin de variables
Recodificar en distintas variables
Recodificacin de variables
Recodificacin en la misma variable
Recodificacin de variables
Recodificacin automtica
Ejemplos
Recodificar en la misma variable, la variable numero de
cilindros, cambiando a todos los que tienen 3 cilindros
por un cilindro
Recodificar en distintas variables, la variables origens,
con la siguiente codificacin: 1=uno, 2=dos,
3=tres
Abrir el archivo ingresos1.sav, recodificar de forma
automtica la variable educacin.
Grabar el resultado como autos5.sav
Msc. Renzo Claure Aracena
Estadstica descriptiva
unidimensional
Msc. Renzo Claure Aracena
Distribucin de frecuencias
Lista de
variables del
archivo de
datos abierto
Trasladar aqu
las variables
sobre las que se
quiere obtener
la distribucin
de frecuencias.
Distribucin de frecuencias
Estadsticos
Distribucin de frecuencias
Resultados
En esta
ventana
aparecen los
ttulos de
los
contenidos
del Visor de
Resultados
Ejemplo
Determine la distribucin de frecuencias del
archivo autos.sav, para las variables: Cilindros,
Origen y Modelo_ano
Determine la distribucin de frecuencias del
archivo ingresos.sav, para las variables:
Tipo_trabajo, Educacin, raza
Msc. Renzo Claure Aracena
Estadsticos descriptivos
Presenta un resumen
rpido de los
principales
estadsticos
Explorar variables
Ejemplo
Determine los estadsticos descriptivos del
archivo autos.sav, para las variables: Cilindros,
Origen y Modelo_ano.
Explore el archivo ingresos.sav, para las
variables: Tipo_trabajo, Educacin; utilice la
variable raza como agrupador
Msc. Renzo Claure Aracena
Grficos unidimensionales
Diagrama de barras
Grfica de sectores
Grficos unidimensionales
Histograma de frecuencias
Grficos unidimensionales
Diagrama de caja
Valores atpicos
Contiene
el 50% de
los casos
centrales
Centil 75
Valor mximo
que toma la
variable
Mediana
Centil 25
Valor mnimo
que toma la
variable
Grficos unidimensionales
Diagrama de caja,
analizando clases y
ms de una variable
Edicin de grficos
Ejemplo
Obtenga diagramas de barras y de sectores del
archivo autos.sav, para las variables: Cilindros,
Origen y Modelo_ano, coloque los datos de
cantidad de casos en cada barra
Obtenga un diagrama de cajas del archivo
ingresos.sav, para las variable:
Horas_por_semana, con la categora raza y
agrupado por sexo
Msc. Renzo Claure Aracena
Variables cuantitativas
Diagrama de
dispersin
Agrupacin
Matriz de
diagramas de
dispersin
Tendencia
Ejemplo
Crear un diagrama de dispersin del archivo
autos1.sav, para las variables Peso_Lb y MPG. Agregar
una lnea de tendencia que mejor se ajuste
Crear un diagrama de dispersin del archivo
autos1.sav, para las variables Peso_Lb y MPG
agrupados por Origen
Crear un diagrama de dispersin del archivo
autos1.sav, para las variables Peso_Lb, MPG,
Aceleracin y Potencia_HP
Msc. Renzo Claure Aracena
Correlacin simple
Ejercicio
Determine la correlacin existente entre las
variables: MPG, Potencia_HP, Peso_LB
Determine un modelo de regresin lineal
simple, entre las variables: radio y perimetro
del archivo cancer.sav
Aceptacin estadstica
Regresin, la variacin que explica el
modelo
Residual, lo que no explica el modelo
Si el valor de Sig es menor de 0,05
entonces se asume que el modelo es
estadsticamente significativo
Msc. Renzo Claure Aracena
Ejemplos
Realice el anlisis de dependencia de las
variables ingreso y raza, del archivo
ingresos1.sav
Realice el anlisis de dependencia de las
variables ingreso y raza, agrupados por sexo,
del archivo ingresos1.sav
Msc. Renzo Claure Aracena
Manejo de Cubos
Manejo de variables conjuntas, cualitativas y cuantitativas
Ejemplo
Realice un anlisis con Cubos OLAP, de las
variables: Cantidad de horas para las
variables: Sexo, Ingreso y Raza
Anlisis de medias
Msc. Renzo Claure Aracena
Anlisis bsico
Comparacin rpida de medias, que pueden ser
agrupadas por ms de un factor.
Ejemplo
Determine el promedio de horas trabajadas
por semana, para las razas y agrupadas por el
sexo
Ejemplo
Realice una comparacin de la media del
radio, contra un valor de 12[cm], realice el
anlisis en paralelo para los tumores malignos
y benignos. (archivo cancer1.sav)
Comparacin de medias
para muestras independientes
Sirve para contrastar
promedios en muestras
no relacionadas o
independientes
El objetivo es encontrar
diferencias significativas
Para la prueba en general
si es menor de 0,05 se
asume que son
significativamente
distintos
Msc. Renzo Claure Aracena
Ejemplo
Determinar si son significativamente distintos
los radios y la concavidad de los tumores
malignos y benignos, archivo cancer1.sav
Comparacin de medias
para muestras relacionadas
Ejemplo
En el archivo dietas1.sav, determine si el
tratamiento redujo significativamente el nivel
de triglicridos y peso al final de todo el
tratamiento
Anlisis
ANOVA
Sirve para contrastar ms de dos grupos independientes
En este caso el factor de agrupacin debe estar en un valor numrico y con valores
asignados para cada nivel, de no estar asi la variable se debe auto recodificar
En este caso la prueba de significancia nos dice que si es mayor de 0,05 los grupos
son diferentes
Ejemplo
Comparar las medias de horas trabajadas por
raza, archivo ingresos1.sav
Casos de estudio
Msc. Renzo Claure Aracena
Tareas
Verifique la calidad de la informacin
Frecuencias
Anlisis de descriptivos
Diagramas de caja
Tareas