Anda di halaman 1dari 7

Curso de introduccin a Stata Jordi Muoz (UAB)

Sesin 8: Fuentes de datos, organizacin del trabajo en Stata y


utilidades
En la sesin de hoy vamos a ver, en primer lugar, algunos ejemplos de fuentes de datos que
nos pueden resultar tiles. En segundo lugar, discutiremos la forma de organizar nuestro
trabajo en Stata y, finalmente, veremos algunas utilidades del programa que no hemos visto
hasta ahora: trucos para facilitar el trabajo, gestin avanzada de datos e importacin de
archivos.

1. Fuentes de datos

GESIS
http://zacat.gesis.org/webview/

ISSP

Eurobarometer

European Values Study (EVS)

Studies from Eastern Europe

Comparative Studies

Election Studies

Further topical studies

ALLBUS (GGSS)

Politbarometer (German documentation only)

Election Studies (Germany)

Childhood, adolescence and becoming an adult 1991-1997

Quality of Government Institute


http://www.qog.pol.gu.se/data/

QoG Standard Dataset One aim of the QoG Institute is to make publicly available
cross-national comparative data on QoG and its correlates. To accomplish this objective
we have compiled both a cross-sectional dataset with global coverage pertaining to the
year 2002 (or the closest year available), and a cross-sectional time-series dataset with
global coverage spanning the time period 19462009.

QoG Social Policy Dataset The aim of the QoG Social Policy Dataset is to promote
cross-national comparative research on social policy output and its correlates, with a
special focus on the connection between social policy and quality of government (QoG).

Curso de introduccin a Stata Jordi Muoz (UAB)

QoG Expert Survey Dataset The QoG Survey is a unique data set on the structure
and behaviour of public administration, based on a web survey of 973 country experts
from 126 countries around the world.

Environmental Performance Index


http://epi.yale.edu/downloads
The Environmental Performance Index (EPI) ranks 163 countries on 25 performance indicators
tracked across ten policy categories covering both environmental public health and ecosystem
vitality. These indicators provide a gauge at a national government scale of how close countries
are to established environmental policy goals.

The UK Data Archive


http://www.data-archive.ac.uk/
The UK Data Archive is curator of the largest collection of digital data in the social sciences and
humanities in the United Kingdom. With several thousand datasets relating to society, both
historical and contemporary, our Archive is a vital resource for researchers, teachers and
learners.

Centro de Investigaciones Sociolgicas


http://www.cis.es
El Catlogo del Banco de Datos rene la informacin de todas las encuestas y estudios
cualitativos que el Centro ha llevado a cabo desde su creacin. A travs de distintos tipos de
bsquedas se puede acceder a la informacin de los estudios y a todos los productos de
distribucin gratuita del banco de datos.

Informe PISA
http://pisa2009.acer.edu.au/downloads.php
PISA 2009 dataset with the full set of responses from individual students, school principals and
parents. These files will be of use to statisticians and professional researchers who would like to
undertake their own analysis of the PISA 2009 data. The files available on this page include
questionnaires, data files in ASCII format, codebooks, compendia and SAS and SPSS control
files in order to process the data.

European Social Survey


http://ess.nsd.uib.no/
The European Social Survey (the ESS) is a biennial multi-country survey covering over 30
nations. The first round was fielded in 2002/2003, the fifth in 2010/2011.

Curso de introduccin a Stata Jordi Muoz (UAB)

Institut de Cincies Poltiques i Socials


http://www.icps.es/sondeigs.asp
Des de 1989, de forma ininterrompuda, lICPS du a terme un sondeig anual sobre la cultura
poltica dels catalans. Hi s reflectida lopini de la ciutadania sobre diversos temes i
conceptes, aix com les seves actituds poltiques.

Centre dEstudis dOpini


http://ceo.gencat.cat/
Els estudis d'opini de la Generalitat de Catalunya

2. Organizacin del trabajo en Stata


Cuando nos enfrentamos a tareas de anlisis de datos en Stata, debemos seguir una serie de
normas bsicas, que nos facilitaran mucho el trabajo y reducir substancialmente las
probabilidades de cometer errores.

Elaboracin de do-files.
Todo lo que hacemos en Stata debe quedar convenientemente documentado en los do-files, de
modo que en cualquier momento podamos reconstruir todos los pasos y volver al trabajo desde
cero, o bien que otras personas puedan replicar nuestro trabajo.
Podemos escribir directamente sobre el do-file, o usar la lnea de comando de Stata. En este
segundo caso, que no es el ms aconsejable, es muy importante que nos acordemos de pasar
TODOS los comandos relevantes al do-file cada cierto tiempo.
Los do-files deben cumplir los siguientes requisitos:

Autocontenidos. Deben contener todas las referencias a los archivos usados,


sobretodo a los datos.

Completos. Deben inclur todos los pasos realizados, desde la apertura del archivo
de datos original hasta la elaboracin de las tablas y grficos finales.

Ordenados. En el trabajo con Stata el orden importa, as que nuestros do-files


deben estar siempre ordenados.

Limpios. No deben contener ningn error ni comandos innecesarios. Siempre los


comprobaremos para asegurarnos que no contienen errores.

Comentados. Los comentarios son esenciales para ayudar en la replicabilidad de


nuestro trabajo y para evitar perder tiempo innecesario. Siempre es ms fcil
comentar abundantemente el do-file que intentar descifrar lo que hicimos a
posteriori.

Preservar el archivo de datos original.

Curso de introduccin a Stata Jordi Muoz (UAB)

Para garantizar que siempre podremos volver atrs y corregir cualquier error que hubisemos
cometido en cualquier punto del proceso de anlisis, el archivo de datos original lo trataremos
siempre cmo un archivo de slo lectura. Esto quiere decir que no guardaremos cambios
sobre l. Para seguir esta norma, tenemos dos opciones:
a) Si debemos guardar cambios sobre un archivo de datos, lo haremos sobre una copia
otro nombre, manteniendo el original intacto. Todas las instrucciones de guardar con un
nuevo nombre, etc. Deben estar dentro del do-file.
b) La otra opcin es no guardar cambios sobre los datos, y cada vez que queramos
retomar el trabajo, ejecutaremos el do-file desde el principio.

Organizar los archivos.


Los proyectos de investigacin raramente tienen un progreso lineal. Se empiezan, se
abandonan, se retoman, se vuelven a abandonar, se completan, se mandan a evaluar,
vuelven, se revisan, se vuelven a mandar En este proceso es muy importante tener en
cuenta algunas reglas bsicas:

Evitar la proliferacin innecesaria de archivos har nuestra vida ms fcil. Si


tenemos cinco versiones de nuestra base de datos, y diez do-files dierentes, cuando
unos meses ms tarde volvamos sobre nuestro trabajo, nos ser muy difcil
orientarnos. Por ello, una buena prctica consiste en limitar el nmero de archivos y
borrar peridicamente las versiones superadas.

Organizar los archivos en carpetas bien etiquetadas es tambin fundamental.

2. Utilidades
En este apartado vamos a conocer algunos comandos tiles para el trabajo con Stata, que
tienen ms que ver con la organizacin del trabajo y la gestin de los datos que con el anlisis
en s.

Fijar el directorio de trabajo


Stata trabaja por defecto sobre un directorio de nuestro disco duro. Antes de empezar a
trabajar debemos fijar como directorio de trabajo una carpeta para cada proyecto. Los
comandos que necesitaremos son los siguientes:

Pwd pwd (Print Working Directory) nos muestra el directorio sobre el que est
trabajando Stata.

Cd cd es el comando que fija un nuevo directorio: debemos escribir cd seguido de la


ruta de la carpeta sobre la que queramos trabajar, por ejemplo cd F:\Recerca\Dades

Bsqueda e instalacin de extensiones


Como hemos visto ya, en algunas ocasiones necesitamos comandos de stata que no vienen
distribudos con el programa base. Entonces, nos instalaremos los archivos ado que contienen

Curso de introduccin a Stata Jordi Muoz (UAB)

las extensiones escritar por los usuarios. Para buscar e instalar comandos nuevos, usaremos
los siguientes comandos:

Net search Cuando queramos explorar los paquetes disponibles a partir de alguna
palabra clave usaremos net search, que busca entre todos los comandos disponibles
los que contengan esta palabra clave en su descripcin.

Findit Si ya sabemos el nombre del comando que queremos instalar, escribiremos


findit nombrecomando para localizarlo y poderlo instalar fcilmente

Ssc install Si queremos ahorrarnos pasos intermedios e instalar directamente un


comando, escribiremos ssc install nombrecomando y Stata, tras comprobar que no lo
tengamos ya guardado, lo instalar.

Ssc hot y ssc new nos informan de los ltimos comandos publicados, de los ms
descargados.

Trucos para hacernos la vida ms fcil

Saveold Una caracterstica especialmente incmoda de Stata es que las versiones


ms antiguas no pueden abrir archivos de datos guardados en una versin ms
reciente del programa. Esto puede representar un problema importante si trabajamos
con diversas versiones de Stata en diversos ordenadores, o si nuestros coautores no
disponen de la misma versin que nosotros. Una solucin a este problema es usar el
comando saveold, que substituye al comando save y guarda el archivo de datos en una
versin anterior de Stata (actualmente en Stata9/10).

Set dp A menudo podemos encontrarnos con problemas de coordinacin entre Stata y


Excel en lo que se refiere a los signos usados para indicar los decimales. Si tenemos
predterminada la coma en Excel y el punto en stata, podemos llegar a perder mucho
tiempo ajustando los resultados. Una manera de evitarlo es usar el comando set dp
comma o set dp period para cambiar el comportamiento de Stata.

order El orden de las variables en nuestra base de datos puede parecer poco
importante pero, de hecho, si no lo ajustamos podemos perder mucho tiempo
buscando variables. El comando order nos permite cambiar el orden de la base de
datos: podemos mover una variable antes o despus de otra con las opciones
before(variable) y after(variable) o ordenarlas todas en orden alfabtico con el comando
order _all, alphabetic

datasignature Para comprovar que los datos con los que trabajamos son
efectivamente los que nosotros creemos, existe el comando datasignature (set /
confirm/report) que crea un identificador nico de la base de datos (set), lo compara
con otro (confirm) y nos lo muestra en pantalla (report).

Curso de introduccin a Stata Jordi Muoz (UAB)

Gestin avanzada de datos


Muchos de los datos con los que trabajaremos son bases de datos relativamente bien
preparadas para el anlisis. En cambio, en otras ocasiones, deberemos trabajar mucho sobre
los datos hasta conseguir que tengan el formato necesario para poder realizar los anlisis.
Entre las tareas de gestin avanzada de datos, podemos destacar las siguientes:

Collapse Si queremos colapsar nuestra base de datos para hacer una nueva base de
datos de estadsticos de resumen por grupos de casos (por ejemplo, de pases a partir
de una encuesta transnacional, o de comarcas a partir de datos municipales),
usaremos el comando collapse (estadstico) variable (estadstico)
variablenueva=variableoriginal

Merge Para fusionar bases de datos, existen los comandos merge y append. Merge
sirve para aadir variables (ms informacin de las mismas observaciones) y, por lo
tanto, requiere una variable con el mismo nombre en ambas bases de datos que nos
servir para enlazarlas. Es fundamental que la variable de identificacin tenga los
mismos cdigos en ambos archivos. Merge produce una variable, _merge, que sirve
para comprobar el resultado del proceso de enlace. Si _merge tiene valor 3 quiere decir
que la observacin se ha enlazado, si tiene valor 1 o 2, es seal de algn problema.

Append Si lo que queremos es aadir observaciones (ms casos con las mismas
variables), usaremos append en lugar de merge. En este caso lo importante es que las
variables tengan el mismo nombre.

Reshape A veces los datos con estructuras complejas (por ejemplo, datos panel) se
nos distribuyen en formatos largo o ancho y necesitamos transformarlos. En estos
casos disponemos del comando reshape long y reshape wide.

Importacin de datos
No siempre los datos nos llegarn en un formato apto para ser ledo directamente en Stata,
pero afortunadamente Stata dispone de capacidades para leer datos en un buen nmero de
formatos:

Usespss SPSS sigue siendo uno de los programas ms utilizados, lo cual puede tener
como consecuencia que nos lleguen archivos de datos en formato .sav, que es el
propio de SPSS. Esto puede ser problemtico, aunque el comando usespss lo
soluciona (slo funciona en Windows) puesto que permite a Stata abrir directamente
archivos de SPSS. Otras opciones incluyen usar SPSS para guardar en Stata, o usar
Stat/Transfer.

import excel lee hojas de clculo de Excel (.xls y .xlsx). Puede leer hojas enteras o
podemos definir determinados rangos de datos.

Curso de introduccin a Stata Jordi Muoz (UAB)

Insheet es el compando para leer archivos de texto creados a partir de una hoja de
clculo o programa de bases de datos. Los valores pueden estar separados por comas,
por tabulaciones o con un separador especfico. Cada observacin debe estar en una
lnea.

Infix/infile es para datos con un formato de ancho de columnas fijas, con o sin
diccionario. En estos archivos una observacin puede ocupar varias lneas. Un buen
recurso para crear diccionarios en Stata es el siguiente:
http://library.columbia.edu/indiv/dssc/technology/stata_write.html

Anda mungkin juga menyukai