Anda di halaman 1dari 33

MARIA HELENA PESTANA professora do ISCTE desde 1982.

doutorada em Mtodos Quantitativos de Gesto, na rea de Pes-


quisa de Mercados. investigadora em Estatstica, Econometria, e
Anlise de Dados aplicados nos domnios de Demografia, Econo-
6
EDIO
MARIA HELENA PESTANA
JOO NUNES GAGEIRO
mia, Finanas, Gerontologia, Gesto, Psicologia, Sade, Sociologia,
e Turismo. autora de livros e de vrios artigos cientficos em publi-

PARA CINCIAS SOCIAIS


ANLISE DE DADOS
A Complementaridade do SPSS
caes nacionais e estrangeiras.

JOO NUNES GAGEIRO, licenciou-se em Organizao e Gesto


de Empresas no ISCTE e concluiu o curso Hotel and Hospitality
Management, da Universidade de Cornell em Ithaca (NY), nos
EUA. investigador em Turismo e Anlise de Dados aplicados nos
domnios de Economia, Finanas, Gerontologia, Gesto, Psicologia,
Sade e Sociologia. autor de livros e de vrios artigos cientficos
ANLISE DE DADOS
PARA
em publicaes nacionais e estrangeiras.

Este livro, fruto da experincia acadmica Gini, Bayes, CV, MAD


e profissional dos autores, foi agora, nesta
6 edio, enriquecido com esquemas,
resumos e 157 aplicaes prticas, que
Mdias: ponderada/aparada/
/geomtrica/harmnica
Outliers/influncia/resduos
ndices
CINCIAS SOCIAIS
inovam nas associaes que estabele- Contrastes/tendncia
cem entre os diferentes captulos, simpli-
ficando e consolidando os temas neles
Variveis artificiais
Cluster A Complementaridade do SPSS
tratados, tornando-o acessvel a todos ANOVA/MANOVA/ANCOVA
os leitores, mesmo aqueles com poucas Medidas Repetidas
Fatorial
bases de matemtica, estatstica e infor-
Missings/padres/substituio
mtica.
A introduo da syntax do IBM-SPSS per-
OR, RR, sensibilidade,
prevalncia A obra

6
mite, para qualquer distribuio e dimen- Curva ROC

so da amostra, calcular todas as proba-


MRLS, MRLM, 2SLS, WLS,
Logstica
de referncia
bilidades associadas, identificar os acon-
tecimentos mais provveis, determinar
Path analysis
Discriminante da Anlise
os erros e a potncia do teste, bem como Amostras independentes/
recorrer tanto s distribuies exatas como /emparelhadas de Dados em
s aproximadas.
T, F, Normal, Qui-Quadrado
MDS/MCA/ANACOR EDIO Portugal
Importncia particular dada partici- Deciso/sig/potncia
pao ativa do leitor, tornando o livro Syntax/Estimao/EMV
estimulante e til para todos os que a ele Testes paramtricos/ Revista,
/no paramtricos
recorram. Graphs Atualizada
e Aumentada
A publicao desta obra teve o apoio: Ficheiros SPSS para download

www.silabo.pt ISBN 978-972-618-775-2


26

9 789726 187752 EDIES SLABO


Anlise de Dados
para
Cincias Sociais
A Complementariedade do SPSS

MARIA HELENA PESTANA


JOO NUNES GAGEIRO

6 EDIO

EDIES SLABO
expressamente proibido reproduzir, no todo ou em parte, sob qualquer
forma ou meio, NOMEADAMENTE FOTOCPIA, esta obra. As transgresses
sero passveis das penalizaes previstas na legislao em vigor.

Visite a Slabo na rede


www.silabo.pt

Editor: Manuel Robalo

FICHA TCNICA:
Ttulo: Anlise de Dados para Cincias Sociais A Complementariedade do SPSS
Autores: Maria Helena Pestana, Joo Nunes Gageiro
Edies Slabo, Lda.
Capa: Pedro Mota
1 Edio Lisboa, outubro de 1998
6 Edio Lisboa, outubro de 2014
Impresso e acabamentos: Cafilesa Solues Grficas, Lda.
Depsito Legal: 382311/14
ISBN: 978-972-618-775-2

EDIES SLABO, LDA.


R. Cidade de Manchester, 2
1170-100 Lisboa
Tel.: 218130345
Fax: 218166719
e-mail: silabo@silabo.pt
www.silabo.pt
ndice

Prefcio 17

Introduo

1. Iniciao ao IBM-SPSS 22
1.1. Ficheiro de dados 22
1.2. Definio de variveis e casos 22
1.3. Anlise estatstica 27
1.4. Grficos 28
1.5. Ajudas 29
1.6. Juno de informao de dois ficheiros 30
1.6.1. Juno de variveis 30
1.6.2. Juno de casos 33

1.7. Edio de Informao 34


1.8. Definio e organizao de dados 36
1.9. Transformao de dados 38
1.9.1. Criao de novas variveis 39
1.9.2. Agregao de categorias 40
1.9.3. Inverso da ordem das categorias 42
1.9.4. Transformao de uma varivel mtrica em qualitativa 42
1.9.5. Converso de uma varivel string em numrica 43
1.9.6. Contagem de casos 44
1.9.7. Substituio de respostas omissas 44

1.10. Utilidades 44

2. Exerccios Enunciados 45
3. Exerccios Resoluo 46
Captulo 1
Estatstica descritiva e indutiva

1. Introduo 53
1.1. Escalas de medida e tratamento estatstico 53

2. Estatstica descritiva versus indutiva 57


3. Anlise das respostas omissas 58
3.1. Exclude cases listwise 59
3.2. Exclude cases pairwise 60
3.3. Replace with mean 61
3.4. Anlise univariada das respostas omissas 62
3.5. Padro das respostas omissas 65
3.6. Aleatoriedade das respostas omissas 67
3.7. No aleatoriedade das respostas omissas 68

4. Variveis nominais 69
4.1. Quadro de distribuio de frequncias 69
4.2. Moda 70
4.3. Grficos de barras e circular 70

5. Variveis ordinais 75
5.1. Quantis 75
5.2. Quadro de distribuio de frequncias 76
5.3. Introduo de dados 77
5.4. Moda e concluso 79

6. Variveis mtricas 81
6.1. Quadro de distribuio de frequncias, moda e quantis 81
6.2. Outliers, Amplitude total e inter-quartil 83
6.3. Histograma, diagrama de caule e folhas e caixa de bigodes 85
6.4. Mdia e suas propriedades 90
6.5. Varincia, desvio padro, desvio absoluto mdio e desigualdade de Tchebycheff 95
6.6. Erro padro e intervalo de confiana para a mdia 97
6.7. Mdia aparada 99
6.8. Simetria e achatamento 103
6.9. Mdia ponderada, geomtrica e harmnica 108
6.10. Coeficiente de variao e MAD 111
6.11. Distribuio normal e testes normal 116
6.12. Transformaes e estandardizao 120
6.13. Categorizao pelo mtodo dos grupos extremos revisto 131
6.14. Criao de ndices pela uniformizao de escalas 134

7. Medida concentrao: ndice de Gini 139


8. Exerccios Enunciados 141
9. Exerccios Resoluo 152
10. Fundamentos para a inferncia 239
10.1. Testes paramtricos e no paramtricos 239
10.2. Estimadores e distribuies amostrais 240
10.2.1. Distribuies do Qui-Quadrado, t de Student e F de Snedecor 242

10.3. Estimao: pontual, por intervalos e ensaio de hipteses 244


10.4. Regra de deciso 248
10.5. Aplicaes 249
10.5.1. Desigualdade de Chebychev 250
10.5.2. Distribuio uniforme 250
10.5.2. Distribuio normal 251
10.5.4. Distribuio do Qui-Quadrado 256
10.5.5. Distribuio t de Student 258
10.5.6. Distribuio F de Snedecor 260

Captulo 2
Contingncia, associao e correlao

1. Introduo 269
2. Tabelas de contingncia e teorema de Bayes 270
1.1. Construo de tabelas 270
1.2. Probabilidade conjunta, marginal e condicionada 271
1.3. Teorema de Bayes 273

3. Anlise das tabelas de contingncia 276


3.1. Testes de independncia do Qui-Quadrado 277
3.1.1. Teste do Qui-Quadrado de Pearson 278
3.1.2. Teste do rcio da verosimilhana 286
3.1.3. Teste do Qui-Quadrado da correo de continuidade de Yates 292
3.1.4. Teste do Qui-Quadrado de Fisher 292
3.1.5. Teste Linear-by-Linear Association 299
3.1.6. Teste de McNemar 300
3.2. Odds e odds racio 301
3.2.1. Odds 301
3.2.2. Odds rcio 301
3.2.3. Propriedades 302
3.2.4. Intervalo de confiana para o odds rcio 303
3.3. Risco relativo, rcio de prevalncia, diferena de propores
e intervalos de confiana 303
3.3.1. Risco relativo e rcio de prevalncia 303
3.3.2. Intervalo de confiana para RR ou RP 304
3.3.3. Teste de homogeneidade e intervalo de confiana 304
3.3.4. Discrepncia entre o odds rcio e o RP 306

3.4. Relao entre o odds rcio e RR ou RP 306


3.5. Associaes marginais e condicionadas 307
3.5.1. Totais das k subtabelas so semelhantes 309
3.5.2. Totais das k subtabelas so diferentes 315

3.6. Concordncia: Kappa de Cohen 319


3.6.1. Vulnerabilidade do Kappa de Coehen 321

3.7. Outras medidas de associao para variveis nominais 323


3.7.1. Phi, V de Cramer, coeficiente de contingncia 323
3.7.2. Lambda, Goodman e Kruskals tau e coeficiente de incerteza 324
3.7.3. Sntese 324

3.8. Outras medidas de associao para variveis ordinais 330


3.8.1. Gamma, Kendalls tau b, Kendalls tau c, Somers d 330
3.8.2. Sntese 332
3.9. Sensibilidade, especificidade, valor preditivo, prevalncia,
rcio da verosimilhana 335
3.9.1. Sntese 337

3.10. Curva ROC 340


3.10.1. Sntese 342
3.11. Correlaes simples e parciais: variveis estandardizadas Z,
R de Spearman e R de Pearson 345
3.11.1. Sntese 348

3.12. Eta e correlaes biserial e point biserial 361


3.12.1. Sntese 362

4. Exerccios Enunciados 367


5. Exerccios Resoluo 381
6. Fundamentos das tabelas de contingncia 461
Captulo 3
Anacor, MCA e MDS

1. Introduo 467
2. Anacor 468
3. MCA 471
4. MDS 473
5. Exerccios Enunciados 478
6. Exerccios Resoluo 482

Captulo 4
Anlise das componentes principais e anlise fatorial

1. Introduo 516
2. Anlise das Componentes Principais (ACP) 518
3. Anlise Fatorial (AF) 519
3.1. Existncia de correlao e a adequao aos dados 520
3.2. Nmero de fatores a reter 521
3.3. Percentagem de varincia explicada pelos fatores retidos 522
3.4. Percentagem de varincia explicada por cada fator retido 522
3.5. Variveis pertencentes a cada fator 523
3.6. Variveis a reter 524
3.7. Indicadores da qualidade do modelo: GFI, AGFI e RMSR 525
3.7.1. Goodness of Fit Index (GFI): 526
3.7.2. AGFI 527
3.7.3. A Root Mean Square Residual (RMSR) dada por: 527

3.8. Representao grfica e interpretao dos fatores retidos 528


3.9. Explorao dos dados, outliers e respostas omissas 529

4. Anlise fatorial em escalas 530


5. Anlise da Consistncia Interna 531
5.1. Alpha de Cronbach 531
5.2. Coeficiente de Bipartio 532
5.3. Modelos Paralelo e Estritamente Paralelo 532
5.4. Guttman 533
5.5. Coeficiente de Correlao Intra Classes 533
6. Exerccios Enunciados 534
7. Exerccios Resoluo 538

Captulo 5
Anlise de clusters

1. Anlise de Clusters 575


2. Exerccios Enunciados 578
3. Exerccios Resoluo 579

Captulo 6
Anlise discriminante

1. Anlise discriminante 604


1.1. Pressupostos 604
1.2. Seleo das variveis explicativas 606
1.3. Nmero de funes discriminantes 608
1.4. Variveis explicadas por cada funo discriminante retida 609
1.5. Classificar casos e validar os resultados 610
1.6. Analisar as respostas omissas 611

2. Exerccios Enunciados 611


3. Exerccios Resoluo 612

Captulo 7
Regresso

1. Modelos de regresso 643


2. Modelo de Regresso Linear Simples MRLS 644
2.1. Pressupostos 645
2.2. Explorao dos dados 647
2.3. Estimao 650
2.4. Previso pontual e por intervalos 651
2.5. Medidas absolutas e relativas da qualidade do ajustamento 656
2.6. Teste t de Student 659
2.7. Teste F de Snedecor 661
2.8. Verificao das Hipteses do MRLS 662
2.8.1. Linearidade e transformaes 663
2.8.2. Normalidade 668
2.8.3. Homocedasticidade 669
2.8.4. Autocorrelao 673

2.9. Observaes outliers e influentes 676


2.9.1. Outliers 676
2.9.2. Observaes influentes 679

3. Escolha entre funes polinomiais 682


4. Relaes no lineares 688
4.1. Funo potncia: elasticidade constante 688
4.2. Funo logartmica 694
4.3. Funo exponencial: crescimento constante 696
4.4. Funo inversa ou hiperblica 702
4.5. Funo exponencial inversa 709

5. Permanncia de estrutura-MRLS 714


6. Variveis artificiais ou dummies 721
6.1. Determinao do nmero de variveis artificiais 721
6.2. Codificao das variveis artificiais 722
6.2.1. Categoria de referncia com o cdigo zero 722
6.2.2. Contrastes 722

6.3. Interaes 723

7. Multicolinearidade 737
7.1. Origens da multicolinearidade 738
7.2. Efeitos da elevada multicolinearidade 738
7.3. Oscilaes nas estimativas dos coeficientes 739
7.4. Medidas de multicolinearidade 740
7.5. Sugestes para suprir a elevada multicolinearidade 742
7.6. Interpretao dos coeficientes da reta estimada no MRLM 743

8. Coeficiente de determinao ajustado Ra2 743


9. Covarincia, R de Pearson, R de Spearman, correlaes parciais
e semiparciais 745
9.1. Covarincia 745
9.2. R de Pearson 747
9.3. R de Spearman 748
9.4. Correlaes parciais e semiparciais 749
10. Interpretao do teste F da Anova 751
11. Interpretao dos testes t e Fchange 752

12. Mtodos de entrada de variveis na regresso 754


12.1. Regresso mltipla standard (Method Enter): 755
12.2. Regresso hierrquica ou sequencial 755
12.3. Stepwise 756

13. Validao cruzada 757


13.1. R ao quadrado ajustado de Stein 757
13.2. Partio dos dados 758

14. Modelo de Regresso Linear Mltipla MRLM 772


14.1. MRLM sem violao dos pressupostos 773
14.1.1. Explorao dos dados 776
14.1.2. Estimao e previso 778
14.1.3. Hipteses do MRLM 786
14.1.4. Observaes Outliers e Influentes 790

14.2. 2SLS 794


14.3. WLS 798
14.3.1. Explorao da heterocedasticidade 801
14.3.2. Encontrar a fonte principal da heterocedasticidade 803
14.3.3. Escolha da potncia tima 804
14.3.5. Verificao da correo da heterocedasticidade 807

15. Permanncia de estrutura MRLM 808


15.1. MRLM com uma observao adicional 809
15.2. MRLM com m < k observaes adicionais: teste de Gregory Chow 812

16. Path analysis 816


17. Exerccios Enunciados 826
18. Exerccios Resoluo 830

Captulo 8
Testes t e intervalos de confiana para mdias

1. Introduo 867
2. Teste t de Student, intervalos de confiana para uma mdia
e clculo do nvel de significncia 869
3. Testes t de Student e intervalos de confiana para a diferena de mdias
em amostras independentes. Clculo do nvel de significncia 877
3.1. Teste t de Student e intervalos de confiana para a mesma varivel mtrica 877
3.2. Testes t de Student simultneos vs. regresso logstica binria 889

4. Teste t e intervalos de confiana em amostras emparelhadas 898


4.1. Vantagem das amostras emparelhadas vs. amostras independentes 899

5. Exerccios Enunciados 903


6. Exerccios Resoluo 905

Captulo 9
Testes no paramtricos

1. Introduo 923
2. Testes no paramtricos para amostras independentes 924
2.1. Teste da Binomial 924
2.1.1. Regio crtica unilateral 924
2.1.2. Regio crtica bilateral 927

2.2. Teste de aderncia do Qui-Quadrado 929


2.3. Teste de ajustamento de Kolmogorov-Smirnov 933
2.4. Teste de Wilcoxon para uma mediana 938
2.5. Teste de Mann-Whitney 941
2.5.1. Com empates 943
2.5.2. Sem empates 948

2.6. Teste de Kruskal-Wallis 952


2.7. Teste de independncia de Kolmogorov-Smirnov 959

3. Testes no paramtricos para amostras emparelhadas 964


3.1. Teste de McNemar 964
3.1.1. Diagonal secundria (b + c) > 20 966
3.1.2. Diagonal secundria (b + c) 20 969

3.2. Teste Q de Cochran 971


3.3. Teste do sinal 977
3.4. Teste de Wilcoxon 981
3.5. Teste de Friedman 985

4. Exerccios Enunciados 990


5. Exerccios Resoluo 991
Captulo 10
Anova, Ancova e Manova

1. Introduo 1007
2. One-Way Anova 1008
2.1. Pressupostos 1009
2.2. Anlise de varincia 1010
2.2.1. Deduo dos testes F 1012

2.3. Identificao das diferenas entre os grupos 1015


2.3.1. Tendncia 1015
2.3.2. Testes a posteriori ou Post-hoc 1025
2.3.3. Testes a priori ou contrastes planeados 1028
2.3.4. One-Way Anova em escalas de avaliao 1039

3. Anova fatorial 1046


3.1. Anova a dois ou mais fatores 1047
3.1.1. Decomposio do teste F 1048
3.1.2. Dimenses semelhantes versus diferentes 1050
3.1.3. Vantagem da Anova versus One-Way Anova 1051

3.2. Testes a posteriori ou Post-hoc 1052


3.3. Testes a priori ou contrastes planeados 1052
3.3.1. Efeitos principais 1053
3.3.2. Efeitos interativos 1054
3.3.3. Explorao dos dados 1057
3.3.4. Comparao de disperses 1062
3.3.5. Comparao de mdias 1063
3.3.6. Qualidade do modelo 1064
3.3.7. Testes a priori ou constrastes planeados 1065
3.3.8. Testes a posteriori ou Post-hoc 1072

4. Ancova 1074
4.1. Pressupostos da Ancova 1074
4.2. Modelo estimado 1075
4.2.1. Normalidade e homocedasticidade 1078
4.2.2. Associao linear 1081
4.2.3. Mdias da concomitante por categoria do fator 1083
4.2.4. Homogeneidade dos declives 1084
4.2.5. Resultados do modelo estimado 1085
4.2.6. Heterogeneidade dos declives 1094
5. Manova 1098
5.1. Pressupostos da Manova 1099
5.2. Testes multivariados 1100
5.2.1. Explorao dos dados 1104
5.2.2. Testes multivariados 1106
5.2.3. Um fator e quatro endgenas: avaliao dos pressupostos 1109
5.2.4. Paralelismo dos perfis 1112
5.2.5. Nveis dos perfis 1114
5.2.6. Achatamento dos perfis 1114

6. Exerccios Enunciados 1118


7. Exerccios Resoluo 1125

Captulo 11
Medidas repetidas

1. Anlise de varincia de medidas repetidas: hipteses 1184


2. Pressupostos 1186
3. Efeitos e consistncia interna 1187
3.1. Explorao dos dados 1189
3.1.1. Normalidade 1192
3.1.2. Covarincias 1192
3.1.3. Esfericidade 1193
3.1.4. Consistncia interna 1193

3.2. Comparao de mdias 1195


3.3. Testes Post-hoc: comparao dos efeitos interativos 1198
3.4. Testes Post-hoc: Comparao dos efeitos principais 1200
3.5. Testes a priori 1204

4. Exerccios Enunciados 1206


5. Exerccios Resoluo 1209

Bibliografia 1233
Prefcio

Apesar do pioneirismo encetado em 1998 com a 1 edio deste livro em lngua


portuguesa, esta sexta edio no se fica pela reedio das anteriores, apresentando
uma verso inovadora e aumentada, cujas principais alteraes so a seguir indicadas.
De forma a facilitar a consulta do livro, introduziu-se um esquema global que identi-
fica os os captulos.
Cada captulo inicia-se com o respetivo esquema, complementado com os aspetos
relevantes, terminando com novos exerccios propostos e resolvidos, para alm dos que
acompanham a explicao terica.
Estes novos exerccios permitem no s uma consolidao da matria exposta,
como simplificam a complexidade da estatstica, devido s associaes que estabele-
cem com outros captulos.
Substituram-se as tabelas das distribuies tericas, pelas obtidas de forma efi-
ciente e expedita pelo IBM-SPSS, aplicveis a qualquer dimenso da amostra ou a
qualquer probabilidade, permitindo o clculo dos nveis de significncia, do erro tipo II e
da funo potncia associadas a cada deciso.
A introduo ao IBM-SPSS foi substancialmente actualizada de forma a torn-la
mais amigvel para um iniciado, apresentando vrias situaes a que a ele se pode
recorrer, com explicao passo a passo, evidenciando-se o seu vasto manancial de
recursos.
O Captulo 1 inclui agora o ndice de Gini e as mdias harmnicas e geomtricas,
bem como a anlise das respostas omissas. Adicionaram-se os fundamentos para a
inferncia, distinguindo os testes paramtricos dos no paramtricos, definindo-se a
desigualdade de Chebychev, os estimadores, as distribuies amostrais e as estima-
es: pontual, por intervalos e ensaio de hipteses.
O Captulo 2 inclui agora o teorema de Bayes e a curva ROC. O Captulo 3 engloba
tambm o MDS. No captulo da regresso foram adicionados a permanncia de estru-
tura, os modelos 2SLS e WLS.
Sem sacrificar o rigor que procurmos imprimir abordagem das diversas tcnicas,
a metodologia usada, resultante de uma experincia acadmica e profissional de alguns
anos nesta rea, centrou-se na exposio to fcil quanto possvel das matrias e na
sua ilustrao com recurso a exemplos prticos de modo a tornar acessvel o texto a
uma vasta gama de leitores, incluindo aqueles com menos bases de matemtica.
Todos os captulos foram objeto de aprofundamento, transformando-o no manual
mais completo e de fcil manuseamento em lngua portuguesa, indispensvel anlise
estatstica dos dados.
Ainda que este livro seja da inteira responsabilidade dos autores, o seu contedo
resultou em larga medida da leitura de obras de autores nacionais e estrangeiros, bem
como das inmeras discusses tidas ao longo do tempo com muitas das pessoas com
que habitualmente trabalhamos. O seu contributo em muito melhorou o nosso entendi-
mento dos mltiplos aspetos relacionados com o tema.
Queremos a todos agradecer. Em primeiro lugar s Edies Slabo, que acreditaram
e tiveram o otimismo necessrio para tornar possvel este livro. Ao Dr. Joo Pequito e
Dra. Sandra Baro da PSE, que contriburam para a atualizao e apoio ao suporte
informtico.
Tambm no hesitamos em agradecer aos nossos alunos, colegas e leitores que
nos estimulam com as suas crticas e sugestes sempre oportunas, que contriburam
para o aperfeioamento dos temas aqui tratados.
Uma palavra de apreo ao incansvel amigo e consultor Dr. Antnio Alexandre
Sequeira, cuja competncia e disponibilidade em muito tem contribudo para o bom fun-
cionamento dos nossos computadores.
Finalmente uma saudao nossa famlia pelo apoio e compreenso manifestado
nas ausncias devido s muitas horas de trabalho dedicadas feitura do livro e em
especial nossa fonte inspiradora, o Manuel Pestana Gageiro.
De novo se deixa o endereo e-mail: gageiropestana@gmail.com com a finalidade
da continuao do proveitoso dilogo entre os leitores e os autores.
Pode descarregar os ficheiros das bases de dados do IBM-SPSS referenciadas ao
longo do texto, na pgina do livro em www.silabo.pt.

Os autores
Criar/transformar/introduzir
Introduo ao IBM-SPSS
Juntar/validar/importar/salvar

Variveis nominais
Variveis
qualitativas
Estatstica Cap. 1 Estudo
Variveis ordinais
descritiva/inferencial univariado

Variveis quantitativas/mtricas

Testes do qui-quadrado

Relao entre duas ou mais variveis Tabelas de contingncia


Cap. 2 Cap. 2 Medidas de associao
quantitativas (sem efeitos interativos) (T. Bayes)

Curva ROC

Tipologias
Semelhana/diferena entre duas ANACOR
Cap. 3 MCA
ou mais variveis quantitaitivas
Grficas MDS

Reduo do n. de variveis quantitativas Cap. 4 Anlise Fatorial Criao de ndices

Criao de grupos homogneos de casos em funo de variveis quantitativas Cap. 5 Anlise de clusters

Diferena entre dois ou mais grupos em funo de variveis quantitativas Cap. 6 Anlise discriminante

Modelos
Variveis quantitativas em funo de outras variveis quantitativas Cap. 7
de regresso linear

Amostras Anlise
Cap. 10
independentes de varincia
Uma ou mais variveis quantitativas em funo
de 1 ou mais variveis quantitativas
Amostras Anlise de varincia
Cap. 11
emparelhados de medidas repetidas

Amostras
independentes
Comparao de uma ou mais mdias Cap. 8 Testes t
Amostras
emparelhados

Distribuies Amostras
independentes
Testes no
Comparao de Propores Cap. 9
paramtricos
Amostras
Mdias de dois ou mais grupos emparelhados
Introduo

Ficheiro de dados Definio de variveis e casos Visionamento


Nmero do questionrio
Transformao Criar variveis
Agregar categorias
Inverter a ordem
Contar casos
Substituir respostas omissas
Juno Casos
Variveis
Validao
Organizao Sort cases
Split file
Ajudas
Utilidades

A estatstica um instrumento matemtico necessrio para recolher, organizar,


apresentar, analisar e interpretar dados.
Neste captulo de iniciao ao IBM-SPSS, explica-se nomeadamente o acesso a um
ficheiro de dados, a introduo dos dados e das variveis, a juno de ficheiros, a defi-
nio e organizao de dados, a edio de informao, a transformao das variveis, a
inverso das escalas, a reconverso de escalas numricas em categricas, a recodifi-
cao de dados, a contagem de casos, a substituio de respostas omissas aleatrias e
a utilizao de grficos na explorao de dados.
22 ANLISE DE DADOS PARA CINCIAS SOCIAIS

1. Iniciao ao IBM-SPSS
O IBM-SPSS um programa informtico amigvel e poderoso de apoio estatstica
e vai servir de suporte s aplicaes prticas apresentadas neste livro.

1.1. Ficheiro de dados


Para trabalhar com os ficheiros do IBM-SPSS que constam do livro, deve aceder
previamente ao link da Editora Slabo da seguinte maneira:
www.silabo.pt/ Edies Slabo Catlogo Estatstica

Aps localizar este livro, sobrepe-se-lhe o cursor e com dois cliques surge a infor-
mao:
Descarregar aqui os ficheiros Abrir

Entra-se em aqui para descarregar os ficheiros, onde se abrem e copiam para uma
diretoria do computador do leitor.
Os ficheiros com os dados identificam-se pelo nome que lhes atribudo seguido da
extenso (.sav) e so exibidos no Data Editor.

1.2. Definio de variveis e casos


Para se aceder a qualquer ficheiro deve previamente entrar-se na pasta que o con-
tm, cuja denominao corresponde ao respetivo captulo neste livro.
Para obter o ficheiro Portugal.sav, escolhe-se no ambiente de trabalho do Windows
as seguintes instrues que contm a negrito as escolhas do leitor e que por sua vez
originam a janela abaixo:

Start Programs IBM SPSS Statistics File Open Data


Captulo-Introduo File Name Portugal.sav Open
INTRODUO 23

File o ficheiro que permite criar bases de dados, aceder aos dados j criados,
export-los, salv-los, imprimir ficheiros, conhecer os ficheiros recentemente utilizados
tanto de dados como de resultados (outputs), sair da base de dados.
Para guardar a base de dados faz-se: File Save as File Name Portugal Save
Para sair da base de dados faz-se: File Exit
Sempre que se pretende voltar a aceder a este ficheiro do IBM-SPSS deve fazer-se:
File Open Data File Name Portugal.sav Open

O Data Editor desdobra-se no Data View, onde se inserem os dados, e no Variable


View onde se definem as variveis.
O Variable View dispe de linhas destinadas a definir ou a alterar as caractersticas
das variveis, e inclui as seguintes informaes, aqui concretizadas para o ficheiro Por-
tugal.sav:

O nome da varivel (Name), dever iniciar-se por uma letra. Por exemplo, nmero,
ms, pas.
O tratamento estatstico depende da natureza da varivel indicada em Measure, que
pode ser nominal, ordinal ou quantitativa (Scale).
O tipo de varivel (Type), pode ser numeric, comma, dot, scientific notation, date,
dollar, custom currency e string. Por facilidade de tratamento estatstico, as variveis
introduzem-se na base de dados atravs de nmeros, assumindo o Type numeric. No
caso das variveis qualitativas nominais ou ordinais, esses nmeros correspondem s
suas categorias e no caso das quantitativas ou mtricas correspondem aos seus valo-
res.
24 ANLISE DE DADOS PARA CINCIAS SOCIAIS

Se as variveis fossem introduzidas por carateres alfabticos, por exemplo, para a


varivel Hotis introduzidos como uma, duas, trs, quatro e cinco estrelas, cujo Type
string, teriam de ser transformadas em cdigos numricos, passando a varivel trans-
formada a designar-se por HotisR, conforme no ficheiro Portugal_string.sav:

Transform Automatic Recode Variable Hotis New Name


HotisR Recode Starting from Lowest value OK

O tipo de varivel inclui ainda a definio da sua largura (Width) e do nmero de


casas decimais (Decimal Places). Por exemplo, a varivel ms est codificada como
numricas, com valores 1 (janeiro), 2 (fevereiro),..., 12 (dezembro).
Escolhe-se o valor 1 para largura, quando exista apenas um dgito para representar
a varivel, e o valor 0 para representar zero casas decimais, por serem inexistentes.
A etiqueta ou rtulo da varivel (Label), que serve simplesmente para melhor expli-
car o nome da varivel, pode ir at 256 carateres identificativos do nome das variveis.
Por exemplo, Label residncia habitual dos turistas como explicativo do nome regio.
Os cdigos utilizados (Values), so de grande utilidade quando se opera com vari-
veis qualitativas, onde os nmeros apenas definem as categorias da varivel.
O Value Labels divide-se em dois itens: Value, onde se insere o cdigo das catego-
rias e Value Label, onde se insere o seu significado. Por exemplo, dado que 1 significa
janeiro, inscreve-se no Value o valor 1 e no Value Label a palavra janeiro, seguida de ADD.
As respostas omissas ou no respostas (Missing), servem para identificar a informa-
o em falta, mas tambm podem ser utilizadas para excluir valores ou categorias da
anlise estatstica.
O utilizador pode definir como Missing Values as trs modalidades seguintes: a primeira
at trs valores individuais; a segunda um intervalo de valores; a terceira um valor individual
e um intervalo de valores. O intervalo de valores s se aplica a variveis numricas.
Admitindo que h omisses na identificao do ms e que se quer proceder an-
lise de todo o ano com exceo de dezembro, cujo cdigo 12, ento introduz-se no
Discrete missing values os nmeros 99, indicador de omisses na resposta para ms, e
12 para excluir da anlise dezembro, premindo-se OK.
Para identificar as no respostas, nas variveis de Type Numeric, usam-se nmeros
que no pertenam base de dados. J nas variveis Type String os campos vazios
no so automaticamente considerados missings, pelo que tm de ser preenchidos,
habitualmente por NR (no resposta) no Data View e introduzido NR, na coluna Missing
do Variable View.
Retomando o ficheiro Portugal_string.sav, verificam-se omisses na categoria dos
hotis correspondentes a N 35 e N 40, que foram substitudas por NR como se mostra:
INTRODUO 25

Aquando da recodificao automtica da varivel alfabtica Hotis em numrica


HotisR, o programa assume automaticamente o cdigo 6 para NR, visto ser aquele que
sucede ltima categoria de 5 estrelas:

O formato da coluna (Columns) controla simultaneamente a largura da coluna


(Width) que aparece no Data Editor bem como o alinhamento dos valores (Text align-
ment). Se a largura definida for insuficiente, aparecem asteriscos em vez dos nmeros.
A disposio dos dados pode alinhar-se (Align) esquerda, direita ou ao centro.
Aps a definio das variveis, no Data View introduzem-se os dados, onde aqui se
apresentam apenas dois questionrios de entre 286 respondidos. Cada linha do ficheiro
corresponde um caso, pelo que os dados referentes ao mesmo caso se inscrevem
nessa linha.
Cada coluna do Data View corresponde a uma varivel, sendo os dados referentes
mesma varivel inscritos nessa coluna.
Neste ficheiro as variveis so: Nmero do questionrio (N), pas de residncia
(Pas), ano da estada (Anos), categoria do hotel (Hotis), nmero de dormidas (Dormi-
das), nmero de hspedes (Hspedes), regio donde proveem (regio).
26 ANLISE DE DADOS PARA CINCIAS SOCIAIS

O nmero do questionrio, obtido pelo comando seguinte, deve ser sempre includo
na anlise, pois quando ocorrem erros de introduo ou codificao de dados, ou
quando existe omisso de respostas, ou ainda quando h observaes aberrantes, a
utilizao desta varivel permite identificar de imediato os respetivos respondentes:

Transform Compute Variable Target Variable: N Function group: All


Functions and Special Variables: $casenum Numeric Expression
$casenum OK
INTRODUO 27

Sobrepondo o cursor sobre cada uma das variveis em coluna, visiona-se a descri-
o da sua identificao, aqui feita para a varivel Hotis.
O Menu principal permite passar do Data View para o Variable View ou vice-versa,
sobrepondo o cursor no canto inferior esquerdo do ecr, ou alterar permite ainda os
carateres da fonte, ou modificar a apresentao da barra de ferramentas.
O visionamento no Data View dos dados em termos dos labels (cdigos) ou dos value
labels (etiquetas) obtm-se atravs de: View Value Labels
O comando Window permite aceder base de dados, aos Outputs, Syntax, ou
minimizar/maximizar as janelas onde se opera.

1.3. Anlise estatstica


O comando Analyze tem por finalidade selecionar os procedimentos estatsticos a
usar na anlise de dados, como por exemplo, tabelas de frequncias, explorao e
descrio dos dados, testes paramtricos e no paramtricos, medidas de associao e
de correlao, modelos de regresso linear, no linear, logstica, curva ROC, previso,
sucesses cronolgicas, anlise de sobrevivncia, anlise fatorial, cluster, discriminante,
pirmides etrias.
Admitindo que se pretende uma tabela de frequncias dos hotis, procede-se da
seguinte maneira:

Analyze Descriptive Statistics Frequencies Variable(s) Hotis


Display frequency tables OK

Sobrepondo o cursor para cada varivel, pode-se alterar a disposio pretendida


como se mostra na janela superior para a varivel Hospedes.
A varivel Hotis que estava na janela esquerda, passa atravs da seta para o lado
direito seguido de OK, que origina o painel de resultados (Output1) o qual se subdivide
em duas janelas: a do lado esquerdo que resume o contedo dos resultados, enquanto
que a do lado direito mostra a informao estatstica pedida.
28 ANLISE DE DADOS PARA CINCIAS SOCIAIS

Querendo obter a listagem dos casos recorre-se ao comando:

Analyze Reports Case Summaries

1.4. Grficos
Os grficos complementam a anlise exploratria dos dados atravs de figuras e
devem adequar-se informao que pretendem representar, de forma a clarificar a sua
compreenso, tendo em conta o publico a que dirigido.
So exemplos de grficos os: de barras e circulares, para representar percentagens
e contagem de casos; os de linhas para representar mdias; o diagrama de disperso
(scatter) para comparar duas variveis mtricas; o histograma para representar vari-
veis mtricas contnuas; a caixa de bigodes para comparar de forma robusta duas distri-
buies em termos de quartis; o grfico de erro, para representar simultaneamente uma
medida de localizao (mdia) com uma medida de disperso (desvio padro, erro
padro ou intervalo de confiana para a mdia), o grfico de sequncia para analisar o
comportamento das variveis ao longo do tempo.
Os grficos so explicados com mais pormenor ao longo do livro e podem obter-se
diretamente atravs do menu principal clicando em Graphs, o qual alerta para a correta
especificao da natureza das variveis contidas na coluna Measures do Variable View,
seguido de Chart Builder.
Exemplificando, caso se pretenda visualizar a percentagem das categorias de hotis
por anos, aps selecionar o grfico de barras arrasta-se com o cursor para o Chart pre-
view, onde no canto superior direito em Cluster se introduz Hotis, na ordenada Per-
centage e na abcissa Anos, finalizando com OK. O grfico finalizado surge na janela dos
Outputs.
Habitualmente para comparar contagens os grficos de barras so de mais fcil per-
ceo das diferenas do que os circulares.
INTRODUO 29

1.5. Ajudas
O menu Help tem como funo esclarecer dvidas do leitor e aparece em todas as
caixas de dilogo do programa bem como no Menu principal que se mostram subdividi-
das num painel de duas janelas, onde escolhendo um assunto do lado esquerdo apa-
rece a sua explicao do lado direito.
O Topics exibe um painel sobre os tpicos e sua explicao; o Tutorial contm uma
ajuda por assunto; a Command Syntax Reference mostra as instrues de construo dos
resultados, a Programmability permite o acesso a outras linguagens informticas ligadas
ao IBM-SPSS; o Case Studies apresenta casos prticos de procedimentos estatsticos
seguidos de algumas interpretaes; o Algorithms apresenta as frmulas subjacentes
aos modelos; o Statistics Coach encaminha para o grfico ou para o procedimento esta-
tstico anlogo ao que o leitor pretende fazer, marcado a sombreado na janela seguinte.
30 ANLISE DE DADOS PARA CINCIAS SOCIAIS

1.6. Juno de informao de dois ficheiros


O IBM-SPSS permite juntar informao contida em ficheiros de texto ou em bases
de dados, referentes a novas variveis ou a novos casos quer sejam provenientes de
ficheiros do IBM-SPSS ou de outros programas informticos.

1.6.1. Juno de variveis


Admitindo que se pretende adicionar ao ficheiro Portugal.sav informao sobre novas
variveis contidas na folha de clculo Excel Portugal.xls, procede-se em trs etapas:

1 Etapa Acede-se ao ficheiro para onde se pretende importar a informao, neste


caso Portugal.sav, atravs da instruo:

File Open Data PortugalR.sav

2 Etapa Entra-se no ficheiro Excel que contm a informao a exportar, que se con-
verte num ficheiro.sav.
Para tal, em Files of type escolhe-se Excel conforme assinalado a sombreado:
INTRODUO 31

Escolhe-se o ficheiro aqui com o mesmo nome com extenso.xls, que se introduz na
janela em branco File Name, originando:

Premindo Open abre-se a janela onde est selecionada a leitura do nome das vari-
veis que constam da primeira linha dos dados da folha do Excel pretendida, seguida de
OK que conclui a importao para um novo ficheiro designado Untitled1.sav.

Este ficheiro foi renomeado atravs do comando com o nome inscrito a negrito:

File Save as File Name Portugal_estada.sav Save


3 Etapa Juntam-se os dois ficheiros com extenso .sav.
Para diferenciar o ficheiro Portugal.sav inicial aquele que resultar da adio da
informao, faz-se uma cpia denominada PortugalR.sav.
Aps se ter assegurado que ambos os ficheiros esto ordenados da mesma forma,
aqui por ordem crescente do nmero de identificao (N) que vai servir de varivel
chave para a juno dos dois ficheiros com extenses .sav, entra-se no ficheiro copiado
PortugalR.sav seguido dos comandos:

Data Merge Files Add Variables

Abre-se a seguinte caixa de dilogo onde se sobrepe o cursor sobre o ficheiro que
se pretende exportar, tornando-o sombreado.
32 ANLISE DE DADOS PARA CINCIAS SOCIAIS

Premindo Continue acede-se caixa de dilogo, onde as variveis com o mesmo


nome em ambos os ficheiros so identificadas com (+) que por serem as mesmas no
so importadas. Tal justifica a janela da esquerda Excluded Variables.
O ficheiro ativo PortugalR.sav contm agora as variveis iniciais acrescidas da
varivel Estada e constam da janela da direita no New Ative Dataset:

O IBM-SPSS emite o aviso sobre a necessidade de ambos os ficheiros terem a


mesma ordenao de emparelhamento atravs da varivel chave N:

Como ambos os ficheiros com extenso .sav esto ordenados com a mesma ordem
crescente, prime-se OK. Surge o ficheiro PortugalR.sav agora acrescido da varivel
Estada, como se mostra um excerto:
MARIA HELENA PESTANA professora do ISCTE desde 1982.
doutorada em Mtodos Quantitativos de Gesto, na rea de Pes-
quisa de Mercados. investigadora em Estatstica, Econometria, e
Anlise de Dados aplicados nos domnios de Demografia, Econo-
6
EDIO
MARIA HELENA PESTANA
JOO NUNES GAGEIRO
mia, Finanas, Gerontologia, Gesto, Psicologia, Sade, Sociologia,
e Turismo. autora de livros e de vrios artigos cientficos em publi-

PARA CINCIAS SOCIAIS


ANLISE DE DADOS
A Complementaridade do SPSS
caes nacionais e estrangeiras.

JOO NUNES GAGEIRO, licenciou-se em Organizao e Gesto


de Empresas no ISCTE e concluiu o curso Hotel and Hospitality
Management, da Universidade de Cornell em Ithaca (NY), nos
EUA. investigador em Turismo e Anlise de Dados aplicados nos
domnios de Economia, Finanas, Gerontologia, Gesto, Psicologia,
Sade e Sociologia. autor de livros e de vrios artigos cientficos
ANLISE DE DADOS
PARA
em publicaes nacionais e estrangeiras.

Este livro, fruto da experincia acadmica Gini, Bayes, CV, MAD


e profissional dos autores, foi agora, nesta
6 edio, enriquecido com esquemas,
resumos e 157 aplicaes prticas, que
Mdias: ponderada/aparada/
/geomtrica/harmnica
Outliers/influncia/resduos
ndices
CINCIAS SOCIAIS
inovam nas associaes que estabele- Contrastes/tendncia
cem entre os diferentes captulos, simpli-
ficando e consolidando os temas neles
Variveis artificiais
Cluster A Complementaridade do SPSS
tratados, tornando-o acessvel a todos ANOVA/MANOVA/ANCOVA
os leitores, mesmo aqueles com poucas Medidas Repetidas
Fatorial
bases de matemtica, estatstica e infor-
Missings/padres/substituio
mtica.
A introduo da syntax do IBM-SPSS per-
OR, RR, sensibilidade,
prevalncia A obra

6
mite, para qualquer distribuio e dimen- Curva ROC

so da amostra, calcular todas as proba-


MRLS, MRLM, 2SLS, WLS,
Logstica
de referncia
bilidades associadas, identificar os acon-
tecimentos mais provveis, determinar
Path analysis
Discriminante da Anlise
os erros e a potncia do teste, bem como Amostras independentes/
recorrer tanto s distribuies exatas como /emparelhadas de Dados em
s aproximadas.
T, F, Normal, Qui-Quadrado
MDS/MCA/ANACOR EDIO Portugal
Importncia particular dada partici- Deciso/sig/potncia
pao ativa do leitor, tornando o livro Syntax/Estimao/EMV
estimulante e til para todos os que a ele Testes paramtricos/ Revista,
/no paramtricos
recorram. Graphs Atualizada
e Aumentada
A publicao desta obra teve o apoio: Ficheiros SPSS para download

www.silabo.pt ISBN 978-972-618-775-2


26

9 789726 187752 EDIES SLABO