Anda di halaman 1dari 119

O AMBIENTE DO SPSS - Captulo 2 EXPLORANDO OS DADOS Captulo 3

Andy Field

Grupo de Estatstica Aluna: Natlia Ambrsio

Um pouco da histria do SPSS


1970 Populariza em instituies de educao superior nos EUA

1984

SPSS/PC (1984, em DOS. Primeira verso para computador porttil) SPSS/PC+ (1986 (em DOS)

1992 verso 6 16

SPSS Statistics 17 (Windows & Mac) PASW Statistics 17 IBM SPSS Statistics 18 IBM SPSS Statistics 19 IBM SPSS Statistics 20

O EDITOR DE DADOS

V direto a um caso
V direto a uma varivel

Informaes sobre uma varivel

Inserir um novo caso no editor de dados


Cria uma nova varivel a esquerda

Dividir o arquivo
Selecionar casos Ponderar casos

Mostrar ou ocultar rtulos das variveis

O EDITOR DE VARIVEIS

Criando uma varivel


Organizao do editor do SPSS: Cada linha reprenta os dados de um objeto (indivduo) enquanto que cada coluna representa uma varivel

Criando uma varivel


Qualquer varivel medida sobre os mesmos participantes (uma medida repetida) deve ser representada por vrias colunas (cada coluna representando um nvel da varivel de medidas repetidas). Entretanto, qualquer varivel que define grupos diferentes de pessoas (como ocorre com o delineamento entre grupos utilizado e diferentes participantes so atribudos a diferentes nveis da varivel independente) definida utilizando uma nica coluna.

INTERPRETANDO

VARIVEIS CODIFICADAS OU AGRUPADORAS

Nveis de medida

Nominal os nmeros apenas representam nomes (Ex.: sim ou no, categorias, varivel codificadora)

Ordinal Informa que as coisas ocorreram e tambm a ordem em que elas ocorreram
Escalar Dados medidos por uma escala com determinados valores (Ex.: escore de 1 a 10)

EXPLORANDO DADOS Captulo 3

No ter pressa ao analisar os dados Explorar os dados Checar algumas hipteses bsicas

Muitos dos procedimentos estatsticos descritos no livro so testes paramtricos baseados na distribuio normal

TESTES PARAMTRICOS
Se voc utiliza um teste paramtrico quando seus dados no so paramtricos, os resultados talvez no sejam apropriados.

HIPTESES DOS TESTES PARAMTRICOS


Dados normalmente distribudos Homogeneidade de varincia Dados por intervalo Independncia

HIPTESES DOS TESTES PARAMTRICOS


Dados normalmente distribudos

HIPTESES DOS TESTES PARAMTRICOS


Homogeneidade de varincia

Em delineamentos correlacionais, essa hiptese significa que a varincia de uma varivel deve ser estvel em relao a todos os nveis da outra varivel

HIPTESES DOS TESTES PARAMTRICOS


Dados por intervalo Os dados devem ser mensurados pelo menos ao nvel ordinal, a distncia entre os pontos da sua escala deve ser igual em todas as partes ao longo da escala Ex.: Escala de ansiedade

1 2 3 4 5 6 7 8 9 10

HIPTESES DOS TESTES PARAMTRICOS


Independncia
Os dados independentes de participantes diferentes so

O comportamento de um participante influencia no comportamento do outro

no

DADOS DISTRIBUDOS NORMALMENTE


Podem ser representados por uma curva normal

Apontando erros bvios utilizando HISTOGRAMAS

APRESENTANDO DADOS GRAFICAMENTE

Testar a hiptese de dados normalmente distribudos


Arquivo: GlastonburyFestival.sav

Testar a hiptese de dados normalmente distribudos


O SPSS possui diferentes opes para construo de grficos: Graphs
HISTOGRAMA: Visualizar a forma dos dados Graphs Interative Histograma DIAGRAMA DE CAIXA DE BIGODES: Encontrar valores atpicos Graphs Boxplot

Identificando valores atpicos

Corrigindo um valor digitado errado

Criar novamente os histogramas e observar os dados

CURVA NORMAL

Sequncia
Testar a hiptese de normalidade Olhar para a distribuio da amostra Plotar com que frequncia cada escore ocorre Corrigir erros nos dados Detectar valores atpicos

ESTATSTICA DESCRITICA
Anlisado as distribuies dos escores Detectado e corrigido um valor digitado incorretamente

Detectar valores atpicos Analyze Descriptive Statistics Frequencies

Output
N Valid Missin g

Statistics
Hygiene (Day 1 of Glastonbury Festival) Hygiene (Day 2 of Glastonbury Festival) Hygiene (Day 3 of Glastonbury Festival)

810 0
1,7711 ,02437 1,7900 2,00 ,69354 ,481 -,004 ,086 -,410 ,172 3,67 ,02 3,69

264 546
,9609 ,04436 ,7900 ,23 ,72078 ,520 1,095 ,150 ,822 ,299 3,44 ,00 3,44

123 687
,9765 ,06404 ,7600 ,44a ,71028 ,504 1,033 ,218 ,732 ,433 3,39 ,02 3,41

Mean Std. Error of Mean Median Mode Std. Deviation Variance Skewness Std. Error of Skewness Kurtosis Std. Error of Kurtosis Range Minimum Maximum

a. Multiple modes exist. The smallest value is shown

ASSIMETRIA E CURTOSE
Os valores devero ser 0 em uma distribuio normal

Valores de assimetria positivos indicam uma concentrao de valores esquerda enquanto um valor negativo mostra uma concentrao de valores a direita Valores positivos da curtose indicam uma distribuio pontiaguda e valores negativos indicam uma achatada Quanto mais distantes estes valores estiverem de 0, maior a possibilidade de que os dados no sejam normais

Comparando valores
Nem todos os valores coletados tem mdia 0 e desvio padro 1

Os valores reais da assimetria e curtoses no so eles prprios, informativos. Precisamos padronizar os valores, isto , transform-los em escore-z.

O z-Score, nada mais do que o nmero de desvios da mdia

PADRONIZAO
Uma maneira de olhar as distribuies de frequncias em termos de probabilidade

Fornecer uma idia da probabilidade de um dado escore acontecer.

Processo de converter o escore bruto de uma distribuio em escore z

O que o ESCORE Z ????


Escore padronizado Ajuda a entender onde um determinado escore se encontra em relao aos demais numa distribuio Indica o quanto acima ou abaixo da mdia um escore
est em termos de

unidades padronizadas de

desvio padro

ESCORE-Z
Se voc conhece o z, voc pode descobrir qual a proporo de casos que corresponde a ele ou, se voc conhece a proporo de casos. Voc pode descobrir qual o z que lhe corresponde

Statistics
Hygiene (Day 1 of Glastonbury Festival) Hygiene (Day 2 of Glastonbury Festival) Hygiene (Day 3 of Glastonbury Festival)

Valid Missin g

810 0
1,7711 ,02437 1,7900 2,00 ,69354 ,481 -,004 ,086 -,410 ,172 3,67 ,02 3,69

264 546
,9609 ,04436 ,7900 ,23 ,72078 ,520 1,095 ,150 ,822 ,299 3,44 ,00 3,44

123 687
,9765 ,06404 ,7600 ,44a ,71028 ,504 1,033 ,218 ,732 ,433 3,39 ,02 3,41

Mean Std. Error of Mean Median Mode Std. Deviation Variance Skewness Std. Error of Skewness Kurtosis Std. Error of Kurtosis Range Minimum Maximum

a. Multiple modes exist. The smallest value is shown

FRMULA PARA CALCULAR O ESCORE Z

ESCORE Z da Assimetria
Escore Z da Assimetria 1 dia -0,004/0,086 = 0,047 2 dia 1,095/0,150 = 7,300 3 dia 1,033/0,218 = 4,739

Os dois ltimos valores esto acima de 3,59, o valor limite da distribuio normal padro, pois, esta distribuio coloca 99,9% entre 3,59

Interpretando
APNDICE Escore-z do primeiro dia 0,047
Poro menor (rea acima do valor 0,047): 0,4840 48,40% dos escores esto concentrados acima de 0,047

Poro maior: 0,5159

ESCORE Z da Curtose
Escore Z da Curtose
1 dia = -2,38 2 dia = 2,75 3 dia = 1,69

Curtose significatica em todos os trs dias

Concluso da hiptese de dados normalmente distribudos


A distribuio normal e os escores-z nos permitem ir, um passo alm dos nossos dados, no sentido que de um conjunto de escore podemos calcular a probabilidade

que um determinado escore ir acontecer.

Como observar no output a frequncias dos dados ?

1% 15,4%

2% dia 63,3%

Procurar valores atpicos

VALORES ATPICOS
Olhar o diagrama de caixa de bigodes
Ou olhar os escores-z

25%

50%

25%
Mediana

UTILIZANDO OS ESCORES Z PARA ENCONTRAR VALORES ATPICOS


Analyze Descriptive Statistics Descriptives

O SPSS criar uma nova varivel. Utilizamos estes escores e contamos quantos escores esto situados dentro de certos limites previamente definidos

Considerar valores absolutos, e em uma distribuio normal esperaramos que 5% acima de 1,96, 1% acima de 2,58 e praticamente nenhum acima de 3,59

O que fao se meus dados no so normais ?

CORRIGINDO PROBLEMAS NOS DADOS


Remover o caso
Apagar os dados da pessoa que forneceu os
valores atpicos

Mas, ser que esse valor no representante


da populao???

CORRIGINDO PROBLEMAS NOS DADOS


Transformar os dados
Reduzir o impacto dos valores atpicos

CORRIGINDO PROBLEMAS NOS DADOS


Substituir o valor Mude o dado para uma unidade maior do que o prximo valor mais alto do conjunto de dados Inverta o escore-z X= z * s+
A mdia mais dois desvios padro

CORRIGINDO PROBLEMAS NOS DADOS


De todas as opes - transformar os dados talvez a melhor, pois em vez de mudar um nico valor, um alterao feita em todos eles
Voc no est apenas selecionando um escore para ser alterado, mas fazendo algo para reduzir o impacto dos valores extremos A idia mudar todos os dados para corrigir problemas relacionado ao modelo ou valores atpicos

FUNO

NOME

EXEMPLO (ENTRADA)

SADA

MEAN
(?, ?, ..)

Mdia

Mean (day1, day2, day3)

Para cada linha, o SPSS calcula o valor mdio dos escores da higiene ao longo dos trs dias do festival

SD
(?, ?,..)

Desvio Padro

SD(day1, day2,day3)

Para cada linha, o SPSS calcula o desvio padro dos valores nas colunas rotuladas como day1, day2 e day3

SUM
(?, ?,..)

Soma
Raiz Quadrada Valor Absoluto

SUM (day1, day2)


SQRT (day2) ABS(day1)

Para cada linha, o SPSS adiciona o valor das linhas das colunas denominadas day1 e day2
Produz uma nova coluna que contm a raiz quadrada de cada valor da coluna denominada day2. Produz uma varivel que contm o valor absoluto dos valores da coluna denominada day1 (valores absolutos so aqueles em que todos os resultados so positivos. Assim, 5 torna-se 5.

SQRT
(?)

ABS
(?)

LG10
(?)

CORRIGINDO PROBLEMAS NOS DADOS


Transformao logartmica (log (Xi))
Tomar o logaritmo de um conjunto esmaga a cauda direita da distribuio uma boa maneira assimetrica positiva de reduzir uma

TRANSFORMANDO OS DADOS UTILIZANDO O SPSS


Transform Compute variable

logday

(varivel +1)

FUNO

LOG10(day1+1) O menor valor 0, soma-se o 1 para assegurar que todos os valores sejam maiores que 0

EXPLORANDO GRUPOS DE DADOS


Algumas vezes temos dados em que existem diferentes grupos de pessoas (homens e mulheres, universidades diferentes, pessoas com e sem depresso) FUNO: split file (dividir arquivo)
Especifica varivel de grupo Arquivo SPSSExam.sav

EXPLORANDO GRUPOS DE DADOS


Se voc quiser obter estatsticas separadas para cada uma das universidades, podemos dividir o arquivo e seguir utilizando o comando Frequencies Data Split File

EXPLORANDO GRUPOS DE DADOS


Quando voc tiver terminado com o comando Split, lembre-se de deslig-lo Split File Analyze all cases, do not create groups

TESTANDO SE UMA DISTRIBUIO NORMAL


Olhar para os histogramas uma opo, mas eles nada informam sobre a distribuio estar prxima o suficiente da normalidade

Realizar um teste objetivo para decidir se uma distribuio ou no-normal.

TESTES
Kolmogorov-Smirnov e Shapiro-Wilk Eles comparam escore de uma amostra a uma distribuio normal modelo de mesma mdia e varincia dos valores encontrados na amostra
No-significativo (p>0.05), os dados no diferem significativamente de uma distribuio normal

Significativo (p<0.05), significativamente diferente de uma distribuio normal

TESTES (limitaes)
Com amostras grandes muito fcil obter valores significativos a partir de pequenos desvios da normalidade Um resultado significativo no necessariamente nos informa se o desvio da normalidade suficiente para prejudicar os procedimentos estatsticos
De qualquer forma utilize esses teste, mas faa diagrama dos dados bem como tente obter uma deciso sobre a extenso da no-normalidade

EXECUTANDO O TESTE DE KOLMOGOROV-SMIRNOV


Analyze Descriptive Statistics Explore

As duas distribuies se desviam da normalidade (Sig.<0,05) Os desvios de normalidade mostrados nos histogramas so significativos

Distribuio dos grupos separados

Valores esperados e valores observados

TESTANDO A HOMOGENEIDADE DA VARINCIA


Essa hiptese significa que a medida que voc avana entre os nveis de uma varivel, a varincia da outra no deve mudar

DADOS NO TRANSFORMADOS

VARINCIAS DIFERENTES

VARINCIAS IGUAIS

DADOS TRANSFORMADOS LOGARITICAMENTE


VARINCIAS IGUAIS

VARINCIAS DIFERENTES

Interpretando
Considerando que estamos comparando as duas universidades nos escores de numercia e exame do SPSS separadamente
Devemos transformar os escores de numercia, mas, no os do exame

Interpretando
Representao do Teste Levene
Letra F, dois Graus de Liberdade e Sig Exame SPSS - F (1,98)= 2,28, ns Numercia F (1,98)= 7,37, p<0,01

REPRESENTANDO MDIAS GRAFICAMENTE

VERIFICAR OS EFEITOS DO GNERO