Anda di halaman 1dari 2

1Clusters

A anlise de Clusters (AC) uma


tcnica exploratria de
agrupamento que se prope a
maximizar a homogeneidade
dentro dos grupos e ao mesmo tempo
maximizar
a heterogeneidade entre grupos.
Objectivo: identificar grupos que
tenham caractersticas
semelhantes entre si e que difiram
substancialmente
uns dos outros.
1.1
Objectivo: Dividir o pblico em
conjuntos de entidades
(pessoas ou organizaes) com
caractersticas semelhantes Fases:
Identificao dos segmentos
Escolha dos critrios de segmentao
Caracterizao dos segmentos
Escolha do(s) segmento(s) alvo
1.2
Processos:
Hierrquicos
Analyse classify hierarquical, introduzir
factores, e label cases by grupo que se
pretende.. statistics aglomeration, proximity
none. Plots, dendrogram, all clusters,
vertical. Method nearest neigbour, euclien
distance none, Save single solution.

No Hierrquicos
Analyse classify kmeans cluster. (n sei)

1.3
Etapas do processo hierrquico
1.Escolher as variveis de segmentao
2.Seleccionar a medida de distncia ou
semelhana para comparar os indivduos
3.Escolher o critrio de agregao ou
desagregao dos indivduos
4.Validar a soluo
1.4
Medidas de aglomerao
Variveis quantitativas
Medidas de Distncias
Medidas de Semelhana (C.
Correlao)
Variveis qualitativas
Medidas de Semelhana (C.
Associao)
1.5
Pontos para Reflexo
so relativamente simples
, no tm um grande suporte estatstico.
mtodos de agrupamento
diferentes geralmente produzem
solues diferentes.

grupo. A chave da AC
saber quando estes grupos so reais ou
simplesmente impostos
pelo mtodo de agrupamento.
Factorial:
uma tcnica estatstica multivariada
(exploratria ou confirmatria).
Objectivos:
Reduzir o nmero de variveis
atravs do seu agrupamento.
Encontrar factores subjacentes
estrutura de dados.
Baseado na correlao
das variveis
Variveis no observveis
Variveis latentes
Analyse dimension reduction factor.
Descriptives initial coeficients significance
leves kmo and barttlet. Extraction correlation
matrix unrotated scree plot based on eighen
value. Para aumentar nr de factores nesta
parte colocar fixed number of factors
rotation, varimax rotated solution. .scores
save as variables barttlet display.

1.2
As variveis que esto relacionadas
entre si, so
agrupadas em fatores.
Os grupos de variveis construdos desta
forma, tm correlaes fracas ou nulas
entre si. Mas dentro dos grupos as
variveis
esto
fortemente
correlacionadas.
1,3
A Anlise Fatorial (AF) decompe a
varincia das variveis (observveis) em
duas partes.
Fatores comuns Fatores unicos
1.4
Na AF, a situao ideal corresponde
existncia de poucos fatores e de uma
pequena contribuio dos fatores nicos.
Os loadings para cada varivel devem
ser ou
muito grandes ou muito pequenos.
1.5
Os mtodos de rotao tentam extremar
os loadings.
Ortogonais
Fatores no
Correlacionados entre si
Oblquos
Fatores correlacionados entre si
1.6
Anlise de indicadores:
Matriz de correlaes
KMO
Comunalidades (loadings)
(valores KMO)
<0,5 inaceitveis

0,5 miserveis
0,6 medocres
0,7 razoveis
0,8 meritrios
0,9 maravilhosos
1.7
Teste de Esfericidade de Bartlett
Ho: A matriz de correlaes igual
matriz identidade
vs
H1: A matriz de correlaes no igual
matriz identidade
1.8
Verificar comunalidades, se houverem
muitas comunalidades com valor baixo
ento h nessecidade de criao de mais
factores.
1.9
Selecionam-se factores com valor
prprio superior a 1 e que explicam o
mximo da varincia.
O scree plot da o n mximo de factores
que devem ser considerados. Olhar para
grfico e ver a zona onde o cotovelo
se dobra.
1.10
Matriz rodada ver os valores mais
altos de cada linha e perceber quais as
variveis que contribuem para a
formao de cada factor atravs da
anlise desses valores.
ANOVA
1.1
Anlise de Varincia (ANOVA) uma
metodologia estatstica utilizada para
comparar medidas de localizao de
uma mesma varivel em mais de dois
grupos independentes.
1.2
A Anlise de varincia a um factor ou
Anova one-way uma metodologia
paramtrica que deve ser aplicada
quando a varivel apresenta distribuio
normal e as varincias populacionais so
homogneas em todos os grupos.
Esta metodologia permite comparar o
valor mdio de uma mesma varivel em
mais de dois grupos independentes.
1.3
Quando os pressupostos de aplicao da
Anova one-way no se verificam, devese recorrer a uma metodologia no
paramtrica, ao teste de KruskalWallis.
Esta metodologia permite comparar as
medianas de uma mesma varivel em
mais de dois grupos independentes.
De uma forma geral, os testes no
paramtricos
No pressupem nenhuma distribuio
subjacente
aos
dados
(testes
adistribucionais) So uma alternativa

aos testes paramtricos, quando as suas


condies de aplicao no so
verificadas Normalmente so menos
potentes que os testes paramtricos
(tm maior probabilidade de no rejeitar
a hiptese nula, quando ela falsa)
So mais conservadores do que os
testes paramtricos (levam mais vezes
rejeio da hiptese nula)
1.4
A Anlise de varincia a um factor ou
Anova one-way uma metodologia
paramtrica utilizada para comparar o
valor mdio de uma mesma varivel
(quantitativa) em mais de dois grupos
independentes.
Ho: No h diferenas entre os valores
mdios nos diferentes grupos vs H1:
Existe pelo menos um grupo cujo valor
mdio mdio difere dos restantes
1.5
Para se poder aplicar correctamente a
Anova one-way necessrio que:
a varivel apresente distribuio
normal em todos os grupos
as varincias populacionais sejam
homogneas em todos os grupos
1.6
Para verificar se uma varivel provm
de uma populao com distribuio
Normal usa-se o teste de KolmogorovSmirnov / Shapiro-Wilk
Ho: A varivel provm de uma
populao com distribuio Normal nos
diferentes grupos vs
H1: Existe pelo menos um grupo para o
qual a varivel no provm de uma
populao com distribuio Normal
1.7
Para verificar se as varincias
populacionais so homogneas nos
diferentes grupos usa-se o teste de
Analyse descriptive explore. Plots none
normality untransformed. Clicar em plots na
janela principal. (pressupostos)

Levene
Ho: As varincias populacionais so
homogneas nos diferentes grupos
vs
H1: Existe pelo menos um grupo que
apresenta varincias populacionais
diferente das restantes
1.8
Formulao de hipteses (utilizando
exemplo do PDF
H0: EB = ESec = Esup
vs
H1: Pelo menos uma das mdias
populacionais diferente das restantes
Onde,

EB - compreenso leitora mdia de


alunos cujos pais tm o ensino bsico
EB - compreenso leitora mdia de
alunos cujos pais tm o ensino
secundrio
EB - compreenso leitora mdia de
alunos cujos pais tm o ensino superior
completar anova analyse compare means
one way anova. options descriptive
homogeneity exclude test by test.

1.9
Quando se rejeita a hiptese nula da
Anova one-way apenas se pode concluir
que existem diferenas significativas
entre pelo menos dois pares de mdias
populacionais.
Para determinar entre que grupos se
verificam essas diferenas usual
recorrer a comparaes mltiplas de
mdias Teste de Scheff.
Analyse compare means one way anova. Post
hoc shefee

1.10
Teste de Scheff:
Objectivo: Identificar qual ou quais os
pares de mdias que diferem entre si.
Pressupostos: Os mesmos da Anova
one-way. O Teste de Scheff realiza
todas as comparaes de mdias duas a
duas para identificar entre que grupos
existem as diferenas detectadas pela
Anova one-way. Nota: Este teste s
deve ser aplicado depois de se rejeitar a
hiptese nula da Anova
1.11
Exemplo teste scheff PDF
H0: EB = ESec vs H1: EB ESec
H0: EB = ESup vs H1: EB
H0: ESec = ESup vs H1: ESec
ESup
KRUSKALL
1.1
O Teste de Kruskal-Wallis uma
metodologia no paramtrica que
permite
comparar
as
medianas
populacionais de uma mesma varivel
(definida numa escala pelo menos
ordinal) em mais de dois grupos
independentes.
Ho: No h diferenas entre as
medianas populacio-nais nos diferentes
grupos
vs
H1: Existe pelo menos um grupo cuja
mediana popu-lacional difere dos
restantes
Analyse nonparametric tests legacy dialogs k
independent samples. Define range (nr
minimo de respostas e nr maximo de

respostas da variavel). Exact exact. Options


descriptives quartiles exclude test by test.

1.2
O teste de Kruskal-Wallis a alternativa
no paramtrica Anova one-way,
quando as condies de aplicao desta
metodologia no so verificadas.
Para se poder aplicar esta metodologia
necessrio que a varivel resposta esteja
definida numa escala pelo menos
ordinal.
1.3
Quando os pressupostos da anova no se
verificam este teste deve ser feito. No
entanto so depois de se rejeitar a
anova e que se pode fazer este teste.
1.4
Exemplo PDF formulao de hipteses
Formulao das hipteses
H0: <7 = 7-9 = >9
vs
H1: Pelo menos uma das medianas
populacionais diferente das restantes
Onde,
<7 - mediana do rendimento escolar
dos alunos cujo n mdio de horas de
sono < 7 horas
7-9 - mediana do rendimento escolar
dos alunos cujo n mdio de horas de
sono de 7-9 horas
>9 - mediana do rendimento escolar
dos alunos cujo n mdio de horas de
sono > 9 horas
1.5
Quando se rejeita a hiptese nula do
teste de Kruskal-Wallis apenas se pode
concluir que existem diferenas
significativas entre pelo menos dois
pares de medianas populacionais.
Para determinar entre que grupos se
verificam essas diferenas usual
recorrer a comparaes mltiplas de
mdias de ordens Teste de Dunn.
Analyse nonparametric tests independent
samples. Objectives automatically. Fields
test factores.. groups clusters. Run. Duplo
clique no output aparece nova janela view
pairwise comparisations. Ler sig da tabela
que aparecer.

1.6
Quando se rejeita a hiptese nula do
teste de Kruskal-Wallis apenas se pode
concluir que existem diferenas
significativas entre pelo menos dois
pares de medianas populacionais.
Para determinar entre que grupos se
verificam essas diferenas usual
recorrer a comparaes mltiplas de
mdias de ordens Teste de Dunn.
1.7

Formulaao hipteses teste de DUNN


segundo PDF (comparar valores dois em
dois grupos)
Formulao das hipteses
H0: <7 = 7-9 vs H1: <7 7-9
H0: <7 = >9 vs H1: <7 >9
H0: 7-9 = >9 vs H1: 7-9 >9
FIABILIDADE
1.1
Existem algumas caractersticas que so
consideradas de
interesse para o estudo, mas que no
podem ser medidas
diretamente.
Nestes casos, constri-se um inqurito
com um conjunto de
questes pertinentes, a que chamamos
itens ou variveis
componentes, que possam dar alguma
informao sobre a
caractersticas de interesse.
Analyse scale reliability analysis. Statistics
scale if item anova (none) aplicar em todos
os factores.

1.2
Terminologia
Varivel Latente no pode ser
observada ou quantificada diretamente
Item varivel que permite medir a
varivel latente
O conceito de varivel latente implica
um certo relacionamento entre os itens
que a medem.
1.3
A relao entre os itens sugere-nos a
relao entre os itens
e a varivel latente.
Se os itens tm uma relao forte com a
varivel latente,
tambm tero uma forte relao entre
eles.
1.4
Fiabilidade
mede
o
grau
de
consistncia interna
Como estimar a fiabilidade?
H0 :
de Cronbach
valores que Cronbach toma:
<0,6 inaceitveis
0,6 - 0,7 razoveis
0,7 - 0,8 bons
0,8 - 0,9 muito bons
> 0,9 excelentes

Usa-se quando queremos comparar os


valores mdios de duas variveis
diferentes num mesmo grupo.
Ho: No h diferenas
vs
H1: H diferenas
entre os valores mdios
entre
os valores mdios
1.2
Para verificar se uma varivel provm
de uma populao com distribuio
Normal usa-se o teste de
Kolmogorov-Smirnov / Shapiro-Wilk
Ho: A varivel provm de uma
populao com distribuio Normal
vs
H1: A varivel no provm de uma
populao com distribuio Normal

1.1
A associao estatstica entre duas
variveis pode ser estudada
considerando:
a forma de ligao de duas variveis
linear/no linear,
a sua intensidade forte, mdia ou fraca
o seu sentido positivo ou negativo
1.2
A associao estatstica diz-se
positiva se as variveis variam no
mesmo sentido, isto , se para valores
elevados de uma varivel se observam
valores elevados da outra e,
simultaneamente, para valores reduzidos
das duas variveis verificada a mesma
associao.
negativa se as variveis variarem em
sentidos opostos, isto , a valores
elevados de uma varivel esto
associados valores baixos da outra
varivel e vice-versa.
1.3
O grau de associao linear entre duas
variveis pode ser estudado atravs dos
coeficientes de associao/correlao de
Pearson ()

Analyse compare means independent t test.


Define groups use specified values (n sei p
que serve)

1.3
Nestes testes t para duas amostras se a
dimenso da amostra for:
Superior ou igual a 30, assume-se que
a distribuio assimpttica Normal e
aplica-se o teste sem a verificao
formal do pressuposto da normalidade.
Inferior a 30 necessrio verificar se a
varivel segue uma distribuio Normal
atravs do teste de Shapiro-Wilk.
1.4
Testes p/ 2 amostras independentes:
Objectivo:
Testar se h diferenas entre dois grupos
independentes.
Exemplo pdf:
Formulao das hiptes
Onde,
F - tempo mdio que as mulheres
dedicam internet
M - tempo mdio que os homens
dedicam internet
1.5
TESTES T P/ 2 AMOSTRAS
EMPARELHADAS
vs
H1 :
TV
Internet

TV

Analyse correlate bivariate pearson two


tailed, flag.

Caso de variveis quantitativas


Spearman (S)
Analyse correlate bivariate, sperman, two
tailed, flag.

Internet

Objectivo:
Testar se h diferenas entre as duas
medies.
Analyze compare means paired sanples t test.

Formulao das hipteses

TESTES de hipteses P/ 2 AMOSTRAS

1.1
Teste t para duas amostras
independentes
Usa-se quando queremos comparar o
valor mdio de uma mesma varivel em
dois grupos diferentes.
Teste t para duas amostras
emparelhadas

Onde,
TV - tempo mdio gasto a ver

H 0 televiso
: F

vs

H1 :

Internet - tempo mdio ligado


internet
TESTES DE ASSOCIAO

Caso de variveis pelo menos ordinais


1.4
O coeficiente de correlao de Pearson
mede o grau de associao linear entre
duas variveis expressas numa escala
quantitativa
no depende das unidades de medida
das variveis
os seus valores variam sempre entre 1
e1
1.5
Quanto mais prximo o coeficiente de
correlao de Pearson estiver de:
1 - maior a associao linear positiva
entre as variveis
-1 - maior a associao linear
negativa entre as variveis
0 - no existe qualquer tipo de
correlao linear entre as duas variveis
em estudo.
(embora possa existir correlao de
outro tipo que no o linear)
1.6
De uma forma geral, pode-se
considerar que:
Se rXY = 1 ou rXY = -1 existe
correlao linear perfeita

Se rXY = 0, no existe qualquer tipo de


correlao linear entre as duas variveis
em estudo.
(embora possa existir correlao de
outro tipo que no o linear)
Se 0 < | rXY | < 0.3, existe correlao
linear baixa
correlao linear mdia
linear forte
1.7
O grau de associao entre duas
variveis definidas numa escala
quantitativa pode ser estudado atravs
do teste de associao de Pearson:
1.8
Definio das hipteses:
H0: As variveis no esto associadas
vs
H1: As variveis esto associadas
1.9
O coeficiente de correlao de
Spearman um caso particular do
coeficiente de correlao de Pearson,
aplicado a variveis expressas numa
escala pelo menos ordinal.
As propriedades do coeficiente de
correlao de Spearman so idnticas s
do coeficiente de correlao de Pearson.
1.10
O valor absoluto do coeficiente de
correlao de Spearman mede o grau de
associao linear de duas variveis
expressas numa escala pelo menos
ordinal.
O coeficiente de correlao de
Spearman est sempre entre 1 e 1.
1.11
Se o coeficiente de correlao de
Spearman tomar o valor zero, no existe
qualquer tipo de associao linear entre
as variveis em estudo.
O sinal do coeficiente de correlao de
Spearman d a direco da associao
linear entre as variveis e estudo,
oSe for positivo, as variveis evoluem
no mesmo sentido;
ose for negativo, as variveis evoluem
em sentidos opostos
1.12
O grau de associao entre duas
variveis definidas numa escala pelo
menos ordinal pode ser estudado atravs
do teste de associao de Spearman:
1.13
Definio das hipteses:
H0: As variveis no esto associadas
vs
H1: As variveis esto associadas
ANLISE DE CORRESPONDNCIAS

1.1

uma tcnica de anlise descritiva e


exploratria de dados categorizados
adequada para analisar um grande
conjunto de variveis organizadas em
tabelas de contingncia
1.2
Anlise de Correspondncias Simples
utilizada para o tratamento de matrizes
de dados categorizados com duas
variveis (Tabelas de contingncia)
Anlise de Correspondncias
Mltipla utilizada para o tratamento de
matrizes de dados categorizados com
mais de duas variveis
1.3
SIMPLES
Utilizada para estudar as associaes
entre duas variveis categricas,
Permite determinar um pequeno
nmero de factores que traduzem os
aspectos fundamentais das relaes
entre variveis, no detectadas pela
leitura directa da tabela de contingncia
Permite a visualizao das relaes
entre linhas e colunas num mesmo
espao grfico.
Analyse dimension reduction correspondense
analysis. Define range row (mert valor max e
minimo) update. Define range column (meter
valor minimo e maximo) update. Model 2
dimensions chi.square row and column
symmetrical .statistics correspondence row
profiles column profiles , p/ obter disperso
de informaao sobre freq da celulas, ir ao
model e meter overview points. P obter
grfico de associaes ir a plots clicar biplot e
display all .

Procura perceber o grau de importncia


e a qualidade das projeces das
categorias das duas variveis num
mesmo espao grfico.
Incide sobre as contribuies absolutas e
relativas das categorias em linha e em
coluna,
Processa-se atravs da medio das
distncias entre as categorias das
variveis
1.4
Objectivo!
Considerando que existe associao
entre as variveis observadas, a AC
permite
Reduzir a dimenso da matriz de
dados, sem perda essencial de
informao
Encontrar
associaes
(correspondncias) entre categorias da
varivel linha e categorias da varivel
coluna.
representadas atravs de um mapa
perceptual (2 dimenses). No entanto, o
nmero de dimenses a considerar
tambm poder ser determinado por

forma a que a percentagem de inrcia


acumulada seja superior a 80% ( a parte
sublinhada quer dizer que uma se refere
a outra)
TESTES DE HIPTESES:
1.1
Teste de Hiptese
Objectivo: Verificar se os dados
amostrais so ou no compatveis com
determinadas populaes.
Nota:Os testes de hipteses s devem
ser aplicados a amostras aleatrias.
1.2
Resultado do teste
rejeita-se
a
hiptese nula
ou
no se rejeita hip. nula
Em ambos os casos corre-se o risco de
errar. Uma das caractersticas dos testes
de hipteses minimizar esse risco.
1.3
Fases de um Teste de Hipteses:
1) Definio das hipteses
2) Escolha da margem de erro
3) Clculo da estatstica de teste
4) Deciso do teste
1.4
1) Definio das hipteses hiptese
nula (que se representa por H0)
sempre uma afirmao
hiptese alternativa, a hiptese
complementar de H0 (representa-se por
H1 ou Ha).
a margem de erro e normalmente
de 5% (ou seja 0.05)
Sig. do teste comparada com , ou seja
, se
sig. do teste
no rejeito H0
sig. do teste
rejeito H0
1.5 QUI.QUADRADO
Condies de aplicabilidade:
no pode haver mais de 20% das
clulas com frequncia esperada inferior
a5
cada clula tem que ter frequncia
esperada igual ou superior a 1.
Analyse descriptive estatistics crosstabs
statistics chi square.

1.6
Anlise de resduos
Se H0 for verdadeira, ou seja, se houver
independncia, os resduos estariam
entre -2 e 2.
A dependncia explicada pelos
resduos que se afastam muito de -2 e 2.