Sobre o curso
O CURSO
Aulas Aulas: 6 Dias: 28/05 at 02/07 - Segundas-feiras Horrio: 14h00 17h00 Local: Sala Barbosa Rodrigues
Avaliao
Projeto Final
Meu contato
Contedo
O CURSO
Aula 1 Anlise descritiva Aula 2 Inferncia estatstica paramtrica Aula 3 Inferncia no paramtrica Aula 4 Inferncia multifatorial Aula 5 Anlises de regresso e de dados categricos Aula 6 Tpicos em estatstica
Avaliao
O CURSO
Projeto Final Desenvolver um projeto de anlise estatstica que envolva as principais ferramentas estudadas A cada aula ser proposta uma parte do projeto, para ser desenvolvido ao longo do curso A nota ser dada pelo relatrio final que ser entregue contendo as anlises realizadas
Aulas
O CURSO
Referncias
O CURSO
Terica Concepts & Applications of Inferential Statistics - Richard Lowry http://faculty.vassar.edu/lowry/webtext.html Princpios de Bioestatstica Pagano e Gauvreau Estatstica Bsica Bussab e Morettin Biostatistical Analysis Zar
Prtica
mai-12
INTRODUO
Propsitos
INTRODUO
Sntese
Resumir informaes para melhorar compreenso dos dados Mdia Mediana Devio Padro Outras Estatsticas
Visualizao
Inferncia
Inferir o comportamento de uma populao usando como base uma amostra Testes de hipteses
INTRODUO
Organizando os dados
A AMOSTRA
Inferncia Estatstica
AMOSTRAGEM
Populao
Amostra
Estatsticas Inferncia
Amostra
AMOSTRAGEM
Populao o conjunto de todos os elementos sob investigao. Em um experimento desejamos entender melhor as caractersticas da populao. Em geral NO temos acesso aos dados de toda a populao. Temos uma amostra.
Exemplo
Desejamos saber se um novo tratamento para hipertenso ou no eficaz.
Gostaramos que o tratamento pudesse ser usado por TODOS aqueles que sofrem de hipertenso.
Nossa populao o conjunto de todas as pessoas que sofrem de hipertenso
Amostra
AMOSTRAGEM
Amostra e Populao
Uma amostra refere-se a uma certa populao, e as concluses sobre esta amostra inferem sobre esta populao. EX: Amostra de ratos suios recm nascidos iro trazer informaes sobre ratos suios recem nascidos. Nada pode-se dizer em relao a outros tipos de ratos.
Aleatoriadade
Uma vez determinada a populao, a escolha dos elementos no pode ter vis. EX: Se vamos analisar coelhos de um certo tipo, no podemos, por exemplo, pegar s os coelhos mais calminhos
Tamanho da amostra
Devido ao custo de obteno de amostras vivas, o tamanho baixo. Cuidado para no ser to baixo! EX: No possivel realizar alguns testes estatsticos com menos de 4 elementos na amostra
Dicas
AMOSTRAGEM
Anotaes
Anote o mximo de informaes que puder sobre a amostra coletadas EX: Equipamento usado, se teve alguma dificuldade ou demorou mais tempo, quem fez a coleta,...
Trplicas
Para reduzir o erro de medio realize a coleta em triplicata EX: Faa a medio do fator de interesse 3 vezes e considere a mdia das medies como valor a ser analisado.
PRIMEIRAS ESTATSTICAS
PRIMEIRAS ESTATSTICAS
Variveis Qualitativas
Nominal
EX: Orgo afetado por um tratamento Moda, propores
Ordinal
EX: Pouca, muita dor Mediana, propores
Variveis Quantitativas
Ordinal
EX: 1,2,3,4,5,.... Mediana, quartis, percentis
Intervalar ou de razo
EX: Absorbncia, presso, comprimento, volume, % Mdia, DP, Mediana, quartis, %, ...
ORGANIZANDO OS DADOS
PRIMEIRAS ESTATSTICAS
Variveis Qualitativas
Infectado No infectado Total Grupo A 13 7 20 Grupo B 9 11 20 Grupo C 5 15 20 Total 27 33 60
Variveis Quantitativas
Amostra
1
Grupo A
2,5 3
Grupo B
3,5
2,7
Grupo C
4
3,5
2
3 4 5
1,3
2,6 . .
2,4
. . .
3,1
. . .
MEDIDAS RESUMO
Medidas em vrios rgos de um mesmo elemento amostral Medidas em vrios tempos de um mesmo elemento amostral
Pergunte-se: Se eu tirar essa medida deste grupo, e logo tirar o elemento amostral, ele ir tambm ser tirado de outros grupos? Se sim, ento h dependncia!
DEPENDENTES
Cada medio provm de elementos amostrais distintos Ao tirar uma medida, ou um elemento, os outros grupos no so afetados
INDEPENDENTES
Medidas resumo
MEDIDAS RESUMO
Posio e Disperso
MEDIDAS RESUMO
MDIA a medida centralizadora mais usada. Para calcular faa some os elementos e divida pelo nmero de elementos Ex: (3 + 5 + 9 + 4 + 8 + 2) / 6 = 5.16.
3 5 9 4 8 2
Medidas de disperso
MEDIDAS RESUMO
DESVIO PADRO AMOSTRAL a medida de disperso mais usada. Use sempre um software para fazer a conta. Soma-se as diferenas com relao s medias ao quadrado, e depois divide-se por N-1 (e no N, Por qu?). Depois toma-se a raz. Exemplo: Mdia: 5.16 Desvios com relao a mdia Eleva ao Quadrado
-2.17 -0.17 3.83 -1.17 2.83 -3.17
3 5 9 4 8 2
4.71
0.03
14.67
1.37
8.01
10.05
Soma e divide por 5 : 7.76 (esta a varincia) Tomando a raz temo o desejado: 2.78
Medidas de disperso
MEDIDAS RESUMO
Variao Inter-Quartis Leva a posio relativa dos nmeros e no seu valor em si Os quartis apenas dividem a amostra. Os quartis mais famosos so os quartis de nmero 1 (25%) e 3 (75%) O quartil de nmero 2 a mediana (50%) A Variao interquartil a diferena entre o 3 e o 1 quartil Ex:
3 5 9 4 8 2 5
Em ordem temos:
25% dos dados abaixo de : 3.5 50% dos dados abaixo de : 5 75% dos dados abaixo de : 6.5 Variao Interquartis : 3 Deixa as contas para o computador para evitar confuso.
Excel - Frmulas
MEDIDAS RESUMO
VISUALIZAO GRFICA
VISUALIZAO GRFICA
No infectado
Infectado
Grupo A
Infectado 65% No infectado 35%
Grupo B
Infectado 45%
Grupo C
Infectado 25%
No infectado 55%
No infectado 75%
Grupos INDEPENDENTES
Amostra 1 Grupo A
3,07 3,72 3,23 3,74 3,86 3,32 3,48 3,27 3,91 3,59
Grfico de pontos
8.00
VISUALIZAO GRFICA
Grupo B
5,68 7,02 7,57 7,15 5,49 5,36 5,29 5,34 5,17 6,00
Grupo C
2,46 2,21 2,44 3,82 3,49 2,25 2,27 3,86 2,67 2,04
7.00
Valor da Varivel
2
3
4
5 6 7 8 9 10
0.00
Grupo A
Grupo B
Grupo C
Grfico Resumo
8.00 7.00 Mdia e Desvio 6.00 5.00 4.00
3,52 0,29
6,01 0,90
2,75 0,70
3.00
2.00 1.00 0.00 Grupo A Grupo B Grupo C
Barras de Erros
VISUALIZAO GRFICA
Variveis CORRELACIONADAS
VISUALIZAO GRFICA
Mdia e DP da varivel
16 14 12 10
Varivel
8
6 4 2 0
20
40
60
120
140
160
VISUALIZAO GRFICA
Grfico de Linhas
Motivao e Clculos
VARIAO PERCENTUAL
Dados Aplica-se a dados quantitativos de variveis DEPENDENTES! EX: Evoluo do IC em 3 instantes de tempo Movitao O interesse est apenas na variao dos valores e no nos nmeros em si. EX: No inporta se o IC alto ou baixo, mas sim se ele aumentou ou diminui no tempo. Clculo Variao Percentual = (Valor no instante de interesse Valor no instante inicial) x 100 ______________________________________________ (Valor absoluto no instante inicial)
Grficos
VARIAO PERCENTUAL
Evoluo Temporal
10 8 6 4 2 0 T0 -2 T1 T2 T4 T5
-4
Evoluo Percentual
160% 140% 120%
T ( x) T (0) % | T (0) |
100%
80% 60% 40% 20% 0% T0 T1 T2 T4 T5
CUIDADOS!
100%
VARIAO PERCENTUAL
50%
SEM O MDULO!!!
0% T0 T1 T2 T4 T5
T ( x) T (0) % T (0)
ERRADO!!
-50%
-100%
CORRETO:
T ( x) T (0) % | T (0) |
BOXPLOT
Motivao e Clculos
BOXPLOT
Movitao Resumir a distribuio dos dados de forma grfica com a menor perda de informaes possvel.
Clculos Mediana (Divide os dados pela metade por ordem de grandeza) Quartis (Diviso dos dados por ordem de grandeza na medida) Q1 divide em 25% Q2 divide em 50% (equivale a mediana) Q3 divide em 75% Variao inter-quartil Q3 Q1 : Fornece uma medida de variabilidade dos dados
Descrio
BOXPLOT
Outlier
Mediana (50%)
Mdia
Amostra 1
-5
10
15
20
1. Quartil (25%)
3. Quartil (75%)
Como fazer ?
BOXPLOT
EXCEL: www.ime.usp.br/~pedrosp
6 4 2 0 -2 -4 -6 -8 Grupo A Grupo B
Outros Software
BOXPLOT
BioEstat : http://www.mamiraua.org.br/download/
SOFTWARES
Software
SOFTWARES
rea de Biolgicas
BioEstat (Livre) Simples mas completo www.mamiraua.org.br/download/ OpenEPi (Livre ) - Online S testes paramtricos www.openepi.com BioStat (comercial) - Completo www.analystsoft.com/br/products/biostat/ Sigmaplot+SigmaStat (comercial) Completo
Gerais
Minitab (comercial) Completo e fcil de usar SPSS (comercial) Completo e fcil de usar S-Plus (comercial) Completo mas menos amigvel Possui verso livre R-Statistics exige programao Statistica (comercial)
Dados no BioEstat
SOFTWARES
BioEstat utiliza padro americano de casas decimais (usa 3.14 no lugar de 3,14) Se o Excel estiver configurado com , faa o seguinte:
Dados no BioEstat
SOFTWARES
Copiar e colar
PROJETO
PROJETO
Encontrar 1 varivel quantitativa que tenha: - 2 ou mais grupos (1 Controle e demais de Teste )
Organizar os dados em forma de tabela Calcular as estatsticas: Mdia, Desvio Padro, Mediana, 1. E 3. Quartis, Intervalo Interquatis
Fazer um grfico de barras com mdias e barras de erros com 1 desvio padro para cima e 1 para baixo
Crair um relatrio (Word - .doc), resumido, contendo informaes sobre os dados, justificando independncia, indicando o propsito da anlise descritiva, e contendo a anlise descritiva
Dicas
PROJETO
Mesmo que isso demore, um tempo investido para voc economizar tempo no futuro
No Excel aperte F1 para obter ajuda e digite por exemplo: media que ele ir lhe ajudar!
Outras Dicas
DVIDAS?
USURIOS DE MACINTOSH
DVIDAS?
pedrospeixoto@yahoo.com.br
mai-12
Intervalo de Confiana
INFERNCIA
Erro de medida Uma medida obtida de uma amostra uma ESTIMATIVA da medida real para a populao Logo contm ERRO ! O erro depende da distribuio da varivel na populao e na amostra
Intervalo de Confiana
Para cada medida possvel atribuirmos uma noo de confiabilidade usando a amostra. Exemplo: Calculamos uma mdia 5 para uma amostra, mas com base em sua distribuio, podemos estimar que a mdia da populao est na verdade entre entre 4 e 6 com 95% de confiana
Teoria de distribuies
INFERNCIA
Distribuies Normal T-student Qui-quadrado Envolvem noes de disperso! Mdia com Distribuio Normal
Teoria de distribuies
INFERNCIA
T-Student
Se a varivel tem distribuio Normal na populao, ou a amostra suficientemente grande (>30) , mas no conhecemos o desvio da populao, s da amostra, ento ... ... A mdia amostral se distribui conforme uma t-Student ... A distribuio t-Student depende dos graus de liberdade (n-1), que denotamos por
Teoria de distribuies
INFERNCIA
Erro Padro
Usado para estimar o intervalo de confiana da mdia amostral S = Desvio Padro Amostral N = Tamanho da Amostra
s se n
Intervalo de Confiana Normal (95% de confiana): Presupe que conhecemos o desvio populacional Intervalo: x 1,96 / n T-Student (95% de confiana): Sabemos que a varivel na populao tem distribuio Normal Mas s temos informao da amostra Intervalo: x t se
Teoria de distribuies
INFERNCIA
Na prtica
Usamos o erro padro para termos uma noo grfica de erro associada a uma amostra
9 8 7 6
5
4 3
2
1 0 A B
CUIDADO: Na literatura podem aparecer grficos com barras contendo desvio padro ou erro padro !!!
TESTES DE HIPTESES
INFERNCIA
Em uma certa populao as mdias de tempo de recuperao dos indduos que tomam um certo remdio e daqueles que no tomam so iguais
Ser que em uma certa populao as mdias de tempo de recuperao dos indduos que tomam um certo remdio e daqueles que no tomam so iguais?
Com base na amostra pode-se dizer que - No h indcios de diferena estatisticamente significativa no tempo mdio de recuperao entre os que tomam e os que no tomam o remdio, ou - H indcios de diferena estatisticamente significativa no tempo mdio de recuperao entre os que tomam e os que no tomam o remdio
INFERNCIA
ERRO TIPO I ACEITAR A HIPTESE QUANDO ELA VERDADEIRA REJEITAR A HIPTESE QUANDO ELA VERDADEIRA
ERRO TIPO II ACEITAR A HIPTESE QUANDO ELA FALSA REJEITAR A HIPTESE QUANDO ELA FALSA
INFERNCIA
P-valor
a probabilidade de se obter o efeito observado, dado que a hiptese verdadeira Ele nos fornece uma medida de se podemos rejeitar ou no a hiptese proposta
Na prtica
P-valor < 5%: Ento com 95% de confiana estatstica dizemos que podemos rejeitar a hiptese P-valor > 5%: Ento no h evidncias estatsticamente significativas que nos levem a rejeitar a hiptese
Hipteses e parmetros
INFERNCIA
Hiptese principal ou nula: Mdia (ou mediana) dos grupos A e B so iguais Hiptese alternativa: Mdia (ou mediana) dos grupos A e B so diferentes
Testes de Hipteses: Que teste usar? Depende de caractersticas dos seus dados Paramtrico: Conheo informaes de distribuio da varivel na populao No Paramtrico: No conheo informaes de distribuio da varivel na populao
Unicaudal ou Bicaudal
INFERNCIA
Bicaudal
Hiptese alternativa: Mdia (ou mediana) dos grupos A e B so diferentes
Unicaudal
Hiptese alternativa: Mdia (ou mediana) do grupo A maior que do B ou Mdia (ou mediana) do grupo A menor que do B
Teoria de distribuies
INFERNCIA
Paramtrico vs No Paramtrico
Inferncia quando tomamos decises para a populao com base em uma amostra
Ela paramtrica quando conhecemos a distribuio da populao. Na prtica isso significa dizer qua a varivel tem distribuio Normal na populao Ela no paramtrica quando no temos informaes sobre a distribuio da varivel na populao. Na prtica isso no conhecemos a distribuio na populao
Paramtrico vs No Paramtrico
INFERNCIA
Paramtrico
Distribuio da varivel na populao conhecida (ex: Normal)
Estudos anteriores com amostras grandes revelam normalidade Amostras grandes (~> 20) Comparo mdias e/ou varincias Mais poderoso (*)
No Paramtrico
No conheo a distribuio da varivel na populao Amostras pequenas
(*) Poder: Habilidade do teste de detectar um efeito dado que ele realmente exista
Teste de normalidade
INFERNCIA
Grficos Testes
Histograma
QQ-Normal-Plot
p-valor < 5%
No Normal
p-valor > 5%
Normal
TESTES DE HIPTESES
Diferenas
(2 ou mais categorias)
Teste Qui-Quadrado Testes exatos binomiais
Testes de diferenas
TESTES DE HIPTESES
GRUPOS NO CORRELACIONADOS
2 GRUPOS
+ 2 GRUPOS
2 GRUPOS
+ 2 GRUPOS
Paramtrico:
Paramtrico:
Paramtrico:
t-Student
ANOVA
T-Student pareado
No Paramtrico: Mann-Whitney
No Paramtrico: Kruskall-Wallis
TESTES PARAMTRICOS
Teste T-Student : Comparao de mdias ! H trs possveis testes: Tamanhos das amostras iguais, varincias iguais Tamanhos das amostras diferentes, varincias iguais Tamanhos das amostras diferentes, varincias diferentes Varincias Iguais? Exige que seja feito um teste de comparao de varincias Teste-F (Excel) Caso p-valor < 5% mostra indcios de que as varincias so diferentes:
TESTES PARAMTRICOS
Caso Varincias Iguais (homocedstico): Usar = ttest(var1, var2, 2, 2) Caso Varincias Diferentes (heterocedstico): Usar = ttest(var1, var2, 2, 3)
Caudas
Tipo
TESTES PARAMTRICOS
Caudas
Tipo = 1
TESTES PARAMTRICOS
Hiptese: Mdias dos grupos so iguais Alternativa: Mdias dos grupos no so iguais
6.00
5.00 4.00 3.00 3.00 3.00 2.00 3.00
7.00
2.00 3.00 1.00 7.00 3.00 8.00 9.00
6.00
7.00 8.00 9.00 7.00
5.00
6.00 7.00
8.00
9.00 7.00 6.00 5.00 4.00
TESTES PARAMTRICOS
Anova - EXSTAT
TESTES PARAMTRICOS
TESTES PARAMTRICOS
Hiptese: Mdias dos tempos/medidas so iguais Alternativa: Mdias dos temposmedidas no so iguais
TESTES PARAMTRICOS
SOFTWARES
Software
SOFTWARES
Excel
No permite o clculo de estatsticas no paramtricas diretamente Software comercial, mas presente na grande maioria das mquinas ADD-INS EXSTAT (s alguns testes, www.ime.usp.br/~pedrosp) MEGASTAT (completo, gratuto, http://highered.mcgrawhill.com/sites/0070983755/student_view0/megastat.html)
rea de Biolgicas
BioEstat (Livre) Simples mas completo www.mamiraua.org.br/download/ BioStat (comercial) - Completo www.analystsoft.com/br/products/biostat/ Sigmaplot +SigmaStat (comercial) Completo www.sigmaplot.com Inclui o Sigmastat a partir da verso 12 Graphpad Prism (comercial) http://www.graphpad.com/prism/Prism.htm
Testes Online!
SOFTWARES
http://faculty.vassar.edu/lowry/VassarStats.html VassarStats: Website for Statistical Computation NY Completo e com texto explicativo de cada teste
Lowry, R. 2011. VassarStats: Web Site for Statistical Computation. [Online]. Available at: http://faculty.vassar.edu/lowry/VassarStats.html [May 02, 2011].
http://www.fon.hum.uva.nl/Service/Statistics.html
IFA services (Institute of Phonetic Sciences Amesterdam) Menos completo, mas muito indicado para testes no paramtricos
Referncias
REFERNCIAS
PROJETO
PROJETO
Execute o teste paramtrico apropriado para verificar diferena estatstica entre as mdias dos grupos
mai-12
TESTES DE HIPTESES
TESTES DE HIPTESES
Diferenas
(2 ou mais categorias)
Teste Qui-Quadrado Testes exatos binomiais
Testes de diferenas
TESTES DE HIPTESES
GRUPOS NO CORRELACIONADOS
2 GRUPOS
+ 2 GRUPOS
2 GRUPOS
+ 2 GRUPOS
Paramtrico:
Paramtrico:
Paramtrico:
t-Student
ANOVA
T-Student pareado
No Paramtrico: Mann-Whitney
No Paramtrico: Kruskall-Wallis
Postos (ranks)
Posto 3 2 5 1 4 6
Consequncias
No leva em conta a distncia entre os valores, s a ordem! Geralmente testa-se igualdade de medianas Se h um valor muito discrepante dos demais isso no afeta o teste H perda de informaes
Mann-Whitney U
Caractersticas do Mann-Whitney
Teste de soma de postos de Wilcoxon (W. rank-sum test) 2 Grupos independentes Hiptese: As distribuies dos grupos so iguais, ou Hiptese: As medianas dos grupos so iguais Insensvel a outliers Os grupos no precisam ter o mesmo tamanho
Cuidados
Se a distribuio for normal melhor usar o teste t-Student para grupos independentes Precisa ter 4 ou mais elementos na amostra de cada grupo
Hiptese: Mediana da Amostra 1 = Mediana da Amostra 2 Alternativa: Mediana da Amostra 1 > Mediana da Amostra 2 Resultado: P-valor 1,41% -> Rejeito a hiptese com 95% de confiana
Kruskal-Wallis
Caractersticas do Kruskal-Wallis
Anlise de varincia no paramtrica 3 ou + grupos independentes Hiptese: As distribuies de todos os grupos so iguais, Hiptese: As medianas de todos os grupos so iguais Insensvel a outliers Os grupos no precisam ter o mesmo tamanho
Cuidados Se a distribuio for normal melhor usar o teste ANOVA de um critrio (one-way) Precisa ter 4 ou mais elementos na amostra de cada grupo Se tiver s 2 grupos use o Mann-Whitney
P-valor < 5% Rejeito hiptese de igualdade entre as medianas Mas quais so diferentes entre si? Uma forma usar Mann-Whitney para saber
Wilcoxon Pareado
P-valor
Online: http://www.fon.hum.uva.nl/Service/Statistics.html Teste Bicaudal Dividir p-valor por 2 para obter unicaudal
Friedman
Caractersticas do Friedman
Anlise de varincia no paramtrica 3 ou + grupos dependentes Hiptese: As distribuies de todos os grupos so iguais, Hiptese: As medianas de todos os grupos so iguais Insensvel a outliers Os grupos precisam ter o mesmo tamanho
Cuidados Se a distribuio for normal melhor usar o teste ANOVA para medidas repetidas Precisa ter 4 ou mais elementos na amostra de cada grupo Se tiver s 2 grupos use o Wilcoxon
Friedman no BioEstat
GRFICOS
GRFICOS
CATEGORIAS NO CORRELACIONADAS
CATEGORIAS CORRELACIONADAS
No Paramtrico: Boxplot
15
10
5
10 9
10 9 8 7 6 5 4 3 2 1 0
0
B
50 Tempo (min)100
7 6 5 4 3 2 1 0
150
Group A
Group B
Group C
Antes
Depois
PROJETO
PROJETO
Utilize a varivel (apenas 1 fator) com 2 ou mais grupos independentes/dependentes obtido anteriormente. Execute o teste apropriado para verificar diferena estatstica entre as medianas dos grupos (no paramtrico)
Projeto
PROJETO
Relatrio -Introduo : -Discorra brevemente sobre o que se tratam os dados incluindo a justificativa de relao de dependncia entre as categorias
-Metodologia: -Quais mtodo voc vai usar para analisar os dados e por qu? -Quais programas vai usar?
-Resultados: -Anlise descritiva (mdia, mediana, desvio,...) -Grficos de barras/linhas e boxplot -Comparao de mdias (paramtrico) -Comparao de medianas (no paramtrico) -Discusso/Concluses -Que tipo de efeito observou ? -Era o esperado?
Escrevendo
PROJETO
Em METODOLOGIA: Destacar TODA a metodologia estatstica usada e o motivo. EXEMPLOS: Como no conhecemos as distribuies de probabilidade das variveis na populao, foram usados testes no paramtricos para comparaes de variveis quantitativas, e boxplots para as representaes grficas (... Destacar quais e quando usou...) Consideramos um nvel de significncia de 95% para os testes de hiptese (...) Em RESULTADOS: Anlise descritiva da amostra Interpretar os dados e as estatsticas obtidas. EXEMPLO: Observa-se que h uma diferena estatisticamente significativa (pvalor < 5%) nas medianas dos nveis de glicose quando consideramos o grupo controle em relao ao de teste, indicando nveis maiores no grupo de teste. Isso pode ser observado na figura 4.3, onde apresentamos o boxplot que refere-se ao teste, (...). DICA: Usem como referncia outros artigos/teses (de qualidade)
Projeto
PROJETO
Entrega Por e-mail: pedrospeixoto@yahoo.com.br Mande com o assunto: Projeto de Estatstica - Butantan Data: At 15/7 Entregue o relatrio (.doc, .docx, .pdf) e o arquivo contendo as anlises em Excel. Avaliao 1/5 - Organizao 1/5 - Anlise Descrita e grficos 1/5 - Testes de comparaes paramtricos 1/5 - Testes de comparaes no paramtricos 1/5 - Interpretaes e anlises Software
Use o que achar mais adequado para o seu perfil, sugestes: BioEstat Softwares Online Excel + Templates Excel (MegaStat, EXSTAT)
Projeto
PROJETO
Observaes importantes
Utilize no projeto dados de apenas 1 fator. Podem ser com grupos independentes, ou dependentes. O fator pode ter 2 ou mais categorias. Fique atento as escolhas dos testes pertinentes (paramtricos e no paramtricos) Caso a sua base de dados tenha 2 fatores escolha 1 para trabalhar, de preferncia o de grupos independentes. Caso queira trabalhar com 2 fatores, faa a ANOVA apropriada (vamos estudar a seguir). Esta parte no ser levada em conta na avaliao. Caso no tenha uma amostra com essas caracteristicas tente obter uma com colegas os artigos. Caso mesmo assim no consiga, pode simular os dados, assim temos o efeito didatico.
mai-12
ANOVA
Testes de diferenas
TESTES DE HIPTESES
GRUPOS NO CORRELACIONADOS
2 GRUPOS
+ 2 GRUPOS
2 GRUPOS
+ 2 GRUPOS
Paramtrico:
Paramtrico:
Paramtrico:
t-Student
ANOVA
T-Student pareado
No Paramtrico: Mann-Whitney
No Paramtrico: Kruskall-Wallis
ANOVA
ANOVA
ANOVA 2 fatores
ANOVA
Controle
Trat 1 Trat 2
0.51
0.71 0.40
0.40
0.24 0.40
0.24
0.60 0.51
ANOVA 2 fatores
ANOVA
ANOVA 2 fatores com replicao (Data Analysis Excel) Fator das linhas (Tratamento)
ANOVA Source of Variation Sample Columns Interaction Within Total
14 12
df 2 2 4 36 44.00
Controle
Trat 1
Trat 2
10 8 6 4
2 0
Serpente A
Serpente B
Serpente C
ANOVA 2 fatores
ANOVA
Tipo de Tratamento e Estgios (Tempo) Fator 1: Controle/Trat.A/Trat.B Fator 2: Logo aps procedimento/1dia depois/ 2dias depois Lago de coleta e Profundidade Fator 1: LagoA/ LagoB Fator 2: 0m/ 1m/ 5m Tratamento e diluio Fator 1: Controle/Trat.A/Trat.B Fator 2: 1/4000, 1/8000, 1/16000
Periodo e Diluio Fator 1: Antes/Depois Fator 2: 1/4000, 1/8000, 1/16000 poca e profundidade Fator 1: Vero/Inverno Fator 2: 0m/ 1m/ 5m
ANOVA Online
ANOVA
http://faculty.vassar.edu/lowry/vsanova.html
ANOVA
Controle
Tratamento
Diluio DO 1/4000 1/8000 1/16000 1/32000 Controle 0.7 0.3 0.2 0.1 0.8 0.2 0.2 0.1 0.6 0.2 0.1 0.1 Tratamento 0.7 0.3 0.2 0.1 0.9 0.5 0.4 0.3 0.8 0.4 0.3 0.2
0.60 0.50
0.40 0.30 0.20 0.10
0.00
1/4000 1/8000 1/16000 1/32000
ANOVA 2 fatores
ANOVA
Muitos estudos usam ANOVA 2 fatores para amostras independentes mesmo com dados correlacionados. Evitem !!!! Exemplo anterior (calculado no Excel):
ANOVA Source of Variation Sample Columns Interaction Within
df 1 3 3 16
ANOVA 2 fatores
ANOVA
Balanceamento: Cada fator de linha tenha sempre o mesmo nmero de amostras para cada fator de coluna. Amostras no balanceadas exigem tratamento especial (ANOVA 2 fatores sem balanceamento) Tambm conhecido como modelo linear generalizado.
Anlise dos detalhes: Se observamos efeito de um fator: Quais das categorias/grupos se diferenciam das demais? Comparaes 2 a 2: Tukey, Scheff, Mann-Whitney, Teste-t, Wilcoxon, Bonferroni, ...
COMPARAES MLTIPLAS
Comparaes Mltiplas
COMPARAES MLTIPLAS
Mtodos de Correes
COMPARAES MLTIPLAS
J sei quantas comparaes vou fazer e uso um nvel de significncia menor (<5%) ou corrijo os p-valores obtidos de testes t-student
Bonferroni
Muito conservador
Holm-Bonferroni Mais poderoso Dunn-Sidak Duncan Fisher LSD Assume independncia Obsoleto Melhor usar Holm-Sidak
Holm-Sidak
COMPARAES MLTIPLAS
ANOVA NO PARAMTRICA
COMPARAES MLTIPLAS
COMPARAES MLTIPLAS
Comparaes Mltiplas
Paramtrico
No paramtrico
Tukey
Dunn ou Tukey
Holm-Sidak
Holm-Sidak
RESUMO
Testes de diferenas
Paramtrico:
t-Student 2 GRUPOS No Paramtrico: GRUPOS NO CORRELACIONADOS Mann-Whitney Paramtrico: ANOVA + 2 GRUPOS No Paramtrico: Kruskall-Wallis Paramtrico: T-Student pareado 2 GRUPOS No Paramtrico: GRUPOS CORRELACIONADOS (TEMPOS, ESTGIOS) + 2 GRUPOS No Paramtrico: Wilcoxon Pareado Paramtrico: ANOVA med. rep. Comparaes Mult: Dunnet ou Tukey Comparaes Mult: Teste Prprio Comparaes Mult: Tukey
TESTES DE HIPTESES
Friedman
ANOVA
Global:
ANOVA 2 fatores
Serp A 3 2 3 4 5 5 4 3 2 6 5 4 3 3 3 Serp B 5 5 6 5 7 6 6 7 7 6 7 7 8 7 9 Serp C 7 8 7 8 7 9 7 9 6 7 13 11 11 12 10
Controle
Trat 1
Trat 2
ANOVA
Controle
Trat 2
Trat 1
GRFICOS
CATEGORIAS NO CORRELACIONADAS
CATEGORIAS CORRELACIONADAS
Controle
Trat 1
Trat 2
14
10 8 6 4
2 0
Controle
Trat 1
Trat 2
12
10
8
6 4
Serpente A
Serpente B
Serpente C
2
0 T0 T1 T2
Projeto
PROJETO
Caso sua base dados tenha 2 fatores, tente usar a metodologia de ANOVA com 2 fatores Inclua no projeto as anlises posteriori, de comparaes mltiplas, caso tenha mais de 2 grupos. Caso no tenha uma amostra com essas caractersticas simule um conjunto de dados para exercitar a metodologia estudada. Essa parte no entrar na nota do projeto
mai-12
Dados
Hipteses
Associao ou independncia
4
5 6 .
M
M . .
S
N . .
Pulmo
Estmago . .
Testes
S N Total
45 40 35
Nmero de Pacientes
50 50 100
12
Fumo
N S
Existe associao?
Testes
Exemplo: Fumo x Tumor Existe associao? Teste Qui-quadrado Usando Vassar Stats H evidncia de associao com 95% de confiana
Total 50 50 100
40*50/100=20 Para o Qui-Quadrado no pode haver valor esperado menor que 5. Os softwares te avisam caso isso ocorra. Alternativa: Fisher
Testes
Teste alternativo para N pequeno: Teste exato de Fisher Dos que tiveram metastese: Sobrevivncia Fumo Sim No S 3 9 N 6 2 Total 9 11
12 10 8 6 4 2 3 Sim Sobrevivncia No 6 9 2
Esperados: Total 12 8 20 Fumo S N Total Sobrevivncia Sim No 5.4 6.6 3.6 4.4 9 11 Total 12 8 20
Fumo
N
Testes
Testes Bsicos
N grande Todas as clulas com valor maior que 5: Qui-quadrado N pequeno: Teste exato de Fisher
Outros
Correo de continuidade de Yates para Qui-quadrado Associao com dependncia McNemar Razo de risco, risco relativo Razo de chances (odds ratio)
Importante
O teste deve ser sempre feito com as quantidades reais, e no com %
EXERCCIO
Exerccio Regresso
EXERCCIO
Obtenha uma tabela de contingncia para fazer uma anlise de regresso ou use os dados fornecidos
Relatrio (Word):
- Caso os dados estejam ligados aos dados usados anteriormente, apenas acrescente as anlises no relatrio do projeto.
EXERCCIO
Dieta
Homem
Mulher
Total
Sim
No Total
1
11 12
9
3 12
10
14 24
REGRESSES
Introduo
REGRESSES
Regresso ? Estabelecer um modelo com base em um conjunto de dados Propsito 2 variveis : Medir a relao entre elas Mais variveis : Explicar uma varivel em funo das demais Requisitos 2 ou mais variveis numricas provenientes de uma mesma amostra Geralmente variveis independentes Distribuio Normal das variveis na populao Alguns tipos ... Linear (simples e mltipla) Logstica (Variveis categricas ou binrias) Modelos Lineares Generalizados Modelos temporais
Correlao
REGRESSES
Correlao
REGRESSES
Regresso
REGRESSES
X 1.00 2.00 3.00 4.00 3.00 2.00 4.00 2.00 3.00 4.00 5.00 6.00 7.00 8.00 9.00
Y 2.00 5.00 6.00 7.00 4.00 3.00 5.00 4.00 5.00 2.00 8.00 9.00 8.00 8.00 7.00
10.00 9.00 8.00 7.00 6.00 5.00 4.00 3.00 2.00 1.00 0.00 0.00 2.00 4.00 x 6.00
8.00
10.00
REGRESSES
Regresses Logartmicas
Diluio (1/x) 4000 8000 16000 32000 64000 Densidade ptica 0.703 0.311 0.139 0.058 0.015
0.8
0.7 0.6
REGRESSES
Densidade ptica
0.5
0.4
0.3
0.2
0.1
0 -0.1
10000
20000
30000
40000
50000
60000
-0.2
Escala X em Log:
0.8 0.7 0.6
Diluio (1/x)
Escala X e Y em Log:
1
Densidade ptica
0.5
0.4
0.3
0.2
Densidade ptica
0.1
0.1
0
4000 -0.1
-0.2
8000
16000
Diluio (1/x)
32000
64000
0.01 4000
8000
16000
Diluio (1/x)
32000
64000
Regresses Logartmicas Diluio (1/x) Log2(DO) 4000 -0.508 8000 -1.685 16000 -2.847 32000 -4.108 64000 -6.059
-1
-2
REGRESSES
Log2(DO)
-3
-4 -5
Log2(DO)=a*(Diluio)+b DO=2
(a*(Diluio)+b)
44000
54000
64000
0.8
Densidade ptica
Densidade Log2(Diluio) ptica 11.9658 0.703 12.9658 0.311 13.9658 0.139 14.9658 0.058 15.9658 0.015
0.7
0.6
0.5 0.4
0.3
0.2 0.1
DO=a* log2(Diluio)+b
0
-0.1 11
12
13
14
15
16
-0.2
Log2(Diluio)
Regresses Logartmicas
REGRESSES
0 -1
Log2(DO)
-2
-3
-4 -5 -6
11.0 11.5 12.0 12.5 13.0 13.5
Log2(Diluio)
14.0
14.5
15.0
15.5
16.0
Correlao No Paramtrica
REGRESSES
Coeficiente de Correlao de SPEARMAN: -No exige normalidade no paramtrico -Usa postos para obter a correlao
X 4.0 0.0 3.0 1.0 5.0 2.0 3.5 0.5 0.3 4.5 3.2 4.8 5.1 5.4 5.7 2.7 1.4 2.2 Y 5.0 0.0 4.0 3.7 8.0 2.5 4.2 2.5 1.4 6.7 5.3 9.0 10.0 13.0 16.0 4.1 3.9 6.1
18
16
14
12 10
8
6
4
2 0 0 1 2 3 X
20 18
16 14 12 10 8 6 4 2 0 0 5 10 Postos X 15 20
Pearson 0.866
Postos Y
Postos x Postos y 7.0 9.0 18.0 18.0 10.0 12.0 15.0 14.0 4.0 5.0 13.0 15.5 8.0 10.0 16.0 15.5 17.0 17.0 6.0 6.0 9.0 8.0 5.0 4.0 3.0 3.0 2.0 2.0 1.0 1.0 11.0 11.0 14.0 13.0 12.0 7.0
Spearman 0.95
EXERCCIO
Exerccio Regresso
EXERCCIO
Obtenha 2 variveis de uma mesma amostra para fazer uma anlise de regresso ou use os dados fornecidos
Calcule a correlao (Pearson e Spearman), ajuste uma regresso linear adequada e interprete os resultados
Relatrio (Word):
- Caso os dados estejam ligados aos dados usados anteriormente, apenas acrescente as anlises no relatrio do projeto.
EXERCCIO
Caso no tenha um conjunto de dados com 2 variveis utilize esse exemplo, onde temos os resultados de um ELISA
RESUMO DO DIA
TESTES DE HIPTESES
Teste de associao ou independncia (2 ou mais categorias) Teste Qui-Quadrado Testes exatos de Fisher (binomiais)
Grficos X Testes
TESTES DE HIPTESES
Frequncias
Variveis Qualitativas
Testes de Comparao de Distribuies em Categorias Barras com frequncias Pizza/torta
Relao
Variveis Quantitativas
Correlao/Regresses
100% 90% 80% 70% 60% 50% 40% 30% 20% 10% 0%
10.00 9.00 8.00 7.00 6.00 5.00 4.00 3.00 2.00 1.00 0.00 0.00 2.00 4.00 x 6.00
No infectado Infectado
8.00
10.00