Anda di halaman 1dari 412

Bencio de Barros Neto Ieda Spacino Scarminio Roy Edward Bruns

COMO FAZER EXPERIMENTOS


PESQUISA E DESENVOLVIMENTO NA CINCIA E NA INDSTRIA

FICHA CATALOGRFICA ELABORADA PELA BIBLIOTECA CENTRAL DA UNICAMP

Barros Neto, Bencio de B278c Como fazer experimentos: pesquisa e desenvolvimento na cincia e na indstria I Bencio de Barros Neto, Ieda Spacino Scarminio, Roy Edward Bruns. -- Campinas, SP : Editora da Unicamp, 2001. (Coleo Li vro-Texto) 1. Qumica - Mtodos estatsticos. 2. Planejamento experimental. 3. Modelos matemticos. 4. Otimizao matemtica. I Scarminio, Ieda Spacino. 11. Bruns, Roy Edward. 111. Ttulo. 20. CDD 540.28 519.5 511.8 519.7

ISBN: 85-268-0544-4

ndices para Catlogo Sistemtico: 1. 2. 3. 4. Qumica - Mtodos estatsticos Planejamento experimental Modelos matemticos Otimizao matemtica. 540.28 519.5 511.8 519.7

Copyright by Editora da Unicalnp, 2001 Coleo Li vro-Texto Nenhuma parte desta publicao pode ser gravada, armazenada em sistema eletrnico, fotocopiada, reproduzida por meios mecnicos ou outros quaisquer sem autorizao prvia do editor. Secretria executiva Elisabeth Regina Marchetti Assessor de produo editorial Vlademir Jos de Camargo Preparao e reviso Benicio de Barros Neto Supervisora de editorao eletrnica Silvia Helena P. C. Gonalves Editorao eletrnica Rossana Cristina Barbosa Designer de capa Benicio de Barros Neto Arte- final de capa Adailton Clayton dos Santos Acompanhamento grfico Ednilson Tristo Assessor de informtica Carlos Leonardo Lamari 2001 Editora da Unicamp Caixa Postal 6074 Cidade Universitria - Baro Geraldo CEP 13083-970 - Campinas - SP - Brasil Tel.: (19) 3788-1015 - Tel./Fax: (19) 3788-1100 www.editora.unicamp.br

Associao Brasileira de Editoras Universitrias

Sumrio

Prefcio 1 Como a Estatstica pode ajudar


1.1 Em que a Estatstica pode ajudar 1.2 Modelos empricos 1.3 Planejamento e otimizao de experimentos

1
2
4

Quando as coisas funcionam normalmente


2.1 Erros
2.1(a) Tipos de erros

9
10
11

2. 2 Populaes, amostras e distribuies


2.2(a) Como descrever as caractersticas da amostra

15
18
25

2.3 A distribuio normal


2.3(a) Como calcular probabilidades de ocorrncia 2.3(b) Como usar as caudas da distribuio normal padro 2.3(c) Porque a distribuio normal to importante? 2.3(d) Como calcular um intervalo de confiana para a mdia 2.3(e) Como interpretar um intervalo de confiana

27 31
34

36

38 38
43 48

2.4 Covarincia e correlao 2.5 Combinaes lineares de variveis aleatrias 2.6 Amostragem aleatria em populaes normais
2.7 Aplicando a distribuio normal 2.7(a) Como fazer comparaes com um valor de referncia 2.7(b) Como determinar o tamanho da amostra 2.7(c) Como fazer o controle estatstico de processos 2.7(d) Como comparar dois tratamentos Como comparar duas mdias Como fazer comparaes emparelhadas Como comparar duas varincias

56 56
58

60 64 64 67

69

Sumrio

2A Aplicaes 2A.1 2A.2 2A.3 2A.4

71 71 77 80 82

De casa para o trabalho Bioequivalncia de medicamentos genricos e de marca Mais feijes? Produtividade de algas marinhas

Como variar tudo ao mesmo tempo


3.1 Um planejamento fatorial 2 2
3.1(a) Clculo dos efeitos 3.1(b) Interpretao geomtrica dos efeitos 3.1(c) Estimativa do erro experimental 3.1(d) Interpretao dos resultados 3.1(e) Um algoritmo para o clculo dos efeitos 3.1(f) O modelo estatstico 3.2 Um planejamento fatorial 2 3 3.2(a) Clculo dos efeitos 3.2(b) Estimativa do erro 3.2(c) Interpretao dos resultados 3.2(d) O modelo estatstico

83
85
87

89 91
94

96 100 105 106 108 109


112 113 114

3.3 Um planejamento fatorial 2 4


3.3(a) Clculo dos efeitos 3.3(b) Estimativa do erro 3.4 Anlise por meio de grficos normais 3.5 Operao evolucionria com fatoriais de dois nveis 3.6 Blocagem em planejamentos fatoriais 3A Aplicaes 3A.1 3A.2 3A.3 3A.4 3A.5

115 117
123

126
130

Hidrlise de resinas Voltametria cclica do azul de metileno Tempo de reteno em cromatografia lquida Separao de gases por adsoro Melhorando funes de onda Desempenho de eletrodos de Ti!I'i02 Controlando a espuma Desenvolvimento de um detergente

130
131 133

135 137
140 144 146

3A.6 3A.7 3A.8

Sumrio

Quando as variveis so muitas


4.1 Fraes meias de planejamentos fatoriais 4.1(a) Como construir uma frao meia 4.1(b) Relaes geradoras de fatoriais fracionrios 4.2 O conceito de resoluo 4.2(a) Fatoriais fracionrio's de resoluo quatro 4.2(b) Fatoriais fracionrios de resoluo cinco 4.2(c) Variveis inertes e fatoriais embutidos em fraes 4.2(d) Fraes meias com resoluo mxima 4.3 Triagem de variveis 4.3(a) Fatoriais fracionrios de resoluo trs 4.3(b) Planejamentos saturados 4.3(c) Como construir uma frao de resoluo trs 4.3(d) Como construir uma frao 2~V4 a partir de uma frao 4.3(e) Planejamentos saturados de Plackett e Burman 4.3(f) Tcnicas de Taguchi para engenharia de qualidade 4A Aplicaes 4A.l 4A.2 4A.3 4A.4 4A.5 4A.6 4A.7

149
150 155 157 159 159

161
163

166 166 166 169


177

21iI4

177

179
180 185 185

Adsoro em slicas organofuncionalizadas Termogravimetria do oxalato de clcio Anlise cromatogrfica de gases Resposta cataltica da Mn-porfirina Escoamento de xidos na indstria siderrgica Produo de violacena por bactrias Cura de uma resina polister

187
190 191 193 195

198

Como

constr~ir

modelos empricos

201
201 212

5.1 Um modelo para y

= f(T)

5.2 Anlise da varincia 5.3 Intervalos de confiana 5.4 Significncia estatstica da regresso 5.5 Um novo modelo para y

217
223 224 227 235

= f(T)

5.6 Falta de ajuste e erro puro


5.7 Correlao e regresso 5A Aplicaes

238

Sumrio

5A.1 5A.2 5A.3 5A.4 5A.5 5A.6

A flexibilidade do ar Calibrao em cromatografia Calibrao multivariada Intervalo de energias proibidas em semicondutores Determinao de um calor de vaporizao Outra calibrao

238 241 244 245 246 248

Andando na superfcie de resposta


6.1 Metodologia de superfcies de resposta 6.1(a) Modelagem inicial 6.1(b) Como determinar o caminho de mxima inclinao 6.1(c) Localizao do ponto timo 6.2 A importncia do planejamento inicial 6.3 Um experimento com trs fatores e duas respostas 6.4 Como tratar problemas com muitas variveis 6.5 Planejamentos compostos centrais
6A Aplicaes

251
251 252 256 261 264 266 275 280 286 286 288 291 294 296

6A.1 6A.2 6A.3 6A.4 6A.5

Resposta cataltica do Mo(VI) Desidratao osmtica de frutas Diminuindo o colesterol Produo de lacase Aumentando o oxignio do ar

Como modelar misturas


7.1 Misturas de dois componentes 7.2 Misturas de trs componentes 7.3 Um exemplo: misturas de trs componentes 7.4 Modelos cbicos para misturas de trs componentes 7.5 Avaliao de modelos 7.6 Pseudocomponentes 7.7 Outros planejamentos 7.8 Misturas com mais de trs componentes
7A Aplicaes

301
304 309 313 317 320 323 325 329 333 333 335

7A.1 7A.2

Influncia do solvente na complexao do on Fe(III) Resistncia trao de misturas polimricas

Sumrio

7A.3 7A.4 7A.5

Determinao cataltica de Cr(VI) Condutividade de uma blenda polimrica No precisa comer para conhecer o pudim

339
341 344

Otimizao simplex
8.1 8.2

349
350 355
366

o simplex bsico o simplex modificado

8.3 O simplex supermodificado

Referncias bibliogrficas Respostas aos exerccios Tabelas ndice Remissivo

371 375
391 399

Prefcio

A utilidade deve ser a principal inteno de qualquer publicao. Onde quer que essa inteno no aparea claramente, nem os livros nem seus autores tm o menor direito aprovao da humanidade. Assim escreveu William Smellie no prefcio primeira edio da Encyclopaedia Britannica, publicada em 1768.
Nosso livro tem a modesta inteno de ser til s pessoas que desejarem - ou precisarem - fazer experimentos. A edio que voc est lendo uma verso consideravelmente revista, corrigida e ampliada do nosso texto anterior, Planejamento e Otimizao de Experimentos, que esgotou trs tiragens. Como foram muitas as mudanas que fizemos, conclumos que seria apropriado mudar tambm o ttulo, para torn-lo uma descrio mais fiel do contedo e do propsito do livro. Na preparao desta edio cada sentena foi reconsiderada, com o objetivo de tornar o texto mais claro. Todos os erros que conseguimos descobrir, ou que os leitores tiveram a bondade de nos apontar, foram corrigidos. A principal mudana, porm, que vrios novos assuntos foram includos, enquanto outros tantos passaram a ter um tratamento mais aprofundado. Entre as novidades, gostaramos de chamar a ateno para o captulo dedicado metodologia de superfcies de resposta, e para as sees contendo aplicaes reais das vrias tcnicas de planejamento e anlise que discutimos no texto principal. Muitos leitores da primeira edio comentaram conosco que gostariam de ver menos teoria e mais prtica. Os 35 exemplos reais que agora inclumos (quase 80 novas pginas dedicadas a eles, no total) representam um esforo no sentido de, seno diminuir a teoria, pelo menos temper-la com bastante prtica. As pessoas que usaram a edio anterior notaro ainda que o projeto grfico tambm foi modificado, na esperana de tornar a leitura mais agradvel. Nos 15 anos em que nos dedicamos a tentar ensinar quimiometria - isto , o emprego de tcnicas estatsticas, matemticas e grficas para resolver problemas qumicos tivemos centenas de alunos e alunas, tanto nas nossas prprias universidades quanto em outras instituies de ensino e pesquisa, bem como em diversas empresas. Esses estudantes vinham principalmente das cincias exatas e das engenharias, mas vrias outras profisses estiveram representadas, da administrao medicina, passando pela biologia, pela farmcia e pela tecnologia de alimentos, para mencionar as primeiras que nos ocorrem agora. Essa diversidade nos faz acreditar que as tcnicas que apresentamos podem ser aprendidas e usadas, com maior ou menor esforo, por qualquer profissional que tenha de realizar experimentos. Gostaramos de reiterar que a estatstica no faz milagres, e que no pode substituir de forma alguma o conhecimento tcnico especializado. O que continuamos esperando

xi

Prefcio

demonstrar, com esta nova edio, que um profissional que junte conhecimentos de planejamento de experimentos e de anlise de dados a uma slida formao tcnica em sua rea torna-se um profissional mais competente, e por isso mesmo mais competitivo. Ns mesmos somos qumicos, no estatsticos, e talvez seja isso que diferencie o nosso livro de outros com um contedo semelhante. Embora no acreditemos que algum possa dominar as tcnicas de planejamento e anlise de experimentos sem um certo conhecimento dos fundamentos da Estatstica, neste livro procuramos reduzir a discusso dessa base ao mnimo que consideramos necessrio, e passar logo para o que interessa problemas de pesquisa e desenvolvimento. Por outro lado, como sabemos que a Estatstica no costuma figurar entre as disciplinas mais populares na formao de diversas categorias profissionais, partimos do princpio de que nossos leitores no tm nenhum conhecimento prvio dessa cincia. Mesmo assim, chegamos mais cedo aos problemas experimentais com muitas variveis do que os textos mais tradicionais. Um nmero muito grande de pessoas contribuiu para que este livro se tornasse realidade. Se na primeira edio a lista j era extensa demais para que citssemos a todos nominalmente, temos a satisfao de reconhecer que de l para c ela s fez ampliar-se, e nossa gratido aumentou na mesma proporo. Queremos, porm, agradecer especialmente queles cujo trabalho permitiu que inclussemos tantas aplicaes na presente edio. Esses so chamados pelo nome quando discutimos seus respectivos dados. As universidades em que trabalhamos so muito distantes uma da outra, e a nossa colaborao tem se beneficiado do apoio da Fapesp, da Faep-Unicamp e do CNPq, pelo que tambm somos muito gratos. Por uma coisa somos os nicos responsveis: os defeitos que no conseguimos remediar. Contamos com a ajuda dos leitores para resolver esse problema de otimizao. Nossos endereos eletrnicos esto a embaixo. Se voc sabe como poderamos melhorar o livro, ficaremos muitos satisfeitos em ouvir sua opinio.

Campinas, janeiro de 2001.

B. B. Neto (bbn@npd.ufpe.br)
Departamento de Qumica Fundamental Universidade Federal de Pernambuco

l. S. Scarminio (ieda@gui.uel.br)
Departamento de Qumica Universidade Estadual de Londrina

R. E. Bruns (brunsigm.unicamp.br)
Departamento de Fsico-Qumica Instituto de Qumica - Unicamp

XII

1
Como a Estatstica pode ajudar
... Porque ter a mente boa no o bastante; o principal aplic-la bem. As maiores almas so capazes tanto das maiores virtudes quanto dos maiores vcios, e aqueles que marcham lentamente podem avanar muito mais, se seguirem o caminho certo, do que os que correm porm dele se afastam.
Descartes, Discurso sobre o mtodo, parte I.

Este um livro sobre o bom senso. Mais especificamente, sobre o bom senso na realizao de experimentos e na anlise de seus resultados. No incio do Discurso sobre o mtodo, um pouco antes da citao acima, Descartes diz que, de todas as coisas no mundo, a mais bem distribuda o bom senso, porque "todos se acham to abundantemente providos [de bom senso] que mesmo aqueles mais difceis de se contentar em outros assuntos comumente no desejam mais bom senso do que j tm" (Descartes, 1637). Se voc acredita nisso (Descartes obviamente no acreditava), este livro no para voc. Digamos, porm, que voc esteja de acordo com Descartes - afinal, voc continuou lendo - e ache que nem tudo que parece bvio to bvio assim. Nesse caso, se voc estiver envolvido com experimentao, seja na vida acadmica, seja na indstria, seja num laboratrio de pesquisa ou desenvolvimento, este livro poder lhe ser bastante til. Com ele voc poder aprender a realizar seus experimentos e tirar suas concluses de forma mais econmica e eficaz. Nos captulos seguintes apresentaremos algumas tcnicas relativamente simples e fceis de empregar. Como o ovo de Colombo, essas tcnicas podero at parecer bvias depois que voc refletir um pouco sobre elas, mas isso no lhes tira o mrito nem a eficcia. Para deixar mais claro o que queremos dizer, vamos considerar um exemplo prtico, muito fcil de encontrar na vida real, principalmente na indstria, onde a relao custo!benefcio sempre uma questo importante. Digamos que um qumico deseje obter o rendimento mximo em uma certa reao, e que essa reao seja controlada por apenas duas variveis: a temperatura e a concentrao de um determinado reagente. Na nomenclatura que adotaremos neste livro, a propriedade de interesse, que neste caso o rendimento, chamada de resposta. As variveis que em princpio influenciam a resposta (isto , a temperatura e a concentrao) so os fatores, e a

Como a Estatstica

funo que descreve essa influncia chamada de superficie de resposta. O objetivo do pesquisador descobrir quais os valores - os nveis - dos dois fatores que produzem a maior resposta possvel. Como voc faria para resolver esse problema? Eis uma sugesto. Para manter as coisas sob controle, fixamos um dos fatores num certo nvel e variamos o outro at descobrir qual o nvel desse outro fator que produz o maior rendimento. Variando s um dos fatores estaremos nos assegurando de que qualquer mudana na resposta ter sido causada pela modificao do nvel desse fator. Depois, mantendo esse fator no nvel timo encontrado, variamos o nvel do primeiro fator (o que tinha sido fixado), at descobrir o valor dele que tambm produz um rendimento mximo. Pronto. O experimento acabou, e descobrimos os valores timos que estvamos procurando, certo?

Errado! Esse pode ser o senso comum, mas certamente no bom senso. Quase todas
as pessoas a quem perguntamos concordaram que o procedimento que acabamos de descrever era "o mais lgico", e no entanto existe uma maneira muito mais eficaz de fazer o experimento. Alis, com esse "senso comum" o rendimento mximo s seria descoberto em circunstncias muito especiais. Ao contrrio do que se poderia esperar, muito melhor fazer variar todos os fatores ao mesmo tempo. A razo para isso que as variveis podem se influenciar mutuamente, e o valor ideal para uma delas pode depender do valor da outra. Esse comportamento, que chamamos de
intera~o

entre os fatores, um fenmeno que

ocorre com muita freqncia. Raras so as situaes em que dois fatores atuam de forma realmente independente. Este apenas um exemplo de como o senso comum pode ser enganoso. Voltaremos a ele nos captulos seguintes, para um tratamento detalhado. Neste captulo vamos apenas introduzir algumas noes bsicas de modelagem e apresentar sumariamente as tcnicas que discutiremos ao longo do livro, tentando mostrar a utilidade de cada uma delas na vida real.

1.1

Em que a Estatstica pode ajudar


comum, especialmente em indstrias qumicas, aparecerem problemas em que precisamos
estudar vrias propriedades ao mesmo tempo e estas, por sua vez, so afetadas por um grande nmero de fatores experimentais. Como investigar os efeitos de todos esses fatores sobre todas as propriedades, minimizando o trabalho necessrio e o custo dos experimentos? Como melhorar a qualidade do produto resultante? Que fatores experimentais devemos controlar para que a qualidade do produto seja assegurada?

As pesquisas realizadas com o objetivo de fornecer respostas a essas perguntas muitas vezes tomam vrios meses de trabalho de pesquisadores e tcnicos, a um custo bastante alto em termos de salrios, reagentes, anlises qumicas e testes fsicos. O principal objetivo deste livro mostrar que o emprego de conhecimentos estatsticos pode ajudar a responder a essas perguntas de forma racional e econmica. Usando planejamentos experimentais baseados em princpios estatsticos, os pesquisadores podem extrair do sistema em estudo o mximo de informao til, fazendo um nmero mnimo de experimentos. Os mtodos mais eficazes que podem ser usados por cientistas e engenheiros para melhorar ou otimizar sistemas, produtos e processos so apresentados nos captulos seguintes. Esses mtodos so ferramentas poderosas, com as quais vrios objetivos especficos podem ser alcanados. Podemos fabricar produtos com melhores caractersticas, diminuir seu tempo de desenvolvimento, aumentar a produtividade de processos, minimizar a sensibilidade dos produtos s variaes nas condies ambientais, e assim por diante. Voltando ao nosso exemplo inicial, vejamos algumas questes especficas em que o planejamento experimental pode ajudar o pesquisador a atingir seus objetivos mais rapidamente e a um custo menor. Digamos que ele j saiba que a temperatura e a concentrao, bem como o tipo de catalisador, afetam o rendimento. Como seria possvel ajustar os valores da temperatura e da concentrao para obter uma quantidade maior do produto? Variando esses fatores, seria possvel maximizar o rendimento? As mudanas nesses valores provocariam mudanas semelhantes nos rendimentos se o catalisador fosse outro? Que experimentos devemos realizar para obter mais informaes sobre o sistema? Como podemos quantificar a eficincia dos catalisadores para as diferentes combinaes de temperatura e concentrao? Como os valores dos fatores experimentais podem ser mudados para obtermos o maior rendimento possvel sem que as propriedades mecnicas do produto final deixem de satisfazer s suas especificaes? Nos captulos restantes discutiremos tcnicas estatsticas de planejamento e anlise capazes de nos auxiliar a encontrar respostas confiveis para todas estas questes. Os mtodos que veremos independem da natureza do problema a que so aplicados. Servem para estudar reaes qumicas, sistemas biolgicos, processos mecnicos (entre muitos outros), e tambm podem varrer todas as possveis escalas de interesse, desde uma nica reao em bancada at um processo industrial operando em larga escala. O denominador comum so os princpios estatsticos envolvidos, que so sempre os mesmos. claro que isso no significa menosprezar o conhecimento tcnico que o especialista j detm sobre o sistema em estudo. Como j dissemos no prefcio, ele insubstituvel. As ferra-

Come a Estatistica

mentas estatsticas, embora valiosas, so apenas um complemento a esse conhecimento. O ideal que as duas coisas - conhecimento bsico do problema e estatstica - andem juntas.

1.2 Modelos empricos


Quando se trata de modelar dados resultantes de experimentos ou observaes, importante fazer a distino entre modelos empricos e modelos mecansticos. Tentaremos esclarecer essa diferena considerando dois exemplos prticos. Imaginemos que um astrnomo queira calcular a hora em que vai ocorrer o prximo eclipse da Lua. Como sabemos, os fatos acumulados ao longo de sculos de observao e especulao levaram, no final do sculo XVII, a uma teoria que explica perfeitamente os fenmenos astronmicos no-relativsticos: a mecnica newtoniana. A partir das leis de Newton possvel deduzir o comportamento dos corpos celestes como uma conseqncia inevitvel das suas interaes gravitacionais. Este um modelo mecanstioo: com ele podemos prever as trajetrias dos astros porque sabemos as causas que as provocam, isto , conhecemos o mecanismo por trs de seu comportamento. O astrnomo s precisa aplicar a mecnica newtoniana s suas observaes e fazer as dedues necessrias. Ele no tem, alis, de ficar restrito ao sistema solar: as leis de Newton aplicam-se universalmente. Em outras palavras, a mecnica newtoniana tambm um modelo global. Agora consideremos uma situao bem diferente e mais prxima de ns. Um qumico encarregado de projetar uma fbrica piloto baseada numa determinada reao recmdesenvolvida em bancada. Ele sabe que o comportamento dessa reao pode ser influenciado por muitos fatores: as quantidades iniciais dos reagentes, o pH do meio, o tempo de reao, a carga de catalisador, a velocidade com que os reagentes so introduzidos no reator, a presena ou ausncia de luz, e assim por diante. Mesmo que exista um modelo cintico para a reao em questo, dificilmente ele poder levar em conta a influncia de todos esses fatores, alm de outros mais que costumam aparecer quando se muda da escala de laboratrio para a escala piloto. Numa fbrica em larga escala, ento, que normalmente o objetivo de longo prazo, a situao ainda mais complexa. Surgem elementos imponderveis, como o nvel de impurezas da matriaprima, a flutuao de fatores ambientais (umidade, por exemplo), a estabilidade do processo como um todo, e at mesmo o prprio envelhecimento do equipamento. Trata-se de uma situao muito complicada, para a qual difcil ser otimista quanto possibilidade de se descobrir um modelo mecanstico to abrangente e eficaz como a mecnica newtoniana. Num caso destes, o pesquisador deve recorrer forosamente a modelos

empricos, isto , modelos que procuram apenas descrever, com base na evidncia experimental, o comportamento do processo estudado. Isto totalmente diferente de tentar explicar a partir de umas poucas leis o que est se passando, que o que procura fazer um modelo mecanstico. Mesmo conseguir descrever, dito assim sem nenhuma adjetivao, pode ser em muitos casos uma tarefa ambiciosa demais. Na modelagem emprica j nos damos por satisfeitos se somos capazes de descrever o processo estudado

na regio experimental investigada. Isto quer dizer que modelos empricos so tambm
modelos lomis. Sua utilizao para fazer previses para situaes desconhecidas corre por
conta e risco do usurio. Para resumir o contedo deste livro numa nica frase, podemos dizer que o seu objetivo ensinar as tcnicas mais empregadas para desenvolver modelos empricos.

1.3

Planejamento e otimizao de experimentos


As pessoas normalmente se lembram da Estatstica quando se vem diante de grandes quantidades de informao. Na percepo do chamado senso comum, o emprego de mtodos estatsticos seria algo semelhante prtica da minerao. 1 Um estatstico seria um tipo de minerador bem-sucedido, capaz de explorar e processar montanhas de nmeros e delas extrair valiosas concluses. Como tanta coisa associada ao senso comum, esta tambm uma impresso falsa, ou no mnimo parcial. A atividade estatstica mais importante no a anlise de dados, e sim o planejamento dos experimentos em que esses dados devem ser obtidos. Quando isso no feito da forma apropriada, o resultado muitas vezes uma montanha de nmeros estreis, da qual estatstico algum conseguiria arrancar quaisquer concluses. A essncia de um bom planejamento consiste em projetar um experimento de forma que ele seja capaz de fornecer exatamente o tipo de informao que procuramos. Para isso precisamos saber, em primeiro lugar, o que mesmo que estamos procurando. Mais uma vez, parece bvio, mas no bem assim. Podemos mesmo dizer que um bom experimentador , antes de tudo, uma pessoa que sabe o que quer. Dependendo do que ele queira, algumas tcnicas sero mais vantajosas, enquanto outras sero simplesmente incuas. Se voc quer tornar-se um bom planejador, portanto, comece perguntando a si mesmo:

Alis, o termo data mining est se tornando cada vez mais comum para descrever investigaes

exploratrias em grandes bancos de dados, normalmente de interesse comercial.

Como a Estatstica

O que eu gostaria de fimr sabendo quando o experimento tiver terminado? Yogi Berra, o astro do beisebol americano, tambm era conhecido por suas tiradas

espirituosas, e s vezes paradoxais. Uma delas se aplica perfeitamente neste contexto: Se voc no sabe para onde est indo, vai terminar batendo em outro lugar. Imaginemos um eixo que descreva o progresso de uma investigao experimental, desde uma situao de praticamente nenhuma informao at a construo de um (hipottico) modelo mecanstico global. Caminhar ao longo desse eixo corresponderia a ir descendo as linhas da Tabela 1.1, que mostra um sumrio do contedo do livro. Na primeira linha, numa situao de pouca informao, sequer sabemos quais so as variveis mais importantes para o sistema que estamos estudando. Nosso conhecimento talvez se limite a uma pequena experincia prtica ou a alguma informao bibliogrfica. Nessas condies, a primeira coisa a fazer realizar uma triagem e descartar as variveis no significativas, para no perder mais tempo e dinheiro com elas no laboratrio. O uso de planejamentos fatoriais fracionrios, discutidos no Captulo 4, uma maneira de alcanar esse objetivo. Os planejamentos fracionrios so extremamente econmicos e podem ser usados para estudar dezenas de fatores de uma s vez.

Tabela 1.1. A evoluo de um estudo emprico. O conhecimento do sistema estudado aumenta medida que percorremos a tabela de cima para baixo. Objetivo Triagem de variveis Avaliao da influncia de variveis Construo de modelos empricos Otimizao Construo de modelos mecansticos Tcnica Planejamentos fracionrios Planejamentos fatoriais completos Modelagem por mnimos quadrados RSM, simplex Deduo a partir de princpios gerais Captulo
4 3

5,7 6,8

Tendo selecionado os fatores importantes, nosso prximo passo seria avaliar quantitativamente sua influncia sobre a resposta de interesse, bem como as possveis interaes de uns fatores com os outros. Para fazer isso com o mnimo de experimentos, podemos empregar planejamentos fatoriais completos, que so tratados no Captulo 3. Ultrapassando essa etapa e desejando obter uma descrio mais detalhada, isto , obter modelos mais sofisticados, podemos passar a empregar a modelagem por mnimos quadrados, que o

assunto tratado no Captulo 5. Esse provavelmente o captulo mais importante de todos, porque algumas das tcnicas discutidas em outros captulos nada mais so que casos particulares da modelagem por mnimos quadrados. Um exemplo o Captulo 7, dedicado modelagem de misturas. Modelos de misturas tm algumas peculiaridades, mas no fundo so modelos ajustados pelo mtodo dos mnimos quadrados. s vezes nosso objetivo principal otimizar nosso sistema, isto , maximizar ou minimizar algum tipo de resposta. Pode ocorrer que ao mesmo tempo ns tambm tenhamos de satisfazer determinados critrios. Por exemplo: produzir a mxima quantidade de um determinado produto, ao menor custo possvel, e sem fugir das especificaes. Nessa situao uma tcnica conveniente a metodologia de superficies de resposta (RSM), apresentada no Captulo 6 e tambm baseada na modelagem por mnimos quadrados. Mais adiante, no Captulo 8, apresentamos uma tcnica de otimizao diferente, o simplex seqencial, em que o objetivo simplesmente chegar ao ponto timo, dispensando-se a construo de um modelo. Construir modelos empricos no basta. Precisamos tambm avaliar se eles so realmente adequados ao sistema que estamos querendo descrever. S ento tem cabimento procurar extrair concluses desses modelos. Um modelo mal ajustado faz parte da fico cientfica, no da cincia.
impossvel fazer uma avaliao da qualidade do ajuste de um modelo sem recorrer

a alguns conceitos bsicos de estatstica. Isto no significa, porm, que voc tenha de se tornar um especialista em estatstica para poder se valer das tcnicas que apresentamos neste livro. Algumas noes baseadas na famosa distribuio normal so suficientes. Essas noes so apresentadas no Captulo 2, e so muito importantes para a compreenso e a aplicao dos mtodos de planejamento e anlise apresentados nos demais captulos. Para tentar amenizar a costumeira aridez com que so discutidos tais conceitos, baseamos nosso tratamento na soluo de um problema prtico, de alguma relevncia para a culinria nacional.
A utilizao de todos os mtodos descritos neste livro praticamente invivel sem a

ajuda de um microcomputador para fazer clculos e grficos. Quando escrevemos a primeira edio, distribuamos junto com o livro um disquete com vrios programas escritos com essa finalidade. Hoje a abundncia de programas muito mais sofisticados, vrios dos quais de domnio pblico, no s para Windows como para Linux, tornou o nosso disquete obsoleto. Se mesmo assim voc estiver interessado nos tais programas (que so para o sistema DOS), pode obt-los gratuitamente na pgina do Instituto de Qumica da Unicamp

(www.igm.unicamp.br). a partir do link chemkeys.

2
Quando as coisas funcionam normalmente

o que leva um pesquisador a fazer experimentos o desejo de encontrar a

soluo de deter-

minados problemas. Escrevemos este livro para mostrar como qualquer pesquisador (ou pesquisadora, naturalmente), aplicando as tcnicas estatsticas apropriadas, pode resolver seus problemas experimentais de forma mais eficiente. Queremos ensinar ao leitor o que fazer para tirar o melhor proveito dessas tcnicas, no s na anlise dos resultados experimentais, mas principalmente no prprio planejamento dos experimentos, antes de fazer qualquer medio.

Estatstica um termo que, merecidamente ou no, goza de pouca popularidade


entre os qumicos, e entre pesquisadores e engenheiros em geral. Quem ouve falar no assunto pensa logo num grande volume de dados, valores, percentagens ou tabelas, onde esto escondidas as concluses que buscamos, e que esperamos que os mtodos estatsticos nos ajudem a descobrir. Na verdade, analisar os dados apenas uma parte da Estatstica. A outra parte, to importante quanto - se no mais - planejar os experimentos que produziro os dados. Muita gente j descobriu, da forma mais dolorosa, que um descuido no planejamento pode levar um experimento, feito com a melhor das intenes, a terminar em resultados inteis, dos quais nem a anlise mais sofisticada consegue concluir nada. R. A. Fisher, o criador de muitas das tcnicas que discutiremos, escreveu uma advertncia eloqente: "Chamar o especialista em estatstica depois que o experimento foi feito pode ser o mesmo que pedir a ele para fazer um exame post-mortem. Talvez ele consiga dizer de que foi que o experimento morreu." Felizmente essa situao desagradvel pode ser evitada. Basta que voc planeje cuidadosamente a realizao do seu experimento, em todos os detalhes e usando as ferramentas estatsticas apropriadas. Com essa precauo, alm de minimizar os custos operacionais, voc ter a garantia de que os resultados do experimento iro conter informaes relevantes para a soluo do problema de partida. Com experimentos bem planejados, fica muito fcil extrair concluses vlidas. A anlise dos resultados passa a ser trivial. A recproca verdadeira. Um pesquisador que desconhea a metodologia do planejamento experimental corre o risco de chegar a concluses duvidosas. Pior ainda, pode acabar

uu:an:on as coisas funcionam normahnente

realizando experimentos que no levem a concluso alguma, duvidosa ou no, e cujo nico resultado prtico seja o desperdcio de tempo e dinheiro. Neste livro apresentaremos vrias tcnicas de planejamento e anlise que, com um pouco de esforo, podem ser usadas por qualquer pesquisador no seu dia-a-dia. Para discutilas corretamente, precisamos de alguns conceitos de estatstica, todos baseados, em ltima anlise, na famosa distribuio normal. por isso que resolvemos dar a este captulo o ttulo que ele tem. Existem vrios excelentes livros de estatstica, em todos os nveis de dificuldade, desde o muito elementar at o muito avanado. Muitos so voltados para reas especficas cincias sociais, cincias humanas, cincias da sade e, claro, tambm cincias fsicas e engenharia. Em geral eles tratam de muitos assuntos importantes do ponto de vista puramente estatstico, mas no totalmente relevantes para o nosso estudo do planejamento e da otimizao de experimentos. Como o nosso objetivo chegar o quanto antes s aplicaes prticas, vamos apresentar neste captulo somente os conceitos estatsticos essenciais para o trabalho do engenheiro ou do pesquisador, seja no laboratrio ou no campo. Por aborrecida que s vezes parea, a estatstica fundamental para que ns possamos planejar e realizar experimentos de forma eficiente. Para aproveitar todo o potencial das tcnicas apresentadas no restante do livro, muito importante que voc tenha uma compreenso correta do contedo deste captulo.

2.1 Erros
Para obter dados experimentais confiveis, precisamos executar um procedimento bem definido, com detalhes operacionais que dependem da finalidade do experimento. Imaginemos que nosso problema experimental seja determinar a concentrao de cido actico numa amostra de vinagre. O procedimento tradicional para resolv-lo fazer uma titulao cido-base. Seguindo o mtodo usual, precisamos (a) preparar a soluo do padro primrio; (b) us-la para padronizar a soluo de hidrxido de sdio de concentrao apropriada; (c) realizar a titulao propriamente dita. Cada uma dessas etapas, por sua vez, envolver um certo nmero de operaes bsicas, como pesagens, diluies e leituras de volume.

10

Determinaes como esta fazem parte da rotina dos laboratrios bromatolgicos, que as usam para verificar se o vinagre est de acordo com o estabelecido pela legislao (4% de cido actico, no mnimo). Suponhamos que, ao titular duas amostras de procedncias diferentes, um analista tenha encontrado 3,80% de cido actico para a amostra A e 4,20% para a amostra B. Isso quer dizer que ele deve aceitar a segunda amostra, por estar acima do limite, e condenar a primeira, por conter menos cido que o mnimo determinado por lei? No sabemos, pelo menos por enquanto. No podemos dar uma resposta justa sem ter uma estimativa da incerteza associada a esses valores, porque cada uma das operaes de laboratrio envolvidas na titulao est sujeita a erros, e esses erros todos iro se juntar para influenciar o resultado final - e portanto nossas concluses - numa extenso que ainda no temos como avaliar. O resultado insatisfatrio pode no ser culpa da amostra, e sim das variaes inerentes ao procedimento analtico. O mesmo se pode dizer do resultado aparentemente bom. Digamos que neste exemplo os erros sejam de tal monta que no tenhamos condies de obter um resultado final com preciso superior a 0,30%.1 Sendo assim, o verdadeiro valor da concentrao da primeira amostra pode estar entre 3,50% e 4,10%. O valor observado, 3,80%, seria apenas o ponto mdio desse intervalo. O resultado dessa nica titulao no excluiria a possibilidade de o verdadeiro teor de cido estar acima de 4%, e portanto enquadrar-se na lei. Da mesma forma, a verdadeira concentrao da segunda amostra pode estar abaixo de 4%. Sem uma indicao da incerteza experimental, os valores 3,80% e 4,20% podem levar a concluses - e talvez a atitudes, como a rejeio do lote de vinagre - no autorizadas pelos fatos.

2.1 (a) Tipos de erro


Todos sabemos que qualquer medida est sempre afetada por erros - so coisas da vida. Se os erros forem insignificantes, timo. Se no forem, corremos o risco de fazer inferncias incorretas a partir de nossos resultados experimentais, e possivelmente chegar a uma resposta falsa para o nosso problema. Para evitar esse final infeliz, precisamos saber como levar na devida conta os erros experimentais. Isso importante no s na anlise do resulta-

Calma, companheiros qumicos. Sabemos muito bem que esta uma preciso absurda para uma

anlise volumtrica que se preze. O exagero nos erros est sendo cometido no interesse da didtica.

11

do final, mas tambm - e principalmente - no prprio planejamento do experimento, como j dissemos. No existe anlise que possa salvar um experimento mal planejado. Suponhamos que na titulao do vinagre nosso qumico se distraia e se esquea de acrescentar o indicador (fenolftalena, como sabemos, porque o ponto de equivalncia vai cair em pH bsico). A conseqncia que a viragem no vai ocorrer nunca, no importa quanta base seja adicionada. Isso evidentemente um erro dos grandes, que os estatsticos caridosamente chamam de grosseiro. Os responsveis pelo experimento costumam usar outros adjetivos, que no ficam bem num livro de famlia. A estatstica no se ocupa desses erros. Alis, ainda no foi inventada a cincia capaz de trat-los. Num caso desses no h o que fazer, exceto aprender a lio e prestar mais ateno ao que se faz, para no reincidir. Todos cometemos enganos. O experimentador consciencioso deve fazer o possvel para comet-los cada vez menos. Imaginemos agora que acabou o estoque de fenolftalena e o qumico decide usar outro indicador que esteja disponvel. O vermelho de metila, por exemplo. Como a faixa de viragem do vermelho de metila fica em pH abaixo de sete, o ponto final da titulao vai ocorrer antes que todo o cido actico tenha sido neutralizado, e com isso o vinagre parecer ter uma concentrao inferior verdadeira. Se vrias amostras forem tituladas dessa maneira, em todas elas o valor encontrado para a concentrao de cido actico ser inferior ao valor real, por causa da viragem prematura. Nosso qumico estar cometendo agora somente erros sistemticos, isto , erros que afetam o resultado sempre na mesma direo, seja para mais, seja para menos. Usando vermelho de metila ao invs de fenolftalena, sempre obteremos uma concentrao de cido menor que a verdadeira, nunca maior.

fcil imaginar outras fontes de erros sistemticos: o padro primrio pode estar
adulterado, a balana pode estar descalibrada, a pipeta pode ter sido aferida erroneamente, quem est titulando pode olhar o menisco de um ngulo incorreto, e assim por diante. Cada um desses fatores exercer individualmente sua influncia sobre o resultado final, fazendo-o tender para uma certa direo. Com um pequeno esforo, os erros sistemticos tambm podem ser evitados. Uma vez que todos os instrumentos estejam funcionando perfeitamente, s seguir risca o procedimento estipulado. Por exemplo, se para voc usar fenolftalena, use fenolftalena mesmo, e ponto final. Depois de certificar-se de que todos os erros sistemticos foram eliminados, e alm disso prestando muita ateno no procedimento, nosso persistente qumico decide titular duas amostras retiradas do mesmo lote de vinagre. Como tudo no processo agora est sob

12

controle, natural esperar que as duas titulaes produzam o mesmo resultado, j que se trata do mesmo vinagre. Ao comparar os dois valores encontrados, porm, o qumico verifica que, apesar de bem parecidos, eles no so idnticos. Isso s pode significar que nem tudo estava realmente controlado. Alguma fonte de erro, ainda que aparentemente pequena, continua afetando os resultados. Para investigar esses erros, o qumico resolve ento fazer vrias titulaes em outras amostras retiradas do mesmo lote. Os resultados obtidos em 20 titulaes so mostrados na Tabela 2.1 e tambm na Figura 2.1. Examinando os resultados das vinte titulaes repetidas, percebemos que: Os valores obtidos flutuam, mas tendem a concentrar-se em torno de um certo valor intermedirio. A flutuao em torno do valor central ocorre aparentemente ao acaso. Sabendo que determinada titulao resultou num valor abaixo da mdia, por exemplo, no conseguimos prever em que direo se deslocar o valor da prxima titulao, nem de quanto ser o seu desvio em relao mdia. Parece que a amostra est mesmo fora da especificao, j que a maioria dos valores determinados est abaixo de 4%.

Tabela 2.1 Resultados de vinte titulaes feitas no mesmo lote de vinagre.


Titulao n Q 1 2
3 4

Concentrao (%) 3,91 4,01 3,61 3,83 3,75 3,91 3,82 3,70 3,50 3,77

Titulao n Q 11 12 13 14 15 16 17 18 19 20

Concentrao (%) 3,96 3,85 3,67 3,83 3,77 3,51 3,85 4,04 3,74 3,97

5
6

7 8 9 10

13

OUiZU1~dO

as coisas funcionam normairnente

Situaes como esta so corriqueiras nas mais variadas determinaes experimentais. Por mais que a gente tente controlar todas as variveis, algumas fontes de erro sempre terminam permanecendo. Alm disso, esses erros, que em geral so pequenos, se manifestam de forma aparentemente aleatria, como na segunda concluso acima. Ora alteram o resultado para mais, ora para menos, mas o seu efeito parece se dar ao acaso. Consideremos a titulao. Mesmo que o procedimento experimental seja rigorosamente obedecido e todas as operaes sejam feitas com todo o cuidado, sempre existiro flutuaes imprevisveis. Uma pequena variao no ngulo de leitura da bureta, uma gotinha que fica na pipeta, uma tonalidade diferente na viragem, e l vai o resultado se modificar. Como no conseguimos controlar essas variaes, no podemos saber em que direo o resultado ser alterado. Atuando em conjunto, essas perturbaes provocaro erros que parecem devidos ao acaso, e por isso so chamados de aleatrios.
4,1

4,0
()

r.

O
3,9

o
O
O

~
lct'S

3,8

<>
~

O
0

'E 3,7 Q)
u

O O

o
3,6
()

3,5

()

3,4

10

15

20

Titulao n-

Figura 2.1 Resultados de vinte titulaes feitas na mesma amostra de vinagre.

Basta refletir um pouco para ver que impossvel controlar rigidamente todos os fatores envolvidos num experimento, por mais simples que seja. Conseqentemente, qualquer determinao experimental estar afetada, em maior ou menor grau, por erros aleatrios. Se queremos chegar a concluses sensatas, esses erros precisam ser levados em conta. por isso, entre outros motivos, que precisamos de estatstica. 2

Erro, neste terceiro sentido, no deve ser entendido como um termo pejorativo, e sim como uma caracterstica com a qual teremos de conviver.

14

Exerccio 2.1

Pense num experimento simples e procure identificar alguns dos fatores que impedem o seu resultado de ser obtido rigorosamente sem erro.

2.2 Populaes, amostras e distribuies


o primeiro passo para tratar estatisticamente os erros aleatrios admitir alguma hiptese
sobre sua distribuio. O mais comum, quando se trata de medies, supor que a distribuio dos erros gaussiana ou, como tambm chamada, normal. Nesta seo vamos discutir em termos prticos essa hiptese e suas importantes conseqncias, partindo do seguinte problema: Com quantos gros se faz uma feijoada?

Evidentemente a resposta depende, entre outras coisas, do tamanho da feijoada. Vamos admitir, de sada, que a nossa receita leva um quilo de feijo. Assim o problema se transforma em descobrir quantos caroos existem nessa quantidade da leguminosa. Uma possvel soluo seria contar todos os caroos, um por um. Ela ser descartada desde j, porque estamos interessados numa abordagem estatstica da questo. Adotaremos uma soluo alternativa, que descobrir primeiro quanto pesa um caroo, e em seguida dividir 1.000 g por esse valor. O resultado da diviso dar o nmero de caroos contidos em um quilo.

Exerccio 2.2

Tente adivinhar quantos caroos existem em um quilo de feijo preto. bvio que este no o mtodo recomendado para resolver nosso problema (a no ser que voc tenha poderes parapsicolgicos), mas seu palpite servir para um teste estatstico, mais adiante.

Pesando numa balana analtica um caroo retirado ao acaso de um pacote de feijo preto, os autores obtiveram o valor 0,1188 g. Pesando um segundo caroo, tambm escolhido ao acaso, encontraram 0,2673 g. Se todos os caroos fossem iguais ao primeiro, haveria 1.000 g/0,1188 g, ou cerca de 8.418 caroos no quilo de feijo. Se fossem como o segundo, esse nmero cairia para 3.741. Qual desses valores a resposta que procuramos? Em princpio, nenhum dos dois. Como o peso varia de um caroo para outro, no devemos usar pesos individuais nas nossas contas, e sim o peso mdio do conjunto de todos os caroos. Para obter o peso mdio, s dividir o peso total do pacote de feijo (1 kg) pelo nmero de caroos que ele contm. Infelizmente isso nos traz de volta estaca zero: para des-

15

UUian:QO as coisas fl.HlCionam normahrH:~nte

cobrir, com esse mtodo, quantos caroos existem em um quilo de feijo, precisamos saber primeiro... quantos caroos existem em um quilo de feijo. Se todos os caroos fossem idnticos, o peso mdio seria igual ao peso de um caroo qualquer. Era s pesar um deles que a questo estaria resolvida. O problema que, como vimos, o peso varia de caroo para caroo. Mais que isso, varia - vejam s - de modo imprevisvel. Quem poderia adivinhar que, tendo retirado do pacote um caroo com 0,1188 g, a gente iria encontrar logo depois um outro pesando exatamente 0,2673 g? Apesar de no sabermos prever qual ser o peso de um caroo extrado ao acaso, podemos usar o bom senso para estabelecer alguns limites. Por exemplo: o peso no pode ser inferior a zero, e evidentemente deve ser muito menor que um quilo. Tambm no deve flutuar muito. Existem caroos maiores e caroos menores, mas s olhar para um pacote de feijo para ver que a maioria tem mais ou menos o mesmo tamanho. Ou seja, estamos numa situao parecida com a da titulao. Os valores individuais flutuam, mas flutuam em torno de um certo valor central. Agora, porm, a variao se deve ao elemento de acaso presente na escolha dos caroos, e no mais a problemas de medio ou instrumentao. O conjunto de todos os valores possveis numa dada situao o que se chama em estatstica de populao. O alvo de qualquer investigao experimental sempre uma populao. Nosso objetivo, ao coletar e analisar os dados, chegar a concluses sobre ela.

importante definir claramente, em qualquer caso, qual a populao de que


estamos falando. Muitas vezes, por incrvel que parea, nem isto est suficientemente claro para o pesquisador, que corre ento o risco de estender suas concluses a sistemas mais amplos do que os realmente estudados pelo experimento. Na nossa abordagem "gravimtrica" do problema dos feijes, por exemplo, a populao o conjunto dos pesos individuais de todos os caroos do pacote. A resposta que procuramos se refere ao pacote como um todo, mesmo que os caroos no sejam investigados um por um. E, a menos que a gente introduza alguma hiptese a mais (como, por exemplo, que o pacote representativo de toda uma colheita), se refere a esse pacote em particular, e s a ele. Pesando individualmente todos os caroos no pacote, teramos a distribuio exata dos pesos na populao. Poderamos ento calcular a verdadeira mdia populacional, que seria o peso mdio, correto, de um caroo no pacote. No entanto, se j descartamos a idia de contar todos os caroos, porque agora iramos pes-los? Evidentemente a soluo no vir por a. Ao invs de nos preocuparmos com a verdadeira mdia, que s poderamos descobrir examinando todos os caroos, tentaremos nos contentar com uma estimativa, calculada a

16

Catutuh12

partir de apenas alguns deles, isto , a partir de uma amostra da populao. Se a amostra for suficientemente representativa, a mdia amostraI dever ser uma boa aproximao da mdia populacional, e poderemos us-la para concluir alguma coisa sobre a populao.

Populao: Qualquer coleo de indivduos ou valores, finita ou infinita. Amostra: Uma parte da populao, normalmente selecionada com o

objetivo de se fazer inferncias sobre a populao.

Exerccio 2.3 No exemplo dos feijes a populao finita: o nmero total de caroos pode ser grande, mas limitado. O conjunto de todas as concentraes que podem em princpio ser obtidas na titulao de uma dada amostra constitui uma populao finita ou infinita? (Note a expresso "em princpio". Imagine que possvel fazer quantas titulaes voc quiser, sem correr o risco de esgotar os estoques da amostra e dos reagentes.)

Para que a amostra seja uma representao realista, no tendenciosa, da populao completa, necessrio que seus elementos sejam escolhidos de forma rigorosamente aleatria. No caso dos feijes, por exemplo, preciso que a chance de um caroo ser pesado seja exatamente a mesma para todos eles. Depois de escolher um caroo ao acaso e pes-lo, devemos coloc-lo de volta no pacote e mistur-lo aos outros, para que volte a ter uma chance igual deles de ser escolhido. Se no tomarmos essa precauo, a populao se modifica medida que os caroos so retirados e a amostra no poder mais representar de forma fidedigna a populao original. Esta condio muito importante na prtica, porque as inferncias estatsticas sempre supem que as amostras so representativas da populao. Por isso, ao realizar um experimento, devemos sempre tomar cuidado para coletar os dados de modo que a hiptese de aleatoriedade seja, se no rigorosamente, pelo menos aproximadamente obedecida.

,.

Amostra representativa: Apresenta as caractersticas relevantes da populao


na mesma proporo em que elas ocorrem na prpria populao.
Amostra aleatria: Amostra de N valores ou indivduos obtida de tal forma que

I
:.

todos os possveis conjuntos de N valores na populao tenham a mesma chance de ser escolhidos.

17

as coisas flH1cionam

norma~mente

2.2 (a) Como descrever as caractersticas da amostra


A Tabela 2.2 mostra os pesos individuais de 140 caroos retirados aleatoriamente de um pacote contendo um quilo de feijo preto. Examinando com ateno esses dados, podemos confirmar nossa expectativa de uma flutuao mais ou menos restrita. O maior valor observado 0,3043 g (quinto valor na penltima coluna), o menor 0,1188 g (o primeiro de todos), e a maioria dos caroos parece ter um peso ao redor de 0,20 g.

Tabela 2.2 Pesos de caroos extrados aleatoriamente de um pacote de 1 kg de feijo preto (em gramas).
0,1188 0,1795 0,2382 0,2505 0,1810 0,2833 0,2309 0,1746 0,2327 0,2311 0,2459 0,1996 0,2096 0,1814 0,2595 0,1848 0,1965 0,2593 0,2657 0,1399 0,2673 0,1910 0,2091 0,1823 0,2126 0,2380 0,2458 0,1677 0,2137 0,1902 0,2098 0,1995 0,2054 0,1340 0,1470 0,2184 0,1773 0,1799 0,2666 0,2790 0,1795 0,1409 0,2660 0,1590 0,1596 0,1930 0,1496 0,2456 0,1793 0,1970 0,1817 0,1732 0,1561 0,2051 0,2674 0,2254 0,1340 0,2585 0,2535 0,1988 0,2369 0,1733 0,2126 0,1722 0,2504 0,1980 0,1865 0,1828 0,2423 0,1644 0,1736 0,1987 0,1766 0,2455 0,1701 0,1573 0,2237 0,2153 0,1874 0,1904 0,1826 0,2146 0,2048 0,1462 0,2285 0,1402 0,2087 0,1663 0,2012 0,1935 0,2296 0,2482 0,2620 0,2008 0,2055 0,1696 0,1996 0,2365 0,1869 0,1911 0,1860 0,1965 0,2058 0,1985 0,3043 0,2060 0,2335 0,1971 0,1968 0,1421 0,2200 0,1708 0,1642 0,1740 0,2215 0,2262 0,1463 0,1629 0,2266 0,2186 0,2045 0,2326 0,1666 0,1769 0,1683 0,2097 0,2173 0,2341 0,2433 0,1202 0,2025 0,2465 0,2507 0,2089 0,2080 0,1950 0,1917 0,1875 0,2143 0,1606

18

Fica mais fcil interpretar os dados se dividirmos a faixa total dos pesos em intervalos menores e contarmos os caroos situados dentro de cada intervalo. Com os valores extremos que observamos, a faixa 0,10-0,32 g suficiente para acomodar todos os valores da Tabela 2.2. Dividindo-a em intervalos de largura igual a 0,02 g e atribuindo cada peso medido ao intervalo apropriado, obtemos os resultados que aparecem na Tabela 2.3. Percorrendo a coluna do meio, verificamos imediatamente que os intervalos ao redor de 0,20 g so mesmo os que contm mais caroos. Dividindo o nmero de caroos em um certo intervalo pelo nmero total de caroos pesados, obtemos a freqncia relativa correspondente a esse intervalo. No intervalo 0,26 0,28 g, por exemplo, foram observados sete caroos, de um total de 140. A freqncia relativa portanto 7 0,28 g.
+

140, ou 0,050. Isso significa que 5% dos pesos medidos ficaram entre 0,26 e

Tabela 2.3 Distribuio dos pesos de 140 caroos extrados aleatoriamente de um pacote de
1 kg de feijo preto. Intervalo (g) 0,10 - 0,12 0,12 - 0,14 0,14 - 0,16 0,16 - 0,18 0,18 - 0,20 0,20 - 0,22 0,22 - 0,24 0,24 - 0,26 0,26 - 0,28 0,28 - 0,30 0,30 - 0,32 Total N de caroos 1 4 11 24 32 27 17 15 7 1 1 140 Freqncia(*) 0,007 0,029 0,079 0,171 0,229 0,193 0,121 0,107 0,050 0,007 0,007 1,000

(*) Nmero de caroos no intervalo dividido pelo nmero total de caroos, 140.

19

vuanoo as coisas

func~onam norma~mente

As freqncias calculadas para todos os onze intervalos aparecem na ltima coluna da Tabela 2.3. prefervel analisar a distribuio dos pesos dos caroos em termos de freqncias, porque as distribuies estatsticas tericas so distribuies de freqncias, no de nmeros absolutos de observaes. Conhecendo as freqncias, podemos determinar as probabilidades de que certos valores de interesse venham a ser observados. Com essas probabilidades podemos ento testar hipteses sobre a populao, como veremos logo mais.

Exerccio 2.4

Use os dados da Tabela 2.3 para confirmar que 54,3% dos caroos observados tm peso entre 0,18 g e 0,24 g.

Qualquer conjunto de dados fica mais fcil de analisar se for representado graficamente. No grfico tradicional para uma distribuio de freqncias, cada intervalo representado por um retngulo, cuja base coincide com a largura do prprio intervalo e cuja rea idntica, ou pelo menos proporcional, sua freqncia. A figura geomtrica obtida dessa forma chamada de histograma Como a soma de todas as freqncias tem de ser igual a um (isto , a soma de todas as percentagens tem de dar 100%), a rea total do histograma tambm igual a um, quando a rea de cada retngulo for igual freqncia do intervalo correspondente. A Figura 2.2 mostra um histograma das freqncias da Tabela 2.3. Para
0.28

0.24

0.20

cO)

'u c
:::J

tU

0.16

oO)

Li:

0.12

0.08

0.04 .

0.00 0,11 0,15 0,19


Peso (g)

0,23

0,27

0,31

Figura 2.2 Histograma dos pesos de 140 caroos extrados aleatoriamente de um


pacote de 1 kg de feijo preto. O significado dos smbolos explicado no texto.

20

facilitar a comparao com os dados da tabela, fizemos a altura de cada retngulo, e no a sua rea, igual freqncia do intervalo. Isso no altera o aspecto geral do histograma, j que as bases dos retngulos so todas iguais. As vantagens da representao grfica so evidentes. A concentrao dos pesos dos caroos em torno do valor 0,20 g percebida imediatamente, assim como o escasseamento progressivo dos dados medida que nos afastamos desse valor, em ambas as direes. Tambm podemos notar uma simetria na distribuio: a parte que fica direita da regio central mais ou menos a imagem especular da parte que fica esquerda. Essa caracterstica seria muito difcil de perceber se a representao dos dados se limitasse Tabela 2.2. Fica portanto o conselho: quando temos um conjunto de dados para analisar, desenhar um grfico uma das primeiras coisas que devemos fazer. Esta uma regra geral da estatstica, equivalente ao velho ditado que diz que uma imagem vale mil palavras.

Exerccio 2.5

Construa um histograma para os dados da Tabela 2.1. A literatura em geral recomenda que o nmero de barras seja aproximadamente igual raiz quadrada do nmero total de observaes. Como a tabela tem 20 valores, seu histograma deve ter 4 ou 5 barras. Prefira cinco, que um nmero mpar, e lhe permitir enxergar melhor possveis simetrias.

histograma da Figura 2.2 uma representao grfica de todos os 140 valores

numricos da nossa amostra. Suas caractersticas bsicas so a localizao do conjunto de observaes numa certa regio do eixo horizontal; sua disperso, ou espalhamento, ao longo dessa regio. Estas caractersticas podem ser representadas numericamente, de forma abreviada, por vrias grandezas estatsticas. As mais usadas nas cincias fsicas, onde as variveis normalmente assumem valores numa faixa contnua, so a mdia aritmtica e o desvio padro, respectivamente. A mdia aritmtim de um conjunto de dados, que uma medida da sua localizao, ou tendncia central, simplesmente a soma de todos os valores, dividida pelo nmero total de elementos no conjunto. Este o conceito de mdia que utilizaremos neste livro. Daqui em diante nos referiremos a ele empregando apenas o termo "mdia", ficando o adjetivo "aritmtica" subentendido.

21

QuandO as coisas funcionam

norma~mente

valor mdio numa amostra costuma ser indicado por uma barra colocada

sobre o smbolo que representa os elementos da amostra. Se usarmos o smbolo x para representar o peso de um caroo, a mdia no nosso exemplo ser representada por dada por

x,

x=

_1_ (0,1188 + 0,2673 + ... + 0,1606 ) 140

= 0,2024 g.
Com esse valor3 podemos estimar que o quilo de feijo contm cerca de 1.000 g 0,2024 g/caroo
+

= 4.940

caroos. Essa estimativa, no entanto, foi obtida a partir da obser-

vao de apenas 140 caroos, isto , menos de 3% do total, supondo-se que haja mesmo cerca de 5.000 caroos no pacote. Por isso, no deve corresponder ao valor exato. Trata-se apenas de uma mdia amostrai, e no da mdia populacional. Veremos adiante como proceder para estimar sua incerteza.

MdiaAmostraJ:

1
X = -

N
LXi
i=l

(2.1)

= i - simo valor N = Nmero total de


Xi

valores na amostra

Para obter nossa medida do espalhamento das observaes em torno da mdia, que o desvio padro, primeiro calculamos a diferena, ou desvio, de cada valor individual em relao mdia amostraI:

Em seguida somamos os quadrados de todos os desvios e dividimos o total por N - 1. O resultado dessas operaes a varincia do conjunto de observaes, representada pelo smbolo
8
2 :

3 O costume calcular a mdia com uma casa decimal a mais que os dados originais. No nosso exemplo, com quatro algarismos significativos, isso no tem importncia prtica.

22

Varincia anwstral:

1- ~ 2 1 ~( -)2 V(X) =8 2 = ~di = - - k..J Xi- X

(2.2)

N -1

i=l

N -1

i=l

Xi = i - simo valor

= Nmero

total de valores na amostra

x = Mdia amostraI
Note que a varincia uma espcie de mdia dos quadrados dos desvios, s que o denominador no o nmero total de observaes, N, e sim N -1. Para entender a razo dessa mudana, devemos lembrar que as observaes originais, obtidas por amostragem aleatria, eram todas independentes. Mesmo conhecendo os pesos de todos os 139 primeiros caroos, no teramos como prever exatamente qual seria o peso do prximo caroo, o 140. Usando a linguagem da Estatstica, dizemos que esse conjunto tem 140 graus de liberdade.
um grupo de 140 valores totalmente independentes, em que um valor individual qualquer

no depende dos valores restantes. Com os desvios a situao um pouco diferente. Vejamos o que acontece quando somamos os valores de todos eles (os somatrios todos so feitos de i = 1 at i = N ):
Ldi = L(xi i i

-x)=

LXi - LX = LXi i i i

-Nx.

Lembrando que a mdia definida por fi somatrio

=~
N

i=l

Xi ,

podemos substituir o termo N fi pelo

L Xi , e portanto
i

(2.3)

Ou seja: os 140 desvios no so todos independentes. Se conhecermos 139 deles, o valor que falta estar automaticamente determinado: aquele que torna o total igual a zero. A restrio expressada pela Equao 2.3, que vem do clculo da mdia, retira um grau de liberdade do conjunto de desvios. J que, dos N desvios, s N -1 podem flutuar aleatoriamente, natural que o denominador na definio da varincia seja N -1, e no N. O conceito de grau de liberdade muito importante. Mais tarde veremos exemplos em que vrias restries como esta so impostas a um determinado conjunto de valores. Se houver p restries diferentes, o nmero de graus de liberdade se reduzir de N, o total de

23

elementos do conjunto, para v = N - p. Esse ltimo valor que ser usado como denominador, numa mdia quadrtim semelhante Equao 2.2. Em nossa amostra, onde
S

x = 0,2024 g, a varincia , de acordo com a Equao 2.2,

2 = _1_ [(0,1188 _ 0,2024)2 + (0,2673 _ 0,2024)2 139 + ... + (0,1606 -0,2024)2]


== 0,0132g
2

Enquanto a mdia tem as mesmas unidades que as observaes originais, as unidades da varincia so, pela prpria definio, o quadrado das unidades de partida. Para que as medidas de disperso e de posio tenham as mesmas unidades, costumamos substituir a varincia pela sua raiz quadrada, que chamada de desvio padro. No nosso exemplo, o desvio padro

= ~(O,00132 g2 ) = 0,0363 g .

Desvio padro amostraI:


~~~-~---'~~~~1

S2

= Varincia das

~ ~.::: ~~.:.:
..:

(2.4)
1

observaes na amostra

Exerccio 2.6

Calcule a mdia e o desvio padro dos dez primeiros valores da Tabela 2.2 (de 0,1188 g at 0,1409 g).

o desvio padro geralmente usado para definir intervalos em torno da mdia 4 .


Em nossa amostra de 140 caroos, por exemplo, os limites do intervalo definido por um desvio padro em torno da mdia so 0,2024 0,0363, ou 0,1661 g e 0,2387 g. A regio compreendida entre esses dois valores (Figura 2.2) corresponde a 66,6% da rea total do histograma, o que significa que nela caem dois teros de todos os pesos observados.

J a regio definida por dois desvios padro tem como limites 0,1298 g e 0,2750 g, e
contm 96,8% da rea total. Dentro de certas suposies, que discutiremos adiante,

4 O desvio padro costuma ser calculado com duas casas decimais a mais que os dados de partida. Aqui tambm no estamos nos importando com esse detalhe.

24

esses intervalos amostrais podem ser utilizados para testar hipteses a respeito da populao. Estas contas por extenso foram feitas a bem da didtica. Voc no deve preocupar-se com a perspectiva de calcular somatrios interminveis para poder determinar mdias e desvios padro. Qualquer calculadora cientfica j vem da fbrica programada para realizar todas as operaes necessrias. Alm disso, existem vrios programas para microcomputadores, de fcil acesso, capazes de realizar no s estes como muitos outros clculos estatsticos. Quanto mais cedo voc aprender a usar um desses programas, melhor. A estatstica lhe parecer bem mais leve.

Exerccio 2.7

Calcule a mdia e o desvio padro do conjunto de valores da Tabela 2.1 e determine os limites do intervalo.definido por dois desvios padro em torno da mdia. Compare com o intervalo de confiana dado no texto para os valores da titulao.

Os valores

x = 0,2024

ge

= 0,0363

g foram obtidos a partir dos 140 pesos indi-

viduais e portanto representam a amostra: so estimativas amostrais. Os valores que nos interessam, porm, so os parmetros populacionais. Queremos saber quantos caroos existem em todo o quilo de feijo, no numa pequena amostra. Os estatsticos costumam empregar smbolos latinos para representar valores amostrais, reservando o alfabeto grego para os parmetros populacionais. Seguindo essa conveno, vamos representar a mdia e o desvio padro populacionais do nosso exemplo pelas letras gregas J.1 e
0',

respectivamente. O que podemos inferir a respeito desses valores, dis-

pondo apenas dos valores amostrais

e 8?

2.3 A distribuio normal


Suponhamos que os caroos cujos pesos aparecem na Tabela 2.2 sejam separados do resto do pacote, e passem a ser tratados como uma minipopulao de 140 elementos. J vimos, na Tabela 2.3, que 5% desses elementos pesam entre 0,26 g e 0,28 g. Isso nos permite dizer que a probabilidade de retirarmos aleatoriamente um caroo com o peso na faixa 0,26 - 0,28 g exatamente 5%. Temos condies de fazer essa afirmao porque conhecemos a distribuio exata das freqncias dos pesos nessa pequena populao. Poderamos fazer o mesmo com um caroo retirado ao acaso do pacote de um quilo, ou seja, da prpria populao original, se conhecssemos exatamente a distribuio populacional, e no

25

UUiH1:00

as

co~sas

funcionam normzdrnente

somente a amostraI. Infelizmente, para isso seria necessrio pesar todos os caroos, um por um. Imagine agora que tivssemos nossa disposio um modelo que fosse adequado para a distribuio dos pesos de todos os caroos do pacote. Nesse caso, no precisaramos mais pesar cada caroo para fazer inferncias sobre a populao. Poderamos tirar nossas concluses do prprio modelo, sem ter de fazer nenhum esforo experimental a mais. Esta idia - usar um modelo para representar uma dada populao - o tema central deste livro. Ela estar presente, implcita ou explicitamente, em todas as tcnicas estatsticas que vamos discutir. Mesmo que em certos casos a gente no diga expressamente qual o modelo adotado, pelo contexto voc saber do que estamos falando. claro que nossas inferncias a respeito da populao s podero estar corretas se o modelo escolhido for vlido. Em qualquer situao, porm, o procedimento que devemos seguir ser sempre o mesmo: Postular um modelo para representar os dados extrados da populao na qual estamos interessados; Verificar se essa representao satisfatria; Nesse caso, tirar as concluses apropriadas; caso contrrio, trocar de modelo e tentar novamente. Um dos modelos estatsticos mais importantes - talvez o mais importante - a distribuio normal (ou gaussiana), que o famoso matemtico Karl F. Gauss props no incio do sculo XIX, para calcular probabilidades de ocorrncia de erros em medies. Tantos foram - e continuam sendo - os conjuntos de dados que podem ser bem representados pela distribuio normal, que ela passou a ser considerada o comportamento natural de qualquer tipo de erro experimental: da o adjetivo normal. Se alguma vez se constatasse que a distribuio dos erros no seguia uma gaussiana, a culpa era jogada na coleta dos dados. Depois ficou claro que existem muitas situaes experimentais em que a distribuio normal de fato no " vlida, mas ela permanece sendo um dos modelos fundamentais da estatstica. Muitos dos resultados que apresentaremos daqui em diante s so rigorosamente vlidos quando os dados obedecem distribuio normal. Na prtica, isto no uma restrio muito sria, porque quase todos os testes que veremos continuam eficientes na presena de desvios moderados da normalidade.

26

2.3 (a) Como calcular probabilidades de ocorrncia


Uma distribuio estatstica uma funo que descreve o comportamento de uma varivel
aleatria. Uma varivel aleatria uma grandeza que pode assumir qualquer valor dentro

do conjunto de valores possveis para o sistema a que ela se refere, s que cada valor desses tem uma certa probabilidade de ocorrncia, governada por uma determinada distribuio de probabilidades. Se tivermos como descobrir ou estimar qual essa distribuio, poderemos calcular a probabilidade de ocorrncia de qualquer valor de interesse. Ou seja: teremos uma modesta bola de cristal estatstica, que poderemos usar para fazer previses. Logo mais veremos como fazer isso com a distribuio normal. A distribuio normal uma distribuio oontnua, isto , uma distribuio em que a varivel pode assumir qualquer valor dentro de um intervalo previamente definido. Para uma varivel normalmente distribuda, o intervalo (-00 +00), o que significa que ela pode assumir, pelo menos em princpio, qualquer valor real. Uma distribuio contnua da varivel x definida pela sua densidade de probabilidade

f(x), que uma expresso matemtica contendo um certo nmero de

parmetros. Na distribuio normal os parmetros so, por definio, apenas dois: a mdia e a varincia populacionais (Equao 2.5). Para indicar que uma varivel aleatria x se distribui normalmente, com mdia J1 e varincia
(J"2,

empregaremos a notao x ::: N (JI, (J"2 ), onde o sinal ::: pode ser lido como

"distribui-se de acordo com". Se x tiver mdia zero e varincia igual a um, por exemplo, escreveremos x ~ N

(0,1). Nesse caso, diremos tambm que x segue a distribuio normal

padro (ou padronizada).

Distribuio lrormal:

f(x ) dx -

r:::-

-e 20" 2 dx

-(x-J1f

(2.5)

a...;2n

f(x ) = Densidade de probabilidade da varivel aleatria x


J.1 = Mdia populacional

a 2 = Varincia populacional

27

Quando as coisas funcJonam

norma~mente

A Figura 2.3 mostra a famosa curva em forma de sino que o grfico da densidade de probabilidade de uma distribuio normal padro,
1 _x 2

f(x)= -

(2.5a)

Note que a curva perfeitamente simtrica em torno do ponto central, que a mdia J..l (aqui, igual a zero). O valor da densidade mximo sobre a mdia, e cai rapidamente quando nos afastamos dela, em ambas as direes. A trs desvios padro de distncia da mdia, a densidade de probabilidade praticamente reduz-se a zero. So caractersticas parecidas com as que vimos no histograma dos 140 caroos, na Figura 2.2. O produto f(x )dx , por definio, a probabilidade de ocorrncia de um valor da varivel aleatria no intervalo de largura dx em torno do ponto x. Em termos prticos, isso significa que, ao extrairmos aleatoriamente da populao um valor de x, as chances de que esse valor esteja no intervalo de largura infinitesimal que vai de x a x + dx so dadas por

f(x )dx . Para obter probabilidades correspondentes a intervalos finitos, que so os nicos
com sentido fsico, temos de integrar a densidade de probabilidade entre os limites apropriados. A integral a rea sob a curva f(xJ entre esses limites, o que equivale a dizer que a Figura 2.3 tambm um histograma. Como a varivel aleatria agora contnua, as probabilidades passam a ser calculadas por integrais, e no mais por somatrios. Essa formulao terica torna automaticamente nula a probabilidade de se observar

exatamente (no sentido matemtico do termo) um determinado valor, j que isso


corresponderia a fazer dx igual a zero. Para uma distribuio contnua, portanto, no faz diferena se o intervalo de que estamos falando aberto ou fechado. A probabilidade de que a ::::; x ::::; b igual probabilidade de que a < x < b:

P(a < x < b) = P(a : : ; x : : ; b)

= f f( xJdx
a

= Probabilidade de que o valor da varivel aleatria de densidade de

probabilidade f(xJ seja observado no intervalo [a, b].

28

0,6

0,5

0,4

~ 0,3 ~
0,2

0,1

0,0 -4 -3 -2 -1
X

Figura 2.3 Distribuio de freqncias de uma varivel aleatria x ~ N(O, 1). Note que x o afastamento em relao mdia (que zero), em nmero de desvios padro.
Como vemos na Figura 2.3, a maior parte da rea sob uma gaussiana est contida no intervalo definido por um desvio padro em torno da mdia, e praticamente toda ela est situada entre J1 - 30' e J1 + 3a . Para obter os valores numricos correspondentes a esses fatos, integramos, entre os limites apropriados, a expresso de f(x) dada pela Equao 2.5:
ji+a

P(u - a < x < J1 + a) =

f f( x )dx
ji +3a

= 0,6826 (isto , 68,26%);

ji-a

P(u - 3a < x < J1 + 3a)

f f( x)dx

= 0,9973 (99,73%).

ji-3a

Calculando integrais semelhantes, podemos obter as probabilidades correspondentes a quaisquer limites de interesse. Na prtica, felizmente, no precisamos calcular integral nenhuma, porque podemos consultar na Tabela A.l (pgina 392) os valores das integrais para vrios intervalos de uma varivel z ~ N

(O, 1 ). Apesar de corresponderem

distribuio padro, com mdia zero e varincia um, esses valores podem ser usados para fazermos inferncias a respeito de qualquer distribuio normal. Para explicar como se utiliza a Tabela A.l, precisamos introduzir o conceito de padro~o. Por definio, padronizar uma varivel aleatria x de mdia J1 e varincia

a 2 cons-

truir a partir dela uma nova varivel aleatria z, cujos valores so obtidos subtraindo-se de cada valor de x a mdia populacional e dividindo-se o resultado pelo desvio padro:

29

Varivel1Wrmal padronizada:

x-J.1 a

(2.6)

x = Varivel aleatria com distribuio Neu, (j2)


z

= Varivel aleatria com distribuio N(O,l)

Para dar um exemplo, vamos admitir que o peso de um caroo de feijo se distribua normalmente, com J.1 = 0,2024 g e a = 0,0363 g. Com isto estamos fazendo duas suposies questionveis: Que os pesos seguem uma distribuio normal; Que os parmetros populacionais so iguais aos valores que calculamos para a amostra.

Na verdade, estamos tentando descrever os dados experimentais com nosso primeiro modelo. Chegar a hora de nos perguntarmos se ele adequado. Por enquanto, vamos admitir que sim.

o peso padronizado ser simplesmente, de acordo com a Equao 2.6,


z =-----

x - 0,2024g 0,0363g

onde x o peso de um caroo. Como o numerador e o denominador tm as mesmas unidades,

z adimensional.

o valor numrico de z

representa o afastamento do valor de x em relao mdia

populacional J.1, medido em desvios padro, o que fica claro quando reescrevemos a Equao 2.6 como x = J.1 + za . Fazendo z = - 2 , por exemplo, temos x

= J.l. - 2a , ou seja, o valor de

x est dois desvios padro abaixo da mdia. No nosso exemplo, o peso do caroo

correspondente a z = - 2 seria x

= 0,2024g - 2 x 0,0363g = 0,1298 g .

Exerccio 2.8

Use os resultados do Exerccio 2.7 para padronizar (no sentido estatstico que acabamos de ver) o resultado de uma titulao. Que concentrao seria obtida numa titulao cujo resultado estivesse 2,5 desvios padro acima da mdia?

o efeito da padronizao torna-se evidente quando

utilizamos a definio de varivel

padronizada para substituir x por z, na expresso geral da distribuio normal. Da Equao 30

2.6 temos x = J.1 + z(J , como j vimos, e conseqentemente dx = (J dz . Substituindo estas duas expresses na Equao 2.5, temos

f(x )dx

(Jv2n

-(/l+za-/lf

2(}"2

a dz

Com a eliminao de J.1 e (J , essa expresso se reduz a


1 _Z2

f(z )dz

r;;- e '\j2n

dz ,

onde escrevemos f(z )dz do lado esquerdo, porque a expresso agora uma funo de z, e no de x. A equao ficou idntica Equao 2.5a. A padronizao simplesmente alterou a escala e deslocou a origem do eixo da varivel aleatria, transformando a varivel original x, que se distribua de acordo com N

(Jl, ( 2 ), numa nova varivel z que segue a distribuio padro,

z ::::: N (O, 1 ). Como essa transformao no depende dos valores numricos de J.1 e de (J,

sempre poderemos usar a distribuio normal padro para discutir o comportamento de uma distribuio normal qualquer.

2.3 (b) Como usar as caudas da distribuio normal padro


A Tabela A.l contm, para valores de z que vo de 0,00 a 3,99, o que se chama de rea da
cauda ( direita) da distribuio normal padro. A primeira coluna d o valor de z at a

primeira casa decimal, enquanto a linha superior da tabela d a segunda casa. Para saber a rea da cauda correspondente a um certo z temos de procurar na tabela o valor localizado na interseo da linha e da coluna apropriadas. O valor correspondente a z = 1,96, por exemplo, est na interseo da linha referente a z = 1,9 com a coluna encabeada por 0,06. Esse valor, 0,0250, a frao da rea total sob a curva que est localizada direita de z

1,96. Como a curva simtrica em torno da mdia, uma rea idntica est situada

esquerda de z

=-

1,96 na outra metade da gaussiana (Figura 2.4). A soma dessas duas

caudas, a da direita e a da esquerda, d 5% da rea total. Da conclumos que os 95% restantes esto entre z

=-

1,96 e z = 1,96. Se extrairmos aleatoriamente um valor de z, h

uma chance em cada vinte (5%) de que esse valor fique abaixo de - 1,96, ou acima de 1,96. Nas outras dezenove vezes a probabilidade de que ele esteja no intervalo [-1,96, 1,96]. Aceitando o modelo normal como uma representao adequada da distribuio populacional dos pesos dos caroos, podemos usar a Tabela A.l, juntamente com os valores dos

31

uu~an~ao

as coisas funcionam normalmente

parmetros amostrais, para responder a questes sobre a probabilidade de ocorrncia de valores de interesse. Por exemplo: Qual a probabilidade de um caroo retirado ao acaso pesar entre 0,18 g e 0,25 g?

Em primeiro lugar, precisamos padronizar os valores dos pesos:

z = O,18g - 0,2024g = _ 62 1 00363 ' , g z


2

= O,25g -

0,2024g 00363 , g

= 1 31
'

Com isto a pergunta no se refere mais aos pesos, e sim a z. O que queremos saber agora "qual a probabilidade de z cair no intervalo [-0,62, 1,31 ]?"

0.6

0.5

....

/"

r",\
:

0.4

l
:
.......

/ /

\
\
\

. . \ . :..
\ .

0.3

0.2 .

.... 1".

/.

\
.....

\
\

.....

.. A ..

\
.. ...

0.1

..:. ./ .

.... \.. i .....

0.0 -4 -3
-2 -1

o
z

Figura 2.4 Intervalo simtrico em torno da mdia, contendo 95% da rea total sob a curva da distribuio normal padro.

Essa probabilidade corresponde rea situada entre os limites indicados pela seta na Figura 2.5. Ela a rea total, que um, menos as reas das duas caudas, a que fica acima de 1,31 e a que fica abaixo de - 0,62. A da direita podemos ler diretamente na Tabela

A.l, procurando o valor correspondente a z = 1,31, que 0,0951. A rea da cauda da


esquerda no pode ser tirada diretamente da tabela, porque ela no contm valores negativos. No entanto, por causa da simetria da curva, a rea que fica abaixo de - 0,62 tem de ser igual que est localizada acima de 0,62. Encontramos assim o valor 0,2676.

32

0.6

0.5

0.4

0.3

0.2

0.1

0.0
-4

-3

-2

-1

Figura 2.5 rea correspondente a P(-0,62 < z < 1,31). Subtraindo da rea total as reas das duas caudas, temos finalmente a probabilidade desejada: (1,0 - 0,0951 - 0,2676) = 0,6373. A resposta nossa questo inicial, portanto, que 63,73% dos caroos (cerca de dois teros) devem pesar de 0,18 g a 0,25 g. No devemos nos esquecer, porm, de que essa resposta se baseia na validade de nossas duas suposies: a de que a distribuio dos pesos dos caroos normal e a de que os parmetros populacionais so iguais aos valores amostrais.

Exerccio 2.9

(a) Qual a probabilidade de um caroo pesar mais de 0,18 g? (b) Defina os pesos limites de um intervalo que contenha 95% dos caroos.
(c) Sua resposta para o Exerccio 2.2 pode ser transformada numa estimativa do peso mdio

de um caroo. Com base no que vimos at agora, quais as chances de voc encontrar um caroo com um peso maior ou igual a esse?

Exerccio 2.10

A rea da cauda esquerda de um ponto chamada de probabilidade cumulativa desse ponto, e representa a probabilidade de que o valor observado para a varivel aleatria seja no
mximo igual ao valor definido pelo ponto. As probabilidades cumulativas vo ser utilizadas

no prximo captulo, quando fizermos anlises baseadas nos chamados grficos normais. Use a Tabela A.l para calcular as probabilidades cumulativas dos seguintes valores numa distribuio normal:
(a) - 00; (b) J.1; (c) J.1-

a;

(d) J.1 +

a;

(e) +

00.

Que aspecto deve ter a curva de probabilidades cumulativas de uma distribuio normal?

33

OUiZU1(10

as coisas ftH1Cionam normalmente

histograma da Figura 2.2 tem uma aparncia bastante simtrica. primeira

vista, no d para perceber nele nada que realmente contradiga a hiptese de que a amostra tenha vindo de uma populao normal. Uma maneira de testar quantitativamente se essa hiptese adequada comparar as freqncias observadas com as freqncias previstas pela teoria. Como nossa amostra consiste em um nmero razovel de observaes (140), podemos imaginar que ela seja uma boa aproximao da distribuio populacional dos pesos dos caroos de feijo. Se a populaoos pesos de todos os caroos no pacote de 1 kg - se desviar muito da normalidade, devemos ter condies de descobrir alguma evidncia desse comportamento nas freqncias amostrais. Ou seja, elas devem afastar-se das freqncias previstas pela distribuio normal. Usando os valores amostrais x = 0,2024 g e s = 0,0363 g para determinar os limites dos intervalos

[x -

s,

+ s],

[x -

2s,

+ 2s] e

[x -

3s,

+ 3s], verificamos que eles

correspondem, respectivamente, a 66,6%, 96,8% e 100% da rea total do histograma amostraI. Para uma varivel aleatria realmente normal, os intervalos populacionais correspondentes,

Lu -

a, /1 + a], [/1 - 20", /1 + 2a] e [/1 - 3a, J1 + 3a], contm 68,3%, 95,4% e

99,7% de todas as observaes. Esses valores esto em tima concordncia com os valores amostrais. A pior diferena no chega a 2%. A julgar por isso, podemos continuar aceitando a distribuio normal para descrever nossa amostra. A comparao, porm, subjetiva. No especificamos de quanto deveria ser a diferena para que passssemos a rejeitar a hiptese normal. A discusso de critrios mais objetivos foge ao mbito deste livro. No captulo 5 apresentaremos um teste alternativo, em que precisaremos decidir se determinado grfico suficientemente retilneo. Como teremos de tomar a deciso olhando a disposio dos pontos no grfico, esse teste tambm encerra sua carga de subjetividade, e desse ponto de vista no representa um avano em relao ao primeiro.

2.3 (C) Porque a distribuio normal to importante?


Felizmente existe uma boa razo para no nos preocuparmos demais com a ausncia (neste livro) de um teste rigoroso para verificar se a distribuio normal: as tcnicas estatsticas que apresentaremos so robustas em relao a desvios da normalidade. Mesmo que a populao de interesse no se distribua normalmente, as tcnicas podem ser usadas, porque continuam aproximadamente vlidas.

34

Essa robustez vem, em ltima anlise, do teorema do limite central, um dos teoremas fundamentais da estatstica, que diz essencialmente o seguinte:

Se a flutuao total numa certa varivel aleatria for o resultado da soma das flutuaes de muitas variveis independentes e de importncia mais ou menos igual, a sua distribuio tender para a normalidade, no importa qual seja a natureza das distribuies das variveis individuais.

o exemplo clssico das implicaes do teorema do limite central o jogo de dados. A


distribuio das probabilidades de observarmos um certo nmero de pontos, jogando um dado no viciado, mostrada na Figura 2.6(a). Os valores possveis so os inteiros de 1 a 6, claro, e se o dado for honesto todos eles tm as mesmas chances de ocorrer, levando a uma distribuio que no tem nada de normal. Suponhamos agora que sejam jogados cinco dados, ao invs de um, ou que o mesmo dado seja jogado cinco vezes consecutivas, e a mdia dos cinco valores observados seja calculada. Essa mdia uma funo de cinco variveis aleatrias, cada uma se distribuindo independentemente das demais, j que o valor observado para um certo dado ou jogada no afeta os valores observados para os outros. Alm disso, o nmero de pontos de cada dado contribui com o mesmo peso para o resultado final - nenhuma das cinco observaes mais importante que as outras quatro. As duas premissas do teorema do limite central, (1) flutuaes independentes e (2) de igual importncia, so portanto satisfeitas, e o resultado aparece na Figura 2.6(b): a distribuio das mdias j se parece com a distribuio normal. Quando o nmero de observaes que compem o resultado final cresce, a tendncia para a normalidade torna-se mais pronunciada, como mostra a distribuio da mdia dos pontos de dez dados [Figura 2.6(c)]. Muitas vezes, o erro final de um valor obtido experimentalmente vem da agregao de vrios erros individuais mais ou menos independentes, sem que nenhum deles seja dominante. Na titulao, por exemplo, lembramos o erro de leitura na bureta, o erro causado por uma gota que fica na pipeta, o erro devido a uma tonalidade diferente no ponto final, e assim por diante. Com os caroos de feijo mais ou menos a mesma coisa: o peso de cada um depende do grau de desidratao, da ao das pragas, da prpria carga gentica do feijo, etc. A priori, no temos motivo para imaginar que esses erros - tanto nos feijes quanto na titulao - sigam distribuies normais, mas tambm no devemos supor que eles sejam dependentes uns dos outros, ou que um deles seja muito mais importante que os demais. O teorema do limite central nos diz ento que o erro final se distribuir de forma
aproximadamente normal, e tanto mais normal quanto mais numerosas forem as fontes de
35

Quando as coisas funcionam

norma~mente

erros individuais. Como situaes desse tipo so muito comuns na prtica, podemos nos dar por satisfeitos com a hiptese normal na maioria dos casos, e deixar para fazer testes mais sofisticados quando existir muita evidncia em contrrio. Talvez o teorema do limite central explique o entusiasmo de 8ir Francis Galton, o inventor da regresso linear: "Dificilmente existir algo to impressionante para a imaginao como a admirvel forma da ordem csmica expressa pela Lei da Freqncia do Erro (isto , a distribuio normal). Se os gregos a tivessem conhecido, certamente a teriam personificado e endeusado."

I.

(a) Um dado

(b) Cinco dados

_ _ _ _...... ",......... 11.......

11&_11.. .
3 4
(c) Dez dados

11 . .....-...-_

Figura 2.6 Distribuio de freqncias para um jogo de dados no viciados.

2.3 (d) Como calcular um intervalo de confiana para a mdia

principal motivo para querermos um modelo a perspectiva de us-lo para fazer infe-

rncias sobre os parmetros populacionais. Esqueamos por um momento que foram pesados 140 caroos. Suponhamos que tenha sido pesado apenas um, escolhido aleatoriamente, e que o peso encontrado tenha sido 0,1188 g, o primeiro valor da Tabela 2.2. O que esse valor nos permite dizer a respeito do peso mdio populacional, )1? Caso a distribuio populacional dos pesos dos caroos seja normal, sabemos que o intervalo [J.1 - 1,960",
)1

+ 1,960"] deve conter 95% de todas as possveis observaes. Isto quer

36

dizer que a observao avulsa 0,1188 g tem 95% de probabilidade de ter sido feita dentro desse intervalo. claro que tambm tem 5% de chances de ter cado fora dele. Aceitando o modelo normal, podemos dizer ento que temos 95% de confiana na dupla desigualdade
J1- 1,960" < 0,1188 g < J1 + 1,960".

Tomando a desigualdade da esquerda e somando 1,96cr aos dois lados, ficamos com
}l,

< 0,1188 g + 1,960".

Subtraindo 1,96cr da desigualdade da direita, temos tambm 0,1188 g - 1,960" < J1. Combinando as duas, chegamos a um intervalo de 95% de confiana para a mdia populacional: 0,1188 g - 1,960" < 1.1 < 0,1188 g + 1,960". Para determinar numericamente os limites desse intervalo, s nos falta o valor do desvio padro populacional. Supondo, por exemplo, que sabemos, apenas um valor amostraI), temos 0,0477 g < J.1 < 0,1899 g. A partir desses valores, e com todas as suposies feitas, podemos dizer que o nmero total de caroos de feijo no pacote de um quilo deve estar entre 5.266 e 20.964. Mesmo assim, ainda h 5% de probabilidade de estarmos enganados. No uma preciso muito animadora, mas afinal o que que a gente esperava? Baseando nossa estimativa no peso de um solitrio caroo, no poderamos mesmo querer chegar a concluses muito significativas. Logo mais faremos estimativas a partir de mdias, e veremos que elas so bem mais precisas, o que por sua vez natural, j que valores mdios so representaes 'mais adequadas da populao como um todo.
O"

= 0,0363 g (que realmente, como

Interoalo de confiana para a mdia populoeio1Wl, a partir de unw obseroao:


X i - ZO"

< J.1 < Xi + ZO"

(2.7)

J.1
Xi

= Mdia populacional
= Uma observao
Desvio padro populacional = Ponto da distribuio N(O, 1) correspondendo ao nvel de confiana desejado

O" =
Z

37

Quando as coisas ftHlcjonam normahnente

2.3 (e) Como interpretar um intervalo de confiana


Muitas vezes as pessoas tm a impresso de que, quando determinamos os limites de um intervalo de confiana, estamos estabelecendo o valor da mdia populacional com uma certa probabilidade. No bem assim. Ao contrrio do peso de um caroo, a mdia J1 no uma varivel aleatria. um valor perfeitamente determinado, que poderamos conhecer sem nenhuma dvida se pudssemos examinar a populao inteira. Para saber a mdia populacional no exemplo dos feijes, bastaria estarmos dispostos a pesar todos os caroos do pacote. No faz sentido, portanto, atribuir a ela nenhuma probabilidade. A interpretao formal dos intervalos de confiana a seguinte: se construirmos todos os possveis intervalos correspondentes a um certo nvel de confiana a, ento a por cento deles contero a mdia populacional, e os outros (100 - a ) por cento no a contero. Isto significa que, determinando todos os intervalos de 95% de confiana correspondentes aos pesos individuais dos caroos no pacote, saberemos que o valor da mdia populacional dever estar dentro de 95% deles, e fora dos 5% restantes. No saberemos, porm, como distinguir os intervalos corretos dos incorretos, nem poderemos atribuir probabilidades que diferenciem os valores contidos num dado intervalo. O ponto mdio do intervalo, em particular, no tem nada de especial. Dizer que o nmero total de caroos deve estar entre 5.266 e 20.964, por exemplo, no significa de forma alguma que o seu valor mais provvel seja a mdia desses dois extremos, 13.115. Nenhum dos valores do intervalo "mais provvel" que os demais.
Exerccio 2.11
Calcule, a partir do peso do segundo caroo na Tabela 2.2, um intervalo de 95% de confiana para o nmero total de caroos em um quilo de feijo.

2.4 Covarincia e correlao


At agora, para ilustrar o conceito de varivel aleatria, temos usado o peso de um caroo de feijo extrado ao acaso. Se no fosse pelas dificuldades de medio, poderamos muito bem ter escolhido o volume do caroo, ao invs do seu peso. Assim como o peso, x, o volume de um caroo - vamos chamlo de y - tambm uma varivel aleatria. Conhecer o volume de um dado caroo no nos d condies de prever o volume exato do caroo seguinte. Os valores da varivel y so independentes uns dos outros, da mesma fonna que os valores da varivel x so independentes entre si. Devemos esperar, portanto, que um histograma dos valores de y apresente a regularidade habitual: uma distribuio, provavelmente de aparncia gaussiana, em torno de um valor central. S que agora temos uma novidade. No podemos dizer que o peso e o volume de um

determinado caroo sejam independentes um do outro, porque existe uma relao entre eles,
38

que a densidade do caroo. Encontrando um caroo mais pesado que a mdia, em geral esperamos que o seu volume tambm esteja acima do volume mdio, e vice-versa. Para um dado caroo, portanto, os desvios dessas duas variveis em relao a suas respectivas mdias tendem a ser do mesmo sinal algbrico. Dizemos "tendem" porque provvel que a densidade no seja exatamente a mesma para todos os caroos. Se fosse, no falaramos de tendncia e sim de certeza, e s teramos de medir uma das variveis para determinar univocamente o valor da outra, por meio da relao linear volume = massa -:- densidade
5.

Um grfico do volume

contra o peso seria ento uma reta de coeficiente angular igual ao inverso da densidade, como na Figura 2.7(a). Na prtica, como h vrios motivos para a densidade variar de um caroo para outro - o grau de desidratao, a ao das pragas, a carga gentica, e por a vai - devemos esperar que o grfico seja mais parecido com o da Figura 2.7(b), onde a linearidade do conjunto de pontos est perturbada por uma certa disperso.
(a)
cs>

0.13

o
0.11

......
,o'
C

:.~~.(9

..

o tP:

oeP
0.09

o'

0.07
Cl

....

0.05 0.10

0.12

0.14

0.16

0.18

0.20

0.22

0.24

0.26

0.28

Peso

(b)
0.16

~
0.14

o
0.12
: 00

0.10

o .. 0: .. o
... :0,,

0.08 .

0.06 0.10

0.12

0.14

0.16

0.18

0.20

0.22

0.24

0.26

0.28

Peso

Figura 2.7 (a) Relao perfeitamente linear entre o volume e o peso. (b) Relao linear entre as duas variveis, acrescida de um erro aleatrio.

Aqui, "massa" e "peso" so considerados sinnimos, como costume na qumica.

39

Podemos observar, na Figura 2.7(b), que altos valores dey tendem a ocorrer ao mesmo tempo que altos valores de x, e vice-versa. Quando isso acontece, dizemos que as duas variveis aleatrias apresentam uma certa covarincia, isto , uma tendncia de se desviarem de forma parecida em relao s respectivas mdias (co-variar =variar junto). Podemos obter uma medida numrica da covarincia a partir dos desvios

(Xi -x) e (Yi -)7). Ou melhor, a partir de seus (Xi -x) (Yi - y) tendero a ser positivos, e

produtos para cada elemento da amostra. Como, neste exemplo, os dois desvios tendem a ter o mesmo sinal, seja ele positivo ou negativo, os produtos

haver tantos mais produtos positivos quanto maior for a covarincia de X e y. O valor numrico da covarincia por definio a mdia dos produtos dos desvios:

Covarincia anwstral das variveis aleatrias x e y:

(2.8)

(Xi' Yi ) = Valores das observa~ individuais para o elemento i

(X, y) = Mdias amostrais N = Nmero de elementos na amostra


Note a analogia com a definio de varincia, Equao 2.2. O denominador continua sendo N -1, porque s N -1 dos N produtos dos desvios so independentes. Note tambm que Cov (x, x) a prpria varincia de x. Como o valor da covarincia depende da escala usada para medir x e y, difcil usla como padro para comparar o grau de associao estatstica de diferentes pares de variveis. Por exemplo, se ao invs de caroos de feijo estivssemos investigando laranjas, o valor numrico da covarincia entre o peso e o volume, medido nas mesmas unidades, seria muito maior. No entanto, continuaria significando a mesma coisa: uma densidade mais ou menos constante. Para eliminar esse problema, aplicamos um fator de escala, dividindo cada desvio individual pelo desvio padro da varivel correspondente. Obtemos assim uma espcie de covarincia normalizada, que chamada de ooeficiente de
oorrela~o das

duas variveis

(Equao 2.9). Por causa dessa definio, o coeficiente de correlao de qualquer par de variveis aleatrias fica obrigatoriamente restrito ao intervalo

[-1, + 1]. As correlaes

de dife-

rentes pares de variveis passam a ser medidas na mesma escala (que adimensional, como se pode deduzir da Equao 2.9) e podem ento ser comparadas diretamente.

40

Coeficiente de correlao cmwstral das variveis aleatrias x e y:

r(x, y)

= _ 1 L [Xi N -1
Sx

X)[Yi - Y]
Sy

(2.9)

(Xi' Yi ) = Valores das observa~ individuais para o elemento i (X", y) = Mdias amostrais

(s x ' S
N =

y )

Desvios padro amostrais

Nmero de elementos na amostra

Variveis estatisticamente independentes tm coeficiente de correlao igual a zero. A recproca no verdadeira, porque o coeficiente de correlao uma medida da associao

linear entre duas variveis. Um coeficiente de correlao nulo significa apenas que uma relao linear no est presente. Pode no entanto haver outros tipos de dependncia, que no sejam refletidos pelo valor numrico do coeficiente de correlao. O Exerccio 2.12 mostra uma possibilidade.

Exerccio 2.12
Sejam duas variveis y e x, obedecendo equao y = x 2 no intervalo [-a, +a]. (a) Qual o valor do coeficiente de correlao entre y e x? (No faa contas; faa um grfico da funo e utilize argumentos geomtricos). (b) Voc pode pensar em outras funes que dem o mesmo resultado?

Variveis ligadas por uma relao linear perfeita tm coeficiente de correlao igual a +1, se quando uma cresce a outra tambm cresce, ou igual a -1, se quando uma cresce a outra diminui. Valores intermedirios representam relaes parcialmente lineares, e o valor numrico do coeficiente de correlao muito usado em trabalhos cientficos como argumento a favor da existncia de uma relao entre duas variveis. Todo cuidado pouco com esses argumentos, porque os valores podem ser muito enganosos. s vezes uma simples olhada em um grfico das variveis o bastante para descartar concluses apressadas, apoiadas somente no valor numrico do coeficiente de correlao. Voltaremos a esse ponto no Captulo 5, quando tratarmos da construo de modelos empricos. Por enquanto, como exemplo - e tambm como advertncia - mostramos na Figura 2.8 os grficos de quatro conjuntos de pares de valores das variveis X e Y, todos com exatamente o mesmo coeficiente de correlao, 0,82 (Anscombe, 1973). Se fssemos julgar os dados apenas pelo valor de r, concluiramos que a relao entre as variveis a mesma nos quatro casos, o que
evidentemente est muito longe de ser verdade.

41

Que concluses voc tiraria dos grficos da Figura 2.8?

(a)

(b)
20

20

15

15

>-

10

>-

10
<.1

o o

o c

O O

10

15

20

O O

10

15

20

(c)

(d)

20

20

15

15

>- 10

>- 10

o o o o o co o o

O O

10

15

20

O O

10

15

20

Figura 2.8 Quatro conjuntos de dados com o mesmo coeficiente de correlao, r = 0,82, mas representando realidades muito diferentes. (Dados de Anscombe, 1973).

Apesar de parecerem triviais para os estudantes de cincias, grficos bidimensionais como os das Figuras 2.7 e 2.8 so considerados muito importantes para o gerenciamento da qualidade, pela sua eficincia em revelar padres de associao entre as variveis (o que, alis, demonstrado pela prpria Figura 2.8). Tanto que nesse contexto recebem o ttulo de diagramas de disperso, e fazem parte das "sete ferramentas indispensveis para a melhoria da qualidade", recomendadas pelo guru da qualidade K. Ishikawa (Ishikawa, 1985).6 Na opinio de Ishikawa, todas as sete ferramentas, que so bastante simples, devem ser aprendidas e usadas por qualquer pessoa que trabalhe na indstria. No temos condies de tratar de todas elas neste livro, mas achamos que vale a pena voc tambm procurar aprender a us-las. Boas referncias para isso so Vieira (1999), Montgomery (1997) e Oakland e Followell (1990).

6 As outras seis ferramentas so a folha de verificao, o histograma, o grfico de Pareto, o diagrama de causa e efeito, o grfico de controle e a estratificao.

42

As mdias e desvios padro usados nas Equaes 2.8 e 2.9 so valores amostrais. s vezes precisamos medir os desvios em relao a valores populacionais, e substituir

x por

/1 x e

por /1y. Quando isso acontecer, devemos tambm usar N ao invs de N -1, porque as

mdias em relao s quais so calculados os desvios no so mais obtidas a partir dos valores amostrais. Os desvios no sofrem mais restrio nenhuma, e portanto mantm todos os N graus de liberdade das observaes originais. Note que mesmo assim a covarincia e o coeficiente de correlao continuam sendo valores amostrais. A diferena que passaram a ser calculados em relao a mdias populacionais.

Exerccio 2.13

Os valores abaixo so os volumes, em mililitros, dos caroos cujos pesos aparecem na primeira linha da Tabela 2.2. Calcule a covarincia e o coeficiente de correlao entre os pesos e os volumes desses sete caroos. 0,108 0,214 0,143 0,195 0,148 0,144 0,174

2.5 Combinaes lineares de variveis aleatrias


Suponhamos que
Xl

e x2 sejam variveis aleatrias com parmetros populacionais (J1l,ar)

e (J12,a~ ), respectivamente. A expresso

onde

al

e a2 so constantes, uma

<nmbina~o linear

de

Xl

e X2. Ela define uma nova


Xl

varivel aleatria, y, cuja distribuio depende das distribuies individuais de

e X2.

Nesta seo veremos como os parmetros da distribuio de y se relacionam com os parmetros das distribuies de
Xl

e X2.

A partir de N pares de valores (Xl' X2) extrados das respectivas populaes podemos calcular um conjunto de N valores de y. O valor mdio de y nesse conjunto ser

O somatrio feito sobre todos os N pares de valores; deixamos de incluir o ndice para simplificar as expresses. Fazendo os somatrios individuais de
Xl

e X2 , temos

43

ou

Ou seja: A mdia da combinao linear a combinao linear das mdias de cada varivel.

Analogamente, a varincia da combinao linear ser dada por


S

2_ 1- L (y -y -)2
N-1

Usando as Equaes 2.2 e 2.9 podemos reescrever esta ltima expresso como

onde s; e s~ so as varincias e r(xI, X2) o coeficiente de correlao de Xl e x2. O resultado j no to simples quanto no caso da mdia, e depende, por causa do ltimo termo, do grau de correlao entre as variveis. Esses resultados podem ser facilmente estendidos ao caso geral de uma combinao linear de p variveis,
y

= alxl + a2 x 2 + ... + apx p = Laixi


i

(2.10)

Teremos ento
-= ~ ~ax Y ll'
i

(2.11)

44

si S; = Laf i

+ 2L LaiajSiSjr(Xi' Xj).
i j>i

(2.12)

Note que esses somatrios so efetuados sobre o nmero p de variveis includas na combinao linear, e no sobre o nmero de elementos escolhidos para compor a amostra, que representado pela letra maiscula N. Os somatrios sobre N esto implcitos nos clculos de si' Sj e r(xi, Xj) . O emprego de letras do alfabeto latino nas Equaes 2.11 e 2.12 revela que essas expresses se referem a valores amostrais. Desenvolvendo o mesmo argumento a partir de valores populacionais, obteremos expresses anlogas, dadas pelas Equaes 2.13 e 2.14. Nelas, seguindo a conveno, utilizamos letras gregas.

Parmetros populacionais de uma oombinao Rear


de variveis aleatrias:

(2.13)

I
a;

.~~_.~_l~. ~j>~i~_~
y= LaiXi
i

=L

ar ar + 2 L

ai aj ai aj P (Xi' X)

__

I.

(2.14)

2 (Pi, a i

)= Mdia e varincia populacionais da varivel aleatria

Xi

As Equaes 2.13 e 2.14 so absolutamente gerais. Podemos aplic-las a qualquer combinao linear de quaisquer variveis aleatrias. Um caso particular de grande interesse aquele em que as variveis se distribuem independentemente umas das outras. Nesse caso, por definio, as correlaes entre todas as variveis so nulas, e o segundo somatrio da Equao 2.14 se reduz a zero. A varincia da combinao linear passa a ser dada simplesmente por

(2.15)

45

uuanao as coisas furu.:ionam normaimente

Vejamos agora um caso mais particular ainda: o valor mdio de uma amostra de N elementos extrados aleatoriamente de uma certa populao. Por exemplo, o peso mdio de um caroo, numa amostra de dez caroos escolhidos ao acaso em um quilo de feijo. Repetindo um grande nmero de vezes essa amostragem, teremos um conjunto de pesos mdios. Como ser a distribuio desses valores? A mdia de N observaes na verdade um caso particular de combinao linear, com todos os coeficientes na Equao 2.10 iguais a l/N: _ 1 1
X=-LXi =-Xl N i N

1 1 +-x2 + ... +-xN N N

Se a escolha dos elementos for rigorosamente aleatria no haver correlao entre as observaes, de modo que poderemos usar a Equao 2.15 para calcular a varincia. Alm disso, como estamos supondo que as observaes so feitas sempre na mesma populao, todas elas se distribuem individualmente com a mesma varincia populacional tituindo na Equao 2.15 mdias amostrais: (2.15a)
ai (J2.

Portanto, subs-

por l/N e

2 (Ji

por

(J2 ,

podemos escrever, para a distribuio das

Este um valor populacional, e se refere distribuio estatstica das mdias de todas as amostras aleatrias com um certo nmero N de elementos que possam vir a ser extradas da populao. A varincia dessa distribuio menor que a varincia da distribuio das observaes individuais,
(J2,

por um fator inversamente proporcional ao tamanho da amostra. A

distribuio das mdias portanto mais estreita que a distribuio dos valores individuais, e ser tanto mais estreita quanto maior for a amostra. Para obter a mdia da distribuio das mdias amostrais substituindo
ai

x usamos a Equao 2.13,

por 1/N e
1

Jii

por

Ji :

Ji x

= L-

iN

J1

=-

1 L J1 = i N

N /1.

= J1

(2.13a)

Isto quer dizer que tanto as observaes individuais quanto as mdias amostrais se distribuem em torno mesma mdia Ji. A distribuio das mdias, como vimos, mais estreita. Seu desvio padro apenas
(J/

Ji.i.

Se as amostras contm 100 observaes cada uma, por

exemplo, esperamos que o histograma de suas mdias tenha um dcimo da largura do histograma dos valores individuais.

46

A Figura 2.9(b) mostra a distribuio dos pesos mdios em 140 amostras aleatrias de 10 caroos de feijo, extradas da mesma populao que gerou o histograma da Figura 2.2, que aparece de novo na Figura 2.9(a). (A escala ampliada em relao Figura 2.2, para que possa acomodar os dois histogramas). O estreitamento da distribuio dos pesos mdios em relao distribuio dos pesos individuais evidente.

(a)
0.40 0.35 0.30

u
<O'
::::]

co 0.25 c
0.20 0.15 0.10 0.05 0.00 0,115 0,155 0,195 0,235 0,275

u:

O'

o-

peso individual (g)

(b)
0.40 0.35 0.30

u
::::]

<O'

co 0.25 c
0.20

o-

u.. 0.15
0.10 0.05 0.00 0,115 0,155 0,195 0,235 0,275

peso mdio (g)

Figura 2.9 (a) Distribuio dos pesos individuais de 140 caroos de feijo preto. (b) Distribuio dos pesos mdios de 140 amostras de dez caroos de feijo preto.

J vimos que os valores individuais representados na Figura 2.9(a) tm mdia de


0,2024 g e desvio padro de 0,0363 g. Se esses valores correspondessem a parmetros populacionais, os pesos mdios nas amostras de dez caroos deveriam ter a mesma mdia, mas um desvio padro de apenas 0,0363/ /lO = 0,0115 g. Os valores que correspondem distribuio das mdias na Figura 2.9(b) so 0,1929 g e 0,0128 g, respectivamente. A concordncia

47

muito boa, especialmente se lembrarmos que estes tambm so valores amostrais, e no populacionais.

Exerccio 2.14 Qual a varincia da distribuio da diferena


Xl - X2,

onde

Xl

X2

so duas variveis normais

padronizadas e totalmente correlacionadas positivamente, isto , de coeficiente de correlao igual a I? E se o coeficiente de correlao fosse zero?

2.6 Amostragem aleatria em populaes normais


Na seo anterior chegamos a vrias concluses importantes sem ter de fazer nenhuma restrio quanto forma da distribuio das observaes. S foi preciso admitir que as amostras eram aleatrias. Nesta seo vamos impor mais uma condio. Vamos supor que as amostras sero extradas de populaes normais. Como j vimos, esta uma hiptese perfeitamente aceitvel em muitas situaes de interesse prtico, por causa do teorema do limite central. Sob essas duas restries - amostras aleatrias tiradas de populaes normais - os valores amostrais seguem certas distribuies especficas, que podem ser usadas para se obter intervalos de confiana. Antes de mostrar como isso pode ser feito, vamos enunciar, sem demonstrao, as concluses pertinentes. Se voc estiver interessado, poder encontrar as demonstraes em algum texto de estatstica avanada, como Dudewicz e Mishra (1985). Consideremos amostras de N elementos, extradas aleatoriamente de uma populao normal de mdia /1 e varincia a 2 . Pode-se demonstrar que os valores amostrais, obedecem ao seguinte: As mdias amostrais

e s2,

tambm se distribuem normalmente, com a mesma mdia /1,

mas com varincia igual a a 2 / N. [Na seo anterior chegamos a uma concluso parecida, mas no dissemos nada sobre a forma da distribuio.]

A varivel aleatria t, definida por t


liberdade.

=~

Jii '

segue a distribuio t com N -1 graus de

A varivel aleatria X 2 , definida por X 2


tambm com N-l graus de liberdade.

= (N -1)-;-, segue a distribuio qui-quadrado,


a

48

Distribuio de estimativas amostrais em populaes TWrmais:

(2.16)

(2.17)

2
XN-l

(2.18)

=Varivel aleatria distribuda de acordo com N(p, 2 ) ( X, S = E stimativas amostrais de (JI, a 2 ) obtidas em amostras aleatrias
(J

de N elementos cada uma

t N-}

= Distribuio t com N-l graus de liberdade X~-l =Distribuio qui - quadrado com N-l graus de liberdade

A partir dessas concluses podemos obter intervalos de confiana, empregando um raciocnio semelhante ao da Seo 2.3. Para ver como se faz, vamos usar uma amostra de dez caroos retirados do nosso quilo de feijo. Suponhamos que os pesos desses caroos sejam os dez primeiros valores da Tabela 2.2. Para essa amostra, j sabemos (se voc resolveu o Exerccio 2.6) que 0,0423 g. Como a mdia

= 0,1887 g e s =

se distribui normalmente (Equao 2.16), ao subtrair a mdia

populacional J1 e dividir o resultado pelo desvio padro da mdia populacional, teremos uma varivel normal padronizada: X-J1 ajJii =Z () N 0, 1

a/ Jii ,

'"

(2.19)

Para um intervalo de 95% de confiana o valor de z 1,96, como vimos na Seo 2.3(b). Isso significa que h 95 chances em 100 de que - 1,96 < z < 1,96, ou de que

49

UUianiOO as

coisas flHlcionam normaimente

X-J.1 - 1,96 < cr/

.JN

< 1,96.
j1,

Remanejando os smbolos de modo a isolar a mdia populacional, desigualdades,


J1 < X + 1,96

chegamos a duas

lN

que podem ser combinadas numa s: (2.20) Para definir numericamente os limites desse intervalo, precisamos do valor do desvio padro populacional. Vamos admitir mais uma vez que o valor do desvio padro calculado para os 140 caroos uma aproximao aceitvel. Teremos ento

a/.JN = 0,0363 / J1 = 0,0115 g.

Finalmente, lembrando que na nossa amostra eX = 0,1887 g, 0,1887 g - 1,96 x 0,0115 g < J.1 < 0,1887 g + 1,96 x 0,0115 g, ou 0,1662 g < Jl < 0,2112 g. A partir desta expresso podemos dizer, com 95% de confiana,7 que o quilo de feijo deve ter de 4.735 a 6.017 caroos. Lembrando que, a partir do peso de um s caroo (o primeiro valor da Tabela 2.2), nossa estimativa ia de 5.266 a 20.964, vemos que o novo intervalo bem melhor. Podemos torn-lo mais preciso ainda, se usarmos uma amostra mais numerosa. InteroaJo de confiana para a mdia populacioTW1,
a partir da distrihuU;o Trorma/:

x-z-- < J.1 < x+z--

(J

(J

JN

JN

(2.21)

Exerccio 2.15

Considere os 140 valores da Tabela 2.2 como uma nica amostra aleatria numa populao normal. Admita que o desvio padro calculado a partir deles idntico ao valor populacional. Responda agora: Com quantos gros se faz uma feijoada?
7 No

sentido que discutimos na Seo 2.3(e).

50

Nas determinaes de intervalos de confiana que fizemos at agora tivemos de supor que o valor do desvio padro populacional era conhecido. Apesar disso, s conhecamos mesmo um valor amostraI, ainda que obtido a partir de uma amostra bastante grande. Veremos agora nos livrar dessa restrio e obter intervalos de confiana sem precisar recorrer a valores populacionais. Em 1908 W. S. Gosset, um qumico que trabalhava na cervejaria Guinness e que usava o pseudnimo Student para assinar seus trabalhos, publicou a deduo da "curva representando a distribuio de freqncias de uma grandeza z, obtida dividindo-se a distncia entre a mdia amostraI e a mdia populacional pelo desvio padro amostraI" (Pearson e Wishart, 1943). As palavras so do prprio Student, que obviamente se refere distribuio da varivel aleatria (x - )1)/ s. Hoje em dia prefere-se incluir o fator buio da varivel

/N,

e falar da distri-

,expresso idntica que aparece na Equao 2.19, exceto pela


0",

substituio do desvio padro populacional,

pelo desvio padro amostraI, s. Por causa

dessa mudana, a varivel no segue mais a distribuio normal padronizada, e sim a que Student deduziu, e que rigorosamente vlida -sempre bom lembrar - para amostras aleatrias retiradas de uma populao normal. Com ela podemos comparar os desvios

(x -)1) com um desvio padro obtido da prpria amostra,


lacional
O"

siJii , dispensando o valor popu-

IJii . Veremos mais tarde que essa caracterstica da distribuio de Student

muito importante para a avaliao de modelos empricos. A Equao 2.17 expressa de forma resumida as concluses de Student. A nova varivel aleatria representada pelo smbolo t N - 1 , e sua distribuio chamada de distribuio t ou distribuio de Student. O ndice N -1 lembra que a forma da distribuio varia com o tamanho da amostra. Na verdade so vrias distribuies diferentes, cada uma delas correspondendo a um certo nmero de graus de liberdade na determinao do valor de s.
importante ressaltar, desde j, que o nmero de graus de liberdade na distribuio

de Student se refere obteno do desvio padro, e no ao clculo da mdia. Como veremos em outros captulos, pode acontecer que a mdia e o desvio padro sejam obtidos a partir de diferentes conjuntos de observaes. O valor de N, em t N - 1 , no ser ento necessariamente o mesmo valor de N usado para calcular a mdia, e cuja raiz quadrada aparece no denominador da Equao 2.17.

51

A Tabela A.2, na pgina 393, contm os valores de t para algumas reas da cauda direita na distribuio de Student. As reas aparecem na parte superior da tabela, em negrito. A distribuio t tambm simtrica em torno da mdia zero, como a distribuio normal padro, de modo que s precisamos de um lado da curva. Na primeira coluna, tambm em negrito, est o nmero de graus de liberdade, v, com que o desvio padro s estimado. Como na nossa amostra de dez caroos esse nmero
v = N -1 = 9, os valores apropriados encontram-se na nona linha. Para descobrir, por exem-

plo, o valor de t que corresponde a um nvel de 95% de confiana, lemos o valor que se encontra na interseo da nona linha com a coluna correspondente a 0,025 de rea da cauda. Obtemos assim t = 2,262. Na distribuio normal, para o mesmo nvel de confiana, usamos z = 1,96, o que mostra que a distribuio t mais espalhada, ou seja, os intervalos de confiana obtidos a partir dela sero mais largos. Isto faz sentido, porque ao usar o valor de s para estimar
(J

es-

tamos cometendo um erro, que evidentemente ser tanto maior quanto menor for a amostra. Para uma amostra de apenas dois elementos, por exemplo, o valor de t sobe para 12,706, no mesmo nvel de confiana. Esse resultado quer dizer que, para ter os mesmos 95% de confiana com uma amostra to pequena, precisaremos de um intervalo umas cinco vezes maior do que no caso da amostra de dez caroos. E isso sem levar em conta a variao na prpria estimativa do desvio padro. A recproca verdadeira. Quanto maior for a amostra, mais estreito ser o intervalo. No limite, com um nmero infinito de graus de liberdade, a distribuio t termina reduzindo-se distribuio normal padro. Voc pode confirmar esse fato conferindo os valores que esto na ltima linha da Tabela A.2. Com a distribuio de Student, portanto, podemos calcular um novo intervalo de confiana usando apenas os valores amostrais (Equao 2.22). Note a semelhana com a Equao 2.21, que se baseia no desvio padro populacional.

InteroaJo de oonfiana para a mdia populacional,

a partir da distribuio de StUlknt:

tN

-1

.Jii

< J1 < X +

(2.22)

52

No nosso exemplo toda a informao vem de uma nica amostra, e portanto o valor de N dentro da raiz quadrada o mesmo que aparece em t N - 1 . Como j dissemos, esses valores no tm de ser obrigatoriamente os mesmos. Mais tarde veremos exemplos em que combinamos informaes de vrias amostras para estimar o desvio padro. Com esse procedimento, o valor de s - e portanto o valor de t N - 1 - vai ter um nmero de graus de liberdade maior do que o correspondente a uma s amostra. Os intervalos de confiana se tornaro mais estreitos, e conseqentemente as previses sero mais precisas. Para 95% de confiana e uma amostra de dez elementos, a Equao 2.22 se transforma em

x-

2,262

v10

~ < 11 < X + 2,262 ~ .


v 10

Substituindo os valores para os dez caroos,

= 0,1887 g e s = 0,0423 g, chegamos ao

intervalo 0,1584 g < J1 < 0,2190 g, o que corresponde a 4.566 - 6.313 caroos/kg. Como j espervamos, a incerteza cresceu em relao estimativa anterior, que era baseada na idia de que o mesmo desvio padro poderia ser tomado como o valor populacional.

Exerccio 2.16 Use os sete valores na ltima linha da Tabela 2.2 e determine a partir deles, com 99% de confiana, com quantos gros se faz uma feijoada.

Exerccio 2.17 Refaa o Exerccio 2.15, usando a distribuio de Student. Admita que o nmero de graus de liberdade seja 120, para obter valores de t na Tabela A.2. Compare seus resultados com os do Exerccio 2.15.

Exerccio 2.18 Como voc pode relacionar os nmeros que esto na ltima linha da Tabela A.2 com os valores da Tabela A.l?

Com o aumento do nmero de graus de liberdade, os valores de t N - 1 convergem, a princpio rapidamente e depois mais devagar, para os valores da distribuio normal padro.
medida que a amostra cresce, portanto, a diferena entre as duas distribuies vai

perdendo a importncia. Na prtica, s se costuma usar a distribuio t quando o nmero de graus de liberdade na estimativa do desvio padro inferior a 30. Para amostras maiores, a Equao 2.21 considerada satisfatria.

53

Quando as coisas funcionam normaimente

Os diversos intervalos de confiana calculados at agora para o peso mdio de um caroo de feijo, tanto no texto quanto nos exerccios, so comparados graficamente na Figura 2.10, onde podemos ver o estreitamento do intervalo com o aumento do nmero de caroos na amostra. Como esse efeito varia com a raiz quadrada de N, aumentar o tamanho da amostra normalmente deixa de ser interessante a partir de um certo ponto. Por exemplo, para reduzir metade os intervalos obtidos a partir de 140 caroos, teramos de pesar mais 420 deles (para ter um total de 4 x 140 = 560 caroos). Ser que esse aumento de preciso compensa tanto esforo?

140, N, 95%
H

140,

t, 95%

..-.;

10, N, 95%
1------1

10, t, 95%

7,

t, 99%

1, N, 95%

1, N, 95%

0.0

0.1

0.2

0.3

0.4

Peso mdio (gramas)

Figura 2.10 Intervalos de confiana para o peso mdio de um caroo de feijo preto. As legendas indicam o nmero de caroos na amostra, a distribuio usada na estimativa, e o nvel de confiana.

Exerccio 2.19 Os dois intervalos de 95% de confiana para o peso mdio calculados a partir de um nico caroo tm a mesma largura, como mostra a Figura 2.10. J os intervalos para o nmero de caroos por quilo, obtidos a partir dos mesmos dados, tm larguras muito diferentes. Para o caroo pesando 0,1188 g o intervalo de 95% de confiana vai de 5.266 a 20.964 caroos. Para o de 0,2673 g os limites so 2.955 e 5.098, dando a impresso de que essa determinao mais precisa do que a outra. Isso verdade? Por qu?

54

Partindo da Equao 2.18 e procedendo exatamente da mesma forma, podemos determinar um intervalo de confiana para o valor da varincia populacional. Daremos um exemplo com a nossa amostra de dez caroos. Os valores de X2 necessrios esto na Tabela A.3 (p. 394), cuja leitura idntica da Tabela A.2, com a diferena de que a distribuio qui-quadrado tem uma forma assimtrica, mais alongada para a direita. Por isso, teremos de olhar em duas colunas para determinar os limites do intervalo. Para um intervalo de 95% de confiana, precisaremos dos pontos correspondentes a 0,025 (cauda direita) e 0,975 (tambm de cauda direita, e portanto correspondendo a 0,025 de cauda esquerda, que o que realmente interessa). Com nove graus de liberdade esses valores so 19,0 e 2,70, respectivamente. Da podemos concluir que h 2,5% de chances de que X 2 > 19,0 e tambm 2,5% de chances de que X 2 < 2,70. H portanto 95% de probabilidade de X2 estar entre esses dois limites, isto , de que 2,70 < X 2 < 19,0, ou, pela Equao 2.18,
S2

2,70 N-1)-2 <19,0. (1 Reescrevendo a desigualdade de modo a isolar (12 , temos


S2 s2

(N _1)_<(12 N - 1 ) -

19,0

2,70

Substituindo finalmente N

= 10 e s = 0,0423 g, temos a

expresso 0,0008 g2 < (12 < 0,0060

g2, cuja interpretao semelhante dos outros intervalos que vimos. Devemos lembrar, porm, que testes de hipteses envolvendo diretamente a varincia no so robustos em relao a desvios da normalidade, e por isso precisam ser usados com muita cautela. Se for possvel, melhor substitu-los por testes envolvendo mdias.

Exerccio 2.20

Calcule, a partir dos sete ltimos valores da Tabela 2.2, um intervalo de 99% de confiana para o desvio padro do peso de um caroo de feijo.

Comparar as varincias de duas populaes muito importante para se avaliar a qualidade do ajuste de diversos modelos estatsticos. Este um assunto que discutiremos detalhadamente no Captulo 5, mas vamos aproveitar a oportunidade para apresentar a distribuio estatstica apropriada, que tambm descendente da distribuio normal.

55

{Juan'ClO as coisas funcionam norrnalrnente

Consideremos duas amostras aleatrias, extradas de duas distribuies normais possivelmente diferentes. A varincia de cada uma delas segue sua prpria distribuio quiquadrado, de modo que, partindo da Equao 2.18, podemos escrever uma e s~ / a~ : : :

s; / ar : : X;l /

VI

para

X;2

/V2

para a outra, onde

VI

V2

so os respectivos graus de liberdade.


VI

Pode-se demonstrar que a razo

(X;1 I v I)/(X;2 I V2) segue uma distribuio F com

e v2

graus de liberdade. Isto nos permite escrever a expresso

e da tirar (2.23)

Podemos usar esta ltima expresso para testar hipteses sobre a relao entre varincias populacionais. Em particular, para testar a possibilidade de que elas sejam idnticas, isto , que

(ar I ai)= 1 . Para isso precisaremos da Tabela A.4 (p. 395-398), que apresenta os pon-

tos correspondentes a algumas reas de cauda direita na distribuio F. Esse assunto, porm, fica para a seo seguinte.

2.7 Aplicando a distribuio normal


Pelos vrios motivos que j discutimos, a distribuio normal descreve bastante bem um grande nmero de processos reais, e isso nos permite us-la como modelo para resolver vrios problemas de interesse prtico. Nesta ltima seo apresentaremos algumas das aplicaes mais comuns.

2.7(a) Como fazer comparaes com um valor de referncia


Suponha que estamos encarregados de decidir se o lote de vinagre que discutimos na Seo 2.1 est de acordo com o que a legislao exige, que 4% de cido actico. 8 Para isso, realizamos as trs primeiras titulaes da Tabela 2.1, cujos resultados so 3,91, 4,01 e 3,61%. Dois desses valores esto abaixo do que deveriam, mas pode ser que isso tenha ocorrido

Vamos admitir inicialmente, para fins de exemplo, que este o valor mdio exigido, e no o valor mnimo. No Exerccio 2.21 essa restrio ser removida.

56

somente por causa das flutuaes naturais do processo de titulao, e que no haja nada de errado com o lote. Se a titulao no est afetada por erros grosseiros nem sistemticos, restam apenas os erros aleatrios. Ento, de acordo com o teorema do limite central, os valores mdios de um conjunto de titulaes feitas em um mesmo lote devem seguir a distribuio de Student. A mdia das trs titulaes,

x :: ! ( 3,91 + 4,01 + 3,61 ) :: 3,843 %


3

deve ser um ponto da distribuio de Student para mdias de trs elementos. Para chegar a uma concluso sobre o vinagre, precisamos decidir se a evidncia fornecida pelos trs resultados incompatvel com a hiptese de que eles tenham vindo de uma populao com mdia
3,843% - t2
s .J3
)1

= 4%. Usamos portanto a Equao 2.21, e escrevemos


s .J3 .

< J1 < 3,843% + t 2

Substituindo s

= 0,2082 %, que o desvio padro das trs titulaes, e t 2 = 4,303 (da Tabela

A.2, com 95% de confiana), temos 3,32 % < J1 < 4,36 % . Concluso: como o intervalo de confiana contm o valor de referncia, 4%, no podemos afirmar que esse no seja o valor verdadeiro da mdia do lote. (Os especialistas diriam: no podemos rejeitar a hiptese nula.) Apesar de a mdia das trs amostras estar abaixo da especificao, os indcios no so suficientes para justificar a rejeio do lote de vinagre. Esta concluso, porm, est baseada em apenas trs alquotas, ou seja, em apenas dois graus de liberdade. Para ter mais segurana, precisamos de mais informaes. Fazemos ento mais cinco titulaes, e obtemos os cinco valores seguintes na Tabela 2.1. Agora temos oito resultados, com na Equao 2.21, desta vez com N 3,71% < J1 < 3,93% . O intervalo ficou muito mais estreito, e deixou de incluir o valor de referncia. Podemos dizer ento que existe evidncia, no nvel de 95% de confiana, de que o teor mdio de cido actico no lote examinado mesmo inferior a 4% (isto , podemos rejeitar a hiptese nula).

x = 3,818% e s = 0,1286%. Substituindo estes valores = 8 e t7 = 2,365, chegamos desigualdade

57

Na verdade, 4% o teor mnimo de cido actico exigido, e no o teor mdio, mas adaptar os nossos clculos a esse fato simples. Fazemos o ponto situado trs desvios padro abaixo da mdia, isto , o ponto acima do qual devem estar 99,87% das observaes, igual a 4%. Depois, s repetir o teste, tomando esse valor como a nova mdia. Admitindo-se que
(J

== 0,15 %, que o desvio padro de todos os valores da Tabela 2.1, a nova mdia de

referncia seria 4 % + 3 x 0,15 % = 4,45 % . Se a mdia populacional for esta, em 99,85% das amostras o teor de vinagre estar acima de 4%, e portanto dentro da lei.

Exerccio 2.21 Use a nova mdia de referncia para o teor de cido actico, 4,45%, e repita o teste com os trs ltimos valores da Tabela 2.1.

Exerccio 2.22 Um qumico est testando um novo mtodo para determinar ferro. Fazendo quatro anlises num padro cuja concentrao verdadeira 14,3%, ele obtm 13,7%, 14,0%, 13,9% e 14,1% de ferro. Como voc avalia a exatido da nova metodologia, no nvel de 95% de confiana? Ser que as quatro determinaes vm de uma distribuio com mdia 14,3%?

2.7(b) Como determinar o tamanho da amostra


Acabamos de ver um exemplo prtico de como podemos reduzir a largura do intervalo de confiana do teste t, aumentando o nmero de valores que compem a amostra. Um argumento parecido nos ajuda a determinar o tamanho da amostra que devemos coletar para poder detectar uma variao de uma certa magnitude no valor da mdia, ou para estimar o valor de um parmetro com um certo grau de preciso. Continuando com a titulao, digamos que nosso objetivo seja obter uma estimativa da concentrao com preciso de 0,1%. Quantas titulaes repetidas devemos fazer? Como os intervalos do teste t so dados por

e queremos estimar a concentrao mdia dentro de 0,1 % , precisamos de um nmero N de titulaes tal que

58

ou

N~ (~]2
lO,l%

Aqui temos um problema. O valor de s deve ser calculado a partir da amostra, e no entanto no sabemos nem quantas titulaes devem ser feitas. Na prtica, felizmente, esse problema no to grave quanto parece, porque as medies j realizadas ao longo do tempo podem fornecer um valor ''histrico'' para s. o que normalmente acontece em procedimentos de rotina, como controle de qualidade. No nosso exemplo, podemos usar o desvio padro de todas as titulaes na Tabela 2.1, que s = 0,1509%, e escrever

~(t19 xJ59 %]2

0,1%

Como o desvio padro foi calculado a partir de vinte observaes, o valor de t o correspondente a 19 graus de liberdade, no importa qual venha a ser o valor de N. Isto contribui para reduzir ainda mais a largura do intervalo. Substituindo finalmente
t19

= 2,093, temos

~9,98

Para obter a preciso desejada, portanto, precisamos fazer pelo menos dez titulaes. Quando temos uma estimativa do desvio padro obtida a partir de uma srie histrica de extenso razovel, a diferena entre a distribuio t e a distribuio normal deixa de ter importncia. Essa a situao mais comum em laboratrios de anlises, onde todo dia os mesmos procedimentos so realizados, repetidas vezes. Para estimar o tamanho da amostra, nesses casos, podemos usar a expresso

(2.24)

onde L a preciso desejada,

(j

o desvio padro e z o ponto da distribuio normal padro

para o nvel de confiana escolhido.

Exerccio 2.23
Um laboratrio de anlises faz determinaes com um desvio padro histrico de 0,5%. Um cliente envia uma amostra, cuja concentrao ele quer saber com uma preciso de 0,2%. Use

59

a equao 2.24 para estimar quantas determinaes repetidas o analista precisar fazer para dar a resposta desejada, com 95% de confiana.

Exerccio 2.24 Suponha que queremos determinar um intervalo de 95% de confiana para o peso de um caroo de feijo, de tal maneira que a diferena entre os valores extremos do intervalo seja um desvio padro amostraI. Quantos caroos devemos pesar?

2.7(c) Como fazer o controle estatstico de processos


Imagine uma indstria qumica de alguma complexidade como, por exemplo, uma fbrica de polmeros. Os engenheiros encarregados de projet-la e constru-la tm de garantir que ela ser capaz de produzir polmeros com as caractersticas desejadas pelos clientes. Para isto, precisam considerar longamente todas as variveis - que evidentemente no so poucas - e projetar a planta de modo a mant-las todas sob controle. Depois de fazer muitos clculos e testes, em laboratrio e em plantas piloto, os tcnicos se do por satisfeitos e a fbrica construda. O processo em larga escala ainda passa algum tempo sendo ajustado, e ento a operao regular finalmente se inicia. Da em diante, para certificar-se de que tudo est correndo conforme tinha sido planejado, isto , de que o processo permanece sob controle, os operadores continuam a acompanhar sistematicamente as caractersticas do polmero que est sendo produzido. Uma das principais variveis usadas para controlar a produo de um polmero a viscosidade. De tempos em tempos, uma amostra do polmero colhida na sada da linha de produo e enviada ao laboratrio, onde sua viscosidade determinada. Os valores assim obtidos - ou, mais comumente, mdias deles - so sistematicamente colocados num grfico em funo do tempo. Se o processo estiver totalmente sob controle, sem erros grosseiros nem sistemticos, como deve ser a distribuio desses pontos? Voc adivinhou: uma distribuio normal, para observaes individuais, ou uma distribuio de Student, para mdias. 9 Quando o processo se acha controlado, sua variabilidade
devida apenas aos erros aleatrios, e portanto suas respostas devem seguir a distribuio

normal, ou outra distribuio relacionada com ela. Este o princpio bsico do controle de qualidade. Mais uma vez, conseqncia do teorema do limite central.

A bem da verdade, se a varivel for contnua. Para outros tipos de varivel as distribuies apropriadas so outras, que voc pode encontrar nos livros de controle de qualidade.

60

A Figura 2.11 mostra oitenta valores de viscosidade, na ordem em que foram obtidos, a intervalos regulares durante o processo. As unidades so arbitrrias. Observe que os valores comportam-se muito bem, distribuindo-se aleatoriamente em torno do valor mdio, 45, com desvio padro de 1,67. Na Figura 2.12, que mostra o histograma desses valores, vemos que a sua distribuio bem representada por uma distribuio normal. Essa situao ideal o sonho de todo engenheiro de produo.

48

Q)

46

"'O "'O
~

:>

"00 o u (J)

44

42

40 ..........

.....a..-.o..........-~

...........

...........~............---a-..........._ _........_ _........_ _............---a-...........~~~ ..................,

20

40

60

80

Amostra

Figura 2.11 Grfico da viscosidade em funo do tempo, para um processo sob controle.
25

20
(J)

Q)

tO

(,)tI ~

Q)
(J)

2:

15

/ /

~\
\

.o
O O
Q)

"'O

10

'::3

lo-"

'/

V /
43-44 4445 45-46

\
46-47

~
47-48

42-43

Viscosidade

Figura 2.12 Histograma dos dados da Figura 2.11.

Na prtica, grficos como o da Figura 2.11 - chamados de m.rtas ou mapas de

0011-

trole - so traados ponto a ponto, em tempo real, pelos prprios operadores da linha, e

61

servem como uma ferramenta para detectar problemas que possam estar perturbando o processo. medida que cada ponto acrescentado, o grfico analisado. Qualquer padro anmalo, que indique desvios da normalidade, um aviso de que os responsveis devem tomar as providncias necessrias para fazer o processo voltar ao controle.

grfico de controle mais comum idntico ao da Figura 2.13, com trs linhas

horizontais paralelas que definem as caractersticas do processo quando ele se realiza sem problemas. A linha central corresponde mdia, que no nosso exemplo J.1 = 45. As outras duas linhas esto situadas trs desvios padro acima e abaixo da mdia. A linha correspondente a J.1 + 3a

= 48

o limite superior de oontrole. A linha correspondente a

J.1 - 3a = 42 naturalmente ser o limite inferior de oontrole. Entre esses dois limites, como j

sabemos, devero cair 99,73% de todos os valores individuais observados, se tudo estiver perfeitamente bem. A Figura 2.13 mostra um grfico de controle com os limites superior e inferior, mas com alguns conjuntos de pontos que representam duas das situaes anmalas mais comuns. Assim que uma situao dessas se apresentar, os tcnicos devem intervir e tomar as medidas necessrias para controlar novamente o processo. Para isso tero de basear-se no conhecimento tcnico do funcionamento da planta, bem como nas evidncias obtidas a partir do grfico. Uma mudana de nvel, por exemplo, pode estar associada a uma mudana de turno, e ser provocada por maneiras diferentes de operar o processo. Uma tendncia pode significar deteriorao do equipamento, ou contaminao progressiva de um reagente ou catalisador. Existem vrias regras prticas para ajudar os operadores a detectar situaes anmalas. Por exemplo, as seguintes ocorrncias so consideradas sinais de descontrole: Um ou mais pontos localizados fora dos limites de controle; Quatro pontos, de cinco sucessivos, situados a mais de um desvio padro da mdia, de um mesmo lado da linha central; Seis pontos consecutivos ascendentes ou descendentes; Nove pontos sucessivos de um mesmo lado da linha central.

Tais regras variam de um autor para outro. Voc poder encontrar muitas outras na bibliografia recomendada no final desta seo.

62

50
LSC

Tendncia

Mudana de nvel

48

Q)

46

"'O ctS "'O

'00 O u

:;

cn 44

42

40
O

20

40

60

80

Amostra

Figura 2.13 - Grfico de controle com padres de variao anmalos. LSC e LIC indicam os limites de controle. A linha central corresponde mdia. Qualidade sempre definida pela satisfao do cliente. ele que decide quais as caractersticas que o produto deve apresentar. Um fabricante de pneus, por exemplo, pode dizer a um fabricante de borracha que s compra seu produto se ele tiver uma viscosidade de 45. Esse o valor nominal da especificao. No entanto, como no realista esperar que todos os lotes apresentam exatamente esse valor, o fabricante de pneus se dispe a aceitar uma variao na viscosidade de, digamos, 3 unidades para mais ou para menos. Com esses valores so definidos os limites de tolerncia da especificao: viscosidade de 42, no mnimo, e de 48, no mximo. Uma vez que os limites de tolerncia tenham sido acertados, o fabricante de pneus estabelece uma inspeo por amostragem dos lotes de borracha que vo sendo recebidos. Os lotes que carem fora da faixa de tolerncia da viscosidade, 42 - 48, so rejeitados e devolvidos ao fornecedor. Este, claro, tem o maior interesse em desenvolver um processo eficiente e estvel, capaz de satisfazer s exigncias do cliente. Acontece que ter o processo sob controle significa apenas que ele est operando de forma consistente, no que o produto ir satisfazer obrigatoriamente s especificaes. preciso comparar tambm o comportamento do processo, isto , os parmetros de controle, com os parmetros de especificao. S assim teremos uma medida da capacidade do processo. Um dos ndices de capacidade mais usados o Cpk, definido como a menor das duas fraes

L8E -J1 3(}

J1-LIE 3(}

63

Quando as coisas funcionam

normaiment~~

onde LSE e LIE so os limites superior e inferior de especificao, e

J.1

e a so estimativas con-

fiveis da mdia e do desvio padro do processo. Por exemplo, se o cliente deseja uma borracha com viscosidade entre 42 e 48, e o processo est operando com
L8E 3a
J.1 J.1'

= 46 e a = 1,6, ento

= 48-46 =042 3xl,6"

J1-LIE = 46 - 42 =0,83 .
3a
3xl,6
Cpk

Nesse caso teremos

= 0,42, que um valor muito ruim. Um valor, alis, que nenhum

cliente aceitaria. Algumas das empresas mais avanadas do mundo, como a Motorola e a General Electric, j esto estabelecendo
Cpk

igual a 2 como o padro mnimo de qualidade

para seus prprios processos e tambm para os seus fornecedores (Bhote, 1996). Para atender a essa exigncia, preciso manter o processo perfeitamente centrado no valor nominal de especificao, e operando com um desvio padro no superior a 1/12 da faixa de tolerncia. Nessa situao, somente dois valores por bilho cairo fora dos limites de tolerncia. essa meta que est na base do movimento de gerenciamento da qualidade conhecido como Seis Sigma 10 (Breyfogle, 1999).

o que

apresentamos aqui s uma pequena poro, e mesmo assim muito simpli-

ficada, do extenso conjunto de conceitos e tcnicas que constituem o controle estatstico de processos. No nossa inteno esgotar o assunto, apenas discuti-lo um pouco, como aplicao da distribuio normal. Um tratamento aprofundado pode ser encontrado em um dos muitos livros inteiramente dedicados qualidade ou ao controle estatstico de processos. Para saber mais sobre essas importantes ferramentas voc pode consultar, por exemplo, Oakland e Followell (1990), Montgomery (1997) ou Vieira (1999).

2.7(d) Como comparar dois tratamentos


Como comparar duas mdias. Dois qumicos, S. Arrhenius e J. Berzelius, foram encarregados de analisar lotes de vinagre enviados por cinco fabricantes diferentes. Cada um analisou uma amostra de cada lote, e obteve os resultados que aparecem na Tabela 2.4, onde vemos que a mdia e o desvio padro das determinaes feitas por Berzelius so menores do que os valores obtidos por Arrhenius. Para avaliar o desempenho de seus dois funcionrios, o chefe do laboratrio, A. Lavoisier, resolve fazer uma comparao estatstica desses resulta-

10

Porque ser que o movimento tem justamente esse nome?

64

dos. Ser que as variaes significam que existe uma diferena sistemtica entre a tcnica de um analista e a do outro, ou ser que apareceram somente porque eles analisaram amostras distintas? Os dados da Tabela 2.4 so um exemplo do tipo mais simples de experimento. Existe um fator, a tcnica analtica, e uma resposta, a concentrao obtida. O fator est sendo considerado em apenas 2 nveis, representados por Arrhenius e Berzelius. Nosso objetivo descobrir se a resposta afetada pela mudana de nvel do fator. Podemos resolver o problema estendendo a Equao 2.17 para a diferena de duas mdias. Comeamos substituindo, no numerador, x por xA - xB e 11 por IlA - J.1B . Para o denominador, precisamos do desvio padro da diferena entre as duas mdias amostrais. Generalizando o resultado do Exerccio 2.14 para o caso em que XA e
xB so obtidos

respectivamente a partir de N A e N B observaes independentes, podemos escrever

Admitindo ainda que 8~ e s~ sejam estimativas da mesma varincia populacional, podemos combin-las numa nica estimativa
8 2

(com mais graus de liberdade) e escrever

~(-) = 8 V xA -XB

2[1 1) . --+-NA NB

Tabela 2.4 Comparao dos resultados obtidos por dois qumicos titulando amostras de vinagre de cinco diferentes procedncias. Teores de cido actico em %.
Amostra 1 2 3 4 5 Mdia Desvio padro Graus de liberdade Arrhenius 3,77 3,85 4,07 4,83 5,05 4,314 0,5871 4 Berzelius 3,62 3,69 4,10 4,70 4,89 4,200 0,5772 4
d

= XA
0,15 0,16

- XB

- 0,03 0,13 0,16 0,114 0,0814 4

65

UU1an:oo as coisas funcionam

norma~mente

A expresso do teste t torna-se portanto

(2.25)

e da chegamos ao intervalo de confiana para a diferena entre as duas mdias populacionais:

(2.26)

Para obter a estimativa conjunta do desvio padro de uma observao, s, fazemos uma mdia das varincias das duas amostras, ponderadas pelos respectivos graus de liberdade:

( N A-I) s~ + (N B

1) s~ (NA-I) + (N B -1)
-

(2.27)

o nmero

de graus de liberdade do teste t, como sabemos, o utilizado para o clculo de s.


-

Neste exemplo, v = NA + N B

2 = 8. Com os valores numricos apropriados, obtemos da

Equao 2.27 s = 0,5822 %. A estimativa do desvio padro da diferena entre as mdias fica sendo ento
s

~ N1

+ 1 = 0,5822%

NB

x~~+~ = 0,3682%. 5 5

No nvel de 95% de confiana, temos t 8 = 2,306. Combinando tudo, podemos escrever


/lA -/lB = (4,314%-4,200%) (2,306 xO,3682%).
= 0,114% 0,849% = [ - 0,735%, 0,963 %]

Concluso: nesse nvel de confiana, no podemos dizer que as mdias dos resultados obtidos por Arrhenius e Berzelius sejam realmente diferentes.

66

Este teste provavelmente o mais usado de todos os testes estatsticos. muito valioso quando a diferena sistemtica entre as amostras causada por um nico fator, e o teste apropriado para comparar duas mdias independentes. Arrhenius e Berzelius, porm, fizeram as determinaes em amostras de cinco diferentes fabricantes. natural esperar que essas amostras apresentem diferentes teores de cido actico, e que amostras vindas de um mesmo fabricante paream mais umas com as outras do que com uma amostra de um fabricante diferente. S por isso o resultado das anlises j dever variar, mascarando uma possvel diferena de tcnica analtica. Como estamos interessados na diferena entre os analistas, precisamos de um mtodo que permita isolar a influncia da variao entre fabricantes.

Exerccio 2.25

O teor de a-Pb02 numa placa de bateria de automvel foi determinado por espectroscopia de raios-X. Foram registrados vrios espectros repetidos, fazendo-se (ou no) correo da linha de base. Os resultados so mostrados abaixo. Existe diferena sistemtica entre os dois modos de analisar a placa?

% a-Pb02

Espectro 1 2 3

Com correo 16,2 16,7 17,3

Sem correo 19,0 19,8 18,5

Como fazer comparaes emparelhadas. Apesar de termos acabado de fazer a anlise

estatstica incorreta, o experimento para comparar o desempenho de Arrhenius e Berzelius na verdade foi executado de forma apropriada. Usou-se um procedimento conhecido como bloatgem, que permite neutralizar a influncia de fatores que no so do nosso interesse. A blocagem um dos princpios fundamentais da boa tcnica experimental. As dez amostras da Tabela 2.4 podem ser vistas como cinco blOlnS de duas amostras, que so os pares vindos de cada fabricante. No presente exemplo, estamos interessados na influncia da tcnica analtica sobre os resultados da anlise. A procedncia do vinagre tambm afeta o resultado, mas ela s atrapalha a comparao de interesse. Se simplesmente distribuirmos aleatoriamente cinco amostras para um dos analistas e cinco para o outro, as diferenas de resultados entre os dois estaro afetadas tanto pela diferena de procedimento quanto pela variao na concentrao de cido actico. Os efeitos desses dois fatores estaro confundidos,

67

VU:dHUV

as coisas

fnc~onam norma~mente

e no teremos como separar o efeito de um do efeito do outro. Usando a blocagem, fazemos o fator de interesse variar apenas dentro de blocos, e com isso exclumos o efeito do outro fator (o fabricante) das nossas consideraes. Para se obter os dados da Tabela 2.4, duas amostras foram retiradas de cada lote, sendo uma dada a Arrhenius e a outra a Berzelius. Cada linha da tabela refere-se portanto a duas amostras de um mesmo fabricante. Se os resultados das anlises diferirem de forma sistemtica dentro das linhas, s pode ser por causa de uma diferena na maneira de realizar a anlise qumica. Caso no exista diferena de tcnica analtica entre Arrhenius e Berzelius, ento a mdia das cinco diferenas na ltima coluna da tabela deve ser um ponto da distribuio t com mdia
~

igual a zero. Para testar essa hiptese, precisamos do desvio padro da mdia

das variaes di dentro de cada linha:

-5:L JN -

0,0814% - 0364 01 J5 -, -10

Esse valor cerca de dez vezes menor que o desvio padro da diferena entre as mdias globais de Arrhenius e Berzelius, justamente porque a variao devida aos fabricantes foi excluda do teste.

o intervalo de confiana para ~ dado por

(2.28)

Usando os valores da tabela (e t 4

= 2,776), obtemos ~ = [0,014%, 0,215%], e conclumos que

existe uma diferena sistemtica entre os resultados dos dois analistas. As anlises feitas por Berzelius tendem mesmo a apresentar resultados mais baixos que as de Arrhenius, e a diferena tem 95% de probabilidade de estar entre 0,014% e 0,215%. Note que esse resultado no nos permite apontar o analista com a melhor tcnica, porque no conhecemos os verdadeiros valores das concentraes. S podemos afirmar que existe evidncia de diferena sistemtica entre os resultados dos dois. Um modo alternativo de fazer este teste usar os valores observados nas amostras para estimar o ponto da distribuio t, e compar-lo com o valor da tabela (na hiptese de que
~

= 0%). Fazendo desse jeito, teremos

68

::=

IJ -~ 1= 0,114%-0%
Sd/JN
O,0814/JS

::=

313 ' .

(2.29)

Como este valor superior a t 4

= 2,776 , conclumos que as chances de ele ter ocorrido por

acaso, sem que houvesse diferena de tcnica analtica, so inferiores a 2,5%, e rejeitamos a hiptese nula, isto , a hiptese de que ~

= O%. Esse procedimento -

o teste de hipteses -

o preferido pela maioria dos estatsticos, e pode ser estendido s outras distribuies. Na seo seguinte mostramos como testar a hiptese de igualdade de varincias. um teste que iremos usar, mais tarde, para analisar a qualidade do ajuste de um modelo emprico. A filosofia do teste de hipteses fcil de entender. O termo que aparece no denominador da Equao 2.29 um exemplo de erro padro (neste caso, da mdia das diferenas xA - xB). A estimativa

i o afastamento do valor amostraI em relao ao valor

populacional correspondente hiptese nula, medido em unidades de erro padro. Quanto maior for esse afastamento, menos chances tem a hiptese nula de ser verdadeira. Intervalos de confiana sempre podem ser transformados em testes de hipteses, em que o numerador uma estimativa do parmetro de interesse e o denominador o erro padro correspondente.
Para a diferena entre duas mdias, por exemplo, o erro padro

s~ NA 1

+ 1

NB

(Equao

2.26).

Exerccio 2.26
Como seria o teste de hipteses para a comparao de uma mdia com um valor de referncia?

Exerccio 2.27
Refaa o Exerccio 2.25, testando a hiptese nula, em vez de calcular o intervalo de confiana. Para quanto preciso mudar o nvel de confiana, para que sua concluso se modifique?

Como comparar duas varincias. Para comparar as mdias de duas amostras independentes, combinamos as duas varincias amostrais numa nica estimativa conjunta. Como a estimativa conjunta tem um nmero de graus de liberdade maior, o intervalo de confiana fica mais estreito e o teste passa a ser mais sensvel, isto , torna-se capaz de detectar diferenas sistemticas menores. Evidentemente s faz sentido combinar varincias amostrais se elas forem estimativas da mesma varincia populacional. Para que a estimativa conjunta se justifique, precisamos testar a hiptese nula de que s~ e s~ so estimativas de

69

OUianiOO as

coisas funcionam normahnente

varincias populacionais idnticas,

0-1

= (j~ Isto pode ser feito atravs de um teste F, que

se baseia na Equao 2.23. Com varincias populacionais iguais, a Equao 2.23 torna-se

Agora s precisamos comparar a razo das duas varincias amostrais com o valor tabelado para a distribuio F, com os graus de liberdade apropriados. Usamos a Tabela A.4 e vemos que, com 95% de confiana, F 4 ,4

= 6,39 . A razo entre as varincias ter de superar esse

valor, para que a hiptese nula seja rejeitada e a estimativa conjunta no possa ser feita. Como temos no nosso exemplo

&l/s~) = (0,5871/0,5722J = 1,035,


tudo bem com os nosso clculos. Note que o menor valor da Tabela A.4 1,000. Isto quer dizer que no teste F o numerador sempre a maior das duas varincias. Um critrio prtico muito usado, que dispensa a Tabela A.4, diz que podemos combinar varincias para obter uma estimativa conjunta sempre que a razo entre a maior varincia e a menor no for superior a quatro.

70

2A Aplicaes

2A.l De casa para o trabalho


Um dos autores deste livro nunca quis aprender a dirigir. 1 Como mora a uns 12 km do trabalho, costuma usar nibus para deslocar-se at l. O percurso total leva pouco mais de uma hora. Quando o nibus chega nas imediaes da universidade, passa debaixo de uma passarela de travessia de pedestres sobre a movimentada BR-101. Da at o terminal, do outro lado do campus, existem 16 pontos de parada. Nosso investigador costuma utilizar, para chegar at o departamento onde trabalha, um dos trs percursos descritos a seguir. A. Saltar do nibus no primeiro ponto aps a passarela, us-la para cruzar a estrada, e percorrer um dos lados externos do campus at a entrada que lhe dar acesso ao departamento. Este o caminho mais deserto e mais sujeito ao sol e, se for o caso, chuva. B. Saltar no terceiro ponto aps a passarela, cruzar a BR-101 pelas pistas de rodagem, e caminhar numa diagonal atravs do campus. Apesar do risco de atropelamento, este caminho usado por muita gente e tem vrios trechos de sombra. C. Saltar no ponto final, do outro lado do campus, e fazer um percurso diagonal em sentido oposto. o caminho mais agradvel, mais seguro e com maior movimento de pessoas. A Tabela 2A.1 contm os resultados de 32 ensaios em que foi cronometrado o tempo transcorrido desde o momento em que o nibus passou sob a passarela at a hora em que o pesquisador cruzou o porto de entrada do departamento. Os ensaios esto dispostos na ordem em que foram realizados. A ordem no foi aleatorizada, por motivos que discutiremos mais tarde. O objetivo do experimento era quantificar a diferena de tempo entre os trs percursos. A Figura 2A.1 mostra todos os tempos registrados, na mesma ordem da tabela. Um dos tempos da tabela (ensaio 9) foi excludo da anlise, logo de sada. Nesse dia caiu uma chuva fortssima, que praticamente paralisou a cidade. O pesquisador levou mais de quatro horas para ir de casa para o trabalho. O valor registrado na tabela, 56,3 minutos (contados a partir da passarela junto da universidade), evidentemente no tpico dos tem1

BBN, claro. REB americano, e mais fcil um camelo passar pelo fundo de uma agulha do que

um americano viver sem carro. ISS uma jovem profissional me de famlia, e precisa do carro para conciliar seus afazeres na universidade com a administrao domstica.

71

pos do caminho C. Ele o que se chama, sem qualquer conotao pejorativa, de um ponto anmalo. A anomalia aqui significa apenas que o valor no pode ser considerado como vindo da mesma distribuio que produziu os demais pontos, e portanto no faz sentido calcular nenhuma estimativa com a sua participao. Existem muitos testes para detectar anomalias. Adiante falaremos de dois deles.

Tabela 2A.1 - Dados do experimento.


Ensaio Sada de casa (h) Dia da semana segunda quarta sexta segunda sexta quarta quarta tera segunda tera quinta sexta quarta segunda tera quarta sexta quinta segunda tera quinta quarta quinta sexta segunda quarta sexta quarta sexta quarta segunda sexta Percurso
C C

Tempo (min)

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32

10:55 11:20 10:40 11:25 12:50 11:30 11:25 7:35 8:10 7:00 8:10 17:00 15:00 12:30 7:30 12:30 8:15 7:05 12:50 7:35 8:00 9:20 7:15 8:15 8:40 8:40 9:00 10:00 9:10 9:15 11:15 14:30

B C B C B A C A B A A C C B B A C A B B C B B B C
C B C B C

18,3 18,9 10,9 20,7 11,4 22,9 12,1 12,8 56,3 13,3 10,9 13,1 12,7 20,6 18,9 11,0 10,3 13,0 18,6 13,0 10,6 10,4 21,5 10,9 10,9 11,0 19,1 16,1 12,1 18,1 12,2 19,2

Uma anlise estatstica mais ortodoxa provavelmente comearia com um procedimento conhecido como anlise da varincia. Primeiro decidiramos se existe alguma dife-

72

rena de tempo entre os trs percursos. S depois que tentaramos descobrir quais so as origens e os valores das diferenas. Os autores deste livro, porm, so partidrios do que poderamos chamar de Escola Yogi Berra de Anlise de Dados. Gostamos muito de outra frase atribuda a Yogi, que diz assim: "s olhando, voc j observa muita coisa". Quanto anlise da varincia, trataremos dela no Captulo 5, em outro contexto.
25 r - - - - - - y o - - - - - r - - - - y - - - - - r - - - - , . . . . . - - - - . , . - - - - ,

lo
20

oi
o

! ~
!
~

.S

o
15
r-" . . .

~
1

6u 009 ! o ---l----r--r--l --..--l---r--o Y

5L..-------'----'----'----...I.-.--A...-----""---" o 5 10 15 20 25 30 35

Ensaio

Figura 2A.l- Tempos do experimento, na ordem em que foram obtidos. O tempo do


ensaio 9 foi excludo (veja texto).

A Figura 2A.2 apresenta os mesmo dados da Figura 2A.l, com uma diferena. Eles agora esto estratificados, isto , agrupados de acordo com o percurso, o que, alis, uma das sete ferramentas bsicas da qualidade, como j tivemos oportunidade de mencionar. No precisamos de estatstica nenhuma para perceber imediatamente que o caminho C o mais demorado e o que leva menos tempo o caminho B, seguido de perto pelo A. Tambm fica evidente que a disperso dos valores bem maior no caminho C do que nos outros dois. 2 Uma pessoa que no tenha por representaes grficas o mesmo entusiasmo que ns poderia argumentar que as mesmas concluses poderiam ser obtidas examinando-se os valores numricos na prpria tabela, principalmente depois que eles fossem ordenados de acordo com o percurso. At pode ser verdade, mas daria mais trabalho, e dificilmente a diferena nas disperses ficaria to clara. Alm do mais, a crescente automao dos instrumentos est tornando to fcil produzir tantos dados em to pouco tempo que procedimentos grficos para filtrar ou concentrar informao esto deixando de ser apenas uma convenincia para tornar-se uma necessidade.

Voc pode descobrir a razo, comparando as descries dos trs percursos.

73

Quando as

co~sas

funcionarn

norrna~mente

Percurso

Figura 2A.2 - Dados do experimento, estratificados de acordo com o percurso.

Pois bem, no h dvida de que os caminhos B e A so os mais rpidos. Ser que a diferena entre os dois significativa? A resposta est num teste t, semelhante ao que fizemos na Seo 2.7(d). Para realiz-lo, precisamos de alguns dos valores que esto na Tabela 2A.2. Usamos ento a Equao 2.26 e escrevemos

=2,4 (2,11xO,5464xO,4936)=2,40,57 = (1,83, 2,97).

desvio padro 0,5464 uma estimativa agregada, com 17 graus de liberdade, calculada

atravs da Equao 2.27. Como o intervalo (de 95% de confiana) no inclui o valor zero, podemos concluir que o percurso B leva mesmo menos tempo - entre 1,83 e 2,97 minutos que o percurso A. Este um excelente momento para enfatizarmos um ponto fundamental: significn-

cia estatstica uma coisa, importncia prtica outra. O resultado de um teste estatstico
nos indica apenas que um certo valor numrico uma manifestao de alguma caracterstica sistemtica do fenmeno que estamos estudando, e no um mero resultado de flutuaes aleatrias. Se isto ou no importante quem tem de decidir o pesquisador, provavelmente com base em consideraes de outra natureza. No nosso exemplo, os dados nos dizem que indo pelo caminho B o pesquisador pode chegar mais cedo ao seu destino. Esse percurso, porm, o mais arriscado, por causa da travessia de uma estrada movimentada. A segunda

74

escolha, o caminho A, quase no tem proteo contra as intempries. Alm disto, a diferena mdia de tempo entre ele e o caminho C de uns sete minutos apenas. Resultado: a menos que esteja muito apressado, BBN continua preferindo usar o caminho C, que de longe o mais confortvel. Tabela 2A.2 - Estatstica descritiva dos tempos da Tabela 2A.1, excluindo-se o ensaio 9. Percurso A B C Ensaios 6 13 12 Mnimo 12,7 10,3 16,1 Mximo 13,3 12,2 22,9 Mdia 12,98 11,13 19,41 Desvio padro 0,2137 0,6356 1,7799

Vrios outros fatos podem ser percebidos examinado-se mais atentamente os dados do experimento. Um que salta vista a extraordinria flexibilidade dos horrios do pesquisador. Consideremos, porm, a Figura 2A.3, onde os horrios de sada de casa so mostrados em funo dos dias da semana. s teras e quintas o horrio nunca passa das oito da manh. Voc pode desconfiar de alguma explicao para esse fato? A Figura 2A.4 mostra como a escolha do percurso se relaciona com o horrio de sada. Podemos perceber que o percurso A s foi escolhido quando o pesquisador saiu cedo ou quando saiu tardinha. A explicao simples: esse caminho o mais exposto, e o sol est mais fraco nesses horrios. Foi por isso, alis, que os experimentos no foram feitos em ordem aleatria. O conforto do pesquisador, no mencionado at agora, foi um dos fatores determinantes na conduo dos experimentos.

17:00

15:

oo----------r------------l-------c;----t-------------r-----------

------8----1--------------1-----~----1-------1---~---9:00 7:00
segunda tera quarta quinta sexta

Dia da semana

Figura 2A.3 - Horrio de sada, em funo do dia da semana.

75

Quando as coisas funcionam

norma~mente

17:00

o
I

15:00

1
:~
~

11 :30

9:00

7:00

.----8--+----.-----I--.-----1-.----1--.--i-----~-A

Percurso

Figura 2A.4 - Horrio de sada, em funo do percurso.

Voltemos agora ao valor aparentemente anmalo. Muitos testes para detectar anomalias j foram propostos. Um dos mais usados na qumica o teste Q de Dixon, que tambm admite a hiptese de normalidade da distribuio dos valores. Na verdade, existem vrios testes de Dixon, todos baseados em comparaes de diferenas entre o valor suspeito e os demais valores da amostra. Voc poder obter mais informaes sobre esses testes em Skoog e West (1996), e em Rorabacher (1991). Aqui vamos nos limitar a responder seguinte pergunta: devemos considerar o tempo de 56,3 minutos obtido no ensaio nmero 9 como um elemento vindo da mesma distribuio que produziu os outros tempos registrados para o caminho C? Para fazer o teste de Dixon apropriado a esta questo, devemos comear calculando a menor e a maior das diferenas entre o elemento suspeito e os demais valores do conjunto. Depois fazemos a razo entre a menor diferena e a maior, e comparamos o resultado com um valor de Q crtico tabelado, que depende do nvel de confiana desejado e do nmero total de elementos na amostra. Se a razo calculada for superior ao valor da tabela, ento pdemos considerar o valor suspeito como uma anomalia. No nosso exemplo, como s existe um valor suspeito (o tempo de 56,3 minutos verificado no ensaio 9), usaremos os valores tabelados para o teste de uma cauda. Como os valores extremos dos outros doze tempos do caminho C so 16,1 e 22,9 minutos (Tabela 2A.2), podemos escrever: Maior diferena

= 56,3 -

16,1

=40,2

Menor diferena = 56,3 - 22,9 = 33,4

76

Razo = 33,4 = 0,831 . 40,2 Valores de Q crtico para n = 13:


0,479 (95% de confiana); 0,579 (99% de confiana)

A razo calculada supera, e muito, os valores tabelados para o teste de Dixon. Esse resultado mostra, como j desconfivamos, que o ensaio nmero 9 realmente diferente dos outros. Na verdade, j sabamos que a concluso teria de ser essa, porque as condies atmosfricas nesse dia eram completamente atpicas. Outro teste de anomalias muito popular o teste de Gmbbs, que alis o teste recomendado pela International Organization for Standardization (a famosa ISO, sigla que as empresas adoram colocar em seus anncios publicitrios). O teste de Grubbs tambm admite a distribuio normal e compara a distncia, medida em desvios padro, do valor suspeito em relao mdia do conjunto de valores. (O valor suspeito includo no clculo da mdia e do desvio padro). Se essa distncia for maior que um certo limite crtico tabelado, o valor suspeito considerado anmalo. Usando todos os treze tempos obtidos no caminho C, temos

G = IXa

xl = 56,3 - 22,25 = 3 28
10,37 "

que superior ao valor de G tabelado no nvel de 95% de confiana, e portanto a presena de uma anomalia mais uma vez confirmada. Observe que a incluso do valor anmalo tornou a mdia - e sobretudo o desvio padro - bem maiores que os valores dados para o caminho C na Tabela 2A.2. O estudo das anomalias um assunto vasto e complexo. Barnett e Lewis (1984), por exemplo, discutem 47 equaes diferentes sugeridas com essa finalidade. O ideal seria pdermos repetir a observao suspeita, para verificar se ela mesmo vlida. Como nem sempre isso vivel, cada vez maior o interesse dos pesquisadores pelo uso de testes no paramtricos, que so menos sensveis a eventuais anomalias. Para finalizar, uma questo para voc meditar: ser que d para perceber alguma peculiaridade nos valores numricos dos horrios de sada registrados na Tabela 2A.1?

2A.2 Bioequivalncia de medicamentos genricos e de marca


A Organizao Mundial de Sade vem estimulando a adoo de uma poltica de medica-

mentos genricos como forma de garantir o acesso univer6al sade e racionalizar o uso de
77

medicamentos. Um medicamento genrico uma formulao que, aps o trmino da validade da patente ou da sua renncia, contm o mesmo princpio ativo, na mesma dose e forma farmacutica de um remdio de referncia, administrado pela mesma via e tem a msma indicao teraputica. importante, para a sade da populao, investigar se existe bioequivalncia entre um medicamento genrico e seu anlogo fabricado sob o privilgio da marca. Uma das medidas comumente usadas para se testar a bioequivalncia a rea sob a curva que descreve a variao, em funo do tempo, da concentrao do princpio ativo no sangue. Tabela 2A.3 - Resultados do teste de bioequivalncia. Voluntrio
A

rea sob a curva (*) B 10.983 8.211 9.105 12.508 12.114 11.520 11.983 14.454 11.246 10.740 10.879 13.818 7.156 12.297 12.279 9.751 9.895 15.579 9.296 16.163 11.838 11.515,0 2265,7

Diferena 1.778 2.030 -536 813 -633 2.541 304 242 1.280 -1.680 1.450 -574 708 -2.613 -468 358 1.071 -5.094 2.603 -2.963 530 54,62 1.906,3

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 Mdia Desvio Padro


(*)

12.761 10.241 8.569 13.321 11.481 14.061 12.287 14.696 12.526 9.060 12.329 13.244 7.864 9.684 11.811 10.109 10.966 10.485 11.899 13.200 12.368 11.569,6 1.827,2

Da concentrao do princpio ativo no sangue, no perodo O- 8 h.

78

Numa investigao de bioequivalncia envolvendo 21 voluntrios, foi administrado a cada um deles um medicamento genrico (A) em uma etapa, e o medicamento de referncia (B), seu presumido equivalente, em outra etapa (Cavalcante, 1999). A ordem de administrao dos medicamentos foi aleatria, e nem os indivduos testados nem os pesquisadores que forneciam os remdios sabiam qual das duas formulaes estava sendo administrada num dado momento. Isto conhecido como um teste em duplo rego (do ingls double-blind). Os valores da rea sob a curva determinados no experimento so reproduzidos na Tabela 2A.3. Para testar se as duas formulaes so equivalentes, na resposta escolhida para este exemplo, devemos usar o mesmo procedimento que empregamos na seo 2.7(d), quando fizemos comparaes emparelhadas das competncias analticas de Arrhenius e Berzelius. Aplicando a Equao 2.28 aos valores da ltima coluna da Tabela 2A.3, temos

~ = d tu ~ = 54,62 2,0861.~3 = 54,62 867,8 .


vN
21 evidente que o intervalo incluir o valor zero, e que podemos considerar os dois remdios como bioequivalentes, pelo menos do ponto de vista da rea sob a curva. Existe um ponto, porm, que merece um comentrio. Quando tratamos os dados de Arrhenius e Berzelius, vimos que o intervalo da comparao emparelhada era bem mais reduzido, porque eliminvamos a variao causada pela procedncia da amostra. No presente exemplo, o comportamento dos dados outro. O desvio padro das diferenas muito semelhante aos desvios padro das mdias dos dois tratamentos. A Figura 2A.5 nos permite visualizar ao mesmo tempo a mudana dos valores mdios e a semelhana das disperses. Tambm podemos ver que os pontos parecem desviar-se um pouco de uma distribuio normal, mas isto no deve ser motivo de muita preocupao porque, como j dissemos, o teste t bastante robusto em relao a tais desvios.
18000r---------r------r------~-----r--,

, i
[]

a-t_ : .....

ri !
6 ooo

-~

- - _ + -

_ +._

1.- - .

o -o-6000
--13--

10

20

........

A B
DIF

Voluntrio

Figura 2A.S - reas sob a curva da Tabela 2A.3.

79

2A.3 Mais feijes?


No melhor esprito da Rothamsted Experimental Station,3 onde R. A. Fisher desenvolveu alguns de seus trabalhos mais importantes, os autores resolveram dar continuidade s suas prprias pesquisas agronmicas e mediram os pesos de duas amostras de diferentes tipos de feijo. Cada amostra continha seis caroos escolhidos aleatoriamente de sua respectiva populao, um pacote de 1 kg comprado num supermercado. Os pesos obtidos esto na Tabela 2A.4. O feijo carioca parece mais pesado que o roxinho. Ser que essas amostras de apenas seis elementos so suficientes para nos dar confiana nessa concluso?

Tabela 2A.4 - Pesos de caroos de dois tipos de feijo.


Tipo Carioca Roxinho Pesos (g) 0,2580 0,2607 0,2854 0,2895 0,2712 0,2766 0,2175 0,2205 0,2260 0,2261 0,2119 0,2146 0,27357 0,21943

s
0,012779 0,005875

A resposta, mais uma vez, est num teste t, idntico ao da comparao dos tempos no experimento rodovirio, mas vamos aproveitar para fazer um pouco diferente, e testar a hiptese de que os dois pesos mdios so idnticos, para ver se podemos rejeit-la. Comeamos adaptando a Equao 2.25, que vimos na Seo 2.7(d), hiptese nula de igualdade das mdias. Escrevemos portanto

Substituindo os valores apropriados e usando como desvio padro o valor obtido a partir da combinao das varincias das duas amostras, temos
t = --------A

(0,27357 - 0,21943)0,0099456

ii
+

0,05414 9429. 0,0057421 '

O valor de t com 10 graus de liberdade 2,228, no nvel de 95% de confiana. Mesmo no maior nvel de confiana da Tabela A.2, 99,95%, o valor de t apenas 4,587, que ainda muito inferior estimativa obtida dos pesos dos caroos. Podemos afirmar ento, praticamente com certeza, que o peso mdio do caroo de feijo carioca maior que o peso mdio do caroo de feijo roxinho.
3

E tambm por falta de uma idia melhor.

80

Capitu~o 2,

o peso mdio dos seis caroos de feijo roxinho, 0,21943 g, parecido com o peso mdio da amostra de 140 caroos de feijo preto que ns discutimos extensivamente neste captulo (0,2024 g). evidente que no podemos tratar um pacote de feijo preto e um pacote de feijo roxinho como pertencentes mesma populao, mas ser que no poderamos considerar que as duas populaes podem ser descritas pelos mesmos parmetros? Comearemos testando as varincias, lembrando que o desvio padro da amostra de feijo preto era 0,0363 g. A razo entre as varincias amostrais dada por

si
s~

(0,0363)2
(0,005875)2

= 38,18

o valor

do ponto correspondente da distribuio F, com 95% de confiana, F 139,5 :::4,38

(fazendo-se uma pequena aproximao, j que a tabela no tem nenhum dado para 139 graus de liberdade). Como o valor calculado para a razo das varincias muito maior, no podemos supor que as duas populaes tenham a mesma varincia. Isto implica, por sua vez, que no temos o direito de combinar os dois valores das varincias amostrais para obter uma estimativa agregada da mesma forma que vnhamos fazendo e ento partir para a comparao das duas mdias. No existe um teste t exato para este caso, mas podemos usar um procedimento aproximado, que uma modificao do teste que j usamos vrias vezes (veja por exemplo Montgomery e Runger, 1999, Captulo 9). A estimativa necessria para o teste agora dada por

i*
v

--;::::X=A=-=X=B=2 2

_S_A_ + _s_B_

NA

NB

Substituindo os valores, temos

it~4

= --;::==0,=2=19=4=3=-=0=,2=0=2=4==- = 0,01703 = 4 373

,---=-----_......:...--+ - - - 6 140

(0,005875)2

(0,0363)2

0,003894

'

Este resultado deve ser comparado com o valor da distribuio t com o nmero de graus de liberdade total, N A + N B
-

2 , no nvel de confiana desejado. Ele superior at mesmo ao

valor da Tabela A.2 com 99,95% de confiana, t 120 = 3,373 (estamos sendo conservadores em relao ao nmero de graus de liberdade). Concluso: estamos diante de uma forte evidncia de que os pesos mdios dos dois tipos de feijo tambm so diferentes.

81

Quando as

co~sas

funcionam normaimente

~--~--~------~---~-----

2A.4 Produtividade de algas marinhas


Agar-agar, um gel preparado a partir das paredes celulares de vrias algas vermelhas, usado como meio de cultura em laboratrios e tambm como espessante, estabilizante ou adesivo nas indstrias de alimentos, de cosmticos e de frmacos. Geyer et aI (1990) estudaram como o teor de agar-agar extrado da alga Pterocladia capillacea (Rhodophyceae) variava com a localidade onde as amostras eram colhidas, na costa prxima a Arraial do Cabo, no Estado do Rio de Janeiro. A Tabela 2A.5 contm resultados obtidos em dois locais, um com pouca atividade urbana mas com atividade industrial (A), e o outro com muita atividade urbana, mas sem indstrias (B). Ser que essa diferena de ambiente altera o teor de agaragar extrado? Tabela 2A.S - Teor de agar-agar de algas marinhas recolhidas em dois locais diferentes. Local
A

Amostras 10

Teor de agar (%) 39,75 36,40 33,88 27,85 31,42 34,40 36,62 36,50 38,04 23,80 33,866

4,9077

42,37 45,23 34,14 37,00 29,96 31,82 34,58 42,58 42,38

37,784

5,4948

Primeiro vamos ver se podemos combinar as varincias da forma tradicional. Usando os desvios padro da tabela, temos

s~
sA

= (5,4948

12 = 1,254 .

4,9077 )

Como no nvel de 95% de confiana temos F S ,9 = 3,23, conclumos que podemos fazer a estimativa agregada da varincia, que nos dar uma estimativa do desvio padro de 5,1923, com 17 graus de liberdade. Em seguida, usamos a Equao 2.26 para obter um intervalo de confiana para a diferena entre os dois teores mdios de agar-agar:

= (33,866 - 37,784) 2,110x5,1923xO,4595 =-3,918 5,034.


evidente que o intervalo incluir o valor zero, e portanto no temos evidncia, nesse nvel

de confiana, de que a mudana no tipo de atividade - urbana ou industrial - altere o teor de agar-agar das algas colhidas nos dois locais.

82

3
Como variar tudo ao mesmo tempo

Um dos problemas mais comuns, para quem faz experimentos, determinar a influncia de uma ou mais variveis sobre uma outra varivel de interesse. Por exemplo, nosso velho amigo da titulao, ao estudar uma certa reao qumica, pode querer saber como o rendimento seria afetado se ele, digamos, variasse a temperatura ou usasse um catalisador diferente. No linguajar estatstico, dizemos que ele est interessado em descobrir como a

resposta (o rendimento da reao) depende dos fatores temperatura e catalisador. Podemos abordar esse problema como um caso particular da situao mostrada esquematicamente na Figura 3.1. Um certo nmero de fatores, Fl, F2, ..., Fk, atuando sobre o sistema em estudo, produz as respostas Rl, R2, ..., Rj. O sistema atua como uma funo - desconhecida, em princpio, seno no precisaramos de experimentos - que opera sobre as variveis de entrada (os fatores) e produz como sada as respostas observadas. O objetivo da pessoa que realiza os experimentos descobrir essa funo, ou pelo menos obter uma aproximao satisfatria para ela. Com esse conhecimento, ela poder entender melhor a natureza da reao em estudo, e assim escolher as melhores condies de operao do sistema. No planejamento de qualquer experimento, a primeira coisa que devemos fazer decidir quais so os fatores e as respostas de interesse. Os fatores, em geral, so as variveis que o experimentador tem condies de controlar. 1 Podem ser qualitativos, como o tipo de catalisador, ou quantitativos, como a temperatura. s vezes, num determinado experimento, sabemos que existem fatores que podem afetar as respostas, mas que no temos condies de, ou no estamos interessados em, controlar. Um exemplo a procedncia do vinagre, na comparao entre Arrhenius e Berzelius. Precisamos tomar muito cuidado com fatores desse tipo, para que o seu efeito no seja confundido com os efeitos de interesse. Uma das tcnicas que podemos usar para evitar o confundimento a blocagem, como j vimos. Outra muito importante a aleatorizao, sobre a qual falaremos mais tarde.

1 Muitos engenheiros preferem chamar as alteraes nos fatores de "manipulao", em vez de "controle". Controle, para eles, o que voc quer fazer com a varivel dependente (isto , a resposta) quando manipula os fatores. Faz um certo sentido, mas vamos ficar com a nossa terminologia, que a

tradicional na literatura de planejamento de experimentos. 83

Como variar tudo ao mesmo

As respostas so as variveis de sada do sistema, nas quais estamos interessados, e que sero - ou no - afetadas por modificaes provocadas nos fatores (as tais manipulaes). Tambm podem ser qualitativas ou quantitativas. Dependendo do problema, podemos ter vrias respostas de interesse, que talvez precisem ser consideradas simultaneamente.

Figura 3.1 Um sistema pode ser representado por uma funo (em princpio desconhecida) ligando os fatores (variveis de entrada) s respostas (variveis de sada). Tendo identificado todos os fatores e respostas, nosso prximo passo definir, com o mximo de clareza, o objetivo que pretendemos alcanar com os experimentos, para que ento possamos escolher o planejamento mais apropriado. Por exemplo, nosso qumico pode estar s querendo saber se trocar o catalisador por um mais barato no vai diminuir o rendimento da reao. Ou ento, pode querer descobrir que temperatura deve ser usada para se obter o rendimento mximo. Ou ainda, at quando ele pode variar os fatores sem alterar o rendimento ou a qualidade do produto final, e assim por diante. O planejamento dos experimentos, isto , a especificao detalhada de todas as operaes experimentais que devem ser realizadas, vai depender do objetivo particular que ele quiser atingir. Objetivos diferentes precisaro de planejamentos diferentes. Neste captulo estudaremos planejamentos fatoriais de dois nveis, que so muito teis em investigaes preliminares, quando queremos saber se determinados fatores tm ou no influncia sobre a resposta, e no estamos preocupados ainda em descrever muito rigorosamente essa possvel influncia (Box, Hunter e Hunter, 1978, Captulo 10). So planejamentos muito simples de executar, que depois podem ser ampliados para formar um planejamento mais sofisticado, se quisermos conhecer melhor a relao entre a resposta e os fatores importantes.

84

Por outro lado, se estivermos considerando um nmero de fatores relativamente grande, possvel que alguns deles no tenham influncia significativa sobre a resposta. Nesse caso, um planejamento completo seria um desperdcio. O melhor seria fazer primeiro uma triagem, para decidir quais so os fatores que merecem um estudo mais aprofundado. Para isso poderamos usar um planejamento fatorial incompleto, como o fatorial fraeionrio, que discutiremos no prximo captulo.

Exerccio 3.1 Pense num experimento, de preferncia numa rea de seu interesse, cuja resposta seja quantitativa. Que fatores voc gostaria de examinar, para determinar a possvel influncia deles sobre a resposta? Que fatores poderiam atuar como confundidores? Que fatores poderiam contribuir para o rudo - isto, , a flutuao aleatria - nas respostas?

3.1 Um planejamento fatorial 2 2


Para executar um planejamento fatorial, comeamos especificando os nveis em que cada fator deve ser estudado, isto , os valores dos fatores (ou as classes, nos casos qualitativos) que vamos usar para fazer os experimentos. Podemos, por exemplo, querer estudar o efeito do fator temperatura em quatro nveis, 50C, 60C, 70C e 80C, e o efeito do catalisador em trs nveis, os catalisadores A, B e C. Para fazer um planejamento fatorial (OIIlpleto, devemos realizar experimentos em todas as possveis combinaes dos nveis dos fatores. Cada um desses experimentos, em que o sistema submetido a um conjunto de nveis definido (por exemplo: temperatura de 60C e catalisador do tipo A), unI ensaio experimental. Havendo 4 nveis num fator e 3 no outro, como neste exemplo, so neeessrios 4 x 3 = 12 ensaios diferentes, e o planejamento chamado de fatorial 4 x 3. Em geral, se houver nl nveis do fator 1, n2 do fator 2, ... , e nk do fator k, o planejamento ser um fatorial nl x n2 x ... x nk . Isso no significa obrigatoriamente que sero realizados apenas
nl x...

x nk experimentos. Este o nmero mnimo necessrio para um planejamento

fatorial completo. Podemos querer estimar o erro experimental a partir de ensaios repetidos, e nesse caso vamos precisar de mais experimentos. Para estudar o efeito de qualquer fator sobre uma dada resposta, precisamos faz-lo variar de nvel (manipul-lo, no ?), e observar o resultado que essa variao produz sobre a resposta. Como, para isso, precisamos ter o fator em pelo menos dois nveis diferentes, podemos concluir que o planejamento mais simples de todos aquele em que todos os fatores so estudados em apenas dois nveis.

85

Como vadartuo ao mesmo

Para k fatores, isto , k variveis controladas pelo experimentador, um planejamento completo de dois nveis exige a realizao de 2 x 2 x ... x 2 = 2k ensaios diferentes, sendo chamado por isso de planejamento fatorial 2 k . Nesta seo vamos examinar os efeitos do aumento da temperatura e da mudana de catalisador sobre o rendimento de uma reao, para mostrar como fazer um planejamento fatorial 2 2 e como analisar os resultados obtidos. Com esse exemplo discutiremos uma srie de conceitos fundamentais, que depois poderemos aplicar a planejamentos envolvendo um nmero qualquer de fatores. Comeamos escolhendo os nveis: 40C e 60C para a temperatura, e A e B para o catalisador. Como este apenas um exemplo para fins didticos, o sistema fictcio, e a escolha dos nveis arbitrria. Na vida real, teramos de nos apoiar no conhecimento disponvel sobre o nosso sistema e pensar bem antes de determinar quais so os nveis que devemos escolher. Para fazer o planejamento 22 , devemos realizar ensaios e registrar as respostas observadas (os rendimentos, neste caso) em todas as quatro possveis combinaes dos nveis escolhidos: (40C, A), (40C, B), (60C, A) e (60C, B). A lista dessas combinaes, que chamada de matriz de planejamento, apresentada na Tabela 3.1, juntamente com os rendimentos obtidos nos experimentos. Note que todos os ensaios foram feitos em duplicata, produzindo oito respostas no total. Graas a isto, poderemos estimar o erro experimental de uma resposta individual. A extenso desse erro importante para decidirmos se existem ou no efeitos significativos que possamos atribuir ao dos fatores.

Tabela 3.1 Resultados de um planejamento fatorial 2 2 para estudar o efeito da temperatura


e do catalisador sobre o rendimento de uma reao. Ensaio 1 2 3
4

Temperatura CC) 40 60 40 60

Catalisador
A A
B

Rendimento (%) 57 92 55 66 61 88 53 70

Mdia 59 90 54 68

Exerccio 3.2 Alm da temperatura e do catalisador, nos nveis que acabamos de citar, nosso qumico deseja estudar ao mesmo tempo, por meio de um planejamento fatorial, o efeito de trs valores da presso: 1, 5 e 10 atm. Quantos ensaios ele ter de realizar, no total?

86

3.1(a) Clculo dos efeitos


De acordo com a Tabela 3.1, quando usamos o catalisador A e elevamos a temperatura de 40C para 60C (ensaios 1 e 2), o rendimento mdio passa de 59% para 90%. Ocorre portanto um aumento de 90 - 59 = 31%. Quando o catalisador do tipo B (ensaios 3 e 4), o rendimento sobe apenas 68 - 54

= 14%. Isso mostra que o efeito da temperatura, ou seja, o que acontece com o

rendimento da reao quando elevamos a temperatura de 40C para 60C, depende do nvel em que o catalisador est. O efeito do catalisador, por sua vez, tambm depende do nvel da temperatura. A 40C (ensaios 1 e 3) a mudana de catalisador diminui o rendimento mdio em 5%. A 60C (ensaios 2 e 4), a reduo passa a ser de 22%. Quando o efeito de uma varivel depende do nvel de outra, como neste caso, dizemos que as duas variveis interagem, e podemos calcular o valor do efeito de interao entre elas, como vremos em breve.

O efeito principal da temperatura por definio a mdia dos efeitos da temperatura


nos dois nveis do catalisador. Usando a letra T para representar esse efeito, e sendo resposta mdia observada no i-simo ensaio, podemos escrever

Yi

a-

T = (Y2 - Yl) + (Y4 - Y3)


2

(3.1)

(90-59) = -:.....-_ _ + (68-54) 2


=-~-~-.;...

...:..-----:.-_-~

(31) + (14)
2

= 22,5 %.

Este valor indica que o rendimento da reao sobe 22,5% , em mdia, quando a temperatura passa de seu nvel inferior (40C) para o seu nvel superior (60C). Esta concluso, porm, est incompleta. Como acabamos de ver, a temperatura e o catalisador interagem, e no devemos falar do efeito da temperatura sem dizer algo sobre o tipo de catalisador. Precisamos, na verdade, interpretar os efeitos dos dois fatores conjuntamente, para no deixar dvidas sobre a interao que existe entre eles. Voltaremos a este ponto na Seo 3.1(d). Nos planejamentos de dois nveis costuma-se identificar os nveis superior e inferior com os sinais (+) e (-), respectivamente. Usando essa notao, vemos que os ensaios 2 e 4 na Tabela 3.1 correspondem ao nvel (+) da temperatura, enquanto os ensaios 1 e 3 correspondem ao nvel (-). A atribuio desses sinais tambm pode ser feita para os nveis dos fatores qualitativos. Em nosso exemplo vamos admitir que o nvel (+) corresponde ao catalisador B. A escolha arbitrria, e no afeta nossas concluses.

87

Como variar tudo ao rnesmo

A Equao 3.1 pode ser reescrita como a diferena entre duas mdias: (3.1a)

Como

Y2

Y4

pertencem ao nvel (+) e

Yl

Y3

pertencem ao nvel (-) do fator temperatu-

ra, vemos que o efeito principal T a diferena entre a resposta mdia no nvel superior e a resposta mdia no nvel inferior desse fator:

[
i i
1 1

!
T

=y+ -y_

L~~_~_.............J

i' I

! i

(3.2)

Esta expresso vale para qualquer efeito principal num planejamento fatorial completo de dois nveis e pode ser considerada como uma definio alternativa de efeito principal. Para o catalisador, na nossa escolha de sinais, o nvel superior corresponde aos ensaios 3 e 4 e o inferior aos ensaios 1 e 2. O efeito principal do catalisador ser portanto, de acordo com a Equao 3.2, (3.3)

= -13,5 %.

Note que o efeito negativo. Quando trocamos o catalisador A pelo catalisador B o rendimento cai 13,5% em mdia. Se na escolha de sinais tivssemos invertido as posies e colocado o catalisador A, ao invs do B, no nvel superior, o efeito calculado teria sido C = +13,5%. Na prtica, a concluso seria a mesma: h uma diferena entre os rendimentos obtidos com os dois catalisadores, e os resultados do catalisador B so, em mdia, 13,5% mais baixos. Se no houvesse interao, o efeito da temperatura deveria ser o mesmo com qualquer catalisador. J sabemos, porm, que a situao no esta. O efeito da temperatura +31 % com o catalisador do tipo A, mas cai para +14 % quando usamos o tipo B. Como na ausncia de interao esses dois valores deveriam ser idnticos (a menos do erro experimental), podemos tomar a diferena entre eles como uma medida da interao entre os fatores T e C. Na verdade, por uma questo de consistncia com a definio dos outros efeitos (como veremos em breve), a metade da diferena que , por definio, o efeito de intera~o entre os dois fatores. Usando TxC, ou simplesmente Te, para representar esse efeito, podemos escrever

88

TxC

= Te =

14-31 =- 8,5 %. 2

Note que fazemos a diferena subtraindo o valor do efeito T correspondente ao nvel inferior do catalisador (que o tipo A, pela nossa conveno de sinais) do valor correspondente ao nvel superior (tipo B), numa ordem anloga da Equao 3.2. Identificando as respostas de acordo com os ensaios em que foram obtidas, podemos escrever (3.4)

As Equaes 3.1, 3.3 e 3.4 mostram que para calcular qualquer efeito usamos todas as respostas observadas. Cada efeito a diferena de duas mdias. Metade das observaes contribui para uma das mdias, e a metade restante aparece na outra mdia. Esta uma importante caracterstica dos planejamentos fatoriais de dois nveis. As respostas obtidas nunca ficam ciosas.

Exerccio 3.3 Calculamos uma medida da interao entre os fatores T e C a partir da diferena dos efeitos da temperatura. Algum poderia perguntar porque no fizemos, em vez disso, a diferena entre os efeitos do catalisador nos dois nveis da temperatura. Mostre, algebricamente, que as duas medidas so idnticas. Lembre-se de que, pela conveno de sinais que adotamos, a conta que voc deve fazer [(Efeito do catalisador a 60C) - (Efeito do catalisador a 40C)], e no o contrrio.

3.1(b) Interpretao geomtrica dos efeitos


Podemos dar uma interpretao geomtrica aos efeitos que acabamos de calcular. Para isto, representamos o planejamento experimental num sistema cartesiano, com um eixo para cada fator. Como temos apenas dois fatores, o espao definido por eles um plano. Escolhendo apropriadamente as escalas dos eixos, podemos colocar os quatro ensaios nos vrtices de um quadrado (Figura 3.2). Atribuindo sinais algbricos aos ensaios de acordo com as Equaes 3.1a, 3.3 e 3.4, vemos que os efeitos principais so oontrastes - isto , diferenas mdias - entre valores situados em arestas opostas e perpendiculares ao eixo do fator correspondente, como mostram as Figuras 3.2(a) e 3.2(b). O efeito de interao [Figura 3.2(c)], por sua vez, o contraste entre as duas diagonais, considerando-se positiva a diagonal que liga o ensaio (- -) ao ensaio (++). Foi por isso que
divi~imos

por 2, quando

89

Como variar tudo ao mesmo

calculamos o efeito TC. Assim ele tambm pode ser interpretado geometricamente como uma diferena mdia.

(-)

(+)

Temperatura
(a)

"'O

o
as

ro

.~

10
(-)

(-)

Temperatura
(b)

(+)
"O

(ij

co .5a

CU
(-)

(-)

(+)

Temperatura
(c)

Figura 3.2 Interpretao geomtrica dos efeitos num planejamento 2 2 Os efeitos principais so contrastes entre arestas opostas [(a) e (b)]. O efeito de interao o contraste entre as duas diagonais [(c)].

90

3.1(c) Estimativa do erro experimental


Os ensaios da Tabela 3.1 foram realizados em duplicata, para que pudssemos ter uma maneira de estimar o erro experimental, e a partir da avaliar a significncia estatstica dos efeitos. Para isso, preciso que a duplicao seja uma
repeti~o autntim,

isto , a reali-

zao, pela segunda vez, de todas as etapas do ensaio, desde, digamos, a limpeza da vidraria at a separao e a anlise do produto final. Este ponto extremamente importante. Se ns fizermos as repeties de forma imprpria, sem incluir a variabilidade total do processo, os erros vo parecer menores do que na realidade so, e talvez sejamos levados a enxergar efeitos significativos onde eles na verdade no existem. Para evitar a ocorrncia de distoro estatstica nos resultados, isto , para impedir que desvios atpicos sejam obrigatoriamente associados a determinadas combinaes de nveis, devemos realizar os ensaios em ordem aleatria. Suponhamos, por exemplo, que a reao da Tabela 3.1 possa ser influenciada pela luz, e que tenhamos de realizar parte dos experimentos durante o dia, e parte noite. Se escolhermos usar somente o catalisador A durante o dia e o catalisador B noite, estaremos confundindo o efeito do catalisador com um possvel efeito devido mudana de luminosidade. Para evitar esse problema, devemos sortear a ordem de realizao dos ensaios, isto , fazer a
aleatoriza~ de

que falamos no incio do captulo.

A aleatorizao outro princpio experimental extremamente importante, que nos ajuda a impedir que fatores indesejveis, dos quais no estamos cientes, contaminem os efeitos que queremos investigar. Se ns sorteamos a ordem de realizao dos ensaios, a probabilidade de um desses fatores afetar uma resposta a mesma para todas as respostas, e assim sua atuao ficar diluda. A numerao dos ensaios, como na Tabela 3.1, apenas uma forma conveniente de identificar as vrias combinaes de nveis, e nada tem a ver com a ordem em que os experimentos so efetivamente realizados. Esta, como acabamos de ver, deve ser aleatria.

importante distinguir a aleatorizao da blomgem, sobre a qual falaremos mais


no final do captulo. Na aleatorizao estamos nos precavendo contra fatores que talvez possam influenciar o resultado, mas dos quais no temos conhecimento. Na blocagem, sabemos desde o incio que os fatores podem influenciar o rendimento, s que no estamos interessados no efeito deles, e levamos isto em conta na hora de definir o planejamento, de forma a evitar ou minimizar confundimentos. Assim, por exemplo, se j sabemos que a luminosidade pode afetar o rendimento da reao, devemos inclu-la como um dos fatores, junto com os outros usados para definir o planejamento. Se, por algum motivo, esse efeito no for do nosso interesse, devemos tentar descont-lo fazendo uma blocagem.

91

Como variar tudo ao rnesmo

Outro ponto importante que a realizao das repeties deve refletir a variabilidade do processo em toda a faixa de estudo, e no apenas numa determinada combinao de nveis. Se no tivermos condies de repetir todos os ensaios, devemos escolher, para as repeties, ensaios que cubram a maior parte da faixa experimental estudada. Essa precauo pode parecer tola quando se tem apenas quatro ensaios, mas se torna muito importante quando o nmero de fatores aumenta. A partir das repeties feitas numa dada combinao de nveis podemos obter uma estimativa do erro experimental nessa combinao. Por exemplo, os rendimentos observados no ensaio n 1 foram 57% e 61%. Como so repeties autnticas e realizadas em ordem aleatria, podemos tomar a varincia desse par de valores, que 8, como uma estimativa da varincia tpica do nosso procedimento experimental. A rigor, uma estimativa referente combinao de nveis em que os dois resultados foram obtidos - temperatura de 40C e catalisador A. Porm, se admitirmos que a varincia das repeties a mesma em toda a regio investigada, podemos combinar as informaes de todos os ensaios e obter uma estimativa com mais graus de liberdade. Na prtica, esta suposio costuma funcionar muito bem. De qualquer forma, havendo necessidade, sempre podemos usar um teste F para confirmar a sua validade. Cada um dos ensaios foi realizado apenas duas vezes, e por isso fornece uma estimativa da varincia com apenas um grau de liberdade. Para obter uma estimativa conjunta, com 4 graus de liberdade, ampliamos a Equao 2.27 e calculamos a mdia de todas as estimativas, ponderadas pelos respectivos graus de liberdade. Incluindo as varincias observadas nos outros trs ensaios (8,2 e 8, respectivamente), temos
82

= (lx8)+(lx8)+(1x2)+(lx8) = 8+8+2+8 = 6,5.


1+1+1+1

Tirando a raiz quadrada desse valor, obtemos uma estimativa, com quatro graus de liberdade, do desvio padro associado a uma observao, isto , do erro experimental caracterstico - o chamado
eITO

padro - das nossas respostas:

s=~6,5 =2,55%.
Quando o nmero de repeties o mesmo em todos os ensaios, a estimativa da varincia experimental simplesmente a mdia aritmtica das varincias observadas nos ensaios individuais, como neste exemplo. No caso geral, se cada ensaio for repetido
ni

vezes e houver

m ensaios diferentes, a estimativa conjunta da varincia experimental ser dada por

92

S2

222 VISI + V2 S 2 + + VmS m VI +V2

(3.5)

+Vm

onde Vi ensaio.

= ni -

1 o nmero de graus de liberdade de sf , a estimativa da varincia do i-simo

Cada um dos efeitos calculados nas Equaes 3.1-3.4 uma combinao linear de quatro valores Yi' com coeficientes ai iguais a +1/2 ou -1/2. Por causa da autenticidade das repeties e da ordem aleatria de realizao dos ensaios, esses valores devem ser estatisticamente independentes. Admitindo tambm que eles tm a mesma varincia populacional

G' , podemos aplicar a Equao 2.15, com af


V( efelto} = (1 A

= 1/4, para calcular a varincia de um efeito:

1 +1 +1) (J2 = G'2 +4 4 4


Y Y

Lembrando ainda que cada valor Yi neste exemplo na verdade a mdia de duas observaes independentes, podemos aplicar novamente a Equao 2.15 e escrever onde
(J2 (J = (J2 /

2, no

a varincia de uma observao individual. Usando nossa estimativa


(J2 ,

S2

= 6,5

lugar de

obtemos finalmente uma estimativa, com 4 graus de liberdade, do

eITO

padro

de um efeito no nosso experimento:

s( efeito) ==

~ == 1,80% V"""2

Uma outra forma de obter o erro padro de um efeito utilizar a Equao 3.2. Como um efeito um contraste entre duas mdias, isto ,
efeito = Y+

- y- ,

podemos escrever

porque neste caso temos quatro respostas com sinal positivo e as outras quatro com sinal negativo. Fazendo-se a mudana apropriada nos denominadores, uma expresso semelhante se aplica a um fatorial de dois nveis qualquer, porque nesses planejamentos um efeito ser sempre um contraste entre duas mdias, com metade das respostas em cada mdia.

93

Como variar tudo ao rnesmo

Com o erro padro podemos construir intervalos de confiana para os valores dos efeitos, usando a distribuio de Student:
f

!
.~

ij - t y x s( efeito) < 11 < ij + t y x s( efeito)


L

I
1

i.

(3.6)

Nesta equao, para no confundir com a notao j empregada para mdias, usamos a letra grega 11 para representar o verdadeiro valor de um efeito, isto , o valor populacional, e o acento circunflexo para indicar a estimativa desse valor obtida a partir dos ensaios realizados no experimento. Na prtica, a equao implica que s devemos considerar estatisticamente significativos os efeitos cujas estimativas (obtidas no experimento) forem superiores em valor absoluto ao produto do erro padro pelo ponto da distribuio de Student, porque s assim o intervalo de confiana no incluir o valor zero.
Exerccio 3.4

Mostre que para um par de valores numricos

s2

=d 2 /2, onde d a diferena entre os dois valo-

res. Use este resultado e mostre que em um conjunto de N ensaios duplicados (isto , cada ensaio repetido uma s vez, como na Tabela 3.1) a estimativa conjunta da varincia experimental

3.1(d) Interpretao dos resultados


A Tabela 3.2 contm os resultados da nossa anlise dos dados da Tabela 3.1, e inclui o rendimento mdio global, que tambm uma combinao linear de todas as observaes.

Tabela 3.2 Efeitos calculados para o planejamento fatorial 2 2 da Tabela 3.1. Note que o erro padro da mdia global a metade do erro padro dos efeitos.
Mdia global: Efeitos principais: 67,75 0,9

22,5

1,8

c
Efeito de interao:

-13,5 1,8

Te

- 8,5 1,8

94

Inicialmente, precisamos decidir quais, dos efeitos calculados, so significativamente diferentes de zero, e portanto merecedores de interpretao. De acordo com a Equao 3.6, s consideraremos estatisticamente significativo, com 95% de confiana, um efeito cujo valor absoluto for superior a t 4 x s(efeito)

=2,776

x1,8% = 5,0%. Aplicando esse critrio aos

valores da Tabela 3.2, vemos que todos eles so significativos, ou seja, os efeitos existem msmo. Podemos, portanto, tentar entender o que eles significam na prtica. Como o efeito de interao significativo, os efeitos principais devem ser interpretados conjuntamente. A melhor forma de fazer isso traar um diagrama contendo as respostas mdias em todas as combinaes de nveis das variveis, como na Figura 3.3. Examinando o diagrama, podemos concluir que: 1. Elevando a temperatura aumentamos o rendimento da reao, mas esse efeito muito mais pronunciado com o catalisador A do que com o catalisador B (+31% contra +14%). 2. Trocando o catalisador A pelo catalisador B diminumos o rendimento da reao, e esse efeito muito mais significativo a 60C do que a 40C ( -22% contra -5%). 3. Os maiores rendimentos (90%, em mdia) so obtidos com o catalisador A e com a temperatura em 60C.

+14

co .!

"C

... o

"ii

... co

40
Tem peratura

60

Figura 3.3 Diagrama para interpretao dos resultados do planejamento fato-

rial 22 . Os valores nos vrtices do quadrado so as respostas mdias (rendimentos percentuais).

Exerccio 3.5

De acordo com a Tabela 3.2, o erro padro da mdia a metade do erro padro dos efeitos. Use a Equao 2.15 para mostrar que isto verdade.

95

Como variar tudo zo mesmo

Exerccio 3.6 As observaes abaixo foram feitas em repeties autnticas dos diferentes ensaios. Faa uma estimativa conjunta do erro experimental associado a essas observaes. Quantos graus de liberdade tem a estimativa? Ensaio 1 2 3 4 5 53 10 20 40 8 31 49 45 Observaes 25 37 12 7 23 Mdia 22,7 38,5 9,3 31 49,0 16,00 Varincia 6,33 4,50 4,92

3.1(e) Um algoritmo para o clculo dos efeitos


Neste exemplo muito simples, calculamos os efeitos a partir de suas definies. Esse procedimento, porm, se torna mais trabalhoso e passvel de erro (humano) medida que o numero de fatores aumenta. Apresentaremos nesta seo um procedimento alternativo, que nos permitir calcular qualquer efeito sem dificuldade, no importa o tamanho do planejamento. Comeamos reescrevendo a matriz de planejamento da Tabela 3.1, substituindo os elementos pelos sinais algbricos que identificam o nvel como superior ou inferior. Assim, 40 e A sero substitudos pelo sinal menos, e 60 e B pelo sinal mais:

T
40 60 40 60

C A A

T
+ +

B B

+ +

Agora acrescentamos a essa matriz uma coluna de sinais positivos - a primeira - e uma outra cujos sinais so os produtos, elemento a elemento, dos sinais das colunas T e C. Isso nos d uma matriz 4 x 4, que chamaremos de tabela de ooefici.entes de <Dltraste:

M
+

e Te
+

+ + +

+
+

+ +

96

Para calcular os efeitos, escolhemos a coluna apropriada, aplicamos seus sinais s respostas correspondentes, fazemos a soma algbrica e finalmente dividimos o resultado por dois. A primeira coluna, que s contm sinais positivos, serve para calcular a mdia de todos os ensaios, e nesse caso obviamente o divisor tem de ser quatro. Para o efeito do catalisador, por exemplo, precisamos da terceira coluna:

+
Aplicando esses sinais coluna das respostas,
Yl Y2 Y3
Y4

59

90
54 68

e fazendo o resto das operaes, podemos escrever:

c = -Yl - Y2 + Y3 + Y4
2

=-------2
=-13,50%.
Deixamos para voc a confirmao de que as outras colunas tambm produzem os resultados corretos. Incluindo a unidade na tabela de coeficientes de contraste, isto , fazendo

-59 - 90 + 54 + 68

+ + + +
+ +

1
1

-1

-1
-1

+1
-1

+1
-1

(3.7)
+
+ +
1
1

+1 +1

-1 +1

+1

podemos calcular todos os efeitos com uma nica equao matricial. Cada efeito ser dado, a menos de um divisor, pelo produto escalar do seu vetor na matriz de coeficientes de con-

97

Como variar tudo ao mesmo

traste pelo vetor das respostas. Assim, por exemplo, o efeito do catalisador, que acabamos de calcular, dado por

59 C=

! [-1 -1 + 1 + 1]
2

90 54 68

=-13,50% .

Tradicionalmente, vetores e matrizes so representados em negrito. Fazendo

-1 -1
Xc =

+1 +1

59 90 y= 54 68

podemos determinar o efeito do catalisador com a equao

(3.8)
onde x~ o vetor linha que obtemos transpondo o vetor coluna Xc . Com esta formulao concisa (que pode ser estendida a qualquer planejamento fatorial de dois nveis) e a ajuda de um programa computacional de lgebra linear, calcular os efeitos torna-se muito fcil. No caso geral de um planejamento de dois nveis com k fatores, onde devemos realizar um total de 2 k ensaios, o divisor ser 2 k - 1 para os efeitos e, claro, 2 k para a mdia. Se X a matriz completa de coeficientes de contraste, os efeitos sero, a menos dos divisores, os elementos do produto Xty, que um vetor coluna. No nosso fatorial 2 2 temos

+1 -1 Xty= -1 +1

+1 +1 -1 -1

+1 +1 -1 +1 +1 +1 -1 +1

59 90 54 68

271 45 -27 -17

Dividindo o primeiro elemento por 4 e os demais por 2, obtemos finalmente

M T

e
Te

67,75 22,5 -13,5 -8,5

importante observar que as linhas e as colunas da matriz X so ortogonais, isto , o produto escalar de duas linhas ou duas colunas quaisquer zero. Consequentemente,

98

quando fazemos o produto Xty e aplicamos os divisores apropriados, obtemos, a partir dos quatro valores independentes que so os elementos de y, quatro novos valores tambm independentes - a mdia global, os dois efeitos principais e o efeito de interao.
importante notar, desde j, que estamos usando uma matriz X 4x4 porque estamos

baseando nossos clculos nas quatro respostas mdias, e no nos oito valores individuais. Se preferssemos, poderamos fazer o clculo usando diretamente as oito respostas. Nesse caso a matriz X teria dimenses 8x4, e o divisor seria 4, ao invs de 2. O efeito C, por exemplo, seria calculado assim:

57
92

55
66 1 C=-[-1-1 +1 +1-1-1+1+1] 61 4 88 53 70

= -13,50%

Exerccio 3.7 Os dados abaixo foram obtidos num estudo da influncia de dois fatores no tempo de pega inicial do gesso, isto , o tempo em que o gesso comea a endurecer,depois que o p misturado com a gua (M. F. Pimentel e B. B. Neto, Anais do XXXI Congresso Brasileiro de Qumica, Recife, 1991). Os ensaios foram realizados em duplicata e em ordem aleatria. Determine todos os efeitos e seus erros padro. Interprete seus resultados. Fator 1: Granulometria: 100-150 mesh (-), 150-200 mesh (+) Fator 2: gua residual: 6,6% (-),7,5% (+) Resposta: Tempo de pega inicial (min) Fator 1 1 2 3 4
+ + + +

Fator 2

Resposta 12,33 10,52 10,33 9,00 13,00 10,57 9,75 8,92

x 1

s~ 1

12,67 10,55 10,04 8,96

0,224 0,0013 0,168 0,0032

99

Como variar tudo ao mesmo

3.1(f) O modelo estatstico


No algoritmo usado para calcular os efeitos, os verdadeiros valores dos nveis dos fatores foram substitudos por +1 ou -1. Isto corresponde a uma oodifimo das variveis originais, semelhante que fizemos no captulo anterior, quando padronizamos uma varivel aleatria. Para transformar os valores 40C e 60C, por exemplo, em -1 e +1, basta subtrair de cada um deles o valor mdio, 50C, e dividir o resultado pela metade da amplitude da variao, que a diferena entre o valor superior e o valor inferior: 40 - 50 = -10 = -1 60 - 40 10
2

60 - 50 60 - 40
2

= 10 = +1
10

Isto significa, obviamente, colocar a origem do eixo das temperaturas no valor intermedirio, 50C, e definir uma nova escala, em que cada unidade corresponde a 10oe. Da mesma forma, a codificao far com que a origem do eixo dos catalisadores fique centrada entre os catalisadores A e B, numa espcie de "nvel zero" sem qualquer significado fsico mas que, do ponto de vista algbrico, pode ser tratado do mesmo modo que a origem das temperaturas. A transformao est ilustrada na Figura 3.4, onde as variveis temperatura e catalisador passam a ser chamadas, depois de codificadas, de
Xl

e x2' respectivamente. A resposta

(hipottica) correspondente origem do novo sistema de eixos, no centro geomtrico do planejamento, , por simetria, a mdia de todas as respostas observadas, 67,75%.

E
"O

B O' a..

o
co

~---~
--------------4----87 75
i '
!

0--~~
----+------1

-1

67,75

! ....-+----.
+1

co

(ij

.~

-l-
40 60
Temperatura (OC)

0-:;---0

Figura 3.4 Codificao das variveis no planejamento 2 2 A origem do novo sistema est

localizada na mdia de todas as respostas. A unidade em cada eixo a metade da amplitude de variao do fator correspondente. 100

Com a codificao, cada efeito passa a corresponder sempre variao de duas unidades do fator correspondente, j que o nvel do fator varia de -1 para +1. Por unidade de
Xl e X2, consequentemente, os efeitos so a metade dos valores que calculamos com as

Equaes 3.1-3.4. Dizer que o efeito da temperatura de 22,50% quando T passa de 40C para 60C o mesmo que dizer que esse efeito de 11,25% por unidade de Xl. Dividindo por dois os trs efeitos calculados nas Equaes 3.1-3.4, obtemos os novos valores 11,25% (temperatura) -6,75% (catalisador) e -4,25% (interao).

o modelo estatstico usado para descrever as respostas de um planejamento fatorial


formulado em termos dos efeitos por unidade de variao dos fatores. Para um planejamento 22 , a resposta observada no nvel (xl' x2) considerada como uma varivel aleatria
Y(X1,X2). Essa varivel se distribui em torno de uma certa mdia populacional 11(x1,x2),

com uma certa varincia populacional

(j 2 (

xl' X 2) . Podemos escrever portanto

(3.9) onde e( Xl' X 2) representa o erro aleatrio com que as respostas flutuam em torno da mdia populacional definida pelos valores de
X1

X2 .

Quando fizemos em duplicata o ensaio n 1, obtivemos as respostas 57% e 61%. Podemos imaginar esse par de valores como uma amostra - de dois elementos - da populao de todos os possveis rendimentos observveis com (Xl' X2 ) = (-1,-1). A mdia populacional dos rendimentos nessa combinao de nveis um certo valor Til

= 11(-1,-1), que no podemos co-

nhecer com perfeita exatido, mas para o qual as duas observaes fornecem a estimativa
)/1 = (57 + 61) + 2 = 59 %. A varincia com que os rendimentos se distribuem em torno de

11(-1,+1) tambm desconhecida, mas pode ser estimada a partir dos ensaios repetidos. Com os valores 57 e 61 observados para o ensaio n 1, por exemplo, obtivemos a estimativa

si = 8 .

modelo estatstico especifica ainda que os erros aleatrios e( Xl' X2) so distri-

budos independentemente, com mdia zero e com a mesma varincia em todas as combinaes de nveis. Isso, alis, foi o que admitimos quando combinamos todas as nossas observaes para obter uma estimativa conjunta da varincia. Caso seja necessrio fazer algum teste do tipo t ou F, seremos obrigados a supor tambm que os erros seguem uma distribuio normal (Seo 2.6). Num planejamento 22, nosso modelo postula que a mdia populacional 11( xl' X 2) representada adequadamente pela expresso

101

Como variar tudo ao mesmo

onde f30 o valor populacional da mdia de todas as respostas do planejamento, e

f31'

f32 e

f312

so os valores populacionais dos dois efeitos principais e do efeito de interao, por uni-

dade de Xl e X2. Substituindo essa expresso na Equao 3.9, vemos que uma observao individual feita num ensaio pode ser representada por (3.10) onde e(xI,x2) o erro aleatrio associado resposta Y(XI,x2). Esta uma descrio que vale para os vrtices do planejamento. Do ponto de vista estritamente matemtico, no devemos interpret-la como uma equao que possa ser extrapolada ou mesmo interpolada, porque os valores das variveis codificadas, xl e x2' esto restritos, pela prpria definio, a +1 ou -1. Em muitas aplicaes, no entanto, vamos deixar de lado o rigor matemtico, seno nossos modelos no teriam muita utilidade prtica. Para determinar exatamente os valores dos

f31 s , precisaramos realizar um nmero

infinito de experimentos, j que so valores populacionais. Obviamente o que calculamos a partir dos resultados dos nossos oito experimentos so apenas estimativas desses valores. Usamos portanto o alfabeto latino e escrevemos (3.11) com o acento circunflexo lembrando que no se trata de um valor populacional, e sim de uma estimativa. Os coeficientes b o , bl populacionais
,

b 2 e bl2 so chamados de estimadores dos parmetros

f3o, f31, f32 e f312

A Equao 3.11 tambm pode ser escrita como um produto escalar:

bo
y( X b
X 2)

= [1

Xl

X2

XIX2]

b2

~2

Para o ensaio n 1, por exemplo, teremos 67,75 11,25 =59%, 1] -6,75 -4,25

y(-l,-l)= [1 -1 -1

102

que a estimativa dada pelo nosso modelo para o rendimento populacional do ensaio n 1. Ela , como vemos, a mdia dos dois valores observados nesse ensaio: (57 + 61)+ 2 = 59 %. Os elementos do vetor linha so exatamente os correspondentes ao ensaio n 1, na matriz de coeficientes de contraste (Equao 3.7). Voc pode verificar facilmente que um clculo semelhante, usando outras linhas da matriz, pode ser feito para os demais ensaios. Lembrando que usamos o smbolo X para representar a matriz completa, e empregando b para representar o vetor coluna dos quatro coeficientes da Equao 3.11, podemos escrever a seguinte equao matricial para o clculo de todas as estimativas:

y=Xb

(3.12)

onde

o vetor coluna contendo as estimativas Y1, ... ,5'4 dadas pelo nosso modelo para os

rendimentos dos quatro ensaios. Como essas estimativas so as prprias mdias observadas, o vetor

idntico ao vetor y da Equao 3.8.

Usando as matrizes X e b apropriadas, podemos aplicar a Equao 3.12 a qualquer planejamento fatorial de dois nveis, mas a sua utilidade muito mais ampla. Veremos no Captulo 5 que podemos aplic-la a qualquer modelo cujos parmetros (isto , os am apenas como coeficientes. Isso inclui um nmero enorme de modelos. Nossa estimativa do rendimento do ensaio n 1

f3' s ) apare-

5'1

= 59%, enquanto os valores real-

mente observados nos experimentos individuais foram Y1 = 57% e Y~ = 61%. A previso feita pelo modelo para o ensaio n 1 deixa portanto os dois resduos Y1 - Y1
Y~ -

= 57 -

59

= -2%

Y = 61-59 = 2%.
Essas diferenas entre os valores observados e os valores previstos aparecem sempre

que empregamos um modelo com um nmero de parmetros inferior ao nmero total de observaes. No nosso caso, conforme mostra a Equao 3.11, a estimativa de uma observao (a rigor, a estimativa do valor mdio de um ensaio) uma funo de duas variveis independentes,
Xl

x2'

com quatro coeficientes a serem determinados (b o , b1 , b2 e b12 ), que esti-

mam os quatro parmetros do modelo. Os resduos aparecem porque esse modelo ajustado a oito observaes. Se houvesse apenas quatro observaes, o ajuste teria sido perfeito e os resduos seriam todos nulos.
importante observar, desde j, que os resduos no so independentes, porque as

equaes usadas para calcular as estimativas dos parmetros eliminam quatro graus de li-

103

Como variar tudo ao mesmo

berdade das observaes originais. Isso deixa apenas quatro graus de liberdade para o comjunto de oito resduos. Analisar os resduos fundamental para podermos avaliar o grau de ajuste de um modelo s observaes. Um resduo individual anormalmente alto, por exemplo, pode significar a presena de uma observao anmala, talvez causada por um erro grosseiro, e pode lvar concluso de que devemos repetir o ensaio correspondente. Num modelo bem ajustado, o comportamento dos resduos no deve ser incompatvel com o que esperaramos dos erros aleatrios e(xl,x2) que inclumos na Equao 3.10. Uma anlise dos resduos, porm, s tem sentido quando o nmero de graus de liberdade do conjunto de resduos relativamente alto. Voltaremos ao assunto no Captulo 5, quando discutirmos o ajuste de modelos pelo metodo dos mnimos quadrados.

Exerccio 3.8

Se incluirmos os divisores, a matriz para o clculo dos efeitos fica sendo

+1/4 -1/2 A= -1/2 +1/2

+1/4 +1/2 -1/2 -1/2

+1/4 -1/2 +1/2 -1/2

+1/4 +1/2 +1/2 +1/2

de modo que

+ 1/4 + 1/4 + 1/4 +) / 4 59 -) /2 + 1/2 + 1/2 90 x Ay = -1/2 + 1/2 + 1/2 54


-1/2 -) /2
+) / 2 -1/2 -1/2 + 1/2

67,75 22,5 -13,5 -8,5

=e,

68

onde e o vetor coluna contendo a mdia global e os efeitos originais, antes de serem divididos por dois. Multiplicando esse vetor esquerda pela inversa de A, obtemos de volta as observaes originais, isto , o vetor y:
A-Ie = A-IAy = 14Y = Y

onde 14 a matriz identidade de dimenso 4. Determine A-I (lembre-se de que as linhas da matriz de coeficientes de contraste so ortogonais e use o bom senso; no necessrio nenhum clculo complicado) e confirme que o produto A-I e idntico ao produto Xb da Equao 3.12. Para entender porque isso ocorre, compare as matrizes A-I e X e os vetores
be e.

104

3.2 Um planejamento fatorial 23


Vamos acrescentar agora, temperatura e ao catalisador, um terceiro fator. Digamos que seja a concentrao de um reagente, que desejamos estudar nos nveis 1,0 M (-) e 1,5 M
(+). O planejamento fatorial completo passa a ter, portanto, 2 3 = 8 ensaios. Os rendi-

mentos observados nesses ensaios, realizados em ordem aleatria e em duplicata, esto na Tabela 3.3. Os ensaios esto dispostos na tabela na chamada ordem padro. Todas as colunas comeam com o nvel (-) e depois os sinais vo-se alternando. Um a um na primeira coluna,
- + - + ..., depois dois a dois, - - + + ..., e finalmente quatro sinais negativos e quatro po-

sitivos, na terceira coluna. Se houvesse um quarto fator, a coluna correspondente a ele teria oito sinais menos e em seguida oito sinais mais (o nmero total de ensaios seria dezesseis). Para um planejamento com k fatores, a ltima coluna teria 2k - 1 sinais negativos e depois 2 k - 1 sinais positivos. Lembrando disso, podemos escrever facilmente a matriz de planejamento de qualquer fatorial de dois nveis.

Tabela 3.3 Resultados de um planejamento fatorial 2 3 . O nmero entre parnteses depois do rendimento a ordem de realizao do ensaio.

Fatores 1: 2: 3: Temperatura (OC) Catalisador (tipo) Concentrao (M)

(-)
40

(+)

60

B
1,5

1,0

Ensaio
1 2 3 4 5 6 7 8

Rendimento (%)
56 (7) 52 (12) 88 (10) 47 (15) 62 (1) 61 (5) 95 (16) 60(3) 74(4)

Mdia
54,0 86,5 48,0 63,0 63,0 93,5 58,5 72,0

+ + + + + + + + + + + +

85 (9) 49 (11) 64 (2) 65 (13) 92 (6) 57(14) 70(8)

105

Como variar tudo ao mesmo

A partir da matriz de planejamento podemos formar a tabela de coeficientes de contraste do mesmo modo que fizemos para o planejamento 22 , multiplicando os sinais das colunas apropriadas para obter as colunas correspondendo s interaes. Temos agora, alm dos trs efeitos principais 1 (temperatura), 2 (catalisador) e 3 (concentrao), trs interaes de dois fatores, 12, 13 e 23. Tambm temos uma novidade. Como existem trs fatores, o efeito de interao de dois deles em princpio depende do nvel do terceiro. A interao 12, por exemplo, ter um certo valor quando o fator 3 estiver no nvel (+), e possivelmente um outro valor quando ele estiver no nvel (-). Argumentando como fizemos no caso do planejamento 22 , vamos tomar a metade da diferena entre esses dois valores como uma medida da interao entre o fator 3 e a interao 12. O argumento simtrico, e esse valor tambm mede a interao entre 13 e 2 e entre 23 e 1 (Exerccio 3.9). Trata-se, como voc j deve ter desconfiado, do efeito de interao entre os trs fatores, para o qual vamos usar a notao 123. Os sinais para calcular esse efeito so obtidos multiplicando-se as trs colunas 1, 2 e 3. Acrescentando finalmente a coluna de sinais positivos para o clculo da mdia, teremos ao todo 23 = 8 colunas de coeficientes de contraste (Tabela 3.4).

Tabela 3.4 Coeficientes de contraste para um fatorial 23 A ltima coluna contm os valores
mdios dos rendimentos obtidos nos ensaios. Mdia
+ + + + + + + +
+

12
+

13
+

23
+ +

123

54,0
+ +

+ + +
+

86,5 48,0 63,0

+ + + + + + + + +

63,0 93,5 58,5

+ + +

+
+

72,0

3.2(a) Clculo dos efeitos


A Tabela 3.4 contm todos os sinais necessrios para o clculo dos efeitos. O divisor 8 para a mdia e 4 para cada um dos efeitos. Usando os sinais apropriados para fazer a soma algbrica das respostas mdias (que so reproduzidas na ltima coluna da tabela) e aplicando os 106

divisores, calculamos os sete efeitos e a mdia global. Em cada clculo so utilizadas todas as respostas, como antes. Todas as colunas de efeitos na Tabela 3.4 tm quatro sinais positivos e quatro sinais negativos. Isto significa que podemos interpretar qualquer efeito como a diferena entre duas mdias, cada uma contendo metade das observaes, exatamente como no caso do planejamento 2 2 Transformando a tabela de coeficientes de contraste em uma matriz X com elementos +1 ou -1, podemos calcular todos os efeitos, a menos dos divisores, fazendo o produto Xty , onde y o vetor coluna contendo os rendimentos mdios dos ensaios. Obtemos assim 538,50 91,50 -55,50 35,50 -34,50 -3,50 3,50 0,50 Dividindo o primeiro elemento por 8 e os demais por 4 obtemos o vetor dos efeitos (arredondados para a segunda casa decimal): y 1 2 3 12 13 23 123 67,31 22,88 -13,88 8,88 -8,63 -0,88 0,88 -0,13

(3.13)

Observe que os efeitos aparecem, nas linhas do vetor, na mesma ordem das colunas da matriz X.

Exerccio 3.9
Em cada um dos dois nveis da varivel 3 existe um planejamento fatorial 2 2 completo para as variveis 1 e 2. Calcule, a partir dos valores da Tabela 3.3, o efeito de interao 12 nos dois nveis da varivel 3. Faa a diferena entre os dois valores, divida por dois, e chame o resultado de interao do fator 3 com a interao 12. Repita todo o processo, partindo dos valores da interao 23 nos dois nveis do fator 1. Voc ter ento o valor da interao do fator

107

Como vadar tudo ao mesmo

1 com a interao 23. Compare os resultados dos dois casos com o valor da interao 123, dado no texto.

3.2(b) Estimativa do erro


Como as observaes individuais foram todas realizadas em duplicata, podemos usar o resultado do Exerccio 3.4 para calcular a estimativa conjunta da varincia de uma observao individual:

onde di a diferena entre as duas observaes correspondentes ao i-simo ensaio. Essa expresso tambm pode ser posta na forma de um produto escalar. Chamando de d o vetor coluna das diferenas entre os ensaios, podemos escrever

Substituindo os valores numricos e fazendo N = 8, obtemos

== 5,2.

Num planejamento fatorial 23 , cada efeito uma combinao linear de oito valores, com coeficientes 114. Admitindo que esses valores sejam independentes,2 podemos aplicar a Equao 2.15 para obter uma estimativa da varincia de um efeito. Fazemos agora

a;

1116, para i = 1, 2, ..., 8. Cada um dos oito valores da combinao por sua vez a mdia de dois outros, porque os ensaios foram feitos em duplicata. Se a varincia de uma observao individual estimada em 5,2, a varincia da mdia de duas observaes ser 5,2/2. Juntando tudo, chegamos estimativa

V( efeito) = (-..!- + ... + ~Jx (5,2


16 16
2

=( 1~

]x(

5;2

J= 1,30 .

o erro padro de um efeito a raiz quadrada desse valor, que aproximadamente 1,14%. O
erro padro do rendimento mdio global ser a metade disso, 0,57%, porque os coeficientes da combinao linear nesse caso so todos iguais a 1/8, ao invs de 1/4. A Tabela 3.5 mostra os valores calculados para todos os efeitos e seus erros padro.

2 Para isto - nunca demais insistir - importante aleatorizar os experimentos e fazer repeties autnticas.

108

Tabela 3.5 Efeitos calculados para o planejamento fatorial 23 da Tabela 3.3 e seus erros padro (em %). Mdia: Efeitos principais: 1 (Temperatura) 2 (Catalisador) 3 (Concentrao) Interaes de dois fatores: 12 13 23 Interao de trs fatores: 123 0,1 1,1 -8,6 1,1 - 0,9 1,1 0,9 1,1 22,9 1,1 -13,9 1,1 8,9 1,1 67,3 0,55

Exerccio 3.10 Use a Equao 2.15 para calcular a varincia dos efeitos de um fatorial 23 sem repeties, partindo da Equao 3.2.

3.2(c) Interpretao dos resultados


Analisando os valores da Tabela 3.5, podemos ver que a nica novidade trazida pela entrada da concentrao no planejamento fatorial mais um efeito principal significativo. No h evidncia de interao da concentrao com os outros dois fatores. Os efeitos principais da temperatura e do catalisador, bem como da interao 12, so praticamente os mesmos do planejamento 2 2 , e podem ser interpretados do mesmo modo que antes, a partir dos valores mdios mostrados na Figura 3.5. O efeito principal da concentrao pode ser interpretado isoladamente, porque no h interao desse fator com os outros. A interpretao simples: Quando a concentrao aumentada de 1,0 M para 1,5 M, ocorre um aumento mdio de cerca de 9% no rendimento, e no h evidncia de que esse aumento dependa dos nveis das outras variveis, na faixa experimental investigada.

109

Como variar tudo ao mesmo

+14,25

-1

-1 Temperatura

Figura 3.5 Diagrama para interpretao dos efeitos da temperatura e do catalisador, no planejamento 23 . Compare com a Figura 3.3.

Exerccio 3.11 Como exerccio num curso de quimiometria, M. R. Vallim e V. F. Juliano analisaram dados obtidos por um pesquisador numa srie de experimentos de sntese de polipirrol numa matriz de EPDM. Foram estudados trs fatores: o tempo de reao (t), a concentrao de oxidante (C) e o tamanho da partcula (P). A resposta observada foi o rendimento da reao. Calcule os valores dos efeitos e seus erros padro, usando os dados a seguir, mas antes examine cuidadosamente o conjunto de valores, levando em conta os sinais da matriz de planejamento. possvel antecipar qual ser a varivel com maior influncia no rendimento?

Rendimento (%)
4,39 4,73 5,75 13,45 21,11 1,93 3,39 12,69 17,98

xl

s~ l

1 2 3 4 5 6 7 8
+ + + + + +

4,56 5,98 13,98 20,34 2,01 3,27 12,23 18,69

0,058 0,106 0,562 1,186 0,013 0,029 0,423 1,008

6,21 +
+ + + + +

14,51 19,57 2,09 3,15 11,77 19,40

110

-1

Temperatura

)40----.;

Temperatura

Catalisador

Concentrao

(a)

Temp x Cat

Temp x Cone

Cat x Cone

(b)
Figura 3.6 Interpretao geomtrica dos efeitos num planejamento 23 . Os efeitos principais so contrastes entre faces opostas (a), e os efeitos de interao so contrastes entre planos diagonais (b). Os efeitos calculados num fatorial 2 3 tambm podem ser interpretados como contrastes geomtricos. Com trs fatores em vez de dois, a figura bsica ser um cubo, e no mais um quadrado. Os oito ensaios da matriz de planejamento correspondem aos vrtices do cubo (Figura 3.6). Os efeitos principais e as interaes de dois fatores so contrastes entre dois

111

Como variar tudo ao mesmo

planos, que podemos identificar examinando os coeficientes de contraste na Tabela 3.4. Por exemplo, no clculo do efeito principal do fator 1 (a temperatura), os ensaios 1, 3, 5 e 7 entram com o sinal negativo, e os demais entram com sinal positivo. Podemos ver, na Figura 3.6, que os ensaios negativos esto todos numa das faces do cubo, a que perpendicular ao eixo do fator 1 e est situada no nvel inferior desse fator. Os outros ensaios esto na face oposta, que corresponde ao nvel superior. O efeito principal do fator 1 portanto o contraste entre essas duas faces do cubo, como mostra a Figura 3.6(a). Os outros dois efeitos principais tambm so contrastes entre faces opostas e perpendiculares ao eixo da varivel correspondente. As interaes de dois fatores, por sua vez, so contrastes entre dois planos diagonais, perpendiculares a um terceiro plano definido pelos eixos das duas variveis envolvidas na interao, como mostra a Figura 3.6(b). O ensaio n 8, que corresponde aos nveis (+++), entra no clculo de qualquer efeito com o sinal positivo, como podemos ver na ltima linha da Tabela 3.4. Isto significa que na interpretao geomtrica dos efeitos a parte positiva sempre incluir esse ensaio. Voc pode conferir esse fato na Figura 3.6. Lembrando-se dele, poder fazer corretamente a interpretao geomtrica de qualquer efeito.

Exerccio 3.12 Que concluses voc pode tirar da Figura 3.5?

Exerccio 3.13 Qual a interpretao geomtrica da interao 123 no planejamento fatorial 2 3?

3.2(d) O modelo estatstico


O modelo pode ser construdo por analogia com a Equao 3.10, s que agora as variveis codificadas so trs:
xl' X2

X3 .

Usando a notao costumeira, escrevemos

(3.14)

Os coeficientes desta equao (os f3's) representam valores populacionais dos efeitos, por unidade das variveis codificadas. Substituindo os dados da Tabela 3.4 na Equao 3.13 e dividindo tudo por 8, obtemos as seguintes estimativas para esses coeficientes:

112

bo ~ b2

_ Xty _ b3 b---

=:::::

b12

~3 b23 ~23

67,3 11,4 -6,9 4,4 -4,3 -0,4 0,4 0,1

A partir delas podemos calcular uma estimativa de uma observao na combinao de nveis
(Xl' X2, X3 ) :

Y(Xl,X2,X3)=bo +~Xl + +

+b2X 2 +bs X 3

~2XIX2

+ ~3XIX3 + b23 X 2X 3

(3.15)

~23XIX2X3

Exerccio 3.14
Nossa anlise dos resultados do planejamento 23 indica que as interaes 13, 23 e 123 podem ser desprezadas. Exclua da Equao 3.14 os termos correspondentes a essas interaes e faa estimativas dos rendimentos para os oito ensaios. Calcule as diferenas entre os valores estimados e os observados, e compare essas diferenas, que so os resduos, com os valores mdios observados.

3.3 Um planejamento fatorial 24


Vamos acrescentar agora uma quarta varivel ao nosso planejamento: o pH do meio reacional, nos nveis neutro (7) e levemente cido (6). Com isto, o nmero total de ensaios sobe para 16. Os resultados obtidos nos experimentos, desta vez feitos sem repeties, esto na Tabela 3.6. Com eles podemos calcular, alm da mdia global, quinze efeitos: quatro efeitos principais, seis interaes de dois fatores, quatro interaes de trs fatores e uma interao de quatro fatores.
Tabela 3.6 Resultados de um planejamento fatorial 24 para estudar a influncia de quatro fatores no rendimento de uma reao.

Fatores
1:

(-)
Temperatura (OC) Catalisador (tipo) Concentrao (M) pH

(+)

40
A

60
B

2:
3: 4:

1,0 7,0

1,5 6,0

113

Como variar tudo ao mesmo

Resposta: Rendimento (%) Ensaio 1 2 3 4 5 6 7 8


1

Resposta 54

+ + + + + + + +
+

85 49 62 64 94 56 70

+ + + +

9
10 11 12 13 14 15 16

52 87 49 64 64 94 58 73

+ + + + + + + + + + + +

+ + + + + + +

3.3(a) Clculo dos efeitos


Para obter os sinais algbricos necessrios, procedemos da maneira usual, multiplicando, elemento a elemento, as colunas da matriz de planejamento. Primeiro elas so multiplicadas duas a duas, depois trs a trs, e finalmente fazemos o produto de todas as quatro colunas. O conjunto completo aparece na Tabela 3.7. Partindo da matriz X e do vetor y, como fizemos nos casos anteriores, e aplicando o divisor apropriado (8, neste caso), chegamos aos efeitos mostrados na Tabela 3.8. Dividindo finalmente esses valores por dois (exceto a mdia), obtemos estimativas dos coeficientes do modelo estatstico das respostas, que agora ter dezesseis termos.

114

:3

Tabela 3.7 Coeficientes de contraste para um planejamento fatorial 2 4


M
+ + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + +
+

12
+

13
+

14
+

23
+ +

24
+ +

34
+ + + +

123

124

134

234

1234
+

+ +

+ +

+ + + +
+

+ +

+ + + + +

+ +

+ +

+ + + +

Exerccio 3.15
Escreva a equao do modelo estatstico correspondente a um planejamento fatorial 24

3.3(b) Estimativa do erro


Desta vez os experimentos no foram repetidos, de modo que no podemos estimar o erro experimental da forma que vnhamos fazendo. Precisamos de outra sada. Voc deve ter notado que, medida que o nmero de fatores aumenta, o modelo matemtico tambm aumenta, incluindo cada vez mais termos. Com dois fatores, tnhamos apenas dois efeitos principais e uma interao. Com trs, o modelo estendeu-se at incluir uma interao de trs fatores. Agora, com quatro fatores, o modelo precisa de dezesseis

115

Como variar tudo ao mesmo

termos, sendo o ltimo deles a interao de quatro fatores. Com k fatores, o modelo completo teria de continuar at a interao de todos os k fatores, como a expanso de uma funo numa srie de potncias. Vamos imaginar agora que a superfcie de resposta, isto , a relao entre a resposta e os fatores na regio que estamos investigando, seja suave o bastante para que pequenas variaes nos fatores no causem variaes abruptas na resposta. Sendo assim, podemos esperar que os coeficientes do modelo obedeam a uma certa hierarquia, com os termos de ordem mais baixa mostrando-se mais importantes que os de ordem mais alta. Voltando ao nosso exemplo, esperamos que os efeitos principais sejam mais importantes na formulao do modelo do que, digamos, a interao de quatro fatores. Em geral, podemos esperar que a importncia de uma interao para um modelo decresa com o nmero de fatores envolvidos na sua definio. Se no, no poderemos obter um modelo satisfatrio da nossa superfcie de resposta com um nmero finito de termos.

Tabela 3.8 Efeitos calculados para o planejamento fatorial 2 4


Mdia: Efeitos principais: 67,188

1 (Temperatura) 2 (Catalisador) 3 (Concentrao) 4 (pH)


Interaes de dois fatores:

22,875 -14,125 8,875 0,875

12 14 24

-8,625 0,875 0,875

13 23 34

-0,625 -0,625 0,375

Interaes de trs fatores:

123 134

0,875 -0,625

124 234

-0,125 0,375

Interao de quatro fatores:

1234

0,375

A Tabela 3.8 mostra claramente que alguns efeitos so bem mais significativos que outros. Admitindo, tendo em vista os valores dessa tabela, que os efeitos principais e as interaes de dois fatores bastam para descrever adequadamente a superfcie de resposta, 116

podemos usar os demais efeitos para obter uma estimativa do erro experimental nos valores dos efeitos. De acordo com essa suposio (que eqivale a dizer que a expanso em srie pode ser truncada depois dos termos de segunda ordem), as interaes de trs ou mais fatores na verdade no existem. Os valores determinados para 123, 124, 134, 234 e 1234 na Tabela 3.8, ento, s podem ser atribudos s flutuaes aleatrias inerentes ao nosso processo, isto , ao "rudo" embutido nos valores das respostas. Elevando cada um deles ao quadrado, teremos uma estimativa da varincia de um efeito, e a mdia dos cinco valores nos dar uma estimativa conjunta, com 5 graus de liberdade (porque so cinco valores independentes). Temos portanto
V(efeito) = (0,875)2 +( -0,125)2 + ... +(0,375)2
5

= 0,291.

A raiz quadrada deste valor, s == 0,54, a nossa estimativa para o erro padro de um efeito.

Exerccio 3.16 Interprete os valores da Tabela 3.8, levando em conta a estimativa do erro que acabamos de fazer.

3.4 Anlise por meio de grficos normais


A anlise por meio de grficos normais uma tcnica alternativa para tentarmos distinguir, nos resultados de um planejamento, os valores que correspondem realmente aos efeitos daqueles outros valores que so devidos apenas ao rudo. Seu funcionamento se baseia na noo de probabilidade cumulativa, que foi introduzida no Exerccio 2.10. Precisamos agora discuti-la mais detalhadamente. Uma varivel aleatria x distribuda normalmente obedece equao 1-2 r;:;-:: e 2a dx
a,,2Jr
-(x-pf

f () x dx =

Como vimos no captulo anterior, a representao grfica desta equao uma curva em forma de sino, semelhante que aparece na Figura 3.7(a). Consideremos um valor numrico especfico para a varivel x e chamemos esse valor de
Xl.

A rea da cauda esquerda dexl [Figura 3.7(a)], o que chamamos de probabilidade

cumulativa (ou probabilidade acumulada) do valor xl. Essa rea, que corresponde probabi-

117

Como variar tudo ao mesmo

lidade de se observar um valor de x menor ou igual a

Xl'

aumenta continuamente medida

que x se desloca para a direita, tendendo para 1, que o valor da rea total sob a curva da Figura 3.7(a), quando x tende para +00. Um grfico da probabilidade cumulativa numa distribuio normal uma curva monotonicamente crescente, em forma de 8 3 que vai (de forma assinttica) de zero esquerda para 1 direita, como mostra a Figura 3.7(b).
0,60
r----'----.--~----------,

1,00

r---------------.----==---~

(a)
0,45

(b)

~ ~

0,30

0,15

0,00 "'-~--------~------~-3,50 -1,75 0,00 1,75 3,50

0,00 -3,50

Iooo..-_-=:::O;'---"-_----.J~'""""'"_

_ _- - - . .

--J

-1,75

0,00
x

1,75

3,50

x
1,0

r-------,.------.-----......------,
(c)

0,25

0~~,50

-1,75

0,00

1,75

3,50

Figura 3.7 (a) Grfico da densidade de probabilidade numa distribuio normal padronizada. A probabilidade acumulada correspondente a um valor Xl a rea sob a curva esquerda de Xl. (b) Probabilidade acumulada na escala cartesiana usual. (c) O grfico da Figura (b), num eixo de probabilidade normal. Note que a escala da probabilidade acumulada no mais linear. O ponto correspondente probabilidade acumulada de Xl (0,25) no est no ponto intermedirio entre 0,0 e 0,5, e sim muito mais prximo de 0,5.
Exerccio 3.17
Suponha que x uma varivel normal padronizada. Quais as probabilidades cumulativas correspondentes a: (a) Xl = O; (b) Xl = 1; (c) Xl

= 1,96?

Isto , uma sigmide.

118

A curva da Figura 3.7(b) pode ser transformada numa reta, por meio de uma modificao na escala do eixo das ordenadas. Essa modificao consiste em expandir a escala simetricamente em torno do ponto representando 0,5 (isto , 50% de probabilidade acumulada), de modo a "esticar" as duas pontas do S [Figura 3.7(c)]. O procedimento semelhante ao que se usa para fabricar papel logartmico. A funo y

= log x, que num papel milime-

trado comum representada por uma curva, num papel logartmico passa a ser representada por uma reta. Da mesma forma, se x se distribuir normalmente, o grfico de suas probabilidades acumuladas ser uma sigmide numa escala cartesiana comum, mas passar a ser uma reta se fizermos a escala vertical correspondente da Figura 3.7(c). Observe que as probabilidades acumuladas O e 1, que correspondem respectivamente a
-00

e +00 sobre o eixo

das abscissas, a rigor no podem ser representadas nesse grfico, porque a escala finita.

0,60

0,45

~ ~

0,30

0,15

0,00

-4

-3

-2

-1
x

Figura 3.8 Amostragem aleatria de dez elementos numa distribuio normal padronizada. Cada elemento representa uma regio cuja rea igual a 1110 da rea total sob a curva. Consideremos uma amostra aleatria de dez elementos, extrada de uma populao normal. Para representar essa amostra num grfico normal, a primeira coisa que devemos fazer colocar seus elementos em ordem crescente. Assim, o primeiro elemento ser o menor de todos, e o dcimo ser o maior. Usando um ndice para indicar a ordem de cada elemento, chamaremos o menor deles de
Xl

e o maior de

XIO

Como a amostragem foi aleatria, pode-

mos imaginar que cada um desses dez elementos seja o representante de uma fatia equiva-

119

Como variar tudo ao rnesmo

lente a 10% da rea total da distribuio. O primeiro elemento, que o menor, representaria os primeiros 10% de cauda esquerda, o segundo representaria a regio entre 10% e 20%, e assim por diante. Ao dcimo elemento, o maior de todos, caberia a cauda de 10% direita, isto , a regio indo de 90% a 100% de probabilidade acumulada. Essa concepo est ilustrada graficamente na Figura 3.8, com a curva de densidade de probabilidade. O prximo passo associar, a cada ponto, a probabilidade acumulada do centro do intervalo que ele representa. Assim,
Xl'

que est no intervalo que vai de O a 10%,


X2

corresponderia probabilidade acumulada de 5%, finalmente


X10

corresponderia a 15%,

X3

a 25%, .... e

seria associado probabilidade de 95%. Num grfico dessas probabilidades


Xl' , X10

contra os valores

numa escala linear, os pontos devem cair aproximadamente

sobre uma curva sigmide, como na Figura 3.9(a). Mudando o eixo para uma escala de probabilidade normal, esperaremos que os pontos se ajustem razoavelmente a uma reta [Figura 3.9(b)]. Se essas expectativas no forem confirmadas, desconfiaremos que algo est errado com as nossas suposies. Isso nos permitir chegar a concluses de grande importncia prtica, como logo veremos.
1,0

1,0

lj

0,8

'"tj
lj

~ ~
'.J lj
~
~

~
~
~

0,6

~
~

'->

'"tj

:.c
...c
lj

~
~

0,5

:.
..o
~
~

~ 0,2

2
0,0

0,0

-3

-2

-1

-3

-2

-1

Figura 3.9 (a) Probabilidades acumuladas para uma amostra de dez elementos,

extrados aleatoriamente de uma populao normal padronizada, numa escala cartesiana comum. (b) Os mesmos pontos, num grfico de probabilidade normal. Voltemos agora ao planejamento 2 4 da seo anterior. Imaginemos que nenhum dos 15 efeitos que calculamos exista de fato, isto , que o verdadeiro valor de cada um deles seja zero. Dentro dessa suposio (mais um exemplo de hiptese nula), os valores numricos que obtivemos devem refletir apenas os erros aleatrios do nosso processo. Aplicando o teorema

120

do limite central, podemos consider-los como uma amostra aleatria retirada de uma distribuio aproximadamente normal, com mdia populacional zero.

Tabela 3.9 Correspondncia entre os efeitos calculados para o planejamento 24 e os valores de probabilidade cumulativa.
Ordem Efeito Regio de probabilidade cumulativa (%) 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 -14,125 -8,625 -0,625 -0,625 -0,625 -0,125 0,375 0,375 0,375 0,875 0,875 0,875 0,875 8,875 22,875 0-6,67 6,67 - 13,33 13,33 - 20,00 20,00 - 26,67 26,67 - 33,33 33,33 - 40,00 40,00 - 46,67 46,67 - 53,33 53,33 - 60,00 60,00 - 66,67 66,67 - 73,33 73,33 - 80,00 80,00 - 86,67 86,67 - 93,33 93,33 - 100,00 Ponto central 3,33 10,00 16,67 23,33 30,00 36,67 43,33 50,00 56,67 63,33 70,00 76,67 83,33 90,00 96,67 -1,838 -1,282 -0,9673 -0,7280 -0,5244 -0,3406 -0,1680 0,00 0,1680 0,3406 0,5244 0,7280 0,9673 1,282 1,838

Procedendo como no exemplo dos dez pontos, podemos traar um grfico normal dos nossos quinze valores e us-lo para testar a hiptese de que os efeitos no existem. Os dados necessrios para isso esto na Tabela 3.9, onde cada efeito da Tabela 3.8 associado a um valor de probabilidade acumulada. Para traar o grfico, o mais cmodo usar um dos muitos programas computacionais de estatstica disponveis. Caso voc no tenha acesso a um desses programas, pode usar uma escala linear comum, colocando no eixo das abscissas os valores dos efeitos, mas no eixo das ordenadas os valores correspondentes da distribuio normal padronizada (Z, na ltima coluna da tabela).

121

Como variar tudo ao mesmo

o grfico normal dos efeitos est na Figura 3.10. Vemos imediatamente que os pontos centrais se ajustam muito bem a uma reta que cruza a probabilidade acumulada de 50% praticamente sobre o ponto zero do eixo das abscissas. Faz sentido, portanto, considerar esses pontos como vindos de uma populao normal de mdia zero. Ou seja: eles representam "efeitos" sem nenhum significado fsico. O mesmo j no podemos dizer dos outros valores, que esto identificados com os nmeros dos efeitos que representam. Dificilmente poderamos pensar que esses pontos, to afastados da reta, pertenam mesma populao que produziu os pontos centrais. Devemos interpret-los, ento, como efeitos realmente significativos, e tanto mais significativos quanto mais afastados estiverem da regio central, seja para a direita, seja para a esquerda. Isto vem confirmar o que voc j descobriu, se resolveu o Exerccio 3.16 e comparou os efeitos calculados com a estimativa do erro padro: s os efeitos principais 1,2 e 3 e a interao 12 so mesmo significativos.
3r------.....--.---~------.---......---------,

tsJ

o
-1

....... :1.2.

-2
-3

2
L....--o.._ _-.....l

__..._ _""""""____'_ "'___'"__'


~

-20

-10

o
Efeito

10

20

30

Figura 3.10 Grfico normal dos valores da Tabela 3.9. S os efeitos 1, 2, 3 e 12 parecem significativos. Os grficos normais tambm nos ajudam a avaliar a qualidade de um modelo qualquer, seja ele relacionado com um planejamento fatorial ou no. Um modelo bem ajustado aos fatos, qualquer que seja a sua natureza, deve ser capaz de representar toda a informao sistemtica contida nos dados. Os resduos deixados por ele devem representar apenas a parte aleatria, isto , o rudo embutido nas medies. O aspecto do grfico normal desses resduos deve ser compatvel com o que esperaramos de uma amostra aleatria extrada de

122

uma distribuio normal de mdia zero. Ou seja, deve aproximar-se de uma reta passando pelo ponto (x, Z) = (O, O), como na regio central da Figura 3.10. 4
Exerccio 3.18

Utilize os valores de todos os efeitos que caem sobre a reta da Figura 3.10 para calcular uma estimativa da varincia de um efeito com 11 graus de liberdade. Use um teste F para mostrar que esta estimativa e a estimativa obtida a partir dos efeitos de terceira e quarta ordem (com 5 graus de liberdade) podem ser consideradas como produzidas pela mesma populao.

3.5 Operao evolucionria com fatoriais de dois nveis


Quando um processo industrial ainda est na fase de desenvolvimento, o normal que os tcnicos procurem otimiz-lo, fazendo testes e ajustes numa planta piloto. Quando da se passa produo propriamente dita, porm, as condies so outras. Em primeiro lugar, h o problema da prpria mudana de escala. O efeito de fatores como agitao, transferncia de massa, eficincia do destilador etc., varia com o tamanho do equipamento, numa extenso que difcil prever. Depois, existem os problemas relativos ao dia-a-dia da produo, como variaes na matria prima ou nas condies de armazenamento, substituio de peas e mquinas, e at mesmo o envelhecimento do equipamento. Tudo isso contribui para que as condies timas de produo no sejam as da fbrica piloto, e muito menos as do laboratrio. Se quisermos descobrir quais so essas condies, teremos de partir obrigatoriamente de informaes obtidas no prprio processo de produo em larga escala. A verdade que consideraes dessa natureza raramente so feitas na prtica. Na maioria dos casos, a fbrica continua sendo operada dentro dos parmetros estabelecidos na sua partida, e com isso o processo termina perdendo em eficincia. Esse modo de agir, que sem dvida o usual, pode ser chamado de operao esttim, para contrastar com a chamada operao evolucionria (Box, 1957), da qual trataremos nesta seo. Na operao evolucionria (mais conhecida pela sigla EVOP, de evolutionary

operation), a situao que acabamos de descrever admitida como verdadeira, e as condies


de operao em larga escala so deliberadamente modificadas, com o objetivo de extrair do processo de fabricao no apenas o produto desejado mas tambm informao sobre como esse mesmo processo pode ser melhorado. O adjetivo "evolucionrio" foi escolhido de propsito, para enfatizar que a idia fundamental submeter o ambiente de produo a um

Isto depende, porm, do nmero de graus de liberdade dos resduos. Quanto mais, melhor. No devemos esperar muita coisa de um grfico normal com poucos graus de liberdade (como, por exemplo,

num fatorial 23), justamente porque os valores no tm muitas opes de distribuir-se aleatoriamente.
123

Como variar tudo ao mesmo

processo de variao e seleo anlogo ao que, na teoria darwiniana, governa a evoluo das espcies. Nesta seo nos limitaremos a descrever as caractersticas bsicas da operao evolucionria. O leitor interessado poder encontrar muito mais informaes nas publicaes de G. E. P. Box, a quem se deve a concepo e a primeira aplicao industrial da EVOP, feita em 1954 nas instalaes da Imperial Chemical Industries, na Inglaterra. O livro Evolutio-

nary operation: a statistical method for process improvement (Box e Draper, 1969) particularmente recomendado.
O primeiro passo para realizar a operao evolucionria consiste em introduzir

alguma variao no ambiente operacional, que a pr-condio para que possa haver evoluo e adaptao do processo. Como a EVOP se aplica a um processo industrial em pleno funcionamento, qualquer perturbao deve ser feita com muita cautela, para no corrermos o risco de fabricar um produto insatisfatrio. Nesse sentido, a EVOP muito diferente de um planejamento experimental feito em laboratrio, onde os fatores podem ser variados vontade, no importando muito se o produto final prestar ou no. Na operao evolucionria, ao contrrio, o que estamos buscando um ajuste fino. Todo cuidado pouco. As ,perturbaes, alm de suaves, devem ser realizadas de forma cuidadosamente planejada, para que seja possvel extrair delas alguma informao til. A forma de variao recomendada por Box um planejamento fatorial de dois nveis em torno das condies usuais de operao, como est ilustrado esquematicamente na Figura 3.11. O melhor variar somente uns dois ou trs fatores de cada vez, para facilitar a anlise dos resultados. A extenso das variaes uma questo que deve ser decidida pelo prprio pessoal da produo, que sempre tem uma idia da margem de segurana do processo, e pode realizar as variaes necessrias sem correr riscos excessivos. Como as variaes sero pequenas, o seu efeito pode passar despercebido em meio ao rudo das respostas, que alis costuma ser muito maior no processo em larga escala do que no laboratrio. necessrio por isso repetir vrias vezes a operao num dado conjunto de condies, e considerar o resultado mdio final. As repeties devem ser feitas at que seja possvel discernir algum padro nos resultados do planejamento. A anlise dos resultados feita da forma descrita nas sees anteriores, no trazendo portanto qualquer novidade. Consideremos a situao inicial ilustrada na Figura 3.11(a). Digamos, por exemplo, que a anlise das respostas tenha mostrado que as condies operacionais do ponto B produzem resultados mais satisfatrios que todos os demais pontos investigados, e que o pior de todos os resultados seja o do ponto D. Em termos evolucionrios, diramos que o ponto B parece o mais apto a sobreviver, e o ponto D o menos apto. Em termos operacionais, a concluso que parece valer a pena alterar as condies de produo da situao inicial, repre124

sentada pelo ponto A, para as do ponto B. Com isso o processo evoluiria na direo A

B,

obedecendo a uma espcie de "seleo natural" dos mais aptos, e passaria a ser operado de forma mais eficiente.

Condies mais favorveis

Condies iniciais

A--~-----,

o C
Condies menos favorveis

(a)

(b)

E B

o .. (c)

o
(d)

C ------'

Figura 3.11 (a) Planejamento fatorial com ponto central, na fase inicial de uma operao evolucionria. (b), (c), (d): possveis deslocamentos em relao situao de partida.

Realizado o deslocamento para as condies mais favorveis, o processo passa a ser operado seguidamente dentro das condies definidas pelo novo planejamento, at que a anlise dos resultados permita decidir sobre um possvel novo deslocamento. O procedi-

125

Como variar tudo ao mesmo

mento todo - planejamento, anlise, deslocamento - repetido at que no haja mais evidncia de que seja possvel melhorar a eficincia do processo dessa maneira. Mesmo nesse estgio otimizado, as condies de operao devem continuar sendo submetidas a variaes controladas, porque ningum garante que a situao tima descoberta hoje continue sendo a situao tima daqui a algum tempo. Sendo operado assim, o processo estar sempre em condies de poder evoluir para uma posio mais vantajosa, caso a ocasio se apresente. A operao evolucionria deve ser encarada como um modo permanente de operao do processo, e no como um experimento com tempo determinado. O processo deve estar sendo obrigado, o tempo todo, a fornecer informao sobre si mesmo. Por uma questo de sigilo industrial, informaes detalhadas sobre exemplos reais de EVOP so escassas na literatura. Mesmo assim, existem indicaes de que esses resultados tm sido altamente significativos, originando ganhos que podem chegar a milhes de dlares/ano, graas larga escala em que se manifestam as conseqncias das pequenas modificaes nas condies de operao (veja, por exemplo, Box, Hunter e Hunter, 1978, p. 365).

3.6 Blocagem em planejamentos fatoriais


No final do Captulo 2 apresentamos um planejamento para comparar ensaios realizados por dois qumicos, em amostras de vinagre de vrias procedncias. O objetivo do estudo era comparar os desempenhos dos analistas, e no a variao entre os fabricantes. Agrupando os ensaios em cinco blocos de duas amostras, de acordo com o fabricante, conseguimos separar a varincia devida aos diferentes teores de cido actico da varincia causada pelos erros de cada analista. Pudemos assim fazer uma anlise estatstica muito mais sensvel do que se tivssemos nos baseado num planejamento completamente aleatrio. A blocagem tambm pode ser empregada em planejamentos fatoriais. Imagine que decidimos realizar um planejamento fatorial 23 , mas no temos matria prima bastante para fazer todos os 8 ensaios. Para completar o planejamento, precisamos adquirir um novo lote de material, talvez at de um fornecedor diferente. Isto, claro, introduz mais um possvel fator de variao, que precisa ser levado em conta para que as concluses da nossa investigao no saiam distorcidas. Se estivssemos interessados no efeito da origem do material, poderamos inclu-la como um fator a mais, e transformar o planejamento em um fatorial 2 4 , mas este no o caso. Sabemos que a origem da matria prima talvez influencie os resultados, mas os fatores

126

que nos interessam so os outros trs. Como devemos fazer, para minimizar o efeito desse quarto fator indesejvel? A aleatorizao de todos os ensaios no seria recomendvel, porque poderia confundir os efeitos de interesse com o efeito da mudana de matria prima. Usando uma blocagem, temos condies de minimizar esse problema. Suponhamos que cada lote seja suficiente para realizar quatro ensaios, isto , meio planejamento. Num planejamento 23, o efeito menos importante na hierarquia a interao 123. J que a mudana de lote inevitvel, podemos executar o planejamento de forma a confundi-la com o efeito 123, distribuindo as amostras dos dois lotes como mostra a Tabela 3.10. As quatro amostras de cada bloco so atribudas aos ensaios de acordo com os sinais algbricos da interao 123, e a aleatorizao feita dentro dos blocos, e no no planejamento total. Assim, quando calcularmos a interao de trs fatores, saberemos que no resultado estar embutida uma contribuio devida variao de um lote para o outro (que pode ou no ser significativa). Em compensao, os efeitos principais e as interaes de dois fatores, que em princpio devem ser os mais importantes, estaro livres dessa contaminao. Podemos entender como isso acontece examinando o clculo de um dos efeitos principais. Por exemplo, o efeito 1 dado por
1=

&2 - Yl)+ &4 - Y3)+ &6 - Y5)+ &8 - Y7)


4

Identificando as respostas conforme o lote, podemos rescrever a equao como

1= (B-A)+(A-B)+(A-B)+(B-A) .
4 Existem duas diferenas associadas variao de lote A a B
~ ~

B, e outras duas correspondendo

A. Se houver alguma influncia sistemtica associada mudana de lote, ela ser

anulada no clculo final do efeito. A mesma coisa ocorre para os outros efeitos principais e para as interaes de dois fatores, e vem da ortogonalidade que existe entre todas as colunas de sinais, e do fato de ns termos confundido de propsito a interao 123 com o efeito do lote. Voc pode conferir isso facilmente na Figura 3.12, que mostra a representao geomtrica do planejamento 2 3 , com os ensaios identificados de acordo com o bloco a que pertencem. A blocagem pode ser estendida a situaes mais complicadas. Por exemplo, a diviso de um planejamento 23 em quatro blocos de dois ensaios. O melhor planejamento, nesse caso, teria duas variveis de bloco, uma correspondendo interao 123, e a outra correspondendo a
uma das interaes de dois fatores. Esta segunda interao, claro, passaria tambm a ser

127

Como variar tudo ao mesmo

confundida com o efeito de bloco, e a interpretao dos resultados ficaria correspondentemente mais complicada. Box, Hunter e Hunter, 1978 (Captulo 10) e Montgomery, 1997 (Captulo 8) so boas referncias para quem quiser saber mais sobre blocagem. Note que os ensaios do bloco I e do bloco 11 ocupam os vrtices de dois tetraedros opostos (veja o Exerccio 3.13).

Tabela 3.10 Planejamento fatorial 23 realizado em dois blocos de quatro ensaios. Os blocos so escolhidos de acordo com os sinais da interao 123. A ordem de realizao dos ensaios aleatria dentro de cada bloco.
Ensaio 1 2 3 4 5 6
7

123

Bloco
I

Lote A B B A B A A B

Ordem 2

+ + + + + + + +
X

+ +

11 11
I

4'
l'
1

11
I I

3' 4 3 2'

+ + + +

11

-1

-1

-1

Figura 3.12 Diviso de um planejamento fatorial 2 3 em dois blocos. A blocagem feita de modo a confundir o efeito de bloco com a interao 123. No clculo de cada efeito (exceto 123) existem duas diferenas B - A e duas diferenas A - B, que cancelam o efeito de bloco.

128

Exerccio 3.19

Suponha que o efeito de interao 123 realmente no existe no experimento que estamos discutindo, e no entanto o valor numrico determinado para ele relativamente alto. Como podemos interpretar esse valor?

Exerccio 3.20

Um planejamento 23 foi realizado em dois blocos. Os ensaios do segundo bloco foram executados um ms aps o primeiro, e tiveram uma contribuio, h, causada por erros sistemticos que estavam ausentes das respostas obtidas no primeiro bloco. Mostre que a presena dessa diferena sistemtica no segundo bloco no afeta o valor calculado para o efeito de interao 23.

129

3A Aplicaes

3A.l Hidrlise de resinas


V. X. de Oliveira Jr. realizou um planejamento 23 em duplicata para estudar o efeito de trs fatores (tempo e temperatura de hidrlise, e tipo de catalisador) no grau de substituio numa resina clorometilada. Seu objetivo era maximizar a resposta. Os dados esto na Tabela 3A.1.

Tabela 3A.l- Dados do experimento. + Fatores: 1: Tempo de hidrlise, h 2: Temperatura, e 3: Catalisador (*) Ensaio 1 2 3 4 5 6 7 8
(*)

24 130 TFA

48 160

AP
Mdia 0,530 0,575 0.545 0,570 0,460 0,545 0,525 0,530 Varincia 0,00020 0,00005 0,00005 0,00020 0,00020 0,00045 0,00005 0,00020

Grau de substituio 0,52 0,54 0,58 0,54 0,56 0,45 0,56 0,53 0,52

+ + + + + + + + + + + +

0,57 0,55 0,58 0,47 0,53 0,52 0,54

TFA = cido trifluoroactico, AP = cido propinico, ambos em HCl12M

Efeitos:

----------------------------1

12

13

23

123

0,040

0,015

-0,040

-0,025

0,005

0,010

-0,015

Das duplicatas, usando o procedimento habitual, calculamos uma varincia agregada de 1,75 x 10-4, que corresponde a um valor de 1,323 x 10-2 para o erro padro de uma resposta. Neste planejamento, o erro padro de um efeito a metade do erro padro da resposta.! Multiplicando-o pelo valor do ponto da distribuio de Student com 8 graus de liberdade,
1 Por

qu?

130

chegamos ao intervalo de 95% de confiana para o valor de um efeito: 1,525 x 10-2 . Isto significa que somente os efeitos principais dos fatores 1 (tempo) e 3 (catalisador) e a interao

12 (tempo x temperatura) so significativos, nesse nvel de confiana. Como queremos obter


o maior grau de substituio, devemos fazer a hidrlise em 48h, usando o cido trifluoroactico como catalisador. A Figura 3A.1 nos ajuda a visualizar todos os resultados do experimento. As respostas obtidas com o TFA (os crculos) so sempre superiores. O efeito do aumento do tempo sobre a resposta, que mostrado no eixo das abscissas, atenuado quando a reao realizada na temperatura mais alta, mas as duas maiores respostas foram obtidas com 48h de reao. Isto indica que deveramos investigar tempos de hidrlise mais longos, talvez numa temperatura intermediria. Insistir no cido propinico como catalisador, porm, dificilmente valeria o esforo.

0,60 ,....--------.--------.-------,

0,55

co i5 o

6
.

0
.

~ 0,50

a:

Q)

d
0,45

-o0,40
I--_----J-

TFA

....L...---_----l

0 AP Tempo:
24 h 48 h

Tempo:

24 h

48 h

Temperatura: 130

Temperatura: 160

Figura 3A.l - Variao da resposta com os nveis dos trs fatores.

3A.2 Voltametria cclica do azul de metileno


As propriedades eletroqumicas do azul de metileno foram investigadas por voltametria cclica, com o objetivo de determinar as condies experimentais que produzem a melhor reversibilidade do processo redox, ou seja, que minimizam o valor da diferena de voltagem
(M) nesse processo (Rocha et

al., 1997). Para isso, empregou-se um planejamento fatorial 23 ,

cujos resultados aparecem na Tabela 3A.2.

131

Como variar tudo ao mesmo

Tabela 3A.2 - Dados do experimento.

Fatores:

1: Concentrao, moi L-l 2:pH 3: Slica modificada (tipo) Ensaio 1


2
3

0,1 4 STM 2 3
~(mV)

+ 0,5
7

STPM

106 + + + + + +
+ + + + +

98

139
141

4
5

137 123 119


103

6
7

Efeitos:
1

2 9,5

12 2,0

13 -6,0

23 -28,5

123 -3,0

-9,0

-0,5

Este um resultado curioso. O efeito mais significativo a interao 23 (pH e slica), e no entanto o efeito principal da slica (3) o menor de todos os valores calculados. Podemos entender o que ocorre examinando o grfico cbico das respostas (Figura 3A.2). A interao entre o pH e a slica to forte que, quando o pH est no nvel inferior (face anterior do cubo), os dois efeitos individuais da slica tendem a aumentar o
~.

Quando o pH est no

nvel superior, ocorre o inverso (face posterior). O efeito principal da slica termina praticamente se anulando, no porque no exista de fato, mas por ser a mdia desses dois pares de efeitos contrrios. O comportamento da concentrao (fator 1) mais ortodoxo. Um aumento da concentrao quase sempre diminui o valor da diferena de voltagem, o objetivo do experimento era minimizar o valor
de~, ~.

Como

parece que devemos explorar melhor

a regio em torno do ensaio 2 (+ - -), onde temos concentrao de 0,5 mL-l, pH = 4, slica modificada STM e observamos a menor resposta de todas,
~

= 98

m V. Estas mesmas

concluses podem ser visualizadas de outra forma na Figura 3A.3. A forte interao indicada pela mudana da direo da inclinao das retas nos dois grficos.

132

103
+

Figura 3A.2 - Grfico cbico das respostas da Tabela 3A.2.

150

r------......--------r---~

140

-:

ia.

11 30 20

JI/ . ~ " /..... .......


I ..............:

~)

110 ~dc: .. ...~ . , ) '

..

-<r Concentrao:
100

-1

0'
L..--_ _.L.--.

.................... 0 Concentrao: +1
....L-.-_----'

90

Slica

-1 pH: -1

+1

Slica

-1

+1 pH: +1

Figura 3A.3 - Variao da resposta com os nveis dos trs fatores.

3A.3 Tempo de reteno em cromatografia lquida


Um fatorial completo 23 (Tabela 3A.3) foi usado para investigar como o tempo de reteno de um pico obtido em um cromatgrafo lquido afetado pela percentagem de etanol, pela temperatura da coluna e pelo fluxo de gs (Ribeiro et aI., 1999).

133

Como

var~ar tudo

ao mesmo

Tabela 3A.3 - Dados do experimento.


+

Fatores:

1: Temperatura, C 2: % etanol (v Iv) 3: Fluxo (mL min- 1 )

30 60 0,1
3

50 70 0,2

Ensaio
1

Tempo de reteno (min) 49,26

2
3

+
+

31,27 42,20 26,61


+

4
5 6 7

23,81 15,07 19,57 12,86

+ +

Efeitos:

1 -12,26

12
1,11

13
4,53

23
1,32

123
-0,09

-4,54

-19,51

Os efeitos principais dos trs fatores so todos negativos. Os efeitos principais 1 (temperatura) e 3 (fluxo) so os mais importantes, mas mesmo o efeito do lcool, que bem menor, tambm parece significativo, porque em todas as quatro comparaes de ensaios que s diferem pelo nvel do lcool
(1~3, 2~4, 5~7

6~8)

o ensaio correspondendo ao nvel

superior tem a resposta mais baixa, como fica evidente na Figura 3A.4. Se o efeito principal do lcool (-4,54) significativo, ento a interao 13 (4,53) tambm , e precisamos interpretar os efeitos da temperatura e do fluxo conjuntamente (Fig. 3A.5). Um aumento do fluxo, seja qual for a temperatura, reduz o tempo mdio de reteno. A reduo, porm, mais pronunciada no nvel inferior da temperatura (-24 min) do que no nvel superior (-15 min). Tambm podemos visualizar este mesmo resultado na Figura 3A.4, pela mudana na inclinao das retas de um grfico para outro. Se o objetivo do experimento minimizar o tempo de reteno, devemos preferir a regio em torno do ensaio onde a temperatura e o fluxo - e tambm o teor de etanol- esto em seus nveis superiores (50C, 70% e 0,2 mL min- 1 ). Na Figura 3A.4, esse ensaio representado pelo ltimo quadrado direita.

134

60 ,----.....---------.------,

-o0-
l~ 40 c
Q)

Etanol 60% Etanol 70%

~
Q)

"O
C.

o.
20

t-

.............,

~.

L -_ _..I..--

-..L--_ _---l

Fluxo:

0,1
Temperatura: 30

0,2

Fluxo:

0,1
Temperatura: 50

0,2

Figura 3A.4 - Variao das respostas com os nveis dos trs fatores.

0,2

21,69

l-------------------{

13,97

0,1

45 73
30
1 (Temperatura)

28 94

50

Figura 3A.S - Grfico das respostas mdias em funo dos fatores 1 e 3.

3A.4 Separao de gases por adsoro


No desenvolvimento, em laboratrio, de um processo de enriquecimento de gases por adsoro, usou-se um planejamento 2 4 para investigar a influncia de quatro fatores sobre vrias respostas, dentre as quais a produtividade do adsorvente (P). Os dados obtidos esto
na Tabela 3A.4 (Clia F. C. Neves, 2000).

135

Como variar tudo ao mesmo

Tabela 3A.4 - Dados do experimento.


+

Fatores:

1: Presso de adsoro, bar 2: Presso de dessoro, bar 3: Vazo de alimentao, m 3 h- 1 4: Tempo de adsoro, s

1,40 0,05 0,10 8 4

2,40 0,20 0,30 30

Ensaio 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16

P (mol kg- I ciclo-I)


2,75

+ + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + +

3,15 2,85 3,55 4,65 5,85 5,40 6,30 5,95 6,55 5,60 6,75 11,50 13,00 12,50 14,00

Efeitos:

1 0,994

2 0,444

3 4,51
123

4 5,17

12
0,069

13
0,281

14
0,194

23
0,356

24
0,019

34
2,03

124
0,069

134
0,031

234
0,181

1234
0,0062

-0,144

136

2r----r--""--~---_r__--_,__--~-.-_r_--__,

04

----I--:-~-:--r~~_t___t__.. 3 t-__..

o ....

tf..-f.._f-___j._
~
p

_-j

_.J. _ .

-1

----.-----....----Q.-.-.---------.--~ ..-----.-.--------.~--------- ..----..-.~ ...---....------..-~.--.- ..------------~--.----.-.-------- ..

-2

a....-_~"'____

>l ,!

:!

~
o

I I
!

! 1

I I
! i
!

I i
! i
!

I I
! i
!

I i
! i
!

_ _..&.o__..

"""""__

-'----...._~"""___~

--'

-1

2
Efeito

Figura 3A.6 - Grfico normal dos efeitos.


Agora temos um nmero de efeitos suficientemente grande para fazermos um grfico normal (Figura 3A.6). Os mais significativos so os efeitos principais do tempo de adsoro e da vazo de alimentao (4 e 3, respectivamente), seguidos a uma certa distncia pela sua interao e pelo efeito principal da presso de adsoro. O fator 2, presso de dessoro, de interesse secundrio, e natural pensarmos em tom-lo como inerte, para ficar com um fatorial em duplicata nos outros trs fatores, do qual poderamos obter uma estimativa do erro puro. Note, porm, que 15 dos 16 efeitos calculados so positivos, o que no est de acordo com a hiptese de uma distribuio normal de mdia zero, como seria de se esperar para valores representativos do erro puro. Se examinarmos os oito pares de ensaios que s diferem pelo nvel do fator 2, constataremos que em sete deles o nvel superior produz uma resposta ligeiramente mais alta. Concluso: sem dvida o fator 2 menos importante que os outros trs fatores, mas ele tambm parece atuar no sentido de aumentar a produtividade do adsorvente. Alis, a resposta mais baixa a do primeiro ensaio, e a mais alta a do ltimo. Exatamente o contrrio do que aconteceu na Aplicao 3A.3, onde os efeitos principais eram todos negativos.

3A.S

Melhorando funes de onda


Obter funes de onda de boa qualidade uma questo fundamental na qumica computacional. Existem vrias maneiras de se tentar melhorar a qualidade de uma funo de onda, e a

137

Como varfar tudo ao mesmo

resposta normalmente depende do problema que est sendo estudado. Funes que se mostram satisfatrias para calcular determinadas propriedades no so obrigatoriamente boas para outras propriedades. Nesta aplicao, os pesquisadores estavam interessados em avaliar como alguns parmetros usados para especificar a funo de onda iriam afetar a freqncia do estiramento CH determinada a partir dessa funo para a molcula CH3F (Azevedo et al., 1996). O planejamento escolhido foi um fatorial completo 2 4 , veja Tabela 3A.5

Tabela 3A.S - Dados do experimento.

+ Fatores: 1: Conjunto de base 2: Funes de polarizao


3: Funes difusas 6-31G 6-311G

ausentes ausentes Hartree-Fock

presentes presentes
MP2

4: Correlao eletrnica

Ensaio
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16

Freqncia
3245,6

+ + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + +

3212,4 3203,5 3190,3 3251,7 3209,4 3214,9 3193,5 3096,2 3049,3 3132,8 3087,6 3105,0 3050,4 3143,5 3093,5

138

:3

Efeitos:

1
-38,35

2
4,95

3
5,53

4
-120,38

12
5,90

13
-3,73

14
-10,83

23
2,28

24
34,18

34
1,10

123
0,48

124
-4,33

134
0,60

234
-0,60

1234
0,25

2.------.----~---------.--~-.,

,
i~

o
24

-1

____l--__-_+~_

_ o;_+_._

__.__ _ ._ . +.

-2

L...-...o

-150

1
---'--_ _..o.-.-"""--""

--'--_..o.-.-...._--i-----l

-100

-50

50

Efeitos

Figura 3A.7 - Grfico normal dos efeitos.


3090,6

Figura 3A.S - Grfico das respostas mdias em funo dos fatores 1, 2 e 4.

139

Como variar tudo ao mesmo

o grfico normal (Figura 3A.7) mostra claramente que somente os efeitos principais 4
(correlao), 1 (conjunto de base) e a interao 24 (funes de polarizao x correlao) so significativos. Estamos novamente diante de um caso em que uma interao se mostra importante sem que um dos efeitos principais correspondentes (o do fator 2, neste caso) seja significativo. Voc pode descobrir a razo, examinando atentamente o grfico cbico das respostas em funo dos fatores 1,2 e 4 (Figura 3A.8).

3A.6 Desempenho de eletrodos de Ti/Ti0 2

o planejamento fatorial 25 cujos dados esto na Tabela 3A.6 foi usado para investigar como
cinco fatores influenciavam o desempenho de eletrodos de Titri02 na eletrorreduo do nitrobenzeno. O desempenho foi quantificado em termos das cargas catdicas medidas (em mC cm-2 ) durante o processamento dos eletrodos (Ronconi e Pereira, 2001). Os fatores estudados foram a concentrao do precursor de titnio nas solues precursoras empregadas (1), o nmero de camadas depositadas no eletrodo (2), a temperatura em que o tratamento trmico foi realizado (3), a concentrao de nitrobenzeno (4) e a velocidade de varredura do potencial aplicado (5).

Tabela 3A.6 - Dados do experimento.

+ Fatores: 1: Soluo precursora 2: Nmero de camadas 3: Temperatura, C 4: Concentrao de nitrobenzeno, mM 5: Velocidade de varredura, m V 1:4:16 2 450 2 50 1:2:8 10 525 8 200

Ensaio 1 2 3 4 5

Desempenho 2,07

+ + + + +

2,03 4,71 7,01 1,71

140

6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32

+ + + +

+ + + +

2,10 4,36 3,71 7,15 4,87 8,96 12,25 4,28 3,13 9,42 8,68 + 1,70 1,39 4,50 5,92 0,73 0,77 3,20 3,08 2,51 1,82 5,60 7,61 1,55 1,05 4,25 4,38

+ + + + + + + + + + + +

+ + + + + + +

+ + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + +

+ + + + + + + + + + + + + + +

141

Como

var~ar tudo

ao mesmo

Efeitos:

1
0,19

2
3,67

3
-1,48

4
2,41

5
-2,27

12
0,76

13
-0,52

14
-0,19

15
0,05

23
-0,45

24
0,68

25
-0,30

34
-0,27

35
-0,02

45
-1,47

123
-0,78

124
0,40

125
-0,15

134
-0,06

135
0,16

145
0,18

234
0,29

235
-0,22

245
-0,33

345
0,20

1234
-0,12

1235
0,29

1245
-0,18

1345
-0,01

2345
-0,32

12345
0,10

n.,0

, ,

o
4

o
-1

45

o , o ,,

ou

fI J
o
Efeitos

-2

5
-3 -3

-2

-1

Figura 3A.9 - Grfico normal dos efeitos.

Pelo grfico normal, Figura 3A.9, os valores mais significativos so os efeitos principais dos fatores 2 a 5 e a interao 45. Parece que podemos considerar o fator 1 como inerte, o que transforma o planejamento num fatorial 24 em duplicata (Tabela 3A.7).

142

Tabela 3A.7 - Fatorial em duplicata obtido pela eliminao do fator 1.


Ensaio 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 2
3

Desempenho 2,07 2,03 7,01 2,10 3,71 4,87 12,25 3,13 8,68 1,39 5,92 0,77 3,08 1,82 7,61 1,05 4,38

Mdia 2,050 5,860 1,905 4,035 6,010 10,605 3,705 9,050 1,545 5,210 0,750 3,140 2,165 6,605 1,300 4,315

Varincia 0,0008 2,6450 0,0761 0,2113 2,5992 5,4120 0,6613 0,2738 0,0481 1,0082 0,0008 0,0072 0,2380 2,0201 0,1250 0,0084

+ + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + +

4,71 1,71 4,36 7,15 8,96 4,28 9,42 1,70 4,50 0,73 3,20 2,51 5,60 1,55 4,25

A varincia agregada calculada das dezesseis varincias dos ensaios em duplicata 0,9584. A varincia de um efeito qualquer ser 1/8 desse valor,2 que 0,1198. A raiz quadrada deste ltimo valor o erro padro de um efeito. Multiplicando-o por t 16 , chegamos finalmente ao valor limite para a significncia do valor absoluto de um efeito, 0,734 (95% de confiana). Por este resultado, os cinco efeitos apontados pela anlise do grfico normal so confirmados como significativos. Dois outros, as interaes 12 e 123, ficam praticamente sobre o limite. As concluses no mudam muito, mas importante reconhecer que neste tratamento do erro estamos combinando varincias que diferem por at quatro ordens de grandeza. Na verdade, esse procedimento uma violao da hiptese de normalidade dos erros que est na base da maioria dos testes estatsticos, e deveramos ter usado alguma transformao das varincias (em geral, logartmica) antes de procurar determinar valores
2

Por qu?

143

Corno vadar tudo ao mesmo

limite. Para os detalhes, que fogem ao mbito deste livro, uma boa referncia o livro de Wu e Ramada (2.000), que tambm apresenta outros critrios para determinar quais so os efeitos significativos.

3A.7 Controlando a espuma


A crescente automao do processo de lavagem de roupas, louas e superfcies em geral vem exigindo produtos detergentes no s mais eficazes na remoo da sujeira mas principalmente com baixo poder espumante, devido s altas velocidades de agitao usadas nas lavagens. Uma das formas de controlar a espuma produzida pelos detergentes introduzir na formulao agentes tensoativos no inicos, como lcoois graxos EO/PO (isto , lcoois etoxilados/propoxilados). Vrias outras propriedades importantes, como ponto de turvao, tenso superficial, altura dinmica da espuma, detergncia, ponto de fulgor e temperatura de degradao trmica, tambm costumam ser acompanhadas durante a preparao de uma mistura detergente. Como tarefa para um curso de quimiometria, Ricardo Pedro decidiu verificar como o ponto de turvao varia com as unidades de xido de eteno (EO) e xido de propeno (PO) dos lcoois graxos, usando um fatorial 2 2 com um ensaio em triplicata no ponto central (Tabela 3A.8).

Tabela 3A.S - Dados do experimento.

Ensaio
1

Produto(*)

EO

PO

Ponto de turvao, 32,10

A404 A406 A604 A606


ASOS

2
3

+
+

40,20 27,70 34,00 35,00 34,60 35,40

+
O O O

5
6

AS OS
ASOS

O O

7
(*)

Os dois nmeros no nome do produto indicam as unidades de

po e EO, nessa ordem.

Efeitos:

EO
7,2

PO -5,3

EOxPO -0,9

144

Dos trs ensaios repetidos no ponto central, obtemos a estimativa de 0,40 para o erro padro de uma resposta, que neste caso igual ao erro padro de um efeito. O valor limite para a significncia do valor absoluto de um efeito ser portanto, com 95% de confiana,

t 2 xs(efeito) = 4,303xO,40

=1,72.

efeito do nmero de unidades de EO, 7,20, e o do nmero de unidades de PO, -5,30, so

bastante significativos.

efeito de interao no significativo. Esses resultados podem ser

visualizados na Figura 3A.10. A ausncia de interao se reflete no quase paralelismo das duas retas. O ponto de turvao aumenta com o grau de etoxilao e diminui com o grau de propoxilao, sendo mnimo para o produto A604 (dentre os cinco lcoois avaliados, obviamente). Como os tensoativos de menor ponto de turvao so tambm os de menor poder espumante, podemos concluir que esse lcool o que deve fazer menos espuma.
45
~----....------------....-----------.

lctS

40

()ti

ctS

2
Q)

>

35

"'O

Q..

o "E o

30
-O- PO

=4 =6

25

PO

EO

Figura 3A.l0 - Variao da resposta com os nveis dos dois fatores.

Se a superfcie de resposta puder ser representada por um plano, um argumento geomtrico elementar, ilustrado na Figura 3A.11, nos diz que o valor mdio das respostas no ponto central deve coincidir (a menos do erro experimental) com o valor mdio das respostas nos vrtices do planejamento. Se a superfcie for quadrtica, pode-se demonstrar que a diferena entre essas duas respostas mdias uma medida da curvatura global, que dada pela soma dos coeficientes dos termos quadrticos x~ e x~ (Box e Draper,1987). Usando os dados da tabela, temos: 35,00 + 34,60 + 35,40 35 00 P ont o cent ra: I Yc = = ,
3

Vrtices: )Iv = 32,10+40,20:27,70+34,00 =33,50

145

Como vadar tudo ao mesrno

Diferena:

~ =

Yv - Yc

= 33,50 - 35,00 = -1,50.

Para decidir se a diferena significativa, precisamos de uma estimativa do seu erro. Usando o procedimento para determinar a varincia de uma combinao linear descrito na Seo 2.5, podemos escrever
I;;: - ) VI;;: ) VI;;:) 8 8 78 V V'v-Yc = V'v + V'c = - + - = 2 2 2

12'

onde

a varincia de uma resposta. Substituindo o valor que obtivemos acima e

multiplicando o resultado por t 2 , conclumos que o valor limite para a significncia da diferena 1,31, no nvel de 95% de confiana. Temos portanto evidncia de uma leve curvatura na superfcie de resposta. Como a resposta mdia no centro superior mdia das respostas nos vrtices, a superfcie deve ser ligeiramente convexa.

Figura 3A.ll - Superfcie de resposta ajustada aos dados do experimento.

3A.S Desenvolvimento de um detergente


Uma formulao de detergente em p consiste na mistura de diferentes ingredientes, como tensoativos, polmeros, branqueadores e enzimas. Uma estratgia para desenvolver um produto mais eficiente trabalhar a partir de uma formulao padro, variando-se de forma controlada os teores de alguns aditivos. J. T. Bruns, aluna de ps-graduao em enge,nharia qumica, decidiu usar um planejamento fatorial 23 para avaliar os efeitos da adio de trs ingredientes sobre o poder de branqueamento e a redeposio da formulao detergente resultante. Cada experimento foi feito utilizando-se a mesma quantidade de p das diferen-

146

tes formulaes. As lavagens foram feitas em simuladores industriais de lavagem de roupas, usando peas de tecido que tinham sido submetidos mesma soluo padro de sujeira, formulada para imitar a sujeira domstica tpica. Os resultados obtidos esto na Tabela 3A.9, onde a resposta uma densidade tica que mede a intensidade da luz refletida pela roupa lavada. O objetivo do experimento maximizar essa resposta. Os ingredientes e seus nveis aparecem codificados, para garantir o sigilo industrial. As normas do laboratrio industrial onde os testes foram realizados exigem que os ensaios sejam repetidos em grupos de doze.

Tabela 3A.9 - Efeito de diferentes formulaes para um detergente em p.

Formulaes 2 4 6 8 3 5 7
1
(a)
(b)
(c)

Resposta 75,719

Varincia c 2,993 4,285 3,803 3,686 3,725 2,690 1,716 2,496

+ + + + + + + + + + + +

76,998 75,557 76,928 81,032 82,298 80,848 82,146

Ordem cronolgica de execuo de cada grupo de doze ensaios repetidos. Respostas mdias de doze ensaios repetidos. Varincias dos doze ensaios repetidos.

Efeitos:

Mdia
78,94

B
-0,14

c
5,28

AB
0,03

AC

BC
-0,03

ABC
-0,02

1,30

-0,02

Uma das vantagens de realizarmos um nmero to grande de ensaios que podemos combinar as varincias (que so todas bem parecidas) numa estimativa agregada com 88 graus de liberdade, e assim obter estimativas muito precisas do erro padro dos efeitos. A combinao das varincias, pelo procedimento habitual, nos leva a um erro padro de 0,364 para um efeito, o que significa que somente poderemos considerar estatisticamente significativos, no nvel de 95% de confiana, os efeitos cujos valores absolutos sejam superiores a t 88 x 0,364 = 0,724 . Por este critrio, s so significativos os efeitos principais dos aditivos

A e C, de modo que podemos considerar o experimento como um fatorial em duplicata nesses

147

Como variar tudo ao mesmo

dois fatores, (veja Tabela 3A.10) com um modelo descrito por

y = 78,94 + 0,65x A + 2,64xc

(lem-

brando que os valores coeficientes do modelo so sempre a metade dos valores dos efeitos).

Tabela 3A.l0 - Fatorial em duplicata embutido no fatorial da Tabela 3A.9.

Resposta Mdia 75,64

76,96
+

80,94 82,22

Como o objetivo do desenvolvimento da formulao maximizar a resposta, basta acrescentar formulao padro os ingredientes A e C. Em termos de unidades codificadas, o ingrediente C quatro vezes mais eficiente que o ingrediente A para aumentar a intensidade refletida. Como veremos no Captulo 6, poderamos usar estes resultados para determinar um caminho de mxima inclinao e com ele planejar experimentos que provavelmente teriam resultados ainda mais satisfatrios. Devemos lembrar, no entanto, que existem outras respostas importantes, como o custo da formulao, que tambm precisam ser levadas em considerao.

A Figura 3A.12 mostra os resultados de todos os 96 ensaios em funo dos nveis dos
aditivos A e C. Se no tivssemos feito esse nmero to grande de repeties, provvel que efeitos como o aditivo A tivessem passado despercebidos, tendo em vista a varincia relativamente grande que se observa entre ensaios repetidos.

1.:'"

e
~
. .. .
,:
.,'

... 1 ....... '

rl"'I'~~

. ""

.1

I. I

~.....:

l .. '
....l .. ;'
...... ... ,

. . ;.J..J;J
~
'.

"--';

.l
.

:.:

................
.

'j.
. . .

:'.':J. ..
')'"

.: :....................

i"

Figura 3A.12 - Resposta em funo dos aditivos A e C.

148

4
Quando as variveis so muitas

nmero de ensaios necessrios para se fazer um planejamento fatorial 2k completo au-

menta rapidamente com k, o nmero de fatores investigados. Com sete fatores, por exemplo, um planejamento completo exigiria nada menos de 2 7

= 128 ensaios. Veremos neste captulo

que, num caso desses, a informao desejada muitas vezes pode ser obtida a partir de um nmero de ensaios bem menor, correspondente a uma frao do nmero de ensaios do planejamento completo. Isso possvel por dois motivos. Primeiro, o nmero de interaes de ordem alta aumenta dramaticamente com o nmero de fatores (Tabela 4.1). Na maioria dos casos, essas interaes tm valores pequenos e so destitudas de qualquer importncia prtica. Como na expanso em srie de uma funo, os efeitos principais (isto , de primeira ordem) tendem a ser maiores que as interaes de dois fatores (de segunda ordem), que por sua vez so mais importantes que as interaes de trs fatores, e assim por diante. Essa tendncia, naturalmente, se acentua para efeitos de ordem mais alta. Se esses efeitos no so significativos, determinar o seu valor no motivo bastante para nos levar a fazer todos os ensaios de um planejamento completo.

Tabela 4.1 Nmero de efeitos principais e de interaes, dado em funo do nmero de fatores, k. A ordem de uma interao o nmero de fatores envolvidos na sua definio. Ordem
k
3

1 3 4 5 6
7

2 3 6 10 15 21

3 1 4 10 20 35

4
5

1 5 15 35 1 6 21 1 7 1

6
7

149

uu:anao as variveis so mtdtas

Em segundo lugar, quando o nmero de fatores aumenta, crescem as chances de que um ou mais deles no afetem significativamente a resposta, seja por meio de efeitos principais, seja por meio de efeitos de interao. Mais uma vez, se os efeitos dessas variveis no precisam ser determinados, para que fazer todos os ensaios do fatorial completo? Por outro lado, em muitas situaes no conhecemos, a priori, a relao completa de todas as variveis que afetam significativamente a resposta. Para no correr o risco de excluir fatores que podem vir a ser importantes, devemos estudar, nesse estgio, o maior nmero possvel de variveis. Podemos fazer isso sem aumentar o nmero de ensaios, usando planejamentos fracionrios, ao invs de fatoriais oompletos (Box, Hunter e Hunter, 1978, Captulo 12). Neste captulo veremos como aplicar essa estratgia, tomando como base, inicialmente, uma investigao realizada em um laboratrio de pesquisa (Eiras, 1991; Andrade, Eiras e Bruns, 1991). Em seguida apresentaremos um estudo fracionrio executado fora do laboratrio qumico, para mostrar como podemos fazer uma triagem das variveis usando um nmero mnimo de ensaios.

4.1 Fraes meias de planejamentos fatoriais


No projeto que vamos discutir nesta seo, os pesquisadores queriam otimizar um procedimento analtico para determinar traos de molibdnio em plantas. Escolheram ento um mtodo baseado na ao cataltica da espcie Mo(VI) sobre a oxidao do on 1- pelo H202, feita num sistema de fluxo contnuo monossegmentado. De todos os fatores considerados importantes para a produo do sinal analtico, quatro foram escolhidas para um estudo preliminar: as concentraes de H202, H2S04 e KI, e o tempo de reao dessas espcies com o Mo(VI). A influncia desses fatores sobre a intensidade do sinal analtico foi analisada por meio de um planejamento fatorial 2 4 completo. A matriz de planejamento dos dezesseis ensaios est na Tabela 4.2, bem como as intensidades observadas. Os valores dos efeitos calculados a partir desses resultados so apresentados na Tabela 4.3. Pelo grfico normal desses valores (Figura 4.1), podemos ver que so significativos os efeitos principais de [KI], de [H22] e do tempo, e as interaes de [KI] com [H22] e de [KI] com o tempo. A concentrao de cido sulfrico no parece estar envolvida em nenhum efeito importante. Para executar o planejamento fatorial completo, precisamos fazer dezesseis ensaios. Digamos que, por economia, os pesquisadores tivessem decidido realizar apenas oito ensaios, e escolhessem precisamente os que esto assinalados na matriz de planejamento da Tabela
4.2. Nesse caso, eles s teriam obtido as oito respostas reproduzidas na ltima coluna da

Tabela 4.4.

150

Tabela 4.2 Resultados de um planejamento fatorial 2 4 completo, realizado para estudar a ao cataltica do Mo(VI).
Fator
1 2
[H2S4], mol L-l

+
0,16 0,015 0,0020 90
2

0,32 0,030 0,0040 130

[KI], mol L-l


[H22], mol L-l

3 4
Ensaio
.I

Tempo, s 1

Resposta(a) 52

1 2 3

+ + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + +

61 124 113 85 66 185 192 98 86 201 194 122 139 289 286

.I

4 5

.I .I

6
7

8 9
.I
.I

10 11 12

.I

13 14 15

.I
(a)

16

Sinal analtico x 1.000

Exerccio 4.1
Use os dados da Tabela 4.2 e confirme que os valores dos efeitos significativos nesse planejamento so mesmo os que aparecem na Tabela 4.3.

Multiplicando duas a duas as colunas apropriadas na matriz de planejamento, obtemos os sinais necessrios para o clculo dos valores das seis interaes de dois fatores. Aplicando-os s respostas, chegamos aos valores tambm mostrados na Tabela 4.4, junta-

151

vuanoo as variveis so muitas

mente com os quatro efeitos principais e a mdia global. Todos esses valores (exceto a mdia, claro) continuam sendo contrastes entre duas metades do conjunto de oito respostas. No clculo de cada um deles usamos quatro respostas com sinal positivo e quatro com sinal negativo. No entanto, como os clculos no se referem a um planejamento completo e sim a uma frao, vamos usar a letra l para representar esses contrastes e assim distingui-los dos efeitos do captulo anterior.

Tabela 4.3 Anlise do planejamento fatorial 24 para o estudo da resposta cataltica do Mo(VI). Os valores mais significativos esto sublinhados.
Mdia = 143,31 1 =- 2,38 12 = -1,13 13 = 2,88 14 = 1,13 23

= 109,38 3 = 54,38 4 = 67,13


2 123 = 2,63 124 =- 2,63 134 = 5,38 234 = 0,13

= 25,63 24 = 21,88 34 = 9,88


1234 =- 8,88

4
....................

3
1

........

-1

.......
~

; _
...

~.

i
--'----'------'

-2

L...-

-20

20 Efeito

60

100

Figura 4.1 Grfico normal dos valores dos efeitos calculados para o fatorial completo 24 no estudo da ao cataltica do Mo(VI).

152

Tabela 4.4 Anlise de uma frao meia do planejamento fatorial completo 2 4: um planejamento fatorial fracionrio 24-1 . Exemplo da resposta cataltica do Mo(VI). Note que a ordem dos ensaios no a mesma da Tabela 4.2. Fator

+
0,16 0,015 0,0020 90 0,32 0,030 0,0040 130

1 2 3 4
Ensaio 1 10 11 4 13 6 7 16
I

[H2S04], mol L-i

[KI], mol L-i


[H202], mol L-i

t, s

12
+

13
+

14
+ +

23
+ +

24
+

34
+

Resp. 52 86

+ + + + + + + + + + + + + + + + + + + + + + + +

+ + + + + + + + + +

+ + + +

201 113 122 66 185

286

Mdia = 138,87

l12 =8,75 l13 = 24,75

II =- 2,25

l3= 51,75 l4= 69,75

l23 = 26,75

Comparando os valores dos efeitos obtidos com o planejamento completo (Tabela 4.3) e os contrastes calculados somente com a meia frao (Tabela 4.4), vemos que as estimativas da mdia e dos efeitos principais so muito parecidas nos dois casos. Isto significa que podemos estimar muito bem a mdia e os efeitos principais usando apenas oito ensaios, ou seja, com a metade do esforo necessrio para fazer o planejamento completo.

153

Os valores das interaes significativas do fatorial completo tambm esto em boa concordncia com os valores dos contrastes
l23

l24

calculados na meia frao. Em compenl12, l13

sao, as interaes envolvendo o fator 1 so muito superestimadas pelos valores de e


l14.

Tambm pudera. Seria timo poder reduzir o nmero de ensaios metade sem ter de

pagar nada por isso, mas infelizmente nada de graa. A explicao a seguinte. Com os oito ensaios da meia frao s podemos estimar oito grandezas independentes. Depois do clculo da mdia e dos quatro efeitos principais, restam apenas trs graus de liberdade. Obviamente, esse nmero insuficiente para fornecer estimativas independentes de todas as seis interaes de dois fatores. Voc pode constatar que na verdade
l12

= l34, l13 = l24 e l14 = l23 . Isto ocorre porque na Tabela 4.4 as colu-

nas de sinais para as interaes 12, 13 e 14 so idnticas s colunas correspondentes a 34, 24 e 23, respectivamente. Apesar disso, a situao ainda pode ser remediada. Se admitirmos que as interaes envolvendo o fator 1 no so importantes (porque o seu efeito principal desprezvel), ento concluiremos que
l24 l12

== l13 == l14 == O. Esses novos valores, juntamente com

l23

= 26,75,

= 24,75 e l34 = 8,75 , so estimativas muito boas das interaes de dois fatores calculadas

com as respostas de todos os 16 ensaios. O planejamento com oito ensaios mostrado na Tabela 4.4 uma frao meia do fatorial completo da Tabela 4.2. Costuma-se represent-lo com a notao 2 4-1, que a metade de 2 4 :

Esta notao indica que temos quatro fatores, cada um com dois nveis, mas realizamos apenas oito ensaios. A presena do valor -1 no expoente significa que o fatorial completo foi dividido por dois. Se ele tivesse sido dividido em quatro partes, o expoente seria 4-2, e assim por diante.

Exerccio 4.2
Use os sinais da Tabela 4.4 para calcular os contrastes correspondentes s interaes 134 e 1234. J sabemos que no h mais graus de liberdade para isso, e que portanto esses valores no devem ser independentes dos valores j calculados. Com que outros contrastes eles se confundem? Voc acha que faz sentido interpretar esses valores como sendo realmente estimativas dos efeitos 134 e 1234?

154

4.1(a) Como construir uma frao meia


Apresentamos o planejamento fracionrio 24-1 da Tabela 4.4 como um sub-conjunto, misteriosamente escolhido, do fatorial completo. Na verdade ele foi construdo da seguinte maneira: 1. Construmos um planejamento 2 3 completo para os fatores 1, 2 e 3;

2. Atribumos ao fator 4 os sinais do produto das colunas 1,2 e 3. A primeira conseqncia desse procedimento que os contrastes 1123 e 14 se tornam idnticos, j que sero determinados pelos mesmos sinais. Este um resultado semelhante ao obtido com a blocagem, no Captulo 3. Alm disto, como existem outras relaes de sinais, envolvendo interaes de dois fatores e tambm interaes de ordem mais alta (Exerccio 4.2), o bom senso nos diz que deve haver outras identidades entre contrastes. Afinal, na frao meia s temos oito graus de liberdade, enquanto o fatorial completo, com todos os efeitos, tem dezesseis. Poderamos descobrir as relaes que faltam fazendo todos os possveis produtos de colunas, mas isso no ser necessrio. Podemos descobri-las facilmente atravs de uma lgebra muito simples. Representaremos as colunas de sinais por nmeros (ou produtos de nmeros) em negrito. Assim, por exemplo, a notao 123 indicar a coluna de sinais obtida com a multiplicao das colunas correspondentes aos trs primeiros fatores. Essa coluna, como acabamos de ver, idntica do fator 4. Podemos escrever portanto
4 = 123.

(4.1)

Para obter as relaes entre os diversos contrastes, vamos empregar duas propriedades da multiplicao das colunas de sinais. A primeira que a multiplicao de uma coluna por ela mesma, isto , a elevao de todos os seus elementos ao quadrado, sempre produz uma coluna contendo apenas sinais positivos. Essa nova coluna, por sua vez, quando aplicada sobre outra qualquer, deixa-a inalterada. Trata-se, em outras palavras, do elemento identidade da nossa lgebra, e por isso vamos usar a letra I para represent-lo. Assim, por exemplo, podemos escrever 11 = 22 = 33 = 44 = I. A segunda propriedade apenas reconhece que a multiplicao das colunas comutativa e associativa. Por exemplo:
123 = (1)(23) = (23)(1) = (12)(3)

= 321 = (2)(31) =...

Para obter as relaes entre os vrios contrastes, multiplicamos a expresso definidora do fracionamento, Equao 4.1, por algum produto de colunas e aplicamos as

155

QuandO as varhive~s so muitas

propriedades que acabamos de enunciar. Quando quisermos saber a que equivale determinado contraste, s precisamos dar um jeito de faz-lo aparecer sozinho num dos lados da Equao 4.1. Digamos, por exemplo, que queremos saber qual o contraste que tem os mesmos sinais que l2' Examinando a Equao 4.1, vemos que possvel isolar o fator 2 no lado direito multiplicando 123 pelo produto 13, porque isso transformar em identidades o 1 e o 3 que j se encontram na equao. claro que temos de multiplicar tambm o outro lado, para que a relao de igualdade permanea: (13)(4)

= (13)(123) = (11)(33)(2) =(1)(1)(2) = 2.

Do lado esquerdo da equao ficamos agora com o produto 134, e da conclumos que
l134

= l2'

a mesma concluso a que chegamos, de forma mais trabalhosa, no Exerccio 4.2.

N a terminologia estatstica, dizemos que o emprego da frao meia confunde o efeito principal 2 com a interao 134. O valor do contraste calculado, l2 (ou l134), na verdade uma estimativa da soma dos dois efeitos. Voc pode confirmar que isso verdade, adicionando os valores dos efeitos 2 e 134 na Tabela 4.3 e comparando o resultado com o valor de l2 na Tabela 4.4. Para mostrar que o contraste calculado confunde os dois efeitos e estima a sua soma, costuma-se empregar a notao
l2 ~ 2

+ 134.

Todas as relaes entre os contrastes calculados na frao meia 2 4-1 e os efeitos obtidos com o planejamento completo 2 4 (os chamados padres de confundimento) so mostrados na segunda coluna da Tabela 4.5.

Exerccio 4.3

Quantos ensaios tem um planejamento 28-4?

Exerccio 4.4

Escreva por extenso as expresses algbricas para o clculo dos efeitos 2 e 134 no fatorial 24 completo e mostre que o contraste l2 calculado na meia frao realmente corresponde soma desses dois efeitos.

Exerccio 4.5

Todos os contrastes da Tabela 4.5 representam a soma de dois efeitos, exceto II , que estima a mdia mais a metade da interao 1234. Por qu?

156

Tabela 4.5 Relaes entre os contrastes da meia frao 24 -1 e os efeitos do fatorial completo 2 4 M a mdia de todas as respostas.
Relaes entre as colunas de sinais
1 = 234 2= 134 3= 124 4= 123 12 = 34 13 = 24 14 = 23 1=1234

Contrastes da meia frao 2 4- 1 em termos de efeitos do fatorial 24

II

-4

M + lh (1234)

4.1(b) Relaes geradoras de fatoriais fracionrios


Nossa frao meia foi obtida a partir da igualdade 4 = 123 (Equao 4.1). A literatura costuma apresentar essa relao na forma equivalente
1= 1234,

(4.2)

que obtida multiplicando-se os dois lados da equao 4.1 por 4. Nessa forma, onde o elemento identidade aparece isolado, a expresso conhecida como geratriz (ou
rela~o

geradora) do fatorial fracionrio. Ela suficiente para definir toda a frao meia, porque nos permite obter todos os sinais da matriz de planejamento. Cada possvel frao de um planejamento completo sempre definida por um certo nmero de relaes geradoras. Consideremos agora os ensaios restantes da Tabela 4.2, aqueles que no esto marcados e que portanto no foram empregados nos clculos do fatorial fracionrio. Esses oito ensaios tambm constituem uma metade, isto , uma frao meia, do planejamento completo. Voc pode confirmar facilmente que os sinais do fator 4 nesses ensaios so o contrrio dos sinais do produto 123. Podemos dizer ento que essa outra frao gerada pela relao 4 = -123, ou, equivalentemente, que a sua geratriz
1=-1234.
(4.4)

(4.3)

157

t)uanao as variveis so mtdtas

Com um argumento semelhante ao do Exerccio 4.4, podemos mostrar que os contrastes agora so estimativas da diferena entre dois efeitos do planejamento completo. Agora, por exemplo, teremos

z; ~ 2 -134.
As relaes entre os novos contrastes (identificados pelo asterisco) e os efeitos do planejamento completo so as mesmas da segunda coluna da Tabela 4.5, s que com sinais negativos. Tambm poderamos usar a segunda frao meia, que chamada de frao oomple-

mentar da primeira, para estimar os efeitos do fatorial. Os resultados finais levariam s


mesmas concluses. Com os valores e sinais apropriados, teramos, por exemplo,

Z; = 104,00 ,
tambm em boa concordncia com o valor do efeito principal 2 obtido para o fatorial completo, que 109,38.

Exerccio 4.6

Use os ensaios da frao meia complementar na Tabela 4.2 para calcular os valores dos contrastes Z~: , Z; , e Z: . Compare os resultados com os valores dados na Tabela 4.4 e tambm com os efeitos principais calculados no planejamento completo.

Se juntarmos as duas fraes meias, teremos de novo o fatorial de partida. Fazendo a combinao dos contrastes apropriados, podemos recuperar os valores dos efeitos sem nenhum confundimento. Por exemplo, Z2 e Z; envolvem o mesmo par de efeitos, 2 e 134. Somando-os, teremos

Z2 + Z;

= (2 + 134) + (2 -

134) = 2 + 2 .

o valor do efeito principal ser portanto a metade da soma dos dois contrastes:
2
2 +1; = 114,75 +104,00 = 109,38 . =1

Da mesma forma, a interao 134 ser dada pela metade da diferena entre Z2 e Z; :
2 -1; 134 = 1

= 114,75 -104,00 = 5,38 .


2

158

Exerccio 4.7
Como voc combinaria os valores dos contrastes para obter o efeito de interao 1234? Faa as contas e compare o resultado com o valor dado na Tabela 4.3.

4.2 O conceito de resoluo


4.2(a) Fatoriais fracionrios de resoluo quatro
A frao 24-1 tem uma caracterstica importante. Seus contrastes no misturam os efeitos principais com interaes de dois fatores, e sim com interaes de trs fatores, que em princpio devem ser menos significativas. Se essas interaes forem mesmo desprezveis, os contrastes devem fornecer timas aproximaes dos efeitos principais calculados no fatorial completo. Devemos ter, por exemplo, 12 == 1;: == 2. Em geral, esperaremos que li == lt == i. Como j devamos esperar, precisamos pagar algo por isto. Os contrastes li} (ou 1;;) so combinaes de pares de interaes de dois fatores, e sua interpretao fica mais difcil. Consideremos, por exemplo, o valor de 1 14 na Tabela 4.4, 26,75. Pelos padres de confundimento (Tabela 4.5), esse valor corresponde soma das interaes 14 e 23. Ele deve ser atribudo principalmente a 14, a 23, ou igualmente s duas? S com os resultados da Tabela 4.4 no temos como saber, a rigor. No entanto, esses mesmos resultados indicam que o fator 1 (a concentrao de H2S04) no tem efeito principal significativo, ao contrrio dos fatores 2 ([KI]) e 3 ([H202]), o que nos inclina a supor que a interao 23 deve ser, em princpio, mais importante que a interao 14. Conseqentemente, o valor do contraste 123 (ou 1 14 ) deve ser uma boa aproximao da interao entre os fatores

Esta hiptese um tanto arriscada, mas nesta investigao especfica ela mostrou-se vlida. Pelo clculo completo, 23

= 25,63, enquanto o valor de 14 apenas 1,13. Infelizmente,

nem sempre isso funciona. Se num dado experimento s tiverem sido feitos os ensaios correspondentes a uma meia frao e se for mesmo necessrio distinguir entre duas interaes de dois fatores, teremos de fazer os oito ensaios restantes para completar o fatorial. S assim poderemos estimar separadamente os efeitos. 1

1 Em compensao, existem experimentos, como a triagem de um grande nmero de variveis, em que podemos conviver muito bem com efeitos confundidos. Mais adiante veremos um exemplo.

159

o planejamento 24-1 um exemplo de fatorial fracionrio de resoluo quatro.

Num

fatorial de resoluo quatro os efeitos principais no se misturam com as interaes de dois fatores mas estas, por sua vez, misturam-se entre si. A notao empregada para representar a resoluo de um planejamento um ndice em algarismos romanos. Aqui, por exemplo,
4-1 escrevemos 2 IV.

Quem determina a resoluo de um fatorial so as suas relaes geradoras. O nmero de fatores que compem o termo mais curto presente nessas relaes , por definio, a
resolu~o

do planejamento. Para definir uma frao meia, basta uma relao

geradora. Em nosso exemplo essa relao (I = 1234) contm quatro fatores, e por isso a resoluo do fatorial 24 -1 quatro. Na prtica, as resolues mais usadas ficam entre trs e cinco.

Exerccio 4.8 Os resultados abaixo foram obtidos numa investigao cujo objetivo era a otimizao do rendimento de uma reao orgnica (R. S. Correa Neto, S. M. G. de Barros, M. Penso e D. Landini, Optimization of an Alkylation under PTC Conditions, 5th Brazilian Meeting on Organic Synthesis, Campinas, 1992). Fatores
1 (Temperatura)
+

Ambiente fuC03fNaOH

Refluxo

2 (Base) 3 (Solvente) 4 (Catalisador)

Nenhum

TEBA

Ensaio
1

Rendimento( %)

o
+ +
+
+

2
3

+ +

70
65

4
5

o
+ +

100
85 50

6
7

+
+

95

Que concluses voc pode tirar desses resultados?

160

4.2(b) Fatoriais fracionrios de resoluo cinco


No estudo do sinal analtico do Mo(VI), na verdade foi investigado mais um fator alm dos quatro j mencionados: o fluxo atravs do sistema monossegmentado. Os dezesseis ensaios cujos resultados aparecem na Tabela 4.2 no correspondem realmente a um planejamento 24 , e sim a uma frao meia de um planejamento 25 , que apresentada na Tabela 4.6. Essa frao foi construda a partir da relao 5 = 1234, ou, o que a mesma coisa, a partir de
1=12345.

(4.5)

Tabela 4.6 Um planejamento fracionrio 2~-1 para o estudo da resposta cataltica do Mo(VI).
Fator
1
[H2S04], mol L-I

Nvel
+

0,16 0,015 0,0020 90 1,2


3
[H202]

0,32 0,030 0,0040 130 3,0 4

2
3

[KI], mol L-I


[H202], mol L-I

t, s
Fluxo, ml min- I
1

2
[KI]

5
Fluxo
+

Ordem 5 13 12 4 11 3 6 14 10 2
7

[H2S04]

Resposta 52 61

+ + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + +

124 113 85 66 185 192 98 86 201 194 122 139 289 286

15 8 16 9 1

161

Trata-se portanto de uma frao meia de resoluo cinco, para a qual podemos usar a notao 2~-1 . Os efeitos principais na verdade esto misturados somente com as interaes de quatro fatores, enquanto as interaes de dois fatores se misturam com as de trs. Todas as relaes entre os contrastes desse fatorial fracionrio e os efeitos do planejamento completo esto na Tabela 4.7, juntamente com os valores dos contrastes calculados a partir dos dados da Tabela 4.6.

Tabela 4.7 Estimativas dos contrastes do fatorial fracionrio 2~-1 e suas relaes com os
efeitos do fatorial completo. Os valores em negrito so os mais significativos. Relao entre as colunas 1 = 2345 2 = 1345 3 = 1245 4 = 1235 5 = 1234 Contrastes Estimativas

II

1 + 2345 2 + 1345

II
l2 l3 l4 l5 l12 l13 l14 l15 l23 l24 l25 l34 l35 l45 l]

=- 2,38
= 109,38 = 54,38 = 67,13

l2 ~ l3 ~ l4 ~ l5 ~

3 + 1245
4 + 1235

5 + 1234
12 + 345 13 + 245 14 + 235 15 + 234 23 + 145 24 + 135 25 + 134 34 + 125 35 + 124 45 + 123
mdia + lh(12345)

=- 8,88 =- 1,13 = 2,88 = 1,13 = 0,13


= 25,63 = 21,88

12 = 345 13 = 245 14 = 235 15 = 234 23 = 145 24 = 135 25 = 134 34 = 125 35 = 124 45 = 123 1=12345

l12 ~ l13 ~ l14 ~ l15 ~ l23 ~ l24 ~ l25 ~ l34 ~ l35 ~ l45 ~ l] ~

= 5,38 = 9,88 =- 2,63 = 2,63


= 143,31

Supondo que os efeitos de interao de trs ou mais fatores sejam desprezveis, podemos concluir que so significativos apenas os efeitos principais dos fatores 2, 3 e 4 ([KI],
[H202] e t, respectivamente) e as interaes 23 e 24. ( possvel que os efeitos 5 e 34 tambm

162

UUianao as variveh; so muitas

No cubo da Figura 4.2, a resposta varia muito mais entre um vrtice e outro do que dentro de um mesmo vrtice. Os valores mais altos ocorrem quando todos os trs fatores esto nos seus nveis superiores, isto , na combinao de sinais (2 3 4) = (+ + +). Como o objetivo do experimento aumentar a sensibilidade do mtodo analtico, podemos concluir que seria aconselhvel realizar mais ensaios em torno dessa regio. O aparecimento de fatoriais embutidos em decorrncia da inrcia de determinadas variveis uma situao que pode ocorrer em qualquer planejamento fatorial. A Figura 4.3 mostra a razo, para o fatorial

21il

com sinais definidos pela relao 3 = 12. Se eliminarmos

o fator 3 desse planejamento, teremos um fatorial completo 2 2 nas variveis 1 e 2. Geometricamente, ao eliminarmos a varivel 3 estamos retirando o seu eixo da figura. O cubo fica reduzido a um simples quadrado, situado no plano definido pelos fatores 1 e 2, isto , passamos a ter uma projeo do fatorial fracionrio no plano 12. A mesma coisa vale para os outros eixos. Qualquer que seja a varivel eliminada, teremos um planejamento completo 2 2 nas variveis restantes.

,I

'

1I

J/jt
Figura 4.3 Representao geomtrica dos trs fatoriais completos 2 2 embutidos numa frao 23-1 .

As duas meias fraes dos fatoriais 2 4 e 25 so apresentadas na Tabela 4.8. Se eliminarmos qualquer varivel de uma frao

2jyl, ficaremos

com um planejamento 2 3 completo

nas outras variveis. Se eliminarmos duas variveis, passaremos a ter dois fatoriais 22 completos nas outras duas. No exemplo do Mo(VI), j vimos o que acontece quando duas variveis so retiradas de uma frao 2~-1 . O que aconteceria se eliminssemos trs variveis?

164

165

(JUian:oo as variveis so muitas

4.2(d) Fraes meias com resoluo mxima


Para construir as fraes meias apresentadas at agora, usamos o efeito de interao de ordem mais alta para determinar os sinais da coluna de um dos fatores. No primeiro exemplo, partimos de um fatorial 2 3 e usamos a interao 123 para definir os nveis da quarta varivel, por meio da relao I = 1234. Isso nos levou a uma frao de resoluo quatro. No segundo exemplo, comeamos com um planejamento 2 4 e, atravs da relao I

12345, chegamos a uma frao meia de resoluo cinco. Esse procedimento, usando sempre a interao de ordem mais alta no fatorial de partida, o mais indicado, embora possamos escolher qualquer interao para gerar o planejamento fracionrio. Por exemplo, poderamos definir os sinais da varivel 5 na frao meia 2 5- 1 pela relao 5 = 123. Nesse caso, a relao geradora passaria a ser I = 1235, e conseqentemente a resoluo cairia para quatro. Como as meias fraes que estudamos at agora baseiam-se na interao mais alta possvel, elas so as que tm a resoluo mxima, para o nmero de fatores considerado. por isso que elas normalmente so as melhores. Em geral, para construir uma frao 2 k - 1 de resoluo mxima, devemos fazer o seguinte: 1. 2. Escrever o planejamento completo para k-1 variveis; Atribuir varivel restante os sinais da interao 123(kl), ou ento os sinais exatamente contrrios.

Exerccio 4.11 Construa um planejamento fracionrio 2 5- 1 usando a relao 5 = 124. Determine, nessa frao, as relaes existentes entre os contrastes correspondentes a um e a dois fatores e os efeitos calculados num fatorial completo. Voc pode imaginar uma situao em que esse planejamento fosse prefervel, ao invs do fatorial de resoluo mxima?

4.3 Triagem de variveis


4.3(a) Fatoriais fracionrios de resoluo trs
No exemplo analisado at agora, conclumos que somente trs, das cinco variveis de partida, afetam significativamente a intensidade do sinal analtico. Como o sistema de anlise em fluxo relativamente complexo, teria sido difcil prever quais seriam as variveis

166

mais importantes. Nesta investigao, na verdade, os pesquisadores no tinham certeza nem dos valores que deveriam escolher para os dois nveis de cada varivel. Numa situao destas, em que no sabemos muito sobre o comportamento do sistema estudado, melhor, num primeiro estgio, realizar apenas uma frao do total de ensaios do fatorial completo. Mais tarde, depois de analisar os resultados dessa frao, podemos decidir se vale a pena fazer os ensaios restantes. Se os resultados indicarem que s umas poucas variveis so importantes, podemos introduzir novas variveis, ou alterar os nveis das que j estudamos, para tentar obter melhores respostas. Por outro lado, se os resultados iniciais j se mostram promissores, podemos realizar mais ensaios na mesma regio e completar o fatorial, ou ento podemos tentar ajustar uma superfcie de resposta (assunto que abordaremos no Captulo 6). Quando estamos investigando o efeito de muitas variveis, fazer um planejamento completo logo de sada nunca uma boa poltica. melhor comear com um planejamento fracionrio e fazer uma triagem, isto , tentar separar os fatores realmente significativos, que merecem um estudo mais aprofundado, daqueles que no tm importncia. O planejamento sempre poder ser completado mais tarde, se os resultados iniciais apontarem nessa direo. At agora, tratamos apenas de fraes meias, nas quais fazemos metade dos ensaios do planejamento completo. Dependendo do nmero de fatores, essa frao ainda pode ser grande demais. Se esse for o caso, nosso prximo passo considerar planejamentos fracionrios contendo apenas um quarto do total de ensaios. Com cinco variveis, como no exemplo do Mo(VI), o planejamento teria apenas oito ensaios e corresponderia a uma frao 25-2 Para construir sua matriz, comearamos com um fatorial 23 baseado em trs das cinco variveis. Em seguida, precisaramos de duas relaes geradoras para definir os nveis das duas variveis restantes. Para chegar ao planejamento mostrado na Tabela 4.9, partimos das relaes 4 = 123 e5

= 12, o que equivale a fazer I = 1234 e I = 125. Como o menor termo nessas relaes con-

tm trs fatores, o planejamento tem resoluo trs, e sua notao completa 2~ii2 . Evidentemente, esse tipo de planejamento mais econmico. Em compensao, produz contrastes que misturam efeitos principais com interaes de dois fatores. Isto complica a anlise dos resultados, mas possvel que alguns desses contrastes apresentem valores pequenos o suficiente para nos permitir descartar as variveis correspondentes. Como essa possibilidade sempre existe, fazer uma triagem com um planejamento de baixa resoluo no necessariamente o mau negcio que est parecendo. O pior que poder acontecer, num caso desfavorvel, ns termos de fazer os ensaios que faltam, seja para obter uma frao de maior resoluo, seja para completar o fatorial.

167

Tabela 4.9 Anlise de uma frao 2~ii? para o estudo da resposta cataltica do Mo(VI), com resultados parcialmente simulados.
Fator Nvel

+
1 [H2S04], mol L-l
[KI], mol L-l

0,16 0,015 0,0020 90 1,2

0,32 0,030 0,0040 130 3,0

2
3

[H202], mol L-l

t, s
Fluxo, ml min- 1

5
1 [H2S04]

2
[KI]

5
Fluxo

Sinal (x1000) 52 92* 198*

[H202]

+ + + + + + + + +
Mdia
II l2

+ + + + +

113 122 76* 189*

+ + + +
l3 l4 l5

286

= 141,00

= 54,50 = 67,00 = 4,50

= 1,50 = 111,00

* Resultados simulados, baseados nas respostas apresentadas na Tabela 4.6. Por exemplo, o resultado 92 para o ensaio (+ - - + -) foi obtido fazendo-se uma mdia das respostas 98 e 86, observadas nos ensaios (--- + -) e (+ - - + +) da Tabela 4.6.
Quatro dos ensaios da Tabela 4.9 so idnticos a ensaios da Tabela 4.6. As respostas para esses ensaios so portanto as mesmas nas duas tabelas e representam valores reais, obtidos no laboratrio. Os outros quatro ensaios tm combinaes de nveis para as quais os experimentos no tinham sido realizados. Suas respostas so valores simulados, obtidos a partir dos prprios dados experimentais da Tabela 4.6. Os contrastes calculados para as cinco variveis tambm so mostrados na Tabela 4.9, onde podemos observar que os valores esto em tima concordncia com as estimativas da mdia e dos efeitos principais deter-

168

minados no planejamento 2~-1 (Tabela 4.7). Analisando os resultados da frao quarta 25-2 , obtidos no estgio inicial da investigao, os pesquisadores podem decidir se vo fazer mais ensaios para chegar at uma frao meia ou mesmo at o fatorial completo 2 5 , se vo introduzir novas variveis no lugar das variveis 1 e 5 (que parecem no ter muita influncia sobre a resposta), ou ainda se preferem mudar os nveis das variveis. 2

Exerccio 4.12
Os efeitos confundidos num determinado contraste so determinados pelas relaes geradoras do fatorial e por todos os seus possveis produtos. Nos planejamentos 24 - 1 e 2 5- 1 s havia uma relao geradora, e por isso os efeitos eram confundidos dois a dois. No planejamento 25-2 , como existem duas relaes geradoras, precisamos considerar trs equaes: as prprias relaes, I

= 1234 e I = 125, e o seu produto, (1)(1) = I = (1234)(125) = 345. Cada efeito estar

portanto confundido com outros trs. (a) Use estas relaes para mostrar que o efeito principal 1 se confunde com as interaes 25, 234 e 1345; (b) Que interaes esto confundidas com o efeito principal5?

4.3(b) Planejamentos saturados


Problemas de otimizao envolvendo mais de, digamos, uma meia dzia de fatores no so muito comuns na vida acadmica. Alm de o pesquisador ter plena liberdade para definir seus projetos de pesquisa, e conseqentemente poder escolher problemas mais simples, muito mais fcil controlar as variveis num experimento de bancada. Na indstria, a situao exatamente oposta. O problema a ser atacado geralmente imposto por circunstncias alheias vontade do pesquisador, e sua resoluo costuma apresentar maiores dificuldades, entre as quais a de que no h tempo a perder. por isso que os planejamentos fracionrios, que permitem uma triagem eficaz de um conjunto de muitas variveis, so particularmente importantes para laboratrios industriais. Nos exemplos anteriores, custa de fragmentar - e portanto confundir - um planejamento completo, vnhamos conseguindo estudar cada vez mais fatores com cada vez menos ensaios. Como no se trata de nenhuma mgica, obviamente isso deve ter um limite. Dado um certo nmero de ensaios, deve existir um nmero mximo de fatores que podemos estudar com esses ensaios. Quando esse limite alcanado, dizemos que o planejamento est

2 Devemos lembrar que este um exemplo didtico, onde aproveitamos resultados obtidos em outro planejamento. Numa aplicao real, os pesquisadores tm de realizar de verdade os quatro ensaios cujas resposta foram simuladas aqui.

169

saturado. Nesta seo vamos usar um planejamento saturado para analisar um estudo

emprico realizado bem longe do laboratrio. Um dos autores tenista amador3 e resolveu estudar a influncia de vrios fatores na qualidade de seus saques. Para isso, escolheu sete fatores de interesse e construiu o planejamento fracionrio mostrado na Tabela 4.10. Os fatores escolhidos foram a tcnica usada no saque, a freqncia, a hora, o tipo de revestimento, o lado da quadra, o uso (ou no) de camisa e o tamanho da raquete empregada. O planejamento prev a realizao de oito ensaios. Com eles podemos estudar no mximo sete fatores, porque um dos graus de liberdade gasto obrigatoriamente com o clculo da mdia. Como este exatamente o nmero de variveis selecionadas, temos um planejamento saturado.

Tabela 4.10 Um planejamento fracionrio saturado de oito ensaios, para avaliar como sete variveis afetam o saque de um tenista amador.

Fator

Nvel

+
1 2 3 4 5 6 7

Tcnica Freqncia Hora Revestimento Lado Camisa Raquete


4= 12 3 5 = 13 4 5

chapada baixa dia saibro direito com mdia


6=23 6 7 = 123 7

cortada alta noite concreto esquerdo sem grande

Equivalncias: Ensaio 1 2
3

% acertos

+ + + + + + + + + + + + + + + +

+ + + +

56 66 51 52

4 5 6 7
8

+ + + + + +

54 70 42 64

Quem ser?

170

Outros fatores, como o vento e a chuva, podem afetar a preciso do saque. Fatores desse tipo obviamente fogem ao controle do pesquisador, mas foram tomadas precaues para evitar sua influncia. Quando, na execuo dos experimentos, as condies atmosfricas se mostraram adversas, os ensaios foram adiados at o tempo melhorar. Cada um dos ensaios consistiu num total de cem saques. O nmero de saques vlidos em cada ensaio mostrado na ltima coluna da Tabela 4.10. O planejamento foi construdo a partir de um fatorial completo para as trs primeiras variveis, usando-se as relaes geradoras I = 124, I = 135, I = 236 e I = 1237 para definir os nveis das quatro variveis restantes. Esse planejamento chamado de saturado porque todas as possveis interaes entre os fatores do planejamento de base, 12, 13,23 e 123, foram usadas para determinar os nveis das outras variveis. Isso torna impossvel definir novas variveis cujos nveis no sejam inteiramente coincidentes com os nveis de uma das que j fazem parte do planejamento. Como o termo mais curto no conjunto das relaes geradoras contm trs fatores, o planejamento de resoluo trs, e sua notao completa 2 }il4 O planejamento
.

2}ii4

corresponde a 1/16 do planejamento completo 2 7 , e por isso s

produz 23 observaes independentes, que so as respostas dos oito ensaios. Como o planejamento completo tem, entre mdia e efeitos, 2 7 = 128 parmetros, quando usarmos as oito observaes para estimar esses parmetros estaremos confundindo em cada contraste um total de 128/8 = 16 efeitos, que precisamente a razo entre o tamanho do planejamento completo e o tamanho do fatorial fracionrio. Cada efeito principal estar confundido com quinze outros efeitos. Destes, a Tabela 4.11 mostra apenas as interaes de dois fatores. Estamos admitindo por enquanto que os termos de ordem mais alta so desprezveis.

Tabela 4.11 Contrastes calculados na frao 2}li4 , e suas expresses em termos dos efeitos principais e das interaes binrias de um fatorial completo 2 7
Tcnica: Freqncia: Hora: Revestimento: Lado: Camisa: Raquete:

II
1 2 1 3 1 4 1 5 1 6 1 7

= = = = = = =

12,25 -9,25 1,25 -0,75 6,75 0,25 3,75

1 + 24 + 35 + 67 2 + 14 + 36 + 57 3 + 15 + 26 +- 47 4 + 12 + 56 + 37 5 + 13 + 46 + 27 6 + 23 + 45 + 17 7 + 34 + 25 + 16

171

Quando as varLve~s so muitas

.~---------------------~-------

Com as respostas da Tabela 4.10, que representam a percentagem de saques acertados em cada ensaio, podemos calcular os valores dos contrastes mostrados na Tabela 4.11. O valor II = 12,25, por exemplo, o resultado de JA( - 56 + 66 - 51 + 52 - 54 + 70 - 42 + 64). Os demais so calculados de forma semelhante, com os sinais da coluna apropriada.

Exerccio 4.13
Calcule o valor do contraste correspondente ao efeito principal do lado da quadra, usando os dados da Tabela 4.10.

Exerccio 4.14
No fatorial 2 7-4 cada efeito principal confundido com quinze interaes. Para descobrir o que se confunde com o qu, necessrio usar, alm das quatro relaes geradoras, seus seis produtos binrios, seus quatro produtos ternrios e finalmente o produto de todas elas. Determine que interaes esto confundidas com o efeito principal que representa o lado da quadra.

Podemos interpretar facilmente os resultados da Tabela 4.11, se admitirmos que todas as interaes de dois fatores tambm podem ser desprezadas, a exemplo do que fizemos com as demais interaes. Cada contraste passar ento a representar simplesmente um efeito principal, ficando evidente que a tcnica e a freqncia so os fatores mais importantes, dos sete estudados nesse planejamento. A mudana do saque chapado para o cortado resulta num aproveitamento 12,25% maior, enquanto o aumento da freqncia dos saques piora a preciso em 9,25%. Esses resultados so esperados para jogadores de nvel "mdio", como o atleta em questo. 4 Dois contrastes da Tabela 4.11, l5 e l7' correspondendo respectivamente ao lado da quadra e ao tamanho da raquete, tm valores intermedirios. O lado de onde o saque feito parece ser importante: no lado esquerdo o aproveitamento subiu cerca de 7%. Tendo-se em vista que o tenista canhoto, tal resultado no de se estranhar. O emprego de uma raquete maior ajuda a melhorar os acertos em aproximadamente 4%, o que tambm compreensvel. Os demais fatores (hora, camisa e revestimento da quadra) no parecem ter grande importncia.

4 Depois que se aprende, na verdade, a batida cortada mais fcil de controlar que a chapada. No caso do outro fator, realizar os saques a intervalos maiores permite que o jogador se concentre mais, o que ajuda a melhorar o aproveitamento.

172

Esta anlise, feita por alto, considerou desprezveis todos os efeitos de interao. Ser que no estamos enganados? Quem sabe se esses efeitos que desprezamos no so os verdadeiros responsveis pelos altos valores dos contrastes? s vezes pode acontecer que um determinado contraste apresente um valor alto no por causa de um efeito principal, mas por causa de uma interao de dois fatores que tambm tm efeitos principais significativos. Consideremos, por exemplo, os fatores 1 e 2, que individualmente parecem ser importantes. A interao 12 est embutida no contraste 1 4, cujo valor praticamente nulo. Se a interao 12 fosse significativa, esperaramos um valor mais alto para o contraste 1 4 Como isso no aconteceu, conclumos provisoriamente que a interao no deve ser importante. Um argumento semelhante pode ser aplicado s interaes 15 e 17, que contribuem para os contrastes 13 e la, respectivamente. Restam as interaes 25, 27 e 57, que participam de contrastes importantes. A interao 27, por exemplo, entra no contraste 1 5 , que interpretamos como o efeito principal do lado da quadra. Se o valor de 27 for significativo, teremos de mudar nossa interpretao de 1 5 Talvez o lado da quadra no tenha importncia, e o valor 6,75 na verdade indique que o uso de uma raquete maior permite sacar com maior freqncia sem piorar o ndice de acertos.

Tabela 4.12 Um planejamento fracionrio saturado de oito ensaios que, junto com a frao da Tabela 4.10, permite separar o efeito principal do fator 5 das interaes de dois fatores. Os sinais do fator 5 so opostos aos da Tabela 4.10. Os outros fatores permanecem com os mesmos sinais.
Ensaio
1

4
+

6
+

% acertos

52
+ +

2
3

+ + +
+

74
50

4
5

+
+

60
+
54 62

6
7

+
+

+
+ +

+ +

50

63

173

Para resolver essa questo, o pesquisador-atleta fez um novo planejamento, construdo de forma a separar (ou, como s vezes se diz, des<XJDfundir) o valor do efeito principal 5 da soma 13 + 46 + 27. Esse planejamento, que apresentado na Tabela 4.12, baseia-se nas mesmas relaes usadas na Tabela 4.10, com uma exceo. Para o fator 5, que queremos desconfundir, empregamos a relao 5 = - 13, ao invs de 5 = 13. Os dois fatoriais so portanto idnticos, exceto pelos nveis atribudos ao fator 5, que tm sinais exatamente opostos nas duas tabelas. essa caracterstica que vai nos permitir isolar o efeito principal 5, combinando os resultados dos dois planejamentos.

Exerccio 4.15

Cada ensaio das Tabelas 4.10 e 4.12 corresponde realizao de saques sob certas condies, especificadas pelos sinais das respectivas matrizes de planejamento. Descreva a realizao do ensaio n Q 4 na Tabela 4.10. Qual a diferena, em termos prticos, entre esse ensaio e o ensaio n Q 4 da Tabela 4.12?

Os valores dos contrastes calculados para a nova frao so mostrados na Tabela 4.13, juntamente com as relaes entre eles e os efeitos do planejamento fatorial completo. Note que (a) todas as interaes binrias do fator 5 esto com sinal negativo, e (b) todas as interaes binrias do contraste 1 5 tambm esto com o sinal negativo. O nico contraste com valor claramente significativo o que corresponde tcnica de saque (chapada ou cortada). Os contrastes da freqncia e do tamanho da raquete agora tm valores absolutos um pouco acima de 4%. Surpreendentemente, o contraste para o uso da camisa um pouco maior que o contraste referente ao lado da quadra. Talvez esse fenmeno possa ser atribudo contribuio da interao binria 17.

Tabela 4.13 Contrastes calculados na segunda frao 2 7-4 e suas expresses em termos dos
efeitos principais e das interaes binrias do planejamento completo 2 7 Tcnica Freqncia: Hora: Revestimento: Lado: Camisa: Raquete:
lO::
1

l;

= =

13,25 - 4,75 -1,75 -1,75 2,75 3,25 4,25

= = = = = = =

1 + 24- 35 + 67 2 + 14 + 36- 57 3 -15 + 26 + 47 4 + 12 - 56 + 37 5-13-27 - 46 6+23-45+ 17 7 -25 + 34 + 16

1* 3 = z* 4 = z* 5 = z* 6 = z* 7 =

174

Para isolar o efeito principal 5, combinamos os dois contrastes em que ele aparece:
5 == Z5 +Z; == 6,75+2,75 ==475. 22'

Da mesma forma, 13 + 46 + 27 =
_5_ _ 5

1 -l*
2

= 2,00 .

Podemos concluir, ento, que o efeito principal do lado da quadra no aproveitamento do saque quase 5%, ao passo que o efeito combinado das interaes 13, 46 e 27 de 2%.

A Tabela 4.14 mostra as combinaes dos outros contrastes. Voc pode perceber que, alm de isolar o efeito principal 5, tambm conseguimos isolar todas as interaes binrias envolvendo esse fator. Os valores absolutos dessas interaes so todos inferiores a 2,25. Se admitirmos que o valor verdadeiro de todas elas zero, podemos empregar os sete valores da Tabela 4.14 que s correspondem a interaes de dois fatores para estimar o erro de um contraste:

o que d um erro padro de 1,42. Com essa estimativa do erro, podemos finalmente concluir que s os contrastes envolvendo os efeitos principais da tcnica (1), da freqncia (2), do lado da quadra (5) e do tamanho da raquete (7) tm valores significativos, no nvel de 95% de confiana. Outras fraes podem ser executadas, caso seja necessrio isolar outros efeitos. No total, existem dezesseis planejamentos 2 es de sinais nas relaes 4

;ii

diferentes, definidos pelas possveis combina-

= 12, 5 = 13, 6 = 23 e 7 = 123.

Se agora, por exemplo, quisermos saber se o tamanho da raquete (o fator 7) mesmo importante, podemos realizar um outro planejamento mantendo as trs primeiras relaes com o sinal positivo e fazendo 7

=-

123. Combinando os resultados desse planejamento com

os da primeira frao, obteremos estimativas isoladas para o efeito principal do tamanho da raquete e para todas as suas interaes binrias. Essa estratgia de isolamento, contudo, normalmente aplicada em primeiro lugar aos contrastes com os maiores valores. Neste exemplo ela deveria ser aplicada ao fator 1, cujos contrastes so II

= 12,25

e l~:

= 13,25.

175

Quando as variveis so muitas

Teramos ento uma melhor estimativa do efeito principal deste que parece ser o fator mais importante, e tambm estimativas de todas as interaes binrias de que ele participa.

Tabela 4.14 Estimativas do efeito principal do fator 5 e de todas as interaes binrias envolvendo esse fator.
Contraste
1

II +1; 2 II -1; 2

12,25 + 13,25 2 12,25 -13,25 2

12,75 -0,50 -7,00 -2,25 -0,25 1,50 -1,25 0,50 4,75 2,00 1,75 -1,50

= 1 + 24 + 67

=35

1 2 +1; 2 12 -1; 2

= = =

-9,25 -4,75 = 2 -9,25+4,75 2 1,25 -1,75 2 1,25+1,75 2 -0,75-1,75 2 -0,75+1,75 2 6,75+2,75 2 6,75-2,75 2 0,25+3,25 2 0,25-3,25 2 3,75+4,25 2 3,75 -4,25 2

= 2 + 14 + 36

= 57

13 +1; 2 1 -1;

= 3 + 26 + 47

3 -2

= 15

14 +1= 2 1 -1= 2

= 4 + 12 + 37

4 -=

= 56

15 +1; 2
5 -=

=5

1 -1; 2

= 13 + 46 + 27

1 6 +1; 2 1 6 -1; 2

= =

=6+23+17

=45

1 7 +1; 2 1 7 -1; 2

4,00 - 0,25

= 7 + 34 + 16

=25

176

4.3(c) Como construir uma frao de resoluo trs


Saturando um planejamento completo 2m , podemos obter planejamentos fracionrios de resoluo trs para um total de 2m para m
-

1 variveis. Para isso temos de utilizar, como vimos

= 3, relaes geradoras obtidas a partir de todas as possveis interaes dos m fatores = 12,6 = 13, 7 = 14,8 = 23, 9 = 24,10 = 34,11 = 123, 12 = 124,13 = 134, 14 = 234
A frao resultante ter dezesseis ensaios e com ela ser possvel estudar o

de partida. Comeando, por exemplo, com um fatorial 2 4 , devemos empregar estas onze relaes: 5 e 15

= 1234.
o

efeito de quinze (2 4 - 1) variveis. Sua notao ser

2}Y/-ll.

mesmo procedimento pode ser facilmente estendido a um nmero qualquer de

fatores de partida. importante observar, porm, que ao usar um planejamento saturado no estamos condenados a fazer sempre triagens de sete, ou quinze ou, em geral, 2m
-

fatores. Podemos fazer o estudo com qualquer nmero de fatores, desde que inferior ao nmero mximo permitido pelo planejamento. As colunas de sinais que no corresponderem a variveis reais podero ser usadas para calcular uma estimativa do erro padro dos contrastes.

4.3(d) Como construir uma frao 2~V4 a partir de uma frao

2}ii4

Planejamentos de resoluo quatro so facilmente construdos a partir de planejamentos saturados de resoluo trs. Por exemplo, partindo da nossa primeira frao

2Jii4 , podemos

construir o planejamento 2~V4 mostrado na Tabela 4.15. Para isso, comeamos acrescentando ao planejamento de partida uma coluna para o fator 8, toda de sinais positivos. Como um planejamento 28 - 4 deve ter dezesseis ensaios, precisamos de mais oito linhas. Para obter os sinais que faltam, devemos inverter os sinais dos oito primeiros ensaios, linha por linha. O nono ensaio ser o primeiro com os sinais trocados, o dcimo ser a inverso do segundo, e assim at o dcimo sexto, que s tem sinais negativos e portanto obtido a partir do oitavo. Com isto teremos de realizar o dobro de ensaios, mas o trabalho adicional compensado com uma melhora na resoluo. Como o novo planejamento definido pelas relaes 1= 1248, I = 1358, 1= 2368 e 1= 1237, sua resoluo passou a ser quatro.

177

Tabela 4.15 Uma frao de resoluo quatro, 2~4, definida por I 1237. Ensaio
1 2 3
+
+

= 1248 = 1358 = 2368 =


7 8
+
+ +

4
+

5
+

6
+
+

+
+
+

+ + + + + + + + +

4
5

+ +
+

+ +

+ + + + +
+ + +

7
8 9

+
+

+ + +

+
+

10
11

+
+

12 13
14
+ + + +

+ +

+ +
+

+
+ +

+ +

15
16

Exerccio 4.16 Como se chega s relaes geradoras da Tabela 4.15? Por que elas no se alteram quando os sinais dos ensaios so trocados, como foi feito para os ensaios 9-16?

Exerccio 4.17 Use as relaes geradoras dadas na Tabela 4.15 e verifique com que interaes de trs fatores o efeito principall est confundido.

Com resoluo quatro, podemos separar completamente todos os efeitos principais das interaes de dois fatores, como mostra a Tabela 4.16. Os contrastes correspondentes s prprias colunas do planejamento estimam os efeitos principais das oito variveis, ao passo que os contrastes definidos pelo produto de duas colunas estimam combinaes de interaes de dois fatores. Isto, claro, se desprezarmos as interaes de ordem mais alta.

178

Tabela 4.16 Contrastes da frao 2~4, em funo dos efeitos principais e das interaes binrias do fatorial completo 2 8 , desprezando-se as interaes de mais de dois fatores.
l1 l2 l3 l4 l5 l6 l7 l8

=1 =2 =3 =4 =5 =6 =7 =8

l12 l13 l14 l15 l16 l17 l18

= 12 + 37 + 48 + 56 = 13 + 27 + 46 + 58 = 14 + 28 + 36 + 57 = 15 + 26 + 38 + 47 = 16 + 25 + 34 + 78 = 17 + 23 + 68 + 45 = 18 + 24 + 35 + 67

4.3(e) Planejamentos saturados de Plackett e Burman


J vimos que, dispondo de condies materiais para realizar 8, 16, 32, ... , 2m ensaios, podemos empregar planejamentos saturados e com eles estudar a influncia de at 7, 15, 31, ... , 2m
-

1 fatores. Uma outra classe de planejamentos fracionrios emprega um total de 12, 20,

24,28, ... ensaios para investigar simultaneamente at 11, 19,23,27, ... fatores. Esses planejamentos, propostos por R. L. Plackett e J. P. Burman, permitem estimar todos os k = n - 1 efeitos principais (onde n representa o nmero de ensaios) com varincia mnima (Plackett e Burman, 1946). A Tabela 4.17 mostra o planejamento Plackett-Burman correspondente
a n = 12.

Os planejamentos Plackett-Burman tm uma caracterstica em comum com os outros planejamentos fracionrios que estudamos. Os n/2 sinais positivos de qualquer coluna sempre correspondem, nas demais colunas, a n/4 sinais positivos e n/4 sinais negativos. A mesma coisa ocorre com os sinais negativos. Em outras palavras, as colunas so todas ortogonais, e essa simetria permite que os efeitos principais de cada fator sejam determinados individualmente, admitindo-se que os efeitos de interao sejam desprezveis. Embora num planejamento saturado com n ensaios seja possvel estudar at n - 1 fatores, aconselhvel escolher um nmero menor, para que as colunas no utilizadas faam o papel de variveis inertes e possam ser empregadas para estimar o erro associado aos contrastes. No caso dos planejamentos Plackett-Burman, recomenda-se que o nmero de fatores reais no ultrapasse n - 4. Com o planejamento da Tabela 4.17, por exemplo,

179

Quando as variveis s~o mu~tas

devemos estudar no mximo oito fatores. Os trs graus de liberdade restantes 5 podem ser usados para estimar os erros nos valores calculados para os efeitos principais. Uma desvantagem dos planejamentos Plackett-Burman que as relaes entre os contrastes calculados e os efeitos de um fatorial completo so bastante complexas. Isto torna muito mais difcil escolher os ensaios adicionais necessrios para desconfundir os efeitos.

Tabela 4.17 Planejamento fracionrio saturado de Plackett e Burman para o estudo de 11 variveis com 12 ensaios.
Ensaio
I
1

10

11

1
2
3

+ + + + + + + + + + + +

+ +

+ + + + +

+ + +

+ +

+ + + + + + + + + + + + + + + + + + + + + +

+ + + + + + + + + + +

4
5

+ + +

+ +

+ + + + + + + + + + + +

7
8

10
11

12

4.3(f) Tcnicas de Taguchi para engenharia da qualidade


No Japo do ps-guerra, Genichi Taguchi, que trabalhava na Nippon Telephone & Telegraph Co., dedicou-se tarefa de ajudar os engenheiros japoneses a desenvolver produtos de qualidade, apesar das condies bastante desfavorveis que prevaleciam naquela poca: matria-prima inferior, equipamentos ultrapassados, e ainda por cima falta de pessoal qualificado. Taguchi desenvolveu ento uma abordagem baseada em planejamentos experimentais, feitos com o objetivo de projetar produtos ou processos que Fossem pouco sensveis a variaes ambientais;

Um grau de liberdade consumido pelo clculo da mdia (primeira coluna da matriz).

180

Fossem pouco sensveis a variaes nos componentes; Tivessem variao mnima em torno do valor alvo. Em relao ao pensamento tradicional, o enfoque de Taguchi, que depois tornou-se

bastante popular no Ocidente, trouxe duas novidades: Qualquer desvio em relao ao valor alvo passou a ser considerado indesejvel, mesmo que o produto estivesse dentro dos limites de especificao. Durante o planejamento do produto era recomendvel levar em conta os fatores que podemos controlar durante o processo de fabricao, e tambm fatores que so difceis ou impossveis de controlar mas podem afetar a resposta, como pequenas flutuaes nos componentes, degradao dos equipamentos ou mudanas no modo de o consumidor utilizar o produto. Consideremos uma mistura para bolo, fabricada, digamos, com quatro ingredientes: farinha de trigo, acar, ovos e gordura vegetal. Quando o cozinheiro vai preparar o bolo, tem de adicionar leite, ajustar a temperatura do forno e controlar o tempo que a massa vai ficar assando. Esses fatores tambm afetam o resultado final, mas esto fora do alcance do fabricante, por mais explcitas que sejam as instrues na embalagem. Aos primeiros fatores, que podem ser controlados durante a fabricao da mistura, Taguchi chama de parmetros. Os outros so fontes de rudo. Na abordagem de Taguchi, estes ltimos tambm devem ser includos durante o planejamento e o desenvolvimento do produto. Para isso ele recomenda o uso de planejamentos fatoriais ortogonais, semelhantes aos que vimos neste captulo. Dois tipos de planejamento devem ser construdos: um aITaD.jo intem.o, envolvendo apenas os parmetros, e um arranjo extem.o baseado nas fontes de rudo. Esses dois arranjos so ento cruzados, isto , realizam-se ensaios em todas as suas possveis combinaes. Na mistura para bolo, por exemplo, se considerarmos apenas dois nveis para todos os sete fatores mencionados, uma abordagem taguchiana poderia resultar no esquema mostrado na Tabela 4.18. Para Taguchi, a resposta deve estar to prxima do alvo quanto possvel, mas tambm deve ser robusta (pouco sensvel) influncia do rudo. Isto significa que devemos levar em conta no s as respostas dos ensaios no arranjo interno como tambm sua variao com o rudo. Dois ensaios da tabela, o segundo e o oitavo, produzem respostas mdias exatamente sobre o alvo (80). No entanto, o segundo ensaio deve ser preferido, porque tem um desvio padro de apenas 1,83, contra 4,97 do oitavo.

181

Tabela 4.18 Planejamento de Taguchi para o desenvolvimento de uma mistura para bolo. Um arranjo interno L8 para quatro parmetros (Farinha, Gordura, Acar e Ovos) cruzado com um arranjo externo L4 para trs fatores ambientais. O significado de SNT explicado no texto. O valor alvo para y (uma medida de textura) 80.
Tempo/LeitelTemperatura F
G

--+
85

-+96 81 80 75 91 72 85 82

+-97 78 70 83 95 80 90 77

+++
92 79 73 70 90 69 91 75

s
5,45 1,83 4,20 7,33 4,55 5,12 2,94 4,97

SNT
24,6 32,8 25,0 20,0 25,9 23,3 29,5 24,1

92,5 80 74,5 73,5 90 74,8 88 80

+ + + + + + + + + + + + + + + +

82 75 66 84 78 86 86

Na anlise de Taguchi, na verdade, deveramos escolher o melhor ensaio analisando uma relao sinal-rudo, escolhida de acordo com o objetivo do experimento. Para este exemplo, em que o objetivo chegar a um determinado valor nominal,6 Taguchi recomenda maximizar a relao

SNT =1010g2"" ' s


cujos valores aparecem na ltima coluna da Tabela 4.18. Por este critrio, o segundo ensaio tambm seria o escolhido. J o oitavo ensaio, que dos outros sete o nico centrado no valor alvo, ficaria em antepenltimo lugar, ganhando apenas do quarto e do sexto ensaios. Isto uma conseqncia da nfase taguchiana na robustez da resposta em relao ao rudo. tambm uma das razes para as crticas que os mtodos de Taguchi tm sofrido ultimamente.
A estratgia advogada por Taguchi para a melhoria da qualidade intrinsecamente

-2

multivariada, no trazendo grandes novidades do ponto de vista formal. Seus planejamentos envolvendo dois nveis, por exemplo, tm a mesma estrutura dos planejamentos fatoriais que discutimos neste captulo e no anterior. Na metodologia taguchiana, como vimos, esses planejamentos devem ser realizados para descobrir a combinao de nveis dos fatores que produz respostas com a menor variao entre repeties e mais prximas do objetivo desejado.

E no maximizar ou minimizar alguma resposta.

182

Taguchi sugere que os experimentos utilizem ensaios de dois nveis, definidos por planejamentos em redes ortogonais designadas por L4, L8, L12, L16 e L32, onde o nmero indica o total de ensaios de cada planejamento. A rede L4 um fatorial fracionrio 23-1 , no qual os nveis da terceira varivel so definidos pela relao geradora I = 123. O planejamento L8 equivalente ao fatorial 2 7-4 mostrado na Tabela 4.10, s que construdo a partir das relaes geradoras I = - 124, I = - 135, I = - 236 e I = 1237. Nas matrizes de planejamento de Taguchi as colunas so dispostas numa ordem diferente da ordem padro que apresentamos neste livro, mas como qualquer fator pode ser atribudo a qualquer coluna de sinais, os dois tipos de planejamento so idnticos.

planejamento de Taguchi para doze ensaios, L12, bastante diferente do

planejamento saturado de Plackett e Burman para estudar onze fatores em doze ensaios (Tabela 4.17). Mesmo assim, os dois planejamentos so ortogonais e devem apresentar os mesmos resultados, se todos os efeitos de interao forem desprezveis. Caso isso no ocorra, as interpretaes dos contrastes podem ser diferentes, porque as relaes entre os contrastes e os efeitos principais e de interao so diferentes para os dois planejamentos. Assim como nos planejamentos Plackett-Burman, essas relaes so bastante complexas, dificultando o desconfundimento dos efeitos atravs de uma expanso do planejamento. Taguchi prope ainda planejamentos com trs ou mais nveis, que podem ser usados para identificar tendncias no-lineares nas relaes entre as respostas e os fatores, mas esses planejamentos no so capazes de estimar interaes de dois fatores. Embora todos louvem a filosofia taguchiana de procurar desenvolver produtos robustos ao rudo, seus mtodos de planejamento e anlise tm sido muito criticados. Vrios autores argumentam que os mesmos resultados podem ser obtidos de forma mais eficiente usando-se outros planejamentos (veja, por exemplo, Myers e Montgomery (1995), Captulo 10). Os planejamentos cruzados de Taguchi levam a um nmero de ensaios muito grande e, o que talvez seja pior, ignoram as interaes entre os fatores controlados. Na presena de interaes significativas, a interpretao dos resultados no fica clara, e assim perdemos uma oportunidade de ficar conhecendo melhor o mecanismo de funcionamento do sistema, o que seria de grande utilidade em problemas futuros. Uma alternativa substituir os arranjos de Taguchi por um nico planejamento fracionrio, em que os fatores de rudo e os fatores controlados sejam tratados da mesma forma. Por exemplo, ao invs de usar o arranjo cruzado L8xL4 que resulta nos 32 ensaios da Tabela 4.18, poderamos usar um planejamento 27-3 oombinando todos os sete fatores, que exigiria apenas dezesseis ensaios e no confundiria efeitos principais com interaes de dois fatores.

183

ou:an:ao as variveh; so muitas

o uso das relaes sinal-rudo tambm tem sido duramente criticado. Ao combinar y
e
8 2

num nico valor numrico, estamos misturando proximidade em relao ao alvo com

flutuao causada pelo rudo, e por isto muitos pesquisadores preferem analisar separadamente os valores das respostas e suas varincias. Vimos a diferena que faz usar ma abordagem ou a outra, na anlise dos resultados da Tabela 4.18. Os adeptos da filosofia taguchiana rebatem as crticas argumentando que os mtodos funcionam. Existem pelo menos duas razes para esse fato. A mais importante, talvez, que os engenheiros, como Taguchi, aproveitam o conhecimento que j tm do sistema para escolher o planejamento mais apropriado, no que alis fazem muito bem. A combinao da informao tcnica especializada com uma metodologia estatstica (mesmo imperfeita) uma ferramenta poderosa para resolver problemas de pesquisa ou desenvolvimento. A outra razo que a metodologia de Taguchi foi aplicada principalmente em indstrias que, no tinham o costume de usar planejamentos multivariados. Estes, como j sabemos, costumam funcionar melhor do que os mtodos univariados, mesmo no sendo usados da melhor maneira. As indstrias no tardaram a perceber a diferena. Os mtodos de Taguchi e os outros planejamentos fatoriais que estudamos tm em comum a idia de fazer estudos multivariados baseados em planejamentos ortogonais. Com eles, mesmo que o pesquisador no escolha o planejamento ideal, ter mais chances de sucesso do que se usar os mtodos univariados tradicionais.

184

4A Aplicaes

4A.l Adsoro em slicas organofuncionalizadas


Num experimento preliminar de um estudo que tinha como objetivo estudar a adsoro de Cu(II) em superfcies de slica organofuncionalizadas (obtidas quando grupos Si-OH na superfcie da slica se ligam a alcoxisilanos), empregou-se o planejamento fracionrio cujos dados esto a seguir (Cestari, Bruns e Airoldi, 1996).

Tabela 4A.l- Dados do experimento.


+

Fatores:

1: Tipo de slica 2: Sal 3: Solvente 4: Quantidade de slica (mg)

Sil-et-1 CuCl2 gua 100 4

Sil-et-2 Cu(C2H302)2 Etanol 200

Ensaio
1 2

y, moI g-l(X 104)

0,39

+
+
+

+
+

1,74 1,37 1,68

3 4 5
6
7

+
+

4,66 6,12 6,09

+
+

+ + + +

2,61

Contrastes:

1=234
-0,09

2=134
-0,29

3=124
3,58

4=123
-0,98

12=34
-1,50

13=24
-0,92

14=23
-0,75

185

3
O
1 1tt1t

I 4
~

o __-[-Ot-..-I_.._J....t

I
!

I
i

I
I
!

I
I
!
.

F I
4

I
.

:~ _ l- r r r _ ..r
~-----_

{:>

-2

-2

-1

.........- - - - ' - - - - _ - . . . . . . _ - - - - - - - - ' 2 4 3

Efeitos

Figura 4A.l- Grfico normal dos efeitos.

2,61

__1

Figura 4A.2 - Grfico cbico das respostas da Tabela 4A.1.

o grfico normal

mostra como o contraste 3 (+3,58) se destaca dos demais. J de-

vamos esperar por esse resultado, porque as quatro ltimas respostas, que correspondem ao

186

nvel superior do fator 3, tm valores maiores do que as quatro primeiras. Mas no s isto. Os outros contrastes, embora bem menores em valor absoluto, so todos negativos, o que sugere que eles representam um comportamento sistemtico, e no apenas uma manifestao do erro puro. Esta suspeita confirmada pelo grfico cbico (Fig. 4A.2). Tanto o fator 2 (sal) quanto o fator 4 (quantidade de slica) tendem a diminuir a resposta quando passam do nvel inferior para o superior. Isto ocorre em trs dos quatro efeitos individuais de ambos os fatores. As duas excees envolvem o valor da resposta no ensaio (1 2 3 4) = (- - - -), que muito baixo (0,39). De qualquer forma, a Figura 4A.2 deixa claro que, se quisermos aumentar a quantidade de Cu(ll) adsorvida, devemos no apenas fixar o fator 3 no seu nvel superior (isto , usar etanol como solvente), mas tambm fixar o fator 4 no seu nvel inferior - isto , usar menos slica. Nessas condies, o tipo de sal no parece fazer muita diferena. O segundo contraste mais significativo a interao 34 (=12 = -1,50). Voc consegue entender por qu, examinado a Figura 4A.2?

4A.2 Termogravimetria do oxalato de clcio


Um planejamento fatorial fracionrio 2~ij2 foi usado para avaliar os efeitos do fluxo de nitrognio, da massa da amostra, da taxa de aquecimento, do tipo de cadinho e da correo da linha de base na decomposio trmica do oxalato de clcio monohidratado, acompanhada por termogravimetria (Mathias, Scarminio e Bruns, 1999). Uma das respostas estudadas foi o ponto mdio de um determinado pico no termograma (Tabela 4A.2).

Tabela 4A.2 - Dados do experimento. +


Fatores: 1: Fluxo de nitrognio, ml min- 1 2: Massa da amostra, g 3: Taxa de aquecimento, 4: Tipo de cadinho 5: Correo da linha de base 30 4 15 10 50 Pt com

De min- 1

10
Al20S

sem

187

Quando as

V'arive~s

so muitas

Ensaio 1 2 3 4 5 6 7 8

5
+

Ponto mdio, 726,4 695,4 734,7

+ + + + + + + + + + + +

+ + + + +

738,4 780,8 768,9 822,8

856,1

Contrastes:
1

2 45,13

4 2,63

13 12,18

23 19,48

-1,48

83,43

19,98

Aqui, como se trata de uma frao quarta, os efeitos esto confundidos quatro a quatro, e a interpretao dos contrastes fica um pouco mais complexa. Devemos nos lembrar de que os rtulos da tabela acima na verdade significam somas de quatro efeitos. O valor mais significativo, 83,43, na verdade a soma de efeitos 3 + 45 + 124 + 1235. Tambm no podemos deixar de perceber que sete dos oito contrastes tm valores positivos, e o nico contraste negativo justamente o menos significativo de todos. Mesmo assim, possvel extrair algumas concluses. Como os contrastes mais significativos so 3, 2, 5 e 23, veja Figura 4A.3, um grfico cbico das respostas nos fatores 2, 3 e 5 (Figura 4A.4) nos ajudar na interpretao, que mais simples do que no exemplo anterior. Todos os contrastes individuais agora so positivos, ao longo dos trs os eixos da figura. Fazendo a ressalva de que estamos falando de contrastes que na verdade abrigam quatro efeitos, tambm podemos notar evidncia de interao entre os fatores. Por exemplo, quando o fator 2 (massa) est no nvel inferior, o efeito mdio do fator 3 (taxa de aquecimento) 64,0. Quando o fator 2 passa para o seu nvel superior, isto , quando usamos uma amostra mais pesada, o efeito mdio da taxa de aquecimento sobe para 103,0. Como o fluxo de nitrognio e o tipo de cadinho no afetam a posio do pico, podemos usar um fluxo menor (15 ml min- I ) e o cadinho de Al203, que muito mais barato que o cadinho de platina. Efeitos positivos para a massa da amostra e a taxa de aquecimento j eram esperados pelos pesquisadores, por causa da demora para se alcanar o equilbrio trmico. 188

Capitu~o

o 3
02 5
~

o
O iO
-1

,..
\"

23

-2 -20

20

40

60

80

100

Efeitos

Figura 4A.3 - Grfico normal dos efeitos.

856,1

Figura 4A.4 - Grfico cbico das respostas da Tabela 4A.2.

189

Quando as variveis so muitas

4A.3 Anlise cromatogrfica de gases

monitoramento do desempenho de transformadores eltricos pode ser feito pela anlise

cromatogrfica dos gases dissolvidos no leo mineral que faz parte do sistema isolante. Num estudo dos efeitos de cinco fatores sobre resultados cromatogrficos para anlise de etileno, um fatorial fracionrio foi executado por dois alunos (M. M. da Silva Jr. e C. A. G. da Cmara) como dever de casa num curso de quimiometria (Tabela 4A.3).

Tabela 4A.3 - Dados do experimento. +


Fatores:
1: Volume ocupado pela amostra, mL

10 50 5 sem 3

19 80 20 com 11

2. Temperatura da amostra,

3: Tempo de equilbrio da amostra, mino 4: Agitao 5: Pressurizao da amostra, psi

Ensaio 1 2 3 4 5
6

5 + +

Sinal, ua* 49 21 15

+ + + + + + + + + + + + + + + +

1 42 2

+ +

25 32

* ua = unidades arbitrrias
Contrastes:
1
-18,75

2
-10,25

3
3,75

13
2,25

15
8,25

15,25

16,75

190

Capitu~o

Dos cinco efeitos principais, o do fator 3 (tempo de equilbrio) claramente secundrio. Quanto aos outros quatro, no podemos descartar a possibilidade de que alguns sejam devidos principalmente a interaes. Por exemplo, o efeito da agitao (4) est confundido com a interao entre o volume ocupado e a temperatura (12), enquanto que o efeito da pressurizao (5) se confunde com a interao entre a temperatura e o tempo (23). Na verdade, estas foram as relaes usadas para escolher os sinais das colunas 4 e 5 no planejamento. A Figura 4A.5 mostra as respostas em funo dos nveis dos fatores cujos efeitos principais parecem ser os mais importantes. Percebe-se algum padro,1 mas no devemos nos esquecer dos confundimentos, e de que o fator 2, que no aparece no grfico, tambm apresenta um contraste relativamente alto. Como o objetivo deste experimento era aumentar o sinal analtico, o melhor resultado do fatorial fracionrio tem volume ocupado e temperatura nos nveis inferiores (10 mL e 50 De), com pressurizao da amostra (5) em 11

psi, sob agitao (4). Como o tempo de equilbrio (3) no tem efeito importante, o menor
tempo poderia ser usado sem prejudicar os resultados.

32

+1
(fl

21

~ ......

E" ..1
~,
~

g;l

~ ~.

~~'-

,~~~

~~

Figura 4A.S - Respostas da Tabela 4A.3 em funo dos fatores 1,4 e 5.

4A.4 Resposta cataltica da Mn-porfirina


Um planejamento fatorial fracionrio foi realizado por alunos de um curso de quimiometria, para investigar como a resposta cataltica da Mn-porfirina MnM2-Br PTTP afetada por sete

Qual?

191

Quando as variveis so muitas

fatores. Os resultados obtidos esto na Tabela 4A.4. A resposta a relao entre a quantidade de ciclohexanol produzida na reao catalisada pela porfirina e uma quantidade fixa de um padro interno previamente adicionado ao meio de reao.

Tabela 4A.4 - Dados do experimento.


+

Fatores:

1: Modo de agitao 2: Temperatura, 3: Tempo, mino 4: [Catalisador], M 5: Razo <t>IO/MnP 6: Imidazol 7: Solvente

Agitao magntica

Ultrassom Ambiente 90 10-3 15 Presente Acetonitrila

De

o
30 10-4 90 Ausente Diclorometano

Ensaio 1 2 3 4 5 6 7 8
Contrastes: 1

4 +

5
+

6 + +

% ciclohexanol

34,3 + + 5,6 3,6 2,9 + 19,8 19,6

+ + + + + + + + + + + + + + + + + +

+ + +

4,4 3,85

2 -16,14

3 0,31

4 6,91

5
7,16

7 -7,09

-7,54

0,56

Dois fatores, o tempo (3) e a presena de imidazol (6), no parecem ter importncia, o que transforma o planejamento numa frao 2 5- 2

Quanto aos cinco restantes, dois agem no

sentido de aumentar o teor de ciclohexanol - a concentrao de catalisador e a razo <t>IO/MnP -, enquanto os outros trs (o modo de agitao, a natureza do solvente e princi-

192

Capitu~o

palmente a temperatura) atuam para diminu-lo. A Figura 4A.5 mostra como os dois principais fatores afetam as respostas. Devemos suspeitar de alguma interao entre eles? Qual dos outros trs fatores importantes (4, 5 e 7) voc associaria com a diferena entre as respostas obtidas nos pares de experimentos onde (12) = (--) e (12) = (+ -)?

~~

" 0

t!""l.:........,

Figura 4A.S - Respostas da Tabela 4A.4 em funo dos fatores 1 e 2.

4A.S Escoamento de xidos na indstria siderrgica

o objetivo principal de um projeto de pesquisa executado por alunos de um curso de quimiometria era otimizar um procedimento para diminuir o tempo de escoamento de xidos utilizados na indstria siderrgica. Quatro fatores foram estudados com um planejamento fatorial fracionrio 24-1 : percentagem de aditivo, tipo de solvente utilizado na homogeneizao, presena (ou no) de catalisador e tempo de permanncia na estufa. Veja Tabela 4A.5.
Tabela 4A.S - Dados do experimento.

Fatores:

1: Solvente 2: Aditivo, % 3: Catalisador 4: Tempo de estufa, mino

Hexano

lcool
2

1
sem 5

com

10

193

Ensaio

Tempo, s

1
2 3

32,5
+

+ + +

26,0 76,0 38,5

4
5
6

+ +

74,0 35,5 23,0

42,0

Contrastes:

1=234
-15,88

2=134
2,88

3=124
0,38

4=123
22,13

12=34
6,63

13=24
6,13

14=23
-25,13

Os valores calculados para os contrastes parecem no deixar dvida de que s h dois fatores importantes (1 e 4 - solvente e tempo), e que a interao entre eles tambm importante. Tomando os fatores 2 e 3 como inertes, ficaremos com um planejamento fatorial 22 duplicado (Tabela 4A.6), do qual poderemos extrair uma estimativa do erro puro e conseqentemente uma medida da significncia dos efeitos.

Tabela 4A.6 - Planejamento 2 2 em duplicata nos fatores 1 e 4. 1

Tempo, s

Mdia

Varincia

32,5
+ + + +

23,0 35,5 74,0 42,0

27,8 37,0 75,0 34,0

45,13 4,5 2,0 128,0

38,5 76,0 26,0

A varincia agregada dos ensaios em duplicata 44,91. O desvio padro a raiz quadrada deste valor, 6,70. A varincia de um efeito metade disto, 22,45, e portanto o seu erro padro 4,74. Como a estimativa da varincia agregada tem quatro graus de liberdade, o intervalo de 95% de confiana dado por

(t 4 x4,74)= (2,776 x4,74)= 13,2 ,

194

Capitu~o

4:

confirmando que apenas trs contrastes so significativos, como a simples inspeo dos valores calculados j havia apontado. A Figura 4A.6 nos permite visualizar o que significam na prtica os valores calculados. Quando o solvente o hexano, o aumento da permanncia na estufa eleva bastante a resposta. Quando o lcool, praticamente no faz diferena. O objetivo do experimento era minimizar o valor da resposta - o tempo de escoamento do xido. Nossa anlise mostra que isto pode ser conseguido de mais de uma maneira, e curioso notar que as duas menores respostas obtidas nos oito experimentos correspondem aos ensaios 7 e 2 , que so diametralmente opostos nos sinais dos fatores 1 e 4. Concluso: o que realmente no devemos fazer, se queremos obter um baixo tempo de escoamento, usar hexano e deixar o xido na estufa por muito tempo.

80

r-----.------,-------~----_....,.------_,

60
(lj
+J

r,,: ..

C/)

O CC/)

a:: 40

Q)

1-

-/-

;....

.................

-o- Hexano
..0..

20

'-----------I.....

----'---_ _~_------L _ _~_ _- - J

lcool

10

Tempo de estufa Figura 4A.6 - Respostas mdias da Tabela 4A.5, em funo dos fatores 1 e 4.

4A.6 Produo de violacena por bactrias


Num projeto de um curso de quimiometria, A. S. Mendes, da CQPBA-UNICAMP, usou um planejamento fatorial fracionrio 2 15-11 para estudar a produo do pigmento violacena pela

Chromobacterium violaceum. A violacena o pigmento produzido em maior quantidade por


essa bactria, e tem vrias aplicaes famacolgicas, como bactericida, tripanocida, antitumoral e antiviral. Os resultados obtidos esto na Tabela 4A.7.

195

Quando as variin..Hs so muitas

Tabela 4A.7 - Dados do experimento.

+
Fatores: 1: Fonte de carbono (D-glicose) 2: Extrato de levedura 3: DL Metionina 4: Vitamina B12 5: L-triptfano 6: Agitao 7: Temperatura 8: pH (Tampo fosfato) 9: Peptona bacteriolgica 10: Inculo ( com 10 hs e ABS = 0,26) 11: ZnS04 Ensaio 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 1 2 3 4 5 6 7 8 9 10 11 0,25% 0,1% 0,01g!L 0,012ng/mL 0,02% 150 rpm 28C 6,8 0,2% 1% 0,05mM 1% 0,6% 0,1g!L O,OlfJ-g/mL 0,1% 250 rpm 33C 7,8 0,8% 5% O,lmM Resposta 0,39

+ + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + +

+ +

+ +

+ + + + + +

0,19 0,26 0,14

+ + + + + + + + + + + +

+ +

0,26 0,15 0,31

0,00 0,09

+ + + + + +

0,00 0,24 0,26 0,17 0,14 0,26

+ + + +

+ + + +

0,31

196

Contrastes:

1
-0,99 9 0,119

2
0,049 10 0,069

5
0,009

6 -0,001

7
0,086

8
-0,009

0,04
11

-0,029

-0,039

Como os sinais das colunas 12 - 15 no correspondem a nenhum fator real, podemos usar os valores dos contrastes calculados a partir delas como estimativas do erro padro de um efeito (supondo, claro, que todas as interaes sejam desprezveis). Podemos obter uma estimativa agregada, com quatro graus de liberdade, a partir de

V(efeito)= (0,039f +(0,024)2 +(-0,029)2 + (0,031f =9,75xlO-4 .


4

o erro padro do efeito a raiz quadrada deste valor, 0,031. No nvel de 95% de confiana,
isto corresponde a um intervalo de 2,776 x 0,031 = 0,087, indicando que os efeitos dos fatores 9 (peptona), 1 (glicose) e 7 (temperatura), nessa ordem, so os mais significativos. O aumento da concentrao de peptona e da temperatura tende a aumentar a produo de violacena, enquanto o aumento de glicose tende a reduzi-la. Tudo isto fica claro no grfico cbico das respostas mdias em funo desses trs fatores (Figura 4A.7). Esses trs fatores seriam os mais fortes candidatos para um estudo mais aprofundado, se a nica resposta de interesse for a produo de violacena.

0,251

Figura 4A.7 - Respostas mdias da Tabela 4A.6, em funo dos fatores 9,7 e 1.

197

Quando as varive~s so muitas

4A.7 Cura de uma resina polister


A produo industrial de uma resina polister insaturada controlada por vrios fatores, cujos nveis conferem ao produto determinadas caractersticas importantes para o seu processamento posterior, por empresas que o utilizam como insumo. No processo de cura, adiciona-se um catalisador para acelerar a formao de gel pela resina. O tempo a partir do qual o gel comea a ser formado, depois da adio do catalisador, uma caracterstica importante conhecida como tempo de gele

Tabela 4A.S - Dados do experimento. Todos os nveis esto em ppm.

+
Fatores: 1: Hidroquinona (HQ) 2: Benzoquinona (BQ) 3: Octanoato de cobre (Cu) 4: Octanoato de cobalto (Co) 5: Dimetilanilina (DMA) Ensaio 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 Ordem 11 4 1 12 2 13 14 16 3 9 10 5 15 8 6 7 1 2 3 4 190 20 180 900 270 5 210 30 360 1800 540 Tempo de gel (min) 14,02 29,42

+ + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + +

26,07 17,58 25,18 17,03 15,24 33,54 18,30 12,17 10,57 22,20 10,19 23,52 21,14 13,10

198

Capittdo 4

Contrastes:

1
3,48

2
1,20

3
1,08

4
-5,86

5
-11,18

12
--0,13

13
0,38

14
-0,78

15
-1,01

23
0,57

24
-0,49

25
-0,43

34
0,10

35
-0,77

45
1,40

A. D. Liba e C. E. Luchini, alunos de ps-graduao em engenharia qumica, decidiram investigar (como trabalho para um curso de quimiometria) a influncia das concentraes de cinco aditivos usados no processo de produo da resina sobre o seu tempo de gel. Para isso usaram o planejamento fracionrio 2 5- 1 cujos dados esto na Tabela 4A.8. O catalisador empregado para produzir o gel foi o perxido de metil-etil-cetona, acrescentado na proporo constante de 1% da massa de resina. O grfico normal dos efeitos (Figura 4A.8) muito fcil de interpretar, e mostra que o tempo de gel totalmente controlado por trs fatores (5 cobalto e 1

= Dimetilanilina, 4 = Octanoato de

= Hidroquinona, nessa ordem de importncia). Os fatores 4 e 5 contribuem para

diminuir o tempo de gel, enquanto o fator 1 tende a aument-lo. No existe nenhuma interao significativa. Isto bom, porque significa que os fatores podem ser variados de forma independente, conforme a convenincia do usurio. Os valores na escala da direita do grfico so probabilidades acumuladas correspondentes aos valores de z na escala da esquerda.

3,...-------r-----------r----...------r---------r-----,
I I I

--------l-------------t-------"t--~;:-t-_1--

.95

.75
~

O
-1
I I I

.55 .35
.15

-2

------~--+-----------~---/------i--. . .- . --.-_.-.-..~-.-.
!

,!
!

.01

-3 '---_ _

__

__L__

_ _- - . . . .

~----I

-10

-5

Efeitos

m - Interaes + - Efeitos principais


Figura 4A.S - Grfico normal dos efeitos.

199

Quando as variveis so muitas

Existe um outro ponto interessante que vale a pena mencionar nesta aplicao, e que serve para nos lembrar de uma questo crucial em qualquer planejamento. Apesar de a separao entre os nveis dos fatores afetar diretamente a intensidade da resposta, nem sempre ns temos total liberdade para vari-la. Isto particularmente verdadeiro quando se trata de um experimento realizado na indstria, onde as caractersticas do processo costumam impor diversas condies de contorno. Todos os nveis dos fatores neste experimento so concentraes, medidas nas mesma unidades, o que nos permite fazer uma comparao direta das quantidades usadas nos dezesseis ensaios. Para os trs ltimos fatores, a concentrao do nvel superior o dobro da concentrao do nvel inferior. O tempo de gel no afetado pelo fator 3, mas os fatores 4 e 5 so justamente os que apresentam os dois maiores efeitos. O interessante que o efeito significativo restante, o da hidroquinona (1), o que corresponde menor variao de concentrao entre os dois nveis (cerca de 11 %, apenas). Caso fosse possvel variar os nveis de hidroquinona na mesma extenso dos outros dois fatores importantes (levando-se em considerao, claro, todas possveis restries que acabamos de mencionar), talvez o seu efeito viesse a tornar-se o mais significativo de todos. A Figura 4A.9 ilustra esta possibilidade, bem como facilita a visualizao dos resultados do experimento.

12,64

Figura 4A.9 - Respostas mdias da Tabela 4A.8, em funo dos fatores 1,4 e 5.

200

5
Como construir modelos empricos

Nos planejamentos experimentais que vimos nos captulos anteriores, cada fator era estudado em apenas dois nveis. Por causa dessa economia, tivemos de nos contentar com uma viso limitada da funo que descreve a influncia dos fatores sobre a resposta. Consideremos, por exemplo, a variao do rendimento da reao com a temperatura, que discutimos no Captulo 3. De acordo com a Tabela 3.1, os rendimentos mdios observados com o catalisador A so 59%, a 40C, e 90%, a 60C. Colocando esses dois pares de valores num grfico [Figura 5.1(a)], vemos que eles so compatveis com um nmero infinito de funes. No Captulo 3 fizemos o ajuste das respostas a um modelo com uma parte linear e tambm com termos de interao, mas no temos nenhuma garantia de que este seja o modelo correto. Se quisermos esclarecer essa questo, precisaremos obter mais informaes. Se fizermos, digamos, mais trs medidas em temperaturas intermedirias e verificarmos que o grfico dos cinco pontos fica parecido com o da Figura 5.1(b), a sim, passaremos a ter mais confiana no modelo linear. Um grfico como o da Figura 5.1(c), por outro lado, ser tomado como uma evidncia de que o modelo linear no apropriado. Estas consideraes tambm servem para lembrar que os planejamentos de dois nveis constituem apenas uma etapa inicial na investigao. Para conhecer melhor a superfcie de resposta, teremos de realizar experimentos num maior nmero de nveis.

5.1 Um modelo para y = f( T)


A Tabela 5.1 mostra os rendimentos observados num novo planejamento, no qual fizemos a

reao em cinco temperaturas igualmente espaadas na faixa 40 - 60C, e mantivemos o catalisador no tipo A. Pelo grfico desses valores (Figura 5.2), um modelo linear parece mesmo o mais indicado para descrever a variao do rendimento com a temperatura. Lembrando que cada observao afetada por um erro aleatrio, podemos representar esse modelo por meio da equao (5.1)

201

onde

Yi

o rendimento correspondente temperatura


1

Ti

o erro aleatrio associado

determinao experimental do seu valor.


(a)
90

fio e

fJ! so os parmetros do modelo.


? :

"

y(%) 70

50

40

50
T(OC)

60

(b)
90

y(%) 70

50

40

50
T(OC)

60

(c)
90
.','

....................-----..---,-, ?
"

y(%) 70

50

1
40

50
T(OC)

60

Figura 5.1 (a) Dados dois pontos, podemos passar por eles muitas funes diferentes. (b) Padro de pontos sugerindo uma funo linear. (c) Padro de pontos onde um modelo linear no seria adequado.

1 Por conveno, costumamos usar letras minsculas para representar as variveis aleatrias e letras maisculas para as variveis controladas.

202

Tabela 5.1 Variao do rendimento da reao em funo da temperatura, na faixa 40 60C, com o catalisador A. Temperatura (OC) Rendimento (%) 40
60 45 70
50 55

60

77

86

91

100 -------------.----------.-----....--------...----------,

90

80

70

..

0....

60

...... .. 0 ........

50

L..........A.._ _"""--'-

..........

- - - ' - - _............_......o.--""""-

...a--

--..l

35

40

45

50

55

60

65

T ('e)

Figura 5.2 Rendimento da reao em funo da temperatura. Dados da Tabela 5.1. Para determinar os valores de

fio

fil

devemos ajustar a Equao 5.1 aos cinco

pares de valores (yi,Ti ) da Tabela 5.1. Isto , temos de resolver um sistema de cinco equaes,

onde cada equao contm um par de valores (yi' Ti) incgnitas so

= (rendimento,

temperatura), e cujas

fio

fil'

Esse sistema pode ser representado de forma compacta por uma

nica equao matricial,

203

y= XB +c,

(5.1a)

onde

y=

x=
Ys

c=

A equao matricial 5.1a tem a grande vantagem de permanecer vlida em geral, no importa quantas sejam as observaes ou os parmetros do modelo. Basta ampliar as matrizes apropriadamente, como veremos mais tarde. Voc pode verificar, usando uma rgua, que no possvel traar uma reta que passe ao mesmo tempo por todos os cinco pontos da Figura 5.2. Qualquer reta que decidirmos escolher deixar resduos em relao a algumas observaes, como est ilustrado, com um certo exagero, na Figura 5.3. Os resduos podem ser positivos ou negativos, conforme os rendimentos observados estejam acima ou abaixo da reta escolhida. A melhor reta ser sem dvida a que passar "mais perto" dos pontos experimentais, j que impossvel passar exatamente sobre todos eles.

Tl

Figura 5.3 Resduos deixados por um modelo linear. Um resduo uma diferena entre um valor observado e a sua estimativa de acordo com o modelo: ei = Yi - Yi .

204

Em termos prticos, "passar mais perto" significa minimizar a distncia global dos pontos em relao reta, isto , minimizar o comprimento total dos segmentos verticais na Figura 5.3. A maneira tradicional de conseguirmos esse resultado localizar a reta de tal maneira que a soma dos quadrados dos resduos seja mnima, razo pela qual esse mtodo chamado de ajuste por mnimos quadrados. conhecido tambm como anlise de regresso, termo usado pela primeira vez neste contexto por Sir Francis Galton, um dos pioneiros da Estatstica, num trabalho de 1885 intitulado Regression toward mediocrity of hereditary

stature .
Se na temperatura reta de regresso

Ti

o rendimento observado Yi e o rendimento previsto pela

Yi

(veja a Figura 5.3), o resduo deixado pelo modelo


(5.2)

onde

Yi = bo +~Ti , sendo
/30
e

bo e b1 os coeficientes que definem a localizao da reta, isto , os

estimadores de

/31'

para os quais queremos obter estimativas numricas. Usando

matrizes, podemos escrever

y=Xb

(5.3)

onde y e b so as matrizes contendo respectivamente os valores previstos pelo modelo e os estimadores dos parmetros:
Y1

y=

Y2 Ys

b=[~l

Como os valores Yi j so conhecidos de antemo, os resduos iro depender apenas dos valores que escolhermos para bo e b1 . No ajuste por mnimos quadrados, esses valores so aqueles que tornam o somatrio Para que o valor de

I,e;

o menor possve1. 2

I,e;

seja mnimo, preciso que suas derivadas em relao a bo

e b1 se anulem (Box, Hunter e Hunter, 1978, Captulo 14; Pimentel e Neto, 1996):

2 Em geral, os somatrios sero realizados sobre o ndice i, de i = 1 at i = n, o nmero total de observaes. S vamos colocar os ndices embaixo da letra L quando houver necessidade de evitar

confuso.
205

a(Le;) =0
abo

(5.4a)

a(Le;) = O .
a~

(5.4b)

Para tornar a derivao mais geral, vamos representar a varivel independente, que neste exemplo a temperatura, por X. Teremos assim, para a equao de regresso, a expresso Yi

= bo + ~Xi. Substituindo na Equao 5.2, elevando ao quadrado e fazendo o

somatrio,obtennos

Derivando e igualando a zero, chegamos s expresses (5.5a)

(5.5b)

Cortando o fator -2 e desdobrando todos os somatrios, ficamos com um sistema de duas equaes lineares em bo e b1 , que so as chamadas
equa~ normais:

nbo+~LXi = LYi
boLXi + b1 LX~

(5.6a) (5.6b)

= LXiYi .

Isolando bo em (5.6a), obtemos

ou Substituindo a primeira destas expresses em (5.6b), podemos escrever

(5.7)

e da

Isolando b1 , tennos finalmente 206

(5.8)

Esta equao pode ser colocada numa forma mais fcil de lembrar, contendo os resduos em torno das mdias de X e de y (Exerccio 5.1):

(5.9)

Ou ainda, numa notao mais compacta, (5.10)

Exerccio 5.1 Desenvolva a Equao 5.9 e mostre que ela equivalente Equao 5.8.

Exerccio 5.2 Mostre que

Exerccio 5.3 Com a notao introduzida na Equao 5.10, como seria representado o desvio padro amosral da varivel y?

Podemos calcular os valores de bo e

resolvendo uma nica equao matricial.

Com os resultados do Exerccio 5.2, as equaes normais (5.6a) e (5.6b) reduzem-se a (5.11) como voc pode facilmente comprovar, escrevendo as matrizes por extenso. Para resolver esta equao, devemos multiplic-la esquerda pela inversa de XtX. Assim isolamos o vetor b, cujos elementos so os estimadores que procuramos:

207

(5.12)

Esta uma equao muito importante, que vale a pena voc saber de cor. Se ampliarmos as matrizes X e y adequadamente, teremos a soluo geral para o ajuste de um modelo por mnimos quadrados, no importa quantas sejam as observaes ou quantos parmetros sejam necessrios para caracterizar o modelo. Para que a soluo exista, porm, preciso que (a) A matriz (XtX singular. (b) Os modelos sejam lineares nos parmetros, ou seja, eles no podem conter termos como

possa ser calculada, isto , preciso que a matriz XtX no seja

b5 ou bob1 Esta restrio, no entanto, no to severa quanto parece. Podemos escrever


equaes muito complexas e ainda assim lineares nos parmetros (Exerccio 5.4). Usando os dados da Tabela 5.1, podemos escrever 60 70 y= 77 86 91 e da
XtX _ [ 5 250] 250 12.750
e

1 40 1 45 1 50 , 1 55 1 60

Xt

=[

384] 19.590

Substituindo estas matrizes na Equao 5.11, chegamos ao sistema de equaes lineares

5bo + 250b1 = 384


250bo+12.750~ =19.590

cuja soluo bo = -1,200 e

= 1,560.

Optando pela soluo matricial, teramos

(xtx t

=[ 10,2

- 0,2] -0,2 0,004

e portanto, de acordo com a Equao 5.12,

208

10,2 - 0,2] [ 384] [-1,200] b == [ _ 0,2 0,004 x 19590 == 1,560 Com dados mais numerosos ou modelos mais complicados, o ajuste fica numericamente mais trabalhoso, mas as solues podem ser calculadas facilmente num microcomputador, ou mesmo numa calculadora cientfica. A equao Yi

= bo + ~Xi

nos d uma estimativa da resposta obtida quando a varivel

independente assume o valor Xi. Com os valores de bo e b1 que acabamos de obter, podemos escrever

Yi

= -1,200 + 1,560Xi .

(5.13)

Substituindo os valores de X (as temperaturas), obtemos os rendimentos previstos (os valores de


s vez:

y). Com a equao matricial 5.3, podemos calcular todas as previses de uma

1 40
1 45

61,2 69,0

-1,200] y=Xb= 1 50 x [ 1560 1 55 '


1 60

76,8 84,6
9~4

Estes valores previstos deixam, em relao aos rendimentos efetivamente observados, os resduos

60
70
e=

y-y =

77
86

91

61,2 69,0 76,8 84,6 92,4

-1,2 1,0 0,2 1,4 -1,4

A Figura 5.4 mostra como a reta ajustada se situa em relao s observaes, confirmando visualmente que o modelo linear mesmo uma excelente representao para os dados da Tabela 5.1.

209

Y = -1,20+1,56T
90 .."",." ........'....".,',."."''',:".,..'"."''".., . , . ,,''...... ", . :."'". " .........." . . ,." . """." . . ".".".., . , . ,. ,',." . ".." . "..
"".,:""";~"

. ,/,,,,,,,-:::::,,.,.,., . ,."""""""'"

ao

1 - " " " " " " " " " " " " " ' " ' ' ' ' ' ' ' ' ; ' ' ' ' ' ' ' ' ' ' ' ' ' ' ' ' ' ' ' ' ' ' ' ' ' ' ' ' ' ' ' ' ' " " " " " ' ' ' ' ' ; ' ' ' ' ' ' ' ' , , " , , ' , , ' , , " , , ' , . ' . , "

'.

" : " " ' " ' ' ' ' ' ' ' / ' ' '. " " , . " , ... " ' ; , . " . " . " . " '

,'.,.,,

.';...' , , . , , . " . "

, .., ."

",.,

..

70

1-""""""""""""""""""""':"""""""""""",""""",""(l/""",,,,,,,,,,,,,,,,,,:,,,,,,,,,,," ..'

.." .." . " . " . " , " : . " ' ..

,' .. "

. . , . " , . , . ' . ' . ' " .., . . , .... " . , ... , . ' . ' . ' , . , " ' . .

60

~."""

, "."."',.{ ).. ,.."." "..",,",,"..".""."..:. """.""""".""." . ';.".,.".".".".".", . ,., . ,., : ".".".." ,.."".,..: ,.."",..""" . , ,..,.."..,." ..

50 ""--_ _ 40 35

-....-..I~--....--...-~

""--'-

"""---'---.--....--...-....-.-...--a.._"""---'.......----'

45

50

55

60

65

T(oC)
Figura 5.4 Reta ajustada por mnimos quadrados aos dados da Tabela 5.1. Os valores previstos pela reta de regresso so dados pela equao Yi Substituindo nesta expresso o valor de bo dado pela Equao 5.7, temos

= bo + ~Xi .

ou Quando Xi

(5.14)

=X

, o segundo termo se anula e ficamos com Yi

=Y . Isto mostra que

A reta ajustada por mnimos quadrados sempre passa pelo ponto mdio das observaes, isto , o ponto (~y).

Deste fato podemos tambm concluir que O somatrio de todos os resduos deixados pelo modelo zero:

lei = I (Yi - Yi )

=I[Yi -y-b1 (xi -x)]

=I(Yi -y)-~I(xi -x)

210

j que, como vimos no Captulo 2, a soma dos resduos dos valores de qualquer varivel em relao sua prpria mdia sempre zero (Equao 2.3). por isso, alis, que precisamos elevar os resduos ao quadrado, antes de minimizar o seu somatrio.

Exerccio 5.4 Identifique, na lista abaixo, quais so os modelos lineares e quais so os modelos no-lineares nos parmetros. (a)
(b)

A funo y = bo sen X + b1 cos(b2X) A lei de Boyle, p V Aequaovirial,

=constante

(c) (d) (e)

pV =1+B'P+C'p2+ D'p3+ ...


RT

o modelo para a resposta de uma planejamento fatorial 2k


Uma lei de velocidade de primeira ordem,

[A] = [A]oe- kt

Exerccio 5.5 Um procedimento importantssimo na qumica analtica instrumental a calibrao, isto , a determinao de uma relao quantitativa entre a resposta do aparelho e a concentrao da espcie que se quer determinar. Normalmente essa relao determinada empregando-se o ajuste por mnimos quadrados. Considere as matrizes 1 1 1 1 1 1 c= 1 1 1 1 1 1 0,50 0,50 1,00 1,00 1,50 1,50 2,00 2,00 2,50 2,50 3,00 3,00 0,0937 0,0916 0,1828 0,1865 0,2782 0,2732 A= 0,3776 0,3702 0,4562 0,4505 0,5593 0,5499

obtidas num experimento feito para se construir uma curva de calibrao. Os elementos da segunda coluna da matriz c so concentraes de padres analticos de Ferro (em mg L-I). Os elementos do vetor A so as absorvncias desses padres, determinadas por espectrometria de absoro molecular no UV-visvel (M. F. Pimentel, tese de mestrado, UFPE, 1992). Ajuste um modelo linear a estes dados,

sabendo que

211

(ctct

=[

0,4333 - 0,2000

-0,2000] 0,1143

CtA

= [3,8696] .

8,3790

Exerccio 5.6

ajuste do modelo estatstico para um planejamento fatorial, que discutimos no captulo

anterior, tambm pode ser feito pelo mtodo dos mnimos quadrados, isto , resolvendo-se a equao matricial b

= (Xtxtxty. Considere a Equao 3.10, correspondente ao fatorial

Definindo a matriz X de acordo com os sinais da tabela de coeficientes de contraste podemos escrever
1 -1 -1 1 1 1 -1 -1 1 -1 1 -1 1 1 1 1

x=

como vimos na Equao 3.5. Calcule XtX e inverta-a para obter (Xtxt. A inverso no oferece problemas, porque XtX uma matriz diagonal. Use a matriz Xty dada na p. 98 e determine finalmente o vetor b. Compare seus resultados com os valores apresentados na p. 98.

5.2 Anlise da varincia


o
exame dos resduos fundamental, para que possamos avaliar a qualidade do ajuste de

qualquer modelo. Em primeiro lugar, os resduos devem ser pequenos. Se um determinado modelo deixa resduos considerveis, ele um modelo ruim. No modelo ideal, todas as previses (ou predies, como algumas pessoas preferem dizer) coincidiriam exatamente com as respostas observadas, e no haveria resduo nenhum.

mtodo mais usado para se avaliar numericamente a qualidade do ajuste de um

modelo a Anlise da Varincia. Para fazer a anlise da varincia de um modelo, comeamos com uma decomposio algbrica dos desvios das respostas observadas em relao resposta mdia global. Como mostra a Figura 5.5, o desvio de uma resposta individual em relao mdia de todas as respostas observadas, decomposto em duas parcelas: (5.15)

(Yi - y),

pode ser

212

A primeira parcela, CYi -

y), representa o desvio da previso feita pelo modelo para o ponto

em questo, Yi , em relao mdia global,

y . A segunda parcela a

diferena entre o valor

observado e o valor previsto. Num modelo bem ajustado, essa segunda diferena deve ser pequena. Isto equivale a dizer, em termos da Equao 5.15, que o desvio aproximadamente igual ao desvio CYi -

(Yi - y) deve ser

y). Dizer que os desvios dos valores previstos pelo

modelo so semelhantes aos desvios dos valores observados (ambos em relao mdia y) outra maneira de dizer que as previses esto em boa concordncia com as observaes.

Yi - - - - _ ... - - - - - - - --

- - - - - - - - --o
o

Yi-Y

._ ._ ....:I
o

x x
Figura 5.5 Decomposio do desvio de uma observao em relao mdia global, (Yi - y), na soma das parcelas (Yi - Yi) e (Yi - y).

prximo passo expressar esta comparao de desvios em termos quantitativos.

Para isto, elevamos a Equao 5.15 ao quadrado e em seguida fazemos o somatrio sobre todos os pontos:

Pode-se demonstrar (Exerccio 5.7) que o somatrio dos produtos (Yi - Y)(yi zero, e portanto

Yi) igual a

213

(5.16)

Estas somas de quadrados de desvios costumam ser chamadas de somas quadrtims, ou, abreviadamente, S. Q. Assim, podemos ler a Equao 5.16 como [S.Q. em torno da mdia] = [S. Q. devida regresso] + [S. Q. residual] . Numa notao mais compacta, podemos escrever

Quer dizer: uma parte da variao total das observaes Yi em torno da mdia

descrita

pela equao de regresso, e o restante fica por conta dos resduos. Evidentemente, quanto maior for a frao descrita pela regresso, melhor ser o ajuste do modelo, o que podemos quantificar por meio da razo

(5.17)

R 2 chamado de ooeficiente de detennina~o do modelo. O valor mximo de R 2 1, e s

ocorrer se no houver resduo nenhum e portanto toda a variao em torno da mdia for explicada pela regresso. Quanto mais perto de 1 estiver o valor de R 2 , melhor ter sido o ajuste do modelo s respostas observadas.

Exerccio 5.7

Substitua zero.

Yi =y+l>tI(xi -X)

em

I(Yi -Y)(yi -Yi)

e mostre que esse somatrio igual a

A cada soma quadrtica est associado um certo nmero de graus de liberdade, que indica quantos valores independentes envolvendo as n observaes Yl' Y2' ..., Y n so necessrios para determin-la. Para a soma quadrtica dos n desvios em relao mdia, o nmero de graus de liberdade

(n -1) e no n, porque a soma dos desvios

L (Yi - y)

nula

e, como vimos no Captulo 2, isto consome um grau de liberdade. Para chegar ao nmero de graus de liberdade de SQR partimos da Equao 5.14 e verificamos que a soma quadrtica devida regresso dada por

214

(5.18) Como as variveis Xi no so aleatrias, o somatrio matriz de planejamento empregada. O valor de

L (xi - X)2
.

est fixado a priori, pela

L (Yi - y)2

fica portanto completamente

determinado por um nico nmero, o valor de bl

Este, por sua vez, uma varivel

aleatria, j que depende das respostas obtidas experimentalmente. O valor

ht = 1,56

vale

somente para os dados da Tabela 5.1. Se fizermos uma outra srie de experimentos idnticos, realizados nas mesmas temperaturas, a presena dos erros experimentais far com que obtenhamos rendimentos diferentes, com os quais calcularemos um outro valor para bl
.

Com esse nico valor, no entanto, um novo valor para o somatrio

L (Yi - y)2

estar

mais uma vez determinado. Estas consideraes mostram que a soma quadrtica devida regresso tem apenas um grau de liberdade. Como o nmero de graus de liberdade de SQT quadrtica residual deve ter

(n -1), a soma

(n - 2) graus de liberdade, para satisfazer Equao 5.16:

(n -1) = 1 + (n - 2) .

lado direito desta equao reflete o fato de que o nosso modelo contm apenas dois

parmetros, f30 e

f3l.

No caso geral de um modelo com p parmetros, o nmero de graus de

liberdade da soma quadrtica residual dado pela diferena entre o nmero de observaes e o nmero de parmetros estimados, isto , vT

vr = (n - p).
VR

Para que continuemos tendo

= (n -1),

o nmero de graus de liberdade da soma quadrtica devida regresso tem de

ser igual ao nmero de parmetros menos um:

= (p -1).

Os resultados desta seo para o caso particular de um modelo com apenas dois parmetros, como no nosso exemplo, esto reunidos na Tabela 5.2, que a chamada Tabela de Anlise da Varincia (ou simplesmente ANOVA, um acrnimo de Analysis of Variance). Dividindo as somas quadrticas pelos seus respectivos nmeros de graus de liberdade, obtemos as chamadas mdias quadrtims (MQ's), que so mostradas na ltima coluna da tabela. At agora, fizemos apenas uma decomposio algbrica da soma quadrtica total. Logo veremos que, dentro de certas suposies, podemos dar s mdias quadrticas uma interpretao estatstica, que vai nos permitir submet-las a testes e utiliz-las para calcular intervalos de confiana.

215

Tabela 5.2 Tabela de anlise da varincia para o ajuste de um modelo linear com dois parmetros.
Fonte de variao Regresso Soma Quadrtica N de g.l. 1 Mdia Quadrtica MQR =SQR

L(Yi - y)2 L(Yi - Yi)2 L(Yi _y)2

Resduos

n-2

MQr

= SQr

=8 2

n-2

Total

n-1

No nosso exemplo, com as respostas da Tabela 5.1 e as previses dadas pela Equao 5.13, obtemos na ANOVA os valores apresentados na Tabela 5.3. Substituindo na Equao 5.17 os valores calculados para SQR e SQr, temos

R 2 = 608,4 = O9896
614,8 '

o que significa que 98,96% da variao total em torno da mdia explicada pela regresso. Para os resduos fica apenas 1,04%.

Tabela 5.3 Anlise da varincia para o ajuste de um modelo linear aos dados da Tabela 5.1.
Fonte de variao Regresso Resduos Total Soma Quadrtica 608,4 6,4 614,8 N de g. l. 1
3

Mdia Quadrtica 608,4 6,4 + 3 = 2,13

A soma quadrtica residual, SQr, representa a parte da variao das respostas em torno da mdia que o modelo no consegue reproduzir. Dividindo-a por
Vr ,

obtemos a mdia

quadrtica residual, que uma estimativa, com n - 2 graus de liberdade, da varincia dos pontos em torno da equao de regresso, isto , em torno do modelo ajustado. Essa estimativa pode ser interpretada como uma medida aproximada do erro mdio (quadrtico) que cometeremos se usarmos a equao de regresso para prever a resposta Yi correspondente a um dado valor Xi. No nosso exemplo, temos liberdade, como mostra a penltima linha da Tabela 5.3.
8 2

= 2,13, com 3 graus de

216

Exerccio 5.8

Parta da Equao 5.9 e mostre que b1

(x. -X)y~
1

1.

Sxx

5.3 Intervalos de confiana


Ao postular o nosso modelo (Equao 5.1), admitimos que cada observao Yi constituda de uma parte sistemtica, f30 + f3 1X i , e de uma parte aleatria,
i.

Suponhamos que o

modelo seja correto, isto , que a sua parte sistemtica seja mesmo uma descrio fiel da relao existente entre as variveis Y e X. Nesse caso, ao fazer um grande nmero de experimentos repetidos no mesmo valor Xi deveremos observar uma distribuio das respostas Yi em torno de f30 + f3 1X i . Esse valor, portanto, nada mais que a mdia das respostas observadas no ponto Xi. Como no existe medida sem erro, as respostas de experimentos repetidos sempre flutuaro, levando incerteza determinao dos parmetros e s previses feitas a partir do modelo, mesmo que ele seja o modelo correto. Nesta seo vamos mostrar como, fazendo algumas suposies sobre o comportamento dos erros
i'

podemos quantificar essa incerteza e determinar intervalos de confiana para todos os valores estimados. Se o verdadeiro valor mdio de Yi f30 + f3 1X i
,

devemos esperar que observaes


,

repetidas no mesmo ponto Xi se distribuam simetricamente em torno de f30 + f3 1X i

com

desvios positivos sendo to freqentes quanto desvios negativos, de tal maneira que a mdia dos erros i seja zero. Num dado Xi os erros em Yi se distribuiro com uma certa varincia
CJ?,

que em princpio tambm varia com Xi. Para fazer nossas dedues precisaremos

admitir tambm as hipteses a seguir.


1.

A varincia dos erros constante ao longo de toda a faixa estudada, e igual a um certo valor
CJ2.

A esta hiptese costuma-se dar o nome de homosoodasticidade das

respostas observadas.

2.

Os erros correspondentes a respostas observadas em valores diferentes da varivel independente no so correlacionados, isto , Cov( q,l))= O, se i
;1;

j. (Como a nica
CJ2

parte de Yi que aleatria o erro i' podemos concluir tambm que V (Yi ) =
COV(Yi' Yj)= O, se i;1; j).

217

3.

Os erros seguem uma distribuio normal. Na maioria dos experimentos esta uma boa aproximao, graas ao teorema do limite central (Seo 2.3) e ao esforo que todo pesquisador faz para eliminar de suas experincias os erros sistemticos. Estas trs hipteses sobre o comportamento dos erros aleatrios podem ser

resumidas nas expresses

COV(EoE')=O I., J
ou, equivalentemente,

'

(5.19)

(5.19a) Com estas suposies podemos finalmente determinar intervalos de confiana para os resultados do modelo. J vimos (Exerccio 5.8) que o coeficiente angular da reta de regresso pode ser dado por

que uma combinao linear das variveis aleatrias Yi , com coeficientes

~ = (xl- X )Yl + ... + (xn -X)Yn .


Sxx Sxx

Como por hiptese os Yi 's, alm de no serem correlacionados, tm varincia constante, podemos aplicar a Equao 2.14 e escrever

ou, como

L (xi -X Y=Sxx ,
(5.20)

218

Admitindo agora que o valor de uma boa estimativa de


(j2,

2 8 ,

a varincia residual em torno da regresso, seja

podemos obter uma estimativa do erro padro de ~ tirando a

raiz quadrada da Equao 5.20 e substituindo a por 8:

erro padro de ~

= ;vSxx

(5.21)

Como tambm estamos admitindo que os erros se distribuem normalmente, podemos usar a distribuio de Student para testar a significncia do valor estimado para b1 . Seguimos o procedimento discutido no Captulo 2 e definimos intervalos de confiana atravs de b1 t n - 2 X (erro padro de

ht) .

(5.22)

Note que o nmero de graus de liberdade do valor de t n -2 , que o nmero de graus de liberdade da estimativa
8 2 ,

e conseqentemente tambm do erro padro.

Com os valores numricos do nosso exemplo, a estimativa do erro padro de sendo


_8_

ht

fica

~Sxx

= ~2,13 =00923 250 ' ,

o que nos leva ao intervalo 1,560 3,182 x 0,0923 = (1,266, 1,854) , com 95% de confiana. J que os dois limites so positivos, o valor de b1 que calculamos significativamente diferente de zero, confirmando a existncia de uma relao linear entre os rendimentos observados e as temperaturas de reao. Outros intervalos de confiana so obtidos da mesma maneira. Partindo da expresso algbrica para bo (Equao 5.7) e seguindo o mesmo procedimento que usamos para

ht, podemos chegar a


(5.23)

e da expresso para o erro padro de bo :

219

erro padro de b o = s _ _1_ nS xx

m?

X~

(5.24)

o
intervalo

erro padro calculado com os dados do nosso exemplo 4,665, o que nos leva ao

bo t n - 2 X (erro padro de bo )

(5.25) .

= -1,200 3,182 x4,665 = (-16,044,13,644)

Isto significa que h 95% de probabilidade de que o verdadeiro valor do parmetro 130 esteja entre -16,044 e 13,644. Como estes dois limites tm sinais contrrios, e como nenhum valor num intervalo de confiana mais provvel do que outro, pode ser que o verdadeiro valor de

130 seja zero. Em outras palavras, o valor bo = -1,200 no estatisticamente significativo, e


portanto no existe evidncia suficiente para mantermos o termo 130 no nosso modelo. Mesmo assim, o costume mant-lo, para preservar a hierarquia matemtica. Note que os valores dos erros padro so muito diferentes. O erro padro de bo , 4,665, cerca de cinqenta vezes maior que o erro padro de b1 , que 0,0923. O motivo que o erro padro de bo afetado pelo somatrio dos valores de Xi elevados ao quadrado, como mostra a Equao 5.24. Se tivssemos usado na regresso temperaturas mais prximas de zero, os dois erros teriam valores mais parecidos.

Exerccio 5.9

Sejam a e c duas combinaes lineares das variveis aleatrias Y i

Exerccio 5.8 e esta ltima expresso para mostrar que a covarincia de

e b1 zero.

Quando construmos um modelo de regresso, nosso objetivo obter uma relao que nos permita prever a resposta correspondente a um valor qualquer da varivel independente, que chamaremos de X a . No modelo que estamos adotando, essa relao dada pela Equao 5.14,

220

onde a estimativa

Ya

uma combinao linear das duas variveis aleatrias y e b1 . Sua

varincia ser dada por (veja a Eq. 2.14)

Como a covarincia de

y e b1 zero (Exerccio 5.9), esta expresso reduz-se a

Substituindo as expresses para a varincia de uma mdia (Eq. 2.15a) e para a varincia de
~

(Equao 5.20), chegamos expresso

(5.26)

Substituindo mais uma vez finalmente o erro padro da estimativa

(12

por

e tirando a raiz quadrada, obtemos

Ya :

erro padro de

Ya

1
8 -

+ ----------Sxx

(xa-X)2

(5.27)

Quando X a = X , o segundo termo dentro da raiz se anula e o erro padro de

Ya

assume seu

valor mnimo. medida que nos afastamos desse ponto, em qualquer direo, o erro vai aumentando. Quanto mais longe estivermos de X a a partir da regresso. Como sempre, usamos o erro padro para definir intervalos de confiana em torno do valor previsto:

=X

, mais incertas sero as previses feitas

Ya tn-2 X (erro padro de Ya) .


A Equao 5.27 mostra que os limites do intervalo variam com a posio ao longo do eixo X. Geometricamente, eles determinam hiprboles acima e abaixo da reta de regresso. A Equao 5.27 refere-se ao erro da estimativa da mdia populacional das respostas no ponto X a . As respostas individuais se distribuem em torno dessa mdia (que
f30 + f3 1X a
)

com varincia

(12,

como mostra a Equao 5.19a. Se quisermos nos referir

221

previso de uma nica observao realizada no ponto X a , precisamos acrescentar essa varincia. Assim, podemos escrever

erro padro da previso] [ de uma observao

=s

+.!+(xa - X)2
n
Sxx

:'

(5.28)

que uma ampliao da Equao 5.27. Para obt-la, somamos valor mdio.

0'2

varincia da previso do

Da mesma maneira, se estivermos interessados na previso da mdia de q observaes, teremos

erro padro da previso ] _ -s [da mdia de q observae:;

-+-+.....:..-~-~

(xa _X)2
Sxx

(5.29)

Assim como nas outras estimativas, podemos determinar intervalos de confiana com base na distribuio t, o que deixamos a cargo dos leitores interessados. A interpretao desses intervalos, bem como de todos os outros, deve ser feita em termos anlogos aos que vimos na Seo 2.3, quando discutimos intervalos para a mdia populacional. Tambm podemos usar matrizes para expressar o clculo das incertezas nas estimativas dos parmetros. Para isso, temos de definir primeiro a matriz de oovarinci.a de bo
e~:

Pode-se demonstrar que esta matriz dada simplesmente por

(5.30)

Esta outra equao muito importante, que se aplica ao ajuste por mnimos quadrados de qualquer modelo linear nos parmetros, dentro das suposies que fizemos no incio desta seo. Tambm vale a pena sab-la de cor.

222

Para o nosso exemplo, usamos a matriz titumos a varincia populacional


02

(XtXr que calculamos na Seo 5.1 e subs8 2

pela estimativa

= 2,13 :

= [10,2

(b)

-0,2]X213 -0,2 0,004 '

= [21,73

-0,43] -0,43 8,52x10-3

Tirando a raiz quadrada dos elementos da diagonal principal, chegamos aos erros padro de

bo

e~.

5.4 Significncia estatstica da regresso


Agora que admitimos que os erros seguem uma distribuio normal, podemos voltar anlise da varincia e usar as mdias quadrticas para testar se a equao de regresso estatisticamente significativa. Quando

f3I =

, isto , quando no h relao entre X e y,


(5.31)

pode-se demonstrar que a razo entre as mdias quadrticas MQR e MQr segue uma distribuio F:
MQR ~F MQr ~ l,n-2'

onde 1 e n - 2 so os nmeros de graus de liberdade da mdia quadrtica devida regresso e da mdia quadrtica residual, respectivamente. Como a Equao 5.31 s vale para

f3I =

podemos testar essa hiptese nula usando o valor efetivamente calculado para MQR / MQr , bastando para isso compar-lo com o valor tabelado de FI ,n-2, no nvel de confiana desejado. Se verificarmos que MQR/MQr > F I ,n-2, devemos descartar a possibilidade de que

f3I =

.Teremos ento evidncia estatstica suficiente para nos fazer acreditar na existncia
No nosso exemplo precisamos do valor de FI,s, que pode ser lido na Tabela A.4, na

de uma relao linear entre as variveis y e X, e quanto maior o valor de MQR / MQr , melhor.

interseo da coluna

VI =

1 com a linha correspondendo a

V2 =

3. No nvel de 95% de

confiana, o valor procurado 10,13. Nossa regresso ser estatisticamente significativa se

MQR/MQr> 10,13. Caso contrrio, no teremos razo para duvidar que o valor de
mesmo zero e que portanto no haja relao entre as variveis.

f3I

seja

Com os valores da Tabela 5.3 temos MQR/MQr = 608,4/2,13 = 285,6, o que mostra que a nossa equao altamente significativa. Nem sempre, porm, uma regresso dada
como significativa pelo teste F til para realizar previses. Pode acontecer que a faixa de

223

variao coberta pelos fatores estudados seja pequena demais, fazendo com que o efeito sobre a resposta fique mascarado pela extenso do erro experimental. Uma regra prtica que podemos empregar considerar regresso como til para fins de previso se o valor de
MQR/MQr for, pelo menos, de cerca de dez vezes o valor do ponto da distribuio F com o

nmero apropriado de graus de liberdade, no nvel de confiana escolhido [Box e Wetz (1973), Box e Draper(1987)]. Neste exemplo, gostaramos de ter um valor de

MQR/MQr superior a 101. Essa condio tambm amplamente satisfeita.

5.5 Um novo modelo para y = f ( T)


Animado com os resultados obtidos at agora, nosso qumico resolve ampliar a faixa de variao da temperatura e realizar mais quatro ensaios, a 30, 35, 65 e 70C. Os novos rendimentos observados aparecem na Tabela 5.4, juntamente com os valores obtidos anteriormente. Usando a Equao 5.12 para ajustar um modelo linear aos nove pares desse novo conjunto de valores, obtemos

y = -7,33 + 1,52X .

(5.32)

Tabela 5.4 Variao do rendimento da reao em funo da temperatura, na faixa 30 70C, com o catalisador A.
Temperatura (OC) Rendimento (%) 30 24 35 40 40 60 45 70 50 77 55 86 60 91 65 86 70 84

A Tabela 5.5 mostra a anlise da varincia para este novo ajuste. A percentagem de variao explicada pelo modelo agora 80,63%. Um valor razoavelmente alto, mas muito menos impressionante que os 98,96% do exemplo anterior, que se limitava faixa 40 - 60C.

Tabela 5.5 Anlise da varincia para o ajuste de um modelo linear aos dados da Tabela 5.4.
Fonte de variao Regresso Resduos Total Soma Quadrtica 3.465,6 832,4 4.298,0 N de g.l. 1 7 8 Mdia Quadrtica 3.465,6 118,9

% de variao explicada: 80,63

224

o motivo da piora do ajuste torna-se evidente quando colocamos no mesmo grfico os


nove rendimentos observados e a reta ajustada [Figura 5.6(a)]. Os pontos esto dispostos ao longo de uma curva, indicando que um modelo linear no serve mais para represent-los. Essa impresso confirmada pelo grfico dos resduos [Figura 5.6(b)]. Ao invs de se distriburem de forma aleatria, os resduos sugerem nitidamente um padro geomtrico, no qual a regio central do grfico concentra os resduos positivos e os resduos negativos localizam-se nas extremidades. O valor de MQR/MQr 29,14, enquanto F 1,7 = 5,59, no nvel de 95%. Isto indicaria que temos uma regresso significativa,3 mas o emprego do teste F pressupe uma distribuio normal dos resduos, e acabamos de ver que este no o nosso caso. S poderamos usar um teste F se no houvesse evidncia de anormalidade na distribuio dos resduos.
100

20

o
80

-....

-'*'
Q)

o
60

o o
10

.9 c: Q)

o o o

-.... ~
o
~
CJ)

o o o o

~ c:
CI:

::J

o -------------------------------o
-10

40

Q)

CI:

o o
40 60 80

20

20

40

60

80

-20

20

Ttc)

T (De)

(a)

(b)

Figura 5.6 Ajuste de um modelo linear aos dados da Tabela 5.4. (a) Os valores observados no esto bem representados por uma reta. (b) Conseqentemente, a distribuio dos resduos no aleatria

Como o modelo linear acaba de mostrar-se insatisfatrio, vamos ampli-lo, acrescentando um termo quadrtico. Tentaremos modelar a influncia da temperatura sobre o rendimento com a equao (5.33) onde Xi representa a temperatura do i-simo nvel. O ajuste deste novo modelo aos valores observados tambm feito por meio da Equao 5.12, s que as matrizes precisam ser expandidas, para se referirem Equao 5.33 e ao conjunto de dados ampliado. Assim, passamos a ter
Note que o nmero de graus de liberdade da mdia quadrtica residual mudou, por causa do maior

nmero de pontos.
225

x=

1 Xl X[ 1 X 2 X~ 1 Xg

B=

X~

[~:J '

alm, claro, de
Yl

y=

Y2 Yg

Substituindo na Equao 5.12 os valores apropriados, obtemos finalmente _ [-158,24] b7,99, -0,065 o que significa que o nosso modelo quadrtico estima os rendimentos por meio da equao

y = -158,24+7,99T -0,065T 2

(5.34)

A Figura 5.7(a) mostra o grfico desta expresso, juntamente com os valores observados. O ajuste muito melhor do que na Figura 5.6(a), e isto se reflete no grfico dos novos resduos. Como vemos na Figura 5.7(b), ele no mais incompatvel com uma distribuio aleatria, e isso nos autoriza a empregar um teste F. Alm disto, os resduos tambm so bem menores do que os resduos deixados pelo modelo linear. A anlise da varincia (Tabela 5.6) confirma a superioridade do modelo quadrtico. O novo modelo reproduz 99,37% da variao total, contra apenas 80,63% do modelo linear. O valor de MQR/MQr sobe para 471,4 (contra 29,14 no modelo linear). J que a entrada do parmetro

/32

no modelo transfere um grau de liberdade da mdia quadrtica residual para

a mdia quadrtica devida regresso, o novo valor de MQR / MQr deve ser comparado com
F 2 ,B (que 5,14 no nvel de 95%), e no mais com F l ,7. De toda forma, esses resultados nos

permitem concluir que agora temos um ajuste altamente significativo. Esta comparao do modelo linear com o modelo quadrtico uma boa ocasio para lembrar que modelos empricos so modelos locais, isto , modelos aplicveis apenas a uma determinada regio. Essa caracterstica torna a extrapolao uma atividade bastante arriscada. Basta observar que o modelo linear mostrou-se perfeitamente satisfatrio para o nosso primeiro conjunto de valores, mas uma pequena ampliao da faixa de temperaturas

226

tornou necessrio o emprego de um modelo quadrtico, apesar de os dados da Tabela 5.1 estarem todos contidos na Tabela 5.4. Mesmo esse segundo modelo no deve ser extrapolado, e no precisamos ir muito longe para chegar a essa constatao. Se fizermos, por exemplo, T

= 20C

na Equao 5.34, o que representa apenas dez graus a menos que a temperatura

mais baixa investigada experimentalmente, obteremos

y = -24,44%,

um valor absurdo, j

que no existem rendimentos negativos. Em suma: precisamos desconfiar das extrapolaes. Elas sempre devem ser testadas com mais experimentos, chamados por isto mesmo de experimentos oonfirmatrios.
100

r-----..-----..,.-------,
o

20

r-----.....-----r-----..,

80

--...
.9

'* -c: Q)

60
~

g o-

.o.

~----O--------()----

~ c:
~

40

o:
20

0'--------'"""-------'-------' 20 40 60 80

-20 '----_ _----...J'-----_ _ 20 40

~'---

_ _____'

60

80

(a)

(b)

Figura 5.7 (a) Ajuste de um modelo quadrtico aos dados da Tabela 5.4. A concordncia bem melhor do que na Figura 5.6(a). (b) No parece haver um padro na distribuio dos resduos. Tabela 5.6 ANOVA para o ajuste de um modelo quadrtico aos dados da Tabela 5.4. Fonte de variao Regresso Resduos Total Soma Quadrtica 4.270,8 27,2 4.298,0

NQ de g. 1.
2 6 8

Mdia Quadrtica 2.135,4 4,53

% de variao explicada: 99,37

5.6 Falta de ajuste e erro puro


At aqui baseamos a avaliao dos nossos modelos na aparncia do grfico dos resduos. Se no houver nada na distribuio dos resduos que nos faa suspeitar de anormalidade, consideramos o modelo satisfatrio. um procedimento subjetivo, sem dvida, mas no

227

devemos menosprez-lo por isso, at porque no existe alternativa para ele, se no dispusermos de alguma medida do erro aleatrio. Alm disto, examinar a distribuio dos resduos sempre nos ajuda a verificar se no h nada de errado com o modelo, e pode indicar como melhor-lo, se houver necessidade. Um exame cuidadoso dos grficos dos resduos deve ser considerado obrigatrio em qualquer situao. Se o nosso experimento fornecer respostas em duplicata, podemos us-las para obter uma estimativa do erro aleatrio. Com essa estimativa, teremos um critrio quantitativo para julgar se o modelo escolhido uma boa representao das observaes, ou se precisamos modific-lo. Para mostrar como isso feito, daremos um exemplo numrico, baseado em duplicatas dos ensaios realizados na faixa 30 - 70C. Suponhamos que os ensaios da Tabela 5.4 tenham sido duplicados, e que nossos dados sejam os dezoito rendimentos mostrados na Tabela 5.7. Para cada valor de X existem agora dois valores de y diferentes. evidente que, qualquer que seja o modelo escolhido, ele no poder passar ao mesmo tempo por esses dois valores. Fatalmente haver resduos, que poderemos atribuir, pelo menos em parte, aos erros aleatrios. Veremos, nesta seo, que a soma quadrtica residual deixada pelo modelo pode ser decomposta em duas partes: uma causada pelos erros aleatrios, e a outra devida falta de ajuste do modelo. Esta segunda parcela pode ser reduzida aperfeioando-se o modelo. A outra parte, no.

Tabela 5.7 Variao do rendimento da reao em funo da temperatura, na faixa 30 70C, com o catalisador A. Ensaios em duplicata.
Temperatura (OC) Rendimento (%) 30
24

35 40 43

40 60 57

45 70 72

50 77 80

55

60 91
88

65

70
84

86 89

86 89

20

80

Vamos deixar por um momento nosso exemplo numrico e considerar um caso geral onde, para cada valor Xi' tenham sido determinadas ni respostas, obtidas em repeties autnticas. Para identificar as repeties usaremos um segundo ndice, j, de modo que uma resposta passar a ser representada genericamente por Yij' significando a j-sima resposta obtida para o i-simo ensaio. O nmero total de respostas em todo o experimento ser igual soma de todas as repeties: n

= Lni

228

Em cada nvel i o modelo deixar

ni

resduos, um para cada resposta repetida.

Somando os quadrados de todos eles, em todas as repeties e em todos os nveis, obteremos a soma quadrtica residual nesse nvel. Podemos escrever ento, admitindo que existam m nveis diferentes da varivel X, as seguintes expresses:

Soma quadrtica dos resduos no nvel i: (SQr Soma quadrtica residual: SQr
m,

1= i
j

(Yij -)ti)2 ;
Yi

= L (SQr)i =L L
i

m ni (

Yij -

)2

Cada resduo individual pode ser decomposto algebricamente na diferena de dois termos: (5.35) onde

Yi

a mdia das respostas observadas no nvel i. Elevando ao quadrado esta equao e

somando sobre todas as observaes, teremos do lado esquerdo a soma quadrtica residual,
SQr' como acabamos de ver. Do lado direito ficaremos com as somas quadrticas das duas

parcelas, pois o somatrio dos termos cruzados se anula, a exemplo do que aconteceu na decomposio da soma quadrtica total (Equao 5.16 e Exerccio 5.7). Podemos escrever ento (5.36)

primeiro somatrio do lado direito no tem nada a ver com o modelo, e portanto no

depende das estimativas Yi' refletindo apenas a disperso, em cada nvel i, das respostas repetidas Yij em torno de suas prprias mdias

Yi . Esse termo, que nos dar uma medida do

erro aleatrio, chamado de soma quadrtim devida ao eITO puro (SQep). O segundo somatrio, ao contrrio, depende do modelo, e ser tanto maior quanto mais as estimativas para um dado nvel, Yi' se desviarem da resposta mdia correspondente,

Yi.

Esse termo fornece

uma medida da falta de ajuste do modelo s respostas observadas, sendo chamado por isso de soma quadrtim devida falta de ajuste, SQfaj. Com esta terminologia, a Equao 5.36 pode ser lida assim: Soma qUadrtica] = [ S. Q. devida] + [ S. Q. devida ] residual ao erro puro falta de ajuste

229

ou (5.36a)

Quando dividirmos essas somas quadrticas pelos seus respectivos nmeros de graus de liberdade teremos mdias quadrticas, cujos valores iremos comparar para avaliar a falta de ajuste do modelo. Em cada nvel i, os resduos

(yij - Yi)

que compem SQep tm

ni -1 graus de

liberdade. Fazendo o somatrio sobre todos os nveis, obteremos o nmero de graus de liberdade da soma quadrtica devida ao erro puro:

vep = L (ni -1) = (n - m ),


onde n o nmero total de observaes e m o nmero de nveis da varivel X. J vimos que o nmero de graus de liberdade da soma quadrtica residual a diferena entre o nmero total de valores observados e o nmero de parmetros do modelo, vr

= (n - p). Subtraindo da os graus de liberdade correspondentes a

SQep teremos o nmero

de graus de liberdade para a falta de ajuste:


V{a}

= (n - p )- (n - m) = (m - p ).

Note que ele dado pela diferena entre o nmero de nveis utilizados para a varivel independente e o nmero de parmetros do modelo, o que tem uma implicao de grande importncia prtica. Para termos condies de testar se h falta de ajuste, o nmero de nveis do nosso planejamento experimental precisa ser maior que o nmero de parmetros do modelo que estamos querendo ajustar. Para uma reta, por exemplo, que caracterizada por dois parmetros, precisaramos ter no mnimo trs nveis da varivel representada por
X., para que v{a} no se anulasse. Se tentssemos ajustar uma reta a respostas deter-

minados em apenas dois nveis, ela passaria obrigatoriamente pelas mdias das respostas em cada nvel. Isso anularia SQ{a} na Equao 5.36a e reduziria a soma quadrtica residual a uma soma quadrtica de erro puro, tornando impossvel descobrir qualquer falta de ajuste. Com o desdobramento da soma quadrtica residual nas contribuies da falta de ajuste e do erro puro, a tabela de anlise da varincia ganha duas novas linhas e transforma-se na verso completa (Tabela 5.8). A mdia quadrtica devida ao erro puro,

230

MQ ep

= _i----::,J_

fi

(Y -

Yi)2
_

n-m
0'2

que no depende do modelo, uma estimativa da varincia

que postulamos para as

respostas, esteja o modelo bem ajustado ou no. A mdia quadrtica devida falta de ajuste,

tambm estima

0'2

se o modelo for adequado, isto , se no houver falta de ajuste. Caso


0'2

contrrio, o valor de MQfaj estimar

mais a contribuio da falta de ajuste. Podemos

ento usar um teste F da razo MQfaj /MQep para avaliar se o nosso modelo est (ou no est) bem ajustado s observaes. Valores altos de MQfaj/MQep significaro muita falta de ajuste, e vice-versa.

Tabela 5.8 Tabela de anlise da varlancia para o ajuste, pelo mtodo dos mlnlmos quadrados, de um modelo linear nos parmetros. ni = nmero de repeties no nvel i; m = nmero de nveis distintos da varivel independente; n =L ni = nmero total de observaes; p = nmero de parmetros do modelo.
Fonte de variao Regresso
SQR

Soma Quadrtica

NQ de g.l.
p-1

Mdia Quadrtica

= ficYi _y)2
i
j

Resduos
SQr

fi
i

(Y -

Yi)2

n-p

Falta de ajuste
SQfaj =

fi(Yi _yJ2
i
j

m-p

Erro puro
SQep =

L L (Yij - Yi)2
i

m, nj

n-m

MQ

j
nj

ep n -1

= SQep

n-m

Total
SQT

= L L (Yij - y)2
i

% de variao explicada: SQR

SQT
% mxima de variao explicvel: - - - - = - -

SQT -SQep SQT

231

Voltamos agora aos dados em duplicata da Tabela 5.7. J sabemos que um modelo linear inadequado para essa faixa de temperaturas mas vamos ajust-lo assim mesmo, para mostrar como funciona o teste F para a falta de ajuste. Mais uma vez, comeamos usando a equao matricial 5.12 para determinar a equao de regresso, tendo o cuidado de fazer corresponder os valores das matrizes X e y, que agora tero dezoito linhas, ao invs de nove. Escrevemos ento, a partir da Tabela 5.7, 1 1 1 1 30 30 35 35 24 20 40 43 84 80

x=

y=

1 70 1 70

A reta de regresso determinada a partir destas matrizes dada por

y = -7,42+1,52X .
A Tabela 5.9 mostra a anlise da varincia para o novo ajuste. A percentagem de variao explicada pela regresso, isto , a razo entre a soma quadrtica devida regresso e a soma quadrtica total, SQR/SQT = 77,79%. Esse valor, porm, no deve ser comparado com 100%, por causa da contribuio devida ao erro puro. Como nenhum modelo pode reproduzir a soma quadrtica do erro puro, o valor mximo explicvel a diferena entre a soma quadrtica total e SQep. No nosso caso,
SQT -SQep = 8.930,00 - 45,00 = 8.885,00, que corresponde a 8885,00/8930,00 = 99,50% da

soma quadrtica total. A diferena no muito grande, porque a contribuio do erro puro relativamente pequena, mas com este novo valor que devemos comparar a variao explicada pela regresso, 77,79%. A inadequao do modelo aparece claramente nos grficos da Figura 5.8(a). Mais uma vez os resduos se distribuem num padro curvo.

o valor da razo

MQR/MQr 56,03. Comparado com F 1,16 = 4,49 (no nvel de 95%),

este valor indicaria uma regresso significativa, se no fosse pela evidncia de falta de ajuste, que agora tambm confirmada pelo alto valor de MQfaj /MQep :
MQfaj = 276,94 = 5539 MQep 5,00 "

que muito maior que F7 ,9

= 3,29.

232

Tabela 5.9 Anlise da varincia para o ajuste de um modelo linear aos dados da Tabela 5.7.

Fonte de variao Regresso Resduos F. ajuste Erro puro Total

Soma Quadrtica 6.946,41 1.983,59 1.938,59 45,00 8.930,00

N de g. L 1 16 7 9 17

Mdia Quadrtica 6.946,41 123,97 276,94 5,00

% de variao explicada: 77,79

% mxima de variao explicvel: 99,50

20 r - - - - - - , - - - - - . . - - - - - - - - ,

ao

8 8
9

10

o o o
o o o o o o o
o o

8
~

g o -------------------------------o o
~
-10

cr:
20

8
~_~_..L...-_~_'---_~-..I

o
0_ _.L...._201-.._
20 40 40 60

o
. . L . . - - - - . l" ' - - - - - - . . l

20

ao

60

80

rtc)
(a)
100,..-----.-----.,.-------

rtc)

20 r - - - - - - . . - - - - - - . . . , . . - - - - - - - - ,

ao
10

g o ---- - - - - - - - -Q - U o o o o o
~
-10

o o o

- t::r -0- - - - - - - - --

o o o o o o

cr:
20

L..---....L--_ _- ' - -

. l . . -_ _- - - - l

20

40

60

ao

-20 20

'----~

_ _. . L . . 40

- ' - -_ _- - - - l

60

80

(b)

Figura 5.8 (a) Ajuste de um modelo linear aos dados da Tabela 5.7. Os valores observados no so bem representados pela reta. A distribuio dos resduos no aleatria. (b) Com um modelo quadrtico a concordncia bem melhor. Os resduos agora parecem distribuir-se aleatoriamente.

233

J que o modelo linear apresenta falta de ajuste, passamos a ajustar o modelo quadrtico, que dado pela Equao 5.33. Construindo as matrizes apropriadas e substituindoas na Equao 5.12 chegamos a

_ [-172,42] b8,59, -0,071 ou

y = -172,42 + 8,59X -

0,071X 2

Os grficos do modelo quadrtico [Figura 5.8(b)] mostram um ajuste muito melhor do que os do modelo linear, como seria de se esperar. A melhoria confirmada numericamente pelos valores da anlise da varincia (Tabela 5.10). A diferena gritante: o valor da razo MQR/MQr sobe para 4.435,80/3,89 = 1.140,3, enquanto a razo MQfaj/MQep , que era 55,39, reduz-se a apenas 0,45, um valor no significativo. No h mais sinal de falta de ajuste, e podemos determinar os intervalos de confiana para os parmetros do modelo.

Tabela 5.10 Anlise da varincia para o ajuste de um modelo quadrtico aos dados da Tabela 5.7.
Fonte de variao Regresso Resduos F. ajuste Erro puro Total Soma Quadrtica 8.871,61 58,40 13,39 45,00 8.930,00 N de g.l. 2 15
6

Mdia Quadrtica 4.435,80 3,89 2,23 5,00

9 17

% de variao explicada: 99,35 % mxima de variao explicvel: 99,50

J que no h falta de ajuste, tanto MQfaj quanto MQep estimam

(j2.

Podemos

aproveitar este fato para obter uma estimativa da varincia com um maior nmero de graus de liberdade, somando SQfaj e SQep e dividindo o total por (vfaj +vep ). Com essa operao, simplesmente teremos de volta a mdia quadrtica residual, que agora passa a ser uma estimativa legtima da varincia devida ao erro puro. 234

Substituindo

()2

na Equao 5.30 pelo valor da mdia quadrtica residual,

3,89 ,

chegamos s estimativas das varincias dos parmetros. Da, tirando a raiz quadrada, obtemos seus erros padro. Com eles podemos escrever o resultado final do nosso ajuste:

y = -172,42+8,59X-O,071X 2
(7,65) (O,32) (O,003)

Os valores entre parnteses so os erros padro dos parmetros. Como eles so muito menores do que os valores das estimativas, conclumos que todos os trs parmetros so estatisticamente significativos. Havendo necessidade de uma anlise mais rigorosa, podemos fazer um teste t para cada um deles. 4

Exerccio 5.10
Esta uma verso incompleta da tabela de anlise da varincia para o modelo ajustado no Exerccio 5.5. Complete-a e verifique se o modelo linear satisfatrio, ou se h evidncia de falta de ajuste. Fonte de variao Regresso Resduos Falta de ajuste Erro puro Total
% variao explicada: ?

Soma Quadrtica 2,95146 x 10- 1

NQ de g. 1.

Mdia Quadrtica

? ? ? ?
11

? ? ? ?

? ?
1,09355 x 10-4 2,95425 x 10- 1

% mxima de variao explicvel: ?

Exerccio 5.11

o resultado do Exerccio 5.10 deve mostrar que no h evidncia de falta de ajuste no modelo
do Exerccio 5.5. Use a mdia quadrtica residual como uma estimativa da varincia das observaes e determine os erros padro das estimativas dos coeficientes da equao de regresso. Eles so estatisticamente significativos no nvel de 95%?

5.7 Correlao e regresso


Muitas vezes, na literatura, os resultados de uma anlise de regresso so discutidos em termos da correlao da varivel dependente com a varivel independente. A rigor, isso no

Com quantos graus de liberdade?


235

faz sentido, porque a correlao definida para um par de variveis aleatrias, e na regresso somente a varivel dependente que considerada aleatria. No entanto, se esquecermos desse detalhe conceitual, existem algumas relaes algbricas entre correlao e regresso que vale a pena discutir, nem que seja para esclarecer seu verdadeiro significado e suas limitaes. Imaginemos que tanto X quanto y sejam variveis aleatrias e que, portanto, seja apropriado definir um coeficiente de oorrelao entre elas, dado por

r(X, y)= ~--~-~

(2.9)

como vimos na Seo 2.4. Com a notao simplificada que introduzimos na Equao 5.10 (veja tambm o Exerccio 5.3), podemos reescrever esta expresso da seguinte forma:

r(X )=
,y

~SxxSyy

Sxy

(5.37)

N a mesma notao, como j vimos, a estimativa de

/31 dada por


(5.10)

Combinando as duas expresses, obtemos uma relao entre o coeficiente angular da reta de regresso, ~, e o coeficiente de correlao entre as duas variveis, r(X, y):

~ =r(X,y)i~yy
xx

(5.38)

ou (5.39) onde e so os desvios padro das variveis y e X, respectivamente. Mesmo assim, b1 e

Sy

Sx

r(X, y ) continuam tendo significados intrinsecamente diferentes. O coeficiente de


correlao, como sabemos, uma medida da associao linear existente entre as variveis X e y, ambas supostamente aleatrias. O valor do coeficiente angular

h.t

representa a variao

em y correspondente variao de uma unidade em X, ou seja, a derivada dy / dX . Para um modelo linear, podemos tambm estabelecer uma relao entre a percentagem de variao explicada (ou coeficiente de determinao),

236

e o coeficiente de correlao r(X,y). Para isso, usamos a Equao 5.18 e reescrevemos R 2 como

Empregando agora a Equao 5.38 para substituir

bf , chegamos a

ou, simplificando,

(5.40)

Esta igualdade mostra que, quando adotamos o modelo

Yi

= 130 + f31 X i + i' a

percentagem de variao explicada pela regresso tambm uma medida da associao linear entre X e y. Um erro comum, talvez induzido pela prpria Equao 5.40, interpretar o valor de R, a raiz quadrada de R 2 com o sinal algbrico apropriado, como o coeficiente de correlao entre X e y, numa regresso qualquer. Acabamos de ver que isso s vlido para o ajuste de uma reta. Alm do mais, na modelagem por mnimos quadrados, X nem sequer uma varivel aleatria. Na verdade, o valor de R pode ser interpretado como um coeficiente de correlao, mas no entre as variveis X e y. Pode-se demonstrar que em qualquer circunstncia, para qualquer regresso linear com qualquer nmero de variveis, R o coeficiente de correlao entre as respostas observadas e os valores previstos pelo modelo ajustado:

R =r(y,y)

(5.41)

Esta relao legtima, pois tanto os valores observados quanto os valores previstos so variveis aleatrias. O valor de R, que chamado de ooeficiente de
oorrel~o mltipla,

nunca negativo. Ele o maior valor da correlao que uma combinao linear das variveis independentes, na forma especificada pelo modelo, pode ter com os valores de y observados.

237

5A Aplicaes

5A.l A flexibilidade do ar
Em 1661, Robert Boyle fez um relato Royal Society em que descrevia sua descoberta da relao, que depois viria a ser conhecida como a Lei de Boyle,l entre a presso e o volume de uma dada massa de ar. Os dados originais de Boyle, que foram publicados em 1662, na segunda edio do seu New Experiments Physio-Mechanicall, Touching the 8pring of Air and its Effects, esto na Tabela 5A.l. Vamos us-los para ajustar alguns modelos polinomiais e avaliar a qualidade dos ajustes atravs da anlise da varincia e dos grficos dos resduos.

Tabela 5A.l- Dados do experimento de Boyle. As presses esto em atmosferas. As unidades do volume so arbitrrias.

p V p V p V

1,000 48 1,616 30 2,674 18

1,049 46 1,727 28 2,841 17

1,097 44 1,865 26 3,017 16

1,150 42 2,019 24 3,195 15

1,212 40 2,105 23 3,449 14

1,270 38 2,199 22 3,702 13

1,350 36 2,302 21 4,036 12

1,429 34 2,427 20

1,517 32 2,545 19

Os ajustes so feitos da maneira habitual, por mnimos quadrados (Equao 5.12) e produzem os seguintes resultados: Modelo ajustado Linear: Pi
MQR/MQr

R2
87,68%

= 4,125- 0,0742Vi
(0,170) (0,006)

166,66

Quadrtico:

Pi

= 6,183- 0,238Vi + 0,00279Vi2


(0,185) (0,014) (0,00023)

651,50

98,34%

Cbico:

Pi

= 8,253-0,491Vi + 0,012 V/ -0,000105Vi3


(0,187) (0,022) (0,0008) (0,000009)

3.241,45

99,78%

Ou de Mariotte, como se diz na Frana. O francs E. Mariotte descobriu a mesma relao, indepen-

dentemente de Boyle, e ainda notou que ela s era vlida se a temperatura permanecesse constante.

238

Todos os termos de todos os modelos so significativos, como podemos ver pela pequena extenso dos seus respectivos erros padro. Embora cada termo adicional retire um grau de liberdade dos resduos, isto no prejudica os modelos, j que, do ponto de vista da ANOVA, eles vo progressivamente melhorando. O modelo cbico, por exemplo, tem MQR /MQr

3.214,15, e explica 99,78% da variao total. Por esses nmeros, dificilmente iramos nos preocupar em achar um modelo melhor. Quando olhamos os grficos dos resduos, porm, vemos uma outra histria (Figura 5A.1). Embora eles fiquem cada vez menores, evidente que seu conjunto mantm uma estrutura, que varia conforme a complexidade do modelo. Para o modelo linear, os resduos tm um padro que se assemelha a uma parbola. Quando inclumos o termo quadrtico, os novos resduos passam a lembrar uma cbica. Acrescentando em seguida o termo cbico, eles parecem ser descritos por uma equao do quarto grau.

o que na verdade estamos fazendo tentar ajustar com uma srie de potncias um
conjunto de dados que pode muito bem ser representado por uma funo mais simples. Como sabemos da qumica elementar, a Lei de Boyle dada pela expresso pV = k, ou
p

= k (l/V),

onde k uma constante que depende da temperatura e da quantidade de gs. Se

usarmos como varivel independente no o volume e sim o seu inverso, teremos portanto a expresso de uma reta. A Figura 5A.2 mostra essa reta e os resduos deixados por ela para os dados de Boyle. A troca da varivel V por ilV , por motivos bvios, um exemplo do que se conhece como
transforma~olinearizante.

Esta uma lio importante. Antes de pensar em

acrescentar novos termos e complicar um dado modelo, devemos sempre refletir se no existe alguma transformao das variveis que possa produzir um ajuste mais satisfatrio. Em qualquer caso, o grfico dos resduos sempre uma tima indicao de como anda a modelagem. Do ponto de vista da anlise da varincia, os resultados da transformao tambm so excelentes. A equao ajustada agora
Pi

1 0,065 + 48,18 - ,
(0,04270) (0,088)

Vi

com MQR / MQr

= 299.273

R2 = 99,992%.

Ou seja: ficou tudo muito melhor do que com os trs modelos polinomiais ajustados diretamente no volume. Alm disto, o termo constante deixou de ser estatisticamente significativo, o que reproduz perfeitamente a lei de Boyle. 2

Voc notou que quando usamos 1/Vos pontos vo ficando mais espaados medida que caminhamos

da esquerda para a direita do grfico? Por que ser?

239

Como construir

mode~os empricos

1,0 0,8

-----o--t----i---i------l--------Modelo linear

0,6 ------------t--------4---------+----------i---_.-...-.-..-.-. 0,4

:s
~

0,2 0,0 -0,2

=*=~f=~-~~:t:=;~t~=
-----~3tr--_t---~~-+_i lo i
i i i

Ch. O O j I -'-'CX)I I I -0,4 ----t----'"'1'-''-'-'-'-'""'"'"1''''"_-_t..-___


-0,6
!

15

25

35

45

55

Volume

1,0 0,8 0,6 0,4

-----------r-------1----------r------------r-----------

Modelo quadrtico

j
~

0,2 0,0 -0,2 -0,4 -0,6

=:==~~I-=:~==J=:~=~:==r:==~=-=~r:~==~=
O

I
5
15

I
25

i
35

I
45

55

Volume

1,0

Modelo cbico
0,8 0,6 0,4

j
~

0,2

O
0,0 -0,2 -0,4 -0,6
5 15
fL
--r(""()
-v(~

00 O

()I'"'\

-vOOOo

"O

25

35

45

55

Volume

Figura 5A.l - Grficos dos resduos deixados pelos trs modelos para os dados de Boyle.

240

Capitulo :5

4,5

r-------.....------~----~---_,
...................................................."

:'

5~::::~:.=~~~:::.~~~=:~~:~:::::::.:=j::~:::::.== . :~: . : ~_.~-=~.: : :=~ ~

................ 1.. ..

..--_

l1::
0,5

==-~.~=:~=i:~:~~:::=~:~~:~===~1~=-==:==
:

1_t..........
.L-

""--

.L.--

! _ I

.
0,09

----'

0,01

0,03

0,05

0,07

l/V

0,8
0,6

_+--_.+-_.. ._~. _.._..+----+


\ _ \_ _ \ __

-+-.. _ .-i---_..+--.+-_..+ _-+.. . _-{_ _ ._ .


_j__j__t
_

_-+.._+-. __..
i I
I
i

O, 4 _ _ _ ..-1-

0, 2

_ ..{

{ __._

{. _

t__j__l-_

oo

i I
I

-O, 2 __+-1.._1_1i_j.._+

-0, 4 --11..1-_11_11
-0,6 L - - _ - - ' - - -_ _I - - _ - . . . I - -_ _. & - - _ - . . . I - -_ _' - - _ - . . . I - - _ - - - - . J 0,07 0,01 0,03 0,05 0,09

l/V

Figura 5A.2 - Dados de Boyle ajustados a um modelo linear no inverso do volume.

5A.2 Calibrao em cromatografia


Para construir uma curva de calibrao, G. M .F. Silva e J. F. Pinto mediram a altura de um pico cromatogrfico (A) para seis diferentes concentraes de benzatona (C). Para cada concentrao foram feitas vrias determinaes repetidas, num total de 21 ensaios (Tabela 5A.2). A julgar pelo grfico das alturas contra as concentraes, mostrado na Figura 5A.3, uma reta seria um bom modelo para esses dados. Fazendo o ajuste por mnimos quadrados, chegamos equao

=- 0,1906 + 15,3488 C ,
(O,0930) (O,1244)

com R2 = 99,87%.

Parece uma equao excelente, mas na verdade apresenta falta de ajuste. Usando as equaes dadas na Tabela 5.8, obtemos MQfaj /MQep = 6,11 , que maior que F 4,15 = 3,06

241

(95% de confiana). Para tentar eliminar a falta de ajuste, acrescentamos ento um termo quadrtico, e chegamos a um modelo com trs parmetros, dado por

=- 0,0010 + 13,7456 C + 1,2418 C 2


(,694) (,3116) (O,2333)

com R2 = 99,95%.

No parece uma melhoria to impressionante, mas examinando os grficos dos resduos (Figura 5A.4) podemos constatar que o modelo quadrtico de fato superior, e j no apresenta falta de ajuste. Para ele, alis, MQfaj / MQep

= 0,142,

valor que, por ser

inferior a um, nos dispensa de fazer o teste F. Pelo mesmo motivo, os erros padro que aparecem na segunda equao foram calculados a partir da mdia quadrtica residual total, e no da mdia quadrtica devida ao erro puro. Tambm vale a pena observar que o termo constante, que levemente significativo no modelo linear, deixa de s-lo no modelo quadrtico. Ou seja, no segundo modelo uma soluo de concentrao zero no deve apresentar pico cromatogrfico nenhum para a benzatona, como obviamente teria de ser.

Tabela 5A.2 - Dados da calibrao cromatogrfica da benzatona.

Concentrao, mgL-l 0,0133 0,0665 0,3325 0,6650 0,9975 1,3300

Altura do pico, em 0,1836 0,1787 0,1837 0,1806 0,1861 0,9373 0,9177 0,9224 4,6227 4,7812 4,6256 9,6905 9,9405 9,5754 14,7607 15,0113 14,9641 21,0033 20,2700 20,5719 20,0915

25 r----.........-

........--------r---..----....--..----.......--__--.,.---.---------,

i ---------------f---~_Jc:-~-~~-------------~---------t------------
5

: :~=:=:I=::1~:~=:~::;:I~:~::I:::=:~:
o
-5
L...--_ _......L...-_ _.......Io-_ _- - - - - ' I - -

---------:--~-----~------.---+-..- ...--.j.---------+-----.-..----! !
1 1
~

__'

-0,3

0,0

0,3

0,6

0,9

1,2

1,5

Concentrao

Figura 5A.3 - Dados da calibrao cromatogrfica da benzatona.

242

Capitulo 5

Modelo linear

5 O,

....::....

r.._-..__r--.. . . . . -r.. . --:.. . .


---"";:;'01

0,0 ~---~-0-----+f----8--+!

-0,5

<----------------'--"""---''"'"---''--------'--------'"'"---''-. . .16 . . .---------..-......-.... 22 -2 10


Alturas previstas

01

1,0

....-----..----~ .............

Modelo quadrtico

,....--.-----..,....--------,....--.----r----------,
.
.
:

O, 5 ____t_1__t___

o .

~~

!
i
O
-0,5

o ,..." !O J -----\:;1 R ! o, o I----+ ~~----+------~V!. --+---------1 v +l,

d !

i
!
o
O O

<--------'--"""---'--------'------------1----------..1 -2 22 10 16
Alturas previstas

Figura 5A.4 - Resduos da calibrao cromatogrfica da benzatona.

Os grficos dos resduos tambm deixam muito claro que a varincia das respostas cresce com a concentrao, fato que comum em vrios mtodos de anlise instrumental. Isto viola uma das suposies do ajuste por mnimos quadrados, e normalmente resolvido fazendo-se uma regresso com dados ponderados por uma transformao estabilizadora da

varincia (veja, por exemplo, Pimentel e Neto, 1996).


importante notar que, dependendo dos erros que estejamos dispostos a tolerar nas

previses feitas a partir da equao de regresso, pode ser que nem a falta de ajuste do modelo linear nem a heteroscedasticidade das respostas tenham ,qualquer importncia prtica. De qualquer forma, bom estarmos preparados para tratar desses problemas, se eles vierem a se revelar prejudiciais para os objetivos de algum experimento.

243

Como

c:onstru~r mode~os empiricos

5A.3 Calibrao multivariada


Num estudo sobre a determinao simultnea de Mn04, Cr20~- e C0 2 +, vrias misturas de solues padro destas trs espcies qumicas foram preparadas e analisadas por espectrofotometria uv-visvel, em trs comprimentos de onda diferentes: 530, 440 e 410 nm (Scarminio et aI., 1993). Os dados relativos ao on permanganato esto na Tabela 5A.3.

Tabela 5A.3 - Calibrao multivariada do on Mn0 4 por espectrofotometria.


Volume de Mn0 4, mL Absorvncias

Asso
7,50 6,60 5,00 3,40 2,50 1,70 5,00 5,00 4,00 0,084 0,108 0,149 0,182 0,205 0,159 0,149 0,113 0,149

A440 0,506 0,479 0,426 0,375 0,342 0,409 0,426 0,488 0,432

A410 0,602 0,561 0,472 0,385 0,334 0,375 0,472 0,523 0,456

O modelo linear ajustado

V = 2,642-

(4,404) (10,256)

3,560 A 530 -37,088A440 + 39,636A410 . No podemos


(6,347) (1,845)

testar rigorosamente se existe falta de ajuste, porque no temos medidas repetidas, mas o grfico dos resduos (Figura 5A.5) est com um bom aspecto (isto , no parece ter estrutura) e por isto usamos o valor do erro mdio quadrtico residual, MQr, para determinar os erros padro dos coeficientes do modelo. O modelo linear explica 99,74% da variao total e o valor de MQR!MQr = 628 bastante alto. Note que, como seria de se esperar, o termo constante no estatisticamente significativo. Alis, o termo em A530 tambm no, indicando que este comprimento de onda no ajuda na determinao do on permanganato.

244

Capitulo 5~

Respostas previstas

Figura SA.S - Resduos da calibrao multivariada do on permanganato.

5A.4 Intervalo de energias proibidas em semicondutores


Para se determinar o intervalo de energias proibidas (gap) em um semicondutor, pode-se usar o fenmeno da variao da condutividade eletrnica (a) em funo da temperatura. A teoria dos semicondutores indica que o logaritmo da condutividade deve variar linearmente com o inverso da temperatura. 3 O valor do gap de energia, Eg , dado pelo coeficiente angular da reta lna contra l/T. A Tabela 5A.4 contm os valores de nove ensaios realizados em duplicata com um semicondutor intrnseco de germnio, no laboratrio de Fsica Moderna do Departamento de Fsica da Universidade Estadual de Londrina, sob a superviso do Prof. J. Scarminio.

Tabela SA.4 - Variao da condutividade de um semicondutor de Ge com a

temperatura. Ensaio
1

Itr, 10-3 K-l 3,19 3,09 3,00 2,91 2,83 2,75 2,68 2,61 2,54 2,24 2,74

In(a/Q-1m- 1) 2,29 2,81 3,22 3,61 4,01 4,33 4,62 4,93 5,21

2 3 4 5 6 7 8 9
3

3,19 3,60 3,95 4,33 4,62 4,92 5,21

Duas transformaes linearizantes, no mesmo?


245

Como construir

mode~os empricos

o ajuste de um modelo linear aos dados da tabela resulta na equao


1 lna = 16,708 -4509,9-, (O,120) (42,2) T com R2 = 99,86%.

Os dois parmetros so altamente significativos. O termo constante representa o valor que a condutividade eletrnica teria se no existisse diferena de energia entre o valor superior da banda de valncia e o valor inferior da banda da conduo do semicondutor. O grfico dos resduos (Figura 5A.6) mostra evidncia de falta de ajuste, sugerindo que, pelo menos do ponto de vista estatstico, o modelo poderia ser melhorado se inclussemos um termo quadrtico. Isto confirmado pelos valores da anlise da varincia, mas devemos observar que, para simplificar o experimento, os ensaios no foram feitos em ordem aleatria e sim acompanhando-se uma curva de resfriamento. Com esse procedimento, pode ser que o erro puro tenha sido subestimado.

~ : : : :::-~~l~::=I:~~=;=~~_:=]~~-~~~:J~~~~:_~ I I I I
o
!
-0,10
L..--

i'-----

. . .f.

....I...-_ _...............

i'--_---.J
5,6

2,0

2,6

3,2

3,8

4,4

5,0

Resposta estimada

Figura 5A.6 - Resduos do ajuste do modelo lner

=bo + ~ ~
T

aos dados da Tabela 5A.4.

5A.5 Determinao de um calor de vaporizao


Sob certas condies, pode-se demonstrar que a presso de vapor de uma substncia,
Pvap,

se relaciona com a temperatura absoluta em que ela se encontra, T, atravs da equao de Clausius e Clapeyron,

nPvap -

-b

o-~ T )'

Ml vap

(1 l

Nesta equao, R a constante dos gases perfeitos, bo uma constante que varia de uma substncia para outra, e MI vap o calor de vaporizao da substncia de interesse,

246

Capituio 5

admitido como constante na faixa de temperaturas estudada. Num experimento para determinar o calor de vaporizao do tetracloreto de carbono foram realizados os nove ensaios cujos resultados se encontram na Tabela 5A.5 (Simoni, 1998). Se a equao de Clausius e Clapeyron for vlida nessas condies, o coeficiente angular de um modelo linear do logaritmo da presso de vapor em funo de 1fT nos permitir obter o valor do calor de vaporizao do tetracloreto de carbono.

Tabela SA.S - Variao da presso de vapor do CCl4 com a temperatura.

Ensaio 1 2 3 4 5 6 7 8 9

T(K)

Puap (torr)

273 283 293 303 313 323 333 343 353

0,044 0,075 0,122 0,190 0,288 0,422 0,601 0,829 1,124

o ajuste do modelo In Pvap =bo + ht( ~ ) resulta em


lnpuap

11,20 -3.901,98
(0,00689) (26,897)

(~),
T

com MQR/MQr

= 21.046

R2

= 99,97%.

Este resultado corresponde a um calor de vaporizao de 32,44 0,22 kJ moi-i. Apesar dos excelentes valores numricos da Anova, porm, o grfico dos resduos (Figura 5A.7) apresenta mais uma vez um padro clarssimo, indicando a necessidade de acrescentarmos um termo quadrtico. Teremos ento o novo ajuste
lnpuap

= 8,00-1.954 (~)-300.311(~)2,
(0,14) (86,1)

(13.260)

com

MQR/MQr

= 780.369

R2 = 99,9996%.

Fisicamente, a superioridade do modelo quadrtico significa que o calor de vaporizao no pode ser considerado constante neste exemplo. Usando portanto o modelo quadrtico e admitindo que a derivada

247

Como constrt.dr

mode~os empricos

d(lnpvap) = -1.954-600.622(~)

d(l/T)

uma estimativa mais realista de - MI vap / R , podemos concluir que o calor de vaporizao

do CCl4 na verdade varia entre 30,39 e 34,54 kJ mol- 1 , no intervalo de temperaturas que estamos considerando.

0,025 0,015 0,005

-0,005 -0,015 -0,025 -0,035 -3,5

-3,0

-2,5

-2,0

-1,5

-1,0

-0,5

0,0

0,5

Respostas previstas

Quadrtico

-0,035 -3,5

-3,0

-2,5

-2,0

-1,5

-1,0

-0,5

0,0

0,5

Respostas previstas

Figura 5A.7 - Resduos dos dois ajustes dos dados da tabela 5A.5.

5A.6 Outra calibrao


Esta aplicao vamos deixar para voc mesmo fazer. A tabela 5A.6 mostra concentraes de solues aquosas contendo ons zinco e as respectivas absorvncias obtidas, em triplicata, num experimento para construir uma curva de calibrao num espectrmetro de absoro atmica (Lopes, 1999).

248

Capitu~o

(a) Faa um grfico da absorvncia contra a concentrao. Que tipo de modelo esse grfico sugere? (b) Ajuste aos dados o modelo sugerido pelo item (a), usando a absorvncia como varivel dependente. Avalie a qualidade do ajuste por anlise da varincia. Faa tambm o grfico das absorvncias estimadas pelo modelo contra as absorvncias observadas. Use esse modelo para prever a concentrao de uma soluo cuja absorvncia 25,00. (c) Agora olhe os grficos dos resduos. O modelo pode ser melhorado? Se achar que pode, ajuste um modelo melhor e compare seus resultados com os do primeiro modelo. Compare as duas anlises da varincia. Que modelo voc prefere? (d) Com o tipo de modelo que voc escolheu, faa a calibrao inversa, usando a concentrao como varivel dependente. Com esse novo modelo, qual deve ser a concentrao de uma soluo de absorvncia 25,00? Existe muita diferena entre as previses da calibrao direta e da calibrao inversa?

Tabela 5A.6 - Dados da calibrao do zinco por absoro atmica. [Zn2+] 0,000 0,500 1,000 2,000 3,000 0,696 7,632 14,804 28,895 43,993 Absorvncia 0,696 7,688 14,861 29,156 43,574 0,706 7,603 14,731 29,322 44,699

249

6
Andando na superfcie de resposta

A metodologia de superfcies de resposta (ou RSM, de Response Surface Methodology) uma tcnica de otimizao baseada em planejamentos fatoriais que foi introduzida por G. E. P. Box nos anos cinqenta, e que desde ento tem sido usada com grande sucesso na modelagem de diversos processos industriais. Os textos tradicionais sobre RSM so dirigidos a um pblico com pouco conhecimento de estatstica e por isso mesmo so um tanto redundantes, descrevendo em detalhe certas tcnicas que na verdade so casos particulares de procedimentos mais gerais que j tivemos oportunidade de discutir neste livro. Neste captulo fugiremos da abordagem costumeira e aproveitaremos os conceitos introduzidos at agora para apresentar os princpios bsicos da RSM. Os interessados podero encontrar um tratamento mais completo em Cornell (1990a), Myers e Montgomery (1995) e nos excelentes livros e artigos de G. E. P. Box e seus colaboradores (Box e Wilson, 1951; Box, 1954; Box e Youle, 1955; Box e Draper, 1987).

6.1 Metodologia de superfcies de resposta


A metodologia de superfcies de resposta tem duas etapas distintas - modelagem e
deslommento -, que so repetidas tantas vezes quantas forem necessrias, com o objetivo de atingir uma regio tima da superfcie investigada. A modelagem normalmente feita ajustando-se modelos simples (em geral, lineares ou quadrticos) a respostas obtidas com planejamentos fatoriais ou com planejamentos fatoriais ampliados. O deslocamento se d sempre ao longo do caminho de mxima inclinao de um determinado modelo, que a trajetria na qual a resposta varia de forma mais pronunciada. Vamos tentar esclarecer essas noes com um exemplo numrico. Suponhamos que o nosso amigo qumico esteja investigando o efeito de dois fatores, concentrao de um reagente e velocidade de agitao, no rendimento de uma determinada reao. Ele j sabe que o processo vem funcionando h algum tempo com os valores desses fatores fixados em 50% e 100 rpm, respectivamente, e que os rendimentos mdios obtidos

251

tm ficado em torno de 68%. Agora ele gostaria de saber se no seria possvel melhorar o rendimento, escolhendo outros nveis para os fatores.

6.1(a) Modelagem inicial

o primeiro passo do qumico, para atacar o problema, investigar a superfcie de resposta


em torno das condies habituais de funcionamento do processo, usando o planejamento fatorial mostrado na Figura 6.1. Note que o planejamento contm um ponto central, e por isso varre trs nveis de cada fator, e no apenas dois. Isto nos permitir verificar se h ou no falta de ajuste para um modelo linear, o que seria impossvel se tivssemos usado apenas dois nveis. A Tabela 6.1 mostra a matriz de planejamento e os rendimentos observados experimentalmente em cada combinao de nveis. Ao todo foram realizados sete ensaios, sendo trs deles repeties no ponto central.
12 o ....---..---------------...---------..------------.

11 o

--.-..- ..

---<;>-.--.-.----.+..---.-..-.-.-1.. . -.--.-.-..
i
~

-.---.---.-. .-L-.. -.----L-.. .--.--.-.L.---..-.--.9o

-..-...-.__.-..-...

+-.-.-.-.---.--~_.-_ . ._-.--.Jr-._--... ---.~

80 '---

___..J,

--.J

40

45

50
C (%)

55

60

Figura 6.1 Planejamento fatorial de dois nveis com ponto central.

Comearemos nossa anlise admitindo que a superfcie de resposta na regio investigada uma funo linear dos fatores, e que portanto a resposta pode ser estimada pela equao (6.1) onde bo , bl e b2 so estimadores dos parmetros do modelo e
Xl

x2

representam os

fatores codificados. Como vimos no Exerccio 5.4, os valores de bo , bl e b2 podem ser obtidos pelo mtodo dos mnimos quadrados. Neste caso a matriz X ser dada por

252

Tabela 6.1 Resultados de um planejamento 22 com ponto central. valores dos dois fatores, codificados pelas equaes Ensaio 1
2
3
C(%)
Xl

Xl

X2

representam os

=- - e
5
X2

C-50

u -100
X 2 - ---

10
Y (%)

v (rpm)

Xl

45 55 45 55 50 50 50

90 90 110 110 100 100 100

-1 1 -1 1
O O O

-1 -1 1 1
O O O

69 59 78 67 68 66 69

4 5 6 7
1 -1 -1

x=

1 1 -1 1 -1 1 1 1 1 1 O O 1 O O 1 O O

A primeira coluna corresponde ao termo bo , e as outras duas contm os valores codificados dos fatores. Obviamente teremos tambm 69 59 78 y= 67 68 66 69

Seguindo o procedimento usual, calculamos

XtX

= O 4 O

7 OO] [O O 4

Usando a Equao 5.12 temos ento

253

1~ ~ ]X[~~~] = [~::~~]
4 O 1/4
17 4,25
8

(6.2)

Dos trs ensaios repetidos no ponto central, calculamos

= 2,33

como uma estimativa da

varincia das observaes. Substituindo este valor na Equao 5.30, obtemos uma estimativa da varincia dos elementos do vetor b:
1/7 O O 1/4 [
O O
O]

V(b)

= (XtX)-18 2 =

O x 2,33

1/4

[0,33 O 0,58 O O O 0,58

O O]

Tirando as razes quadradas chegaremos aos erros padro de bo , b1 e b2 . Com eles e com as estimativas obtidas na Equao 6.2 podemos finalmente escrever a equao do modelo ajustado:

y = 68,00 - 5,25xl + 4,25x2 .


(O,58) (O,76) (O,76)

(6.3)

o tamanho relativamente pequeno dos erros indica que este modelo significativo (para um
tratamento quantitativo, veja os Exerccios 6.2 e 6.4). A anlise da varincia encontra-se na Tabela 6.2. Como o valor de MQfaj /MQep no estatisticamente significativo (0,42/2,34 =
0,18), no h evidncia de falta de ajuste. Na regio investigada, a superfcie de resposta

descrita satisfatoriamente pela Equao 6.3, que define o plano representado em perspectiva na Figura 6.2.

Tabela 6.2 Anlise da varincia para o ajuste do modelo Tabela 6.1.


Fonte de variao Regresso Resduos Falta de ajuste Erro puro Total Soma quadrtica
182,50 5,50 0,83 4,67 188,00

y = bo + ~Xl + b2x2 aos

dados da

N de g.l.
2 4 2 2 6

Mdia quadrtica
91,25 1,38 0,42 2,34

% de variao explicada: 97,07


% mxima de variao explicvel: 97,52

254

90

.....rl
r
..... ~: :....

.....11 . j ~ r
.....

..~.....

......... ~ ...
.

r
r.;.:
"'t'" .. .. :f. ....

..... ~. '"

80
'<

.L... +

"i
70

60

....

,~
<0 ?
+~

~:.<:.::::
<0? ,<0?

:t :...

:.:..~: .

: :; :: :.:.:#

::.:~.:::

..........
. . : :

:J.

,",~ ./\~

Figura 6.2 Plano descrito pela Eq. 6.3,

Y = 68,0 -

5,25xl + 4,25x2 .

Exerccio 6.1 Esquecendo o ponto central na Tabela 6.1 e na Figura 6.1, ficamos com um planejamento fatorial 2 2 , que pode ser analisado pelos mtodos do Captulo 3. Calcule os valores dos efeitos para esse fatorial e compare com os valores dos coeficientes da Equao 6.3.

Exerccio 6.2 Usando a estimativa


8

= 2,33, que foi calculada a partir das repeties realizadas no ponto

central da Figura 6.1, calcule os erros padro da mdia de todos os sete ensaios e dos efeitos calculados no exerccio anterior. Compare seus resultados com os erros determinados para os coeficientes do modelo ajustado (Equao 6.3).

Exerccio 6.3 Faa uma avaliao da significncia estatstica da Equao 6.3, usando o teste F e os dados da Tabela 6.2. Em outras palavras, compare o valor de F apropriado com a razo entre a mdia quadrtica da regresso e a mdia quadrtica residual.

Exerccio 6.4 Use os erros dados para os coeficientes na Equao 6.3 para calcular intervalos de 95% de confiana para

f3 o , f31 e f32' Eles so todos significativos neste nvel de confiana?

Podemos obter uma representao bidimensional da superfcie modelada desenhando suas curvas de nvel, que so linhas em que a resposta constante. As curvas de nvel de

255

um plano so segmentos de retas. Por exemplo, se fizermos remos expresso


X2

y = 70

na Equao 6.3 chega-

= 1,24x I + 0,47

que descreve uma reta sobre a qual o valor de

deve ser igual a 70, de acordo com o modelo

ajustado. Fazendo o mesmo para outros valores de

obteremos outras curvas de nvel, que

em conjunto daro uma imagem da superfcie de resposta na regio investigada (Figura 6.3). Podemos ver claramente, tanto numa figura quanto na outra, que se trata de um plano inclinado obliquamente em relao aos eixos, e com sentido ascendente indo da direita para a esquerda. Assim, se desejamos obter maiores rendimentos, devemos deslocar a regio experimental para menores valores de
Xl

e maiores valores de
X2

X2

(o que, alis, j est

indicado pelos sinais dos coeficientes de Xl e

na Equao 6.3) . O progresso ser mais

rpido se o deslocamento for realizado ao longo de uma trajetria perpendicular s curvas de nvel, isto , se seguirmos um auninho de mxima inclinao da superfcie ajustada.
1,5 (78) 1,0 ..9~,

I 75
~

I
!
70

(67)
-:i::::

f_r....

-____1::::.
_

..
.

0,5

. . . . . ._ ~. . _ _.~. ~. ~
._.- ___I___-!-

'

!_t.._..

~~

0,0

-0,5

! ! i ! ! __-1-----l-----"1""_ __r--___j-

~:-~~~t_~-~-; +~:_ -r- __ __-60

-1,0 -1 ,5 -1,5

--<r-.._._. _.~. _._. - -+ _.._ . +-.- _ . +._ _(69)


I...-.-.

(59)
...o...-.o-......o..--.L.--o-_.........---I

-'--_--...Lo.-.L.-

......o..----.L---...___..........--L

-1,0

-0,5

0,0

0,5

1,0

1,5

Figura 6.3 Curvas de nvel do plano descrito pela Equao 6.3. A linha tracejada a trajetria de mxima inclinao partindo do ponto central do planejamento. Os valores entre parnteses so as respostas determinadas experimentalmente.

6.1(b) Como determinar o caminho de mxima inclinao


O caminho de mxima inclinao saindo do ponto central do planejamento est indicado pela linha tracejada na Figura 6.3. Ele pode ser determinado algebricamente a partir dos

256

coeficientes do modelo. Para termos a mxima inclinao, devemos fazer deslocamentos ao longo dos eixos
x2

xl

na proporo b2 /bl

Da Equao 6.3 temos b2/~ = 4,25/(-5,25)= -0,81, o que significa que para cada unidade recuada no eixo
xl

devemos avanar 0,81 unidades ao longo do eixo

X2.

As

coordenadas de vrios pontos ao longo dessa trajetria esto na Tabela 6.3, tanto nas variveis codificadas quanto nas unidades reais de concentrao e velocidade de agitao.

Tabela 6.3 Caminho de mxima inclinao para o modelo das Figuras 6.2 e 6.3.
Etapa
Xl X2

C(%)

v(rpm)
100,0 108,1 116,2 124,3 132,4 140,5

y (%)

Centro Centro + ..1 Centro + 2..1 Centro + 3..1 Centro + 4..1 Centro + 5..1

-1

0,00 0,81 1,62 2,43 3,24 4,05

50 45 40 35 30 25

68,66,69 77 86 88 80 70

-2
-3 -4 -5

No caso geral, em que temos uma superfcie de resposta determinada por p fatores, o caminho de mxima inclinao proporcional aos mdulos e aos sinais dos coeficientes do modelo. Podemos tra-lo facilmente, usando o seguinte procedimento: 1. Escolhemos um dos fatores, digamos i, para servir de base, e mudamos o seu nvel numa certa extenso, para mais ou para menos, dependendo do sinal de seu coeficiente e do objetivo do experimento - maximizao ou minimizao da resposta. Alguns autores recomendam escolher o fator de maior coeficiente, em mdulo, no modelo ajustado. Tipicamente, o seu deslocamento inicial de uma unidade (na escala codificada). 2. Determinamos os deslocamentos dos outros fatores j atravs de (6.4)

*" i , em

unidades codificadas,

3.

Convertemos os deslocamentos codificados de volta s unidades originais, e determinamos os novos nveis dos fatores.

257

Vejamos um exemplo com trs fatores. Num estudo para avaliar a influncia de alguns nutrientes na produo de quitina pelo fungo Cunninghamella elegans (Andrade et

al., 2000) utilizou-se um planejamento fatorial 23 com os nveis da Tabela 6.4, cujos
resultados se ajustaram ao modelo

(6.5)
onde a resposta y o teor de quitina produzido. Como os coeficientes do modelo so todos positivos e o objetivo do estudo era maximizar a produo de quitina, devemos aumentar os nveis de todos os fatores. Partindo do fator

X2

(o de maior coeficiente) teramos, como

deslocamentos para localizar o primeiro ponto ao longo do caminho de mxima inclinao,


Lll:I

=-

2 (+ 1) = +0,4 5

~3 = 2,5 (+ 1)= +0,5 .


5

Nas unidades verdadeiras, onde o ponto central dado por (G, A, T) = (40, 2, 0,05), isto corresponde s seguintes condies experimentais:

G=40+(0,4x20)= 48gL-1

A =2+(1x1)= 3gL-1

T =0,05+(0,5xO,03)=0,065mgL-1

Tabela 6.4 Nveis de um planejamento 23 com ponto central, para estudar como o teor de quitina produzido pelo fungo Cunninghamella elegans varia com as concentraes de glicose, asparagina e tiamina no meio de cultura.
Fator Nvel

-1 20

G A

(Xl) (X2)

D-glicose (g L -1) L-asparagina (g L -1) Tiamina (mg L -1)

40 2 0,05

+1
60 3 0,08

1
0,02

T (X3)

Exerccio 6.5

Imagine que, no exemplo da C. e legans , os pesquisadores tenham preferido tomar a concentrao de glicose como fator de partida para determinar o caminho de mxima inclinao, com um deslocamento inicial de + 25 g L-l (note que estas so as unidades reais). Calcule as coordenadas do terceiro ponto ao longo do novo caminho, e use a Equao 6.5 para fazer uma estimativa do rendimento de quitina nessas condies.

Voltamos agora ao nosso primeiro exemplo. Tendo realizado a modelagem inicial e determinado o caminho de mxima inclinao, passamos etapa de deslocamento ao longo desse caminho, e vamos realizando experimentos nas condies especificadas na Tabela 6.3.

258

Com isso obtemos os resultados da ltima coluna da tabela, que tambm esto indicados na Figura 6.4. Inicialmente os rendimentos aumentam, mas depois do terceiro ensaio comeam a diminuir. Podemos interpretar esses resultados imaginando que a superfcie de resposta como um morro. Pelos valores iniciais, comeamos a nos deslocar ladeira acima, mas depois do terceiro ensaio j estamos comeando a descer o morro pelo lado oposto.
hora, portanto, de parar com os deslocamentos e examinar a regio que apresentou

melhores rendimentos. Para isso fazemos um novo planejamento, idntico ao primeiro, porm centrado em torno do melhor ensaio, que o terceiro (35% e cerca de 125 rpm). A nova matriz de planejamento apresentada na Tabela 6.5, juntamente com as novas respostas observadas.

~.

'.

70
.~.~ ...

140

'.

80

130

'-.
'.

....... ~

88

. . . . .~.<..... 86 1

110

......,.

~~. . 7 7
.~

-i

100 20

25

30

35

40

45

50

C (%)

I
-5

I
-4

I
-3
Xl

I
-2

I
-1

Figura 6.4 Resultados dos ensaios realizados na trajetria de mxima inclinao da Figura 6.3.

259

Andando na superficie de resposta

Tabela 6.5 Resultados de um novo planejamento 2 2 com ponto central. Xl e x2 agora


representam os valores das variveis codificadas pelas equaes xl = - - - e 5
x2 = v-125 C-35

10
C(%) v (rpm) Xl X2 y(%)

Ensaio 1 2 3 4 5 6 7

30 40 30 40 35 35 35

115 115 135 135 125 125 125

-1 1 -1 1 O O
O

-1 -1
1

86 85 78 84 90 88 89

1
O O O

o ajuste de um modelo linear aos dados da Tabela 6.5 resulta na equao


y = 85,71+ 1,25xI (O,49) (O,65)

2,25x2 , (O,65)

(6.6)

onde os erros padro foram calculados a partir de uma estimativa conjunta da varincia, combinando os ensaios repetidos dos dois planejamentos. Em comparao com os valores dos coeficientes, os erros so bem mais importantes do que no caso da Equao 6.3, e a dependncia linear da resposta em relao a xl e X2 j no parece segura.

Exerccio 6.6

Use os erros dos coeficientes na Equao 6.6 para calcular intervalos de 95% de confiana para

f3o, f31 e f32. Esses parmetros so estatisticamente significativos?

A anlise da varincia (Tabela 6.6) mostra que a situao agora bem diferente. A percentagem de variao explicada apenas 27,20%, e o valor de MQfaj/MQep subiu para 34,46, que maior que F 2 ,2 (19,0, no nvel de 95% de confiana). Isto quer dizer que, na regio onde o caminho de mxima inclinao nos levou, o modelo linear j no descreve satisfatoriamente a superfcie de resposta.

260

Tabela 6.6 Anlise da varincia para o ajuste do modelo Tabela 6.5.


Fonte de variao Regresso Resduos F. ajuste Erro puro Total Soma quadrtica 26,50 70,93 68,93 2,00 97,42

y = b o + b1Xl + b2X2

aos dados da

N de g.l. 2 4 2 2 6

Mdia quadrtica 13,25 17,73 34,46 1,00

% de variao explicada: 27,20


% mxima de variao explicvel: 97,95

6.1(c) Localizao do ponto timo


Como o modelo linear no serve mais, devemos partir para um modelo quadrtico, cuja expresso geral, para duas variveis, (6.7) Este modelo tem seis parmetros, e o nosso planejamento tem apenas cinco "nveis", isto , cinco diferentes combinaes de valores da concentrao e da velocidade de agitao. Como no possvel determinar as estimativas quando h mais parmetros do que nveis, precisamos ampliar o planejamento. A ampliao pode ser feita de vrias maneiras, sendo a mais comum a construo do chamado planejamento em estrela. Para fazer um planejamento em estrela, simplesmente acrescentamos ao

planejamento inicial um planejamento idntico, porm girado de 45 graus em relao orientao de partida. O resultado uma distribuio octogonal, como mostra a Figura 6.5. Um argumento geomtrico simples nos permite concluir que os novos pontos, assim como os primeiros, esto a uma distncia de

J2

unidades codificadas do ponto central. Todos eles

esto portanto sobre uma circunferncia de raio

J2. As coordenadas dos pontos em estrela

so dadas nas quatro ltimas linhas da Tabela 6.7. Realizando ensaios nos quatro novos pontos, nosso qumico obtm os resultados mostrados no fim da ltima coluna da Tabela 6.7, que tambm contm os valores j mostrados na Tabela 6.5, completando os dados do planejamento em estrela.

261

-1

-2

J..--

----'-

""""""'-_ _- - - - - '

-2

-1

Figura 6.5 Planejamento em estrela para duas variveis codificadas, correspondente tabela 6.7. Tabela 6.7 Resultados do planejamento em estrela obtido com a ampliao do planejamento da Tabela 6.5. xl e X2 representam os valores das variveis codificadas de acordo com as expresses da Tabela 6.5.
Ensaio 1 2 3 4 5 6 7 8 9 10 11
C(%)

v (rpm)

Xl

X2

Y (%)

30 40 30 40 35 35 35 28 35 42 35

115 115 135 135 125 125 125 125 139 125 119

-1 1 -1 1
O O O

-1 -1 1 1
O O O O

86 85 78 84 90 88 89 81 80 86 87

-/2
O

/2
O

/2
O

-/2

262

o vetor yagora ter onze valores, e a matriz X ter dimenses

11x6, com suas seis

colunas correspondendo aos seis termos do modelo quadrtico. Para obter as colunas referentes a x;, x~ e XlX2, elevamos ao quadrado ou multiplicamos as colunas apropriadas na matriz de planejamento da Tabela 6.7. Assim, podemos escrever 1
1

-1
1

-1 -1

1
1 1

-1
1
O O O

1
1
O O O O

1 1 1 1
O O O

1 1 1 -1 1 -1 1 1
O O O O O O O O O O O

X= 1 1 1 1 1 1

-/2
O

2
O

/2
O

2
O

/2
O

2
O

-/2

86 85 78 84 90 y= 88 89 81 80 86 87

Resolvendo as Equaes 5.12 e 5.30, obtemos

y = 89,00+ 1,51xl (,75) (,46)

2,36x2 - 2,81x; - 2,81x~ + 1,75xlx2 .


(,46) (,54) (,54) (,65 )

(6.8)

Os erros padro foram novamente calculados a partir de uma estimativa conjunta da varincia, obtida de todos os ensaios repetidos, inclusive os da Tabela 6.1. A nova anlise da varincia est na Tabela 6.8. O valor de MQfaj/MQep agora apenas 0,25, no havendo evidncia de falta de ajuste do modelo quadrtico. Isto quer dizer que o valor de 0,55 para a mdia quadrtica residual total, MQr, tambm poderia ser usado como uma estimativa da varincia, com cinco graus de liberdade. A superfcie de resposta e as curvas de nvel correspondentes ao modelo ajustado so mostradas na Figura 6.6. A regio contm um ponto de mximo, situado aproximadamente em Xl = 0,15 e X2 = -0,37 , isto , numa concentrao de 36% e numa velocidade de agitao de 121 rpm. Com estes valores, de acordo com a Equao 6.8, o rendimento da reao deve ser cerca de 89,6%, o que representa uma melhora de 32% em relao ao valor de partida, que era 68%. Como localizamos a regio do mximo, a investigao termina por aqui. Poderia ter acontecido, no entanto, que a superfcie de resposta ajustada aos dados do segundo planejamento fosse uma nova ladeira, em vez de um pico (para continuar usando a analogia topogrfica). Nesse caso, deveramos nos deslocar novamente, seguindo o novo caminho de mxima inclinao, e repetir todo o processo de modelagem
~

deslocamento

modelagem

263

... , at atingir a regio procurada. Na prtica no deve haver muitas dessas etapas,

porque o modelo linear vai-se tornando menos eficaz medida que nos aproximamos de um ponto extremo, onde a curvatura da superfcie evidentemente passar a ter importncia.

Tabela 6.8 Anlise da varlancia para o ajuste do modelo b22X~ + ~2xlx2 aos dados da Tabela 6.7.
Fonte de variao Regresso Resduos F. ajuste Erro puro Total Soma quadrtica 144,15 2,76 0,76 2,00 146,91 N de g. l. 5 5 3 2 10

y = b o + ~Xl + b 2X 2 + ~lxi
Mdia quadrtica 28,83 0,55 0,25 1,00

% de variao explicada: 98,12

% mxima de variao explicvel: 98,64

Exerccio 6.7
Use os dados da Tabela 6.8 para calcular um valor que mostre que a Equao 6.8 estatisticamente significativa.

Exerccio 6.8
Uma representao grfica, embora seja sempre conveniente, no necessria para localizarmos o ponto mximo de uma superfcie de resposta. Isso pode ser feito derivando-se a equao do modelo em relao a todas as variveis e igualando-se as derivadas a zero. (a) Use esse procedimento para a Equao 6.8, para confirmar os valores citados no texto. (b) O que aconteceria se voc tentasse fazer o mesmo com a Equao 6.6? Por qu?

6.2 A importncia do planejamento inicial


Uma questo muito importante na RSM a escolha da faixa inicial de variao dos fatores, que determinar o tamanho do primeiro planejamento e conseqentemente a escala de codificao e a velocidade relativa com que os experimentos seguintes se deslocaro ao longo da superfcie de resposta.

264

(a)

X2

-2

-2

(b)

65

75
1 ................0!

80. i 1.0-

85

-2

~_~""'--"""'"-

-'--

~.....a.--'""'-_-"'-

......

-2

-1

Figura 6.6 (a) Superfcie quadrtica descrita pela Equao 6.7. (b) Suas curvas de nvel. O rendimento mximo (89,6%) ocorre em Xl = 0,15 e x2 = -0,37.

Suponhamos, por exemplo, que na Tabela 6.1 tivssemos escolhido para o segundo fator - a velocidade de agitao - os limites de 95 e 105 rpm (ao invs de 90 e 110). Essa deciso teria as seguintes conseqncias:

265

1.

O coeficiente de

X2

na Equao 6.3 se reduziria de 4,25 para 2,125, porque a


X2

variao unitria em mais a 10 rpm. 2.

agora corresponderia, em unidades reais, a 5 rpm, e no

Com este novo coeficiente teramos, na Equao 6.4,


Ax = 2,125 ~ = -O 405Ax .
2 _

5,25

3.

Conseqentemente, o deslocamento que equivaleria agora a


~v =

~2

correspondente a

~1

= -1

seria +0,405,

+0,405 x 5 = 0,203 rpm. Ou seja: em termos da

velocidade de agitao, cada deslocamento seria apenas um quarto do deslocamento do planejamento original. Quando chegssemos etapa Centro+5L1, ainda

estaramos com uma velocidade de 110,1 rpm. Se, ao contrrio, tivssemos preferido uma escala mais ampliada, evidentemente o deslocamento passaria a ser mais rpido. No entanto, tambm estaramos correndo riscos. Dependendo da ampliao, poderamos sair da regio linear da superfcie, ou mesmo cair "do outro lado do morro" j no primeiro deslocamento, e assim perder a oportunidade de descobrir a direo do ponto timo. Como fazer, ento, para determinar a melhor escala? Infelizmente a resposta no est neste livro, nem em nenhum livro de estatstica, porque depende de cada problema, e muitas vezes no pode ser conhecida a priori. A mesma deciso, alis, tambm precisa ser tomada em experimentos univariados. O que podemos dizer que os pesquisadores devem apoiar-se em todo o conhecimento disponvel sobre o sistema em estudo e procurar escolher deslocamentos nem to pequenos que no produzam efeitos significativos na resposta, nem to grandes que varram faixas exageradas dos fatores. Somos os primeiros a reconhecer que isto mais fcil de falar do que de fazer, mas serve mais uma vez para lembrar como importante fazer os experimentos de forma seqencial e iterativa. Caso a anlise dos primeiros resultados nos leve a fazer modificaes nos planejamentos originais, o prejuzo ser menor se no nos apressarmos em fazer muitos experimentos logo de sada.

6.3 Um experimento com trs fatores e duas respostas


Na metodologia de superfcies de resposta o nmero de fatores no uma restrio, nem o nmero de respostas. A R8M pode ser aplicada a qualquer nmero de fatores, assim como 266

pode modelar vrias respostas ao mesmo tempo.1 Esta uma caracterstica importante, porque muitas vezes um produto ou processo tem de satisfazer mais de um critrio, como, digamos, apresentar o mximo de rendimento com o mnimo de impurezas, ou ter custo mnimo porm mantendo os parmetros de qualidade dentro das especificaes. Para ilustrar essa flexibilidade da RSM, apresentamos nesta seo uma aplicao real, cujo objetivo era a maximizao simultnea de duas respostas distintas. R. A. Zoppi, do Instituto de Qumica da Unicamp, realizou uma srie de experimentos de sntese de polipirrol numa matriz de borracha de EPDM, sob a orientao dos professores M. A. de Paoli e M. I. Felisberti. Seu objetivo era conseguir um produto que tivesse ao mesmo tempo propriedades eltricas semelhantes s do polipirrol e propriedades mecnicas parecidas com as da borracha de EPDM. O polipirrol um polmero condutor mas muito quebradio, o que prejudica o seu uso em aplicaes de interesse prtico. Os fatores escolhidos para estudo foram o tempo de reao Ct), a concentrao do agente oxidante CC) e a granulometria das partculas do oxidante CP). O pesquisador, que no tinha instruo formal em tcnicas de planejamento de experimentos, decidiu realizar 27 ensaios em quadruplicata, seguindo o planejamento fatorial 33 da Tabela 6.9. Para cada ensaio foram registrados o rendimento da reao e os valores de vrias propriedades mecnicas do produto final, entre as quais o Mdulo de Young. As respostas que aparecem na tabela so as mdias e os desvios padro dos quatro ensaios 2 realizados para cada combinao de nveis dos fatores, num total de cento e seis ensaios. Observe que o tamanho das partculas no definido de forma precisa. Os trs nveis representam intervalos granulomtricos, e no tamanhos especficos. M. R. Vallim e V. F. Juliano analisaram os dados da Tabela 6.9 como tarefa num curso de quimiometria, e logo perceberam que, como existem 27 ensaios diferentes, possvel ajustar a eles uma funo com at 27 parmetros. As funes lineares e quadrticas de trs variveis so definidas por apenas quatro e dez parmetros, respectivamente. Se as usarmos para modelar os dados da tabela, ainda teremos muitos graus de liberdade sobrando para estimar a falta de ajuste. Os coeficientes do modelo e seus erros padro foram calculados como de costume, por meio das equaes matriciais 5.12 e 5.30. Para o Mdulo de Young, o emprego do modelo linear resultou na equao

1 Embora,

como veremos adiante, a anlise possa ficar um tanto complicada.

Em alguns casos, trs.


267

Tabela 6.9 Planejamento 33 para investigar o efeito do tempo de reao (t), da concentrao de oxidante (C) e da granulometria (P) no rendimento (R) e no Mdulo de Young (M) do produto de uma sntese de polipirrol numa matriz de borracha de EPDM.
Nvel
t(h)

C (Ppc)
P(mesh)

-1 8 10 >150
P

16 30 150-100 R(%) 4,55 0,17 2,77 0,10 2,01 0,08 10,75 0,41 7,32 0,28 6,07 0,23 13,98 0,53 14,59 0,55 12,23 0,46 4,57 0,17 3,28 0,12 2,37 0.09 11,24 0,43 7,37 0,28 7,31 0,28 20,02 0,76 17,64 0,67 16,53 0,63 5,98 0,23 5,14 0,19 3,27 0,12 13,17 0,50 10,78 0,41 9,72 0,37 20,34 0,77 22,83 0,86 18,69 0,71

+1 24 50 100-60
M(MPa)

t
-1 -1 -1 -1 -1 -1 -1 -1 -1

C -1 -1 -1

-1

0,61 0,07 0,57 0,03 0,54 0,02 0,99 0,10 0,86 0,05 0,74 0,18 2,13 0,24 2,13 0,18 1,61 0,10 0,57 0,02 0,50 0,05 0,58 0,05 0,81 0,12 0,98 0,09 0,79 0,13 2,38 0,48 2,07 0,21 1,45 0,21 0,54 0,06 0,45 0,05 0,45 0,12 0,91 0,13 0,84 0,06 0,77 0,07 2,58 0,18 2,06 0,21 1,78 0,27

1 -1


1 1 1 -1 -1 -1

1 -1

1 -1


1 1 1 1 1 1 1 1 1

1 -1


1 1 1 -1 -1 -1

1 -1

1 -1

1 -1


1 1 1

1 -1

268

:M: = 1,13 + O,Olt+ 0,74C- 0,15P


(O,03) (O,04) (O,04) (O,04)

(6.9)

enquanto o modelo quadrtico produziu

:M: =

0,86 + O,Olt+ 0,74C- 0,16P- 0,02t 2 + 0,44C 2


(O,09) (O,04) (O,04) (O,04) (O,07) (O,07)

-0,05p2 +O,07tC -O,OltP -0,18CP .


(O,07) (o,os) (o,os) (o,os)

(6.10)

A anlise da varincia para os dois ajustes est na Tabela 6.10. Os valores de MQR/MQr so 141,5 e 171,4 para os modelos linear e quadrtico, respectivamente. Comparando esses valores com F 3,102

= 2,71

e F 9,96

= 2,00,

no nvel de 95% de confiana, vemos que os dois

modelos so altamente significativos.

Tabela 6.10 Anlise da varincia para o ajuste de modelos linear e quadrtico aos valores do Mdulo de Young dados na Tabela 6.9. Os valores para o modelo quadrtico esto entre parnteses.
Fonte de variao Regresso Resduos F. ajuste Erro puro Total Soma quadrtica 37,34 8,44 6,76 1,68 45,78 (43,23) (2,55) (0,87) N de g.l. 3 102 23 79 105 (9) (96) (17) Mdia quadrtica 12,45 0,088 0,29 (4,80) (0,028) (0,051) 0,023

% de variao explicada: 81,56 (94,43) % mxima de variao explicvel: 96,33

Embora no parea haver muita diferena entre os dois modelos, um exame mais detalhado da Tabela 6.10 mostra que devemos preferir o modelo quadrtico. Enquanto para o modelo linear a razo MQfaj/MQep igual a 12,61, valor bem superior a F23 ,79 modelo quadrtico tem
F 17,79

= 1,67 , o

MQfaj /MQep

= 2,22,

que est apenas um pouco acima de

= 1,75 .
A diferena entre os modelos fica ainda mais evidente nos grficos dos resduos

(Figura 6.7). Para o modelo linear, o grfico apresenta uma curvatura. Os valores passam de positivos para negativos e depois se tornam positivos novamente. O mesmo no acontece com

269

o modelo quadrtico, cujos resduos parecem flutuar aleatoriamente em torno do valor zero. Em ambos os casos, no entanto, a varincia residual parece aumentar com o valor da resposta, o que pode indicar que os dados so heteroscedsticos.
(a)
1,2

0,8

0,4

o o
0,0

-0,4

-0,8 0,0

0,5

1,0

1,5

2,0

2,5

Resposta prevista
(b)
0,8

0,4

O O O'

0,0

~
-0,4

_0,81..-..---...0...----.....0.-----'-----.......--........... 1,0 1,5 2,0 0,5 0,0 2,5

----..1 3,0

Resposta prevista

Figura 6.7 (a) Resduos deixados pelo ajuste de um modelo linear aos valores do mdulo de Young dados na Tabela 6.9. (b) Resduos deixados pelo ajuste de um modelo quadrtico aos mesmos dados.
A preferncia pelo modelo quadrtico confirmada ainda pelos valores dos coeficientes de C2 e CP na Equao 6.10,0,44 e -0,18. Eles so significativamente superiores aos seus erros padro (0,07 e 0,05), o que significa que os dois termos devem ser includos no modelo. Como eles esto ausentes do modelo linear, no devemos estranhar que o grfico dos resduos na Figura 6.7(a) tenha um comportamento sistemtico.

270

Exerccio 6.9 Use os dados da Tabela 6.10 para calcular uma estimativa do erro experimental com mais de 79 graus de liberdade.

Exerccio 6.10 Sabendo que a estimativa do erro padro foi obtida a partir do valor de MQep na Tabela 6.10, determine, no nvel de 95% de confiana, quais so os coeficientes estatisticamente significativos na Equao 6.10.

Aps a validao estatstica do modelo, podemos tentar interpretar a Equao 6.10, para entender melhor o comportamento do Mdulo de Young (e portanto das propriedades mecnicas) das amostras em questo. Os resultados mostram que o valor do Mdulo de Young s depende da concentrao do oxidante e do tamanho de suas partculas (Exerccio 6.10). Nenhum dos termos envolvendo o tempo de reao estatisticamente significativo. Numa primeira aproximao, portanto, podemos eliminar os termos em t, reduzindo o modelo a M = 0,86 + 0,74C - 0,16P + 0,44C - 0,18CP .
A

(6.11)

A forma da superfcie de resposta gerada por esta expresso revelada pela Figura 6.8. Trata-se de uma espcie de vale, situado quase perpendicularmente ao eixo das concentraes. Na prtica, a utilidade da Equao 6.11 (e da Figura 6.8) nos ajudar a prever que condies experimentais resultaro num valor de interesse para o Mdulo de Young. A Tabela 6.11 mostra uma comparao dos valores mdios observados com os valores previstos pela Equao 6.11. A concordncia muito boa. O erro mdio das previses, em valor absoluto, apenas 0,06, o que no chega a 40/0 da faixa de variao dos valores da Tabela 6.9. Isto comprova que quase toda a variao observada nos valores do Mdulo de Young pode ser explicada pelas mudanas feitas na concentrao e na granulometria do oxidante. Se nosso objetivo obter um produto com um alto valor de M, a Figura 6.8(b) indica que devemos usar um nvel de concentrao de cinqenta partes por cem e partculas com granulometria >150 mesh. Caso o modelo possa ser extrapolado, podemos obter valores ainda maiores continuando a aumentar a concentrao e a diminuir a granulometria das partculas. 3 Da mesma forma, para obter pequenos valores do Mdulo de Young devemos usar uma baixa concentrao de oxidante, cerca de 10 partes por cem. Nesse caso, porm, o
3

Valores em mesh numericamente maiores significam partculas menores, isto , uma granulometria

mais fina.
271

Andando na superfcie de resposta

tamanho da partcula no tem importncia. Todos os resultados experimentais obtidos com 10 ppc esto no fundo do vale, onde a granulometria varia sem afetar a resposta.
(a)
....(T1..

.....( ...'1'

.1'.....

...... ~.T
2,5

1,5

)1 :

: .....

0,5

(b)

10

30

50

C (ppc)

Figura 6.8 (a) Superfcie de resposta descrita pela Equao 6.11, que relaciona o Mdulo de Young com a concentrao e a granulometria do oxidante. (b) Curvas de nvel para a superfcie do item (a). Os valores entre parnteses so as respostas mdias observadas.
Como o tempo de reao no alterou o valor do Mdulo de Young, podemos usar qualquer valor, entre 8 e 24 horas. Se s estivermos interessados nessa resposta, no

272

precisamos nos importar com o tempo. Neste estudo, porm, os pesquisadores tambm queriam aumentar o rendimento da reao, e fizeram para ele um ajuste semelhante ao que acabamos de discutir. Da resultou a equao

R = 9,24 + 1,93t + 6,81C -1,4 7P + 1,28C2 + 1,26tC ,


onde somente aparecem os termos estatisticamente significativos. Nesta expresso o tempo um fator importante. Todos os termos em t tm coeficientes positivos, o que significa que tempos mais longos produziro maiores rendimentos. Colocando o tempo no seu valor mximo (24 horas, ou t = + 1), podemos escrever R=11,17+8,07C-1,47P+1,28C .
A

(6.12)

A superfcie de resposta descrita por esta expresso est representada na Figura 6.9. Comparando-a com a Figura 6.8 podemos constatar que a regio que produz altos Mdulos de Young (o canto inferior direito do grfico das curvas de nvel) tambm produz altos rendimentos. O mesmo paralelismo se observa no fundo do vale: valores de M da ordem de

0,50 MPa correspondem a rendimentos baixos, de cerca de 5%.

Tabela 6.11 Valores previstos pela Equao 6.11 e valores mdios observados para o
Mdulo de Young. O erro mdio absoluto dado por
c

e = (Llel)/ N

= 0,06MPa .

Mobs
0,57 0,51 0,52 0,90 0,89 0,77 2,36 2,09 1,61

M 0,53 0,55 0,57 1,03 0,87 0,71 2,37 2,03 1,69

e=Mobs-M 0,04 -0,04 -0,05 -0,13 0,02 0,06 -0,02 0,06 -0,08

-1 -1 -1

-1 1 -1 1 -1


1 1 1

Embora o planejamento que acabamos de discutir tenha permitido descrever adequadamente as superfcies de resposta na regio estudada, poderamos chegar s mesmas concluses com um planejamento mais econmico. Inicialmente, poderamos fazer um planejamento fatorial com apenas dois nveis, para sondar o espao definido pelos fatores e tentar demarcar uma regio para um estudo mais detalhado. Dependendo dos resultados, poderamos

273

Andando na superfcie de resposta

(a) ampliar o planejamento inicial com mais ensaios para transform-lo num planejamento em estrela, ou (b) deslocar os experimentos para uma regio mais promissora, a ser investigada com um novo fatorial.

100-60

150-100

>150

10

30

50

c
Figura 6.9 Superfcie de resposta e curvas de nvel para a Equao 6.12, mos-

trando o rendimento aps 24 horas de reao, em funo da concentrao (C) e da granulometria do oxidante (P).

274

Estas consideraes no desmerecem o estudo que apresentamos nesta seo. Todos os experimentos foram feitos de acordo com um planejamento sistemtico, que permitiu caracterizar, com bastante preciso, a influncia dos fatores investigados sobre as respostas de interesse. Esse modo de proceder indiscutivelmente superior maneira, digamos, intuitiva que ainda prevalece em muitos laboratrios de pesquisa.

6.4 Como tratar problemas com muitas variveis


No nosso ltimo exemplo, apesar de termos trs fatores a considerar, conseguimos reduzir nossa anlise a grficos envolvendo apenas dois deles (mais a resposta). Isto nos permitiu localizar a regio desejada por simples inspeo visual das duas superfcies ajustadas. Se todos os trs fatores tivessem se mostrado significativos, a visualizao no seria mais possvel (exigiria quatro dimenses) e precisaramos nos arranjar de outra forma. Tambm tivemos a sorte de verificar que a regio tima dos nveis dos dois fatores era a mesma para as duas respostas. Caso no fosse, no poderamos otimiz-las simultaneamente e teramos de partir para alguma soluo de meio termo. Evidentemente, medida que o nmero de fatores for aumentando, a anlise tender a se tornar mais complicada. Na prxima seo falaremos sobre planejamentos apropriados para essas situaes. Consideremos um problema geral de otimizao, com vrias respostas Yl, Y2,, Y m
,

para as quais construmos modelos baseados no mesmo conjunto de fatores codificados


Xl' X2'' X n .

Como fazer para descobrir os nveis dos fatores que produziro o conjunto de

respostas mais satisfatrio? Existem vrias possibilidades. Se o nmero de fatores significativos


xi

permitir a

visualizao dos modelos ajustados, e se o nmero de respostas no for grande demais, podemos sobrepor as superfcies de resposta e localizar a melhor regio por inspeo visual. Foi o que fizemos na seo anterior. Se, por outro lado, o nosso objetivo for maximizar ou minimizar uma dada resposta mantendo as outras respostas sujeitas a determinadas restries, podemos recorrer aos mtodos de programao linear engenharias. Finalmente, se o problema no se enquadrar em uma destas duas categorias, podemos tentar usar a metodologia de otimizao simultnea proposta por G. C. Derringer e R. Suich (1980), que pode ser bastante til quando usada com o devido cuidado. ou mesmo no linear comumente usados nas

275

Arujando na superfcie de resposta

mtodo de Derringer e Suich se baseia na definio de uma

fun~o

de

desejabilidade para cada resposta, com valores restritos ao intervalo [0,1]. Zero significa um
valor inaceitvel, e um o valor mais desejvel. A natureza da funo depende dos objetivos do experimento, como logo veremos. Uma vez que as funes de desejabilidade tenham sido especificadas para todas as respostas, devemos combin-las numa desejabilidade global, normalmente dada pela mdia geomtrica das m desejabilidades individuais: (6.13) Com este artifcio, a otimizao simultnea das vrias respostas se reduz maximizao de um nico valor, a desejabilidade global. Nosso problema transforma-se em descobrir os nveis dos fatores que maximizem o valor de D. Outra vantagem desta definio que o uso da mdia geomtrica faz com que a desejabilidade global se anule sempre que uma das respostas tiver um valor inaceitvel, no importa quo satisfatrios sejam os valores das outras respostas. A forma da funo de desejabilidade de uma dada resposta depende de como o problema est formulado. Suponhamos que a resposta tenha um valor alvo timo, digamos
A, situado em algum ponto dentro de uma faixa de aceitao, cujos limites inferior e superior

ns representaremos por LI e LS, respectivamente. Nesse caso, a funo de desejabilidade da resposta definida por

(Y -LI JS
A-LI

'

para LI

~Y ~A

(6.14a)

d=(Y-LS Jt A-LS d=O,

para A

~y ~LS

(6.14b)

para

y fora do intervalo

(LI, LS) .

(6.14c)

Observe que o valor de d est restrito ao intervalo [0,1]. Uma desejabilidade igual a 1 s ser obtida se a resposta coincidir exatamente com o valor alvo, e tornar os numeradores das fraes iguais aos respectivos denominadores. medida que o valor de

se afaste do alvo

A, o valor da desejabilidade ir caindo, tornando-se zero quando um dos limites da faixa de

aceitao for alcanado. A taxa de variao da desejabilidade com a resposta estimada pelo modelo definida pelos valores dos expoentes s e t. Fazendo-os variar, podemos aceler-la ou retard-la, e assim atribuir diferentes desejabilidades aos diversos nveis da resposta. Valores altos dos

276

dois expoentes (por exemplo, 10) faro com que a desejabilidade caia rapidamente, tornandose muito baixa a menos que

esteja muito perto do alvo. Valores baixos, por outro lado,

permitiro que a resposta tenha uma variao mais ampla sem que a desejabilidade seja muito diminuda. A escolha vai depender da prioridade ou da importncia relativa que resolvermos atribuir a cada resposta. Alm disto, a taxa de queda da desejabilidade no precisa ser simtrica em torno do alvo. Os valores de
8

e de t podem ser diferentes. Se, por

exemplo, for mais aceitvel que o valor da resposta fique acima do alvo do que abaixo dele, devemos escolher t
8. 4

Muitas vezes no temos um valor alvo, e sim um limite unilateral, acima ou abaixo do qual queremos que a resposta fique. Para tratar desses casos, devemos modificar uma parte da definio de desejabilidade, fazendo o valor alvo coincidir com um dos extremos e considerando d 1.

= 1 a partir da. Existem duas possibilidades:

Eliminar a Equao 6.14a e fazer d

=1

para

y ~ LI . Isto

significa que estaremos

plenamente satisfeitos com qualquer valor da resposta abaixo do limite inferior LI. 2. Se, ao contrrio, nosso objetivo for manter a resposta acima do limite superior LS, descartamos a Equao 6.14b e fazemos d

=1

para qualquer

y ~ LS

Em alguns problemas de otimizao, no possvel especificar claramente intervalos de aceitao para algumas respostas. No podemos, portanto, definir a desejabilidade atravs das Equaes 6.14. A melhor alternativa nesses casos parece ser uma funo exponencial. Mais detalhes sobre este assunto podem ser encontrados, por exemplo, em Wu e Hamada (2000). Mesmo com a interessante metodologia de Derringer e Suich, precisamos ter todo o cuidado quando tentarmos otimizar simultaneamente vrias respostas. Se nos limitarmos a aplicar mecanicamente o algoritmo de busca, podemos ser levados a um conjunto de condies matematicamente 'otimizadas' porm sem viabilidade prtica, talvez porque algumas condies de contorno tenham sido relaxadas no incio da investigao, ou porque os expoentes no foram escolhidos da forma mais adequada. s vezes, s percebemos que o problema est mal formulado quando descobrimos que condies experimentais absurdas so identificadas como timas pelo software utilizado. Uma boa estratgia alimentar o algoritmo de otimizao com vrias escolhas diferentes para os expoentes
8

e t. Assim chegaremos a vrios conjuntos de condies

Por exemplo, se a resposta for a quantidade de cerveja contida numa garrafa, o fabricante certamente preferir pecar pelo excesso do que arriscar sua reputao pondo venda garrafas com um

nvel inferior ao normal.


277

otimizadas, dentre os quais poderemos selecionar o que melhor nos convier. A prpria variedade desses conjuntos j nos dar uma idia da robustez das condies experimentais sugeridas. Se elas forem relativamente insensveis variao dos expoentes s e t, isso um bom sinal. Depois de descobrir um conjunto de condies que maximize a desejabilidade global
D, no podemos deixar de examinar o comportamento individual de cada uma das respostas,

para nos certificarmos de que todas elas esto realmente em regies aceitveis, com todas as restries satisfeitas. Tambm altamente recomendvel fazer alguns experimentos confirmatrios nas condies selecionadas e, se possvel, no seu entorno. Experimentos confirmatrios sempre so uma excelente idia. Quando vrias respostas esto em jogo, tornam-se praticamente imprescindveis. Para exemplificar a aplicao do mtodo de Derringer e Suich, vamos adaptar um pouco o problema de trs fatores e duas respostas que apresentamos na Seo 6.3. Partiremos dos dados da Tabela 6.9, mas admitiremos inicialmente que estamos interessados em obter um produto com o valor do mdulo de Young o mais prximo possvel de 2,0 Mpa, e que tambm queremos um rendimento no muito inferior a 15%. O algoritmo que utilizamos (Statsoft, 1998) exige a especificao de valores numricos para LI, L8 e A, alm de s, t e da desejabilidade. Para chegar aos resultados que vamos ver, utilizamos os valores que esto na Tabela 6.12.

Tabela 6.12 Parmetros utilizados na otimizao simultnea das respostas da sntese de polipirrol na borracha de EPDM. Os valores entre parnteses so as desejabilidades.
Resposta Mdulo de Young (Mpa) Rendimento (%)

LI
0,5 (O) 10 (O)

L8
2,5 (O) 20 (1)

2,0 (1) 15 (1)

5 5

Observe que para o mdulo de Young estamos considerando inaceitveis as respostas que carem abaixo de 0,5 ou acima de 2,5. Como na verdade queramos maximizar esta propriedade, estamos modificando um pouco o objetivo original, para fins didticos. Alm disto, os valores altos dos expoentes s e t faro com que a desejabilidade seja muito pequena se a resposta no estiver muito prxima do valor alvo 2. Para o rendimento, estamos aceitando valores acima de 10%, mas o desejvel que eles fiquem acima de 15%. Abaixo disto o valor alto escolhido para o expoente s (5, de novo) far com que a desejabilidade caia

278

logo. As desejabilidades iguais a 1 especificadas tanto para 15% quanto para 20% significam que qualquer rendimento nessa faixa ser considerado perfeitamente satisfatrio. A Figura 6.10 mostra os resultados do algoritmo de otimizao. Usamos uma grade com 20 pontos em cada um dos trs fatores, o que significa que os valores das respostas e suas correspondentes desejabilidades foram calculados em 20 x 20 x 20 = 8.000 combinaes de nveis dos fatores. Tanto o mdulo de Young quanto o rendimento foram ajustados com modelos quadrticos completos. Os dois grficos da ltima coluna mostram os perfis das desejabilidades das duas respostas, definidos de acordo com os valores escolhidos para os limites e os expoentes na Tabela 6.12. Note que para o mdulo de Young a desejabilidade tem um pico bem pronunciado sobre o valor alvo, como j espervamos. Para o rendimento, temos um patamar de desejabilidade 1 acima de 15%. As linhas tracejadas verticais sinalizam as condies de mxima desejabilidade global, que neste exemplo chegou a 0,99, como mostra a ltima linha de grficos, e obtida com t

= -0,158, C = 0,895 e P =-

0,474. Nessas condies devemos ter

um mdulo de Young igual a 2,00 Mpa e um rendimento de 16,5%, como mostram os valores assinalados nos respectivos eixos. t

Desejabilidade
20

....
~A:~I
~.++

~"""''''''"-~115
10

oS ~
]

....+-

~"'''T.

ri

2, oo

~+~. I ++ ~ I ~ I I I ~ ~1.ll~
.....
,

..

-.

'

.....;...,;...;...:.. ;...:.... !...':....;...

.:

..

',

.._ : . .

,.

'

-1,

1,

-1,

-0,158

1, 0,895

-1,

1,

-0,474

Figura 6.10 Exemplo da aplicao da metodologia de Derringer e Suich para a otimizao das propriedades do sistema polipirrol - borracha de EPDM.

279

As curvas mostram como as respostas variam com cada fator, mantidos fixos os nveis dos outros fatores nos valores especificados. No segundo grfico da primeira coluna, por exemplo, vemos que o mdulo de Young praticamente no afetado pela variao de t, como alis j havamos descoberto na Seo 6.3. O fator crucial para a determinao do ponto timo C, a concentrao de oxidante, que quem apresenta as inclinaes mais pronunciadas. Essas inclinaes todas so muito instrutivas, porque fornecem uma idia da margem de manobra que existe em torno das condies timas. O grfico da desejabilidade global em funo de t mostra que este fator pode variar numa faixa razovel sem prejudicar muito o valor de D. Por outro lado, qualquer alterao no valor de C provocar uma queda brusca na desejabilidade. Este fator, portanto, deve ser mantido sob controle mais rigoroso. Os grficos para o fator P ilustram os problemas que discutimos h pouco. Eles mostram que o aumento de P tende a diminuir o rendimento e o mdulo de Young, mais ou menos na mesma proporo. Ocorre, no entanto, que P (a granulometria) uma varivel categrica, cujos nicos valores possveis, neste experimento, so os trs nveis usados no planejamento: -1 , O e +1. O valor timo encontrado, P

= -0,474,

no tem qualquer

significado prtico. Dos trs nveis possveis, o menos favorvel sem dvida o valor +1. Para escolher entre os dois restantes, o pesquisador deve decidir se prefere desviar-se para cima ou para baixo do ponto timo encontrado (P = -1 ou P = O, respectivamente). Lembrando que o que queramos mesmo era maximizar as duas respostas, devemos optar por P = -1. Alis, levando a maximizao totalmente a srio, devemos preferir tambm C = +1 e t = +1. Esta escolha s no foi feita pelo algoritmo desde o comeo porque resolvemos especificar para o mdulo de Young um perfil de desejabilidade muito estreito e centrado no valor 2 MPa.

6.5 Planejamentos compostos centrais


O planejamento em estrela da Figura 6.5 um exemplo de planejamento oomposto central para dois fatores. Em geral, um planejamento composto central para k fatores, devidamente codificados como 1.
(Xl' ... , Xk)'

formado de trs partes:


nfat

Uma parte chamada de fatorial (ou cbica), contendo um total de coordenadas


Xi

pontos de

= -1

ou

Xi

= +1 , para todos os i = 1, ... , k

2.

Uma parte axial (ou em estrela), formada por n ax

= 2k

pontos com todas as

coordenadas nulas exceto uma, que igual a um certo valor a (ou -a); 3. Um total de
ncentr

ensaios realizados no ponto central, onde, claro,

Xl

=... xk = O.

280

Para realizar um planejamento composto central, precisamos definir como ser cada uma dessas trs partes. Precisamos decidir quantos e quais sero os pontos cbicos, qual o valor de
U,

e quantas repeties faremos no ponto central. No planejamento da Tabela 6.7, por

exemplo, temos k = 2. A parte cbica formada pelos quatro primeiros ensaios, a parte em estrela pelos quatro ltimos (com a

=.J2), e existem trs ensaios repetidos no ponto central.

O caso de trs fatores mostrado na Figura 6.11, onde podemos perceber a origem da terminologia empregada para as trs partes do planejamento.

Figura 6.11 Planejamento composto central para trs fatores. As bolas cinzas so a parte cbica - os ensaios de um fatorial 23 As bolas pretas representam a parte em estrela.

Os pontos cbicos, como voc j deve ter notado, so idnticos aos de um planejamento fatorial de dois nveis. Na Tabela 6.7 usamos um planejamento fatorial completo, mas isso no seria estritamente necessrio. Dependendo do nmero de fatores, poderia nem ser aconselhvel, porque produziria um nmero de ensaios inconvenientemente grande. O total de nveis distintos num planejamento composto central nfat + 2k + 1. O modelo quadrtico completo para k fatores dado pela Equao 6.15, que contm

(k + 1) (k + 2) / 2 parmetros. Com dois fatores, temos 6 parmetros. O planejamento da


Tabela 6.7 tem 9 diferentes combinaes de nveis, e a rigor poderamos estimar todos os parmetros do modelo usando apenas dois pontos cbicos, correspondentes a uma das duas fraes 22 - 1 . Num planejamento to simples, a economia muito pouca e dificilmente

281

Andando na superffcie de resposta

---~---~-~-~-----~~-----------_.

justificaria a destruio da simetria da poro cbica, mas um procedimento semelhante isto , escolher os pontos cbicos como os de um planejamento fracionrio e no de um planejamento completo - torna-se cada vez mais indicado medida que o nmero de fatores aumenta. Do ponto de vista da resoluo, recomendvel usar um fatorial fracionrio de resoluo V, que nos permitir estimar os efeitos principais e as interaes de dois fatores com um confundimento relativamente baixo. Se decidirmos usar fraes menores, porm, a escolha da frao apropriada no trivial. S para dar um exemplo: quando k = 4, a frao

2iiI1

gerada por 1=124 melhor do que a frao 2jyl gerada por 1=1234, por incrvel que

parea. Explicar por que isso acontece est alm do escopo deste livro, mas fica o aviso. Uma lista das fraes mais adequadas pode ser encontrada em Wu e Hamada (2.000), Captulo 9.
:
:
1

Y=

130 + 'Lf3i x i + 'Lf3ii x i + 'L'Lf3ij X iX j +


i

i<j j

I i I l I
i

(6.15)

o valor de

a costuma ficar entre 1 e

Jk.

Quando a

= Jk , como na tabela 6.7, os

pontos cbicos e os pontos axiais ficam sobre a superfcie de uma (hiper)esfera,5 e o planejamento chamado de esfrico. Na tabela 6.7, por exemplo, todos os pontos perifricos esto sobre a mesma circunferncia. No outro extremo, quando a = 1, os pontos axiais se localizam nos centros das faces do (hiper)cubo definido pela parte cbica do planejamento. Este tipo de planejamento vantajoso quando o espao experimental cbico, o que ocorre de forma natural quando os fatores so variados independentemente uns dos outros. Tem ainda a vantagem de s precisar de trs nveis dos fatores, o que pode ser de grande ajuda no caso de algum fator ser qualitativo. Se escolhermos a

= Jk , estaremos colocando os pontos em estrela cada vez mais

distantes do ponto central, medida que o nmero de fatores for crescendo. Essa escolha deve ser feita - se for feita - com muito cuidado, porque estaremos correndo o risco de deixar a regio intermediria sem ser investigada. Com nove fatores, por exemplo, a seria igual a 3. No ficaramos sabendo de nada sobre o comportamento da superfcie de resposta no intervalo 1- 3 ao longo de cada eixo. Box e Hunter (1957) propuseram o conceito de rotabilidade6 como critrio para escolher o valor de a. Um planejamento chamado de rodvel se a varincia de suas estimativas,
5

V(Y), s depender da distncia em relao ao ponto central, isto , se a preciso

O prefixo hiper usado aqui para indicar uma figura geomtrica em mais de trs dimenses.

Rotability, em ingls.

282

da resposta prevista for a mesma em todos os pontos situados numa dada (hiper)esfera com centro no prprio centro do planejamento. A Tabela 6.13 mostra como podemos construir planejamentos rodveis para trs e quatro fatores.

Tabela 6.13 Parte axial de planejamentos rodveis com trs e quatro fatores. As partes cbicas so fatoriais completos 23 e 24.
k=3
xl X2 X3 Xl X2

k=4
X3 x4

-1,68 1,68
O O O O

O O

O O O O

-2 2
O O O O O O

O O

O O O O

O O O O O O

-1,68 1,68
O O

-2 2
O O O O

-1,68 1,68

-2 2
O O

-2 2

Para um planejamento cuja poro cbica seja um fatorial completo ou um fatorial fracionrio de resoluo V, pode-se demonstrar que a rotabilidade obtida se fizermos

a = ~nfat . Mesmo que a resoluo no seja exatamente essa, esta expresso serve como guia
para a escolha do valor de a, que de qualquer forma deve ser analisado quanto sua convenincia e praticidade. Se, por exemplo, estivermos interessados em investigar a regio mais prxima das faces do hipercubo, ento melhor escolher um valor de a menor do que o valor rodvel. Tambm pode acontecer que o valor de a leve a alguns ensaios inviveis. Nesse caso, precisaremos definir novas condies experimentais para esses ensaios. Finalmente, a rotabilidade depende de como os fatores foram codificados. Em geral, a rotabilidade do planejamento ser destruda se precisarmos fazer transformaes das variveis usando diferentes escalas. Uma quase rotabilidade parece ser o critrio mais razovel (Wu e Hamada, 2.000). As repeties no ponto central tm duas finalidades: fornecer uma medida do erro puro e estabilizar a varincia da resposta prevista. Para estabilizar a varincia, uma regra prtica fazer de 3 a 5 ensaios repetidos se a estiver prximo de

Jk, e somente um ou dois

a mais se estiver perto de 1. Para obter uma estimativa do erro, j sabemos que quanto mais repeties, melhor.

283

Uma outra vantagem dos planejamentos compostos centrais que, por serem eles formados de trs partes distintas, podemos constru-los seqencialmente, conforme a necessidade. Se estivermos numa regio da superfcie de resposta em que a curvatura no seja importante, ento no precisamos de um modelo quadrtico, e podemos nos dar por satisfeitos somente com a parte cbica do planejamento, com a qual podemos ajustar um modelo linear e em seguida, se for o caso, nos deslocar para uma regio mais interessante da superfcie. Se estivermos em dvida sobre a curvatura, podemos usar os ensaios no ponto central para testar sua significncia. Finalmente, se a curvatura se revelar significativa, a sim, podemos completar o planejamento com os pontos axiais. Estaremos, na verdade, fazendo os ensaios em dois blocos - primeiro o cbico e depois o axial.

Tabela 6.14 Trs planejamentos compostos centrais que podem ser realizados em blocos, seqencialmente, e que preservam a rotabilidade.
Nmero de fatores (k)
Parte cbica nfat

4 1 3
7

16 2 2 10

16 1
6

Nmero de blocos
ncentr,fat (em cada bloco)

Total de pontos por bloco


Parte axial (em um s bloco) n ax ncentr,ax

22

4 3 1,414 14

8
2 2,00 30

10 1 2,00 33

a
Total de pontos do planejamento

Suponhamos que as respostas do bloco axial contenham um erro sistemtico em relao s respostas obtidas no primeiro bloco. Dentro de certas condies, esse erro no afetar as estimativas dos coeficientes do modelo, isto , o efeito de bloco no se confundir com os efeitos dos outros fatores. Para que isso ocorra, preciso que a blocagem do planejamento seja ortogonal, o que por sua vez depende do valor de a. A blocagem ser ortogonal se
nfat(n ax + ncentr,ax) 2(nfat + ncentr,fat) ,

a=

284

onde

ncentr,fat

ncentr,ax

so os ensaios do ponto central no bloco cbico e no bloco axial, res-

pectivamente (Montgomery, 1997). Em geral, quando fazemos o planejamento em blocos ortogonais estamos ao mesmo tempo sacrificando sua rotabilidade, mas existem alguns planejamentos em que as duas condies so aproximadamente satisfeitas, e outros em que ambas so exatamente satisfeitas. A Tabela 6.14 mostra trs planejamentos em blocos que tambm so rodveis.

A metodologia de superfcies de resposta um assunto muito importante e muito vasto, com livros inteiros - muito mais extensos que este - integralmente dedicados a ele. Se voc quiser saber mais sobre a RSM, recomendamos os excelentes textos de Box e Draper (1987), de Myers e Montgomery (1995) e de Goupy (1999).

285

6A Aplicaes
6A.l- Resposta cataltica do Mo(VI)
A oxidao do on iodeto pela gua oxigenada em meio cido,

catalisada por vrios metais em estados de oxidao elevados. Andrade et alo (1991) resolveram usar esta reao como base de um mtodo para determinar traos de molibdnio em um sistema de fluxo contnuo monossegmentado, tendo como resposta a intensidade do sinal espectroscpico do iodo a 350 nm. Na tentativa de maximizar a sensibilidade do mtodo (isto , maximizar a intensidade do sinal), os pesquisadores usaram o planejamento composto central cujos dados esto na Tabela 6A.1, onde
Xl

X2

representam valores

codificados das concentraes de H2S04 e KI, respectivamente.

Tabela 6A.l Planejamento para o estudo da resposta cataltica do Mo(VI).


Xl

x2

Resposta 0,373 0,497 0,483 0,615 0,308 0,555 0,465 0,628 0,538 0,549 0,536 0,549 0,538

-1 +1 -1 +1 -1,4 +1,4

-1 -1 +1 +1


y = 0,510+0,076xl +0, 058x 2'
(0,002) (0,002) (0,002)

-1,4 +1,4


O O O O

Os modelos linear e quadrtico ajustados aos dados da tabela so os seguintes: com

MQfaj/MQep = 90,7;

286

y = 0,542+ 0,076 xl +0,058x2 -0,055x~ +0,003x~ +0,002XIX2'


(0,003) (0,002) (0,002) (0,002) (0,002) (0,003)

com MQfaj/MQep =9,6. Embora este ltimo valor ainda seja maior que F3 4 no nvel de 95% de confiana (6,59), evidente que o modelo quadrtico muito superior ao linear, como podemos comprovar pelos grficos das respostas previstas contra as respostas observadas (Figura

6A.l). A melhoria devida inteiramente ao termo quadrtico em xl'

0,7

Linear
0,6

i . . O 1 r_rrI0.......

.~
~
~

.g
0,5
~

-
~

~ 0,4

-.- - --L ---- -- --.L---.--.--.---.. -~ ---j - ------ -.-..- . .. - .-. b-.- - .. --.J..---.. .-.-.~-.-.-.J -.-.-_..--.--- l.---.- -.-.--.--.--.-.QQ-.-..-

0,3

. . . . . . .--..I.-.- 0,3

-.-.- - .~ --..-. --.---.-l-.-- -.-.---..


0,4 0,5

---.-.I-..--.0,6

_..--- .
0,7

Respostas observadas

Quadrtico
0,6
.f._ j.
.

----r-__-~

-_---r----_---r----___-

!o !! _.--.. - i-__---_---l-_----t---------t---------
0,3 0,4 0,5 0,6 0,7

Respostas observadas

Figura 6A.l - Comparao das previses dos dois modelos com os valores observados.

Para Xl (a concentrao de H2S04) tanto o termo linear quanto o termo quadrtico so estatisticamente significativos. Para X2 (a concentrao de KI), somente o termo linear

287

significativo. A interao no significativa. Os dois termos lineares tm coeficientes positivos, indicando que a intensidade do sinal deve aumentar se aumentarmos entanto, como o modelo tambm tem uma contribuio negativa em semelhante ao do termo linear, uma variao em
xl
Xl

x2.

No

xi,

e de coeficiente

em qualquer das direes terminar

levando a uma reduo do sinal. Em termos geomtricos, dizemos que a superfcie de resposta uma cumeeira (Figura 6A.2). Em termos prticos, o sinal dever aumentar se formos aumentando a concentrao de KI, pelo menos na regio estudada. J para o cido sulfrico, existe uma regio tima (a cumeeira), fora da qual o sinal tende a diminuir.

0,1 5

cn

....

0,55

= =
~

0,3 5

Figura 6A.2 - Superfcie de resposta para o modelo quadrtico do sinal do Mo(VI).

6A.2 - Desidratao osmtica de frutas


Um dos principais objetivos das pesquisas em conservao de frutas o desenvolvimento de produtos com longo prazo de validade l e cujas propriedades sensrias e nutritivas se paream ao mximo com as da fruta in natura. Evidentemente, essas duas caractersticas aumentam a probabilidade de aceitao do produto pelos consumidores. A desidratao osmtica uma tcnica que permite reduzir o teor de gua de um alimento, e conseqentemente aumentar a vida til do produto final. O processo consiste em colocar a matria prima em contato com uma soluo muito concentrada de um agente osmtico que seja sensorialmente compatvel com o produto que se deseja obter. Com isto se Em ingls se diz shelf-life, literalmente vida de prateleira.
288

estabelece um gradiente osmtico que progressivamente vai retirando a gua. Como trabalho para um curso de quimiometria, P. R. Buchweitz e E. R. Bruno resolveram usar um planejamento composto central para estudar como a desidratao de pedaos de abacaxi dependia de trs fatores: o tempo de contato (1), a temperatura do processo (2) e a concentrao da soluo osmtica (3). A perda de peso relativa ao final de cada ensaio foi tomada como medida do nvel de desidratao. Os resultados obtidos esto na Tabela 6A.2, onde
Xl' X2

x3

so valores codificados dos trs fatores.

Tabela 6A.2 Planejamento para o estudo da desidratao osmtica de abacaxi. Ensaio 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19


xl X2 x3

Perda de peso, % 47,34 53,00 53,64 54,28 48,85 53,73 55,19 58,31 51,90 57,34 47,62 57,35 50,73 57,68 56,24 55,74 57,23 56,85 55,42

-1 +1 -1 +1 -1 +1 -1 +1 -1,682 +1,682
O
O

-1 -1 +1 +1 -1 -1 +1 +1
O O

-1 -1 -1 -1 +1 +1 +1 +1
O O O O

-1,682 +1,682
O O O O O O O

O O
O

-1,682 +1,682
O O
O

O O O O

O
O

Ajustando os modelos linear e quadrtico aos dados da tabela, obtemos as seguintes equaes:

y = 54,13+ 1,72 xl + 2,55 x2 + 1,43 x3 ,


(0,17) (0,20) (0,20) (0,22)

com

MQ(a) / MQep = 8,50 ;

289

y = 56,32+ 1,72 Xl +2,55x2 + 1,43x3 -0,71x; -1,47 x~ -0,86x~


(0,34) (0,20) (0,20) (0,20) (0,20) (0,20) <0,20)

- 0,85x IX2
(0,27)

+ 0,21x IX3 + 0, 42x 2X3


(0,27) (0,27)

evidente que o modelo quadrtico apresenta menor falta de ajuste, e portanto

melhor que o modelo linear. Voc poder comprovar, consultando a Tabela do teste F, que na verdade o modelo quadrtico no apresenta nenhuma evidncia de falta de ajuste, no nvel de 95% de confiana. Ele explica 95,4% da variao em torno da mdia e tem
MQR/MQr = 20,69, que mais de 6 vezes o valor de
Fg,g

(no mesmo nvel de confiana,

claro), o que quer dizer que a regresso significativa e tambm til para fazer previses, pelo critrio de Box e Wetz. Os grficos dos resduos deixados pelos dois modelos (Figura 6A.3) comprovam visualmente a superioridade do modelo quadrtico. Os coeficientes dos termos lineares so todos positivos, o que significa que aumentando os nveis de todos os fatores deveremos obter desidrataes mais intensas. Por outro lado, como os coeficientes dos termos quadrticos so todos negativos, a prpria elevao do nvel dos fatores tambm tender a diminuir a desidratao, e na proporo do quadrado da variao. Tudo isto sugere que a regio onde a desidratao mxima no deve estar muito longe.

Linear
2
C O
()

O O
()

8
O

O O O
O

O
-2

O O O

-4

48

52

56

60

Valores previstos

290

Quadrtico
2
(

Vc
-2

O
u

O O O

O CD O
v

o
O

-4

48

52

56

60

Valores previstos

Figura 6A.3 - Resduos deixados pelos dois modelos.

6A.3 - Diminuindo o colesterol


No 11 Congresso Brasileiro de Engenharia Qumica foi apresentado um trabalho sobre o uso da quilaia (um preparado comercial de saponinas obtido de cascas da Quillaja

saponaria Molina) para reduzir o teor de colesterol do leo de manteiga (Brunhara-Salum,


1997). O processo consiste em duas etapas: (a) a agregao do colesterol com micelas das saponinas em soluo aquosa e (b) a adsoro desses agregados por terra diatomcea. Quatro fatores foram investigados, visando a otimizao do processo: a concentrao da soluo de quilaia (1), a quantidade de terra diatomcea usada como adsorvente (2), a temperatura de contato (3) e o pH (4). O experimento baseou-se no planejamento composto central cujos dados esto na Tabela 6A.4, j codificados. Os teores residuais de colesterol no leo foram determinados cromatograficamente, depois da separao das fases por decantao. Procedendo da forma habitual, descobrimos que o modelo quadrtico superior ao linear, no apresenta evidncia de falta de ajuste no nvel de 95% de confiana, e explica 94,3% da variao em torno da mdia. A anlise da varincia mostra que somente os termos envolvendo a concentrao de quilaia e o pH so significativos, e com isto o modelo se reduz equao

y = 1,861- O,189xl -

O,083x~ + O,348x4 - O,093x~ + O,176xlx4 .

Os coeficientes mais importantes so os dos dois termos lineares, que tm sinais contrrios - o da concentrao de quilaia negativo e do pH positivo. Como queremos reduzir o teor de colesterol, esses

291

Andando na

de

termos nos dizem que deveramos elevar a concentrao e usar um pH mais cido, em princpio. No entanto, como a interao e os termos quadrticos tambm so significativos, devemos tomar um pouco de cuidado com a interpretao desses resultados.

Tabela 6A.3 Planejamento para o estudo da reduo do colesterol em leo de manteiga.

Ensaio

Xl

X2

X3

X4

Colesterol (mg g)

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22

-1 +1 -1 +1 -1 +1 -1 +1 -1 +1 -1 +1 -1 +1 -1 +1
O O O

-1 -1 +1 +1 -1 -1 +1 +1 -1 -1 +1 +1 -1 -1 +1 +1
O O O O O

-1 -1 -1 -1 +1 +1 +1 +1 -1 -1 -1 -1 +1 +1 +1 +1
O O O O O O O

-1 -1 -1 -1 -1 -1 -1 -1 +1 +1 +1 +1 +1 +1 +1 +1
O O O O O O O O O

1,701 1,120 1,607 0,881 1,860 0,965 1,786 0,933 2,131 2,072 2,095 2,002 2,101 2,055 2,017 1,972 1,763 1,840 1,935 1,713 1,089 1,643 1,601 1,691 1,648 0,675 2,049 1,783 1,983

-2 +2
O O O O O O O O

-2

23
24 25 26 27 28 29

+2
O O O O O O

-2
+2
O O O O

-2 +2
O O

292

A Figura 6A.4 compara as respostas observadas com os valores previstos pelo modelo quadrtico. As respostas se dividem em dois grupos, com seis ensaios apresentando teores de colesterol inferiores a 1,2 mg g, enquanto os demais esto todos acima de 1,6 mg g. Os seis ensaios com menos colesterol so mostrados novamente na Tabela 6A.4. De fato, todos eles tm
Xl ~

X4::;

0, mas para o menor valor de todos (o do ensaio 26) trs dos fatores -

entre os quais a concentrao de quilaia - esto nos seus nveis centrais. Diante desses fatos, voc no acha que seria uma boa idia tentar fazer um ensaio com, digamos, no prprio ensaio 26, mas tambm Xl
X4

-2, como

= +2, ou at mesmo

Xl

= +1? A Figura 6A.5 mostra que

essa regio no foi investigada neste primeiro planejamento. O plano corresponde a 1,2 mg g de colesterol, e foi desenhado apenas para destacar a separao entre os dois conjuntos de respostas.

o
2,0

S
.~

~O CO
O O
1,6

~
~

S
~

1,2

o
0,8 0

0 0

0,8

1,2

1,6

2,0

Respostas observadas

Figura 6A.4 - Respostas previstas pelo modelo quadrtico.

Tabela 6A.4 Ensaios que apresentaram teor de colesterol inferior a 1,2 mg g.

Ensaio 2 4 6 8 21 26

Xl

X2

X3

X4

Colesterol (mg g) 1,120 0,881 0,965 0,933 1,089 0,675

+1 +1 +1 +1 +2
O

-1 +1 -1 +1

-1 -1 +1 +1

-1 -1 -1 -1
O


293

-2

Andando na superficie de resposta

2,4 2,0

~Ir[T[I ...

()

~ 1,6 ~ ~ 1,2 ~ ~
0,8

-----,-.'------; 1 '1

Figura 6A.S - Teor de colesterol observado, em funo da concentrao de qui-

laia e do pR.

6A.4 - Produo de lacase


A lacase, uma polifenol-oxidase com vrias aplicaes industriais, produzida pelo fungo

Botryosphaeria sp induzido por lcool veratrlico. Vasconcelos et alo (2.000) decidiram investigar como a produo dessa enzima dependia do tempo de cultivo e da concentrao do lcool. Para isso, realizaram o planejamento composto central da Tabela 6A.5, onde a resposta a atividade enzimtica em U ml- 1 , definida como o nmero de Jlmols de ABTS (um derivado do cido sulfnico) oxidados por minuto por mL da soluo de enzima, nas condies padro do ensaio enzimtico. Todos os cultivos foram feitos a 28C, sob agitao constante de 180 rpm.

Tabela 6A.S - Planejamento para o estudo da produo de lacase.

Nveis Fatores:
1: Concentrao do lcool, mM

28 2,5 -1,41

30 3 -1

35 4
O

40 5 +1

42 5,5 +1,41

2: Tempo de cultivo, dias Codificao

294

Ensaio 1
2 3

PPO-I, U ml- 1
-1

-1
-1

3,50 3,20 1,17 1,70 4,10 5,40 1,90 2,10 4,80 5,00 4,70 5,20 5,25 5,41 6,00 3,20 2,30 1,60 0,50 0,50

-1
+1 +1
-1 -1

-1
-1

4 5 6
7

+1 +1 +1 +1
O

+1 +1

o
O

10 11 12 13 14 15 16 17 18 19 20

O O O
O O

O
O

-1,41 -1,41
O O

+1,41 +1,41
O O

+1,41 +1,41
O O

-1,41 -1,41

Mais uma vez, o modelo quadrtico mostra-se superior ao linear, no apresenta evidncia de falta de ajuste e explica 84,9% da variao em torno da mdia. O mximo explicvel 91,2%, porque a contribuio do erro puro relativamente alta. A equao do modelo ajustado

y =4,93-1,18x1 + 0,97 X2 -O,70x; -1,25x~ -0,21x1x2'


(0,35) (0,18) (0,18) (0,23) (0,23) (0,25)

onde todos os termos so significativos, exceto a interao. Como os termos quadrticos tm o sinal negativo, a concluso aqui semelhante da aplicao anterior: devemos estar prximos da regio tima. Para obter os melhores rendimentos, devemos - mais ou menos, por causa das consideraes que acabamos de fazer - utilizar um nvel baixo da concentrao do lcool veratrlico (cujo termo linear tambm negativo) e um nvel alto do tempo de cultivo. A Figura 6A.6 mostra as curvas de nvel do modelo quadrtico. O ponto de

295

rendimento mximo localiza-se na parte superior esquerda, onde parece haver uma espcie de plat.

-$-

" " ' - < . .,

.. "

-1

::~.:.)o--~-::-

-_:

_--:/"-_-{~l/

-2

L--

----1-~~~~__'___~

~_'---~~~----J

-2

-1

Concentrao

Figura 6A.6 - Curvas de nvel para a produo da lacase.

6A.3 - Aumentando o oxignio do ar

Em indstrias qumicas, petroqumicas e correlatas, os processos de separao normalmente so responsveis por grande parte dos custos de produo. Na separao de misturas gasosas, processo adsortivos como a PSA (do ingls Pressure Swing Adsorption) esto sendo muito utilizados por indstrias de pequeno e mdio porte, principalmente porque se mostram mais eficientes e econmicos do que os mtodos de separao tradicionais. Como parte de seu projeto de doutorado na FEQ-Unicamp, C. F. C. Neves desenvolveu uma instalao de separao de gases por PSA para produzir ar enriquecido com oxignio na faixa 25%-50%, a ser utilizado em processos de combusto e oxidao. Seu estudo baseou-se num planejamento fatorial 2 4 , realizado em duplicata e acrescido de outros 20 ensaios situados no interior do hipercubo definido pelos nveis extremos (Neves, 2000). A resposta foi o teor de oxignio na mistura enriquecida, e os fatores foram as presses de adsoro e de dessoro (1 e 2), a vazo de alimentao (3) e o tempo de adsoro (4), cujos valores codificados aparecem na Tabela 6A.6.

296

Tabela 6A.6 - Planejamento para o estudo do aumento do teor de 02 no ar.


Ensaio
xl X2 X4

% oxignio

'.,
.

~3{ .

....

-1 -1

..

. .. "::: ::.:'.. ::::L:::-:::-: .::.:.:::i

-1
8 :':':'9:, , .....
::~lL::,:':

-1
":' .:. ':.:;:::::;~:i:::::::.;:: :':::..::.:.: .:.:.:::, :::.:: :::,:~4::;:::'

. -:: ...

-1
1

-1

4.~,7

. '.'

10
::":::11.: :

-1
::~1:.-:

-1
-1 -1

33,8

.
1 1 1

: : .: : : : :;: :":,)": . :/:.!llQ:~:a:::: .:' . . :.' :.

,:..::.. :..;11:.:::..::: '.

: .12 a .'

'"

-1
....:.:)1.,. :.

14
:::':<':::':::::];5.;':::-:":' .:

16
:.::':::::..1('11'.:':':':
:;:::::!::'~:;:::19'::"::"::"

18

:' . : . : . :.::2:1::.": . ,::'


22 . :,:2'3::.
24 :.J2:5:. 26 . .::::2:1L :.. ::-....... 28
..
'
o ',

20

-1 : /3.":.. :::

1
<:" ::lF'::

-1 -1
1 1

1 . '::.. ' :":1'

1 .: ':'<:::>:;'jL,:...::::.. .: .': .:.'


-1 ..:...::,::):::11E:: . -1

1
1 1

' .

. ...

::.: :::::J2:1J:::

30

.' .:.Jll':
32 ::.;:-:::::::3:3':::.> .
.......

27,6 ::'::::::::':;:.:::::.::'::::(:.:!:;:::::32:~:8:!;;.::

34

'

33,5

:..:.::.::;::.3:5'"
........

36 . "':::'''::-3'7':'';::'' .::: . 38
.

. :>3:~f::":": . .
40
42

.'::'. ::':/'41"

><4.3.::, .....
44 -)4:f)::" '. 46 ::'::4:;7.:'::,::'::':': 48 .::(:,':',.';:::-4:9 50

>.;:j5.jl." .'
52

O
O

33,4

297

Andando na superficie de resposta

Comearemos nossa anlise usando os 32 ensaios do planejamento 2 4 como oonjunto de treinamento para ajustar um modelo. Em seguida, veremos como esse modelo se comporta ao fazer previses para os ensaios restantes, realizados nos nveis intermedirios (o nosso conjunto de teste). Ajustando ao conjunto de treinamento um modelo contendo at interaes de trs fatores, chegamos equao

y = 36,15 + 2,04xl

- 2,61x2 - 5,07x3 - 3,91x4

+ O,26x I X3 + O,23x I X4 + O,95x 2x 3 + O,69x 2x 4 - O,71xIX3X4


onde s so mostrados os termos significativos no nvel de 95% de confiana. A equao no apresenta falta de ajuste, e explica 99,57% da variao em torno da mdia, sendo 99,73% o mximo explicvel. O grfico cbico da Figura 6A.7 mostra os valores previstos por esse modelo e o seu significado prtico: para obter o mximo teor de oxignio, devemos colocar a presso de dessoro, a vazo de alimentao e o tempo de adsoro nos seus nveis inferiores.

26,2

Figura 6A.7 - Valores previstos pelo modelo ajustado para o teor de oxignio.

Um modelo eficiente deve ser capaz de fazer previses confiveis para o valor da resposta na regio estudada. Os erros de previso, como sabemos, no devem apresentar comportamento sistemtico e sua extenso deve ser da mesma ordem de grandeza do erro puro. A Figura 6A.8 compara os resduos deixados pelo ajuste do modelo com os erros de
298

previso das respostas do conjunto de teste. evidente que alguma coisa est faltando. Embora esteja muito bem ajustado aos ensaios do planejamento 2 4 , nosso modelo comete erros sistemticos nas previses para os pontos intermedirios. Todos os resduos para o conjunto de teste so negativos, o que significa que as previses do modelo superestimam as respostas observadas. 2 A pior previso a do ensaio 35.

-2 -4

-6

16

24

32

40

48

Ensaio

Figura 6A.8 - Erros de previso do modelo, dados pela equao e = y -

y.

Precisamos de um modelo melhor, e o prximo passo, naturalmente, incluir termos quadrticos. Para termos graus de liberdade suficientes, precisaremos tambm acrescentar ao conjunto de treinamento ensaios em nveis diferentes de 1. Usando todos os cinqenta e dois ensaios da tabela para ajustar um modelo quadrtico completo, chegamos equao

y = 33,Ol+2,OOXl -2,56x2 -5,09x3 -3,96x4


2 2 + 1,67X2 + 1,94x 4 - O,21x1X3 + O,98x2X3 + O,69x2X4 '

que ainda apresenta uma certa falta de ajuste, no nvel de 95% de confiana, mas cujas previses so melhores do que as do modelo anterior, como mostra o novo grfico dos resduos (Figura 6A.8). O maior resduo acontece novamente no ensaio 35. A presena desse ponto anmalo no conjunto de treinamento, alis, introduz um certo desvio sistemtico no modelo, fazendo com que os resduos negativos sejam mais numerosos que os positivos. O ideal, diante disto, seria realizar novamente o ensaio 35, para verificar se o valor registrado na tabela no decorrncia de algum erro. Podemos notar tambm que as previses para os ensaios iniciais (que correspondem a baixos tempos de adsoro) ficaram piores. Conclumos portanto que o modelo ainda pode ser aperfeioado, e que o sistema em estudo realmente
2

J que o erro de previso , por definio, o valor observado menos o valor previsto.

299

Andando na superficie de resposta

bastante complexo, envolvendo vrias interaes e efeitos no lineares. Ao que tudo indica, se quisermos uma representao mais adequada teremos de incluir no modelo termos de ordem mais alta.

2 O
0t-------;..........------i-----;--.......----;---~~~-+__~;____ ..............1lIIl!IIr+_-__;_-__;.._j

I. ~ +ee.
..........:

2
-4 ....

...... Treinamento

. Teste

-6

16

24

32

40

48

Ensaio

Figura 6A.9 - Resduos deixados pelo ajuste do modelo quadrtico.

300

7
Como modelar misturas

Os planejamentos experimentais para o estudo de misturas apresentam uma importante diferena em relao aos planejamentos que discutimos at agora. Num dos planejamentos do Captulo 3, por exemplo, estudamos a influncia de dois fatores - temperatura e concentrao - no rendimento de uma reao. Imaginemos que os valores dos nveis dos dois fatores sejam dobrados. Esperaremos, como conseqncia, que no s o rendimento seja afetado, como tambm as propriedades do produto final, como, digamos, viscosidade e densidade tica. Se o nosso sistema fosse uma mistura, a situao seria um pouco diferente. Se dobrarmos, por exemplo, as quantidades de todos os ingredientes de uma mistura de bolo, esperaremos obter apenas um bolo duas vezes maior, porm com o mesmo sabor, a mesma textura e a mesma cor, porque as propriedades de uma mistura so determinadas pelas propores de seus ingredientes, e no por valores absolutos.
A soma das propores dos diversos componentes de uma mistura sempre 100%.

Para uma mistura qualquer de q componentes, podemos escrever

L = 100% = 1 ,
Xi

(7.1)

i=l

onde

Xi

representa a proporo do i-simo componente. Esta equao retira um grau de

liberdade das propores. Para especificar a composio da mistura, s precisamos fixar as propores de q -1 componentes. A proporo do ltimo componente ser sempre o que falta para completar 100%. Se quisermos modificar as propriedades de uma mistura mudando a sua formulao, as novas propores tm de continuar obedecendo Equao 7.1. Por causa desta restrio, as metodologias que discutimos at agora devem ser modificadas, para adaptar-se aos problemas especficos das misturas. Esses mtodos modificados tm encontrado larga aplicao na cincia, na engenharia, e particularmente na indstria (Cornell, 1990b, 1990c, Goupy 2000).

301

Como m,odelar misturas

Exerccio 7.1 Em vrias indstrias o processo de fabricao consiste apenas em misturar diversos ingredientes, nas propores adequadas para dar um produto final com as caractersticas desejadas. Voc pode dar exemplos de indstrias desse tipo, de preferncia na sua cidade?

Para uma mistura binria (isto , uma mistura formada por apenas dois componentes) a Equao 7.1 reduz-se a
Xl +X2

= 1. No sistema de eixos mostrado na Figura 7.l(a)


= 1- xl . Todas as possveis misturas dos dois comXl

esta equao representada pela reta

x2

ponentes correspondem a pontos localizados sobre essa reta. Se

x2

no fossem propor-

es e sim fatores independentes como, digamos, temperatura e pH, todo o espao dentro do quadrado mostrado na Figura 7.l(a) poderia ser investigado experimentalmente. No estudo de misturas, porm, o espao experimental fica restrito aos pontos da reta, ou seja, torna-se unidimensional. Fazendo dessa reta o eixo das abscissas, podemos usar um grfico como o da Figura 7.l(b) para mostrar como diversas propriedades da mistura variam com a sua composio. (a)
1,0 1,0 0,8 0,8 0,6 0,4 0,2 0,0

(b)

0,6
~':\l

0,4

0,2

0,0 0,0

0,2

0,4
Xl

0,6

0,8

1,0

0,0

0,2

0,4

0,6

0,8

1,0

Figura 7.1 (a) O espao experimental para sistemas com duas variveis independentes inclui todos os pontos dentro do quadrado. O espao experimental para misturas de dois componentes est limitado aos pontos sobre a reta X2 = l-Xl. (b) Curvas representando a variao de duas propriedades de uma mistura binria com a sua composio. Note que as escalas de Xl e de x2 esto em sentidos contrrios.

Para sistemas com trs fatores independentes, podemos realizar experimentos correspondentes a qualquer ponto dentro do cubo da Figura 7.2(a). Um estudo da variao do rendimento de uma reao com
xl

= tempo,

X2

= temperatura e

X3

= presso, por exemplo,

302

seria um caso tpico. Caso o sistema seja uma mistura de trs componentes, porm, ter de obedecer restrio
xl

+ X2 + X3 = 1, que define um tringulo eqiltero inscrito no cubo,

tambm mostrado na Figura 7.2(a).


(a)

1,0

0,0 0,0
0,5 0,5

1,0 1,0

(b)

(c)

\\

,",'

,',

Figura 7.2 (a) O espao experimental para processos com trs fatores independentes inclui todos os pontos dentro do cubo. O espao experimental para misturas de trs componentes limita-se aos pontos pertencentes ao tringulo. (b) Uma superfcie de resposta para todas as possveis misturas dos componentes 1,2 e 3. (c) Suas curvas de nvel.

Todas as composies possveis da mistura ternria so representadas pelos pontos pertencentes ao tringulo. Os vrtices correspondem aos componentes puros e os lados s

303

Como

mode~ar misturas

misturas binrias, enquanto os pontos situados no interior do tringulo representam as misturas de trs componentes. A variao de uma dada propriedade com a composio da mistura pode ser descrita por uma superfcie de resposta desenhada acima do tringulo, como na Figura 7.2(b). Representando essa superfcie por suas curvas de nvel, obteramos um diagrama triangular como o da Figura 7.2(c). 1

7.1 Misturas de dois componentes


Em termos gerais, a investigao das propriedades de uma mistura segue o mesmo caminho que percorremos para sistemas com variveis independentes. Comeamos postulando um modelo para descrever como as propriedades de interesse variam em funo da composio da mistura. Depois, fazemos um planejamento experimental, especificando as composies das misturas a serem estudadas. Finalmente, o modelo ajustado aos resultados experimentais, avaliado e, se for o caso, comparado com modelos alternativos. As duas primeiras etapas esto estreitamente relacionadas. A forma inicialmente escolhida para o modelo determinar quais so as composies mais adequadas, do ponto de vista estatstico, para a obteno de estimativas dos seus parmetros.

o modelo mais simples para uma mistura de dois componentes o modelo aditivo, ou
linear: (7.2) onde
Yi

um valor experimental da resposta de interesse,


i

/30' /31

/32

so os parmetros
Yi.

do modelo e

representa o erro aleatrio associado determinao do valor de

Ajus-

tando o modelo s observaes feitas com essa finalidade, obtemos a expresso


(7.3)

que nos permite estimar a resposta mdia num ponto qualquer de composio

(X1,X2).

Esta

equao, alis, formalmente idntica Equao 6.1. A nica diferena que, como ela se refere a uma mistura, os fatores
Xl

x2

no so mais variveis independentes. Como

conseqncia, a matriz XtX singular, e no podemos mais usar a Equao 5.12 para estimar os coeficientes do modelo.

1 Se voc j estudou fsico-qumica, deve ter visto grficos parecidos: diagramas de fase para sistemas ternrios.

304

Poderamos usar diretamente a restrio

xl

+ X2 = 1 para eliminar

Xl

ou

X2

da

expresso do modelo, mas adotaremos uma estratgia diferente, com a qual obteremos modelos mais fceis de interpretar. Como a soma
Xl +x2

sempre igual a 1, podemos

introduzi-la como coeficiente de bo na Equao 7.3 sem que a igualdade se altere:

Com um pequeno rearranjo, ficamos com (7.4) onde bt

= bo + bi . Com este artifcio, o modelo passa a ter apenas dois coeficientes a serem

determinados -

b; e b; - ao invs dos trs


(Xl' X2)

que aparecem na equao original. Para

determin-los, s precisamos de dois ensaios distintos. Quando


=

(1, O), isto , quando a 'mistura' contm apenas o componente 1, a

Equao 7.4 reduz-se a

y = ~ = Y1 ,

onde

Y1

a resposta observada para o componente 1

puro. Da mesma forma, quando

(xl' X2)= (0,1), temos y =

b; =

Y2.

Quer dizer: os dois coefi-

cientes do modelo aditivo so as prprias respostas dos respectivos componentes puros. Caso o modelo seja vlido, poderemos prever as propriedades de uma mistura qualquer sem ter precisado fazer mistura nenhuma! Essa situao representada geometricamente na Figura 7.3. A superfcie de resposta, que nesse caso unidimensional, simplesmente a reta ligando
Y1

Y2.

A resposta para uma mistura qualquer ser uma mdia ponderada das
Xl

respostas dos componentes puros, tendo como pesos as propores mistura.

X2

presentes na

Podemos aumentar a preciso do modelo fazendo repeties dos ensaios com os componentes puros. Teremos ento ~ =)/1 e

b; = Y2 , onde

)/1 e

Y2

so as mdias das res-

postas repetidas. Os erros padro dos valores de

b; e b; podem ser obtidos diretamente da


(7.5)

expresso que deduzimos para o erro padro da mdia (Seo 2.6):

onde s uma estimativa conjunta do erro padro de uma resposta, obtida a partir das observaes repetidas, ni o nmero de observaes usadas para calcular o valor mdio Yi e

i =1, ..... ,q.

305

Como

mode~ar m~sturas

Embora os resultados obtidos com os componentes puros determinem completamente o modelo linear, claro que precisamos realizar experimentos com misturas binrias, para verificar se o modelo mesmo adequado. Pode ser que os efeitos da composio sobre a resposta sejam mais complicados, e um modelo mais sofisticado seja necessrio.

,..._ _~__ b;2


4

b* 1

0,0

0,5

1,0

Figura 7.3 A reta tracejada representa um modelo linear para uma mistura de dois componentes, y = ZJ;Xl + b;X2 Os coeficientes ZJ; e b; so os valores das respostas para os componentes 1 e 2 puros. O modelo quadrtico representado pela curva slida. Alm de incluir os termos do modelo linear, ele contm um termo que descreve a interao dos dois componentes, ZJ;2XIX2.
Exerccio 7.2 Duas gasolinas, A e B, so misturadas. Quando puras, elas rendem 14 e 6 quilmetros por litro, respectivamente. (a) Determine a equao do modelo aditivo para o rendimento de uma mistura qualquer das duas gasolinas. (b) Calcule o rendimento previsto para uma mistura em partes iguais. (c) Faa o mesmo para uma mistura contendo apenas 30% da gasolina B.

A ampliao mais simples do modelo linear o modelo quadrtico, que definido pela equao (7.6) Esta expresso - igual Equao 6.7 - contm seis parmetros, mas para misturas binrias esse nmero se reduz, por causa da soma constante das propores dos dois componentes. Substituindo as identidades Xl + x2

= 1,

x; = xl (1- X2) e x~

= x2 (1- Xl)' temos

306

Reunindo os termos em

Xl

X2

ficamos com

e finalmente com

(7.7)

onde bt

= bo +bi +bii

(para i

= 1,2)

e b;'2

= b12 -bll -b22 .

Temos portanto apenas um

coeficiente a mais que no modelo linear. Para obter um planejamento experimental com um nmero mnimo de ensaios, s precisamos acrescentar, aos dois valores utilizados para determinar o modelo linear, uma outra medida feita numa mistura binria de composio qualquer. O bom senso - e tambm a estatstica - sugerem que a mistura mais adequada aquela que contm os dois componentes em partes iguais (1:1). A resposta observada para essa mistura, que designaremos Y12 , corresponde a

Substituindo estes valores na Equao 7.7 temos

Y12

*("2 11 ~*("2 1 bi2 *(11 =b1 "4) .

t 1t

(7.8)

Voc pode confirmar que continuamos tendo

b; = Yl e b; = Y2' isto , esses coefi-

cientes so os mesmos do modelo linear. Substituindo estas duas igualdades na Equao 7.8, obtemos finalmente a expresso do coeficiente que falta, b;2' em termos das trs respostas observadas:

Como sempre, todos esses clculos podem ser postos em termos de matrizes. A Equao 7.7, que define o modelo, dada por

307

Como

mode~ar misturas

ou
"" - Xb* . Y

Usando para

Xl

x2

os valores correspondentes aos componentes puros e mistura

1: 1, podemos escrever

YI] [1 O O] Y2 = O 1 O x [ZJ;] b; . [Yl2 1/2 1/2 1/4 ZJ;2


Pr-multiplicando esta equao pela inversa da matriz X obtemos o vetor contendo os valores dos coeficientes:

[b2

~;

ZJ;:]

=[1 O

OO] [YI] 1 O Y2
X

-2 -2 4

Yl2

Note que a resposta medida para a mistura binria s afeta o termo de interao b;2. Os outros dois coeficientes so totalmente determinados pelas observaes feitas nos componentes puros. Para obter valores mais precisos dos coeficientes do modelo podemos fazer ensaios repetidos e usar as respostas mdias observadas, exatamente como fizemos no caso do modelo linear. Teremos ento
b* -i -Yi

Um modelo quadrtico hipottico representado na Figura 7.3 por uma curva slida situada acima da reta correspondente ao modelo linear. A diferena entre os valores previstos pelos dois modelos depende da composio da mistura. Neste exemplo, o valor dado pelo modelo quadrtico para a resposta
Yl2

maior que a previso do modelo linear (que a

mdia das respostas dos componentes puros), o que significa que o termo de interao b;2 na Equao 7.8 positivo. Quando isto acontece dizemos que os dois componentes da mistura apresentam um efeito sinrgioo, ou interagem sinergicamente. A resposta obtida com os dois componentes misturados sempre maior do que a simples soma de suas resposta individuais (devidamente ponderadas pelas respectivas propores). No caso contrrio, quando b;2 < O, as previses do modelo quadrtico so sempre inferiores s do modelo linear. Dizemos ento que a interao dos dois componentes antagnim. Um exemplo prtico de interao o

308

aviso que existe, nas bulas de quase todos os remdios, sobre os riscos de us-los em combinao com certas outras substncias. Se houver necessidade, podemos construir modelos mais complexos do que o quadratico. s colocar termos de ordem mais alta, e realizar o nmero necessrio de experimentos adicionais. Neste livro, porm, vamos reservar a discusso de modelos mais extensos para misturas de mais componentes, que normalmente tm maior relevncia prtica.

Exerccio 7.3 Uma mistura 1:1 das duas gasolinas do Exerccio 7.2 rendeu 12 quilmetros por litro. (a) Determine os coeficientes do modelo quadrtico para uma mistura qualquer dessas duas gasolinas. A interao entre elas sinrgica ou antagnica? (b) Uma mistura formada de dois teros de gasolina A e um tero de gasolina B apresentou um rendimento de 13 quilmetros por litro. Este resultado est em boa concordncia com o valor previsto pelo modelo quadrtico?

Exerccio 7.4 A tabela abaixo contm medidas repetidas da viscosidade de dois vidros fundidos puros e tambm de uma mistura contendo os dois em partes iguais.

Vidro A Vidro B Vidro A-B (50% - 50%)

1,41 1,73
1,38

1,47
1,68

1,34

1,40

* e b * no modelo quadrtico da mistura e seus erros padro. Determine os valores de bl* , b2 12


Admita que a varincia constante para estas repeties e que portanto voc pode combinar todas as observaes para obter uma estimativa conjunta.

7.2 Misturas de trs componentes


Podemos obter modelos de misturas de trs componentes (ou misturas ternrias) ampliando os modelos que usamos para misturas binrias. O modelo linear dado por

(7.9)
com a restrio
xl

+ x2 + x3 = 1 .

309

Como modeiar misturas

Substituindo o termo bo por bo(Xl + X2 + X3) e agrupando os termos em Xi, obtemos


(7.10)

sendo bt

= bo + bi , para i = 1,2 e 3.
(a)

(b)

Figura 7.4 (a) Superfcie de resposta de um modelo linear para uma mistura de trs componentes, com b; > b; > b; . O modelo pode ser determinado usandose somente as respostas medidas para os componentes puros, que correspondem aos vrtices do tringulo de base. (b) Superfcie de resposta de um modelo quadrtico de uma mistura de trs componentes, com b; > b; > b; , b;2 > O e b;3 = b;3 = o. O modelo quadrtico pode ser determinado usando-se somente as respostas medidas para os componentes puros e para as misturas binrias representadas pelos pontos mdios dos trs lados do tringulo.

A interpretao dos coeficientes bt a mesma que no caso de dois componentes. Quando Xi = 1 (e portanto Xj;t;i = O), a resposta Yi ser igual ao coeficiente bt. Por exemplo,

310

quando

(Xl' X2' X3)

= (1, 0, O),

teremos

Yl

= ~.

Continuamos podendo determinar os coefi-

cientes do modelo linear sem precisar fazer nenhuma mistura. Da mesma forma, podemos obter estimativas mais precisas utilizando respostas mdias de ensaios repetidos. Uma superfcie para um modelo linear de trs componentes mostrada na Figura 7.4(a). Neste exemplo a superfcie um plano inclinado, com

b; > b; > b; .

Exerccio 7.5

Como voc interpretaria um modelo aditivo de uma mistura ternria em que os trs coeficientes tivessem o mesmo valor?

Caso o modelo linear no se mostre satisfatrio, devemos tentar ajustar um modelo quadrtico, como j vimos. Para misturas de trs componentes, a expresso geral do modelo quadrtico contm dez termos:

y = b o + ~Xl + b 2X 2 + b 3X 3 + ~lXr + b22X~ + b33X~


+ b 12 X IX2

+ ~3XIX3 + b 23 x 2X 3

(7.11)

expresses anlogas para b22X~ e b33X~ , temos

y =b o (Xl + X2 + X3)+ blXl + b 2 X 2 + b 3 X 3


+ bllXI (1- x2
- X3)+ b 22 X 2 (1- Xl - X3)+ b 33 x 3 (1- Xl - X2) . +bl2 X l x 2 +b13 x IX3 +b23 x 2 X 3

Agrupando os termos, obtemos finalmente

(7.12)

onde b:' = bo + b + b e b~ l l II lJ

= b lJ

b - bJJ .. ' com i II

-:f.

Os dez coeficientes da Equao 7.11 ficaram reduzidos a seis. Para determinar seus valores precisamos de um planejamento experimental contendo pelo menos seis ensaios distintos. Realizando ensaios com os componentes puros, obtemos os valores dos trs coeficientes lineares:
Yl =b~ l'

(7.13)

para i = 1, 2 e 3, como no modelo linear.

311

Como modelar rnisturas

Para os trs ensaios que faltam, podemos usar as trs possveis misturas binrias contendo os componentes em partes iguais, onde
y ..

1)

= bl 2 - + b J

*[1) :;:[1) *[1)[1)

- + b 2 1)2 2'

(7.14)

para i, j

= 1,2,3 e

i:j:. j , que nada mais que uma extenso da Equao 7.8 para o caso de

trs componentes. As seis equaes representadas por (7.13) e (7.14) podem ser reunidas numa nica equao matricial y

= Xb * . Escrevendo-a por extenso, temos


~
X

Y1 Y2 Y3 Y12 Y13 Y23

1 O O O O O O O O O O 1 O O 1 O O O 1/2 1/2 O 1/4 O O 1/2 O O 1/2 O 1/4 O 1/2 1/2 O O 1/4

b; b; b;2
~3

b;3

Resolvendo esta equao, obtemos de uma s vez os valores dos seis coeficientes:
b * =X -1 y,

ou

b* 1 b; b; b* 12 b* 13 b;3

O O O O O 1 O 1 O -2 -2 O 4 -2 O -2 O O -2 -2 O

1 O O

O O O O 4 O

O O O O O 4

Y1 Y2 Y3 Y12 Y13 Y23

Individualmente, os coeficientes so determinados pelo conjunto de equaes (7.15a) (7.15b) (7.15c) Estas relaes, mais uma vez, so semelhantes s equaes deduzidas para misturas de dois componentes. Os coeficientes

bt

so as respostas medidas para os componentes puros,

enquanto os valores de b~ so obtidos a partir de ensaios feitos com os componentes i ej puros

312

e com uma mistura binria de i e j na proporo 50% - 50%. O modelo fica completamente determinado sem que haja necessidade de fazer nenhum experimento com misturas ternrias. Se desejarmos obter valores mais precisos dos coeficientes, procedemos como antes, realizando ensaios repetidos em cada composio. Com isso, ao resolvermos as Equaes 7.15 empregaremos respostas mdias, ao invs de valores individuais. Uma superfcie de resposta para um modelo quadrtico com ~ > b; >

b;, ~2 > O e

b;3

= b;3 = O ilustrada na Figura 7.4(b). Os limites da superfcie situados acima dos lados

do tringulo (e que portanto se referem a misturas binrias) so anlogos s curvas de resposta da Figura 7.3. Como neste exemplo ~3

= b;3 = O, as curvas para as misturas binrias

dos componentes 1 e 3 (e 2 e 3) so retas, mostrando como a resposta para essas misturas varia linearmente com as propores dos dois componentes envolvidos. J a curva localizada sobre o lado que representa as misturas binrias dos componentes 1 e 2 semelhante curva slida da Figura 7.3, porque ~2 > O (isto , os componentes interagem sinergicamente). Para misturas ternrias, que correspondem a pontos no interior do tringulo, a interpretao da superfcie mais complicada. A resposta passa a ser a soma das contribuies lineares devidas aos componentes puros com as contribuies das misturas binrias. O planejamento experimental representado pelos seis pontos da Figura 7.4(b) usado com freqncia suficiente para merecer um nome prprio. Na literatura sobre misturas ele comumente chamado de planejamento em rede simplex (do ingls simplex

lattice design).

7.3 Um exemplo: misturas de trs componentes


Antes de passar para modelos mais complicados e sistemas com mais componentes, vamos apresentar uma modelagem de misturas com dados reais, feita em 1991 no laboratrio do Professor G. Oliveira Neto (Unicamp, Instituto de Qumica). Alguns substratos biolgicos podem ser analisados com eletrodos seletivos. Uma das partes crticas desses eletrodos uma membrana, cujas propriedades tm grande influncia na sensibilidade analtica do eletrodo. O objetivo do estudo era determinar a composio da membrana que produzisse o maior sinal analtico possvel. Os pesquisadores utilizaram um planejamento em rede simplex, para o qual mediram as respostas da Tabela 7.1. As composies das misturas estudadas esto representadas no tringulo da Figura 7.5(a), juntamente com as respostas mdias obtidas.

313

Como modelar

m~sturas

Tabela 7.1 Estudo de membranas para a fabricao de um eletrodo seletivo. Composio das misturas e valores dos sinais analticos observados. O sinal a altura do pico, em centmetros.
Xl

X2

x3

Sinal 3,2 0,5 0,4 1,9 3,9 0,3 3,0 0,4 0,3 1,2 4,4 0,3 2,0 4,1 0,2

Yi

s~ 1

1 2 3 4 5 6


1
O

3,10 0,45 0,35 1,70 4,13 0,27

0,020 0,005 0,005 0,190 0,063 0,003

1/2

1/2 1/2

1/2

1/2 1/2

Os componentes 1 e 3 puros produziram sinais mdios de 3,10 cm e 0,35 cm, respectivamente. Para uma mistura (1:1) desses dois componentes, o sinal mdio observado foi 4,13 cm. Como esse valor muito maior que a mdia das respostas obtidas com os componentes puros, conclumos que um modelo aditivo no seria apropriado, e passamos logo para o ajuste de um modelo quadrtico. Substituindo nas Equaes 7.15 as mdias das respostas observadas para cada mistura, chegamos aos seguintes valores para os coeficientes do modelo quadrtico:

b; = 3,10
b; = 0,35

ZJ;2 = -0,30

O alto valor do coeficiente ZJ;3 sugere imediatamente uma forte interao sinrgica entre os componentes 1 e 3. No entanto, manda a boa prtica estatstica que s tentemos interpretar os resultados depois de ter uma estimativa de sua margem de erro. Como os ensaios foram repetidos, podemos usar as varincias observadas nas respostas de cada ensaio (ltima coluna da Tabela 7.1) para obter uma estimativa conjunta da varincia de uma resposta individual. Da, por meio da Equao 5.30, chegamos a estimativas dos erros padro dos coeficientes. Com elas podemos finalmente escrever a equao completa do modelo ajustado:

y = 3,10X1 + 0,45x2+ 0, 35x3- 0,30x1 x 2+ 9, 62x1x 3- 0,52x2X3


( , 17)
( O,l 7) ( , 17) ( , 75) ( , 75) ( , 75)

314

Xl

(3,10)

(1,70)

--'-~?"\~.'."""'.'.:--\ . . /o'

(4,13)

'\:/f\~~~~;j~~.~:7
(0,45)

x2

(0,27)

(0,35)

xa

(a)

Xl

(3,10)

(0,45) X2

(0,27)

(0,35)
X3

(b)

Figura 7.5 (a) Planejamento em rede simplex e sinais analticos mdios observados para as misturas representadas pelos pontos. (b) Curvas de nvel do modelo quadrtico do sinal analtico, Equao 7.16.

S os coeficientes ZJ; e

tJ;3

tm valores muito superiores aos seus respectivos erros

padro. Podemos adotar, portanto, o modelo simplificado (7.16)

o modelo nos diz que a presena do componente 1 na mistura leva a sinais analticos
mais intensos. O componente 2 no aparece na equao, e portanto no contribui para aumentar o sinal, embora possa ser importante para determinar outras propriedades da membrana. Como j havamos notado, o componente 3 tem uma interao sinrgica com o

315

Como mc.uieiar

m~sturas

componente 1. Isto quer dizer que a presena simultnea dos dois componentes na mistura produzir sinais mais fortes do que poderamos esperar com um modelo aditivo. Pela Equao 7.16, o valor mximo do sinal analtico para o tipo de membrana estudado deve ser 4,2 cm, e deve ser obtido com uma membrana contendo somente os componentes 1 e 3, na proporo 66% - 34%. As curvas de nvel correspondentes Equao 7.16 so mostradas na Figura 7.5(b). Cada curva passa por todas as misturas que teoricamente dariam um sinal com a mesma altura, especificada pelo valor numrico correspondente. A interpretao dessas curvas anloga interpretao dos diagramas de fase de sistemas ternrios, estudados na fsicoqumica. Para obter sinais analticos de aproximadamente 4 cm, devemos preparar membranas contendo duas vezes mais componente 1 do que componente 3.

Exerccio 7.6

Faa um teste t para verificar se os coeficientes da equao completa do modelo quadrtico da membrana so significativos.

Exerccio 7.7

Use a equao simplificada do modelo quadrtico, (7.16), para determinar, no exemplo da membrana, a composio da mistura que resultaria no valor mximo do sinal analtico e o valor desse sinal.

Exerccio 7.8

Num projeto realizado no Centro de Pesquisa da Pirelli, tendo como objetivo a melhoria do revestimento de cabos eltricos, foram obtidos os resultados mdios mostrados a seguir (Costa, Hattori, Redondo, Bruns e Scarminio, 1991). Mistura
1 2 3 4 5 6

Al203
1

Fe203
O
1

C0304

Perda de Massa
2,84 5,24 3,80 1,18 2,18 3,38

Trilhamento
94,26 8,95 11,52 125,00 103,00 10,55

O O 1 O 1/2 1/2

O O
1/2 1/2

O
1/2

O
1/2

(a) Um alto valor do trilhamento desejvel, pois significa que o cabo resiste por mais tempo a uma determinada tenso eltrica, sem deixar vazar corrente. Qual dos trs componentes voc colocaria em altos teores, para ter um revestimento com trilhamento alto?

316

(b) Determine as equaes dos modelos quadrticos para ambas as respostas. Seus resultados confirmam sua resposta para o item (a)?

7.4 Modelos cbicos para misturas de trs componentes

o modelo

quadrtico da Equao 7.12 contm, alm dos termos do modelo aditivo, termos

cruzados que descrevem as interaes entre dois componentes, e por isso ele geralmente consegue reproduzir satisfatoriamente os valores da resposta nos vrtices e nas arestas do tringulo de concentraes, que representam respectivamente os componente puros e suas misturas binrias. No devemos estranhar, porm, que efeitos no aditivos envolvendo a presena simultnea de trs componentes sejam importantes para descrever a resposta de determinadas misturas ternrias (os pontos no interior do tringulo). Se esse for o caso, o modelo quadrtico se mostrar insuficiente, e precisaremos acrescentar-lhe termos cbicos.

o modelo cbico completo para uma mistura de trs componentes dado pela equao
A

= bo + ~ ~ bx + ~ ~ bxx ~ ~~ ~ ~ bkxx ~~ LJ J +~ LJ J'Xk


1 1 1 1

(7.17)

i=l

i5j j

i5:j j5:k k

Usando, como de costume, a identidade 1 = Xl +x2 +x3' e fazendo as substituies apropriadas, podemos chegar expresso

y = ~Xl + b;X2 + b~:X3 + t>;~XIX2 + t>;~XIX3 + b;3 X2X3


+ d;2 XIX2(Xl - X2)+ d;~XIX3 (Xl - X3)+ d;3 X2X3(X2 - X3) . + t>;~3XIX2X3

(7.18)

Como esta equao tem dez termos, teramos de fazer no mnimo dez ensaios diferentes para determinar os valores de todos os seus coeficientes. Para muitas situaes prticas isto um exagero. Muitas vezes, basta introduzir um nico termo cbico para que o modelo passe a descrever satisfatoriamente toda a regio experimental. Eliminando os termos em d~ na Equao 7.18, chegamos expresso do modelo cbiro especial, que possui apenas um termo a mais que o modelo quadrtico, e portanto s precisa de um ensaio adicional:
;-.
~~_

...

~.-.~~~~~--_.~~~~~-~~~------_.~~

.... .._...
~

~~~.~.~~--~~l

I Y =b;x 1 +b;X2 +b;X3


L~ ..~ __ .~~.~_. __~~. _~_~ .. ~
~

+b;~XIX2 +b;3 XIX3 +b;3 X2X3 +b;23 XIX2X3


~..-~ . _~ ~.~ ~__

I
J
1

(7.19)

planejamento experimental normalmente empregado para determinar os valores

dos coeficientes do modelo cbico especial o chamado rentride simplex, que obtemos

317

Como modelar misturas

acrescentando ao simplex em rede um ponto central correspondendo mistura ternria em partes iguais,
(Xl' X2, X3)

= (.!.,.!.,.!. I. O coeficiente do termo cbico dado por


l3 3 3)
,

b;23

= 27Y123 -12 (Y12 + Y13 + Y23 )+ 3 (Yl + Y2 + Y3)

onde Y123 a resposta observada para a mistura ternria (1:1:1). Os demais coeficientes tm os mesmos valores do modelo quadrtico. Numa experincia em duplicata usando a mistura (1/3, 1/3, 1/3) para a membrana do eletrodo seletivo observou-se um sinal mdio de 3,50 cm, resultante de duas observaes individuais de 3,40 e 3,60 cm. Combinando esse resultado com as respostas j apresentadas para os componentes puros e as misturas binrias, chegamos ao valor 33,00 para o coeficiente b;23 , que altamente significativo.

Exerccio 7.9

Suponha que, no experimento das membranas, a resposta observada para a mistura ternria em partes iguais tivesse sido 2,50 cm (mdia de dois ensaios), ao invs de 3,50 cm. (a) Calcule

* . (b) Usando o valor 0,056 como estimativa da varincia do sinal o valor do coeficiente b123
analtico, calcule o erro padro do novo valor de b;23. Ele significativo?

Eliminando os termos com coeficientes no significativos, reduzimos a equao para o modelo cbico especial do sinal analtico das membranas a (7.20) Observe que os valores dos termos no-cbicos so os mesmos do modelo quadrtico, como j dissemos. As curvas de nvel correspondentes a esta expresso so mostradas na Figura 7.6, junto com os resultados experimentais do planejamento centride simplex. Perto dos lados do tringulo as previses do modelo cbico so muito parecidas com as do modelo quadrtico, porque uma das trs propores fica prxima de zero, reduzindo a importncia do termo cbico. Na regio central, por outro lado, as previses dos dois modelos diferem bastante, porque a o termo cbico passa a ter um valor numrico da mesma ordem de grandeza das outras duas contribuies. O modelo cbico prev um sinal analtico mximo de 4,2 cm, valor idntico ao prvisto pelo modelo quadrtico. Para produzir esse sinal a mistura deve ter 62%, 4% e 34% dos componentes 1, 2 e 3, respectivamente. A composio dessa mistura praticamente a msma da mistura indicada pelo modelo quadrtico (66%,0% e 34%). Na verdade, como mostra a Figura

318

7.6, a regio do ponto timo uma espcie de plat, onde podemos variar as concentraes sem que a resposta seja muito afetada. Por exemplo, se substituirmos na Equao 7.20 obteremos
(Xl' X2, X3)

= (0,70,

0,05, 0,25)

y = 4,14 , uma resposta indistinguvel, para todos os efeitos prticos,

do valor matematicamente timo. Esta uma situao interessante, porque nos permite alterar a composio da mistura de acordo com outros critrios, sem que a desejabilidade da resposta caia. Por exemplo, se o componente 3 for mais caro que o componente 1, mais vantajoso usar a ltima mistura do que a mistura correspondente resposta mxima.
Xl (3,10)

3,3

2,8/"'.-..
(1,60) .,:'-. (3,50) ---.... :' 24 .... ....... ...... '.~ (1,80)
~ ~

*.. . . . .

1,4

~'-::-"_--;-

.:._ _~

0,5 - -_ _'"":'"(0,45)

.:...-..

x2

(0,27)

(0.35)

x3

Figura 7.6 Planejamento centride simplex, respostas mdias para as misturas representadas pelos pontos e curvas de nvel do modelo cbico especial, Equao 7.20. As respostas indicadas com um asterisco foram usadas para testar a qualidade do ajuste do modelo.
Exerccio 7.10
Qual a previso do modelo quadrtico para a resposta mdia de uma membrana feita dos trs componentes em partes iguais? Como ela se compara com a previso do modelo cbico especial?

Exerccio 7.11

o ajuste de um modelo cbico tambm pode ser expressado em termos de matrizes, como o de
qualquer outro modelo. Escreva por extenso a equao matricial que devemos resolver para obter os valores dos sete coeficientes do modelo cbico especial para o sinal analtico das membranas.

319

Como modeiar misturas

7.5 Avaliao de modelos


Nesta altura temos certeza de que voc no se espantar se dissermos que a construo de modelos para misturas nada mais que um caso particular do ajuste por mnimos quadrados. O que fizemos na seo anterior, na verdade, foi o mesmo que resolver a Equao 5.12 para um conjunto de dezessete observaes: as quinze que aparecem na Tabela 7.1, mais as duas observaes feitas no ponto central do tringulo. Para isso utilizamos dois modelos: o quadrtico, com seis parmetros, e o cbico especial, com sete. A significncia estatstica desses modelos pode ser avaliada com uma anlise da varincia. O modelo cbico no pode apresentar falta de ajuste, porque para ele o nmero de parmetros igual ao nmero de ensaios distintos. No temos, portanto, como fazer uma comparao direta do grau de ajuste dos dois modelos. Conseqentemente, na anlise da varincia desdobraremos a variao total em torno da mdia em duas parcelas somente: a da regresso e a dos resduos. Em outras palavras, a ANOVA neste caso ser semelhante da Tabela 5.2. Os resultados esto na Tabela 7.2.

Tabela 7.2 Anlise da varincia para o ajuste dos modelos quadrtico e cbico especial aos dados da Tabela 7.1, acrescidos dos resultados observados para a mistura com Xl = X2 = X3 = 1/3 (respostas em duplicata com mdia de 3,50 cm), o que eleva o nmero total de observaes para dezessete. Os valores em parnteses se referem ao modelo cbico especial.
Fonte de variao Regresso Resduos Total Soma Quadrtica 37,96 (40,06)
2,66 (0,56)

N de g.l.
5 (6)

Mdia Quadrtica 7,59 (6,68)


0,24 (0,06)

11 (10) 16

40,62

Os valores de MQR/MQr so 31,63 e 111,33 para os modelos quadrtico e cbico especial, respectivamente. Como j sabemos, eles devem ser comparados com os valores de

F 5 ,11 e F 6 ,lO. No nvel de 990/0 de confiana esses valores so apenas 5,32 e 5,39, o que
mostra que ambos os modelos so altamente significativos. O valor superior para o modelo cbico indica que ele explica uma percentagem de varincia maior, mas tambm devemos levar em conta que ele tem um parmetro a mais, e que um modelo com mais parmetros necessariamente explicar uma soma quadrtica maior.

320

Quando acrescentamos um termo ao modelo, estamos transferindo um grau de liberdade da soma quadrtica residual para a soma quadrtica da regresso. Para decidir se isto vale a pena, podemos usar um novo teste F, onde vamos comparar a reduo nos resduos causada pela ampliao do modelo com a mdia quadrtica residual do modelo mais extenso. Se o teste no for significativo, porque no valeu a pena introduzir mais parmetros. Este procedimento no est restrito a misturas - pode ser aplicado a qualquer modelo ajustado por mnimos quadrados. Consideremos o caso geral de dois modelos quaisquer, I e ll, onde

tem d par-

metros a mais que I. O modelo I deixa uma soma quadrtica residual SQr,l , que reduzida a SQr,l1 quando os d termos adicionais so introduzidos. A relao de interesse ser

= (SQr,I -SQr,lI )/ d
MQr,l1

(7.21)

No nosso exemplo, I o modelo quadrtico, II o modelo cbico especial e d Teremos simplesmente


F

=1.

= SQr,quad -SQr,cub
MQr,cub

onde os ndices quad e cub indicam os modelos quadrtico e cbico especial. Utilizando os valores da Tabela 7.2 temos
F = 2,66 - 0,56 = 35 0,06 '

.
F1,lO

Comparando este resultado com

= 10,0 (99% de confiana), podemos concluir

que o modelo cbico especial de fato melhor que o modelo quadrtico, para os dados do nosso exemplo. Uma maneira mais segura de testar a qualidade dos dois modelos, e certamente mais interessante para o pesquisador, determinar novas respostas, para misturas que no foram usadas na modelagem, e comparar os resultados observados com os valores previstos por cada modelo. No estudo das membranas foram realizados trs desses ensaios, indicados

321

Como modelar

m~sturas

com asteriscos na Figura 7.6. Nas novas misturas os componentes esto nas propores
(Xl,X2,X3)=

(2/3,1/6,1/6), (1/6,2/3,1/6) e (1/6,1/6,2/3).

Na Tabela 7.3 as previses dos dois modelos so comparadas com as respostas mdias observadas nos ensaios. Note que as previses s diferem para misturas ternrias, o que no de surpreender, porque as equaes correspondentes so idnticas, exceto pelo termo em
xlx2x3.

Como j devamos esperar, o modelo cbico superior. Para as trs

misturas ternrias de teste, o resduo mdio deixado por esse modelo 0,28 (usando valores absolutos). Para o modelo quadrtico o resduo mdio 0,82 - quase trs vezes maior.

Tabela 7.3 Estudo de membranas para a fabricao de um eletrodo seletivo. Comparao entre os sinais analticos observados (Yobs) e os valores previstos pelos modelos quadrtico (y quad) e cbico especial (y cub ) . Os nmeros entre parnteses so os resduos deixados pelos modelos, e = Yobs - Y .
Mistura 1 2 3 4 5 6 7(a) 8(b) 9(b) 10(b)
Xl
X2 X3

Yquad

Ycub

Yobs

1
O O

O O

3,10 (O)

3,10 (O)

3,10 0,35 0,35 1,70 4,13 0,28 3,50 4,00 1,60 1,80

1
O

O (0,35) O (0,35)
1,55 (0,15) 3,96 (0,17)

O (0,35) O (0,35)
1,55 (0,15) 3,96 (0,17)

1
O

1/2 1/2
O

1/2
O

1/2 1/2 1/3 1/6 1/6 2/3

1/2 1/3 1/6 2/3 1/6

O (0,28)
2,10 (1,40) 3,14 (0,86) 0,79 (0,81) 1,59 (0,21)

O (0,28)
3,33 (0,17) 3,75 (0,25) 1,40 (0,20) 2,20 (-0,40)

1/3 2/3 1/6 1/6

(a) Duplicata com resultados individuais 3,60 e 3,40 cm. (b) Medidas sem repetio. Um terceiro modo de comparar a eficincia dos dois modelos realizar uma anlise da varincia incluindo falta de ajuste, agora que temos, no total, mais ensaios do que parmetros para todos os modelos. Os resultados dessa anlise esto na Tabela 7.4. A sua interpretao confirma o que acabamos de discutir e ser deixada como exerccio.

322

Tabela 7.4. Anlise da varincia para o ajuste dos modelos quadrtico e cbico especial aos valores individuais dos sinais analticos. O nmero de misturas diferentes agora dez, o que permite testar a falta de ajuste dos dois modelos. Os valores em parnteses so os do modelo cbico especial.
Fonte de variao Regresso Resduos F. ajuste Erro puro Total Soma Quadrtica N de g. l. Mdia Quadrtica

41,81 (43,91) 3,05 (0,95) 2,49 (0,39) 0,56 44,86

5 (6) 14 (13) 4 (3) 10 19

8,36 (7,32) 0,22 (0,073) 0,62 (0,13) 0,056

% de variao explicada: 93,20 (97,88) % mxima de variao explicvel: 98,75

7.6 Pseudocomponentes
Na prtica, os problemas de otimizao de misturas normalmente requerem a presena de todos os componentes, para que tenhamos um produto aceitvel. Para produzir a membrana do eletrodo seletivo, por exemplo, precisamos misturar solues de pirrol, KCI e fuFe(CN)6. A formao de uma membrana s ocorre se os trs componentes estiverem presentes. Apesar disso, na nossa discusso utilizamos valores referentes aos componentes puros e s misturas binrias. Como isso foi possvel, se com essas composies no existe membrana nenhuma? Na verdade, os 'componentes' 1,2 e 3 cujas propores aparecem na Tabela 7.1 so pseudocomponentes, isto , misturas dos componentes propriamente ditos. A experincia mostra que para a membrana se formar preciso que a mistura tenha pelo menos 10% de cada um dos trs componentes (pirrol, KCI e K4Fe(CN)6). A existncia desses limites inferiores tambm impe limites superiores para os teores dos componentes. O mximo que uma mistura pode ter de um dado componente 80%, porque cada um dos outros dois tem de entrar com pelo menos 10%. Neste exemplo, chamando de do componente i na mistura, podemos concluir que 0,10
~ Ci ~
Ci

a proporo

0,80 .

Esta situao pode ser generalizada para uma mistura qualquer, em que as propores dos componentes puros tenham de obedecer a limites inferiores no-nulos, que chamaremos de
ai .

Obviamente a soma de todos esses limites tem de ser menor que um, seno

323

Como modeiar misturas

a mistura ser impossvel de preparar. Para um caso geral de q componentes, podemos escrever ento
q

Lai<1,
i=l

i=1,2, ... ,q.

(7.22)

No exemplo da membrana, como todos os limites inferiores so iguais a 0,10, o valor do somatrio 0,30. Os teores da mistura em termos de pseudocomponentes, designados por dados pela expresso
Xi'

so

x. = cl -a
1-

(7.23)

1-L a i
i=l

que uma espcie de codificao. Para o caso da membrana isto corresponde a


x =
l

C l

0,1

0,7'

i = 1,2,3 .

(7.24)

Assim, por exemplo, o pseudocomponente de composio (1,0,0) na Tabela 7.1 na realidade corresponde a uma mistura com propores 0,8, 0,1 e 0,1 das solues de pirrol, KCI e KiFe(CN)6, respectivamente.

Exerccio 7.12 Qual a composio verdadeira, em termos dos componentes puros, das misturas

correspondentes s quatro ltimas linhas da Tabela 7.3?

Usando a Equao 7.24 na expresso do modelo cbico especial em termos de pseudocomponentes, Equao 7.20, podemos escrever a resposta como uma funo explcita das propores das solues de pirrol, KCI e K4Fe(CN)6 na mistura:

y = -0,34+3,43cp irroZ +0,97cKCZ- 1,OOcKFeCN -9,67cp irroZ CKCZ


+ 9 ,98cpirroZc KFeCN - 9,67CKCZc KFeCN + 96,7 4cpirroZc KCZcKFeCN

(7.25)

Alm desta expresso obviamente ter mais termos que a Equao 7.20, a interpretao de seus coeficientes bem mais complicada. As curvas de nvel correspondentes so mostradas na Figura 7.7. Observe que nessa representao, em termos das concentraes dos componentes puros e no dos pseudocomponentes, a regio experimental fica limitada ao

324

tringulo interno, de permetro tracejado. Usar a Equao 7.25 para prever os valores das respostas fora dessa regio seria extrapolar, e j sabemos que isso deve ser feito com a mxima desconfiana. No nosso exemplo especfico, esses pontos correspondem a misturas que dificilmente produziriam membranas aceitveis. Note, finalmente, que as superfcies das Figuras 7.7 e 7.6 so idnticas. A nica diferena a forma de descrever a composio. O que na Figura 7.6 passa por um componente puro (por exemplo, mistura ternria
(Cpirrol

Xl

=1), na verdade uma

= 0,8,

cKCI

= cKFeCN = 0,1).
Pirrol

/\
:.i3 :.a
:1'"

(0,1, 0,8, 0,1) I

.
.: ~"

.... :: : . .'. 2 4 .~ " , :.. :"

;'U.,; 2,8~
. . 3,8 ...
;

j'" . .
: .'
:

... \

.:.<..

1,4 <>~

0,5:: ::- . ~:

::::,;:.:.:.::::=.;\.
:' ".

.....

~.

.:.~ -. -. ----'~'- . -. -

'., _.~'.'. (0,1, 0,1, 0,8) \

KCI

Figura 7.7 Curvas de nvel do modelo cbico especial em funo das propores das solues de pirrol, de KCI e de fuFe(CN)6.

7.7 Outros planejamentos


Quando as propores dos componentes devem obedecer a limites inferiores, a regio experimental fica limitada e o problema fica mais fcil de analisar em termos de pseudocomponentes, como acabamos de ver. Em muitas formulaes, a composio da mistura tem de satisfazer no apenas limites inferiores como tambm limites superiores, o que diminui ainda mais a regio que pode ser estudada e dificulta a escolha dos pontos do planejamento. Nesta seo vamos apresentar um exemplo desse tipo de problema, tambm estudado no Instituto de Qumica da Unicamp, no laboratrio da Professora. I. Joekes (Rubo, 1992). Tentaremos apenas transmitir um pouco da metodologia apropriada. Um tratamento detalhado poder

ser encontrado em livros e artigos mais especializados, como os de Cornell (1990b, 1990c).
325

Como

mode~ar

misturas

o objetivo da investigao era estudar a elongao e o intumescimento, em dioxano,


de filmes polimricos constitudos de poliisobuteno (PIB), polietileno (PE) e cera parafnica (CE). Por razes tcnicas, as propores desses componentes na mistura tiveram de ficar restritas aos intervalos 0,50 :::; cpIB
:::;

0,65

0,10 :::; cCE

:::;

0,25 .

Como os limites so todos diferentes, essas desigualdades definem no interior do tringulo das concentraes um hexgono irregular, mostrado na Figura 7.8(a). Os pontos pertencentes a esse hexgono representam as misturas que em princpio podem ser estudadas. Com essas especificaes, os pseudocomponentes so definidos pelas expresses
x
---.;;....;;:=----CpIB

PIB -

-0,50 025 ,

PE -

----.;;;....;~--

CpE

-0,15 025 ,

CE

=-..;;...;~--

CCE

-0,10 025 . ,

Para definir o planejamento, precisamos considerar que modelos poderiam ser apropriados para descrever as duas respostas de interesse - a elongao at a ruptura e o intumescimento dos filmes. Normalmente, claro, isso no pode ser determinado antes de fazermos as experincias. Alm do mais, natural que diferentes respostas sigam diferentes modelos. Como possvel que a descrio dos resultados venha a requerer um modelo cbico especial, bom estarmos precavidos e realizarmos pelo menos sete ensaios distintos, para termos condies de determinar os sete coeficientes desse modelo. Como em qualquer ajuste por mnimos quadrados, a propagao do erro experimental at os valores dos coeficientes do modelo feita por meio da Equao 5.30, que contm a matriz de planejamento, X. Dependendo do planejamento escolhido, as estimativas sero mais ou menos afetadas pelos erros experimentais. Em geral os erros nas estimativas dos coeficientes so menores quando os pontos do planejamento se distribuem uniformemente pela regio estudada. por isso que preferimos utilizar vrtices, posies de meiaaresta e pontos centrides. Neste exemplo dois planejamentos foram considerados inicialmente:

326

a. b.

Os seis vrtices do hexgono mais o ponto central; Os pontos mdios das arestas mais o ponto central. Examinando-se a matriz (XtX)-1 para estas duas possibilidades pode-se constatar

que o primeiro planejamento (pontos 1 - 7 na Figura 7.8(a produz estimativas dos coeficientes 10% - 70% mais precisas que as do segundo planejamento, e por isso ele foi o escolhido para a realizao dos experimentos. Das sete misturas previstas, todas resultaram em filmes que podiam ser estudados, exceto a mistura nmero 6. No seu lugar foi preparada ento a mistura 6', de composio definida pelo ponto mdio da aresta 1 - 6.
(a)

6'

~ ~:\:~ : :;~:~".:
.....'"....

:.,:...../:::/ . ,.>i)/ ..

'\>\ \ : : <~\.: ,\

(b)

6'

2 7

Figura 7.8 (a) Tringulo das concentraes de poliisobuteno (PIB), polietileno (PE) e
cera parafnica (CE). A regio estudada determinada pelos limites inferiores e superiores das concentraes desses componentes e resulta no hexgono irregular cujos vrtices esto numerados de 1 a 6. (b) A mesma regio, em termos de pseudocomponentes.

327

Como modelar rnisturas

Pode ser que voc esteja se perguntando como faria para escolher os melhores nveis de um estudo de misturas com muitos componentes, onde sequer teramos condies de enxergar a superfcie de resposta. Felizmente essa escolha no precisa ser motivo de preocupao para o pesquisador. Hoje em dia existem vrios programas comerciais de planejamento experimental que usam critrios estatsticos e fazem isso por ns.

Tabela 7.5 Composio dos filmes preparados com misturas PlB-PE-CE, em valores reais dos componentes (Ci) e em pseudocomponentes (xi), e os valores medidos para a elongao at a ruptura e para o intumescimento em dioxano. As respostas foram determinadas em duplicata.
Filme 1 2
3
CpIB CpE CCE XpIB XPE xCE

0,650 0,600 0,500 0,500 0,550 0,650 0,575

0,150 0,150 0,250 0,350 0,350 0,200 0,250 Elongao, %

0,200 0,250 0,250 0,150 0,100 0,150 0,175

0,600 0,400 0,000 0,000 0,200 0,600 0,300

0,000 0,000 0,400 0,800 0,800 0,200 0,400

0,400 0,600 0,600 0,200 0,000 0,200 0,300

4
5

6'
7

Intumescimento, m 3 kg- 1 176 172 161 139 165 177 165 177 182 153 134 165 184 165

1 2
3

214 130 114 111 227 408 303

232 236
(a)

137 91 189 394 265

4
5

6'
7
(a)

Valor excludo dos clculos, porque o filme formou-se com dificuldade e a elongao medida no foi considerada digna de confiana.

A matriz de planejamento, cujos elementos so as propores utilizadas para preparar as vrias misturas, apresentada na Tabela 7.5, tanto em termos dos componentes puros quanto em termos dos pseudocomponentes. A Figura 7.8(b) mostra a representao geomtrica do planejamento em termos de pseudocomponentes. Os valores das duas res-

328

postas de interesse foram determinados em duplicata para cada mistura. Desses valores, que tambm so mostrados na Tabela 7.5, foi obtida uma estimativa conjunta da varincia experimental, usada para calcular os erros padro das estimativas dos parmetros. A Equao 5.12 foi empregada para ajustar modelos lineares, quadrticos e cbicos especiais para os valores de cada resposta. A anlise dos resultados levou s seguintes concluses: Para a elongao o modelo linear

Yel =479xPIB+176xPE+20xCE
(18) (12) (20)

mostrou-se o mais adequado. A superfcie de resposta descrita por essa equao um plano inclinado, cujas curvas de nvel so mostradas na Figura 7.9(a). Para o intumescimento o melhor modelo foi o quadrtico, dado por

Yin = 202x PIB + 140xPE + 212xcE + 76xPIBx PE -126x PIBxCE -110xPExcE


(15) (5) (14) (32) (54) (34)

e com as curvas de nvel mostradas na Figura 7.9(b).

objetivo final dos pesquisadores era obter um filme que apresentasse ao mesmo

tempo um alto valor da elongao e um baixo valor do intumescimento. De acordo com a Figura 7.9(a), podemos obter a primeira caracterstica com misturas de composio semelhante do ponto 6'. Por outro lado, para termos baixos valores do intumescimento deveremos preparar misturas prximas do ponto 4, que fica diametralmente oposto. A concluso clara, ainda que um tanto frustrante. Com esses componentes qumicos, a produo de um filme com propriedades aceitveis ter de surgir de um meio-termo entre as duas caractersticas desejadas, a alta elongao e o baixo intumescimento. O mtodo de Derringer e Suich, que discutimos na Seo 6.4, pode ajudar a encontrar esse meio-termo

7.8 Misturas com mais de trs componentes


Os modelos para misturas contendo mais de trs componentes so simples extenses dos modelos para trs componentes. Para o caso geral de q componentes, os modelos linear, quadrtico e cbico especial so dados respectivamente por
Y=
A

Lb*-xl

l'

i=1

329

'" Y

=~ ~ b:'x + ~ ~ b:~xx ~~ U
1 1

q:J-

:J-

t)'

i=l

i<j j

'" q * q q:;: q q q * X 'X ~ b,t x ~ ~ bxx ~ " b Y=~ 1 + ~~ U t ). + " ~ ~~ 1)'k t )'Xk

i=l

i<j j

i<j j<k k

(a)

(b)

Figura 7.9 Curvas de nvel das propriedades dos filmes PIB-PE-CE, em termos de pseudocomponentes. (a) modelo linear para a elongao. (b) modelo quadrtico para o intumescimento. As caractersticas desejveis so obtidas com composies semelhantes s da mistura 6' (alta elongao) e da mistura 4 (baixo intumescimento).
Os clculos necessrios para determinar os coeficientes desses modelos so extremamente rpidos, especialmente para quem tem acesso a um microcomputador. Tudo, em ltima anlise, se resume a resolver as Equaes 5.12 e 5.30 com as matrizes apropriadas. A maior dificuldade a representao grfica dos resultados. Em alguns casos as equaes podem ser simplificadas, porque se descobre que um componente no importante. Em ou330

tros, podemos visualizar curvas de nvel fazendo cortes transversais em direes apropriadas, mas em geral a representao grfica problemtica, e se complica ainda mais quando vrias respostas esto em jogo. Do ponto de vista algbrico, porm, os modelos continuam sendo interpretados da mesma maneira que nos casos envolvendo menos componentes. Para uma mistura de quatro componentes o modelo quadrtico tem dez termos, cujos coeficientes podem ser estimados usando-se um planejamento em rede simplex {4,2}, que mostrado no tetraedro da Figura 7.10(a). Cada face do tetraedro tem um arranjo de pontos igual ao empregado no ajuste de um modelo quadrtico para misturas de trs componentes.

(a)

(b)

x 1=1
X

l=X 2=X4=113

Figura 7.10 Planejamentos experimentais para o estudo de misturas de quatro

componentes. (a) Planejamento em rede simplex. (b) Planejamento centride simplex.

331

Como modelar misturas

o nmero total de pontos na rede {4,2} igual ao nmero de termos no modelo quadrtico.
Em geral, para misturas de q componentes, o nmero de ensaios num planejamento em rede simplex {q ,2} igual ao nmero de termos contidos na expresso do modelo quadrtico. Para o ajuste de um modelo quadrtico, portanto, esse planejamento o mais econmico.

o modelo cbico especial para misturas de quatro componentes tem quatorze termos,
e seus coeficientes podem ser determinados com o planejamento mostrado na Figura 7.10(b). Em cada face do tetraedro os pontos agora reproduzem o arranjo correspondente ao planejamento centride simplex, que usamos para determinar o modelo cbico especial no problema de trs componentes. Se quisermos acrescentar ao modelo um termo de quarta ordem,
b1234Xlx2X3x4,

precisaremos fazer pelo menos mais um ensaio, na composio especificada pelo ponto central do tetraedro,
Xl

=X2 =X3 = X4 =.!..


4

Esse ponto indicado com um asterisco na Figura

7.10(b). Em geral, modelos desse tipo, definidos pela expresso

tm um total de 2q-l termos, cujos coeficientes podem ser determinados usando-se os 2q-l pontos de um planejamento centride simplex, cuja representao geomtrica exigiria um espao de dimenso q-l.

332

7A Aplicaes

7A.l-lnfluncia do solvente na complexao do on Fe(lll)


Em soluo aquosa, o on Fe(lll) apresenta um comportamento que varia bastante com as condies do meio, por causa da sua capacidade de formar diferentes complexos e de sua tendncia a sofrer hidrlise, mesmo em solues cidas. Na presena de ons tiocianato, o ferro(lll) produz uma soluo de cor vermelha, resultante da mistura de vrios complexos de Fe(lll) com o on SCN- :

[Fe(H20)6]3+ +nSCN- ~ [Fe(SCN)n(H20)6_J3-n+nH20 .


Para estudar os efeitos do solvente sobre esta reao de complexao, Bruns et aI. (1996) utilizaram dezesseis misturas ternrias de gua, etanol e acetona, s quais foram adicionadas quantidades fixas dos ons Fe(lll) e SCN-. As misturas foram preparadas nas composies especificadas pelo planejamento aproximadamente hexagonal da Tabela 7A.l, onde as concentraes dos solventes esto representadas em termos de pseudocomponentes, na ordem gua, etanol e acetona. Como resposta mediu-se a concentrao do complexo, atravs da absorvncia registrada em 623 nm. Todos os ensaios foram feitos em duplicata.

Tabela 7A.l Planejamento para o estudo da complexao do Fe(lll) com tiocianato.


Ensaio Absorvncia

16

0,111

0,778

0,111

0,682

0,699

333

Como

mode~ar

misturas

Ajustando aos dados da tabela os modelos linear, quadrtico e cbico especial, chegamos s seguintes equaes:

y = 0,322 xl +0,754X2 +0,531X3


(0,006) (0,006) (0,006)

y = 0,357 xl +0,791X 2 +0,518x3 -0,205x1x2 -0,012x1x3 -0,017 x2x3


(0,008) (0,008) (0,006) (0,029) (0,029) (0,029)

y = 0,355 xl + 0,789 x2 +0,516x3 -0,194x1x2 -0,001x1x3 -0,006x2x3 -0,051x1x2X3


(0,011) (0,011) (0,011) (0,047) (0,047) (0,047) (0,168)

Os resultados da anlise da varincia desses trs modelos so dados na Tabela 7A.2. O modelo linear apresenta falta de ajuste. Os outros dois, no. Isso se deve presena do termo de interao entre os componentes 1 e 2 (a gua e o lcool), j que as outras duas interaes binrias no so estatisticamente significativas. O termo cbico tambm no significativo. Quando o inclumos, retiramos um grau de liberdade da mdia quadrtica de falta de ajuste, e na verdade terminamos piorando a modelagem, como mostram os valores da segunda coluna da tabela. Como o planejamento tem 16 diferentes combinaes de nveis dos fatores, poderamos ajustar modelos contendo ainda mais termos, como o modelo cbico completo. Fazendo isso, porm, descobriremos que nenhum dos novos termos significativo.

Tabela 7A.2 ANOVA para os modelos ajustados aos dados da Tabela 7A.1.
Modelo Linear Quadrtico Cbico especial
MQfaj/MQep Vfaj

vep
16 16 16

Ffaj,ep

(95%)

R2
98,6% 99,6% 99,6%

7,45 1,70 1,87

13 10 9

2,40 2,49 2,54

Em suma: devemos preferir o modelo quadrtico, cujas curvas de nvel so mostradas na Figura 7A.1. As absorvncias mais intensas so obtidas na direo do vrtice inferior direito, que corresponde a misturas mais ricas em etano!. A ausncia de interaes significativas envolvendo o componente 3 (acetona) se reflete nas curvas de nveis quase verticais. O grfico das respostas previstas contra as respostas observadas (Figura 7A.2) confirma visualmente a qualidade do ajuste. Note que as respostas esto estratificadas em cinco grupos, correspondendo mais ou menos s cinco colunas de pontos na Figura 7A.1.

334

Figura 7A.l- Curvas de nvel para o modelo quadrtico.

o, 7

I-

.. ,

,.rn..<

.~

s
;;)

0,61-..;..

-"~

~
o, 5 1;

~~
;

~
o, 4
~ :J~

;.......................... ~

0,4

0,5

0,6

0,7

Respostas observadas

Figura 7A.2 - Respostas previstas pelo modelo quadrtico.

7A.2 - Resistncia trao de misturas polimricas


Preparar blendas - isto , misturas - uma das formas que os pesquisadores mais usam para tentar otimizar as propriedades de produtos polimricos. Entre as principais propriedades descritas nas patentes desses materiais esto a resistncia ao impacto, a facilidade de processamento e a resistncia trao. Siqueira et aI. (1993), em um estudo visando a maximizao da resistncia trao de blendas de polifluoreto de vinilidenila

335

Como modelar misturas

(PVDF), polimetacrilato de metila (PMMA) e poliestireno (PS), obtiveram os resultados da Tabela 7A.3, onde os 16 primeiros ensaios correspondem a um planejamento centride simplex com 9 repeties, mas nos ensaios 17-20 a proporo PVDF:PS mantida igual a 1, variando-se apenas o teor de PMMA.
Tabela 7A.3 Planejamento para o estudo de misturas polimricas ternrias.

Ensaio

XPVDF

XpS

Resistncia (MPa)

0,0

1,0

0,0

20,0

0,5

0,5

0,0

44,8

18

0,475

0,050

0,475

23,5

20

0,400

0,200

0,400

33,6

Procedendo da mesma forma que no exemplo anterior, chegamos aos seguintes modelos ajustados:

y = 44,25 Xl + 29,68 X2 + 19,65 x3


(5,99) (4,66) (5,06)

336

y = 49,72x1 + 20,79x2 + 18,66 x s + 61,77 x1x2


(5,10) (2,96) (S,62) (20,22)

- 36,89x1xS + 57,89x2XS
(14,S9) (14,S8)

y =51, 09x1 + 21,32x2 + 19,34xS + 36,21x1X2 (4,44) (2,56) (S,14) (20,45)

48,18x1XS + 48, 22x 2XS + 234,99x1X2XS


(1S,29) (1S,06) (97,87)

Os resultados das anlises da varincia (Tabela 7A.4) mostram que o modelo linear insatisfatrio, e que os outros dois modelos no apresentam falta de ajuste. Desta vez, porm, o modelo cbico especial superior. A variao explicada maior, a razo
MQfaj /MQep

menor,

e o termo cbico significativo. Suas curvas de nvel esto na Figura 7A.3. As maiores resistncias trao so obtidas perto da base do tringulo, na direo do vrtice esquerdo, o que corresponde a blendas com predomnio de PVDF e com pouco ou nenhum poliestireno.

Tabela 7A.4 ANOVA para os modelos ajustados aos dados da Tabela 7A.3.

Modelo Linear Quadrtico Cbico especial

MQfaj/MQep

Vfaj

v ep
9 9 9

Ffaj,ep

(95%)

R2
28,3% 82,0% 87,6%

9,50 2,46 1,44

8 5 4

3,23 3,48 3,63

Figura 7A.3 - Curvas de nvel para o modelo cbico especial.

Infelizmente este ajuste ainda est longe de ser satisfatrio, como podemos deduzir a partir da Figura 7A.4, que apresenta o grfico das respostas previstas contra as respostas observadas. Em primeiro lugar, as previses para trs dos quatro ensaios que no pertencem ao

337

Como

mode~ar

misturas

planejamento simplex (os crculos brancos na Figura 7A.3) esto bastante superestimadas, indicando que o modelo no est representando muito bem essa regio. Mas o mais preocupante que os pontos 11 e 12 so ensaios repetidos, e a diferena entre suas respostas
quase a metade da diferena entre os valores extremos de toda a tabela. Como o erro puro

calculado a partir dos ensaios repetidos, essa enorme variao inflaciona MQ ep e termina fazendo com que um modelo problemtico parea bem ajustado.

50

00

20 O
11

Q)

12

18

17

O 20 20

30

40

50

Respostas observadas

Figura 7A.4 - Resposta previstas pelo modelo cbico especial.


A Figura 7A.5 mostra todas as respostas do planejamento simplex em funo do nmero do ensaio. Os ensaios 1 e 4 no foram repetidos. Voc percebe algo de estranho nas respostas dos outros ensaios? Algum valor parece anmalo? Esta mais uma demonstrao de que sempre devemos fazer uma anlise grfica de qualquer ajuste. Se s nos basessemos nos valores da ANOVA, dificilmente suspeitaramos que havia algo errado com a modelagem.

45

.~

r ! ---a-------+---------~-t_----I---_i----~----.-:

No
35

repeti~os

6 I

~ ------i-------~-------1_-----l-----'------t--.- ._~--5 2

----i--------i-------i------i--------t------?-----t-------

15

_ _ . L ._ _----I....-_

_--L...-

...L..__~

_ _- . L - ._

___I....__-----'

Ensaio

Figura 7A.S - Respostas nos sete ensaios do planejamento simplex centride.


338

carutu~o

7A.3 - Determinao cataltica de Cr(VI)


Nos planejamentos fatoriais completos devemos realizar ensaios em todas as possveis combinaes dos nveis escolhidos. s vezes isto inconveniente, porque alguns fatores so mais trabalhosos de mudar do que outros. Uma alternativa, nesses casos, realizar um planejamento hierrquico (split-plot), em que os nveis de alguns dos fatores so variados enquanto os nveis dos outros - os fatores mais difceis de mudar - so mantidos constantes numa certa combinao. Nesta aplicao, os pesquisadores queriam desenvolver um mtodo analtico para determinar o on Cr(VI), baseado na catlise da reao da o-dianisidina com
H202, em meio levemente cido. No estudo original (Reis et al., 1998), um sistema controlado

pelas concentraes de trs reagentes (HeI, o-dianisidina e H202) e pela composio do meio (uma mistura de gua, acetona e N,N-dimetilformamida) foi otimizado empregando-se um planejamento hierrquico. Na Tabela 7A.5 apresentamos somente os resultados da variao das propores dos trs solventes, para uma certa combinao fixa das concentraes dos reagentes. xl' X2 e x3 so os teores, em pseudocomponentes, correspondendo gua, acetona e N,N-dimetilformamida, respectivamente. A resposta a absorvncia, cujo valor queremos maximizar. Todos os ensaios foram feitos em duplicata.

Tabela 7A.S Planejamento para a determinao cataltica de Cr(VI).


Ensaio 1 2 3 4 5 6 7 8 9 10
Xl X2 X3

Absorvncia 0,810 0,279 0,054 0,507 0,474 0,115 0,277 0,409 0,548 0,192 0,777 0,288 0,046 0,498 0,486 0,077 0,232 0,370 0,492 0,109

0,625 0,000 0,000 0,625 0,313 0,000 0,313 0,313 0,468 0,156

0,375 1,000 0,000 0,000 0,687 0,500 0,000 0,344 0,266 0,211

0,000 0,000 1,000 0,375 0,000 0,500 0,687 0,344 0,266 0,633

O modelo linear apresenta falta de ajuste. Os modelos quadrtico e cbico especial so representados pelas expresses

y = 1,036 Xl
(0,091)

+ 0,265 x2 + 0,048x 3 + 0,106x1x2 - 0,555 X1x3 - 0,202x2x3


(0,026) (0,026) (0,211) (0,211) (0,116)

339

Como

mode~ar rnisturas

y = 1,106 xl + 0,275 x2
(0,095) (0,025)

+ 0,056 x3 - O,110x1 x 2 - 0,771 x1x3 - 0,304 x2 x 3 + 1,330x1x2X3 ,


(0,025) (0,235) (0,235) (0,124) (0,782)

onde os coeficientes significativos esto em negrito. Os resultados da anlise da varincia dos dois modelos so muito parecidos: Modelo quadrtico: Modelo cbico:
MQ{a} /MQep

= 3,92

(F 4 ,10

= 3,48 )

R2 = 97,8% R2 = 98,2%

MQ{a} / MQ ep = 3,66 .

( F 3,10 = 3,71 )

Embora o coeficiente do termo cbico no seja significativo, no nvel de 95% de confiana, o modelo cbico especial parece ligeiramente superior, a julgar pelos grficos dos resduos (Figura 7A.6). Suas curvas de nvel esto na Figura 7A.7. As maiores absorvncias so obtidas perto do vrtice esquerdo, isto , quando a mistura solvente mais rica em gua.

0,08

Quadrtico
0,04

O O
u

O O O

:s ,
~

O O O

O
O

0,00

-0,04

o
O

()

-0,08 0,0 0,2 0,4

0,6

0,8

Respostas previstas

0,08

Cbico
0,04
()

O O O O O

:s ,
~

0,00

u 00

-0,04

00

O
-0,08

0,0

0,2

0,4

0,6

0,8

Respostas previstas

Figura 7A.6 - Resduos deixados pelos dois modelos.

340

Figura 7A.7 - Curvas de nvel para o modelo cbico especial.

7A.4 - Condutividade de uma blenda polimrica


Incorporando a um polmero flexvel uma concentrao de sal relativamente alta, podemos obter filmes polimricos eletrolticos, que podem ser usados na fabricao de dispositivos eletroqumicos miniaturizados. Para reduzir o risco de cristalizao e tambm aumentar a mobilidade segmentacional (o que pode traduzir-se numa maior condutividade), costuma-se acrescentar mistura um agente plastificante. Quase todos os estudos de otimizao que constam da literatura baseiam-se em planejamentos univariados, onde a proporo de um ingrediente - normalmente o sal - mantida constante. Recentemente publicou-se uma otimizao multivariada de misturas de perclorato de ltio e polixido de etila (POE), tendo como agente plastificante o carbonato de etileno (Silva et al., 2.000). Os resultados esto na Tabela 7A.6, onde
Cl' C2

c3

so as propores de polmero, sal e plastificante, respectiva-

mente. Duas respostas foram acompanhadas: a condutividade inica da blenda (em escala logartmica) e a temperatura de transio vtrea, T*. A Figura 7A.8 mostra a disposio dos ensaios do planejamento em termos dos verdadeiros teores dos trs componentes e em termos de pseudocomponentes.

341

Como

mode~ar misturas

Tabela 7A.6 Planejamento para as misturas do eletrlito polimrico ternrio. Ensaio


Log(cond}

T* (oC)

0,75

0,18

0,07

-4,699

-48

0,50

0,29

0,21

-3,523

-67

0,64

0,07

0,29

-4,398

-64

0,66

0,17

0,17

-4,155

-56

10

0,76

0,12

0,12
O',: ':'.

-5,000
.. . . :::':',

-51
: : . . :,'

,,",": : ,:,:.':' :'; :,' ",:..ffiI~~~:.:,::::::',:::: : ",: :,:, ;.. ,::~~'O, ... ,'"
12 0,60 0,25 0,15 -4,155 -71

'

14
:.:.;.:.;.:;.::.;:.::: ..:.:.;
:
'.::.,',

0,60
, ' : " ::".:,':':

0,15

0,25

-3,699

-50

(;I"i~:. . .. ;. .~!Ii~ ; ';

Os valores de T* so temperaturas de transio corrigidas para materiais com cristalinidade acima de 20%.

Ao ajustar os modelos aos dados da tabela, descobrimos que este sistema bem mais complexo que os outros que vimos at agora. Todos os modelos mais simples apresentam falta de ajuste, e s um modelo cbico completo mostra-se satisfatrio, para ambas as respostas. Em termos dos teores originais, esses modelos so dados pelas equaes abaixo, onde s aparecem os termos significativos no nvel de 95% de confiana.

342

Clcut:lUO

As variaes explicadas so 99,27% e 93,99%, respectivamente. As curvas de nvel so mostradas na Figura 7A.9, onde os vrtices representam pseudocomponentes. Se quisermos obter condutividades mais altas (isto , logaritmos menos negativos) devemos nos deslocar para o lado direito do grfico, o que corresponde a aumentar a proporo de sal na blenda. Para aumentar a temperatura de transio, a regio favorvel est do lado oposto. Isto significa que a otimizao simultnea das duas respostas no factvel, e que teremos de nos contentar com um meio-termo, ou ento sacrificar uma das respostas em proveito da otimizao da outra.

Plastificante

..

__ __ .
"

i""

Polmero

Sal

Figura 7A.8 - Planejamento da Tabela 7A.6, em termos dos verdadeiros teores e em termos

de pseudocomponentes.

343

Como modeiar misturas

Condutividade

Temperatura de transio

Figura 7A.9 - Curvas de nvel para os modelos cbicos completos ajustados aos dados da Tabela 7A.6.

7A.S - No precisa comer para conhecer o pudim


Os produtos alimentcios industriais so misturas mais ou menos complexas, cujas propriedades devem ser reconhecidas e apreciadas pelos consumidores. Ao desenvolver um novo produto, os tcnicos precisam levar em conta suas propriedades qumicas, composicionais, estruturais e texturais, que so determinantes na aceitao do produto pelo mercado. Alm disso, como em qualquer indstria, tm de considerar tambm os aspectos econmicos, que s vezes terminam sendo os que mais pesam na deciso de comercializar (ou no) o produto desenvolvido.

344

o acar, o amido e o leite em p so os componentes presentes em maior proporo


numa formulao genrica para a preparao de pudins. A proporo de amido um dos fatores que mais influenciam as propriedades texturais e estruturais do pudim. Braga Neto (1998) investigou como cinco dessas propriedades eram afetadas pela variao das propores dos trs ingredientes principais, e obteve os resultados da Tabela 7A. 7. As unidades foram omitidas, para economizar espao.

Tabela 7A.7 Planejamento para o estudo das formulaes para pudim.


Pseudocomponentes Ordem 4 7 9 6 2 3 5 1 8 Amido (Xl) 0,176 0,000 0,000 0,000 0,176 0,088 0,088 0,088 0,176 Leite em p (X2 ) 0,000 0,000 0,412 0,824 0,412 0,824 0,000 0,412 0,824 Acar (X3) 0,824 1,000 0,588 0,176 0,412 0,088 0,912 0,500 0,000

Fraturabilidade 4 7 9 6 2 3 5 1 8 87,5 82,0 92,0 11,7 11,5 10,5 7,0 6,0 8,5 7,0 9,5 7,0

Coesividade 0,37 0,38 0,37 0,70 0,82 0,97 0,94 0,85 0,89 0,87 1,00 0,96 0,49 0,57 0,50 0,71 0,55 0,69 0,42 0,44 0,47 0,59 0,60 0,63 0,60 0,52 0,51

44,0 45,0 47,5 19,0 23,0 22,0 39,0 45,0 42,5 20,0 22,5 21,5 45,0 51,0 50,0

Os coeficientes dos termos estatisticamente significativos dos modelos ajustados para as cinco respostas so dados na Tabela 7A.8. O modelo cbico especial o que melhor se ajusta a todas as propriedades, exceto a coesividade, para a qual o modelo quadrtico sufi-

345

Como

mode~ar misturas

ciente. De todos os modelos ajustados, somente o da firmeza ainda apresenta falta de ajuste, mas o nmero de nveis do experimento no suficiente para que possamos tentar ajustar um modelo cbico completo. Os valores dos coeficientes deixam claro que o amido de fato o componente mais importante, mas seu efeito afetado pelos teores de acar e de leite em

p.

Tabela 7A.S Coeficientes dos termos significativos nos modelos ajustados.


Xl X2 X3 XIX2 XIX3 X2 X 3 xlx2 x 3

Firmeza Fraturabilidade Adesividade Coesividade Elasticidade

273,8 876,6 28,1 10,8 -19,3

8,5 7,8

11,1 10,4 0,6

----------

----------

- 478,2 - 693,1 22,6


----------

-768,8 -19,1 -14,5 27,2

- 530,1 -26,1 -15,1 23,6

----------

-1,5
----------

0,9 1,9

0,8 2,2

- 1,6

22,4

A variao na qualidade dos ajustes revelada pelos grficos das respostas previstas contra as respostas observadas (Figura 7A.10). A firmeza e a fraturabilidade esto bem modeladas, a adesividade mais ou menos, mas os modelos da coesividade e, principalmente, da elasticidade deixam a desejar.

50 .... Firmeza

Adesividade

00
O
40

00

S .:1
Q

S
.~

l ~

S
20

O
30

~ Q.

CO

S
~

~ 1 ~""""""'"'''''''''''''''''''''''''''''''''''/''''''''''''''''''''''''''''''''''''''' ..

..;

..

10

0"'----------"--------'---------'
10 20 30 40 50

Respostas observadas

Respostas observadas

346

100

,.........-----.-~-.....__,..---___r_~-~___r_---~

Fraturabilidade
i

Coesividade

80

------i-----t-----t-------i----O

lo

1,0

1
}

60

40

-----l-J---J---.-.L.I !
;

--------.~----_t-----!

.----.--t--I I
i

.~

S 0,8
~
~

20 . - - - - - ,

---J---I-------L-I I
i

O
0,6

00

CD
O

00
0,4

O~------'-----'------'------"-----'" 40 60 100 O 20 80

0,4

0,6

0,8

1,0

Respostas observadas

Respostas observadas

2,6

r----~----r------...---_r__--__r_--____,.
I

2,4

~~~~t----.-+_-+_O-!-.--n--_._._ J ._
!

2,2

I
i

_.l--._._ ~ ~_._ _.. . I _._._._. _ . 91.._

Imo

2, O -_._._ _

-1-

-.L-._-_ ~._

I
i

lo
!

i !

1,8

-o--'-I;-'--'~-----r--i-l----1 l
~

1 _._.
I

_.

-+-_._._ _ ..-.1

_._ __ ..

1,6

--,-----l--l--r--l---_ ___I.__ _- - - '

1,4 "--_ _....L--_ _- - L - _ _- - "

1,4

1,6

1,8

2,0

2,2

2,4

2,6

Respostas observadas

Figura 7A.l0 - Comparao das respostas previstas com as respostas observadas.

347

8
Otimizao simplex

Nos mtodos de otimizao que vimos nos captulos anteriores, a resposta do sistema era expressada como uma funo matemtica dos fatores a serem otimizados, e a otimizao propriamente dita comeava pela obteno de valores numricos para os parmetros dessa funo. Existe uma outra classe de mtodos que nos permite otimizar um sistema sem que precisemos conhecer, ou sequer postular, qualquer relao matemtica entre a resposta e as variveis independentes. Neste captulo estudaremos um desses mtodos, o simplex seqencial, que bastante usado nas engenharias e at recentemente gozou de muita popularidade

entre os qumicos analticos. Os mtodos simplex funcionam bem na presena de erros experimentais e so capazes de otimizar sistemas controlados por um grande nmero de variveis independentes. Alm disso, no exigem o emprego de testes de significncia (como os testes t e F), o que uma vantagem a mais para pesquisadores alrgicos a clculos estatsticos. Os mtodos simplex, como o prprio nome indica, se baseiam em algoritmos muito simples, que podem ser facilmente implementados em instrumentos analticos, transformando a otimizao do funcionamento desses aparelhos em um procedimento automtico. Por outro lado, numa otimizao simplex s podemos passar para a etapa seguinte depois de conhecer a resposta da etapa imediatamente anterior. Enquanto na metodologia das superfcies de resposta podamos realizar vrios experimentos ao mesmo tempo para completar um planejamento fatorial, nos mtodos simplex s podemos fazer um experimento de cada vez (da o termo seqencial). Essa caracterstica faz com que o emprego do simplex seja mais conveniente em instrumentos de resposta rpida, como os sistemas de fluxo. Os mtodos simplex tm ainda outras limitaes, que precisamos levar em conta na hora de escolher um mtodo de otimizao. Em primeiro lugar, eles s podem ser empregados com variveis quantitativas. Fatores qualitativos, como tipo de catalisador ou presena/ausncia de determinado componente, no podem fazer parte de uma otimizao simplex, pelas prprias caractersticas do algoritmo. Em segundo lugar, e pelos mesmos motivos, caso haja dificuldade para controlar os fatores experimentais nas condies indicadas pelo simplex, o sistema no poder ser otimizado por esse mtodo. Finalmente, s temos condies de otimizar uma resposta de cada vez. Se houver vrias respostas de interesse,

349

Otimizao simpiex.

precisaremos decidir em qual delas a aplicao do simplex ser baseada. Esta ultima restrio no to grave, porque s vezes podemos contorn-la usando como "resposta" uma combinao das verdadeiras respostas experimentais, ponderadas de acordo com a sua importncia relativa para o problema, como na metodologia de Derringer e Suich. A dcima edio do Webster's Collegiate Dictionary define simplex como 'uma configurao espacial de n dimenses determinada por n+1 pontos num espao de dimenso igualou maior que n. Nos mtodos de otimizao simplex essa configurao um polgono (ou o seu equivalente multidimensional) de p + 1 vrtices, onde p o nmero de variveis independentes que queremos ajustar. Com duas variveis, portanto, o simplex um tringulo. Com trs, um tetraedro. Com quatro ou mais, um hiperpoliedro. O nmero de fatores define as dimenses em que o simplex se move. Existem diversos mtodos de otimizao simplex. Neste captulo discutiremos trs deles, em ordem crescente de complexidade: o simplex bsico, o simplex modificado e o simpIex supermodificado. Os mtodos mais sofisticados conseguem adaptar-se melhor superfcie estudada, mas a construo de cada simplex exige um nmero maior de experimentos. Apesar disso, o simplex modificado e o supermodificado normalmente conseguem aproximarse do mximo (ou do mnimo, se for o caso) com um nmero total de experimentos menor do que o que seria necessrio com um simplex bsico. Neste captulo veremos exemplos com duas ou trs variveis somente, para que possamos acompanhar graficamente a evoluo do simplex. Trata-se apenas de uma convenincia didtica. A eficincia do simplex, em comparao com mtodos univariados de otimizao, cresce com o nmero de fatores.

8.1 O simplex bsico


Exatamente: voc adivinhou. o mais simples de todos. O simplex sempre uma figura geomtrica regular, cujas dimenses no variam ao longo do processo de otimizao, e por isso o mtodo no muito eficiente (Spendley, Hext e Himsworth, 1962; Deming, 1981). Com dois fatores, o simplex um tringulo eqiltero. Com trs, um tetraedro regular. A Figura 8.1 apresenta graficamente o deslocamento do simplex bsico num problema bidimensional, em que os fatores so o tempo de reao e a concentrao de um reagente, e a resposta o rendimento da reao, todos medidos em unidades arbitrrias. Para facilitar a argumentao, estamos admitindo que a superfcie de resposta aproximadamente plana e ascendente do canto inferior esquerdo para o canto superior direito da figura, como mostram as curvas de nvel. Mais uma vez, isto apenas um recurso didtico. Num problema real, provvel que no tenhamos nenhum conhecimento prvio sobre a forma da superfcie. At
350

porque, se tivssemos, faramos um negcio mais proveitoso usando a metodologia de superfcies de resposta ao invs do simplex. A idia bsica dos mtodos discutidos neste captulo deslocar o simplex sobre a superfcie de resposta de modo a evitar regies de resposta insatisfatria. No presente exemplo, como obviamente desejamos atingir o rendimento mximo, devemos nos afastar dos pontos que apresentem baixos rendimentos. Isso feito de acordo com cinco regras.
(a) (b)

150
70

150
70

100
65
C

100
C

65

50 60

50
60

50

100

150

50

100

150

(c) 200 75

150
70

100
65
C

50
60

50

100

150

Figura 8.1 Deslocamento do simplex bsico bidimensional. (a) O simplex

inicial o tringulo ABC. A reflexo do pior vrtice (A) na aresta BC gera o novo simplex, BCD. (b) A rejeio do vrtice B produz o simplex CDE. (c) Os sucessivos deslocamentos do simplex resultam num movimento ascendente sobre a superfcie de resposta.

Regra 1- O primeiro simplex determinado fazendo-se um nmero de experimentos

igual ao nmero de fatores mais um. O tamanho, a posio e a orientao desse simplex

351

Otimizao

shnph~x.

inicial so escolhidos pelo pesquisador, levando em conta a sua experincia e as informaes disponveis sobre o sistema investigado (Burton e Nickless, 1987). Na Figura 8.1(a) o primeiro simplex definido pelos vrtices A, B e C. Realizando experimentos nas condies indicadas por esses vrtices e comparando os resultados, verificamos que eles correspondem, respectivamente, pior, segunda pior e melhor das trs respostas observadas, como voc pode facilmente constatar, observando a localizao do simplex em relao s curvas de nvel da superfcie. Essa classificao necessria para que possamos definir a localizao do segundo simplex, feita de acordo com a regra 2. Regra 2 - O novo simplex formado rejeitando-se o vrtice correspondente pior

resposta (Na Figura 8.1(a), o vrtice A) e substituindo-o pela sua reflexo na hiperface definida pelos vrtices restantes (B e C). No nosso exemplo bidimensional, onde a hiperface
simplesmente a aresta BC, isso produzir o vrtice D [Figura 8.1(a)], e o novo simplex ser o tringulo BCD. Na linguagem da geometria descritiva, esse movimento chamado de

rebatimento do tringulo ABC sobre a aresta BC.


A pior resposta do novo simplex (BCD) ocorre no vrtice B, cuja rejeio levar ao simplex CDE [Figura 8.1(b)]. Fazendo isso vrias vezes, obtemos uma espcie de deslocamento em zigue-zague com uma resultante quase perpendicular s curvas de nvel da superfcie de resposta, correspondendo aproximadamente ao percurso de mxima inclinao [Figura 8.1(c)]. Para uma superfcie plana, como na Figura 8.1, o simplex, sendo tambm plano, adapta-se perfeitamente ao relevo e o seu deslocamento se d sem problemas. Havendo curvatura significativa, porm, a aplicao da regra 2 pode levar a uma paralisao do movimento. O simplex TUV na Figura 8.2(a) ilustra esse problema. Ele obtido a partir do simplex STU pela rejeio do vrtice S, que substitudo pelo vrtice V. O vrtice V, porm, acontece de ter a pior das trs respostas do novo simplex TUV. Pela regra 2 ele deve ser descartado, para obtermos o simplex seguinte. Isso nos trar de volta ao vrtice S, fazendo com que o novo simplex seja idntico ao simplex de partida, o tringulo STU. Nessas condies, se continuarmos usando a regra 2 manteremos o simplex preso no mesmo local da superfcie de resposta, oscilando entre os vrtices Se V. Para sair dessa situao, aplicamos a regra 3. Regra 3 - Quando o vrtice refletido tiver a pior das respostas do novo simplex,

devemos rejeitar o segundo pior vrtice. Aplicando essa regra ao simplex TUV, descartamos o
vrtice T (ao invs do vrtice V) e obtemos o simplex UVW [Figura 8.2(b)]. A partir dele, voltando a aplicar a regra 2, obtemos os simplexes 1 UWX, WXY e WYZ. Para sair do simplex

Os puristas preferem o plural simplices.

352

WYZ, no entanto, temos de usar novamente a regra 3, j que o vrtice Z, gerado pela reflexo do vrtice X, o pior dos trs. Rejeitamos portanto o vrtice W e obtemos o simplex "YZA'.

300

300

250

~
83

250

ao

,
\ I

80
T
\

200
75
C

200
\

- -)tR
\ I

P
I

JII\ I

-;0
I

c
150

75

150
70

- -)fN
\ \

L
I

JII\ I

-)tM
I

70

100
65
H
I

--)tK
I \ I

100
65

9(\

-~ I

50
O

50 50 100 150

50

100

150

(a)

(b)

Figura 8.2 (a) O fenmeno do simplex oscilante. A aplicao da regra 2 faz com que o vrtice S seja substitudo pelo vrtice V, e vice-versa. (b) deslocamento do simplex depois da aplicao da regra 3 ao simplex TUV.

Como nos mtodos simplex no realizamos ensaios em duplicata, no temos uma estimativa do erro experimental, e por isso no podemos avaliar a preciso das respostas. Corremos assim o risco de manter no simplex respostas errneas, sejam altas demais, sejam baixas demais. Num estudo cujo objetivo a maximizao, incluir uma resposta falsamente baixa, isto , uma resposta que parece mais baixa do que de fato , no tem conseqncias muito srias. As respostas seguintes provavelmente se mostraro mais altas, e terminaremos descartando o vrtice errado. O perigo est na determinao de uma resposta falsamente alta. As outras respostas talvez no se mostrem mais altas do que ela, e podemos acabar retendo indevidamente o vrtice errado. Nosso simplex comear ento a girar em torno de um falso mximo. Se o estudo visar a minimizao, claro que a situao se inverte, e o risco passa a residir nas respostas falsamente baixas, que podem levar a mnimos fictcios. Para nos prevenir contra esse tipo de problema que devemos empregar a regra 4.

353

Otimizao simpiex. ---------

Regra 4 - Se um mesmo vrtice tiver sido mantido em p + 1 simplexes [como os vrtices U e W na Figura8.2(b)], antes de construir o prximo simplex devemos determinar

novamente a resposta correspondente a esse vrtice. Se a primeira resposta tiver sido alta
demais por causa de algum erro experimental, improvvel que esse fenmeno se repita na segunda determinao. A nova resposta dever ento ser mais baixa, e o vrtice terminar sendo descartado. Se, ao contrrio, a resposta se mantiver alta, ento provvel que estejamos realmente prximos de um ponto de mximo, e o vrtice ser merecidamente retido. No percurso mostrado na Figura 8.2(b) devemos, de acordo com esta regra, fazer novos ensaios nos pontos U e W, para confirmar se as respostas nesses vrtices so to altas quanto pareceram ser na primeira determinao. s vezes o mtodo simplex pode especificar para o prximo ensaio condies experimentais impossveis ou muito difceis de executar. Por exemplo, a reflexo do simplex poderia levar a figura para uma regio de concentraes negativas. Ou ento, na otimizao de um mtodo analtico, para um tempo de reao longo demais para ter utilidade prtica. A regra 5 nos diz como proceder nesses casos. Regra 5 - Se o novo vrtice ultrapassar os limites aceitveis para qualquer uma das

variveis que esto sendo ajustadas, devemos atribuir um valor indesejvel resposta nesse vrtice. A aplicao das regras 2 e 3 far ento o simplex voltar para a regio de valores
aceitveis para a varivel em questo. Mais adiante veremos um exemplo real desse tipo de comportamento. A Figura 8.3 mostra o que termina ocorrendo com o simplex bsico quando ele se aproxima o suficiente do valor procurado. Tendo chegado nas vizinhanas do mximo, que o valor desejado neste exemplo, o simplex passa a descrever um movimento circular em torno da resposta mais alta observada (o ponto A:, na Figura 8.3), e da no sai mais. Nesse estgio no temos mais o que fazer, porque o simplex bsico no pode diminuir de tamanho. O processo de otimizao deve ser interrompido, e a preciso com que as condies otimizadas so determinadas fica dependendo do tamanho e da localizao do simplex inicial. No nosso exemplo a resposta mxima um pouco superior a 86. O valor mximo alcanado pelo simplex fica at bem prximo: cerca de 85,3, nas condies experimentais definidas pelo vrtice A:, t == 50 e c == 247.

Exerccio 8.1 Na Figura 8.3, quais so os simplexes obtidos pela aplicao da regra 2? Quais decorrem da regra 3? Precisaramos aplicar a regra 4 a algum vrtice?

354

300 .------..:------.:::------~--------~

DI

EI

250

200

x
75

c
150
70

100
65

50 "----O

L...-

L-.-.-

50

100

150

t Figura 8.3 Movimento circular do simplex bsico na vizinhana do mximo. O vrtice A' retido em todos os simplexes.

8.2 O simplex modificado


No algoritmo modificado (Nelder e Mead, 1965) o simplex pode alterar seu tamanho e sua forma, e conseqentemente adaptar-se melhor superfcie de resposta. Essa flexibilidade permite uma determinao mais precisa do ponto timo, porque o simplex pode "encolher" nas suas proximidades. Alm dessa caracterstica desejvel, o mtodo modificado tambm pode resultar num nmero de ensaios menor do que o necessrio para a execuo do simplex bsico, porque o simplex pode "esticar-se" quando estiver longe do ponto procurado e assim aproximar-se mais rapidamente da regio de interesse.

355

Os possveis movimentos do simplex modificado so ilustrados na Figura 8.4. O simplex inicial o tringulo BNW. Esta notao j classifica os vrtices de acordo com as respostas correspondentes. B (de best) o vrtice com a melhor resposta e W (worst) o que tem a pior. O vrtice N (next to worst) corresponde segunda pior resposta. O primeiro movimento, partindo do simplex inicial, idntico ao do simplex bsico: uma reflexo do pior vrtice no centride dos vrtices restantes. Na Figura 8.4, isso corresponde a rebater o ponto W atravs do ponto mdio do segmento BN, identificado como P. O resultado o ponto
~

o novo simplex passa a ser BNR. Para decidir se esse simplex ser retido, porm, precisamos comparar a resposta observada em R com as respostas obtidas no simplex anterior, BNW. Trs casos so possveis. Para discuti-los, vamos identificar as respostas com as mesmas letras usadas para rotular os vrtices. Admitiremos tambm, para simplificar a discusso, que estamos em busca de um mximo.
B

~~-------------

W
I I

I
I

W) ,/
,

/ L
I,"'"

,
I

~"

--/----~

Figura 8.4 Possveis movimentos para o simplex modificado. O simplex BNR obtido a partir do simplex inicial BNW por meio de uma reflexo simples. Os outros trs correspondem aos seguintes movimentos: expanso (BNS), contrao (BNU) e contrao com mudana de direo (BNT).

Primeiro caso - R> B. A nova resposta melhor do que todas as respostas do simplex anterior. Isso nos faz supor que o simplex est no caminho certo, e que devemos continuar nossas investigaes na mesma direo. Realizamos ento uma nova determinao no ponto S, localizado sobre a reta WPR de forma que a distncia PS seja o dobro da distncia PR. Dependendo do valor da resposta no ponto S temos duas possibilidades:
la - S > R A resposta ficou ainda melhor. A expanso valeu a pena, e o novo simplex

passa a ser BNS.

356

1b - S < R O resultado piorou com a expanso. Devemos ficar com o simplex no


expandido, BNR.

Segundo caso - N < R < B. A resposta observada depois da reflexo inferior


melhor resposta do simplex inicial, mas ainda continua superior segunda pior resposta. Nesse caso no vale a pena expandir nem contrair, e o simplex BNRdeve ser mantido.

Terceiro caso - R < N. A nova resposta menor do que a segunda pior resposta do
simplex de partida. Conclumos que a direo do movimento no est sendo satisfatria, e que precisamos corrigir o rumo. Temos novamente duas possibilidades:

3a - R < W. Aconteceu o pior: a nova resposta inferior a qualquer uma das


observadas anteriormente. Devemos recuar. O novo simplex passa a ser BNT, sendo T o ponto mdio do segmento WP. Nesse caso ocorre no apenas uma contrao como tambm uma mudana no sentido do deslocamento (isto , um recuo propriamente dito).

3b - W < R < N. Embora a nova resposta seja ruim, ainda superior pior das
respostas anteriores. Devemos recuar, mas com moderao. O simplex contrado para uma posio intermediria entre P e R O novo simplex passa a ser BNU, onde U o ponto mdio do segmento PR. Usando geometria analtica elementar, podemos calcular facilmente a localizao dos diversos vrtices medida que o simplex se movimenta. S precisamos considerar as coordenadas de cada ponto como componentes de um vetor e aplicar as regras da composio de vetores. Assim, por exemplo, o vetor que localiza o ponto P a mdia dos vetores B e N: B+N P=--.
2

(S.la)

No nosso exemplo o simplex um tringulo, e por isso o vetor P contm as mdias das coordenadas de apenas dois vrtices. Se estivssemos otimizando um sistema de trs variveis o simplex seria um tetraedro, e o ponto P seria dado pela mdia dos trs vrtices situados na face oposta ao pior vrtice, e assim por diante. Uma reflexo simples (isto , sem expanso nem contrao) gera o ponto ~ dado por (S.2a) Caso a reflexo seja feita a partir do segundo pior vrtice, isto , seja resultante da aplicao da regra 3, s substituir o vrtice W pelo vrtice N:

357

Otimizao shnplex.

(8.2b)

Nesse caso o ponto P tambm mudar, passando a ser dado por


-

p=

B+W . 2

(8.1b)

Com as Equaes vetoriais 8.1 e 8.2 podemos determinar as coordenadas de todos os pontos varridos pelo simplex bsico.

Exerccio 8.2
Use a "regra do paralelogramo", da geometria vetorial, para demonstrar que a Equao 8.2a verdadeira.

Exerccio 8.3
As coordenadas dos vrtices A, B e C na Figura 8.1(a) so dadas respectivamente por (t, C) =

(68, O), (56, 21) e (80, 21). (a) Quais so as coordenadas do ponto D? (b) Quais so as coordenadas do ponto E?

No simplex modificado temos movimentos de expanso e de contrao. Neles o vetor

(P W)

[ou, se for o caso,

(li. N)l

multiplicado por um fator, que o aumenta ou diminui.

N a expanso temos

(8.3)
Para a contrao, teremos

(8.4)
Se alm de contrair o simplex precisarmos mudar sua direo, teremos uma subtrao de vetores, ao invs de uma adio:

(8.5)
Usando fatores diferentes de 2 e 1/2 podemos variar o tamanho da extenso ou da contrao do simplex, mas esses valores so os mais comuns. Todas essas equaes podem ser facilmente resolvidas com um programa de lgebra linear, ou mesmo com uma das muitas planilhas disponveis no mercado.

358

Nas Figuras 8.5 e 8.6 usamos a mesma superfcie de resposta das Figuras 8.1 e 8.2 para mostrar a aplicao do algoritmo modificado. Os valores numricos da concentrao e do tempo correspondentes aos diversos vrtices esto na Tabela 8.1. Note que o simplex inicial ABC o mesmo do exemplo do simplex bsico, o que nos permitir comparar melhor a eficincia dos dois algoritmos.

Tabela 8.1 Coordenadas dos vrtices do simplex modificado bidimensional cujo deslocamento ilustrado nas Figuras 8.5 e 8.6.
Vrtice
A

Simplex

t 68 56

Cone.

Movimento Inicializao Inicializao Inicializao Expanso Expanso Expanso Reflexo Contrao Contrao e Mudana de direo Reflexo Contrao e Mudana de direo Reflexo Reflexo Reflexo Reflexo Contrao e Mudana de direo Reflexo Reflexo Reflexo Reflexo Contrao e Mudana de direo

B
C
D

21 21 63

ABC

80 68 110 107 149 137 132,5 90,5 115,63 99,13 74,01 82,63 57,54 74,19 57,69 41,08 41,19 24,50 36,97

BCD CDE DEF EFG FGH


FGI
FIJ

E F G H
I
J

84 178,5 199,5 241,5 215,25 194,26 200,82 216,58 210,02 232,34 225,78 225,12 240,88 241,54 256,64 257,30 253,03

K
L

JFK
JKL

M
N

JLM
LMN

MNO MOP OPQ

p
Q

R
S

OQR
QRS
RST

T
U

RIU

359

Otimizao simplex

o primeiro movimento

uma reflexo, que nos leva ao ponto D'. Como a resposta

nesse ponto superior a todas as respostas do simplex inicial, fazemos uma expanso at o ponto D, cuja resposta ainda melhor. O novo simplex portanto o tringulo BCD, cujo pior vrtice o ponto B. Este, refletido, nos leva ao ponto E', e da, por expanso, ao ponto E, formando o simplex CDE.

Exerccio 8.4 Use as coordenadas do simplex BCD dadas na Tabela 8.1 e calcule os valores do tempo e da concentrao no ponto E mostrado na Figura 8.5.
200 , . . - - - - - - - - - - - - - - - - - - - - - - - - ,
75

150

70

100

60

50

60

50

100

150

Figura 8.5 Deslocamento do simplex modificado bidimensional numa super-

fcie de resposta plana.

Tanto a Figura 8.1(c) quanto a Figura 8.5 apresentam a situao do simplex depois de nove experimentos. Na Figura 8.1(c), que mostra a aplicao do simplex bsico, a resposta no nono ponto (o vrtice I) == 68. J na Figura 8.5, em que foi aplicado o algoritmo modificado, a resposta final (vrtice F) sobe para cerca de 79, porque o simplex modificado foi "acelerando" a subida, medida que as novas respostas iam-se mostrando melhores que as

360

precedentes. Nessa regio, no entanto, a superfcie de resposta comea a curvar-se, e o simplex, se prosseguir na mesma direo, terminar passando ao largo do mximo. A Figura 8.6 mostra o que realmente acontece. A passagem DEF
~

EFG trivial. Desse ltimo

simplex uma reflexo nos levaria ao ponto H', no canto superior direito da figura. A resposta nesse ponto superior resposta no ponto E, mas menor que a resposta no ponto G, que o segundo pior vrtice do simplex EFG. O procedimento recomendado nesse caso uma contrao simples (regra 3b), que produz o simplex FGH. Uma reflexo simples nos leva em seguida ao ponto I' (embaixo, direita), cuja resposta, no entanto, pior que a pior das respostas em FGH. Pela regra 3a devemos fazer no apenas uma contrao mas tambm uma mudana de direo. O resultado o ponto I, e o novo simplex passa a ser FGI.
300r-::----..::---------.:-----------.,----------,

250

""ao
200

~
75

150

70

100

o
50L..------~-----...L--------...,;::::.-.L-----I

50

100

150

Figura 8.6 Deslocamento do simplex modificado bidimensional numa cumeeira ascendente. Os pontos no includos nos simplexes so os vrtices rejeitados pelas regras do algoritmo.
Exerccio 8.5 Use os dados do simplex FIJ (Tabela 8.1) para calcular os valores do tempo e da concentrao
correspondentes ao vrtice K na Figura 8.6.

361

Exerccio 8.6 Qual o simplex imediatamente posterior ao simplex R8T, na Figura 8.6? Ele o resultado da aplicao de qual regra?

o ltimo vrtice atingido na Figura 8.6 (o ponto U) est muito prximo do mximo
da superfcie. Caso seja necessria uma maior preciso, pode-se realizar mais experimentos, que certamente faro o simplex diminuir de tamanho e produziro uma regio mais restrita ainda nos arredores do mximo. bvio que o simplex no poder reduzir-se a um ponto, por mais que encolha, e por isso improvvel que o mximo matemtico seja atingido. Para evitar que a sua busca se prolongue indefinidamente, costuma-se dar por encerrada a investigao quando as diferenas entre as respostas dos vrtices do simplex ficam do mesmo tamanho do erro experimental. Para concluir nossa discusso do simplex modificado vamos apresentar um exemplo com dados reais, obtidos numa tentativa de otimizar a anlise de molibdnio pelo mtodo baseado na catlise da reao de KI e H202 (Eiras, 1991). A investigao desse mesmo sistema por meio de fatoriais fracionrios foi discutida no Captulo 4. No exemplo que vamos apresentar agora os pesquisadores estudaram uma outra regio da superfcie de resposta. As coordenadas dos vrtices de todos os simplexes construdos nessa investigao e os valores das respostas analticas correspondentes so apresentados na Tabela 8.2. Como os fatores estudados so trs (as concentraes de H2S04, KI e H202), o simplex um tetraedro. Acompanhar graficamente o seu deslocamento complicado, mas os valores das concentraes correspondentes a cada vrtice so facilmente calculados por meio das Equaes 8.1- 8.5.

o primeiro simplex definido pelos vrtices 1 -

4. Destes, o que apresenta a menor

resposta o vrtice 1. Como estamos querendo aumentar o valor do sinal, esta tambm a pior resposta, e portanto o vrtice 1 deve ser descartado. Devemos refleti-lo no ponto central da face oposta, que dado por
P = 1/3 (B + N + I),

(8.6)

onde B e N tm o seu significado usual e I representa o vrtice restante. Substituindo os valores numricos apropriados podemos escrever

0,3200] [0'3200] [0,3200]} [0'3200] P = 1/3 0,0400 + 0,0300 + 0,0300 = 0,0333. {[ 0,0040 0,0040 0,0050 0,0043

362

o novo vrtice, R, ser obtido refletindo-se o vrtice 1 (que nesse caso o vrtice W) no ponto
P . Aplicando a Equao 8.2a temos

0,3200] {[0'3200] [0'4200]} [0'2200] R = 0,0333 + 0,0333 - 0,0300 = 0,0366. [


~0043 ~0043 ~0040 ~0046

Exerccio 8.7

Calcule as concentraes de H2S04, KI e H202 correspondentes ao vrtice 8, que o resultado de uma expanso do simplex formado pelos vrtices 2, 3, 5 e 6 na Tabela 8.2.

Exerccio 8.8

Calcule a concentrao de H2S04 no vrtice 15, que obtido por reflexo a partir do simplex formado pelos vrtices 8, 9, 11 e 14 na Tabela 8.2.

o resultado do Exerccio 8.8 um exemplo de violao dos limites aceitveis para as


condies experimentais. claro que no se pode preparar uma soluo com uma concentrao negativa de cido sulfrico, e portanto no possvel executar um experimento nas condies especificadas pelo vrtice 15. Assim sendo, atribumos arbitrariamente um valor ruim para a resposta nesse vrtice. Isso far com que o simplex se afaste dele e retorne regio experimentalmente permitida.

Exerccio 8.9

Calcule as concentraes de H2S04, KI e H202 correspondentes ao vrtice 16, partindo do simplex formado pelos vrtices 8, 11, 14 e 15 na Tabela 8.2.

Um dos simplexes da Tabela 8.2 foi obtido de uma forma que ainda no discutimos. O vrtice 20 foi o resultado de uma contrao com mudana de direo. Esta, por sua vez, foi conseqncia de uma reflexo malsucedida, que havia produzido um ponto experimentalmente invivel (o vrtice 19). Ocorre, no entanto, que o vrtice 20 apresenta uma resposta pior que as respostas do simplex anterior. Em outras palavras, nem a reflexo nem a contrao na direo oposta tiveram xito. Nessa situao o procedimento indicado uma drstica contrao do simplex na direo do vrtice que apresenta a melhor resposta. Esse movimento, que chamado de contrao macia, ilustrado na Figura 8.7 para um simplex triangular. Nessa figura o vrtice T, que obtido a partir do simplex BNW por meio de uma contrao com mudana de direo, apresenta uma resposta inferior pior resposta do simplex anterior, que a do ponto W. Isso sugere que para obter uma resposta otimizada

363

Otimizao shnpiex

Tabela 8.2 Aplicao do simplex modificado otimizao da determinao de Mo(VI) em funo das concentraes de H202, KI e H2S04. A resposta observada, que deve ser maximizada, representada por M.
Vrtice 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21** 22 23 24 25 26 27 28 29 30
b

Movimento a Vs. Retidos

CH2S04

CKI
0,0300 0,0400 0,0300 0,0300 0,0366 0,0411 0,0485 0,0578 0,0559 0,0614 0,0767 0,0951 0,0655 0,0676 0,0788 0,0617 0,0795 0,0903 0,0948 0,0699 0,0835 0,0790 0,0760 0,0800 0,0902 0,0796 0,0859 0,0915 0,0884 0,0968

C H202

M
0,183 0,314 0,236 0,198 0,253 0,307 0,352 0,372 0,353 0,341 0,457 0,370 0,523 0,528 0,426 0,542 0,595 0,421 0,479 0,517 0,481 0,516 0,116 0,531 0,550 0,527 0,560 0,503

0,4200 0,3200 0,3200 0,3200 R R R 2,3,4 2,3,5 2,5,6 2,5,6 2,6,8 2,8,9 8,9,10 8,9,10 8,9,11 8,9,11 8,11,14 8,11,14 11,14,16 11,14,16 11,14,18 11,14,18 0,2200 0,2533 0,2089 0,1533 0,2644 0,2385 0,1175 0,0162 0,1183 0,0582 - 0,0451* 0,1870 0,0885 0,0561 - 0,0325* 0,1321 0,0868 0,0572 0,1216

0,0040 0,0040 0,0050 0,0040 0,0046 0,0051 0,0042 0,0038 0,0039 0,0027 0,0029 0,0024 0,0044 0,0052 0,0041 0,0040 0,0042 0,0044 0,0044 0,0040 0,0037 0,0048 0,0042 0,0052 0,0054 0,0045 0,0039 0,0037 0,0040 0,0037

E
R R R

E
R

E
R
C

E R
CMD

R R
CMD

18,22,23 18,22,24 18,22,24 18,22,26 18,26,27 18,26,27 18,27,29

0,0698 0,0005 0,0913 0,0666 0,0855 0,0784 0,0427

R
R
C

a Movimentos do simplex: R = Reflexo; E Mudana de Direo. b 01- 04: Vrtices do simplex inicial.

= Expanso;

C = Contrao; CMD

= Contrao

com

* Como a concentrao do cido negativa, a resposta nesse vrtice foi considerada o pior resultado. ** 21 - 23: Contrao macia mantendo o vrtice 18.
364

devemos investigar melhor a regio do ponto B, o que se pode fazer por meio de uma contrao macia. Nesse tipo de movimento apenas o vrtice com a melhor resposta (B) mantido. Os demais (N e W, em nosso exemplo) so substitudos por pontos localizados no meio das arestas que os ligam ao vrtice B. O novo simplex passa a ser ento o tringulo BX'Y'. Na Tabela 8.2, como o simplex um tetraedro, ser necessrio descartar trs vrtices. O vrtice 18, que o melhor dos quatro, mantido, e os vrtices 11, 14 e 16 so substitudos. O novo simplex passa a ser formado pelos vrtices 18,21,22 e 23, e a otimizao prossegue.

X'
,,

,
I

~,

T ,
,

Y'

,,

,,

,,

,,

,,

N
Figura 8.7 Contrao macia de um simplex triangular. A resposta no ponto T pior que a resposta no ponto W. O novo simplex BX'Y'.

Exerccio 8.10 Calcule as coordenadas dos vrtices 21, 22 e 23, resultantes de uma contrao macia do simplex formado pelos vrtices 11, 14, 16 e 18 na Tabela 8.2.

Na continuao do processo de otimizao da Tabela 8.2 podemos notar que o vrtice 18 mantido em todos os simplexes construdos depois da contrao macia. Em outras palavras, o simplex permanece ancorado nesse ponto, e passa a descrever um movimento circular ao seu redor, indicando que chegamos a uma regio de mximo. Nesse ponto, para melhor determinar o mximo seria conveniente abandonar o mtodo simplex e mapear a regio em torno do vrtice 18, empregando a metodologia de superfcies de resposta, que discutimos no Captulo 5.

365

Otimizao simpiex

8.3 O simplex supermodificado


No algoritmo modificado o simplex inicial BNW pode ser submetido a cinco diferentes operaes: reflexo, expanso, contrao, contrao com mudana de direo e contrao macia. No simplex supermodificado (Routh, Swartz e Denton, 1977) esse leque de opes ampliado. As Equaes 8.2 - 8.5, que governam o movimento do simplex modificado, podem ser consideradas casos especiais de uma s, (8.7) onde Y representa o novo vrtice, cuja localizao depende do valor do parmetro a. Quando

a igual a 1, 2, 0,5 e -0,5, o vrtice Y corresponde respectivamente aos vrtices

S, U e T

das Equaes 8.2 - 8.5 e da Figura 8.4. Na seo anterior salientamos que outros valores de

a poderiam ser utilizados, embora estes fossem os mais corriqueiros. O valor ideal, isto ,
aquele que nos leva mais depressa para perto do ponto desejado, depende de vrios fatores, como a forma da superfcie, o tamanho do simplex e a extenso do erro experimental. No simplex supermodificado isso levado em considerao e o valor de a estimado de acordo com as caractersticas da superfcie estudada. O deslocamento do simplex torna-se assim mais eficiente. Em compensao, a determinao de cada novo simplex requer a realizao de mais experimentos do que no caso do algoritmo modificado. Para discutir o algoritmo supermodificado conveniente fazer uma pequena modificao na Equao 8.7, substituindo o parmetro a por equao se torna (8.8) Fazendo J3 = 2, 3, 1,5 e 0,5, respectivamente, obtemos os pontos
~

(J3 - 1). Com isso e um pequeno rearranjo a

S, U e T, que podem ser

dispostos ao longo de um eixo, como mostra a Figura 8.8. Para discutir a aplicao do simplex supermodificado vamos imaginar que as respostas determinadas nos vrtices W e R se apresentem como na Figura 8.8(a). No mtodo modificado o deslocamento indicado nesse caso seria uma expanso, que levaria realizao de um experimento no ponto S. Suponhamos agora que a superfcie de resposta nessa regio seja descrita pela curva mostrada na Figura 8.8(b), que apresenta um mximo entre os pontos W e R bvio, nesse caso, que o ponto S (isto , um valor de

J3 igual a 3), seria uma escolha infeliz. Um valor de

J3 menor, ao

redor de 1,3, teria produzido a melhor resposta. Estas sbias consideraes, infelizmente, s podem ser feitas a posteriori, depois que a resposta no ponto S tiver sido determinada, ou

366

ento se conhecermos de antemo a superfcie de resposta, caso em que no precisaramos mais realizar experimento algum. Para evitar situaes como a apresentada na Figura S.S(b) o simplex supermodificado estabelece a realizao do novo experimento no no ponto 8, mas no ponto intermedirio P . Com as respostas nos trs pontos W, P e R (correspondentes a mos ento a resposta a um polinmio do segundo grau em o valor timo de
A

= 0,1 e 2) ajusta-

~.

Derivando essa funo obtemos

~,

que dado pela expresso

Popt

R w -Rp +05 ' RR -2R p +R w

(S.9)

onde R w , R p e RR so as respostas determinadas nos pontos W, P e R, respectivamente. O novo simplex ser formado pelos vrtices B, N e Z, onde (S.10)
(a)

~ o 3 Q.
~

2
1

a::

O
W T

1 2
U R

-----------------~

O '----+----+--+-----+--~

3
S

fi

r>

(b)

(c)

eu

~ 3 Q.
lI:

~2

mcl 0:V

ctS~4 ... a: ~ + 3 o..

-----~

: (3opt

.... IN 1

o w

2
R

fi

3 S

o w

2
R

fi

3 S

Figura 8.8 O simplex supermodificado. (a) As respostas observadas em W e R indicariam uma expanso no simplex modificado. (b) Com essa superfcie de resposta a expanso no seria o melhor movimento. Um valor de ~ de cerca de 1,3 produziria a maior resposta. (c) Para uma superfcie cncava o vrtice R mantido.

367

Otimizao shnplex.

Exerccio 8.11
Ajuste a equao R

= af32+

bf3 + c aos pontos cujas coordenadas so (0, R w ), (1, R p ) e (2,

R R ). Derive essa equao em relao a


Popt =

p, iguale a derivada a zero e confirme que

RR -4R p +3R w
2R R -4R p +2R w

Mostre que essa expresso equivalente Equao 8.9.

Aplicando a Equao 8.9 curva mostrada na Figura 8.8(b), onde R w = 2,0, R p = 3,2 e RR
= 3,0, obtemos ~oPt = 1,36 e portanto

Z =1,36P - 0,36W . A curvatura da superfcie de resposta pode ser determinada comparando-se a resposta observada no ponto P com a mdia das respostas dos pontos W e R Se por acaso

R p < !(Rw +RR)' a superfcie cncava, como na Figura 8.8(c). Obviamente, num caso
2

destes, no interessante continuarmos investigando a regio situada entre W e R, e o ponto


R mantido como o novo vrtice.

nmero de valores possveis para

Bopt Bopt

infinito. Algumas faixas de valores, no caia numa dessas faixas, que so ilustra-

entanto, so inconvenientes. Caso o valor de

das na Figura 8.9, ele descartado e o novo vrtice passa a ser definido pelas regras a seguir. 1. Valores de
Bopt

inferiores a -1 ou superiores a 3 representariam extrapolaes do

simplex maiores do que se obteria com o algoritmo modificado, e isso considerado excessivo. Nesse caso adota-se a expanso (ou contrao) determinada pelo simplex modificado. 2. Valores de
~oPt

prximos de zero devem ser evitados, porque resultariam num novo

simplex muito parecido com o original. Normalmente se define uma margem de segurana,
S 13

' e caso Bopt caia no intervalo (- S 13'

f3) o seu valor substitudo por

Sf3 ou -sf3 . Tipicamente, o valor de sf3 fica entre

e 0,5.

3.

Se o valor de

Bopt

for exatamente igual a 1 o simplex perde uma dimenso. O novo

ponto Z na Equao 8.10 coincide com o ponto P , e a reflexo no pode ser efetuada. Valores de ~oPt prximos de 1, portanto, tambm devem ser evitados. Se (l-sf3):::;

368

~oPt ~

(1 + S f3)'

o valor de ~oPt substitudo pelo limite mais prximo,

(1- S f3)

ou

~+sf3).

-1

Figura 8.9 Intervalos proibidos para os valores de

~.

Nos casos de violao dos limites experimentais estabelecidos para as variveis estudadas, a escolha do novo simplex supermodificado mais complicada do que nos outros algoritmos, porque a resposta no vrtice R (que pode ser impossvel de determinar) necessria para o clculo de
~opt.

O leitor poder descobrir como tratar esse problema em Mor-

gan, Burton e Nickless (1990). A maior desvantagem do simplex supermodificado que a definio de cada novo simplex requer um experimento a mais, feito no ponto P. Alguns pesquisadores tm preferido evitar esse esforo adicional, usando a mdia das respostas em todos os vrtices do simplex (exceto W) como uma estimativa da resposta em P. Essa variante do algoritmo supermodificado j foi testada em vrias superfcies de resposta (Brown, 1990).

369

Referncias bibliogrficas

ANDRADE, J.

c.; EIRAS, s. P. e BRUNS, R. E. Study ofthe Mo(VI) catalytic response in the oxidation

of iodide by hydrogen peroxide using a monosegmented continuous flow system. Anal. Chim. Acta 255, 1991,pp. 149-155. ANDRADE, V. S.; NETO, B. B; SOUZA, W. e CAMPOS-TAKAKI, G. M. A factorial design analysis of chitin production by Cunninghamella elegans. Cano J. Microbiol. 46, 2000, pp. 5-12. ANSCOMBE, F. J. Graphs in statistical analysis. Amer. Stat. 27, 1973, pp. 17-21. AZEVEDO, A. L. M. S.; NETO, B. B.; SCARMINIO, L S.; OLIVEIRA, A. E. e BRUNS, R. E. A chemometric analysis of ab initio vibrational frequencies and infrared intensities of methyl fluoride, J. Comp. Chem. 17, 1996, pp. 167-177. BARNETT, V. e LEWIS, T. Outliers in statistical data, 2nd edition. New York, Wiley, 1984. BHOTE, K. R. Qualidade de classe mundial. Rio de Janeiro, Qualitymark, 1996. BOX, G. E. P. The exploration and exploitation of response surfaces: some considerations and examples. Biometrics 10, 1954, pp. 16-60. _____. Evolutionary operation: a method for increasing industrial productivity. Appl. Statist. 6, 1957, pp. 3-23. BOX, G. E. P. e DRAPER, N. R. Evolutionary operation: a statistical method for process improvement. New York, Wiley, 1969.

_____. Empirical model-building and response surfaces. New York, Wiley, 1987.
BOX, G. E. P.; HUNTER, W. G. e HUNTER, J. S. Statistics for experimenters: an introduction to

design, data analysis and model building. New York, Wiley, 1978.
BOX, G. E. P. e WETZ, J. Criteria for judging adequacy of estimation by an approximate response function. University ofWisconsin Technical Report 9, 1973. BOX, G. E. P. e WILSON, K. B. On the experimental attainment of optimum conditions. J. Royal

Statist. Soc. B13, 1951, pp. 1-38.


BOX, G. E. P. e YOULE, P. V. The exploration and exploitation ofresponse surfaces: an example ofthe link between the fitted surface and the basic mechanism of the system. Biometrics 11, 1955, pp. 287-323. BRAGA NETO, J. A. Desenvolvimento de produto alimentar assistido por computador: uma sistematizao interativa pela aplicao combinada de mtodos para planejamento, modelagem, anlise e otimizao na formulao de pudim. Tese de doutorado, Departamento de Tecnologia de Alimentos e Medicamentos, Universidade Estadual de Londrina, 1998.

371

Referncias bibliogrficas

BREYFOGLE 111, F. W. Implementing six sigma: smarter solutions using statistical methods. New York, Wiley, 1998. BRUNHARA-SALUM, S. S. Otimizao do processo de extrao de colesterol do leo de manteiga utilizando extrato de Quilaia saponaria. Tese de mestrado, Faculdade de Engenharia Qumica, Universidade Estadual de Campinas, 1997. BROWN, S. D. Chemometrics. Anal. Chem. 62, 1990, 84R. BRUNS, R. E.; ANDRADE, J. C.; REIS, C. e NAKAI, D. Is statisticallack offit a reliable criterion for chemical complexity? Chemom. Intell. Lab. Systems 19, 1993, pp. 159-166. BURTON, K. W. C. e NICKLESS, G. Optimization via simplex, part 1. Background, definitions and a simpIe application. Chemom. Intell. Lab. Systems 1, 1987, pp. 135-149. CAVALCANTE, R. M. Estudo de bioequivalncia de comprimidos de lamivudina. Dissertao de mestrado, Departamento de Cincias Farmacuticas, Universidade Federal de Pernambuco, 1999. CESTARI, A. R.; BRUNS, R. E. e AIROLDI, C. A fractional factorial design applied to organofunctionalized silicas for adsorption optimization. Colloids and Surfaces A: Physicochem. Eng. Aspects 117, 1996, pp. 7-13. CORNELL, J. A. How to apply response surface methodology, em The ASQC basic references in

quality control: statistical techniques. Shapiro, S. S., e Mykytka E. F. (eds.), American Society for Quality Control, Milwaukee, WI, EUA, 1990a. _____. Experiments with mixtures: designs, models and the analysis of mixture data, 2nd edition. New York, Wiley, 1990b.
_____. How to run mixture experiments for product quality, em The ASQC basic references in

quality control: statistical techniques. Shapiro, S. S. e Mykytka, E. F. (eds.), American Society for Quality Control, Milwaukee, WI, EUA, 1990c.
COSTA, R. A.; HATTORI, R. S.; REDONDO, E. G.; BRUNS, R. E. e SCARMINIO, I. S. Optimization of EPDM compounds for resistant insulators to electrical tracking. Proceedings of the 3rd

International Conference on Properties and Applications ofDielectric Materials, 1991, pp. 300-304.
DEMING, S. N. Experimental designs: response surfaces, em Chemometrics, mathematics and

statistics in chemistry. Kowalski, B. R. (ed.), Dordrecht, Reidel, 1981.


DERRINGER, G. e SUICH, R. Simultaneous optimization of several response variables. J. Qual. Technol. 12, 1980, pp. 214-219. DESCARTES, R. Discours de la mthode de bien conduire sa raison et chercher la vrit dans les

sciences; plus la dioptrique, les mtores et la geomtrie, qui sont des essais de cette mthode. Leyden, 1637. Existem diversas tradues em portugus, uma das quais publicada na conhecida coleo Os Pensadores (So Paulo, Abril Cultura!). Os textos citados foram traduzidos pelos prprios autores.
DUDEWICZ, E. J. e MISHRA, S. N. Modern mathematical statistics. New York, Wiley, 1985. EIRAS, S. P. Determinao cataltica de molibdnio em plantas usando anlise em fluxo contnuo monossegmentado com deteco espectrofotomtrica. Tese de doutorado, Instituto de Qumica, Universidade Estadual de Campinas, 1991.

372

Referncias bibhogrficas

GEYER, A. L. M.; MOREIRA, J. C.; FAIGLE, J. F.; BRUNS, R. E. e CURTIUS, A. J. Local and temporal variations in essential elements and agar of the marine algae Pterocladia capillacea.

Hydrobiologia 194, 1990, pp 143-148.


GOUPY, J. Plans d'expriences pour surfaces de rponse. Paris, Dunod, 1999. GOUPY, J. Plans d'xpriences: les mlanges. Paris, Dunod, 2000. ISHIKAWA, K. What is total quality control? Englewood Cliffs, Prentice-Halll, 1985. LOPES, L. Separao e pr-concentrao de cdmio, chumbo, cobre, niquel e zinco usando extrao em fase slida com ditizona e naftaleno coprecipitados, Dissertao de mestrado, Instituto de Qumica, Universidade Federal de Bahia, 1999. MATHIAS, A.; SCARMINIO, I. S. e BRUNS, R. E. Planejamento fatorial 23 aplicado decomposio do oxalato de clcio monohidratado e da celulose usando termogravimetria. 22 Reunio Anual da

Sociedade Brasileira de Qumica, Poos de Caldas, MG, 1999, QA109.


MONTGOMERY, D. C. Design and analysis of experiments, 4th edition. New York, Wiley, 1997. MONTGOMERY, D. C. Introduction to statistical quality control, 3rd edition. New York, Wiley, 1997. MONTGOMERY, D. C. e RUNGER, G. C. Applied statistics and probability for engineers, 2nd edition. New York, Wiley, 1999. MORGAN, E.; BURTON, K. W. C. e NICKLESS, G. Optimization using the super-modified simplex method. Chemom. Intell. Lab. Systems 8, 1990, pp. 97-107. MYERS, R. H. e MONTGOMERY, D. C. Response surface methodology: process and product optimization using designed experiments. New York, Wiley, 1995. NELDER, J. A. e MEAD, R. A simplex method for function minimization. Computer J. 7, 1965, pp. 308-312. NEVES, C. F. C. Desenvolvimento de uma instalao de separao de gases por adsoro e modelagem do processo. Tese de doutorado, Faculdade de Engenharia Qumica, Universidade Estadual de Campinas, 2000. OAKLAND, J. S. e FOLLOWELL, R. F. Statistical process controlo Oxford, Butterworth-Heinemann, 1990. PEARSON, E. S. e WISHART, J. (eds.) Student's collected papers. London, University College, Biometrika Office, 1943. PIMENTEL, M. F. e NETO, B. B. Calibrao: uma reviso para qumicos analticos. Qumica Nova 19, 1996, pp. 268-275. PLACKETT, R. L. e BURMAN, J. P. The design of optimum multifactorial experiments. Biometrika 33, 1946, pp. 305-325, 328-332. REIS, C.; ANDRADE, J. C.; BRUNS, R. E. e MORAN, R. C. C. P. Application of the split-plot experimental design for the optimization of a catalytic procedure for the determination of Cr(VI). Anal. Chim. Acta 369, 1998, pp. 269-279.

373

Referncias bibliogrficas

RIBEIRO, R. L. V.; GRESPAN, C. B.; COLLINS, C. H.; COLLINS, K. E. e BRUNS, R. E. Optimization through factorial planning of the use of ethanol:water as a mobile phase for reversed phase HPLC, J. High Resol. Chromatogr. 22, 1999, pp. 52-54. ROCHA, R. F.; ROSATTO, S. S.; BRUNS, R. E. e KUBOTA, L. T. Factorial design optimization of redox properties of methylene blue adsorbed on a modified silica gel surface. J. Eleetroanal. Che m. 433, 1997,pp. 73-76. RONCONI, C. M. e PEREIRA, E. C. Electrocatalytic properties of Titri02 electrodes prepared by the Pechini method. J. Appl. Eleetroehem., 31,2001, pp. 319-323. RORABACHER, D. B. Statistical treatment for rejection of deviant values: criticaI values of Dixon's "Q" parameter and related subrange ratios at the 95% confidence leveI. Anal. Chem. 63, 1991, pp. 139-146. ROUTH, M. W.; SWARTZ, P. A. e DENTON, M. B. Performance ofthe super modified simplex. Anal. Chem. 49, 1977, pp. 1422-1428. RUBO, A. N. Obteno de filmes polimricos por calandragem a partir de poliisobutileno, polietileno e cera parafnica. Tese de mestrado, Instituto de Qumica, Universidade Estadual de Campinas, 1991. SCARMINIO, I. S.; CAMARA, C. A. P. da; ANDRADE, S. R. C. e POPPI, R. J. Desenvolvimento de programas computacionais para anlise da composio qumica de misturas. VII Encontro Nacional de Qumica Analtica, Rio de Janeiro, R. J.; Livro de resumos, 86 (1993). SILVA, G. G.; MARZANA, B. E. e BRUNS, R. E. A statistically designed study of ternary electrolyte polymer material (PEO/LiCI04fethylene carbonate). J. Mater. Sei. 35,2000, pp. 4721-4728. SIMONI, J. A. Qumica Geral-Manual de Laboratrio, Instituto de Qumica, Universidade Estadual de Campinas, 1998. SIQUEIRA, D. F.; BRUNS, R. E. e NUNES, S. P. Optimization of polymer blends using statistical mixture analysis. Polym. Networks Blends 3, 1993, pp. 63-69. SKOOG, D. A.; WEST, D. M. e HOLLER, F. J. Fundamentals of analytical ehemistry. Philadelphia, Saunders College Publishing, 1996. SPENDLEY, W.; HEXT, G. R. e HIMSWORTH, F. R. Sequential application of simplex designs in optimization and evolutionary operation. Teehnometrics 4, 1962, pp. 441-461.

STATI8TICA for Windows. StatSoft, Inc. 2300 East 14th Street, Tulsa, OK, 74104, USA, 1998.
VASCONCELOS, A. F.; BARBOSA, A. M.; DEKKER, R. F. H.; SCARMINIO, I. S. e RESENDE, M. I. Optimization of laccase production by Botryosphaeria sp. in the presence ofveratryl alcohol by the response-surface method. Proeess Bioehemistry 35, 2000, pp. 1131-1138. VIEIRA, S. Estatstica para a qualidade. Rio de Janeiro, Campus, 1999. WU, C. F. J. e HAMADA, M. Experiments: planning, analysis and parameter design optimization. New York, Wiley, 2000.

374

Respostas aos exerccios

Captulo 2
2.1 2.2
Ns j fizemos isso. Agora a sua vez. Para ns no vale. J sabemos que est por volta de 5.000. Infinita. Os valores possveis correspondem a um intervalo (indeterminado) no eIXO dos nmeros reais.

2.3

2.4

Voc tem duas opes: (a) Somar as freqncias dos intervalos correspondentes e (b) Somar os nmeros de caroos nesses intervalos e dividir pelo nmero total, 140. Os resultados so 54,3% e 54,28%. A diferena devida aos erros de arredondamento.

2.5 2.6
2.7

Sugerimos intervalos com largura 0,1%.

x = 0,1887; s = 0,0423. x = 3,8; s = 0,15. Os limites so 3,50% e 4,10%. Voc acredita em coincidncia?
x

2.8 2.9

= J1 + Z(J = 3,80 + 2,5 x 0,15 = 4,18 .

(a) 73,24%; (b) (0,1313, 0,2735); (c) 52,6%) de probabilidade, admitindo-se 5.000 caroos/kg e interpolando-se entre os valores mais prximos na Tabela A.1.

2.10 2.11 2.12

(a) O; (b) 50%; (c) 15,87%; (d) 84,13%; (e) 100%. Para o aspecto da curva, veja a Figura 3.7. (2.955, 5.098). (a) r(x,
y)

= 0,

porque para cada valor positivo de x h um valor de mesmo mdulo, porm


(x, y)

negativo, com a mesma ordenada. Os produtos desses pares

tm o mesmo mdulo, mas

sinais contrrios. Quando eles forem combinados no coeficiente de correlao, se anularo dois a dois. (b) Qualquer funo par, isto , que satisfaa f(x)
y =x 4
.

= fi-x).

Por exemplo: y

= cos

x,

375

Respostas aos exerck:ios

2.13

Cov(x,y)

= 0,00167; r(x,y) = 0,9864.

2.14

Aplicando a Equao 2.11, temos (a) s; =sr +s~ +2(1)(-1)SlS2(1)=sr +s~ -2s 1s 2 , (b) s; =sr +s~ +2(1)(-1)SlS2(0) =sr +s~. Como as varincias so iguais a 1, temos (a) s;
(b)

s;

= 2.

2.15 2.16 2.17

De 4.798 a 5.092, com 95% de confiana. De 3.858 a 7.429. (4.796, 5.094). Esses valores so praticamente idnticos aos do Exerccio 2.15, porque o nmero de graus de liberdade muito grande.

2.18

Os valores da ltima linha da Tabela A.2 so os valores da distribuio normal padronizada


(z) correspondentes s reas de cauda direita 0,4, 0,25, 0,1, 0,05, 0,025, 0,01, 0,005, 0,0025,

0,001 e 0,0005.

2.19

No verdade. Apenas a transformao de peso para nmero de caroos no linear. O peso entra no denominador, numa frao de numerador constante, o que faz a mesma faixa de variao de pesos, quando centrada num valor menor, produzir uma maior variao no nmero de caroos.

2.20 2.21

Usando a Equao 2.17, obtemos 0,00064 < 0"2 < 0,01757, e da 0,0253 < O" < 0,1326..

O intervalo de 95% de confiana 3,527% < J1 < 4,307% . Como ele no inclui o valor 4,45%,
podemos rejeitar a hiptese nula e concluir que o teor de cido no lote inferior ao teor mnimo exigido.

2.22

O intervalo de confiana 13,65% < J1 < 14,20% , e no inclui o valor verdadeiro, 14,3%. Isto
uma evidncia de que as quatro determinaes no vm de uma distribuio com mdia 14,3%. Em outras palavras, rejeitamos a hiptese nula neste nvel de confiana e conclumos que a nova metodologia no tem a exatido necessria.

2.23

z: J 1,9~; J
=[

0,5

= 24,01 . Logo, precisamos de pelo menos 25 determinaes.

376

2.24

O intervalo definido por

x [ .iN-} .Como queremos que ele seja igual a x 0,58 , devemos

procurar na Tabela A.2, na coluna correspondente a 95% de confiana, um nmero de caroos tal que

.iN

= 0,5 . O valor inteiro mais prximo de satisfazer essa condio

N = 18 (v = 17).

2.25

O intervalo de 95% de confiana para a diferena entre as duas mdias (- 3,74, -1,00), no
incluindo o valor zero. Podemos rejeitar a hiptese nula e concluir que existe uma diferena sistemtica entre os resultados obtidos com a correo e sem a correo da linha de base.

2.26

Usamos a Equao 2.29, substituindo ~ pelo valor de referncia e desvio padro amostrais. Depois comparamos o valor de

d e

Sd

pela mdia e pelo

i com o valor tabelado, no nvel de

confiana desejado. Se o valor calculado for maior que o tabelado, rejeitaremos a hiptese nula e concluiremos que a amostra incompatvel com o valor de referncia. 1-237-01 l'021 = 4,02 . Este valor corresponde aproximadamente ao nvel de 94%.

2.27

J3

Captulo 3
3.1
Pense. (2 nveis da temperatura) x (2 nveis do catalisador) x (3 nveis da presso) = 12 ensaios.

3.2

3.4

Como N -1 = 1 e

x = (Xl + x2 ) , podemos escrever


2

=-+-=-

d2
4

d2
4

d2

2'

Como

vl

= v2 =... = vN = 1 , a expresso se reduz a

377

Respostas aos exercicios

= L. d?
1,

. 2N

3.5

Qualquer efeito sempre dado por uma diferena observaes. Podemos escrever ento
2 2 _ _ 2 _. 2 _ (}2 (}2

CY+ - y_), onde cada mdia contm

N 2

4(}2

eJefeito=eJ (Y+-Y_)=eJ (Y+)+eJ (Y-)=(N/2t(N/2)=N'

que quatro vezes a varincia da mdia,


eJefeito =

!!-. Tirando a raiz quadrada, temos finalmente


N

JN = 2eJy '
8 2

2()

3.6

Aplicando a Equao 3.5, obtemos liberdade no total.

= 7,99

e portanto s = 2,83, com vT

= 8 graus de

3.7

= -1,60, A = -2,11 e GA = 0,52. O erro padro de um efeito 0,22, o que torna a interao

GA no significativa, no nvel de 95%. Os efeitos principais mostram que o tempo de pega

diminui 1,6 minutos quando se usa a granulometria mais fina (150-200 mesh) e tambm diminui 2,11 minutos quando se aumenta a gua residual para 7,5%. 1 1 1 1 -- -2 2 2 67,75 1 1 1 1 - -- -2 2 2 x 22,50 A-I e= 1 1 1 -13,50 1 -- -2 2 2 -8,50 1 1 1 1 2 2 2

3.8

59 90 54 68

1 67,75 1 -1 -1 1 1 -1 -1 11,25 x Xb= 1 -1 -6,75 1 -1 -4,25 1 1 1 1

59 90 54 68

As duas primeiras colunas de A-I e X so idnticas. As outras s diferem pelo fator tambm o responsvel pela diferena entre os vetores e e b. Efeito 12(-) = .!- (54,0 - 86,5 - 48,0 + 63,0)
2

.!-, que
2

3.9

Nvel (-) do fator 3: Nvel (+) do fator 3:

= -8,75

Efeito 12(+) =

.!2

(63,0 - 93,5 - 58,5 + 72,0) = -8,50


-2 [12(+) . -12(-)] . =2 (-8,50 + 8,75) = 0,125

Interao do fator 3 com a Interao 12:

Nvel (-) do fator 1: Nvel (+) do fator 1:

Efeito 23(-) = Efeito 23(+)

.!2
2

(54,0 - 48,0 - 63,0 + 58,5) = 0,75 (86,5 - 63,0 - 93,5 + 72,0)

= .!-

= 1,0

378

Respostas aos exercicios

Interao do fator 1 com a interao 23:

1 -2 [23(+) . . - 23(-)]

1 =2 (1,0 -

0,75)

= 0,125 .

Os valores finais so idnticos ao valor da interao 123 dado no texto.


2 2

3.10

Vefeito=V(y+-y-)=V(y+)+V(y-)

= ~/2 + ~/2

Para um fatorial 23 sem repeties N

= 8 e portanto Vefeito = -8

+- = - . 4 4 2

3.11

t = 3,87, C = 12,36, P

= -2,17, tC = 2,54, tP = -0,02, CP = 0,47 e tCP = 0,07. O erro padro de

um efeito 0,325. Basta comparar a coluna das respostas com a matriz de planejamento para perceber que o padro de oscilao das respostas entre trs e quatro dgitos est associado ao padro de nveis da concentrao.

3.12 3.13

As mesmas da Figura 3.3.


Um contraste entre dois tetraedros. 1 1 1 1 1 1 1 1 -1 1 -1 1 -1 1 -1 1 -1 -1 1 1 -1 -1 1 1 -1 -1 -1 -1 1 1 1 1 1 -1 -1 1 1 -1 -1 1 1 -1 1 -1 -1 1 -1 1 1-1 67,3 1 1 11,4 -1 1 -6,9 -1 -1 4,4 x -1 1 -4,3 -1 -1 1-1 1 1 54,1 85,5 48,9 63,1 62,9 94,3 57,7 71,9 54,0 86,5 48,0 63,0 63,0 93,5 58,5 72,0 54,1 85,5 48,9 63,1 62,9 94,3 57,7 71,9 -0,1 1,0 -0,9 -0,1 0,1 -0,8 0,8 0,1

3.14

y=

y-y =

Os resduos so muito menores que os valores observados, o que indica que o modelo simplificado explica a maior parte da varincia das observaes. Este ponto ser retomado no Captulo 5.

3.16

No nvel de 95% de confiana o valor de t com 5 graus de liberdade 2,571.0 valor limite para a significncia de um efeito ser portanto 0,54 x 2,571 so significativos nesse nvel de confiana.

= 1,39. Apenas os efeitos 1, 2, 3, e

12

3.17 3.18

(a) 50%; (b) 84,1%; (c) 97,5%.

IV

.)

= 3 (- 0,625)2 + (- 0,125)2 + 3 (0,325)2 + 4 (0,8755 )2 = 0425


11 '

\ efelto v=ll

379

Respostas aos exercicios

(Vefeito)V=11

. ) (Vefelto v=5

= - - = 1,459 < F11 5 = 4,71 , com 95% de confiana. 0,291 '

0,425

Logo, as duas estimativas podem ser consideradas da mesma populao.

3.19

Podemos consider-lo como o efeito da mudana do lote de matria prima.

3.20

A interao dada por 23 = .!. 6'1 + Y2 + Y7 + Y8)-.!. 6'3 + Y 4+ Y5 + Y6)' Suponhamos que Tli
4 4 represente os valores populacionais das respostas Yi . No primeiro bloco temos Yi
= l1i ,

para i

= 1,4,6 e
2ei

7. No segundo bloco, Yi =1Ji +h, para i

= 2,

3, 5 e 8. No clculo da interao 23 a

diferena sistemtica h se anular, porque aparecer duas vezes com o sinal positivo (para i =

= 8), e outras duas com o sinal negativo (i = 3 e i = 5).

Captulo 4
4.1
Por exemplo: 2 1 =8

(-52 - 61 + 124 + ... + 289 + 286)

= 109,38.

4.2

1 134 = - (-52 - 86 + ... + 286) 4

= 114,75 = 12

1234 = O dobro da mdia de todas as respostas. A Tabela 4.5 mostra as relaes implcitas em cada contraste. No uma boa idia interpretar esses valores como estimativas dos efeitos 134 e 1234, porque eles esto misturados com efeitos hierarquicamente superiores.

4.3
4.4

16.

4.5

Porque no clculo de 1] o divisor oito, enquanto para os contrastes o divisor quatro.

4.6

li = -2,50;
Efeito i
2

l~ = 104,0;

1 3=57,0;

1: =64,5.
2

= .!(li +lt), para i = 1,2,3 e 4. Por exemplo: 2 = 109,38 = .!(12 +12).


380

~~~~~~-~---~-~-~-~---~~~~~--~--~~~~.

Respost?s aos exercfcios

4.7
4.8

1234 == I] -I;

==

138,87 -147,75 == -8,88.

Os padres de confundimento so os mesmos da Tabela 4.5, obtidos a partir de I = 1234. Os valores calculados para os contrastes so os seguintes:

I]

= 58,13

II
112

= 8,75
= 134
==

12

= -11,25
= 124 ==
6,25

13

= 48,75
= 123 = -8,75

14 ==48,75

-18,75

113

114

Os contrastes correspondentes ao solvente (3) e ao catalisador (4) tm efeitos grandes e positivos (por coincidncia so iguais). Os maiores rendimentos so obtidos quando esses dois fatores esto nos seus nveis superiores. O valor de -18,75 provavelmente pode ser atribudo interao entre os fatores 3 e 4.

4.9

Os efeitos principais esto confundidos com as interaes de quinta ordem. As interaes binrias se confundem com as interaes de quatro fatores.

4.10

Quando t, [KI] e [H202] esto nos nveis superiores, (a) a resposta no influenciada pela mudana dos nveis de [H2S04] e do fluxo ou (b) as variaes produzidas pelas mudanas nos nveis de [H2S04] e do fluxo se cancelam.

4.11

Os primeiros quatro fatores tm os mesmos sinais de um fatorial completo 24 Quando os primeiros quatro fatores esto colocados na ordem padro os sinais do quinto so, de cima para baixo, (- + + - - + + - + - - + + - -+) . As relaes geradoras entre os contrastes e os efeitos so as seguintes:

II

== 1 + 245

12 == 2+145 15 == 3+124

13 == 3 + 12345

14=4+125

112

= 12 +45

113

= 13 + 2345 = 23 + 1345 = 34 + 1235

114 == 14+25 124 == 15 +24 135 == 35 + 1234

115 == 15 +24 125 == 25 + 14 145 == 12 +45

123

134

O efeito principal 3 contaminado por uma interao de quinta ordem, em vez de uma interao de quarta ordem. Em compensao, os outros quatro efeitos provavelmente so estimados com menos preciso, j que esto confundidos com interaes de terceira ordem, e no de quarta como no fatorial de resoluo cinco. As interaes binrias envolvendo o fator 3 esto contaminadas apenas por interaes de quarta ordem. Este fatorial, portanto, privilegia o fator 3 em detrimento dos demais. A menos que haja um bom motivo para isso, no recomendamos o seu uso.

381

Respostas aos exercicios

4.12

(a) s multiplicar o fator 1 pela identidade, I = 1234 = 125 = 345 : lxI = 234 = 25 = 1345

II = 1+25 +234+1345

(b) A mesma coisa, s que com o fator 5: 5xI = 12345 = 12 = 34

l5 == 5 + 12 + 34 + 12345 .

4.13

1 l5 =-(56-66+51-52-54+70-42+64)=6,75 . 4 Com algum esforo, voc pode descobrir que l5 == 5 + 13 + 27 + 46 + 126 + 147 + 234 + 367 + 1245 + 1567 + 2356 + 3457 + 12357 + 13456 + 24567 + 123467 .

4.14

4.15

A nica diferena o lado da quadra. Na Tabela 4.10 o ensaio nQ 4 significa bater saques cortados, com alta freqncia, de dia, num piso de concreto, a partir do lado direito, com camisa e com uma raquete mdia. Na Tabela 4.12 o saque batido do lado esquerdo.

4.16

Multiplicando-se as trs primeiras relaes geradoras do planejamento da Tabela 4.10 pelo fator 8 que, como corresponde identidade, no as afeta. No entanto, todas elas passam agora a ter um nmero par de termos (quatro, no caso), de modo que a troca de todos os sinais deixa o sinal do produto do mesmo jeito.

4.17

II ==1+248+358+237+346+256+678+457.

Captulo 5
5.1 A Equao 5.9 a seguinte: Denominador:

bt = L (xi ~X)~i y) . Desenvolvendo as expresses temos: I i-X

Numerador:

I (xi -X)(Yi -y)= I (xiYi -YXi -x Yi +Xy)= IXiYi -yIXi -XIYi + IXy
=LXiYi -(; )LYiLXi -(; )LXi LYi +nXy =LXiYi -(; )LYiLXi

+(; )LXi LYi = LXi Yi -;(LYi)(LXi).

Colocando as expresses finais de volta na frao, chegamos Equao 5.8:

382

Respostas aos exercicios

5.2

. Xl]x'
n

1 Xl 1 X2
.

=b:~i

LXi]
LX?

1 Xn

. Xl]x
n

Y1 Y2

= LXiYi
Yn

[ LYi ]

5.3

s2 = L (Yi - y)2 = Syy . Portanto,


n-1 n-1

= ~ Syy .
n-1

5.4

(a) No linear; (b) Linear; (c) Linear; (d) Linear; (e) No linear, mas tirando o logaritmo dos dois lados ficamos com um modelo linear.

5.6

4 O XtX= O O

O 4 O O

O O 4 O

O O O 4

1 4

O O O O O O

(Xtxt =

1 O 4

1 O O 4

1 O O O 4

67,75 (XtXr1xty = 11,22 -6,75 -4,25

Os resultados so os valores numricos dos coeficientes da Eq. 3.11.

5.7

L G\ - Y){yi - y) = L [y + b1 (xi -X)- y] [Yi - Yi]= b1 L (xi -X){yi - y)

=~L(xi -X)[Yi - Y-~ (xi -X)]= ~ {L (xi -X)(yi - Y)-~L(xi -xY} = O,


porque os termos entre chaves se anulam pela Equao 5.9.

5.8

383

Respostas aos exercicios

o segundo somatrio no numerador se anula, porque contm uma soma de resduos em torno
da mdia. Lembrando que o denominador o prprio S xx , podemos escrever finalmente

5.9
pelo mesmo motivo do exerccio anterior.

5.10
Fonte de variao Regresso Resduos Falta de ajuste Erro puro Total Soma Quadrtica 0,295146 0,000279 0,000170 0,000109 0,295425 NQ de g.l. 1 10 4 6 11 Mdia Quadrtica 0,295146 0,000028 0,000043 0,000018

% de varincia explicada = 99,906


% de varincia explicvel = 99,963
__ a_u =
MQ~

MQfi'

2,39 . No nvel de 95% de confiana, F46 ,

= 4,53

Concluso: no parece haver falta de ajuste.


2

5.11

= 0,000028

erro padro de bo : 0,00348 erro padro de


~

: 0,00179

Com esses valores e t10

= 2,228

(95% de confiana) o valor de b1 significativo. O de b o , no.

Captulo 6
6.1
Efeito
Xl

(concentrao): -10,5

Efeito X2 (velocidade de agitao): 8,5

384

R.espostas aos exerck:ios

Efeito de interao:

XtX2:

-0,5

Os efeitos principais so o dobro dos coeficientes bl e b2 na regresso, porque bl e b 2 representam mudanas na resposta causadas por variaes unitrias em dos efeitos as mudanas em
Xl xl

X2.

No clculo

x2

so de duas unidades, de -1 a +1. O efeito de interao

pequeno em relao aos efeitos principais. Isso j era de se esperar, porque a superfcie bem representada por um modelo linear.

6.2

V y =0,333
Vefeito =

Sy = 0,58 ;
Sefeito =

2,33

1,53 .

O erro padro da mdia igual ao erro padro de bo , porque bo = Y . O erro padro dos efeitos o dobro do erro padro de bl e b2 porque, como j vimos no exerccio anterior, os efeitos so o dobro dos coeficientes.

6.3

MQR MQr

= 66,4 e F24 = 6,69 no nvel de 95% de confiana. A regresso altamente


'

significativa. Mais uma vez, j devamos esperar por isto, porque todos os coeficientes na Equao 6.3 so significativos.

6.4

t2 =

4,303 , com de 95% de confiana.

s(bo) = 0,57 x 4,303

= 2,45

s(bt) = s(~) = 0,76 x 4,303 = 3,27.


Os intervalos de confiana a 95% so:
bo : (65,55,70,45);

bt : (-1,98, -8,52); ~ : (0,98,7,52).

Como nenhum destes intervalos contm o zero, todos os coeficientes so significativos no nvel de confiana escolhido.

6.5 6.6

G=115gL- I

A=11,4gL- I

T=0,19mgL- I e Y=78,4%.

t4 = 2,776 , no nvel de 95% de confiana. Os intervalos so os seguintes:

Para bo : 85,71 2,776 x 0,49, Para bl


:

ou (84,35, 87,07) ou (+3,05, -0,55) ou (-0,45, -4,05)

1,25 2,776 x 0,65,

Para b2 : 2,25 2,776 x 0,65,

Como o intervalo de bl contm o zero, esse coeficiente no estatisticamente significativo, no nvel de 95% de confiana. Os outros dois so significativos.

385

Respostas aos exen.:icios

6.7

~~~

= 52,2 > F 5 ,5 = 5,05 (95% de confiana).

6.8

(a) Partindo da Equao 6.8 temos


-

ay ay

dXI

1,51-5,62xI +1,75x 2 =

Xl

= -2,36 + 1,75xI - 5,62x2 = O. dX2 Resolvendo este sistema de equaes, chegamos aos valores = 0,152 (ou seja, uma

concentrao de 35,8%) e x2 = -0,374 (velocidade de agitao de 121,3 rpm). (b) Com a Equao 6.3, o resultado seria

dXI

ay

=-0,525*0 e

dX2

dY

=4,25*0.

Ou seja: no existem valores extremos para essa funo. Por que ser?

6.9

Como praticamente no h falta de ajuste no modelo quadrtico, podemos tomar a raiz quadrada da mdia quadrtica residual como uma estimativa do erro padro: Erro padro = JMQr = ~0,028 = 0,167 MPa. Esta uma estimativa com 90 graus de liberdade.

6.10

Com

t73

= 1,99 (95% de confiana) e os erros padro dados na Equao 6.10 calculamos

intervalos de confiana que mostram que so significativos o termo constante, os termos lineares na concentrao e no tamanho das partculas, o termo quadrtico na concentrao e o termo cruzado envolvendo a concentrao e o tamanho da partcula.

Captulo 7
7.1 7.2
Esperamos que sim.

(a) y=bXA +bXB. Substituindo b =14 e b = 6, temos y=14xA +6xB.


(b)

y = 14xO,5 +6xO,5 = 10kmL-I . y = 14 x 0,7 + 6 x 0,3 = 11,6kmL- I .

(c)

7.3

(a) b =14,0; b =6,0; bB =4x12-2(14+6)=8,0. (b) O modelo prev o rendimento

y = (~ )14 + (~ )6 + (~ )(~ )8 = 13,lkmL-1 ,

que est em boa

concordncia com o valor observado.

386

Respostas aos exerccios.

7.4

Coeficientes: b = 1,44; b = 1,71; bB = -0,82. O erro padro de uma observao s = 0,035. Com ele calculam?s os erros padro dos coeficientes: ~b = ~bB = 0,025 e ~b.B = 0,107.

7.5 7.6

Que o valor da resposta no depende da composio da mistura. No nvel de 95% de confiana, com tg = 2,262 , o limite de significncia para o valor absoluto dos termos lineares

2,262 x 0,17 = 0,38 , enquanto

dos

termos

quadrticos

2,262 x 0,75 = 1,70. Os termos com ~~ = 3,10 e ~3 = 9,62 so altamente significativos. O


termo linear em
x2

(b; = 0,45 ) levemente significativo.

7.7

Substituindo na Eq. 7.16

X3

por (l-Xl)

chegamos equaoy = 12,62x l -9,62xf.

Derivando-a e igualando a derivada a zero, obtemos Xl = 0,66 . Da, X3 = 0,34 e portanto


Ymax

= 3,10 x 0,66 + 9,62 x 0,66 x 0,34 = 4,20em.

7.8

(a) Al203. Basta comparar as composies com os valores do trilhamento.


(b)

Yperda de massa = 2,84x l

+ 5, 24x 2 + 3,80X3 -11,44x l X2 - 4,56x l X3 - 4,56x 2X3

7.9

(a) ZJ;23 = 6,0. (b) Erro padro de b;23: 5,41. Como esse erro quase igual ao valor do coeficiente, podemos considerar o termo cbico como no significativo.

7.10

Das equaes 7.16 e 7.20 obtemos

Yquadrtico

= 2,10 em e

Ycbicoespecial

= 3,30 em . A

estimativa do modelo cbico est muito mais prxima do valor observado, 3,50 em.
O O O O O O O O 1 O O O O 1 1 1 O O O O 2 2 4 1 1 1 - O O O O 2 2 4 1 1 1 O - O O O 2 2 4 1 1 1 1 1 1 1 - - - - - - 3 3 3 9 9 9 27
O O O O

7.11

b = X- 1y

/ onde

X=

e yt = [3,10 0,45 0,35 1,70 4,13 0,27 3,50 ]

7.12

(0,333, 0,333, 0,333); (0,567, 0,217, 0,217);

387

Respostas aos exercicios

(0,217, 0,567, 0,217); (0,217, 0,217, 0,567).

Captulo 8
8.1
Regra 2:

wyz, YA'B', A'C'D'.

Regra 3: YZA', A'B'C', A'D'E', ZA'E'; Regra 4: Nos vrtices Ye A'.

8.3

Aplicando a Eq. 8.2a, temos


(a)

D =~(B+C)+[~(B+C)-A] =B+C-A = (68,42); E = ~(C+D)+[~(C+D)-B] =C+D-B = (92,42).

(b)

8.4

Usando a Equao 8.3, temos E =.!. (C + D)+ 2 [.!. (C + D)- B] = ~ (C + D)- 2 B. Substituindo 2 2 2 as coordenadas da Tabela 8.1, chegamos a t = 110 e C = 84.

8.5

O ponto K produzido a partir do simplex FIJ por uma contrao com mudana de direo (Eq. 8.5). Temos portanto K=.!(J+F)-.![.!(J+F)-I]=.!(J+F)+.!.. Com os valores 22242 numricos apropriados, chegamos a t =115,63 e C = 200,82.

8.6

O simplex RIU, produzido por contrao e mudana de direo.

8.7

O simplex de partida o (2,3,5,6), com W=3 e P=.!(2+5+6). A reflexo do vrtice 3 3 produz o vrtice 7. O ponto 8 obtido por expanso, atravs da Eq. 8.3. Os resultados so os da tabela.

8.8

1~ " s aplicar a Eq. 8.2a para chegar a CH2S04 = -0,045 M . W =9 , e P = "3\8+11 +14 ) . E

8.9

CH2S04=0,1870M,CKI=0,0617M eCHO =0,0039M. Use aEq. 8.4, com P= 2 2 3

8+11+14

W=15.
1 2

8.10

21 = - (18 + 11) = (0,0868, 0,0835, 0,0037);

388

Respostas aos exercicios

22

= .! (18 + 14) = (0,0572,


2

0,0790, 0,0048); 0,0760, 0,0042).

23

= .!.. (18 + 16) = (0,1216,


2

8.11

Faa o que o enunciado diz.

389

Tabelas

391

Tabela A.l rea da cauda da distribuio normal padronizada.

z
0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 1,1 1,2 1,3 1,4 1,5 1,6 1,7 1,8 1,9 2,0 2,1 2,2 2,3 2,4 2,5 2,6 2,7 2,8 2,9 3,0 3,1 3,2 3,3 3,4 3,5 3,6 3,7 3,8 3,9

0,00 0,5000 0,4602 0,4207 0,3821 0,3446 0,3085 0,2743 0,2420 0,2119 0,1841 0,1587 0,1357 0,1151 0,0968 0,0808 0,0668 0,0548 0,0446 0,0359 0,0287 0,0228 0,0179 0,0139 0,0107 0,0082 0,0062 0,0047 0,0035 0,0026 0,0019 0,0013 0,0010 0,0007 0,0005 0,0003 0,0002 0,0002 0,0001 0,0001 0,0000

0,01 0,4960 0,4562 0,4168 0,3783 0,3409 0,3050 0,2709 0,2389 0,2090 0,1814 0,1562 0,1335 0,1131 0,0951 0,0793 0,0655 0,0537 0,0436 0,0351 0,0281 0,0222 0,0174 0,0136 0,0104 0,0080 0,0060 0,0045 0,0034 0,0025 0,0018 0,0013 0,0009 0,0007 0,0005 0,0003 0,0002 0,0002 0,0001 0,0001 0,0000

0,02 0,4920 0,4522 0,4129 0,3745 0,3372 0,3015 0,2676 0,2358 0,2061 0,1788 0,1539 0,1314 0,1112 0,0934 0,0778 0,0643 0,0526 0,0427 0,0344 0,0274 0,0217 0,0170 0,0132 0,0102 0,0078 0,0059 0,0044 0,0033 0,0024 0,0018 0,0013 0,0009 0,0006 0,0005 0,0003 0,0002 0,0001 0,0001 0,0001 0,0000

0,03 0,4880 0,4483 0,4090 0,3707 0,3336 0,2981 0,2643 0,2327 0,2033 0,1762 0,1515 0,1292 0,1093 0,0918 0,0764 0,0630 0,0516 0,0418 0,0336 0,0268 0,0212 0,0166 0,0129 0,0099 0,0075 0,0057 0,0043 0,0032 0,0023 0,0017 0,0012 0,0009 0,0006 0,0004 0,0003 0,0002 0,0001 0,0001 0,0001 0,0000

0,04 0,4840 0,4443 0,4052 0,3669 0,3300 0,2946 0,2611 0,2296 0,2005 0,1736 0,1492 0,1271 0,1075 0,0901 0,0749 0,0618 0,0505 0,0409 0,0329 0,0262 0,0207 0,0162 0,0125 0,0096 0,0073 0,0055 0,0041 0,0031 0,0023 0,0016 0,0012 0,0008 0,0006 0,0004 0,0003 0,0002 0,0001 0,0001 0,0001 0,0000

0,05 0,4801 0,4404 0,4013 0,3632 0,3264 0,2912 0,2578 0,2266 0,1977 0,1711 0,1469 0,1251 0,1056 0,0885 0,0735 0,0606 0,0495 0,0401 0,0322 0,0256 0,0202 0,0158 0,0122 0,0094 0,0071 0,0054 0,0040 0,0030 0,0022 0,0016 0,0011 0,0008 0,0006 0,0004 0,0003 0,0002 0,0001 0,0001 0,0001 0,0000

0,06 0,4761 0,4364 0,3974 0,3594 0,3228 0,2877 0,2546 0,2236 0,1949 0,1685 0,1446 0,1230 0,1038 0,0869 0,0721 0,0594 0,0485 0,0392 0,0314 0,0250 0,0197 0,0154 0,0119 0,0091 0,0069 0,0052 0,0039 0,0029 0,0021 0,0015 0,0011 0,0008 0,0006 0,0004 0,0003 0,0002 0,0001 0,0001 0,0001 0,0000

0,07 0,4721 0,4325 0,3936 0,3557 0,3192 0,2843 0,2514 0,2206 0,1922 0,1660 0,1423 0,1210 0,1020 0,0853 0,0708 0,0582 0,0475 0,0384 0,0307 0,0244 0,0192 0,0150 0,0116 0,0089 0,0068 0,0051 0,0038 0,0028 0,0021 0,0015 0,0011 0,0008 0,0005 0,0004 0,0003 0,0002 0,0001 0,0001 0,0001 0,0000

0,08 0,4681 0,4286 0,3897 0,3520 0,3156 0,2810 0,2483 0,2177 0,1894 0,1635 0,1401 0,1190 0,1003 0,0838 0,0694 0,0571 0,0465 0,0375 0,0301 0,0239 0,0188 0,0146 0,0113 0,0087 0,0066 0,0049 0,0037 0,0027 0,0020 0,0014 0,0010 0,0007 0,0005 0,0004 0,0003 0,0002 0,0001 0,0001 0,0001 0,0000

0,09 0,4641 0,4247 0,3859 0,3483 0,3121 0,2776 0,2451 0,2148 0,1867 0,1611 0,1379 0,1170 0,0985 0,0823 0,0681 0,0559 0,0455 0,0367 0,0294 0,0233 0,0183 0,0143 0,0110 0,0084 0,0064 0,0048 0,0036 0,0026 0,0019 0,0014 0,0010 0,0007 0,0005 0,0003 0,0002 0,0002 0,0001 0,0001 0,0001 0,0000

Fonte: Box, G. E. P.; Hunter, W. G., e Hunter, J. S., Statistics for experimenters. An introduction to design, data analysis and model building. Nova York, Wiley, 1978. Reproduzida com autorizao da John Wiley & Sons, Inc.

392

Tabela A.2 Pontos de probabilidade da distribuio t com v graus de liberdade.


rea de probabilidade
v
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 60 120 0,4 0,325 0,289 0,277 0,271 0,267 0,265 0,263 0,262 0,261 0,260 0,260 0,259 0,259 0,258 0,258 0,258 0,257 0,257 0,257 0,257 0,257 0,256 0,256 0,256 0,256 0,256 0,256 0,256 0,256 0,256 0,255 0,254 0,254 0,253 0,25 1,000 0,816 0,765 0,741 0,727 0,718 0,711 0,706 0,703 0,700 0,697 0,695 0,694 0,692 0,691 0,690 0,689 0,688 0,688 0,687 0,686 0,686 0,685 0,685 0,684 0,684 0,684 0,683 0,683 0,683 0,681 0,679 0,677 0,674 0,1 3,078 1,886 1,638 1,533 1,476 1,440 1,415 1,397 1,383 1,372 1,363 1,356 1,350 1,345 1,341 1,337 1,333 1,330 1,328 1,325 1,323 1,321 1,319 1,318 1,316 1,315 1,314 1,313 1,311 1,310 1,303 1,296 1,289 1,282 0,05 6,314 2,920 2,353 2,132 2,015 1,943 1,895 1,860 1,833 1,812 1,796 1,782 1,771 1,761 1,753 1,746 1,740 1,734 1,729 1,725 1,721 1,717 1,714 1,711 1,708 1,706 1,703 1,701 1,699 1,697 1,684 1,671 1,658 1,645 0,025 12,706 4,303 3,182 2,776 2,571 2,447 2,365 2,306 2,262 2,228 2,201 2,179 2,160 2,145 2,131 2,120 2,110 2,101 2,093 2,086 2,080 2,074 2,069 2,064 2,060 2,056 2,052 2,048 2,045 2,042 2,021 2,000 1,980 1,960 0,01 31,821 6,965 4,541 3,747 3,365 3,143 2,998 2,896 2,821 2,764 2,718 2,681 2,650 2,624 2,602 2,583 2,567 2,552 2,539 2,528 2,518 2,508 2,500 2,492 2,485 2,479 2,473 2,467 2,462 2,457 2,423 2,390 2,358 2,326 0,005 63,657 9,925 5,841 4,604 4,032 3,707 3,449 3,355 3,250 3,169 3,106 3,055 3,012 2,977 2,947 2,921 2,898 2,878 2,861 2,845 2,831 2,819 2,807 2,797 2,787 2,779 2,771 2,763 2,756 2,750 2,704 2,660 2,617 2,576 0,0025 127,32 14,089 7,453 5,598 4,773 4,317 4,029 3,833 3,690 3,581 3,497 3,428 3,372 3,326 3,286 3,252 3,222 3,197 3,174 3,153 3,135 3,119 3,104 3,091 3,078 3,067 3,057 3,047 3,038 3,030 2,971 2,915 2,860 2,807 0,001 318,31 22,326 10,213 7,173 5,893 5,208 4,785 4,501 4,297 4,144 4,025 3,930 3,852 3,787 3,733 3,686 3,646 3,610 3,579 3,552 3,527 3,505 3,485 3,467 3,450 3,435 3,421 3,408 3,396 3,385 3,307 3,232 3,160 3,090 0,0005 636,62 31,598 12,924 8,610 6,869 5,959 5,408 5,041 4,781 4,587 4,437 4,318 4,221 4,140 4,073 4,015 3,965 3,922 3,883 3,850 3,819 3,792 3,767 3,745 3,725 3,707 3,690 3,674 3,659 3,646 3,551 3,460 3,373 3,291

Fonte: Box, G. E. P.; Hunter, W. G., e Hunter, J. S., Statistics for experimenters. An introduction to design, data analysis and model building. Nova York, Wiley, 1978. Pearson, E. S. e Hartley, H. O. (eds.), Biometrika tables for statisticians, voI. I, Cambridge University Press (1958). Fisher, R. A. e Yates, F., Statistical tables for Biological, Agricultural and Medical Research, Longman Group Ltd. (1974) - Tabela lI!. Reproduzida com autorizao da John Wiley & Sons, Inc; Biometrika Trustees e Longman Group UK Ltd.

393

Tabela A.3 Pontos de probabilidade da distribuio X2 com v graus de liberdade.


rea de probabilidade
v

X2~

0,995

0,99

0,975

0,95

0,9 0,016

0,75 0,102 0,575 1,21 1,92 2,67 3,45 4,25 5,07 5,90 6,74 7,58 8,44 9,30 10,2 11,0 11,9 12,8 13,7 14,6 15,5 16,3 17,2 18,1 19,0 19,9 20,8 21,7 22,7 23,6 24,5

0,5 0,455 1,39 2,37 3,36 4,35 5,35 6,35 7,34 8,34 9,34 10,3 11,3 12,3 13,3 14,3 15,3 16,3 17,3 18,3 19,3 20,3 21,3 22,3 23,3 24,3 25,3 26,3 27,3 28,3 29,3

0,25 1,32 2,77 4,11 5,39 6,63 7,84 9,04 10,2 11,4 12,5 13,7 14,8 16,0 17,1 18,2 19,4 20,5 21,6, 22,7 23,8 24,9 26,0 27,1 28,2 29,3 30,4 31,5 32,6 33,7 34,8

0,1 2,71 4,61 6,25 7,78 9,24 10,6 12,0 13,4 14,7 16,0 17,3 18,5 19,8 21,1 22,3 23,5 24,8 26,0 27,2 28,4 29,6 30,8 32,0 33,2 34,4 35,6 36,7 37,9 39,1 40,3

0,05 3,84 5,99 7,81 9,49 11,1 12,6 14,1 15,5 16,9 18,3 19,7 21,0 22,4 23,7 25,0 26,3 27,6 28,9, 30,1 31,4 32,7 33,9 35,2 36,4 37,7 38,9 40,1 41,3 42,6 43,8

0,025 5,02 7,38 9,35 11,1 12,8 14,4 16,0 17,5 19,0 20,5 21,9 23,3 24,7 26,1 27,5 28,8 30,2 31,5 32,9 34,2 35,5 36,8 38,1 39,4 40,6 41,9 43,2 44,5 45,7 47,0

0,01 6,63 9,21 11,3 13,3 15,1 16,8 18,5 20,1 21,7 23,2 24,7 26,2 27,7 29,1 30,6 32,0 33,4 34,8 36,2, 37,6 38,9 40,3 41,6 43,0 44,3 45,6 47,0 48,3 49,6 50,9

0,005 7,88 10,6 12,8 14,9 16,7 18,5 20,3 22,0 23,6 25,2 26,8 28,3 29,8 31,3 32,8 34,3 35,7 37,2 38,6 40,0 41,4 42,8 44,2 45,6 46,9 48,3 49,6 51,0 52,3 53,7

0,001 10,8 13,8 16,3 18,5 20,5 22,5 24,3 26,1 27,9 29,6 31,3 32,9 34,5 36,1 37,7 39,3 40,8 42,3 43,8 45,3 46,8 48,3 49,7 51,2 52,6 54,1 55,5 56,9 58,3 59,7

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 0,010 0,072 0,207 0,412 0,676 0,989 1,34 1,73 2,16 2,60 3,07 3,57 4,07 4,60 5,14 5,70 6,26 6,84 7,43 8,03 8,64 9,26 9,89 10,5 11,2 11,8 12,5 13,1 13,8 0,020 0,115 0,297 0,554 0,872 1,24 1,65 2,09 2,56 3,05 3,57 4,11 4,66 5,23 5,81 6,41 7,01 7,63 8,26 8,90 9,54 10,2 10,9 11,5 12,2 12,0 13,6 14,3 15,0 0,051 0,216 0,484 0,831 1,24 1,69 2,18 2,70 3,25 3,82 4,40 5,01 5,63 6,26 6,91 7,56 8,23 8,91 9,59 10,3 11,0 11,7 12,4 13,1 13,8 14,6 15,3 16,0 16,8 0,103 0,352 0,711 1,15 1,64 2,17 2,73 3,33 3,94 4,57 5,23 5,89 6,57 7,26 7,96 8,67 9,39 10,1 10,9 11,6 12,3 13,1 13,8 14,6 15,4 16,2 16,9 17,7 18,5

0,211 0,584 1,06 1,61 2,20 2,83 3,49 4,17 4,87 5,58 6,30 7,04 7,79 8,55 9,31 10,1 10,9 11,7 12,4 13,2 14,0 14,8 15,7 16,5 17,3 18,1 18,9 19,8 20,6

Fonte: Box, G. E. P.; Hunter, W. G., e Hunter, J. S., 8tatistics for expe rime nters. An introduction to desi{?n, data analysis and model buildin{? Nova York, Wiley, 1978. Pearson, E. S. e Hartley, H. O. (eds.), Biometrika tables for statisticians, voI. I, 3a ed., Cambridge University Press (1966). Reproduzida com autorizao da John Wiley & Sons, Inc., Biometrika Trustees.

394

Tabela A.4 Pontos de porcentagem da distribuio F, 25%.

~
V2

1 5,83 2,57 2,02 1,81 1,69 1,62 1,57 1,54 1,51 1,49 1,47 1,46 1,45 1,44 1,43 1,42 1,42 1,41 1,41 1,40 1,40 1,40 1,39 1,39 1,39 1,38 1,38 1,38 1,38 1,38 1,36 1,35 1,34 1,32

2 7,50 3,00 2,28 2,00 1,85 1,76 1,70 1,66 1,62 1,60 1,58 1,56 1,55 1,53 1,52 1,51 1,51 1,50 1,49 1,49 1,48 1,48 1,47 1,47 1,47 1,46 1,46 1,46 1,45 1,45 1,44 1,42 1,40 1,39

3 8,20 3,15 2,36 2,05 1,88 1,78 1,72 1,67 1,63 1,60 1,58 1,56 1,55 1,53 1,52 1,51 1,50 1,49 1,49 1,48 1,48 1,47 1,47 1,46 1,46 1,45 1,45 1,45 1,45 1,44 1,42 1,41 1,39 1,37

4 8,58 3,23 2,39 2,06 1,89 1,79 1,72 1,66 1,63 1,59 1,57 1,55 1,53 1,52 1,51 1,50 1,49 1,48 1,47 1,47 1,46 1,45 1,45 1,44 1,44 1,44 1,43 1,43 1,43 1,42 1,40 1,38 1,37 1,35

5 8,82 3,28 2,41 2,07 1,89 1,79 1,71 1,66 1,62 1,59 1,56 1,54 1,52 1,51 1,49 1,48 1,47 1,46 1,46 1,45 1,44 1,44 1,43 1,43 1,42 1,42 1,42 1,41 1,41 1,41 1,39 1,37 1,35 1,33

6 8,98 3,31 2,42 2,08 1,89 1,78 1,71 1,65 1,61 1,58 1,55 1,53 1,51 1,50 1,48 1,47 1,46 1,45 1,44 1,44 1,43 1,42 1,42 1,41 1,41 1,41 1,40 1,40 1,40 1,39 1,37 1,35 1,33 1,31

7 9,10 3,34 2,43 2,08 1,89 1,78 1,70 1,64 1,60 1,57 1,54 1,52 1,50 1,49 1,47 1,46 1,45 1,44 1,43 1,43 1,42 1,41 1,41 1,40 1,40 1,39 1,39 1,39 1,38 1,38 1,36 1,33 1,31 1,29

8 9,19 3,35 2,44 2,08 1,89 1,78 1,70 1,64 1,60 1,56 1,53 1,51 1,49 1,48 1,46 1,45 1,44 1,43 1,42 1,42 1,41 1,40 1,40 1,39 1,39 1,38 1,38 1,38 1,37 1,37 1,35 1,32 1,30 1,28

9 9,26 3,37 2,44 2,08 1,89 1,77 1,69 1,63 1,59 1,56 1,53 1,51 1,49 1,47 1,46 1,44 1,43 1,42 1,41 1,41 1,40 1,39 1,39 1,38 1,38 1,37 1,37 1,37 1,36 1,36 1,34 1,31 1,29 1,27

10 9,32 3,38 2,44 2,08 1,89 1,77 1,69 1,63 1,59 1,55 1,52 1,50 1,48 1,46 1,45 1,44 1,43 1,42 1,41 1,40 1,39 1,39 1,38 1,38 1,37 1,37 1,36 1,36 1,35 1,35 1,33 1,30 1,28 1,25

12 9,41 3,39 2,45 2,08 1,89 1,77 1,68 1,62 1,58 1,54 1,51 1,49 1,47 1,45 1,44 1,43 1,41 1,40 1,40 1,39 1,38 1,37 1,37 1,36 1,36 1,35 1,35 1,34 1,34 1,34 1,31 1,29 1,26 1,24

15 9,49 3,41 2,46 2,08 1,89 1,76 1,68 1,62 1,57 1,53 1,50 1,48 1,46 1,44 1,43 1,41 1,40 1,39 1,38 1,37 1,37 1,36 1,35 1,35 1,34 1,34 1,33 1,33 1,32 1,32 1,30 1,27 1,24 1,22

20 9,58 3,43 2,46 2,08 1,88 1,76 1,67 1,61 1,56 1,52 1,49 1,47 1,45 1,43 1,41 1,40 1,39 1,38 1,37 1,36 1,35 1,34 1,34 1,33 1,33 1,32 1,32 1,31 1,31 1,30 1,28 1,25 1,22 1,19

24 9,63 3,43 2,46 2,08 1,88 1,75 1,67 1,60 1,56 1,52 1,49 1,46 1,44 1,42 1,41 1,39 1,38 1,37 1,36 1,35 1,34 1,33 1,33 1,32 1,32 1,31 1,31 1,30 1,30 1,29 1,26 1,24 1,21 1,18

30 9,67 3,44 2,47 2,08 1,88 1,75 1,66 1,60 1,55 1,51 1,48 1,45 1,43 1,41 1,40 1,38 1,37 1,36 1,35 1,34 1,33 1,32 1,32 1,31 1,31 1,30 1,30 1,29 1,29 1,28 1,25 1,22 1,19 1,16

40 9,71 3,45 2,47 2,08 1,88 1,75 1,66 1,59 1,54 1,51 1,47 1,45 1,42 1,41 1,39 1,37 1,36 1,35 1,34 1,33 1,32 1,31 1,31 1,30 1,29 1,29 1,28 1,28 1,27 1,27 1,24 1,21 1,18 1,14

60 9,76 3,46 2,47 2,08 1,88 1,74 1,65 1,59 1,54 1,50 1,47 1,44 1,42 1,40 1,38 1,36 1,35 1,34 1,33 1,32 1,31 1,30 1,30 1,29 1,28 1,28 1,27 1,27 1,26 1,26 1,22 1,19 1,16 1,12

120 9,80 3,47 2,47 2,08 1,88 1,74 1,65 1,58 1,53 1,49 1,46 1,43 1,41 1,39 1,37 1,35 1,34 1,33 1,32 1,31 1,30 1,29 1,28 1,28 1,27 1,26 1,26 1,25 1,25 1,24 1,21 1,17 1,13 1,08

00

1 2 3 4 5 6 7 8 9 10 11 12 13

9,85 3,48 2,47 2,08 1,88 1,74 1,65 1,58 1,53 1,48 1,45 1,42 1,40 1,38 1,36 1,34 1,33 1,32 1,30 1,29 1,82 1,28 1,27 1,26 1,25 1,25 1,24 1,24 1,23 1,23 1,19 1,15 1,10 1,00

CJ.:l
~

Ot

14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 60 120
00

Fonte: Box, G. E. P.; Hunter, W. G., e Hunter, J. S., Statistics for experimenters. An introduction to design, data analysis and modelo Nova York, Wiley, 1978. building. Merrington, M. and Thompson, C. M., Biometrika 33,73 (1943). Reproduzida com autorizao da John Wiley & Sons, Inc. e Bionletrika Trustees.

Tabela A.4 Pontos de percentagem da distribuio F, 10% (continuao).

~
V2

1 39,86 8,53 5,54 4,54 4,06 3,78 3,59 3,46 3,36 3,29 3,23 3,18 3,14 3,10 3,07 3,05 3,03 3,01 2,99 2,97 2,96 2,95 2,94 2,93 2,92 2,91 2,90 2,89 2,89 2,88 2,84 2,79 2,75 2,71

2 49,50 9,00 5,46 4,32 3,78 3,46 3,26 3,11 3,01 2,92 2,86 2,81 2,76 2,73 2,70 2,67 2,64 2,62 2,61 2,59 2,57 2,56 2,55 2,54 2,53 2,52 2,51 2,50 2,50 2,49 2,44 2,39 2,35 2,30

3 53,59 9,16 5,39 4,19 3,62 3,29 3,07 2,92 2,81 2,73 2,66 2,61 2,56 2,52 2,49 2,46 2,44 2,42 2,40 2,38 2,36 2,35 2,34 2,33 2,32 2,31 2,30 2,29 2,28 2,28 2,23 2,18 2,13 2,08

4 55,83 9,24 5,34 4,11 3,52 3,18 2,96 2,81 2,69 2,61 2,54 2,48 2,43 2,39 2,36 2,33 2,31 2,29 2,27 2,25 2,23 2,22 2,21 2,19 2,18 2,17 2,17 2,16 2,15 2,14 2,09 2,04 1,99 1,94

5 57,24 9,29 5,31 4,05 3,45 3,11 2,88 2,73 2,61 2,52 2,45 2,39 2,35 2,31 2,27 2,24 2,22 2,20 2,18 2,16 2,14 2,13 2,11 2,10 2,09 2,08 2,07 2,06 2,06 2,05 2,00 1,95 1,90 1,85

6 58,20 9,33 5,28 4,01 3,40 3,05 2,83 2,67 2,55 2,46 2,39 2,33 2,28 2,24 2,21 2,18 2,15 2,13 2,11 2,09 2,08 2,06 2,05 2,04 2,02 2,01 2,00 2,00 1,99 1,98 1,93 1,87 1,82 1,77

7 58,91 9,35 5,27 3,98 3,37 3,01 2,78 2,62 2,51 2,41 2,34 2,28 2,23 2,19 2,16 2,13 2,10 2,08 2,06 2,04 2,02 2,01 1,99 1,98 1,97 1,96 1,95 1,94 1,93 1,93 1,87 1,82 1,77 1,72

8 59,44 9,37 5,25 3,95 3,34 2,98 2,75 2,59 2,47 2,38 2,30 2,24 2,20 2,15 2,12 2,09 2,06 2,04 2,02 2,00 1,98 1,97 1,95 1,94 1,93 1,92 1,91 1,90 1,89 1,88 1,83 1,77 1,72 1,67

9 59,86 9,38 5,24 3,94 3,32 2,96 2,72 2,56 2,44 2,35 2,27 2,21 2,16 2,12 2,09 2,06 2,03 2,00 1,98 1,96 1,95 1,93 1,92 1,91 1,89 1,88 1,87 1,87 1,86 1,85 1,79 1,74 1,68 1,63

10 60,19 9,39 5,23 3,92 3,30 2,94 2,70 2,54 2,42 2,32 2,25 2,19 2,14 2,10 2,06 2,03 2,00 1,98 1,96 1,94 1,92 1,90 1,89 1,88 1,87 1,86 1,85 1,84 1,83 1,82 1,76 1,71 1,65 1,60

12 60,71 9,41 5,22 3,90 3,27 2,90 2,67 2,50 2,38 2,28 2,21 2,15 2,10 2,05 2,02 1,99 1,96 1,93 1,91 1,89 1,87 1,86 1,84 1,83 1,82 1,81 1,80 1,79 1,78 1,77 1,71 1,66 1,60 1,55

15 61,22 9,24 5,20 3,87 3,24 2,87 2,63 2,46 2,34 2,24 2,17 2,10 2,05 2,01 1,97 1,94 1,91 1,89 1,86 1,84 1,83 1,81 1,80 1,78 1,77 1,76 1,75 1,74 1,73 1,72 1,66 1,60 1,55 1,49

20 61,74 9,44 5,18 3,84 3,21 2,84 2,59 2,42 2,30 2,20 2,12 2,06 2,01 1,96 1,92 1,89 1,86 1,84 1,81 1,79 1,78 1,76 1,74 1,73 1,72 1,71 1,70 1,69 1,68 1,67 1,61 1,54 1,48 1,42

24 62,00 9,45 5,18 3,83 3,19 2,82 2,58 2,40 2,28 2,18 2,10 2,04 1,98 1,94 1,90 1,87 1,84 1,81 1,79 1,77 1,75 1,73 1,72 1,70 1,69 1,68 1,67 1,66 1,65 1,64 1,57 1,51 1,45 1,38

30 62,26 9,46 5,17 3,82 3,17 2,80 2,56 2,38 2,25 2,16 2,08 2,01 1,96 1,91 1,87 1,84 1,81 1,78 1,76 1,74 1,72 1,70 1,69 1,67 1,66 1,65 1,64 1,63 1,62 1,61 1,54 1,48 1,41 1,34

40 62,53 9,47 5,16 3,80 3,16 2,78 2,54 2,36 2,23 2,13 2,05 1,99 1,93 1,89 1,85 1,81 1,78 1,75 1,73 1,71 1,69 1,67 1,66 1,64 1,63 1,61 1,60 1,59 1,58 1,57 1,51 1,44 1,37 1,30

60 62,79 9,47 5,15 3,79 3,14 2,76 2,51 2,34 2,21 2,11 2,03 1,96 1,90 1,86 1,82 1,78 1,75 1,72 1,70 1,68 1,66 1,64 1,62 1,61 1,59 1,58 1,57 1,56 1,55 1,54 1,47 1,40 1,32 1,24

120 63,06 9,48 5,14 3,78 3,12 2,74 2,49 2,32 2,18 2,08 2,00 1,93 1,88 1,83 1,79 1,75 1,72 1,69 1,67 1,64 1,62 1,60 1,59 1,57 1,56 1,54 1,53 1,52 1,51 1,50 1,42 1,35 1,26 1,17

00

C\j

\.O

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 60 120
00

63,33 9,49 5,13 3,76 3,10 2,72 2,47 2,29 2,16 2,06 1,97 1,90 1,85 1,80 1,76 1,72 1,69 1,66 1,63 1,61 1,59 1,57 1,55 1,53 1,52 1,50 1,49 1,48 1,47 1,46 1,38 1,29 1,19 1,00

Fonte: Box, G. E. P.; Hunter, W. G., e Hunter, J. S., Statistics for experimenters. An introduction to design, data analysis and lnodel. Nova York, Wiley, 1978. building. Merrington, M. and Thompson, C. M., Biometrika 33, 73 (1943). Reproduzida com autorizao da John Wiley & Sons, Inc. e Biometrika Trustees.

Tabela A.4 Pontos de percentagem da distribuio F, 5% (continuao).

I~
V2

1 161,4 18,51 10,13 7,71 6,61 5,99 5,59 5,32 5,12 4,96 4,84 4,75 4,67 4,60 4,54 4,49 4,45 4,41 4,38 4,35 4,32 4,30 4,28 4,26 4,24 4,23 4,21 4,20 4,18 4,17 4,08 4,00 3,92 3,84

2 199,5 19,00 9,55 6,94 5,79 5,14 4,74 4,46 4,26 4,10 3,98 3,89 3,81 3,74 3,68 3,63 3,59 3,55 3,52 3,49 3,47 3,44 3,42 3,40 3,39 3,37 3,35 3,34 3,33 3,32 3,23 3,15 3,07 3,00

3 215,7 19,16 9,28 6,59 5,41 4,76 4,35 4,07 3,86 3,71 3,59 3,49 3,41 3,34 3,29 3,24 3,20 3,16 3,13 3,10 3,07 3,05 3,03 3,01 2,99 2,98 2,96 2,95 2,93 2,92 2,84 2,76 2,68 2,60

4 224,6 19,25 9,12 6,39 5,19 4,53 4,12 3,84 3,63 3,48 3,36 3,26 3,18 3,11 3,06 3,01 2,96 2,93 2,90 2,87 2,84 2,82 2,80 2,78 2,76 2,74 2,73 2,71 2,70 2,69 2,61 2,53 2,45 2,37

5 230,2 19,30 9,01 6,26 5,05 4,39 3,97 3,69 3,48 3,33 3,20 3,11 3,03 2,96 2,90 2,85 2,81 2,77 2,74 2,71 2,68 2,66 2,64 2,62 2,60 2,59 2,57 2,56 2,55 2,53 2,45 2,37 2,29 2,21

6 234,0 19,33 8,94 6,16 4,95 4,28 3,87 3,58 3,37 3,22 3,09 3,00 2,92 2,85 2,79 2,74 2,70 2,66 2,63 2,60 2,57 2,55 2,53 2,51 2,49 2,47 2,46 2,45 2,43 2,42 2,34 2,25 2,17 2,10

7 236,8 19,35 8,89 6,09 4,88 4,21 3,79 3,50 3,29 3,14 3,01 2,91 2,83 2,76 2,71 2,66 2,61 2,58 2,54 2,51 2,49 2,46 2,44 2,42 2,40 2,39 2,37 2,36 2,35 2,33 2,25 2,17 2,09 2,01

8 238,9 19,37 8,85 6,04 4,82 4,15 3,73 3,44 3,23 3,07 2,95 2,85 2,77 2,70 2,64 2,59 2,55 2,51 2,48 2,45 2,42 2,40 2,37 2,36 2,34 2,32 2,31 2,29 2,28 2,27 2,18 2,10 2,02 1,94

9 240,5 19,38 8,81 6,00 4,77 4,10 3,68 3,39 3,18 3,02 2,90 2,80 2,71 2,65 2,59 2,54 2,49 2,46 2,42 2,39 2,37 2,34 2,32 2,30 2,28 2,27 2,25 2,24 2,22 2,21 2,12 2,04 1,96 1,88

10 241,9 19,40 8,79 5,96 4,74 4,06 3,64 3,35 3,14 2,98 2,85 2,75 2,67 2,60 2,54 2,49 2,45 2,41 2,38 2,35 2,32 2,30 2,27 2,25 2,24 2,22 2,20 2,19 2,18 2,16 2,08 1,99 1,91 1,83

12 243,9 19,41 8,74 5,91 4,68 4,00 3,57 3,28 3,07 2,91 2,79 2,69 2,60 2,53 2,48 2,42 2,38 2,34 2,31 2,28 2,25 2,23 2,20 2,18 2,16 2,15 2,13 2,12 2,10 2,09 2,00 1,92 1,83 1,75

15 245,9 19,43 8,70 5,86 4,62 3,94 3,51 3,22 3,01 2,85 2,72 2,62 2,53 2,46 2,40 2,35 2,31 2,27 2,23 2,20 2,18 2,15 2,13 2,11 2,09 2,07 2,06 2,04 2,03 2,01 1,92 1,84 1,75 1,67

20 248,0 19,45 8,66 5,80 4,56 3,87 3,44 3,15 2,94 2,77 2,65 2,54 2,46 2,39 2,33 2,28 2,23 2,19 2,16 2,12 2,10 2,07 2,05 2,03 2,01 1,99 1,97 1,96 1,94 1,93 1,84 1,75 1,66 1,57

24 249,1 19,45 8,64 5,77 4,53 3,84 3,41 3,12 2,90 2,74 2,61 2,51 2,42 2,35 2,29 2,24 2,19 2,15 2,11 2,08 2,05 2,03 2,01 1,98 1,96 1,95 1,93 1,91 1,90 1,89 1,79 1,70 1,61 1,52

30 250,1 19,46 8,62 5,75 4,50 3,81 3,38 3,08 2,86 2,70 2,57 2,47 2,38 2,31 2,25 2,19 2,15 2,11 2,07 2,04 2,01 1,98 1,96 1,94 1,92 1,90 1,88 1,87 1,85 1,84 1,74 1,65 1,55 1,46

40 251,1 19,47 8,59 5,72 4,46 3,77 3,34 3,04 2,83 2,66 2,53 2,43 2,34 2,27 2,20 2,15 2,10 2,06 2,03 1,99 1,96 1,94 1,91 1,89 1,87 1,85 1,84 1,82 1,81 1,79 1,69 1,59 1,50 1,39

60 252,2 19,48 8,57 5,69 4,43 3,74 3,30 3,01 2,79 2,62 2,49 2,38 2,30 2,22 2,16 2,11 2,06 2,02 1,98 1,95 1,92 1,89 1,86 1,84 1,82 1,80 1,79 1,77 1,75 1,74 1,64 1,53 1,43 1,32

120 253,3 19,49 8,55 5,66 4,40 3,70 3,27 2,97 2,75 2,58 2,45 2,34 2,25 2,18 2,11 2,06 2,01 1,97 1,93 1,90 1,87 1,84 1,81 1,79 1,77 1,75 1,73 1,71 1,70 1,68 1,58 1,47 1,35 1,22

00

-J

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 60 120
00

254,3 19,50 8,53 5,63 4,36 3,67 3,23 2,93 2,71 2,54 2,40 2,30 2,21 2,13 2,07 2,01 1,96 1,92 1,88 1,84 1,81 1,78 1,76 1,73 1,71 1,69 1,67 1,65 1,64 1,62 1,51 1,39 1,25 1,00

Tabela A.4 Pontos de percentagem da distribuio F, 1 % (continuao).

~
V2

1 4052 98,50 34,12 21,20 16,26 13,75 12,25 11,26 10,56 10,04 9,65 9,33 9,07 8,86 8,68 8,53 8,40 8,29 8,18 8,10 8,02 7,95 7,88 7,82 7,77 7,72 7,68 7,64 7,60 7,56 7,31 7,08 6,85 6,63

2 4999 99,00 30,82 18,00 13,27 10,92 9,55 8,65 8,02 7,56 7,21 6,93 6,70 6,51 6,36 6,23 6,11 6,01 5,93 5,85 5,78 5,72 5,66 5,61 5,57 5,53 5,49 5,45 5,42 5,39 5,18 4,98 4,79 4,61

3 5403 99,17 29,46 16,69 12,06 9,78 8,45 7,59 6,99 6,55 6,22 5,95 5,74 5,56 5,42 5,29 5,18 5,09 5,01 4,94 4,87 4,82 4,76 4,72 4,68 4,64 4,60 4,57 4,54 4,51 4,31 4,13 3,95 3,78

4 5625 99,25 28,71 15,98 11,39 9,15 7,85 7,01 6,42 5,99 5,67 5,41 5,21 5,04 4,89 4,77 4,67 4,58 4,50 4,43 4,37 4,31 4,26 4,22 4,18 4,14 4,11 4,07 4,04 4,02 3,83 3,65 3,48 3,32

5 5764 99,30 28,24 15,52 10,97 8,75 7,46 6,63 6,06 5,64 5,32 5,06 4,86 4,69 4,56 4,44 4,34 4,25 4,17 4,10 4,04 3,99 3,94 3,90 3,85 3,82 3,78 3,75 3,73 3,70 3,51 3,34 3,17 3,02

6 5859 99,33 27,91 15,21 10,67 8,47 7,19 6,37 5,80 5,39 5,07 4,82 4,62 4,46 4,32 4,20 4,10 4,01 3,94 3,87 3,81 3,76 3,71 3,67 3,63 3,59 3,56 3,53 3,50 3,47 3,29 3,12 2,96 2,80

7 5928 99,36 27,67 14,98 10,46 8,26 6,99 6,18 5,61 5,20 4,89 4,64 4,44 4,28 4,14 4,03 3,93 3,84 3,77 3,70 3,64 3,59 3,54 3,50 3,46 3,42 3,39 3,36 3,33 3,30 3,12 2,95 2,79 2,64

8 5982 99,37 27,49 14,80 10,29 8,10 6,84 6,03 5,47 5,06 4,74 4,50 4,30 4,14 4,00 3,89 3,79 3,71 3,63 3,56 3,51 3,45 3,41 3,36 3,32 3,29 3,26 3,23 3,20 3,17 2,99 2,82 2,66 2,51

9 6022 99,39 27,35 14,66 10,16 7,98 6,72 5,91 5,35 4,94 4,63 4,39 4,19 4,03 3,89 3,78 3,68 3,60 3,52 3,46 3,40 3,35 3,30 3,26 3,22 3,18 3,15 3,12 3,09 3,07 2,89 2,72 2,56 2,41

10 6056 99,40 27,23 14,55 10,05 7,87 6,62 5,81 5,26 4,85 4,54 4,30 4,10 3,94 3,80 3,69 3,59 3,51 3,43 3,37 3,31 3,26 3,21 3,17 3,13 3,09 3,06 3,03 3,00 2,98 2,80 2,63 2,47 2,32

12 6106 99,42 27,05 14,37 9,89 7,72 6,47 5,67 5,11 4,71 4,40 4,16 3,96 3,80 3,67 3,55 3,46 3,37 3,30 3,23 3,17 3,12 3,07 3,03 2,99 2,96 2,93 2,90 2,87 2,84 2,66 2,50 2,34 2,18

15 6157 99,43 26,87 14,20 9,72 7,56 6,31 5,52 4,96 4,56 4,25 4,01 3,82 3,66 3,52 3,41 3,31 3,23 3,15 3,09 3,03 2,98 2,93 2,89 2,85 2,81 2,78 2,75 2,73 2,70 2,52 2,35 2,19 2,04

20 6209 99,45 26,69 14,02 9,55 7,40 6,16 5,36 4,81 4,41 4,10 3,86 3,66 3,51 3,37 3,26 3,16 3,08 3,00 2,94 2,88 2,83 2,78 2,74 2,70 2,66 2,63 2,60 2,57 2,55 2,37 2,20 2,03 1,88

24 6235 99,46 26,60 13,93 9,47 7,31 6,07 5,28 4,73 4,33 4,02 3,78 3,59 3,43 3,29 3,18 3,08 3,00 2,92 2,86 2,80 2,75 2,70 2,66 2,62 2,58 2,55 2,52 2,49 2,47 2,29 2,12 1,95 1,79

30 6261 99,47 26,50 13,84 9,38 7,23 5,99 5,20 4,65 4,25 3,94 3,70 3,51 3,35 3,21 3,10 3,00 2,92 2,84 2,78 2,72 2,67 2,62 2,58 2,54 2,50 2,47 2,44 2,41 2,39 2,20 2,03 1,86 1,70

40 6287 99,47 26,41 13,75 9,29 7,14 5,91 5,12 4,57 4,17 3,86 3,62 3,43 3,27 3,13 3,02 2,92 2,84 2,76 2,69 2,64 2,58 2,54 2,49 2,45 2,42 2,38 2,35 2,33 2,30 2,11 1,94 1,76 1,59

60 6313 99,48 26,32 13,65 9,20 7,06 5,82 5,03 4,48 4,08 3,78 3,54 3,34 3,18 3,05 2,93 2,83 2,75 2,67 2,61 2,55 2,50 2,45 2,40 2,36 2,33 2,29 2,26 2,23 2,21 2,02 1,84 1,66 1,47

120 6339 99,49 26,22 13,56 9,11 6,97 5,74 4,95 4,40 4,00 3,69 3,45 3,25 3,09 2,96 2,84 2,75 2,66 2,58 2,52 2,46 2,40 2,35 2,31 2,27 2,23 2,20 2,17 2,14 2,11 1,92 1,73 1,53 1,32

00

co
00

CI,j

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 60 120
00

6366 99,50 26,13 13,46 9,02 6,88 5,65 4,86 4,31 3,91 3,60 3,36 3,17 3,00 2,87 2,75 2,65 2,57 2,49 2,42 2,36 2,31 2,26 2,21 2,17 2,13 2,10 2,06 2,03 2,01 1,80 1,60 1,38 1,00

.,
Indice remissivo
Aleatorizao, 91 Amostra aleatria, 17 representativa, 17 Anlise de varincia, 72, 212 resduo, 103-104 ANOVA, 215 rea de cauda, 31 Berra, Yogi, 6, 73 Blocagem, 91 fatorial, 126-129 superfcie de resposta, 284-285 Box, G. E. P., 124, 251 Caminho mxima inclinao, 251, 256 Capacidade do processo, 63 Cartas de controle, 61 Codificao de variveis, 100 Coeficiente contraste, 96 determinao, 214 correlao, 41, 44, 236-237 correlao amostraI, 41 correlao mltipla, 237 Combinao linear variveis aleatrias, 43-46 Comparao valor de referncia, 56-58 Confundimentos padres, 156 Conjunto treinamento, 298-300 teste, 298-300 Contrastes, 89 Covarincia, 40 Cumeeira, 288 Diagramas de disperso, 42 Densidade de probabilidade, 27 Desvio ,22 padro, 24 padro amostraI, 24 Distribuio contnua, 27 F,56 Gaussiana, 15, 26 normal, 15, 26, 48 normal padro, 27 normal padronizada, 27 qui-quadrado, X 2 , 48, 49, 55 t, Student, 48,51-54 Efeito antagnico, 308 erro padro, 92-94 interao, 87-89 principal, 87 sinrgico, 308 varincia, 93 Ensaio, 85 Equaes normais, 206 Erro aleatrio, 14 grosseiro, 12 mdio (quadrtico), 216 padro, 69 padro do efeito, 93, 94, 108 puro (quadrtico), 229 sistemtico, 12 Estimador, 102 EVOP, 123-126 Experimentos confirmatrios, 227 Falta de ajuste, 229-231 Fatores, 1, 65, 83-84 Faixa de tolerncia, 63 Fatorial completo, 85, 150-152 2 2 ,86-104 2 3 , 105-113 24 , 113-117 2 k ,86 fracionrio, 150, 153 2 4-1 , 153-158, 165 25-1, 161-163,165 25-2 ,168 2 7-4 , 170-177 2 8-4 ,177-179 embutido, 163-165 frao meia, 155 frao complementar, 158 geratriz, 157 Plackett-Burman, 179-180

399

ndice remissh/o

relao geradora, 157 saturado, 169-170 sem replicata, 113-117, 121-123 Taguchi, 180-184 triagem, 167 Fisher, R. A., 80 Freqncia relativa, 19 Funo de desejabilidade, 276 Galton, Francis, 36, 205 Gauss, Karl, 26 Geradora, 157 Geratriz, 157 Gosset, W. S., 51 Grficos probabilidade, 117-120 resduos, 204, 225, 227, 233, 239-241 243,245,248,270 normais, 117-122 Graus de liberdade, 23 Hiptese nula, 57 Histograma, 20 Inclinao mxima, 256-259 Interao coeficiente, 87-89, 263,306-307 efeito, 87-89 Intervalo de confiana, 36-38, 50, 52-55, 94 efeito, 94 mdia, 52-54 varincia, 55 Ishikawa, K., 42 Limite inferior de controle, 62 superior de controle, 62 tolerncia, 63 Mapa de controle, 61 Matriz covarincia, 222 planejamento, 86 Mdia amostraI, 22 aritmtica, 21 comparao, 64-67 comparao emparelhada, 67-69 Mdia quadrtica, 24, 215 erro puro, 230-231 falta de ajuste, 230-231 regresso, 216, 223, 231 residual, 216, 223, 231 total, 216, 231

Mtodo de Derringer e Suich, 276-280 Mnimos quadrados, 205 Mistura, 301 modelo linear, 305, 310 quadrtico, 307, 310, 330 cbico, 317 cbico especial, 317, 318, 329 Modelagem mnimos quadrados, 6, 205 misturas, 301 Modelos aditivo, 305, 310 ajuste do, 6, 205 emprico, 4-5 global, 4 linear, 252-256 local, 5 mecanstico, 4 no linear,225, 234-235, 238-240, 242, 247,263,269,287,291,295,298 quadrtico, 225, 234, 238, 242, 247, 263, 269,287,291 respostas mltiplas, 266-280, 316, 325 329, 341-347 Nveis, 2, 65 Operao evolucionria, 123-126 Ordem padro, 105 Padronizao, 29 Parmetro populacional, 25 Planejamento centride simplex, 317-319 composto central, 261, 280-285 estrela, 261, 281, 283 experimental, 3 fatorial 2k , 86 fatorial 33 , 266-275 fatorial completo, 6, 85 fatorial fracionrio, 6, 150 ortogonal, 104 rede simplex, 313 rodvel, 282 Plackett-Burman, 179-180 ponto central, 252, 256, 280 saturado, 169-177 sem replicata, 114-117, 121-123 Taguchi, 180-184 Pseudocomponentes, 323 Polinmio primeiro grau, 201, 224, 232, 252 segundo grau, 225, 234, 261,263 400

ndice remissivo

Populao, 16, 17 Probabilidade cumulativa, 33, 117-124 Regresso, 205-237 Relao geradora, 157 Repetio autntica, 91 Resduo, 103 Resoluo, 159-162 Resposta, 1, 65, 83-84 Robustez, 34, 181 Rotabilidade, 282 Simplex, 349 bsico, 350 contrao, 358,361 mudana de direo, 361 macia, 364, 365 expanso, 359-360 modificado, 350, 355 oscilante, 352, 353 rebatimento, 352 reflexo,352,359 seqencial, 7, 349 supermodificado, 350, 366 Soma quadrtica, 214 erro puro, 229, 231 falta de ajuste, 229, 231 regresso, 214 residual, 216 total, 216 Student, 51 Superfcie de resposta, 2,7,201,251 anlise, 251-265 Tabela anlise de varincia, (ANOVA), 215, 216, 229-231 qui-quadrado,394 F,395-398 Gaussiana, 392 Normal, 392 T,393 Taguchi, G., 180 tcnicas, 181-184 Tcnicas estatsticas robustas, 34 Teorema do limite central, 35 Teste duplo cego, 79 Grubbs, 77 falta de ajuste, 231 hipteses, 69 Q de Dixon, 76 valores anmolos,76-77

Transformao linearizante, 239 Triagem de fatores, 6, 169 Valor nominal, 63 Varincia, 24 anlise, 212-216, 229-231 comparao, 69-70 transformao estabilizadora, 243 Varivel aleatria, 27 dependente, 83 independente, 83 inerte, 163-164 qualitativa, 83 quantitativa, 83 continua, 83

401