Anda di halaman 1dari 25

An alise de dados longitudinais com aplica c ao na ind ustria

Fernando Lucambio P erez Clarice Azevedo de Luna Freire Relat orio T ecnico, Maio de 2003

Departamento de Estat stica Universidade Federal do Paran a Caixa Postal 19081 CEP 81531-990 Curitiba, PR, Brasil http://www.est.ufpr.br (41) 361 3141

An alise de dados longitudinais com aplica c ao na ind ustria


Fernando Lucambio P erez
lucambio@ufpr.br

Clarice Azevedo de Luna Freire


clarice@est.ufpr.br

Departamento de Estat stica, UFPR

Resumo Modelos de dados longitudinais s ao modelos de regress ao com respostas correlacionadas no tempo, observadas numa mesma unidade amostral. O objetivo deste trabalho e apresentar a metodologia estat stica de an alise atrav es de modelos lineares generalizados. Para alcan car este objetivo utilizaremos um exemplo de aplica c ao real e explicaremos o algoritmo envolvido implementado, por exemplo, no programa R (http://www.r-project.org) de distribui c ao livre. Mostraremos que metodologias estat sticas usualmente tratadas na literatura n ao nos permitem aproveitar toda a informa c ao que os dados longitudinais s ao capazes de nos transmitir. Isto justica o esfor co anal tico adicional necess ario para considerar e modelar a estrutura de correla c ao entre as observa c oes reali-zadas na mesma unidade amostral, contemplado nos modelos lineares generalizados. Palavras-chave: Dados longitudinais, equa c oes de estima c ao, medidas repetidas, modelos lineares generalizados.

Sum ario
1 Introdu c ao 2 Modelos lineares generalizados para dados longitudinais 2.1 Modelos lineares generalizados . . . . . . . . . . . . . . . . . . . . . . 2.1.1 2.2 Equa co es de estima ca o . . . . . . . . . . . . . . . . . . . . . . 1 4 4 5 6 7

Dados longitudinais . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2.1 Equa co es de estima ca o generalizadas . . . . . . . . . . . . . .

3 Comportamento do n umero de empregados nas ind ustrias do Estado do Paran a 9 3.1 3.2 3.3 Estudo descritivo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Ajuste do modelo de regress ao para dados longitudinais . . . . . . . . Conclus oes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 14 18

Lista de Figuras
1 2 3 4 5 6 Distribui ca o percentual das empresas industriais do Estado do Paran a segundo o pessoal assalariado no ano 2001 . . . . . . . . . . . . . . . Histogramas de frequ encias das empresas segundo o n umero de empregados no ano 1998 . . . . . . . . . . . . . . . . . . . . . . . . . . . . Histograma de frequ encia do n umero de empresas segundo o n umero de empregados no ano 2000 . . . . . . . . . . . . . . . . . . . . . . . Histograma de frequ encia do n umero de empresas segundo o n umero de empregados no ano 2001 . . . . . . . . . . . . . . . . . . . . . . . 12 13 14 15

Diagrama paralelo de dispers ao: cada linha mostra o comportamento do n umero de empregados nos anos 1998, 2000 e 2001 de cada empresa. 16 Comportamento do n umero m edio de empregados nas ind ustrias do Estado do Paran a, segundo seu tamanho e a atua c ao no mercado interno e/ou externo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

19

Lista de Tabelas
1 N umero de funcion arios, nos anos 1998, 2000 e 2001, em empresas industriais do Estado do Paran a, classicadas segundo declararam-se exportadora ou n ao no ano 2001. Primeiros registros de um total de 649 empresas selecionadas. . . . . . . . . . . . . . . . . . . . . . . . . Estrutura de um conjunto de dados longitudinal. . . . . . . . . . . . . Estrutura computacional de um conjunto de dados longitudinal. . . .

2 3 10

2 3

ii

Introdu c ao

Em diferentes situa co es, h a interesse em se estudar o comportamento de alguma caracter stica (aqui chamada de vari avel resposta) dos elementos de uma ou mais popula c oes, ao longo de uma condi ca o de avalia c ao ou escala ordenada, como peso ou tempo, e pode-se denir ent ao os dados longitudinais como observa c oes coletadas numa mesma unidade amostral ao longo de alguma escala ordenada. Por exemplo, se quisermos estudar a evolu ca o do n umero de empregados em empresas, ao longo de um certo per odo de tempo, segundo alguma determinada classica c ao, o n umero de empregados seria a vari avel resposta, cada empresa escolhida representaria a unidade amostral em estudo e o tempo, a condi c ao de avalia ca o. Noutros estudos, o objetivo poderia ser avaliar os n veis de polui c ao em regi oes situadas a dist ancias crescentes de diferentes tipos de fontes poluidoras; o n vel de polui c ao seria a vari avel resposta, as regi oes representariam as unidades amostrais em estudo, e a dist ancia, a condi ca o de avalia ca o. Nos referiremos, genericamente, a essa dimens ao ao longo da qual s ao realizadas as observa c oes, como tempo. O problema considerado sob a denomina ca o de an alise de dados longitudinais difere da an alise de s eries temporais pelo fato de que, neste caso, dispomos de uma u nica unidade amostral com muitas observa c oes ao longo do tempo (e.g. 100 ou mais) mas, naquele, lidamos com v arias unidades amostrais (e.g. 10 ou mais) observadas em poucos instantes (e.g. 2). Estudos longitudinais (Liang & Zeger, 1986) s ao de particular interesse quando o objetivo e avaliar varia co es globais ou individuais ao longo do tempo. Num dos exemplos acima, as mudan cas no n umero de empregados ao longo do tempo - consideradas num estudo longitudinal - estariam (pelo menos parcialmente) dissociadas de poss veis diferen cas nas pol ticas administrativas individuais das diversas empresas selecionadas em cada instante de observa ca o. Essa caracter stica tem especial interesse quando a variabilidade entre unidades amostrais (entre empresas, por exemplo) e maior que a variabilidade dentro das unidades amostrais (dentro da mesma empresa ao longo do tempo, por exemplo). Finalmente, alguns par ametros de interesse podem ser estimados de forma mais eciente sob planejamentos longitudinais do que sob outros tipos de planejamentos com o mesmo n umero de observa c oes.

Tabela 1: N umero de funcion arios, nos anos 1998, 2000 e 2001, em empresas industriais do Estado do Paran a, classicadas segundo declararam-se exportadora ou n ao no ano 2001. Primeiros registros de um total de 649 empresas selecionadas.
Empresa A. A. M. BALTHAZAR & CIA A. C. MAISTRO & CIA A. G. P. LAMINADOS DE MADEIRAS A. M. T. IND. DO VESTUARIO ABATEDOURO BOM DIA BRASIL ABATEDOURO BOM JESUS ADESI IND. E COM. DE ADESIVOS ADJOINE VEDOVATTI BUENO LINARES-CONFECC OES ADNAN IND. COM. E REPRESENTAC OES ADRAM IND. COM. ADUBOS BOUTIN AFFONSO DITZEL & CIA AGIBERT MADEIRA E DERIVADOS AGRO. INDL. HENNIPMAN PASSOS AGRO. INDL. NOVO TRES AGUA MINERAL TIMBU AGUIAR & BORDIN . . . No. de funcion arios 1998 2000 2001 10 22 25 17 13 15 41 19 14 50 54 55 14 14 14 11 15 25 207 233 600 12 12 12 16 14 12 240 213 67 69 33 62 157 190 195 90 90 70 18 25 22 48 19 8 15 15 30 16 16 16 . . . . . . . . . Exportador N ao N ao N ao N ao N ao N ao Sim N ao N ao N ao Sim Sim N ao N ao Sim N ao N ao . . .

Os dados apresentados na Tabela 1 correspondem aos n umeros de funcion arios empregados em empresas industriais do Estado do Paran a durante os anos de 1998, 2000 e 2001. Nela est ao apresentados somente os primeiros registros de um total de 649 empresas registradas na Federa ca o das Ind ustrias do Estado do Paran a (FIEP) em 2001 e com informa c oes em pelo menos um dos anos, 1998 e/ou 2000. Estas informa c oes foram obtidas de cadastros industriais e s ao utilizados aqui apenas com a nalidade de ilustrar uma an alise de dados longitudinais. O objetivo e estudar a evolu c ao do n umero de funcion arios ao longo do per odo mencionado e considerar, em particular, poss veis diferen cas de comportamento segundo as empresas declararam-se exportadora ou n ao no ano 2001. Uma observa c ao importante e que, nesta modelagem, as unidades de tempo podem ser igualmente espa cadas ou n ao, como neste exemplo. No exemplo, como nos dados longitudinais em geral, as observa co es s ao apresentadas atrav es de uma matriz como se mostra na Tabela 2 seguir. Nesta tabela, a 2

vari avel aleat oria Y representa a resposta em cada condi c ao de avalia ca o ou tempo e as var aveis explicaticas ou covari aveis representam os diferentes tratamentos e fatores de poss vel inu encia na resposta. Tabela 2: Estrutura de um conjunto de dados longitudinal.
Unidade amostral 1 2 . . . n Vari aveis explicativas 1 2 p x11 x12 x1p x21 x22 x2p . . . . . . . . . . . . xn1 xn2 xnp 1 Y11 Y21 . . . Yn1 Resposta 2 Y12 Y22 . . . . . . Yn2 t Y1t Y2t . . . Ynt

Utilizando os dados do exemplo na Tabela 1 (maiores detalhes na Se c ao 3) podemos, por exemplo, desconsiderar a correla ca o entre as observa co es numa mesma empresa e assumir que a distribui c ao da vari avel aleat oria resposta (n umero de empregados) e normal e realizar uma An alise de Variancia (Rohatgi, 1976), obtendo-se os resultados mostrados a seguir.
An alise Fonte Anos Erro Total de Variancia g.l. Somas de Quadrados 2 1064338 1830 506625024 1832 507689344 Quadrados M edio 532169 276844 F-Fisher 1.92 p-valor 0.147

Anos 1998 2000 2001

N 559 625 649

M edia 202.5 226.4 261.4

DesPd 400.6 545.5 597.5 526.2

Desv o Padr~ ao ponderado =

Intervalo de Confian ca de 95% para a M edia Baseado no Desv o Padr~ ao (DesPd) ponderado -+---------+---------+---------+----(----------*----------) (----------*---------) (---------*---------) -+---------+---------+---------+----160 200 240 280

Deste estudo interpretamos que n ao h a diferen,cas signicativas no n umero de empregados nos anos considerados, baseados no p-valor acima (0,147), isto e, atrav es desta an alise concluir amos que o n umero de empregados nas ind ustrias no Estado do Paran a tem permanecido constante nos anos de 1998, 2000 e 2001. Alguns dos problemas de estudar estas informa c oes atrav es de uma An alise de Vari ancia est a no fato de termos de considerar a resposta n umero de empregados 3

como uma vari avel aleat oria cont nua, quando o mais l ogico e assumi-la como uma vari avel aleat oria discreta, al em de exigir que o n umero de empregados em um ano e em uma empresa determinada n ao inuencia na situa c ao desta carater stica em anos posteriores, o que n ao e um presuposto de f acil aceita ca o em diferentes aplica co es reais, como no exemplo considerado. Uma metodologia mais adequada e a modelagem atrav es de dados longitudinais, a qual estudaremos a seguir. Neste sentido, primeiro deniremos os modelos lineares generalizados e posteriormente deniremos os modelos estat sticos para dados longitudinais atrav es das equa co es de estima ca o.

Modelos lineares generalizados para dados longitudinais

Utilizando a extens ao dos modelos lineares que constituem os modelos lineares generalizados denidos em Nelder & Wedderburn (1972), podemos analizar vari aveis resposta tanto discretas quanto cont nuas, desde que a fun ca o de probabilidade ou de densidade associada perten ca ` a fam lia exponencial, dentre os diversos estudos nestes modelos recomendamos os trabalhos de Liang & Zeger (1986), Zeger & Liang (1986) e Sen & Singer (1993).

2.1

Modelos lineares generalizados

Existe uma vasta literatura no assunto e a refer encia mais completa e o livro de McCullagh & Nelder (1989), no qual baseamos nosso estudo. Sejam Y1 , , Yn vari aveis aleat orias independentes, cada uma com fun c ao de densidade ou de probabilidade na fam lia exponencial escrita como (yl ; l , ) = exp[{yl l b(l ) + c(yl )} + a(yl , )], (1)

onde E{Yl } = db(l )/dl , que denotaremos por l , var{Yl } = 1 Vl , Vl = dl /dl ea fun c ao de vari ancia, = ( ) e o par ametro can onico e e o par ametro de dispers ao ( > 0) que, em geral, e desconhecido (l = 1, 2, , n).

Os modelos lineares generalizados s ao denidos por (1) e pelo componente sistem atico g (l ) = l , (2) onde l = xl e o preditor linear, = (1 , , p ) , p < n, e o vetor dos par ametros da regress ao a serem estimados, xl = (xl1 , , xlp ) representa os valores de p vari aveis explicativas e g () uma fun ca o mon otona e diferenci avel, denominada fun c ao de liga c ao. Como exemplos ou casos particulares de distribui co es que pertencem ` a fam lia exponencial (1) podemos mencionar a distribui ca o normal, Poisson e binomial, dentre outras, obtendo-se os modelos de regress ao linear m ultipla, regress ao Poisson, regress ao log stica e outros. As fun co es de liga c ao mais utilizadas s ao obtidas quando o par ametro can onico () coincide com o preditor linear, isto e, quando = e a fun ca o de liga c ao nestas situa c oes e chamada de liga ca o can onica. As liga co es can onicas para os modelos mencionados s ao, respectivamente, dadas por = , log = e log 1

2.1.1

Equa c oes de estima c ao

Uma fun c ao de estima c ao ou fun c ao de infer encia e, basicamente, uma fun ca o de vari aveis aleat orias e dos par ametros de interesse. S ao constru das de maneira que delas obtenhamos estimadores, com boas propriedades, dos par ametros envolvidos no modelo que descreve o problema a ser resolvido. Uma breve resenha acerca da hist oria do seu surgimento pode ser encontrada em Godambe (1991). Assumamos que Y1 , , Yn sejam vari aveis aleat orias independentes onde f (yl ; ) e a fun c ao de probabilidade ou densidade associada a Yl (l = 1, , n) ent ao, a fun c ao escore n log f (yl ; ), (y; ) = l=1 e uma fun ca o de estima ca o, onde y = (y1 , , yn ) e as ra zes da equa c ao (Y; ) = 0,

conhecida como equa c ao de estima c ao, s ao os estimadores de m axima verossimilhan ca para o par ametro . Uma outra fun ca o de estima c ao bastante utilizada e obtida considerando-se E(Yl ) = l () e denindo
n

(y; ) =
l=1

l () {yl l ()}

(3)

As ra zes da equa c ao de estima ca o associada a esta fun ca o s ao os chamados estimadores de m nimos quadrados de . O sistema de equa c oes (3) e utilizado para encontrar estimadores dos par ametros envolvidos em diversos modelos, por exemplo, nos modelos lineares generalizados. Observando estas importantes fun co es de vari aveis aleat orias e par ametros, vemos que, se associamos ` a observa c ao yl uma fun c ao de estima c ao l , obtemos
n

(y; ) =
l=1

l (yl ; ),

(4)

a fun ca o de estima ca o associada ` a amostra y. Em diversos trabalhos estudam-se condi c oes para que os estimadores baseados nestas fun c oes possuam propriedades estat sticas adequadas, como consist encia, suci encia e distribui ca o assint otica conhecida. Dentre as refer encias mais importantes est ao Godambe (1960), Godambe & Thompson (1976), Godambe (1991) e Takagi & Inagaki (1993).

2.2

Dados longitudinais

Seja Yl = (Yl1 , , Ylnl ) o vetor de respostas do l- esimo indiv duo, onde nl e o aveis explicativas, de n umero de observa c oes e seja xl = (xl1 , , xlnl ), o vetor de vari dimens ao p. Consideraremos os vetores Yl mutuamente independentes, de esperan ca E(Yli ) = li , com l = (l1 , , ln1 ) o correspondente vetor de m edias, g (li ) = xli , a liga ca o entre a m edia e as vari aveis explicativas denida em (2) e variancia var(Yli ) = Vl , 6

onde o elemento jk de Vl e a covariancia entre Ylj e Ylk , denotada por cov (Ylj , Ylk ) = vljk Nossa aten ca o ser a dirigida aos modelos marginais nos quais, ao inv es de considerar a distribui ca o conjunta do vetor de vari aveis resposta, modelaremos a esperan ca marginal E(Yli ) como fun c ao das vari aveis explicativas. Por esperan ca marginal entendemos a resposta m edia dentro da sub-popula c ao com mesmo valor de x. Especicamente, o modelo marginal possui as seguintes suposi c oes: a esperan ca marginal da resposta E(Yli ) = li , depende das vari aveis explicativas xli atrav es da rela c ao g (li ) = xli , onde e a fun ca o de liga ca o denida em (2), a vari ancia marginal depende da m edia marginal pela rela ca o var(Yli ) = 1 V (li ) onde V e a conhecida fun c ao de variancia e o par ametro de dispers ao, a correla ca o entre Ylj e Ylk e fun c ao da m edia marginal e, ` as vezes, de par ametros adicionais , isto e, corr(Yli , Ylj ) = (li , lj ; ) onde e uma fun ca o conhecida. Os coecientes de regress ao marginais possuem interpreta ca o similar aos coecientes de regress ao linear e, desta forma, podemos armar que os modelos marginais para dados correlacionados s ao an alogos naturais aos modelos lineares generalizados para dados independentes. Nosso interesse fundamental e interpretar os coecientes de regress ao considerando uma estrutura de correla ca o no vetor de respostas de cada unidade.

2.2.1

Equa c oes de estima c ao generalizadas

Para obter as estimativas , do vetor de par ametros de regress ao, necessitaremos das chamadas equa c oes de estima c ao generalizadas (GEE) denidas por
n

l=1

l cov (Yl )1 {yl l } = 0 7

(5)

A grande import ancia do trabalho (Liang & Zeger, 1986) e a proposta de diferentes modelos para a estrutura de correla ca o entre as observa c oes de cada indiv duo, isto implicou numa grande facilidade de interpreta c ao dos modelos de regress ao com medidas repetidas. Para tomar em considera ca o a correla c ao entre as respostas de cada unidade Liang & Zeger (1986) deniram a chamada matriz de correla c ao de trabalho R(), de maneira que 1 1 cov (Yl ) = Vl 2 R()Vl 2 . Mostramos a seguir algumas das principais estruturas de correla ca o utilizadas nestes modelos (ver, por exemplo Liang & Zeger, 1986; Zeger & Liang, 1986; Diggle, Liang & Zeger, 1996): independente, considera as respostas independentes numa mesma unidade. Isto implica que R e a matriz identidade, ou seja, assume a forma 1 0 0 0 1 0 R() = . . . . . . . . . . . . 0 0 1 n n
l l

Nesta situa ca o, o modelo e conhecido como de regress ao m ultipla e desta forma vemos que estamos numa situa ca o na qual generalizamos os modelos de regress ao linear m ultipla. auto-regressiva, corr(Ylj , Ylj +k ) = k , j = 1, , nl , k = 1, , nl , zero se j + k > nl . Se a distribui ca o da vari avel resposta e normal, esta estrutura de correla ca o corresponde ` a do modelo autoregressivo de ordem k . Por exemplo, no modelo autoregressivo de ordem 1 temos 1 0 ... 0 1 0 R() = . . . . . . . . . . . . 0 0 1 n n
l l

permut avel, corr(Ylj , Ylj +k ) = , signica que a correla ca o entre quaisquer

vari avel e a mesma e

1 1 R() = . . . .. . . . . . . . 1 n n
l l

M-dependente, corr(Ylj , Ylj +k ) = k , k = 1, , M , depende das M observa co es anteriores. Por exemplo, se M = nl 1, ent ao 1 1 nl 1 1 1 nl 2 R() = . . . . . . . . . . . . nl 1 nl 2 1 n n
l l

n ao especicada, todos os valores de correla c ao s ao diferentes e portanto temos 1 n (nl 1) diferentes par ametros para estimar e, portanto 2 l 1 12 1nl 12 1 2nl R() = . . . . . . . . . . . . 1nl 2nl 1
nl nl

A escolha da estrutura de correla c ao mais adequada em cada situa ca o e a crit erio do pesquisador, o qual depende da experi encia de trabalho com estes modelos. Tamb em, em determinadas situa co es n ao existem grandes diferen cas entre as estimativas obtidas segundo as diferentes estruturas de correla ca o. Continuando o exemplo apresentado na introdu c ao deste trabalho mostraremos a interpreta c ao destes modelos e as consequ encias de diferentes escolhas na matriz de correla ca o de trabalho.

Comportamento do n umero de empregados nas ind ustrias do Estado do Paran a

O Cadastro Industrial do Paran a tra ca um perl completo das empresas instaladas no estado, e dentre as informa co es nele contidas est ao: o nome de cada empresa, 9

endere co, n umero de empregados, principais produtos e se a empresa e exportadora ou n ao. Tabela 3: Estrutura computacional de um conjunto de dados longitudinal. Unidade Vari aveis explicativas amostral 1 2 p Resposta 1 x11 x12 x1p Y11 1 x11 x12 x1p Y12 . . . . . . . . . . . . . . . . . . 1 2 2 . . . 2 . . . n n . . . n x11 x21 x21 . . . x21 . . . xn1 xn1 . . . xn1 x12 x22 x22 . . . x22 . . . xn2 xn2 . . . xn2 . . . . . . . . . x1p x2p x2p . . . x2p . . . xnp xnp . . . xnp Y1 t Y21 Y22 . . . Y2 t . . . Yn1 Yn2 . . . Ynt

Utilizando os cadastros doados pelo Sistema Federa ca o das Ind ustrias do Estado do Paran a (Sistema FIEP) correspondentes aos anos 1998, 2000 e 2001 modelaremos o comportamento do n umero de empregados nas empresas industriais do Estado do Paran a atrav es dos modelos de regress ao generalizados para dados longitudinais. Estes modelos s ao altamente exigentes de m etodos num ericos no seu ajuste. Existem diversos programas dispon veis para ajustar os modelos de regress ao generalizados para dados longitudinais e o escolhido pode ser encontrado no endere co internet http://www.r-project.org, neste endere co est a dispon vel o programa R, o qual foi inicialmente escrito em 1997 por Robert Gentleman e Ross Ihaka do Departamento de Estat stica da Universidade de Auckland, em Auckland, Nova Zelandia. Posteriormente um grande n umero de pessoas tem contribu do com o programa, especialmente o professor Brian Ripley. A escolha deste programa foi baseada no estudo de Horton & Lipsitz (1999), onde os autores comparam a performance computacional das equa co es de estima c ao generalizadas em diferentes programas e concluem que, em geral, est ao bem imple10

mentadas. Um dos programas utilizados nesse estudo pode ser obtido no endere co http://www.stats.ox.ac.uk/pub/SWin do Dr. Brian Ripley, mesmo autor do programa R. Outros programas que podem ser utilizados para ajustar estes modelos s ao o PROCEDURE GENMOD (SAS Institute 1996), Stata (Stata Corp. 1997), SUDAAN (Research Triangle Institute) e a macro Oswald (http://lib.stat.cmu.edu/S/) desenvolvida em S-Plus por David M. Smith, sendo estes programas comerciais. Em todos os programas que ajustam modelos para dados longitudinais precisamos organizar os dados na forma apresentada na Tabela 3. Observemos que a forma apresentada diferencia-se daquela na Tabela 2 pela considera ca o de uma u nica vari avel resposta.

3.1

Estudo descritivo

Durante a introdu c ao a este trabalho, foi informado que uma poss vel explica ca o das varia co es nas observa co es poderia ser o fato de as empressas serem exportadoras ou n ao. Tamb em podemos considerar como fator de inu encia na resposta o tamanho da empresa segundo o n umero de funcion arios em 2001. Nesse caso precisamos classicar as empresas segundo seu tamanho, e com esse objetivo observamos nas informa c oes de Pessoal Ocupado e de Sal arios e Outras Remunera c oes das empresas registradas no Cadastro Central de Empresas do IBGE, ativas em 1998 (http://www.ibge.gov.br) e decidimos adaptar o crit erio de classica ca o l a utilizado. No relat orio mencionado s ao consideradas cinco faixas segundo o pessoal ocupado de 0 a 9, 10 a 49, 50 a 99, 100 a 499 e 500 e mais. Para as empresas industriais do Estado do Paran a a distribui c ao percentual segundo o n umero de empregados no ano 2001 pode ser observada nn Figura 1. Observamos que as empresas com menos de 10 funcion arios representam somente 1% do total de empresas selecionadas para o estudo, o que pode ser devido ao pouco tempo de sobreviv encia delas. Consideraremos ent ao somente quatro faixas de tamanho das empresas segundo o n umero de empregados, de 0 a 49, 50 a 99, 100 a 499 e 500 e mais. Desta forma temos denidas as vari aveis explicativas a serem utilizadas com o objetivo de modelar o n umero de empregados, ou seja, consideraremos o ano de 11

Figura 1: Distribui ca o percentual das empresas industriais do Estado do Paran a segundo o pessoal assalariado no ano 2001

Distribuio percentual das empresas segundo o pessoal assalariado


1%, de 0 a 9 empregados 11%, 500 e + empregados

25%, de 10 a 49 empregados

23%, de 50 a 99 empregados

40%, de 100 a 499 empregados

observa ca o (1998, 2000 e 2001) e o tamanho da empresa como poss veis explica co es ao comportamento da vari avel resposta, o n umero de empregados nas empresas industriais do Estado do Paran a. Nosso seguinte passo e atribuir uma distribui c ao de probabilidade para a vari avel resposta e com isso denir a fun c ao de liga c ao a ser utilizada. Com este objetivo mostramos nas Figuras 2, 3 e 4 o histograma de freq u encias da vari avel em estudo. Da teoria das probabilidades sabemos que ` as vari aveis aleat orias que assumem valores inteiros associamos fun co es de probabilidade, como a binomial, Poisson, geom etrica, binomial negativa e outras. Em nosso exemplo o n umero de empregados e a vari avel de interesse a qual evidentemente assume valores inteiros e das guras deduzimos que podemos assumir a distribui c ao Poisson como a correspondente a esta vari avel. Esta dedu c ao implica, da teoria apresentada na Se ca o 2.1, que nos propomos utilizar uma regress ao Poisson para dados longitudinais e que portanto a fun ca o de 12

Figura 2: Histogramas de frequ encias das empresas segundo o n umero de empregados no ano 1998

Histograma 1998
500 Frequncia 0 0 100 300

1000

2000 Nmero de empregados

3000

4000

liga c ao can onica e a logar tmica. Tamb em propomos uma estrutura de correla c ao, dentre aqueles apresentadas na Se c ao 2.2.1. Na Figura 5 apresentamos o chamado diagrama paralelo de dispers ao. Esse gr aco e utilizado com a nalidade de identicar poss veis modelos para a estrutura de covari ancia e/ou de detectar pers de respostas discrepantes. Desta gura n ao e poss vel enchergar comportamento nenhum quanto a uma poss vel estrutura de correla ca o entre as observa c oes numa mesma unidade amostral (empresa) mas, pelo reduzido n umero de observa c oes repetidas (3), devemos esperar que n ao existam grandes diferen cas entre as estimativas das matrizes de correla ca o de trabalho obtidas atrav es de diferentes estruturas. Na pr oxima Se c ao mostraremos os ajustes dos diferentes modelos para dados longitudinais obtidos quando modicamos a estrutura de correla c ao.

13

Figura 3: Histograma de frequ encia do n umero de empresas segundo o n umero de empregados no ano 2000

Histograma 2000

Frequncia

0 100 0

300

500

2000

4000

6000

8000

Nmero de empregados

3.2

Ajuste do modelo de regress ao para dados longitudinais

As diferentes situa co es de correla ca o j a apresentadas na Se c ao 2.2.1 ser ao consideradas aqui incluindo em cada caso as estimativas dos par ametros de regress ao e da matriz de correla ca o de trabalho. auto-regressiva, a matriz de correla c ao de trabalho estimada e da forma
1.0000 0.7160 0.5126 R() = 0.7160 1.0000 0.7160 , 0.5126 0.7160 1.0000

indicando uma forte depend encia das observa c oes no tempo. Por sua vez, as estimativas dos par ametros de regress ao s ao

14

Figura 4: Histograma de frequ encia do n umero de empresas segundo o n umero de empregados no ano 2001

Histograma 2001
600 Frequncia 0 0 200 400

2000

4000

6000

8000

Nmero de empregados

Par ametro Intercepto Exportadora Ano 1998 Ano 2000 Mais de 500 Entre 100 e 499 Entre 50 e 99

Estimativa 3.8435 0.2416 -0.1998 -0.1297 3.1495 1.4841 0.4245

Desvio padr ao 0.1307 0.1021 0.0528 0.0407 0.1694 0.1456 0.1398

Zobs 29.40 2.37 -3.78 -3.19 18.59 10.19 3.04

P r(Z > |Zobs |) < .0001 0.0179 0.0002 0.0014 < .0001 < .0001 0.0024

Destes resultados podemos observar que existe inu encia signicativa tanto dos anos de observa c ao quanto do tamanho e da natureza exportadora ou n ao da empresa, o modelo estimado para a m edia do n umero de empregados e
log() = 3.8435 + 0.2416 Exportadora 0.1998 Ano 1998 01297 Ano 2000 +3.1495 Mais de 500 + 1.4841 Entre 100 e 499 + 0.4245 Entre 50 e 99

15

Figura 5: Diagrama paralelo de dispers ao: cada linha mostra o comportamento do n umero de empregados nos anos 1998, 2000 e 2001 de cada empresa.

Nmero de empregados

20 1998 Anos

9000

2000

2001

Exportadora e uma vari avel indicadora de se a empresa declarou-se exportadora no ano 2001, Ano 1998 e Ano 2000 s ao vari aveis tamb em indicadoras dos respectivos instantes de tempo e as vari aveis Mais de 500, Entre 100 e 499 e Entre 50 e 99 s ao vari aveis indicadoras do tamanho da empresa. Conclu mos dos sinais positivos e dos valores dos coecientes das vari aveis Exportadora e das vari aveis do tamanho da empresa, que o n umero de empregados aumenta mais se a empresa for exportadora e para as maiores empresas, no per odo de tempo analisado. permut avel, a matriz de correla c ao de trabalho estimada e da forma
1.0000 0.6506 0.6506 R() = 0.6506 1.0000 0.6506 , 0.6506 0.6506 1.0000

indicando novamente uma forte depend encia das observa co es no tempo. As estimativas dos par ametros de regress ao mudaram pouco, sendo 16

Par ametro Intercepto Exportadora Ano 1998 Ano 2000 Mais de 500 Entre 100 e 499 Entre 50 e 99

Estimativa 3.8307 0.2226 -0.1919 -0.1289 3.1839 1.5006 0.4341

Desvio padr ao 0.1215 0.1044 0.0524 0.0408 0.1628 0.1368 0.1298

Zobs 31.52 2.13 -3.66 -3.16 19.56 10.97 3.35

P r(Z > |Zobs |) < .0001 0.0330 0.0002 0.0016 < .0001 < .0001 0.0008

Destes resultados chegamos ` as mesmas conclus oes do tem anterior. M-dependente, foi considerada a depend encia do instante anterior de tempo observado, assim M=1 e a matriz de correla c ao de trabalho estimada e da forma
1.0000 0.7023 0.0000 R() = 0.7023 1.0000 0.7023 , 0.0000 0.7023 1.0000

indicando novamente uma forte depend encia das observa co es no tempo e as estimativas dos par ametros de regress ao mudaram, sendo
Par ametro Intercepto Exportadora Ano 1998 Ano 2000 Mais de 500 Entre 100 e 499 Entre 50 e 99 Estimativa 3.8940 0.4698 -0.2188 -0.1311 2.8868 1.3223 0.3616 Desvio padr ao 0.3057 0.2317 0.0600 0.0409 0.3949 0.3330 0.3258 Zobs 12.74 2.03 -3.65 -3.20 7.31 3.97 1.11 P r(Z > |Zobs |) < .0001 0.0426 0.0003 0.0014 < .0001 < .0001 0.2670

Observemos que segundo este modelo de correla ca o, as empresas menores (de at e 99 empregados) se comportam de maneira similar. Por considerarmos que esta estrutura de correla ca o n ao e adequada (somente considera depend encia do instante de tempo anterior), ajustaremos este modelo com M=2, obtendo-se
1.0000 0.7159 0.5241 R() = 0.7159 1.0000 0.7159 , 0.5241 0.7159 1.0000

indicando novamente uma forte depend encia das observa co es no tempo. Nesta situa ca o as estimativas dos par ametros de regress ao s ao semelhantes com ` as outras situa c oes j a consideradas, sendo 17

Par ametro Intercepto Exportadora Ano 1998 Ano 2000 Mais de 500 Entre 100 e 499 Entre 50 e 99

Estimativa 3.8426 0.2403 -0.1993 -0.1296 3.1519 1.4853 0.4252

Desvio padr ao 0.1299 0.1021 0.0528 0.0407 0.1687 0.1448 0.1389

Zobs 29.58 2.35 -3.78 -3.18 18.28 10.26 3.06

P r(Z > |Zobs |) < .0001 0.0186 0.0002 0.0015 < .0001 < .0001 0.0022

n ao especicada, a matriz de correla ca o de trabalho estimada e da forma


1.0000 0.7254 0.5241 R() = 0.7254 1.0000 0.7157 , 0.5241 0.7157 1.0000

indicando novamente uma forte depend encia das observa co es no tempo. Assim, as estimativas dos par ametros de regress ao mudaram pouco, sendo
Par ametro Intercepto Exportadora Ano 1998 Ano 2000 Mais de 500 Entre 100 e 499 Entre 50 e 99 Estimativa 3.8424 0.2410 -0.1998 -0.1295 3.1517 1.4852 0.4252 Desvio padr ao 0.1301 0.1021 0.0529 0.0407 0.1689 0.1450 0.1391 Zobs 29.53 2.36 -3.78 -3.18 18.66 10.24 3.06 P r(Z > |Zobs |) < .0001 0.0182 0.0002 0.0015 < .0001 < .0001 0.0022

Nesta situa ca o observamos que as estimativas tanto da matriz de correla ca o de trabalho quanto as estimativas dos par ametros da regress ao s ao da mesma ordem daqueles obidas quando consideramos as estruturas auto-regressiva, permut avel e n ao especicada na matriz de correla ca o de trabalho, permitindo-nos as mesmas conclus oes que naquelas situa c oes.

3.3

Conclus oes

Observamos que atrav es de metodologias estat sticas cl assicas n ao foi poss vel detectar diferen cas signicativas no comportamento do n umero de empregados nas ind ustrias do Estado do Paran a, isso devido ` a necessidade de assumir independ encia nas observa co es no tempo em cada empresa e tamb em ao fato de ter que considerar comportamento normal na resposta, contr ario ao observado nas Figuras 2, 3 e 4. 18

Figura 6: Comportamento do n umero m edio de empregados nas ind ustrias do Estado do Paran a, segundo seu tamanho e a atua c ao no mercado interno e/ou externo.
Comportamento do nmero de empregados nas empresas no exportadoras
1400

Comportamento do nmero de empregados nas empresas exportadoras


1400

1200

1200

1000

1000

800

800

600

0 a 49 empregados 50 a 99 empregados 100 a 499 empregados 500 e + empregados

600

0 a 49 empregados 50 a 99 empregados 100 a 499 empregados 500 e + empregados

400

400

200

200

1998 ANO

2000

2001

1998 ANO

2000

2001

Por outro lado, atrav es da utiliza c ao dos modelos lineares generalizados para dados longitudinais obtivemos diferen cas signicativas entre as empresas segundo a classica c ao em exportadoras e n ao exportadoras, segundo o tamanho e tamb em foi estat sticamente signicativa a inu encia do ano, isto e, o n umero de empregados nas ind ustrias est a em crescimento nos anos estudados. Na Figura 6 apresentamos o comportamento descrito acima utilizando os resultados obtidos do modelo de regress ao Poisson para dados longitudinais com matriz de correla ca o de trabalho n ao especicada. Observamos desta gura que as empresas com mais de 100 empregados diferenciam-se signicativamente no n umero de m edio de empregados entre as exportadoras e n ao exportadoras, senda o comportamento crescente. J a nas empresas com menos de 100 empregados praticamente n ao houve mudan cas no n umero m edio de empregados entre os anos considerados e mesmo sendo as empresas exportadoras ou n ao.

19

Agradecimentos
A colaborac ao dos senhores Ana Paula Bertoglio, Eduardo Kossovski e Osvaldo Pimentel do Centro Internacional de Neg ocios do Sistema Federa ca o das Industrias do Estado do Paran a foi determinante para poder realizar este trabalho com dados reais. Eles gentilmente atenderam d uvidas e doaram o Cadastro Industrial do Estado do Paran a dos anos 1998, 2000 e 2001.

Refer encias
Diggle, P. J., Liang, K.-Y. & Zeger, S. L. (1996). Analysis of longitudinal data . Oxford University Press Inc., New York. FIEP, Sistema (1998). Cadastro Industrial do Estado do Paran a 1998 . Editora Brasileira de Guias Especias. FIEP, Sistema (2000). Cadastro Industrial do Estado do Paran a 2000 . Editora Brasileira de Guias Especias. FIEP, Sistema (2001). Cadastro Industrial do Estado do Paran a 2001 . Editora Brasileira de Guias Especias. Godambe, V.P. (1960). An optimum property of regular maximum likelihood estimation. Annals of Mathematical Statistics , 81, 12081212. Godambe, V.P. (1991). Estimating Functions . Oxford Science Publishing. Godambe, V.P. & Thompson, M.E. (1976). Some aspects of the theory of estimating equations. Journal of Statistical Planning and Inference , 2, 95104. Horton, N. J. & Lipsitz, S.R. (1999). Review of software to t generalized estimating equation regression models. The American Statistician , 53, 160169. Liang, K.-Y. & Zeger, S.L. (1986). Longitudinal data analysis using generalized linear models. Biometrika , 73(1), 1322. McCullagh, P. & Nelder, J.A. (1989). Generalized Linear Models . Chapman and Hall, Oxford. Nelder, J.A. & Wedderburn, R.W.M. (1972). Generalized linear models. Journal of the Royal Statistical Society , 14(135), 370384. 20

Rohatgi, V. K. (1976). An Introduction to Probability Theory and Mathematical Statistics . John Wiley & Sons. Sen, P.K. & Singer, J. (1993). Large Sample Methods in Statistics: an introduction with applications . Chapman and Hall. Takagi, Y. & Inagaki, N. (1993). Estimating function with asymptotic bias and its estimator. Annals of the Institute of Statistical Mathematics , 45(3), 499510. Zeger, S. L. & Liang, Y.-Y. (1986). Longitudinal data analysis for discrete and continuous outcomes. Biometrics , 42, 121130.

21

Anda mungkin juga menyukai