Análise Multivariada em R para Administração e Economia

Análise Multivariada
para os Cursos de Administração, Ciências Contábeis e Economia
Aplicações em R
Marcos F. Silva
http://marcosfs2006.googlepages.com
04/11/2007
Capı́tulo 0 - Objetivo
Estas notas objetivam ilustrar como o software estatı́stico R1 pode ser utilizado para implementar as técnicas
de análise multivariada descritas no livro Análise Multivariada para os Cursos de Administração, Ciências
Contábeis e Economia de autoria dos Profs. Luiz J. Corrar, Edilson Paulo, José Maria Dias Filho e Colaboradores
(Ed. Atlas, 2007).
O principal objetivo é a reprodução, na medida do possı́vel, dos exemplos apresentados no livro, que em sua
maioria são desenvolvidos utilizando-se o software estatı́stico SPSS. Com isto objetiva-se apresentar o R como
uma alternativa viável, gratuita e de excelente qualidade aos softwares comerciais usualmente utilizados para a
implementação de técnicas estatı́sticas.
Pressupõe-se que o leitor já possua conhecimentos básicos do software R. Caso o leitor não esteja familiarizado
com o software, poderá consultar as referência em português indicadas em http://marcosfs2006.googlepages.com.
Capı́tulo 1 - Introdução à Análise Multivariada
Neste capı́tulo, os autores definem a Análise Multivariada e fazem uma rápida apresentação de suas principais
técnicas (Regressão Múltipla, Análise Discriminante, Regressão Logistica, Análise Fatorial, Análise de Con-
glomerados e Escalonamento Multidimensional). Além destas técnicas, são apresentadas duas outras técnicas
(Redes Neurais e Lógica Nebulosa) que não são usualmente tratadas nos compêndios de Análise Multivariada.
No último capı́tulo apresenta-se a Lei de Benford.
Os dados utilizados pelos autores para ilustrar as técnicas apresentadas podem ser obtidos no site da Edi-
tora Atlas (www.EditoraAtlas.com.br). Os dados estão, em sua maioria, no formato .sav que é o formato
proprietário do SPSS.
O conjunto de dados utilizado neste capı́tulo está no arquivo "Cap 01 - Exemplo.sav".

1 Disponı́vel para download no site www.R-project.org
1
1.2 Exame Gráfico dos Dados
Para a leitura destes dados pelo R precisaremos carregar o pacote foreign e utilizar a função read.spss()
contida no mesmo, que possibilita a importação de dados no formato .sav. Os comandos em R são os seguintes:
> library(foreign)
> dados <- read.spss("Cap 01 - Exemplo.sav")
> dados <- as.data.frame(dados)
> str(dados)
' data.frame': 100 obs. of 9 variables:

$ CAP : Factor w/ 2 levels "Capital Aberto",..: 1 2 2 2 1 2 1 2 1 2 ...
$ TAM : Factor w/ 3 levels "Pequena","Média",..: 1 1 2 1 3 2 1 2 3 2 ...
$ PL : num 63685 89430 81300 79945 105690 ...
$ AC : num 30475 53000 35775 30475 60950 ...
$ PC : num 41400 43125 74175 31050 58650 ...
$ AP : num 79300 128100 125050 118950 68625 ...
$ ARLP: num 5004 25020 43368 8340 7506 ...
$ PELP: num 40098 17604 33252 26406 58680 ...
$ VLL : num 0.0461 0.0758 0.0950 0.0189 0.0245 ...
A função str() exibe a estrutura dos dados importados.
1.2.1 Exemplo de Base de Dados
Nesta sessão do livro discute-se a obtenção de estatı́sticas descritivas das variáveis contidas na base de dados
em exame. No R isto pode ser obtido da seguinte forma:
> summary(dados)
CAP TAM PL AC
Capital Aberto :60 Pequena:34 Min. : 33875 Min. :14575
Capital Fechado:40 Média :32 1st Qu.: 61991 1st Qu.:29150
Grande :34 Median : 67750 Median :34450
Mean : 71246 Mean :35311
3rd Qu.: 81300 3rd Qu.:39750
Max. :111110 Max. :60950
PC AP ARLP PELP
Min. :12075 Min. : 56425 Min. : 1668 Min. : 0
1st Qu.:41400 1st Qu.: 88450 1st Qu.:12302 1st Qu.:24450
Median :51750 Median :109038 Median :17931 Median :33252
Mean :50249 Mean :106094 Mean :19716 Mean :34377
3rd Qu.:59081 3rd Qu.:126956 3rd Qu.:26897 3rd Qu.:44988
Max. :79350 Max. :152500 Max. :45036 Max. :59658
VLL
Min. :-0.117278
1st Qu.: 0.005621
Median : 0.015396
Mean : 0.016950
2
3rd Qu.: 0.030162
Max. : 0.096513
Como não consta das estatı́sticas acima o desvio padrão, vamos calculá-los da seguinte forma:
> sapply(dados, class)
CAP TAM PL AC PC AP ARLP PELP

"factor" "factor" "numeric" "numeric" "numeric" "numeric" "numeric" "numeric"
VLL
"numeric"
> desvpad <- apply(dados[, -c(1, 2)], 2, sd)

> round(desvpad, 2)
PL AC PC AP ARLP PELP VLL

15312.14 10213.83 12942.80 24257.34 9971.79 12916.70 0.03
A função sapply() foi utilizada para exibir o tipo de cada uma das variáveis do conjunto de dados. Vê-se que,
à exceção das duas primeiras variáveis, todas são quantitativas. A função apply() foi utilizada para calcular o
desvio padrão para as variáveis quantitativas da base de dados.
1.2.2 - Exame da Forma da Distribuição da Variável
Nesta seção do livro são apresentadas algumas técnicas de visualização da distribuição de variáveis. Especı́fica-
mente são feitos histogramas e ramo-e-folhas.
Histograma da variável Patrim^

onio Lı́quido.
> hist(dados$PL, freq = FALSE, main = "Histograma da Variável\nPatrim^

onio Lı́quido")
> mPL <- mean(dados$PL)
> dpPL <- sd(dados$PL)
> curve(dnorm(x, mean = mPL, sd = dpPL), xlim = c(min(dados$PL),
+ max(dados$PL)), n = 999, add = TRUE, col = "blue")
3
Histograma da Variável
Patrimônio Líquido
3e−05
2e−05
Density
1e−05
0e+00
40000 60000 80000 100000 120000
dados$PL
Histograma da variável Ativo Circulante.
> hist(dados$AC, freq = FALSE, main = "Histograma da Variável\nAtivo Circulante")

> mAC <- mean(dados$AC)
> dpAC <- sd(dados$AC)
> curve(dnorm(x, mean = mAC, sd = dpAC), xlim = c(min(dados$AC),
+ max(dados$AC)), n = 999, add = TRUE, col = "blue")
Ativo Circulante
0e+00 1e−05 2e−05 3e−05 4e−05 5e−05 6e−05
Density
10000 20000 30000 40000 50000 60000
dados$AC
Histograma da variável Ativo Realizável a Longo Prazo.
4
> hist(dados$ARLP, freq = FALSE, main = "Histograma da Variável\nAtivo Realiz. Longo Prazo")
> mARLP <- mean(dados$ARLP)
> dpARLP <- sd(dados$ARLP)
> curve(dnorm(x, mean = mARLP, sd = dpARLP), xlim = c(min(dados$ARLP),
+ max(dados$ARLP)), n = 999, add = TRUE, col = "blue")
Ativo Realiz. Longo Prazo
4e−05
3e−05
Density
2e−05
1e−05
0e+00
0 10000 20000 30000 40000 50000
dados$ARLP
O ramo-e-folhas é uma forma alternativa, semelhante ao histograma, de se avaliar a distribuição de uma variável
quando a quantidade de observações não é muito grande.
> stem(dados$PL, scale = 2)
The decimal point is 4 digit(s) to the right of the |
3 | 4
3 | 9
4 | 12
4 | 567
5 | 00114
5 | 778
6 | 1111111111222444444
6 | 5555555566668888899
7 | 022333
7 | 5556677999
8 | 00001111333344
8 | 57999
9 | 11233
9 | 566
10 |
10 | 666
11 | 1
5
Embora não tenha sido apresentado no livro, o gráfico denominado QQ-Plot é também uma boa opção para
inspecionar graficamente se a distribuição de uma variável aproxima-se da distribuição normal. No R este gráfico
pode ser produzido da seguinte forma:
> par(mfrow = c(1, 3))

> qqnorm(dados$PL, xlab = "Patrim^
onio Lı́quido")
> qqline(dados$PL)
> qqnorm(dados$AC, xlab = "Ativo Circulante")
> qqline(dados$AC)
> qqnorm(dados$ARLP, xlab = "Ativo Realiz. Longo Prazo")
> qqline(dados$ARLP)
Normal Q−Q Plot Normal Q−Q Plot Normal Q−Q Plot

60000
● ● ● ●
●
●
●
●● ●
40000
●
1e+05
●
●●●● ●●
●● ●●● ●
50000
●
●● ●
● ●●
● ●●
●● ●
●●
●
●● ● ●
●
●
●
30000
● ●
●●
●
●
●●
●
●
●
●
●● ●
●
8e+04
●
●●
● ●
●●
●● ●
●●
● ●
●
Sample Quantiles
Sample Quantiles
Sample Quantiles
●●
● ●
40000
●
●
●
● ●
●
● ●
●
●●
● ●
●
●
●● ●
●
●● ●
●
●
●
●●
●
●● ●
●
●●
● ●
●● ●
●
●●
●
●● ●
●
●
20000
●
●
●●
● ●●
●
●
●●
●
● ●
●
●●
●
●●
● ●●
●
●
●
●●
●
●●
● ●
●
●●
●
●●
●
●●
●
●● ●
●●
●●
●
● ●
●
●●
●●
● ●
●
●
6e+04
●
●
●
30000
●
●●
●●
●●
●
●● ●
●●
●
●
●
●
●●
●●
●
●
●
●●
● ●
●
●● ●●
●
●
●
●
●
●●
●● ●
●
● ●
●●
●
●
●●
●● ●
●● ●●
●
●
10000
●● ●
●●
●●
● ●
● ●●●
● ●
● ●●
20000
● ●
●●●●
●● ●●
4e+04
●
●
● ● ●●●
● ●
● ●●
●
● ● ●
0
−2 −1 0 1 2 −2 −1 0 1 2 −2 −1 0 1 2
Patrimônio Líquido Ativo Circulante Ativo Realiz. Longo Prazo
1.2.3 - Exame da Relação entre Variáveis
Nesta seção apresenta-se um gráfico que permite visualizar simultaneamente gráficos de dispersão para mais de
duas variáveis. O objetivo é avaliar quais variáveis podem apresentar relações lineares entre si.
> pairs(dados[, c("PL", "AC", "PC", "AP")])
6
20000 40000 60000 60000 120000
● ● ●
● ● ●● ● ●
● ● ●● ●● ●●●●
● ● ● ● ●
●● ● ● ●
●
●● ● ● ● ● ●●
● ●
8e+04
●● ● ● ● ●●
●●●●● ● ●
● ●● ●●
● ● ● ● ● ● ● ●
●●●
● ● ●● ● ●● ●● ● ●
● ● ● ●
● ●● ● ●
●●● ● ● ● ● ● ●●● ● ●● ● ● ●●
PL ●●
● ● ●●●
●●
●●
● ● ●●
●● ●●
●●
● ●
●●● ● ●
●●●●● ● ●●
●
●
●
●
●● ●●
●
●● ●
●●
● ●●●● ●●●
● ●● ●● ● ●● ●
● ●●
●
●● ●● ●●● ●●
●
●
●
●
●
●●
●
●
●● ●●
●●
● ●
●●
●● ●
●● ● ●●
●
● ●
● ● ●●● ● ●●
● ●● ● ● ●
●● ● ● ●● ●● ●
● ● ●
● ●●● ●● ●● ●
● ● ●
4e+04
● ●● ● ●
●
●
● ●
●● ● ● ●● ●
● ●
● ● ●
60000
● ● ●● ● ●
● ● ●
●
●●●● ● ● ●● ● ● ● ● ●
● ● ● ● ● ● ●●● ● ● ●
● ●●
● ●
40000
●● ● ● ● ●●
●●
● ● ● ●● ● ● ● ● ●● ●
● ● ● ●● ●● ● ● ●
●
●●
●●
●
●
●●
●
●
●
●
●
●
●●●●●● ●
●●
●●
●●
●●
●●●
● ●●
●
●
●
●
● ●
● ● AC ●
●
● ●●●●● ●●
●●●● ●
●●●●
●●●●
●●
●
●
●●
●●● ●●
●●
●
●
●
●●
● ● ●
● ●
●
● ●
● ● ●
●●●
●●
●
●
●
●
●
●● ●
● ●●
●●
●●●
●
●● ●●
● ●●
● ● ●●
●●● ● ● ●● ●● ● ●● ● ●●● ● ●● ●
●●
20000
● ● ● ●●●●● ● ●
● ●
● ● ●●● ● ● ●● ●● ●
●● ● ●
●● ● ● ●● ●●● ●
●
● ●●●
●
● ● ●
● ● ●
● ● ●
70000
● ● ●
●
● ● ● ● ●
● ●
● ● ● ●
● ● ● ● ● ●
● ●● ●●
● ● ●
●● ● ● ●● ● ●● ● ● ●●●● ● ● ● ● ●●●
● ●●● ●●●●
●●●
● ●● ● ●●●●●●● ● ●● ●
●●
●●
●
● ● ●
●● ● ● ●●
●
●
●●● ●● ●
● ● ●
● ●
● ●●●● ● ● ● ● ●●●●● ● ● ●●●● ●
● ●●●●●● ● ● ● ●● ● ● ● ●
●●
● ●
●
●●● ●
● ●● ● ●●● ● ●● ● ● ●●
PC ●●● ● ●
40000
●●● ● ● ● ●●
● ●●● ●● ●●
● ●
● ●●● ● ●●
●● ●● ● ●
●
● ●●● ●
● ●
● ●●
●●
●
●● ●
●● ●
● ●●● ● ● ●● ● ●● ●
●
● ●●
● ● ●
● ● ● ● ●●● ● ● ●
● ● ●
● ● ●● ● ● ●● ● ● ●●
● ● ● ● ● ●
10000
● ● ●
●●● ● ●● ●● ●
● ● ●
● ● ●● ●●
●● ●●● ● ●
● ●●
● ●● ●
●● ● ● ●
120000
● ● ● ●
● ● ●●●●●●●● ● ●● ● ●● ● ●● ●● ● ●
●●●● ● ●●
● ●
● ● ● ●●● ● ● ●●
●● ●● ● ●●●●
●
●●
●● ●● ● ●●●
● ● ● ● ●● ●●●●● ● ●
●● ● ● ●● ● ●
●●● ●●
●
● ●● ●● ●
●● ●●
●
●
● ●●●●
●
●
● ●
●● ●
●● ●●
●
● ●
●
● ● ●●
●
● ●●●● ●
● ●
● ●
●●●
●●●
●
● ●●
● ● ●●
● ●
●●●●
●●
●
●●●
●●● ●
AP
● ● ● ●
● ● ● ● ● ●●●
●
●
● ●● ● ●
● ●●
●● ● ● ● ● ● ● ●
●●● ● ● ●●
● ●●● ●
● ●
● ● ● ●● ● ●●●●
60000
●●● ● ●● ● ● ●●●
●●
● ●● ●● ● ●●
4e+04 8e+04 10000 40000 70000
1.2.4 - Exame das Diferenças de Grupos
Nesta seção do livro são apresentados recursos gráficos para auxiliar na verificação de diferenças entre grupos de
obeservações em relação às variáveis de interesse. O gráfico a seguir evidencia a diferença na variável Patrimônio
Lı́quido para os dois tipos de companhia existentes na base de dados, sociedades de capital aberto e de capital
fechado.
> boxplot(PL ~ CAP, data = dados, xlab = "Tipos de S.A.", ylab = "Patrim^
onio Lı́quido")
1e+05
8e+04
6e+04
4e+04
Capital Aberto Capital Fechado
Tipos de S.A.
7
Observações Atı́picas (outliers)
Nesta seção são apresentados alguns métodos gráficos para a detecção de observações atı́picas. Um gráfico muito
utilizado com esta finalidade é o boxplot. No R este gráfico pode ser produzido da seguinte forma:
> bxp <- boxplot(dados$AC, dados$PC, names = c("Ativo Circulante",

+ "Passivo Circulante")) 70000
●
●
●
50000
30000
10000
Ativo Circulante Passivo Circulante
Aparentemente, a variável Ativo Circulante apresenta 3 valores atı́picos. Mas na realidade são 4, sendo que
um é repetido conforme mostrado a seguir:
> bxp$out
[1] 60950 59625 60950 58300 12075
> bxp$group
[1] 1 1 1 1 2
Para evidenciar diferenças entre grupos de variáveis pode-se utilizar diferentes sı́mbolos ou sı́mbolos de cores
diferentes para plotar os dados. Os comandos a seguir ilustram como fazer isso usando o R:
> plot(PC ~ PL, data = dados, type = "n", xlab = "Passivo Circulante",
+ ylab = "Patrim^
onio Lı́quido")
> with(subset(dados, TAM == "Pequena"), points(PC ~ PL, pch = 16,
+ col = "blue"))
> with(subset(dados, TAM == "Média"), points(PC ~ PL, pch = 15,
8
+ col = "red"))
> with(subset(dados, TAM == "Grande"), points(PC ~ PL, pch = 17,
+ col = "green"))
> legend("bottomright", legend = c("Pequena", "Média", "Grande"),
+ col = c("blue", "red", "green"), pch = c(16, 15, 17))
70000
● ●
●
50000
●
● ●
●
● ●
● ● ●
● ● ● ●
●
● ●●
● ●
● ●
30000
●
●
●
● ●
●
●
● ● Pequena
Média
10000
● Grande
4e+04 6e+04 8e+04 1e+05
Passivo Circulante
Outra possibilidade é a utilização de gráficos condicionais. O pacote lattice disponibiliza funções que possi-
bilitam a elaboração destes gráficos.
> library(lattice)
> xyplot(PC ~ PL | TAM, data = dados, layout = c(3, 1))
40000 60000 80000 100000
Pequena Média Grande

8e+04 ●
●
●●
● ● ●
●
●
●● ● ●
●● ● ● ● ● ●
6e+04 ● ● ● ● ●
● ● ● ● ●
● ● ● ● ●● ●
● ●
● ● ● ● ●
● ● ●● ● ● ● ●
● ●
● ● ● ● ●
PC
● ● ●
● ● ● ● ●
● ● ● ●
● ● ● ● ●
4e+04 ●
● ●● ●
● ● ● ●
● ●
●
●
●
● ●
●
●
2e+04 ●
40000 60000 80000 100000 40000 60000 80000 100000

PL
Gráficos tridimensionais podem ser produzidos com a função scatterplot3d() do pacote de mesmo nome.
9
> library(scatterplot3d)
> scatterplot3d(dados$AC, dados$PC, dados$PL)
●
●
●
●
●
●
● ●
● ● ●
● ●● ● ● ●
20000 40000 60000 80000 100000120000
● ●● ●●
●● ● ● ●
● ● ●
●
●● ●● ●
● ● ●●
● ● ●● ● ● ●
●● ● ● ●● ●
● ● ●
●● ● ● ●●
dados$PC
●● ●
●●
●
●●
●●● ● ●●
● ●
● ●
●
dados$PL
●● 80000
●● ●
● ● 70000
●
● 60000
● 50000
40000
●
30000
20000
10000
10000 20000 30000 40000 50000 60000 70000
dados$AC
1.4 - Dados Perdidos (missing values)
A base de dados utilizada não contém valores faltantes. Assim, para ilustrar os procedimentos descritos nesta
seção para lidar com dados faltantes, vamos construir um conjunto de dados de teste, conforme ilustrado a
seguir:
> dadosTeste <- data.frame(Var1 = c(3, 7, NA, 9, 18, 26, 5, 40),

+ Var2 = c(70, 45, 16, 29, 74, 38, 50, 41), Var3 = c(5, NA,
+ 12, 2, NA, 7, 9, 1))
> dadosTeste
Var1 Var2 Var3

1 3 70 5
2 7 45 NA
3 NA 16 12
4 9 29 2
5 18 74 NA
6 26 38 7
7 5 50 9
8 40 41 1
O R utiliza a string NA para indicar os valores faltantes.
O primeiro procedimento descrito consiste em remover da base de dados os registros que apresentem valores
faltantes em qualquer das variáveis. Para identificar e, posteriormente, excluir registros com dados faltantes
utilizam-se as funções complete.cases() e na.omit() conforme mostrado a seguir.
10
Identificação dos registros com dados faltantes:
> dadosTeste[!complete.cases(dadosTeste), ]
Var1 Var2 Var3

2 7 45 NA
3 NA 16 12
5 18 74 NA
As observaões de números 2, 3 e 5 têm dados faltantes.
A remoção dos registros com dados faltantes, que independe da identificação feita anteriormente, pode ser feita
da seguinte forma:
> dadosTeste <- na.omit(dadosTeste)

> dadosTeste
Var1 Var2 Var3

1 3 70 5
4 9 29 2
6 26 38 7
7 5 50 9
8 40 41 1
Para a substituição de valores faltantes pela média dos valores, uma abordagem possı́vel é a seguinte (assumindo
que dadosTeste ainda contenha os valores faltantes):
> dadosTeste$Var1[is.na(dadosTeste$Var1)] <- mean(dadosTeste$Var1,

+ na.rm = TRUE)
> dadosTeste$Var3[is.na(dadosTeste$Var3)] <- mean(dadosTeste$Var3,
+ na.rm = TRUE)
> dadosTeste
Var1 Var2 Var3

1 3.00000 70 5
2 7.00000 45 6
3 15.42857 16 12
4 9.00000 29 2
5 18.00000 74 6
6 26.00000 38 7
7 5.00000 50 9
8 40.00000 41 1
1.5 - Suposições da Análise Multivariada
1.5.1 - Normalidade
Nesta seção apresenta-se o teste de Kolmogorov-Smirnov para avaliar a hipótese de normalidade dos dados. No
R este teste pode ser implementado com a função ks.test(), conforme mostrado a seguir:
11
> ks.test(dados$PL, "pnorm", mean(dados$PL), sd(dados$PL))
One-sample Kolmogorov-Smirnov test
data: dados$PL
D = 0.1012, p-value = 0.2575
alternative hypothesis: two-sided
> ks.test(dados$PC, "pnorm", mean(dados$PC), sd(dados$PC))
data: dados$PC
D = 0.0862, p-value = 0.4479
> ks.test(dados$ARLP, "pnorm", mean(dados$ARLP), sd(dados$ARLP))
data: dados$ARLP
D = 0.0945, p-value = 0.3331
> ks.test(dados$VLL, "pnorm", mean(dados$VLL), sd(dados$VLL))
data: dados$VLL
D = 0.1636, p-value = 0.00949
1.6 - Transformação de dados
Nesta seção do livro são apresentadas algumas transformações que usualmente são feitas nos dados para corrigir
violações das suposições estatı́sticas e/ou melhorar a relação entre as variáveis. Os comandos a seguir apresentam
duas formas alternativas de se obter uma transformação logarı́tmica da variável Patrimônio Lı́quido.
> dados$LogPL1 <- log(dados$PL)

> dados <- transform(dados, LogPL2 = log(PL))
> head(dados)
CAP TAM PL AC PC AP ARLP PELP VLL

1 Capital Aberto Pequena 63685 30475 41400 79300 5004 40098 0.04614681
2 Capital Fechado Pequena 89430 53000 43125 128100 25020 17604 0.07584971
3 Capital Fechado Média 81300 35775 74175 125050 43368 33252 0.09499923
12
5 Capital Aberto Grande 105690 60950 58650 68625 7506 58680 0.02453471
LogPL1 LogPL2
1 11.06170 11.06170
2 11.40121 11.40121
3 11.30590 11.30590
4 11.28909 11.28909
5 11.56827 11.56827
6 11.08276 11.08276
Uma tranformação bastante utilizada em Análise Multivariada é a padronização de variáveis, que consiste em
subtrair de cada observação a média das observações e dividir pelo desvio padrão. A função scale() realiza
esta transformação.
> dados$PLpad <- scale(dados$PL)

> head(dados)
CAP TAM PL AC PC AP ARLP PELP VLL

1 Capital Aberto Pequena 63685 30475 41400 79300 5004 40098 0.04614681
5 Capital Aberto Grande 105690 60950 58650 68625 7506 58680 0.02453471
LogPL1 LogPL2 PLpad
1 11.06170 11.06170 -0.4937848
2 11.40121 11.40121 1.1875613
3 11.30590 11.30590 0.6566099
4 11.28909 11.28909 0.5681180
5 11.56827 11.56827 2.2494641
6 11.08276 11.08276 -0.4052929
A padronização, diferentemente da transformação logarı́tmica acima mencionada e outras, não altera a forma
da distribuição original, apenas altera a escala dos dados. Os gráficos a seguir ilustram esta afirmação.
> par(mfrow = c(1, 3))

> hist(dados$PL, breaks = 11, main = "Patrim^
onio Lı́quido")
> hist(dados$PLpad, breaks = 11, main = "Patrim^
onio Lı́quido\n(Dados Padronizados)")
> hist(dados$LogPL1, breaks = 11, main = "Patrim^
onio Lı́quido\n(Logarı́tmos dos Dados)")
13
Patrimônio Líquido Patrimônio Líquido
(Dados Padronizados) (Logarítmos dos Dados)
25
25
30
20
20
15
15
Frequency
Frequency
Frequency
20
10
10
10
5
0
0
40000 80000 120000 −2 0 1 2 3 10.4 10.8 11.2 11.6
dados$PL dados$PLpad dados$LogPL1
14

Análise Multivariada em R para Administração e Economia

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Análise Multivariada em R para Administração e Economia

Diunggah oleh

Hak Cipta:

Format Tersedia

Análise Multivariada

para os Cursos de Administração, Ciências Contábeis e Economia

Capı́tulo 1 - Introdução à Análise Multivariada

O conjunto de dados utilizado neste capı́tulo está no arquivo "Cap 01 - Exemplo.sav".

' data.frame': 100 obs. of 9 variables:

A função str() exibe a estrutura dos dados importados.

1.2.1 Exemplo de Base de Dados

> sapply(dados, class)

CAP TAM PL AC PC AP ARLP PELP

> desvpad <- apply(dados[, -c(1, 2)], 2, sd)

PL AC PC AP ARLP PELP VLL

1.2.2 - Exame da Forma da Distribuição da Variável

Histograma da variável Patrim^

> hist(dados$PL, freq = FALSE, main = "Histograma da Variável\nPatrim^

40000 60000 80000 100000 120000

Histograma da variável Ativo Circulante.

> hist(dados$AC, freq = FALSE, main = "Histograma da Variável\nAtivo Circulante")

10000 20000 30000 40000 50000 60000

Histograma da variável Ativo Realizável a Longo Prazo.

0 10000 20000 30000 40000 50000

> stem(dados$PL, scale = 2)

The decimal point is 4 digit(s) to the right of the |

> par(mfrow = c(1, 3))

Normal Q−Q Plot Normal Q−Q Plot Normal Q−Q Plot

Patrimônio Líquido Ativo Circulante Ativo Realiz. Longo Prazo

1.2.3 - Exame da Relação entre Variáveis

> pairs(dados[, c("PL", "AC", "PC", "AP")])

4e+04 8e+04 10000 40000 70000

1.2.4 - Exame das Diferenças de Grupos

Capital Aberto Capital Fechado

> bxp <- boxplot(dados$AC, dados$PC, names = c("Ativo Circulante",

Ativo Circulante Passivo Circulante

[1] 60950 59625 60950 58300 12075

4e+04 6e+04 8e+04 1e+05

40000 60000 80000 100000

Pequena Média Grande

40000 60000 80000 100000 40000 60000 80000 100000

1.4 - Dados Perdidos (missing values)

> dadosTeste <- data.frame(Var1 = c(3, 7, NA, 9, 18, 26, 5, 40),

Var1 Var2 Var3

O R utiliza a string NA para indicar os valores faltantes.

Var1 Var2 Var3

As observaões de números 2, 3 e 5 têm dados faltantes.

> dadosTeste <- na.omit(dadosTeste)

Var1 Var2 Var3

> dadosTeste$Var1[is.na(dadosTeste$Var1)] <- mean(dadosTeste$Var1,

Var1 Var2 Var3

1.5 - Suposições da Análise Multivariada

One-sample Kolmogorov-Smirnov test

> ks.test(dados$PC, "pnorm", mean(dados$PC), sd(dados$PC))

One-sample Kolmogorov-Smirnov test

> ks.test(dados$ARLP, "pnorm", mean(dados$ARLP), sd(dados$ARLP))

One-sample Kolmogorov-Smirnov test

> ks.test(dados$VLL, "pnorm", mean(dados$VLL), sd(dados$VLL))

One-sample Kolmogorov-Smirnov test

1.6 - Transformação de dados

> dados$LogPL1 <- log(dados$PL)

CAP TAM PL AC PC AP ARLP PELP VLL

> dados$PLpad <- scale(dados$PL)

CAP TAM PL AC PC AP ARLP PELP VLL

> par(mfrow = c(1, 3))

dados$PL dados$PLpad dados$LogPL1

Anda mungkin juga menyukai