Anda di halaman 1dari 44

Anlise Exploratria de Dados utilizando o Microsoft Excel 2007

Procedimentos de Anlise Exploratria de Dados utilizando o Excel 2007 Professor Marcelo Menezes Reis O objetivo deste texto apresentar os principais procedimentos de Anlise Exploratria de Dados, tal como apresentados nas Unidades 2 e 3, mas utilizando a planilha eletrnica Excel, verso 2007. Os dados esto no arquivo AmostraToyord, disponvel no ambiente virtual: contm as informaes sobre 250 consumidores de uma montadora fictcia, a Toyord, selecionados por amostragem probabilstica. H 11 variveis: as 10 variveis realmente pesquisadas. (que esto descritas mais abaixo) e o nmero do caso sorteado da populao original, que tinha 5000 elementos. Figuras adaptadas pelo autor de Microsoft , exceto onde indicado. A Megamontadora TOYORD LINK (trata-se de uma empresa fictcia, e de uma pesquisa fictcia) regularmente conduz pesquisas de mercado com os clientes que compraram carros zero km diretamente de suas concessionrias. O objetivo avaliar a satisfao dos clientes em relao aos diferentes modelos, seu design, adequao ao perfil do cliente. A ltima pesquisa foi terminada em julho de 2011: 250 clientes foram entrevistados entre o total de 30.000 que compraram veculos novos entre maio de 2010 e maio de 2011. A pesquisa foi restringida aos modelos mais vendidos, e que j esto no mercado h 10 anos. As seguintes variveis foram obtidas: - Modelo comprado: o compacto Chiconaultla, o sed mdio DeltaForce3, a perua familiar Valentiniana, a van SpaceShuttle ou o luxuoso LuxuriousCar. - Opcionais: inexistentes (apenas os itens de srie); ar condicionado e direo hidrulica; ar condicionado, direo hidrulica e trio eltrico; ar condicionado, direo hidrulica, trio eltrico e freios ABS. - Opinio sobre o design: se os clientes consideram o design do veculo comprado ultrapassado, atualizado, ou adiante dos concorrentes. - Opinio sobre a concessionria onde comprou o veculo (incluindo atendimento na venda, manuteno programada e eventuais problemas imprevistos): muito insatisfatria, insatisfatria, no causou impresso, satisfatria, bastante satisfatria. - Opinio geral sobre o veculo adquirido: muito insatisfeito, insatisfeito, satisfeito, bastante satisfeito. - Renda declarada pelo cliente: em salrios mnimos mensais. - Nmero de pessoas geralmente transportadas no veculo. - Quilometragem mensal mdia percorrida com o veculo. - Percepo do cliente de h quantos anos o veculo comprado teve a sua ltima remodelao de design: em anos completos (se h menos de um ano o entrevistador anotou zero). - Idade do cliente em anos completos.

Anlise Exploratria de Dados utilizando o Microsoft Excel 2007

ndice Analtico
1. Procedimentos para variveis qualitativas ................................................................................................................ 4 1.1 Tabela de frequncias e grfico da varivel Modelo (uma varivel qualitativa) ................................................. 4 1.2 Tabela de frequncias e grfico do cruzamento das variveis Modelo e Opinio Geral sobre o veculo (duas variveis qualitativas) .............................................................................................................................................16 2. Procedimentos para variveis quantitativas .............................................................................................................23 2.1 - Procedimentos para variveis quantitativas discretas .......................................................................................23 2.2 - Procedimentos para variveis quantitativas contnuas ......................................................................................26 2.2.1 Tabela de frequncias agrupada em classes ..............................................................................................26 2.2.2 Categorizao de uma varivel quantitativa contnua................................................................................29 2.3 Clculo de medidas de sntese ........................................................................................................................31 2.3.1 Medidas de sntese para uma varivel quantitativa ...................................................................................31 2.3.2 Medidas de sntese para uma varivel quantitativa em funo de uma qualitativa por tabela dinmica ....36 2.3 Procedimentos para duas variveis quantitativas (diagrama de disperso) ........................................................39

ndice de Figuras
Figura 1 Menu de insero Figura 2 - Seleo de dados de tabela dinmica ......................................................... 4 Figura 3 - Tela de seleo de intervalo de dados - minimizada...................................................................................... 4 Figura 4 Layout da Tabela dinmica ......................................................................................................................... 5 Figura 5 Tabela dinmica por modelo apenas frequncia ........................................................................................ 5 Figura 6 Tabela dinmica de modelo......................................................................................................................... 6 Figura 7 Opes do campo Valor .............................................................................................................................. 6 Figura 8 Configurao do Campo Valor: Resumir por... ............................................................................................ 6 Figura 9 Configurao do Campo Valor: Mostrar valores como... .............................................................................. 7 Figura 10 Configurao do Campo Valor: Mostrar valores como % do total .............................................................. 7 Figura 11 Tabela dinmica de Modelo: frequncias absolutas e relativas 1 verso .................................................. 7 Figura 12 Tabela dinmica de Modelo: frequncias absolutas e relativas 2 verso .................................................. 8 Figura 13 Opes de exibio da tabela de Modelo: com remoo das clulas vazias ................................................. 8 Figura 14 Opes de grficos .................................................................................................................................... 8 Figura 15 - Subtipos de grficos de colunas ................................................................................................................. 9 Figura 16 - Grfico de colunas de Modelo - 1a verso .................................................................................................. 9 Figura 17 - Campos do grfico dinmico Figura 18 - Opes do campo % .........................................................10 Figura 19 - Grfico de colunas de Tipo - 2a verso......................................................................................................10 Figura 20 - Opes de design de grfico dinmico de colunas .....................................................................................10 Figura 21 - Opes de layout de grfico dinmico de colunas ......................................................................................10 Figura 22 - Opes de legenda do grfico dinmico ....................................................................................................11 Figura 23 - Opes de Ttulo do Eixo Vertical Principal em Grfico Dinmico ............................................................11 Figura 24 - Grfico de colunas de Modelo de veculo - Final .......................................................................................12 Figura 25 - Opes de formatao de grfico e eixo ....................................................................................................12 Figura 26 - Opes de Eixo Figura 27 - Mudana de escala no eixo vertical.....................................................13 Figura 28 - Grfico de colunas de Tipo de servio escala vertical modificada ...........................................................13 Figura 29 - Subtipos de grficos em Pizza...................................................................................................................14 Figura 30 - Grfico em pizza de Modelo de veculo - 1a verso ...................................................................................14 Figura 31 - Opes de design de grfico dinmico em Pizza........................................................................................14 Figura 32 - Opes de layout de grfico dinmico em Pizza ........................................................................................14 Figura 33 - Opes de Rtulo de Dados para Grfico em Pizza ...................................................................................15 Figura 34 - Mais opes de Rtulo de Dados ..............................................................................................................15 Figura 35 - Grfico em pizza de Modelo de Veculo - Final.........................................................................................15 Figura 36 Clula de destino de uma tabela dinmica.................................................................................................16 Figura 37 - Tabela dinmica de Modelo e Geral Layout inicial .................................................................................16 Figura 38 - Tabela dinmica de Modelo e Geral Layout com frequncias absolutas e todos os %. .............................17 Figura 39 - Tabela dinmica de Tipo x Opinio Layout com frequncias absolutas e todos os %, modificado ............17 Figura 40 - % por linha, coluna e total ........................................................................................................................18 Figura 41 - Tabela dinmica de Modelo x Geral (opinio geral) (sem clulas vazias) ...................................................18 Figura 42 - Tabela dinmica Modelo x Geral - opes de formatao ..........................................................................19 Figura 43 - Tabela dinmica Modelo x Geral - mudana de ordem de valores ..............................................................19 Figura 44 - Tabela dinmica de Modelo x Geral ..........................................................................................................20 Figura 45 - Grfico em barras mltiplas da Opinio Geral por Modelo ........................................................................21 Figura 46 Opes de grfico dinmico .....................................................................................................................22 Figura 47 Opes de grfico dinmico colunas 100% empilhadas..........................................................................22 2

Anlise Exploratria de Dados utilizando o Microsoft Excel 2007 Figura 48 Grfico de colunas 100% empilhadas: Opinio geral por Modelo ..............................................................22 Figura 49 - Tabela de frequncia: anos de Remodelao..............................................................................................23 Figura 50 - Tabela de frequncia: Anos de educao ...................................................................................................23 Figura 51 Opes de grficos ...................................................................................................................................24 Figura 52 - Histograma de Anos de remodelao - 1a verso .......................................................................................24 Figura 53 - Grfico de anos de remodelao - 2a verso ..............................................................................................24 Figura 54 - Opes de formatao de sries de dados - histograma anos de remodelao .............................................25 Figura 55 - Opes de formatar sries de dados...........................................................................................................25 Figura 56 - Histograma de anos de remodelao. ........................................................................................................25 Figura 57 - Mnimo e mximo para a varivel Renda ..................................................................................................26 Figura 58 - Intervalo para Renda.................................................................................................................................26 Figura 59 - Amplitude de classes de Renda .................................................................................................................26 Figura 60 Clculo dos limites inferior e do limite superior da primeira classe de Renda ............................................27 Figura 61 Clculo dos limites inferior e superior da segunda classe de Renda ...........................................................27 Figura 62 - Classes de Renda ......................................................................................................................................27 Figura 63 Obteno da frequncia da primeira classe de renda..................................................................................28 Figura 64 - Obteno da frequncia da ltima classe de Renda ....................................................................................28 Figura 65 Obteno dos pontos mdios das classes de renda .....................................................................................28 Figura 66 - Histograma das Rendas anuais (agrupados em classes) ..............................................................................29 Figura 67 - Procedimento para categorizar a varivel Renda........................................................................................30 Figura 75 - Categorizao da varivel Renda no Excel ............................................................................................30 Figura 69 - Varivel Renda Categorizada ....................................................................................................................31 Figura 70 - Tabela dinmica da varivel Renda Categorizada ......................................................................................31 Figura 71 - Frmulas no Excel 2007 ...........................................................................................................................31 Figura 72 - Frmulas no Excel 2007 Mais funes ...................................................................................................32 Figura 73 - Medidas de sntese de Renda - 1a parte .....................................................................................................32 Figura 74 - Funes disponveis no Excel ...................................................................................................................32 Figura 75 - Funes estatsticas no Excel - 1a abordagem............................................................................................33 Figura 76 - Argumentos da funo Mdia (para Renda) - 1a verso .............................................................................33 Figura 77 - Argumentos das funes Mediana e Moda (Renda) - 1a verso..................................................................33 Figura 78 - Argumentos da funo desvio padro (Renda) - 1a verso .........................................................................34 Figura 79 - Argumentos das funes Quartil Inferior e Superior (Renda) - 1a verso ...................................................34 Figura 80 - Argumentos das funes Mnimo e Mximo (Renda) - 1a verso...............................................................34 Figura 81 - Medidas de sntese de Renda ....................................................................................................................34 Figura 82 - Clculo do CV% ......................................................................................................................................35 Figura 83 - Clculo das diferenas entre os quartis e a mediana ...................................................................................35 Figura 84 - Clculo dos limites para valores discrepantes ............................................................................................35 Figura 85 - Medidas de sntese para Renda (completas)...............................................................................................35 Figura 86 - Layout da tabela dinmica Renda x Modelo 1a parte .................................................................................37 Figura 87 - Layout da tabela dinmica Renda x Modelo 2a parte .................................................................................37 Figura 88 Formas de resumir os dados de Renda ......................................................................................................38 Figura 89 - Layout da tabela dinmica Renda x Tipo 3a parte ......................................................................................38 Figura 90 - Tabela dinmica de Renda por Tipo ..........................................................................................................39 Figura 91 Insero de grfico de disperso - 1a etapa ...............................................................................................40 Figura 92- Insero de grfico de disperso - 2a etapa .................................................................................................40 Figura 93 - Adio de sequncias - incio....................................................................................................................40 Figura 94 - Adio de sequncias X e Y...................................................................................................................41 Figura 95 Adio de sequncias - dados inseridos ...................................................................................................41 Figura 96 - Diagrama de disperso de quilometragem por renda 1 verso .................................................................41 Figura 97 - Diagrama de disperso de Quilometragem por Renda ................................................................................42

Anlise Exploratria de Dados utilizando o Microsoft Excel 2007

1. Procedimentos para variveis qualitativas


Quando se deseja realizar uma anlise exploratria em que apenas variveis qualitativas estejam envolvidas, o mais usual construir tabelas de frequncias para cada varivel individualmente, ou tabelas de contingncias (dupla classificao) relacionando duas variveis. Grficos podem ser produzidos a partir das tabelas. Para lidar com variveis qualitativas no Excel precisamos utilizar as tabelas dinmicas. Veja os exemplos a seguir:

1.1 Tabela de frequncias e grfico da varivel Modelo (uma varivel qualitativa)


Independente se as variveis de interesse so qualitativas ou quantitativas o procedimento para construo da tabela dinmica o mesmo. Posicione o cursor em algum ponto do conjunto de dados, e procure no menu Inserir por Tabela Dinmica, como na Figura 1. Pressionando Tabela Dinmica o Excel 2007 apresenta o resultado da Figura 1.

Figura 1 Menu de insero

Figura 2 - Seleo de dados de tabela dinmica

Ao pr o cursor em alguma parte do banco de dados o Excel 2007 selecione automaticamente todas as variveis adjacentes: no presente caso todas as clulas compreendidas entre A1 e K251: da varivel Caso at a Idade. Pode-se escolher, eventualmente, uma fonte externa ou dados de outra planilha, ou outro intervalo de dados na mesma planilha. Para fazer isso basta pressionar o boto com seta vermelha na linha Tabela/Intervalo da Figura 1, resultando na Figura 3:

Figura 3 - Tela de seleo de intervalo de dados - minimizada

Com a seleo neste formato voc pode procurar o intervalo desejado e selecion-lo utilizando o mouse. Para retornar situao da Figura 1 basta pressionar a pequena seta vermelha novamente. Por convenincia, vamos pr a tabela dinmica em uma nova planilha. Ento, pressionando OK, chegase Erro! Fonte de referncia no encontrada..

Anlise Exploratria de Dados utilizando o Microsoft Excel 2007

Figura 4 Layout da Tabela dinmica

A verso 2007 do Excel automaticamente cria a tabela, vazia, com os campos disponveis para adio direita. Observe direita os nomes das variveis existentes no arquivo de dados, e que foram selecionadas na etapa anterior. Vamos imaginar que h interesse apenas na varivel Modelo, devemos selecion-la e arrast-la at o campo "Rtulos de Linha", ou "Rtulos de Coluna". As outras variveis no faro parte da tabela. Devemos tambm arrastar a varivel Modelo para o campo "Valores". O resultado pode ser visto na Figura 5. Observe que a tabela contm apenas as frequncias absolutas de cada valor, alm das clulas vazias. Mas, usualmente imprescindvel apresentar as frequncias relativas tambm, para que seja possvel fazer comparaes com outros conjuntos de dados. Para tanto devemos arrastar novamente Modelo para o campo Valores, o que nos levar Figura 6: as frequncias absolutas dos valores sero apresentadas mais uma vez, e precisamos modific-las para que a tabela contenha as frequncias absolutas E as relativas. Para fazer isso, devemos pressionar a setado segundo boto do campo Valores, o que leva s opes da Figura 7.
Figura 5 Tabela dinmica por modelo apenas frequncia

Anlise Exploratria de Dados utilizando o Microsoft Excel 2007

Figura 6 Tabela dinmica de modelo

Figura 7 Opes do campo Valor

Selecionando Configuraes do Campo de Valor... possvel mudar o formato de apresentao dos dados, com as vrias opes mostradas na Figura 8. Pode-se mudar o tipo de clculo que se deseja usar para resumir os dados do campo selecionado. Quando a varivel qualitativa a opo padro ContNm, contagem. Mas, se a varivel for quantitativa, pode-se escolher soma, mdia, Mx (mximo), Mnimo, Produto e outras funes no visveis na Figura 8 (desvio padro amostral e populacional, varincia amostral e populacional). possvel ver tambm a aba Mostrar valores como, que uma vez selecionada resulta na Figura 9.
Figura 8 Configurao do Campo Valor: Resumir por...

Anlise Exploratria de Dados utilizando o Microsoft Excel 2007

A opo padro apresentar os valores como Normal, ou seja, no caso de contagem para variveis qualitativas, as frequncias absolutas. Mas, pressionando a seta podemos observar as vrias opes disponveis na Figura 10: % de diferena de, soma acumulada, % da linha, % da coluna, % do total entre outras. Como se deseja apresentar as frequncias relativas dos valores da varivel Tipo, podemos escolher % do total e pressionar OK, a tabela resultante pode ser analisada na Figura 11.
Figura 9 Configurao do Campo Valor: Mostrar valores como...

Figura 10 Configurao do Campo Valor: Mostrar valores como % do total

Figura 11 Tabela dinmica de Modelo: frequncias absolutas e relativas 1 verso

As clulas vazias representam 0,40% do total, perfazendo apenas 1 cliente: um percentual pequeno (aceita-se at 5%), mas que merece uma reflexo, pois um dado imprescindvel, a empresa precisa descobrir o Modelo deste cliente. Percebe-se a ligeira preponderncia dos clientes do Chiconaultla, que representam 32,40% do total (81 clientes). Observa-se tambm que a tabela apresenta algumas poluies, o que pode confundir sua interpretao por leigos: h uma linha para clulas vazias, Rtulos de Linha, Valores, Contar de Modelo, Contar de Modelo2. Todos estes podem ser modificados, os ltimos simplesmente por digitao dos nomes de nosso interesse, resultando na Figura 12.

Anlise Exploratria de Dados utilizando o Microsoft Excel 2007

Figura 12 Tabela dinmica de Modelo: frequncias absolutas e relativas 2 verso

A remoo da linha com as clulas vazias, porque sua influncia muito reduzida, pode ser feita pressionando a seta ao lado de Modelo, levando s opes da Figura 13.

Figura 13 Opes de exibio da tabela de Modelo: com remoo das clulas vazias

Basta desmarcar a opo de exibio das clulas vazias, pressionar OK, e obtm-se a tabela final, com os valores percentuais j recalculados em relao ao novo total (249). Suponha que h interesse em construir um grfico para a tabela da varivel qualitativa Modelo, Figura 13. As opes possveis so grfico de barras (colunas no Excel) e em setores. Grfico de barras (colunas) Ponha o cursor em algum ponto da tabela dinmica de Modelo, e procure no menu Inserir por grficos, como na Figura 14.

Figura 14 Opes de grficos

Clique no tipo de grfico e, em seguida, clique no subtipo de grfico que deseja usar. No nosso caso, queremos Colunas (barras verticais). Se pressionarmos a seta imediatamente abaixo de Colunas possvel ver todos os subtipos disponveis ( Figura 15).

Anlise Exploratria de Dados utilizando o Microsoft Excel 2007

H opo de colunas 2D, 3D, cilindro, cone e pirmide. Embora os grficos 3D sejam mais atraentes, eles podem levar a interpretaes equivocadas devido aos diferentes ngulos das colunas e eventuais sombras geradas. Assim, recomenda-se o uso de colunas 2D. O primeiro subtipo o de colunas agrupadas, que utilizam as frequncias absolutas como alturas das colunas, para permitir a comparao dos valores. O segundo subtipo o de colunas empilhadas, e o terceiro colunas empilhadas 100%: estes dois ltimos so mais apropriados para o cruzamento de duas variveis qualitativas, usando frequncias absolutas ou percentuais por linha ou coluna, diretamente. Para a tabela dinmica de Tipo vamos escolher Colunas 2D, colunas agrupadas, resultando na Figura 16.

Figura 15 - Subtipos de grficos de colunas

Figura 16 - Grfico de colunas de Modelo - 1a verso

A ao padro do Excel 2007 pr o grfico como objeto na planilha onde esto os dados. Observe que aparece no grfico a legenda Frequncias absolutas e %, mas que estas ltimas esto invisveis, pois os percentuais so muito pequenos em relao s frequncias absolutas. H tambm a caixa Painel Filtro da Tabela Dinmica.

Na parte superior de Painel Filtro da Tabela Dinmica h Campos Ativos na Tabela Dinmica: precisamos pression-lo para remover os % do grfico, com a finalidade de torn-lo mais claro. Mas, ao fazer isso vamos remov-los da tabela dinmica original tambm. Assim, se no quiser perd-la, copie a tabela e cole-a como valores em algum outro ponto da planilha, e construa o grfico a partir da cpia. Pressionando Campos Ativos na Tabela Dinmica, chegamos Figura 17: - selecionando % no campo Valores, vamos obter a Figura 17; - escolhendo Remover campo, desaparecer % do grfico e da tabela dinmica original de Modelo, resultando na Figura 19.

Anlise Exploratria de Dados utilizando o Microsoft Excel 2007

Figura 17 - Campos do grfico dinmico

Figura 18 - Opes do campo %

Observe que o grfico est com o ttulo genrico Total, e apresenta uma legenda desnecessria. Tambm no h ttulo no eixo vertical, para indicar que se trata de frequncias absolutas da varivel Modelo. Para modificar ttulo geral basta clicar sobre ele e reescrev-lo: Modelo de veculo. Alm disso, ao selecionar o grfico com o mouse surge o conjunto de opes Ferramentas de Grfico Dinmico.
Figura 19 - Grfico de colunas de Tipo - 2a verso

As opes mais interessantes neste momento so Design ( Figura 20) e Layout (Figura 21).

Figura 20 - Opes de design de grfico dinmico de colunas

Podemos alterar o tipo de grfico, selecionar dados, mudar o estilo do grfico e mesmo mov-lo para outro local, uma planilha especfica, por exemplo, para permitir melhor visualizao.

Figura 21 - Opes de layout de grfico dinmico de colunas

10

Anlise Exploratria de Dados utilizando o Microsoft Excel 2007

Nas opes de layout podemos modificar formato e posio dos ttulos (do grfico e dos eixos), a rea de plotagem, adicionar Linha de Tendncia e modificar a Legenda. No nosso caso, no queremos exibi-la, ento, ao selecionar Legenda obtemos a Figura 22.

Figura 22 - Opes de legenda do grfico dinmico

Escolhendo Nenhum na Figura 22 a legenda desaparecer. Mas, precisamos acrescentar um ttulo ao eixo vertical, selecionando Ttulo dos Eixos na Figura 21, e a opo Ttulo do Eixo Vertical Principal chegamos Figura 23.

Figura 23 - Opes de Ttulo do Eixo Vertical Principal em Grfico Dinmico

Ttulo Girado permitir que o nome acompanhe o eixo, e com esta seleo o Excel 2007 cria automaticamente uma caixa de texto chamada Ttulo do eixo, que pode ser modificada
11

Anlise Exploratria de Dados utilizando o Microsoft Excel 2007

exatamente como o ttulo do grfico. O resultado final, aps a remoo da legenda e acrscimo dos ttulos est na Figura 24.

Figura 24 - Grfico de colunas de Modelo de veculo - Final

A interpretao do grfico a mesma da tabela. A principal vantagem do grfico a rapidez na apreenso da informao: em uma simples olhada o leitor pode compreender o bsico da distribuio de frequncias, o que muito til em apresentaes ou conferncias, onde geralmente h pouco tempo disponvel. Mas, a mesma rapidez de apreenso pode nos levar a erros de interpretao se o grfico for modificado (com ou sem segundas intenes) para causar um determinado efeito. No grfico da Figura 24 percebe-se uma diferena entre os modelos, com preponderncia do Chiconaultla (32,40%) sobre os demais: no se trata de uma grande discrepncia e o grfico mostra isso porque a escala do eixo vertical comea no zero. Se no comeasse no zero, as posies relativas das alturas das colunas seriam mudadas, o que poderia levar a interpretaes equivocadas. No obstante, pode ser necessrio mudar a escala do grfico. O primeiro passo selecionar o eixo a mudar e pressionar o boto direito do mouse, levando Figura 25.

Figura 25 - Opes de formatao de grfico e eixo

Pressionando Formatar Eixo nos leva Figura 26. Automaticamente o Excel 2007 escolhe a escala mais apropriada de acordo com os dados de origem (Opes de Eixo: Automtico). Mas, podemos trocar os limites e as unidades da escala. Na Figura 26 trocamos o mnimo para Fixo, indicando que o eixo vertical comear em 20. O grfico resultante mostrado na Figura 28.
12

Anlise Exploratria de Dados utilizando o Microsoft Excel 2007

Figura 26 - Opes de Eixo

Figura 27 - Mudana de escala no eixo vertical

Modelo de veculo
90 80 70
Frequncia

60

50
40

30
20 Chiconaultla Deltaforce3 LuxuriousCar SpaceShuttle Valentiniana

Figura 28 - Grfico de colunas de Tipo de servio escala vertical modificada

Observe que a diferena entre os modelos parece um pouco mais acentuada agora. O leitor desatento pode ach-la maior do que na realidade, pois seu olhar atrado para as colunas, muito poucos prestaro ateno no valor inicial da escala vertical. Grfico de setores O grfico de setores pode ser construdo da mesma forma que o grfico em colunas, a partir da tabela dinmica de uma varivel qualitativa. A diferena que ele apresentar automaticamente os percentuais de cada valor que ela pode assumir em relao ao total geral. Ponha o cursor em algum ponto da tabela dinmica de Tipo, e procure no menu Inserir por grficos, como na Figura 14, mostrada anteriormente. Clique no tipo de grfico e, em seguida, clique no subtipo de grfico que deseja usar. Agora, queremos Pizza. Se pressionarmos a seta imediatamente abaixo de Pizza possvel ver todos os subtipos disponveis ( Figura 29).

13

Anlise Exploratria de Dados utilizando o Microsoft Excel 2007

H opo de Pizza 2D e 3D. A mesma recomendao sobre os grficos 3D feitas nos grficos de colunas permanecem vlidas, alm de puderem ser estendidas para os casos de grficos em pizza com fatias explodidas (destacada, no Excel 2007). Assim, recomenda-se o uso de Pizza 2D simples. Um inconveniente do grfico em pizza no Excel a impossibilidade de us-lo quando houver cruzamento de variveis qualitativas. Para a tabela dinmica de Tipo vamos escolher Pizza 2D resultando na Figura 30.
Figura 29 - Subtipos de grficos em Pizza

Como a tabela dinmica j no tinha mais o campo %, o grfico apresenta apenas as frequncias absolutas, convertidas em arcos do crculo (o total corresponde a 360 e as frequncias absolutas de cada modelo aos respectivos arcos). Precisamos mudar o Ttulo do grfico (basta clicar sobre Total e reescrever, e acrescentar os %, que no esto visveis).
Figura 30 - Grfico em pizza de Modelo de veculo - 1a verso

Para acrescentar os percentuais preciso selecionar o grfico e observar novamente as Ferramentas do Grfico Dinmico. As opes de Design na Figura 31(veja que so adaptadas ao grfico de Pizza), e as opes de Layout na Figura 32, incluindo Rtulos de Dados.

Figura 31 - Opes de design de grfico dinmico em Pizza

Figura 32 - Opes de layout de grfico dinmico em Pizza

Pressionando na seta ao lado de Rtulo de Dados chegamos Figura 33.

14

Anlise Exploratria de Dados utilizando o Microsoft Excel 2007

Figura 33 - Opes de Rtulo de Dados para Grfico em Pizza

As opes se referem inicialmente posio onde sero colocados os rtulos, destacando-se Centro e Melhor Ajuste. Mas, precisamos de mais opes de Rtulos de Dados para acrescentar os percentuais de interesse. Pressionando Mais Opes de Rtulos de Dados, o resultado a Figura 34. Em Opes de Rtulo possvel marcar Porcentagem e escolher sua posio como Melhor Ajuste, finalmente obtendo o grfico da Figura 35.

Figura 34 - Mais opes de Rtulo de Dados

Modelo de Veculo
16% 33% 17%
Chiconaultla Deltaforce3

LuxuriousCar SpaceShuttle
12% Valentiniana

22%

Figura 35 - Grfico em pizza de Modelo de Veculo - Final 15

Anlise Exploratria de Dados utilizando o Microsoft Excel 2007

1.2 Tabela de frequncias e grfico do cruzamento das variveis Modelo e Opinio Geral sobre o veculo (duas variveis qualitativas)
muito comum o estudo de duas variveis qualitativas. Pode-se representar essa distribuio conjunta de frequncias atravs de uma tabela de contingncias, para estudar a sua associao. Atravs de uma tabela dinmica podemos rapidamente constru-la. O incio do processo semelhante ao visto na seo anterior: posicione o cursor em algum ponto do conjunto de dados, e procure no menu Inserir por Tabela Dinmica, como na Figura 1. Mas, ao invs de pr a tabela em uma nova planilha vamos escolher uma clula da mesma planilha onde est a tabela deModelo, como mostrado na Figura 36.

Figura 36 Clula de destino de uma tabela dinmica Pressionando OK, chega-se uma situao parecida a da Figura 4. Mas, agora vamos colocar

duas variveis na Tabela, Modelo na Linha, e Geral (opinio geral) na Coluna, e apenas uma delas (qualquer uma) em Valores. Como na Figura 37. Ao construir uma tabela de contingncias usualmente no temos interesse apenas nas frequncias de cada cruzamento. Foi visto na seo 1.1 que a tabela dinmica pode incluir percentuais tambm. Vamos aproveitar a oportunidade e incluir trs tipos de percentuais: em relao aos totais das linhas, em relao aos totais das colunas, e em relao ao total geral dos dados. Basta arrastar a varivel Modelo mais trs vezes ao campo Valores, Figura 38. Posteriormente, podemos modificar as configuraes do campo Valor, com as devidas adaptaes, tal como da Figura 7 a Figura 10. Ver Figura 40. A tabela final resultante est na Figura 41, j com as modificaes apropriadas (incluindo a remoo das clulas vazias das duas variveis).
Figura 37 - Tabela dinmica de Modelo e Geral Layout inicial

16

Anlise Exploratria de Dados utilizando o Microsoft Excel 2007

Figura 38 - Tabela dinmica de Modelo e Geral Layout com frequncias absolutas e todos os %.

Da forma como est o layout da Figura 38 a tabela no ficar com um bom aspecto, dificultando a sua interpretao. Precisamos mover o boto Valores do campo Rtulos de Coluna (ver Figura 38) para o campo Rtulos de Linha, resultando na Figura 39.

Figura 39 - Tabela dinmica de Tipo x Opinio Layout com frequncias absolutas e todos os %, modificado

17

Anlise Exploratria de Dados utilizando o Microsoft Excel 2007

Figura 40 - % por linha, coluna e total

Figura 41 - Tabela dinmica de Modelo x Geral (opinio geral) (sem clulas vazias)

Antes de analisar os resultados vamos fazer uma pequena modificao na tabela. Observe que o Excel ordena os valores das variveis de maneira alfabtica: Bastante satisfeito, Insatisfeito, Muito insatisfeito e Satisfeito. Repare tambm que o ideal seria comear da melhor para a pior
18

Anlise Exploratria de Dados utilizando o Microsoft Excel 2007

opinio (ou vice-versa). Para conseguir isso basta mudar a ordem dos valores. Vamos fazer isso para a varivel Geral, mudando a posio de Satisfeito para a esquerda: basta selecionar Satisfeito, e pressionar o boto direito do mouse, resultando na Figura 42.

Figura 42 - Tabela dinmica Modelo x Geral - opes de formatao Observe a opo Mover na Figura 43, selecionando-a vamos Figura 44.

Figura 43 - Tabela dinmica Modelo x Geral - mudana de ordem de valores H trs opes possveis: mover Geral para Linhas (o que no queremos), mover Satisfeito para o incio ou mover para a esquerda. Como precisamos mudar apenas Satisfeito escolhemos mover para a esquerda, at estar exatamente aps Bastante satisfeito, veja a Figura 44.

19

Anlise Exploratria de Dados utilizando o Microsoft Excel 2007

Figura 44 - Tabela dinmica de Modelo x Geral

Podemos comparar as opinies gerais em funo do modelo de veculo. Sempre devemos comparar os percentuais dos cruzamentos (por LINHA ou por COLUNA) com percentuais em relao aos totais de Modelo ou Geral. No presente caso, imagine que quisssemos avaliar se h diferena entre as opinies dos clientes da montadora em funo do modelo de veculo adquirido. Devemos, ento, usar os percentuais por linha, comparando os resultados cada modelo com o Total % por linha. Observe que: do total de clientes, 12,85% tem opinio Bastante satisfeito, 16,47% Satisfeito, 26,51% Insatisfeito, e 44,18% Muito insatisfeito. Se houver diferena de opinio dependendo modelo os percentuais por linha de cada tipo devem ser substancialmente diferentes (pelo menos 5%) desses valores. Na Figura 44 possvel constatar: - os modelos Chiconaultla e DeltaForce3 tm percentuais de Muito insatisfeito bem superiores aos dos outros modelos, por exemplo, 85,19% e 51,79% respectivamente, acima do percentual total de muito insatisfeitos (44,18%). Isso significa que, embora mais vendidos, aqueles modelos esto decepcionando seus compradores. - os veculos LuxuriousCar e SpaceShuttle tem um percentual de Bastante satisfeito acima do geral (65,52% e 23,81%, respectivamente, contra 12,85%). Conclui-se que h relao entre a opinio geral e o modelo, pois os percentuais por modelo so significativamente diferentes dos percentuais totais de opinio geral. Se quisermos observar como cada opinio se distribui pelos modelos, devemos usar os percentuais por coluna: - do total da opinio Bastante satisfeito nenhum percentual foi identificado nos modelos Chiconaultla e DeltaForce3, (no obstante eles representarem 32,53% e 22,49% da amostra, respectivamente) enquanto que 59,38% das manifestaes esto concentradas no modelo LuxuriousCar e 31,25% no SpaceShuttle (que, por sua vez, representam apenas 11,65% e 16,87%
20

Anlise Exploratria de Dados utilizando o Microsoft Excel 2007

da amostra, respectivamente). Isso significa que, embora menos vendidos, estes modelos esto agradando seus compradores. - do total da opinio Muito insatisfeito, nada menos do que 62,73% so oriundas do modelo Chiconaultla, contra 0,91% de SpaceShuttle e nenhum percentual de LuxuriousCar. Corrobora-se a concluso da anlise dos percentuais por linha, pois os percentuais por opinio (Geral) so significativamente diferentes dos percentuais totais de modelo. Se quisermos observar a contribuio individual de cada combinao, devemos usar os percentuais gerais: - isoladamente, o cruzamento com maior impacto no geral a combinao Chiconaultla Muito insatisfeito, que responde por 27,71% das respostas totais (249 entrevistados). O que bastante preocupante para a futura posio de mercado da montadora. - os clientes bastante satisfeitos com o LuxuriousCar representam 7,63% das respostas totais. Da mesma forma que para uma varivel qualitativa podemos construir um grfico de barras, mas aqui mltiplas, para representar a tabela da Figura 44. Usando procedimentos anlogos aos da Figura 14 Figura 17 vamos ter:
80 70

60
50 40 30 20 10 0 Chiconaultla Deltaforce3 LuxuriousCar SpaceShuttle Valentiniana

Bastante satisfeito Satisfeito Insatisfeito Muito insatisfeito

Figura 45 - Grfico em barras mltiplas da Opinio Geral por Modelo

Observe que o grfico foi apresentado com as frequncias dos cruzamentos. Mas a interpretao pode ser feita comparando as diferenas relativas entre as barras. - As barras referentes a Insatisfeito e Muito insatisfeito so mais altas nos modelos Chiconaultla e DeltaForce3 (no h nenhuma observao Bastante satisfeito nos dois modelos...). - medida que passamos para os modelos mais sofisticados as frequncias das opinies negativas vo reduzindo e as das positivas vo aumentando (no h nenhuma observao Muito insatisfeito para o LuxuriousCar). Podemos transformar o grfico acima em outro bem interessante, o grfico em colunas 100% empilhadas, que permitir visualizar os percentuais por linha graficamente. Basta selecionar o grfico da Figura 45 e pressionar o boto direito do mouse, o que resulta nas opes mostradas na Figura 46.

21

Anlise Exploratria de Dados utilizando o Microsoft Excel 2007

Se pressionarmos Tipo de grfico na Figura 46, chegaremos a uma situao semelhante a da Figura 15. Podemos procurar, entre os tipos de grficos de colunas, o de colunas 100% empilhadas, como mostrado na Figura 47. E pressionando OK na Figura 47 resulta o grfico mostrado na Figura 48.

Figura 46 Opes de grfico dinmico

Figura 47 Opes de grfico dinmico colunas 100% empilhadas


100% 90%

80% 70%
60% 50% 40% 30% 20% 10% 0% Chiconaultla Deltaforce3 LuxuriousCar SpaceShuttle Valentiniana Muito insatisfeito Insatisfeito Satisfeito Bastante satisfeito

Figura 48 Grfico de colunas 100% empilhadas: Opinio geral por Modelo

possvel ver claramente que os percentuais de insatisfeitos e satisfeitos mudam substancialmente de um modelo para outro, exatamente como mostrado na Erro! Fonte de referncia no encontrada. (percentuais por linha).

22

Anlise Exploratria de Dados utilizando o Microsoft Excel 2007

2. Procedimentos para variveis quantitativas


Para variveis quantitativas h uma maior variedade de procedimentos disponveis. preciso distinguir os procedimentos relativos variveis discretas e contnuas, bem como os casos em que queremos fazer uma anlise de uma varivel quantitativa em funo de uma qualitativa (por exemplo, Renda por Tipo de Servio). Vamos ver os procedimentos nos prximos itens.

2.1 - Procedimentos para variveis quantitativas discretas


Se a varivel for discreta, por exemplo, Remodelao (h quantos anos os clientes acham que os veculos foram remodelados) no arquivo AmostraToyord.xls, o procedimento pode ser semelhante ao utilizado para a varivel Modelo (seo 1.1): contudo ao construir a tabela dinmica o Excel poder selecionar "Soma de Remodelao" como ao (porque os valores da varivel so nmeros), e voc precisar modificar isso para contagem dos valores: "Contar de Remodelao". Seguindo o procedimento do item 1.1, incluindo os percentuais para cada valor, mas agora para a varivel Remodelao, vamos obter:

Figura 49 - Tabela de frequncia: anos de Remodelao

possvel perceber que uma parcela significativa (mais de 75%) dos clientes acredita que os veculos foram remodelados h pelo menos 2 anos. Isso preocupante para uma montadora de automveis, que atua em um ramo extremamente competitivo, e que a aparncia de modernidade de seus modelos um importante diferencial. Mudanas so necessrias... Da mesma forma que para a varivel Modelo (seo 1.1) podemos construir um histograma. Os cuidados l tomados, de remover os percentuais da tabela dinmica, precisam ser repetidos, mas cabe outra advertncia. Imagine que voc obtivesse uma tabela como a mostrada na Figura 50.

Figura 50 - Tabela de frequncia: Anos de educao

NO construa um grfico diretamente a partir desta tabela. Esto faltando valores da varivel, de 9 a 11, e 13 (no h pessoas com esses anos de educao). Para construir um histograma para
23

Anlise Exploratria de Dados utilizando o Microsoft Excel 2007

variveis discretas, voc tem que copiar os dados da tabela ao lado para outras clulas e acrescentar os valores 9 a 11, e 13, mantendo suas frequncias iguais a zero. Voltemos ao caso da Figura 49. Como a nossa varivel anos de Remodelao no tem valores com frequncia nula, podemos construir o grfico diretamente a partir da tabela dinmica, tal como fizemos para a varivel Modelo.

Figura 51 Opes de grficos

Nas opes de grficos no h Histograma, mas podemos escolher o grfico em colunas, pois um histograma no deixa de ser um grfico de colunas justapostas. Se pusermos o cursor em qualquer ponto da tabela da Figura 49 e selecionarmos Inserir, grfico, colunas 2D, o resultado ser a Figura 52.

Figura 52 - Histograma de Anos de remodelao - 1a verso

Temos uma situao semelhante a da Figura 16. Podemos aplicar os mesmos procedimentos vistos da Figura 17 Figura 17, removendo os percentuais e os campos dinmicos, resultando no grfico final da Figura 53:

Anos de remodelao
140 120 100

Frequncia

80

60
40 20 0 0 1 2 3 4

Figura 53 - Grfico de anos de remodelao - 2a verso

Foi mencionado que as colunas do histograma precisam ser justapostas. Portanto,


24

Anlise Exploratria de Dados utilizando o Microsoft Excel 2007

precisamos reduzir o espaamento entre elas a zero. Basta selecionar as colunas e pressionar o boto direito do mouse (Figura 54).

Figura 54 - Opes de formatao de sries de dados - histograma anos de remodelao

Escolhendo Formatar Srie de Dados surge a Figura 55.

Figura 55 - Opes de formatar sries de dados

Reduzindo o campo Largura do espaamento a Sem intervalo, o histograma correto mostrado na Figura 118.

Anos de remodelao
140 120 100

Frequncia

80

60
40 20 0 0 1 2 3 4

Figura 56 - Histograma de anos de remodelao. 25

Anlise Exploratria de Dados utilizando o Microsoft Excel 2007

Percebe-se claramente que a percepo dos anos de remodelao est concentrada em torno de 2 anos, diminuindo as frequncias progressivamente, medida que se afastam de 2.

2.2 - Procedimentos para variveis quantitativas contnuas


Se a varivel de interesse for quantitativa contnua, como Renda mensal, "Renda" no arquivo "AmostraToyord.xls", pode haver interesse em construir uma tabela de frequncias agrupada em classes, tal como demonstrado na Unidade 2. Para isso, NO PODEMOS utilizar a tabela dinmica do Excel: como os valores de uma varivel contnua repetem-se pouco (ou no se repetem), teramos uma tabela imensa (com talvez centenas de linha no arquivo sob anlise). Vamos ter que construir a tabela utilizando algumas funes existentes no Excel, como "MXIMO", "MNIMO", "CONT.SE", entre outras. 2.2.1 Tabela de frequncias agrupada em classes Vamos observar os passos apresentados na Unidade 2, mas modificando um pouco a sequncia: 1) Determinar a amplitude total (A) do conjunto Para tanto, temos que identificar os extremos do conjunto, seus valores mximo e Vamos colocar o mnimo na clula O2 e o mximo na clula O3, na mesma planilha dos dados. Selecione esta clula com o cursor. Podemos inserir as funes ou escrev-las diretamente nas clulas: = MNIMO(G2:G251) = MXIMO(G2:G251) Veja a

Figura 57.

Figura 57 - Mnimo e mximo para a varivel Renda

Para calcular a amplitude total A basta colocar a frmula respectiva (mximo mnimo) em uma clula, O4, por exemplo. Veja a Figura 58. A menor renda mensal dos clientes pesquisados de 1,795 salrios mnimos (cerca de R$1116,49 em janeiro de 2012), e a maior de 86,015 salrios mnimos (cerca R$ 53 mil em janeiro de 2012). Este intervalo precisa estar contido na distribuio agrupada em classes. Reparem que a amplitude total vale 84,22.
Figura 58 - Intervalo para Renda

2) Dividir o intervalo em um nmero conveniente de classes. Como o arquivo tem 250 observaes devemos usar a frmula da Unidade 2 para mais de 100 dados. Ento, k = 5 log 250 = 11,9897, que podemos arredondar para 12. O nmero de classes e a frmula para calcular a amplitude das classes poderiam colocados nas clulas O5 e O6, respectivamente, como mostrado na Figura 59. Com isso a amplitude das classes seria igual a 84,22 (intervalo) dividido por 11, resultando que cada classe teria uma amplitude aproximada de 7,66.

26

Anlise Exploratria de Dados utilizando o Microsoft Excel 2007

3) Estabelecer os limites das classes. O limite inferior da primeira classe igual ao valor mnimo menos a metade da amplitude de classe (c), e o limite superior da primeira classe ao limite inferior mais c. Estes resultados podem ser colocados em clulas apropriadas, como mostrado a partir da
Figura 59 - Amplitude de classes de Renda

Figura 60.

Figura 60 Clculo dos limites inferior e do limite superior da primeira classe de Renda

A amplitude das classes referncia absoluta ($ na frente dos identificadores de coluna e linha), para possibilitar arrastar a frmula at o final da tabela. Precisamos tambm definir os

limites da segunda classe da tabela, na

Figura 61.

27

Anlise Exploratria de Dados utilizando o Microsoft Excel 2007

Figura 61 Clculo dos limites inferior e superior da segunda classe de Renda

O limite inferior da segunda classe o limite superior da primeira classe. E o limite superior igual ao limite inferior mais amplitude das classes. Agora sim, podemos arrastar as clulas N11 e O11 at o fim da tabela e completar as 12 classes. Veja a Figura 62. 4) Determinar as frequncias de cada classe o passo mais difcil. Podemos resolver o problema se utilizarmos a funo "CONT.SE". Esta funo conta quantos valores em um determinado intervalo de dados atendem a um critrio estabelecido. Podemos montar uma frmula para obter a quantidade de observaes entre o limite inferior e superior de uma classe. Apenas por convenincia, costuma-se supor que o limite superior apenas limita a classe: se, por exemplo, houver uma renda de 36,25 salrios mnimos, ela ser registrada na sexta classe e no na quinta. Apenas o limite superior da ltima classe, caso ele coincidir com o valor mximo da varivel, ser considerado como dentro da classe. A implementao vista a partir da Erro! Fonte de referncia no encontrada..

Figura 62 - Classes de Renda

Figura 63 Obteno da frequncia da primeira classe de renda

Observe que se contam as ocorrncias menores do que o limite superior da classe, subtradas da contagem das ocorrncias menores do que o limite inferior, mantendo o intervalo G2 a G251 (valores de Renda) como referncia absoluta, para permitir arrastar a frmula at a clula P21 (ver Figura 64). O smbolo & permite usar como referncia o contedo de outra clula da planilha. No caso, o limite superior (que est na clula O10) e o inferior (que est na clula N10).

28

Anlise Exploratria de Dados utilizando o Microsoft Excel 2007

Figura 64 - Obteno da frequncia da ltima classe de Renda

Precisamos tambm definir os pontos mdios das classes, que passaro a represent-las, como se as frequncias obtidas fossem deles, ver Figura 65.

Figura 65 Obteno dos pontos mdios das classes de renda

Poderamos calcular os totais das frequncias, as frequncias relativas, as frequncias absolutas acumuladas e as frequncias relativas acumuladas. Esta tabela pode ser usada para construir um histograma, de forma semelhante ao que foi visto no item 2.1, sem a necessidade de adicionar rtulos. Selecionando a tabela, escolhendo um grfico de colunas, e reduzindo o espaamento entre as barras a zero, entre outros ajustes, vamos obter um histograma tal como o da Figura 66.

Renda em salrios mnimos


70 60

Frequncia

50
40 30 20 10 0 5,62 13,28 20,94 28,59 36,25 43,91 51,56 59,22 66,87 74,53 82,19 89,84 -2,03 5,62 13,28 20,94 28,59 36,25 43,91 51,56 59,22 66,87 74,53 82,19

Figura 66 - Histograma das Rendas anuais (agrupados em classes) 29

Anlise Exploratria de Dados utilizando o Microsoft Excel 2007

2.2.2 Categorizao de uma varivel quantitativa contnua Em algumas situaes interessante transformar uma varivel quantitativa contnua em qualitativa para realizar certas anlises. Por exemplo, em uma pesquisa de mercado poderia haver interesse em fazer a anlise conjunta entre a opinio sobre um produto e a renda mensal do entrevistado. Para o caso da varivel Renda mensal dos clientes da montadora, no arquivo AmostraToyord.xls, podemos adotar a seguinte categorizao (totalmente arbitrria): os clientes com renda menor do que 2 salrios mnimos sero classificados como de renda baixa; aqueles com renda maior ou igual a 2 e menor do que 20 salrios mnimos sero de renda mdia; e os restantes, com renda maior ou igual a 20 salrios mnimos sero de renda alta. Precisamos criar uma nova varivel em uma coluna livre da planilha do Excel . Para facilitar o processo, porm, ideal que voc selecione com o cursor uma clula na mesma linha do primeiro valor de renda, que est na linha 2: por exemplo, no arquivo AmostraToyord.xls, voc poderia pr o cursor na clula V1. Digite o nome da nova varivel, Renda Categorizada, e passe o cursor para a clula V2. A varivel "Renda Categorizada" dever relacionar-se com a varivel "Renda", transformando os valores numricos em categorias. Isto pode ser feito atravs de uma funo do Excel , uma funo lgica, a funo SE. A funo SE pode ser inserida atravs do menu Frmulas (procurando pela opo Lgica) ou escrevendo diretamente a frmula na clula. Vamos supor que queremos fazer um teste simples e colocar o resultado na clula V2: se o valor na clula G2 for menor que 2 o valor da clula V2 ser "Menor do que 2", caso contrrio o valor ser "Maior ou igual a 2". A frmula digitada na clula V2 ficaria (j na sintaxe do Excel ): =SE(G2<2;"Menor do que 2";"Maior ou igual a 2") Observe que os valores precisam estar entre aspas. Como temos que realizar vrios testes, na mesma expresso, para avaliar a qual das classes pertence o valor, deveremos inserir outras funes SE nos espaos referentes aos valores que a clula teria se o teste lgico desse resultado falso. Observe a estrutura a seguir, registrada em um fluxograma, mostrado na Figura 67.

30

Anlise Exploratria de Dados utilizando o Microsoft Excel 2007

Figura 67 - Procedimento para categorizar a varivel Renda Fonte: elaborada pelo autor.

Observe com cuidado a estrutura da funo: 1) Testa-se se a renda menor do que 2. Se for, a renda ser categorizada como baixa, seno novo teste ser realizado. 2) J se sabe que a renda maior ou igual a 2, ento basta testar se menor do que 20. Se for, a renda ser categorizada como mdia, seno ser alta, j que no h mais nenhuma opo possvel. O procedimento descrito na Figura 67 precisa ser codificado de acordo com a sintaxe do Excel para a funo SE, sabendo que o primeiro valor da varivel Renda est na clula G2, vamos digitar a frmula na clula V2, onde dever estar o primeiro valor da varivel Renda Categorizada.

Figura 68 - Categorizao da varivel Renda no Excel

O primeiro teste consiste em verificar se o contedo da clula G2 (primeira observao da varivel Renda) menor do que 2. Caso seja, a clula V2 (primeira observao da varivel Renda Categorizada) assumir o valor "Baixa. Caso contrrio, se o teste der resultado falso, ao invs de colocarmos um valor que a clula deveria assumir, realizamos mais um teste: inserimos outra funo SE para verificar se o valor de G2 menor do que 20. Caso seja, a clula V2 assumir o valor "Mdia". Se essa condio for satisfeita a clula V2 assumir o valor "Alta", pois se todos os testes anteriores tiveram resultados "FALSO", este o nico valor remanescente. Observe que para cada parnteses aberto precisa haver um fechado, caso contrrio o Excel acusar erro na frmula. Uma vez completa a frmula na clula V2 podemos "arrast-la" para baixo, chegando ao final do arquivo, na clula V251. O resultado ser uma nova varivel, relacionada Renda, mas categorizada (qualitativa), veja a Figura 69.

31

Anlise Exploratria de Dados utilizando o Microsoft Excel 2007

Figura 69 - Varivel Renda Categorizada

Utilizando um procedimento semelhante ao visto no item 1.1 para a varivel Renda Categorizada:

Figura 70 - Tabela dinmica da varivel Renda Categorizada

Talvez a categorizao escolhida no tenha sido a melhor... Observe que na Renda baixa h apenas uma observao. Podemos agora fazer cruzamentos com variveis qualitativas, atravs de tabelas dinmicas, atravs do procedimento visto no item 1.2. Tambm podemos construir grficos para variveis qualitativas (de barras ou em setores).

2.3 Clculo de medidas de sntese


Ao lidar com variveis quantitativas geralmente h interesse em calcular medidas de sntese, para obter mais informaes sobre as variveis sob anlise (veja a Unidade 3). O Excel permite calcular uma srie de medidas atravs de funes pr-programadas. Isso pode ser feito diretamente, inserindo as funes, ou selecionando-as atravs de uma tabela dinmica.

2.3.1 Medidas de sntese para uma varivel quantitativa


Imagine que queremos fazer uma descrio da varivel Renda, calculando as seguintes medidas: mdia, mediana, moda, desvio padro, quartil inferior, quartil superior, mnimo e Todas estas medidas tm funes pr-programadas no Excel, e podem ser inseridas de vrias formas. Por exemplo, quando conhecemos a sintaxe da funo podemos digit-la diretamente,

fizemos com mximo e mnimo de Renda (

32

Anlise Exploratria de Dados utilizando o Microsoft Excel 2007 Figura 57). Ou, podemos usar os menus do Excel 2007: basta selecionar Frmulas e surge a Figura 71.

Figura 71 - Frmulas no Excel 2007

Na extrema esquerda da Figura 71 est a opo Inserir Funo1. Observe tambm as opes: Usadas Recentemente, Financeira, etc. E, ao final, Mais Funes. Se pressionarmos esta ltima chegamos Figura 72.

Figura 72 - Frmulas no Excel 2007 Mais funes

Dentre as opes vemos Estatstica, que inclui as medidas de sntese que procuramos. Podemos inserir as medidas usando Inserir Funo ou pelo caminho da Figura 72. Mas, antes de tudo, devemos definir as clulas que armazenaro os resultados. Por convenincia os resultados das medidas sero postos nas clulas N2 a N8, com os nomes das medidas nas clulas M2 a M8, tal como mostrado na Figura 73.

Figura 73 - Medidas de sntese de Renda - 1a parte

Medidas de sntese pelo boto Inserir Funo Vamos comear com a mdia. Posicione o cursor na clula P2. Ao pressionar o boto Inserir Funo surge a tela da Figura 74.

Exatamente como nas verses anteriores do Excel. 33

Anlise Exploratria de Dados utilizando o Microsoft Excel 2007

Se soubermos algo da funo podemos digitar parte do seu nome no campo Procure por uma funo e o Excel apresentar uma lista de candidatas. Ou podemos selecionar uma categoria: a padro Mais recentemente usada. Se clicarmos sobre a seta ao lado, vamos ver vrias categorias (Figura 75), entre elas a Estatstica. Ao escolhermos esta, todas as funes existentes desta categoria sero apresentadas, bastando percorrer a barra de rolagem para encontrar as que procuramos, como, por exemplo, a mdia.

Figura 74 - Funes disponveis no Excel

Figura 75 - Funes estatsticas no Excel - 1a abordagem

Para cada funo o Excel apresenta a sua sintaxe (os argumentos necessrios) e uma explicao sobre o que ela faz. Se pressionarmos OK, passamos tela da Figura 76.

Figura 76 - Argumentos da funo Mdia (para Renda) - 1a verso

Os dados de Renda esto nas clulas G2 a G2512. Ento, ou selecionamos os dados diretamente (pressionando seta vermelha ao lado dos campos Nm1 ou Nm2 e escolhendo as clulas com o mouse) ou escrevemos o intervalo G2:G251. Os dois pontos indicam para o Excel que todas as clulas do intervalo precisam ser consideradas no clculo, mas a funo desconsidera clulas vazias. Antes mesmo de pressionar OK o Excel j apresenta o resultado: 25,0622 salrios

A clula G1 excluda por conter o nome da varivel. 34

Anlise Exploratria de Dados utilizando o Microsoft Excel 2007

mnimos (cerca de R$ 15600, em janeiro de 2012). Se repetirmos o processo para as outras medidas, vamos completar os clculos, os procedimentos esto mostrados da Figura 77 Figura 80.

Figura 77 - Argumentos das funes Mediana e Moda (Renda) - 1a verso

importante ressaltar que o arquivo AmostraToyord.xlsx refere-se a uma AMOSTRA, ento devemos calcular o desvio padro amostral com n-1 no denominador da expresso. No Excel isso feito atravs da funo DESVPAD(). Se houver interesse no desvio padro populacional, com n no denominador, devese usar a funo DESVPADP.
Figura 78 - Argumentos da funo desvio padro (Renda) - 1a verso

Figura 79 - Argumentos das funes Quartil Inferior e Superior (Renda) - 1a verso

Quando se trata do quartil inferior o Excel exige que se escreva 1 no campo Quarto, e 3 para o quartil superior, como explicado na prpria funo.

Figura 80 - Argumentos das funes Mnimo e Mximo (Renda) - 1a verso 35

Anlise Exploratria de Dados utilizando o Microsoft Excel 2007

E os resultados completos podem ser vistos na Figura 81.

Figura 81 - Medidas de sntese de Renda

A descrio de uma varivel quantitativa consiste em analisar basicamente quatro aspectos: tendncia central, disperso, assimetria e presena de valores discrepantes. Para a descrio ser completa precisamos calcular outras medidas de sntese, derivadas das obtidas na Figura 81: coeficiente de variao percentual, diferenas entre os quartis e a mediana, e os valores que definem os valores discrepantes. Da Figura 82 Figura 84 apresentamos as operaes: O coeficiente de variao percentual o resultado da diviso do desvio padro pela mdia do conjunto de dados. Permite comparar a disperso entre grupos com mdias diferentes.

Figura 82 - Clculo do CV%

Figura 83 - Clculo das diferenas entre os quartis e a mediana

Se a diferena entre o Quartil superior (Qs) e a Mediana (Md) for bastante prxima da diferena entre a Mediana e o Quartil Inferior (Qi) o conjunto de dados referente varivel pode ser considerado simtrico em relao tendncia central (alm disso, mdia e mediana devem ser prximas tambm).

Figura 84 - Clculo dos limites para valores discrepantes

36

Anlise Exploratria de Dados utilizando o Microsoft Excel 2007

Valores discrepantes inferiores so todos aqueles abaixo do limite Qi 1,5(Qs-Qi). E discrepantes superiores todos acima de Qs + 1,5(Qs-Qi). Os resultados completos esto na Figura 85.

Figura 85 - Medidas de sntese para Renda (completas)

E a descrio da varivel Renda ser mostrada a seguir. Tendncia Central: - o valor tpico de Renda oscila entre 23,405 (mediana - 50% dos clientes abaixo e 50% acima deste valor) e 25,0622 salrios mnimos (mdia); - ou seja, entre R$14557,91 e R$15588,69 (valores de janeiro de 2012); - usando dados do Brasil (IBGE PNAD 2008) que constatou uma renda mdia do brasileiro de R$ 1036,00 pode-se dizer que os clientes da operadora de celular tem um bom perfil econmico, pois sua tendncia central pelo menos quatorze vezes maior do que a mdia do Brasil3. - a moda vale 6,645 salrios mnimos, mas para variveis quantitativas contnuas esta medida no tem muito significado, pois os valores se repetem pouco 4. Disperso: - a variao total da renda de 1,795 (mnimo) a 86,015 (mximo) salrios mnimos (R$1116,49 a R$53501,33 valores de janeiro de 2012), a maior renda quase 48 vezes maior do que a menor, indicando grande disperso; - a grande disperso confirmada pelo alto valor do coeficiente de variao percentual, indicando que o desvio padro representa 57,825% da mdia; - 25% dos clientes tm renda de at 14,1188 (quartil inferior) salrios mnimos (R$8782), e 25% tm renda acima de 32,1275 (quartil superior) salrios mnimos (R$19983,31) valores de janeiro de2012; - como consequncia da afirmao anterior, 50% dos clientes tm renda entre 14,1188 e 32,1275 salrios mnimos. Assimetria - mdia e mediana so diferentes; - a concluso acima confirmada pela diferena entre quartil superior e mediana (8,7225) que menor do que a entre a mediana e o quartil inferior (9,28625). Valores discrepantes - no h discrepantes inferiores, pois precisaria haver renda inferior -12,8944 salrios mnimos, o que impossvel; - h discrepantes superiores, pois h valores acima5 de 59,1406 salrios mnimos (R$36785,45 em janeiro de 2012).

3 4

FUNDAMENTAL ter algum padro para comparao, o que foi possvel neste caso. Usando a funo CONT.SE descobre-se que a moda ocorreu apenas 4 vezes em um total de 250 observaes. 5 Usando a funo CONT.SE verifica-se que h 7 clientes com renda acima deste valor, sendo portanto valores discrepantes. 37

Anlise Exploratria de Dados utilizando o Microsoft Excel 2007

2.3.2 Medidas de sntese para uma varivel quantitativa em funo de uma qualitativa por tabela dinmica
No item 1.1, Figura 8, pudemos observar que h uma srie de medidas que podem ser calculadas atravs de uma tabela dinmica. A tabela dinmica permite identificar os resultados em funo de uma ou mais variveis independentes, o que permitir uma anlise mais pormenorizada dos dados. Vamos imaginar que h interesse em avaliar como est a distribuio da varivel "Renda" em funo da varivel "Modelo", no arquivo AmostraToyord.xls. extremamente interessante conhecer o perfil econmico dos clientes por modelo. O procedimento para construo da tabela dinmica semelhante ao mostrado no item 1.2: posicionar o cursor em alguma clula do banco de dados, menu Inserir, opo Tabela Dinmica. O Excel 2007 automaticamente selecionar todas as colunas adjacentes posio do cursor: no nosso caso, na Plan1, clulas A1 a K251 do arquivo AmostraToyord.xlsx, como mostrado na Figura 1. Se pressionarmos OK na Figura 1 o Excel 2007 apresenta a Figura 86, com as vrias opes de Layout:

Figura 86 - Layout da tabela dinmica Renda x Modelo 1a parte

Vamos arrastar a varivel Modelo para o campo Rtulos de Linha, e Renda para o campo Valores (se necessrio mude de Soma para Contagem de Renda), NO arraste nenhuma outra varivel para o campo Rtulos de Coluna, resultando na Figura 87.

38

Anlise Exploratria de Dados utilizando o Microsoft Excel 2007

Figura 87 - Layout da tabela dinmica Renda x Modelo 2a parte

No caso da Figura 87 a tabela apenas contaria quantos clientes h de cada modelo de veculo. Precisamos arrastar a varivel Renda mais vezes at o campo Valores e modificar a forma de resumir os resultados: basta selecionar o boto da varivel, e escolher Configuraes do campo de Valor, ver Figura 88.

Figura 88 Formas de resumir os dados de Renda

Usamos DesvPad porque os dados do arquivo AmostraToyord.xlsx referem-se a uma amostra. O layout resultante mostrado na Figura 89 Tela esquerda. E tal como mostrado na Figura 39, precisamos mover o boto Valores do campo Rtulos de Coluna para o campo Rtulos de Linha, resultando na tela direita da Figura 89.

39

Anlise Exploratria de Dados utilizando o Microsoft Excel 2007

Figura 89 - Layout da tabela dinmica Renda x Tipo 3a parte

Clicando sobre o X no canto superior direito da tela direita da Figura 89 chegamos Figura 90, j sem as clulas vazias e com modificaes para tornar a tabela mais apresentvel.

40

Anlise Exploratria de Dados utilizando o Microsoft Excel 2007

H clara relao entre Renda e Modelo de veculo. Os proprietrios de LuxuriousCar tm a maior renda mnima (29,8 salrios mnimos), maior mdia de renda (50,93 salrios mnimos) e a maior renda de todo o conjunto (86,015 salrios mnimos). Por outro lado, os compradores de Chiconaultla e DeltaForce3 tm as menores mdias e menores mnimos de renda. Observe nas cinco ltimas linhas da tabela as medidas para o conjunto como um todo, exatamente iguais s mostradas na Figura 85, mas sem a mediana e os quartis, o que pode prejudicar um pouco a anlise, especialmente se valores discrepantes estiverem presentes nos dados. No obstante, trata-se de uma maneira simples de obter medidas em funo dos valores de outra varivel, e com mdia, desvio padro, mnimo e mximo plenamente possvel realizar uma avaliao dos dados. Poderamos incluir mais uma varivel independente, por exemplo, "Geral", e observar a distribuio da Renda. Apenas tome cuidado: quanto mais variveis, mais cuidadosa precisa ser a anlise dos resultados.

Figura 90 - Tabela dinmica de Renda por Tipo

2.3 Procedimentos para duas variveis quantitativas (diagrama de disperso)


Imagine que houvesse interesse em avaliar se clientes com maior renda rodam mais com seus veculos. Os dados esto no arquivo AmostraToyord.xls, contm as informaes sobre 250 pares de observaes Renda (em salrios mnimos) e Quilometragem mensal (em km). razovel imaginar que Renda possa influenciar Quilometragem: com mais dinheiro pode-se gastar mais com combustvel e rodar mais com o veculo. O primeiro passo construir um diagrama de disperso relacionando as duas variveis: Renda ser a varivel independente (posta no eixo X) e Quilometragem a dependente (no eixo Y). Recomenda-se que o cursor seja colocado em uma clula vazia da planilha, para permitir a correta insero dos dados. No menuInserir, na barra de ferramentas do Excel, em grficos, escolhe-se dentre estes disperso e o subtipo inicial, disperso com marcadores, como mostra a Figura 91.
41

Anlise Exploratria de Dados utilizando o Microsoft Excel 2007

Figura 91 Insero de grfico de disperso - 1a etapa

Ao selecionar o grfico na Figura 91 surgir um grfico vazio. Selecionando-o e pressionando o boto direito do mouse chegamos Figura 92.

Figura 92- Insero de grfico de disperso - 2a etapa

A opo Selecionar Dados permitir inserir os dados de Renda e Quilometragem, veja a Figura 93.

Figura 93 - Adio de sequncias - incio

J que no h dados selecionados previamente precisamos pressionar Adicionar, o que resultar na Figura 94.
42

Anlise Exploratria de Dados utilizando o Microsoft Excel 2007

Figura 94 - Adio de sequncias X e Y

Precisamos adicionar os valores de X e de Y (no h necessidade de adicionar valores em "Nome"). Podemos fazer isso de duas formas: ou digitando as referncias das clulas (em "Valores de X" teramos G2:G251; em "Valores de Y" teramos I2:I251), ou marcando as clulas na planilha (pressionando a seta vermelha na extrema direita de cada janela, e marcando as clulas de interesse na planilha). Aps a adio dos dados, o resultado ser uma tela semelhante da Figura 95.

Figura 95 Adio de sequncias - dados inseridos

Observe que j possvel ter uma ideia do diagrama de disperso: os dados parecem distribuir-se de forma crescente, com os valores de X comeando acima de 0, e os valores de Y variando de 300 at quase 800. Possivelmente teremos que modificar a escala do eixo Y, para que a visualizao do grfico seja mais apropriada: da forma como est o grfico, os dados esto muito agrupados, o que pode dificultar a anlise do diagrama de disperso. Pressionando OK na Figura 95, chega-se ao grfico da Erro! Fonte de referncia no encontrada.. Repare que h uma legenda desnecessria, no h ttulo para o grfico, no h identificao nos eixos e a escala do eixo Y precisa ser modificada. Estes procedimentos foram vistos na seo 1.1, da Figura 20 em diante, para grfico por colunas, sendo semelhantes para o grfico de disperso. O resultado final ento ser o apresentado na Figura 97.
Figura 96 - Diagrama de disperso de quilometragem por renda 1 verso

43

Anlise Exploratria de Dados utilizando o Microsoft Excel 2007

Quilometragem por Renda


800 700

Quilometragem

600
500 400

300
200 0 20 40 60 80 100 Renda (salrios mnimos)

Figura 97 - Diagrama de disperso de Quilometragem por Renda

Agora podemos fazer uma anlise do diagrama de disperso: - a fora da correlao no muito grande, pois os pontos esto relativamente distantes entre si. - a correlao parece ser positiva, pois se observa que a nuvem de pontos tem um comportamento crescente, ou seja, maiores rendas, maiores quilometragens (e razovel imaginar que realmente um aumento na renda permita gastar mais com combustvel e, portanto, rodar uma maior quilometragem). - quanto forma do relacionamento, isto , que tipo de curva poderamos ajustar aos dados para realizao de previses, no parece ser algo muito fcil decidir. Poderamos ajustar vrios modelos aos dados, mas a aderncia fosse ruim devido fraca correlao. Existe correlao entre renda e quilometragem? Sim, mas ela no forte, e aparenta ser positiva.

44

Anda mungkin juga menyukai