Anda di halaman 1dari 9

UNIVERSIDADE DE SO PAULO

FACULDADE DE ECONOMIA, ADMINISTRAO E CONTABILIDADE DE RIBEIRO PRETO

DEPARTAMENTO DE ADMINISTRAO

Estatstica Aplicada Administrao com o software KNIME

Prof. Dr. Evandro Marcos Saidel Ribeiro

1 O software KNIME

Nesta apostila o contedo de Estatstica Aplicada Administrao visto com a aplicao do software
KNIME (pronuncia-se naime). O KNIME um software livre que proporciona acesso fcil e intuitivo para
tcnicas avanadas de cincia dos dados. Veja informaes no site http://www.knime.org/ (Figura 1).

Figura 1. Site http://www.knime.org/ acessado em 21/01/2016.

1.1 Leitura de dados no KNIME

Os dados podem ser disponibilizados em diversos formatos. Nesta apostila so considerados arquivos
gravados em planilha Excel no formato CSV (comma-separated values), que para o Excel em portugus
consiste em arquivo com variveis em colunas separadas por ponto e vrgula, neste caso a vrgula serve
como separador de casas decimais em nmeros reais. Para esta apostila considerei arquivo com colunas

1
separadas por virgulas e as casas decimais so pontos. Este arquivo CSV est disponibilizado no site STOA da
disciplina:

Cap01_Corrar_etal_2007.csv

Exerccio 1: Abrir o software KNIME e ler os dados contidos no arquivo Cap01_Corrar_etal_2007.csv.

Clicando no cone o KNIME inicializado, apresentando a interface (verso 3.1.0) vista na Figura 2.

Figura 2. Interface KNIME verso 3.1.0.

Nesta apostila sero apresentados procedimentos necessrios para realizao de anlises estatsticas. Para
conhecer melhor o software recomendvel seguir os passos disponibilizados no KNIME Quickstart Guide.

necessrio verificar o local de trabalho (Workspace) e se for o caso redefinir o Workspace para um local
mais adequado. Quando o software iniciado, o Workspace ser aquele definido na instalao, mas o
Workspace pode ser alterado por:

File > Switch Workspace > Other

No caso desta apostila o Workspace foi definido para: D:\USP\ENSINO\knime (veja Figura 3).

2
Figura 3. Definio do Workspace no KNIME (passo importante para iniciar a anlise de dados).

Observe, no NIME Explorer (que fica no canto superior esquerdo da interface do KNIME), que o arquivo a ser
analisado (Cap01_Corrar_etal_2007.csv) est neste Workspace (veja Figura 4 o destaque em azul-claro).

Figura 4. Detalhe do KNIME Explorer com alguns arquivos presentes no Local Workspace. Note o arquivo
Cap01_Corrar_etal_2007.csv marcado em azul-claro.

As anlises so feitas em termos de ns conectados formando um fluxo de anlise (workflow). Assim, uma
anlise estatstica consiste num workflow (esquema com ns conectados). Existem vrios tipos de ns, que
podem ser vistos no repositrio de ns, como apresentado na Figura 5. Pode ser visto na Figura 5 que
existem ns do tipo Entrada e Sada (I/0), Manipulao, Visualizao, Anlises, Base de Dados, Outro Tipo de
Dados, ...

Para iniciar a anlise deve-se criar um novo workflow: File > New > KNIME >. Veja a Figura 6.

3
Figura 5. Detalhe do Repositrio de ns da interface do KNIME.

Figura 6. Iniciando um novo workflow no KNIME.

4
O primeiro n a ser considerado o de leitura de dados. Clicando duas vezes no n CSV Reader o n aparece
na janela na qual ser desenhado o workflow da anlise. Veja Figura 7.

Figura 7. Insero do n CSV Reader no workflow KNIME_Statistica01.

Note que o n CSV Reader que aparece no centro da Figura tem a luz vermelha acesa e um ponto de
exclamao (amarelo) indicando que o n deve ser configurado. Clique no n com o boto direito do mouse
(ou clique no n e aperte a tecla F6) para configurar o n.

Verifique as caractersticas da leitura na janela apresentada (veja Figura 8). Modifique o delimitador de
acordo com o tipo de arquivo que voc gravou em csv. Ateno para vrgulas como casas decimais. Pode ser
necessrio editar o arquivo csv para que as casas decimais sejam ponto ao invs de vrgula.

Figura 8. Caractersticas da configurao do n de leitura de arquivo csv.

5
Aps configurar o n clique em OK e depois de retornar ao workflow selecione o n e clique no triangulo
verde (Execute Selected F7). Note se a luz do n fica alterada de vermelha para verde. Se a luz ficou verde
ento o n foi executado com sucesso e a leitura foi feita. O resultado pode ser observado na sada do n,
clicando com o boto direito observe a opo File Table (Figura 9).

Figura 9. Opes para o n CSV Reader. Note a ltima opo File Table que apresenta a tabela com os
dados do arquivo lido.

Aps selecionar a opo File Table observe o resultado na Figura 10 para as 12 primeiras empresas da base
de dados.

Figura 10. Tabela do arquivo Cap01_Corrar_etal_2007.csv obtida pelo n CSV Reader. Detalhe das 12
primeiras linhas do arquivo.

Este o final do Exerccio 1.


6
1.2 Estatsticas descritivas no KNIME

Aps a leitura dos dados ser explorada a obteno de estatsticas descritivas tais como, mdia, desvio
padro, mnimo, mximo, frequncia de ocorrncia, ... das variveis presentes na base de dados.

Exerccio 2: Estatsticas descritivas para as variveis do arquivo Cap01_Corrar_etal_2007.csv,

Vamos considerar o mesmo workflow iniciado no Exerccio 1. Para fazer a anlise estatstica descritiva das
variveis temos que considerar o repositrio de ns.

No repositrio, no conjunto Analytics so disponibilizados ns em dois subconjuntos: Mining e Statistics.


No subconjunto Statistics temos o n Statistics. Vamos ento inserir este n no workflow arrastando o
mesmo para um local prximo ao n CSV Reader. O resultado apresentado na Figura 11.

Figura 11. Insero do n Statistics para formar o workflow com anlise estatstica descritiva.

Note na Figura 11, que o n Statistics tem uma entrada (que ser utilizada para entrar com a base de
dados, e trs sadas. A descrio completa do n pode ser vista no quadro esquerda (Node Description). A
descrio das portas pode ser vista neste quadro e apresentada na Figura 12.

Figura 12. Descrio das portas do n Statistics.

7
Assim, as estatsticas descritivas para as variveis contidas no arquivo em anlise podem ser obtidas
conectando o n de leitura de base de dados ao n Statistics e depois e executando o workflow para ento
observar os resultados nas portas de sada.

Note que na Figura 11 o n Statistics apresenta luz vermelha, indicando que o n no tem entrada
definida. Aps definir a entrada a luz muda para amarela. Indicando que existe dados de entrada mas ainda
no foram produzidas sadas (veja Figura 13). Quando executado (boto verde com tringulo) o n passa
para luz verde (veja Figura 13)

Figura 13. Workflow para anlise estatstica descritiva.

Os resultados das estatsticas descritivas podem ser acessados clicando com o boto direito no n Statistics. As ltimas
trs opes referem-se s trs sadas. As Figuras 14 a 16 apresentam os resultados de forma resumida.

Figura 14. Porta de sada 1 do n Statistics. Estatsticas descritivas para as variveis numricas: Mnimo,
mximo, mdia, desvio padro varincia, ...

8
Figura 15. Porta de sada 2 do n Statistics. Histogramas para variveis nominais.

Figura 16. Porta de sada 3 do n Statistics. Tabelas de frequncias.

Assim, as principais estatsticas descritivas so obtidas pelo KNIME com o workflow descrito na Figura 13.

Este o final do Exerccio 2.


A obteno de estatsticas descritivas atravs do workflow mais simples, que consiste em apenas dois ns
conectados (Figura 13), conclui os exemplos de introduo ao software KNIME. As prximas sees so
dedicadas ao contedo de disciplinas de Estatstica Aplicada Administrao desenvolvido com o software
KNIME.

Anda mungkin juga menyukai