Dezembro de 2009
Agenda
Pentaho BI Suite
Coleo de Aplicaes de Software
Criao e deployment de solues para
Janeiro de 2010
Pentaho BI Suite
Anlise multidimensional
Reporting
Dashboards
Minerao de dados
Janeiro de 2010
Pentaho BI Suite
Janeiro de 2010
Arquitetura do Pentaho BI
Pentaho BI Suite
Pentaho BI Platform demo
Instalao pr-configurada da plataforma Pentaho Demonstrao do uso de relatrios, cubos e
dashboards
Base de dados Steel Wheels
Download
http://sourceforge.net/projects/pentaho/files/ Pasta Business Intelligence Server: arquivo
biserver-ce-3.6.0.stable.zip (~170MB)
Janeiro de 2010
Pentaho BI Suite
Um pequeno roteiro para rodar o BI Server
Baixar e descompactar o arquivo Certifique-se que existe uma JVM instalada Verifique a varivel de ambiente JAVA_HOME Se estiver no Linux, d acesso de gravao e leitura para a pasta do tomcat.
sudo chmod 755 ./tomcat/*
Janeiro de 2010
Pentaho BI Suite
Um pequeno roteiro para rodar o BI Server
Inicie o BI Server Windows: <pasta>\bi-server-ce\start-pentaho.bat
Janeiro de 2010
Pentaho BI Suite
Um pequeno roteiro para rodar o BI Server
Inicie o BI Server Linux: <pasta>/bi-server-ce/sh
./start-pentaho.sh
Janeiro de 2010
Pentaho BI Suite
Um pequeno roteiro para rodar o BI Server
Acesse a url
http://localhost:8080/pentaho
Janeiro de 2010
Pentaho BI Suite
Um pequeno roteiro para rodar o BI Server
Entre com o usurio joe e navegue na aplicao
Janeiro de 2010
Janeiro de 2010
Integrao de Dados
Processo de ETL
Janeiro de 2010
Transformao
Carregamento
Janeiro de 2010
Extrao
Transformao
Carregamento
Janeiro de 2010
Carregamento
Extrao
Transformao
Janeiro de 2010
Janeiro de 2010
Janeiro de 2010
Janeiro de 2010
Janeiro de 2010
dimenses
Adio e atualizao de linhas das tabelas de dimenses.
Janeiro de 2010
Instalando o PDI
Pr-requisito
JRE (ou JDK) 5.x ou superior.
Download
http://sourceforge.net/projects/pentaho/files/
Janeiro de 2010
Instalando o PDI
Aps descompactar o arquivo
Executar spoon.bat ou Kettle.exe (ou spoon.sh no
Linux)
Janeiro de 2010
Instalando o PDI
Clique no boto No repository
A interface grfica do PDI (Spoon) ser carregada,
Janeiro de 2010
Instalando o PDI
Dicas de configurao da rea de trabalho do Spoon
Aba General Show tips at startup? Show welcome page at startup? ... Aba Look-and-feel Preferred language ...
Janeiro de 2010
componentes:
Transformaes Jobs
Janeiro de 2010
Janeiro de 2010
registros
Janeiro de 2010
Jobs
Consiste de uma coleo de
steps de transformao Cada step denota uma operao do processo de ETL A sada de um step produz um conjunto de registros Fluxo dos steps da transformao ocorre de forma simultnea e assncrona Arquivo .ktr
IN1177 - Banco de Dados para Suporte Deciso
transformaes ou de steps de jobs Cada entrada do job denota uma tarefa do processo de ETL A sada de cada entrada do job produz um status de execuo Fluxo dos steps do job ocorre de forma sequencial Arquivo .kjb
Janeiro de 2010
Janeiro de 2010
Janeiro de 2010
Arquitetura do PDI
Janeiro de 2010
Exerccios 1 e 2
Criando as primeiras transformaes no PDI
Transformao simples Processo de ETL Extrao de dados de uma fonte (arquivo texto) Transformao dos dados Carregamento dos dados transformados (arquivo texto)
Janeiro de 2010
Exerccio 3
Criando uma conexo com um banco de
dados
Janeiro de 2010
Janeiro de 2010
Janeiro de 2010
Janeiro de 2010
Campos de um arquivo .CSV Clulas de uma planilha .XLS Texto de tamanho fixo
Idem ao CSV + tratamento de erros + filtros Ns e atributos de tags no formato XML
Janeiro de 2010
Exerccio 4
Extraindo dados de um arquivo texto,
Janeiro de 2010
arquivo texto
Extrao de dados de vrios arquivos: Lista de arquivos Expresses regulares
Janeiro de 2010
Exerccios 5 e 6
Adicionando uma lista de arquivos de
Janeiro de 2010
Expresses regulares
Em vrios steps do PDI podemos usar
Combina com...
Qualquer arquivo .txt Qualquer arquivo comeando com test, seguido por uma data usando o formato yyyymm Qualquer arquivo .txt comeando com test escrito em maisculo ou minsculo
Exemplos
Arquivo.txt test2009-12.txt test2009-01.txt
(?i)test.+\.txt
TeSTcaseinsensitive.tXt
Janeiro de 2010
Expresses regulares
Para saber mais sobre expresses regulares
Regular Expression Quick Start:
http://www.regularexpressions.info/quickstart.html The Java Regular Expression Tutorial: http://java.sun.com/docs/books/tutorial/essential/r egex/ Java Regular Expression Pattern Syntax: http://java.sun.com/javase/6/docs/api/java/util/reg ex/Pattern.html
Janeiro de 2010
Janeiro de 2010
Janeiro de 2010
Rowset
Streams
Janeiro de 2010
Streams
Dados enviados de um step
para outro
Os hops apenas repassam o
fluxo de dados
um membro do dataset
IN1177 - Banco de Dados para Suporte Deciso Janeiro de 2010
rowset de entrada e outro de sada Boto direito -> Mostra campos de entrada/sada
Janeiro de 2010
Operaes bsicas
Selecionar e Alterar Campos
Remover Campos
Alterar metadados dos campos
Janeiro de 2010
Exerccio 7
Alterando os campos do Exerccio 6 Gerando a sada para uma planilha Excel
Janeiro de 2010
Janeiro de 2010
Janeiro de 2010
Exerccio 8
Extraindo informaes do sistema
Janeiro de 2010
Tipos de Dados
Todo campo de um dataset possui um tipo de
Tipos de Dados
Date (padro API Java)
Janeiro de 2010
Tipos de Dados
Date - Exemplos
Tipos de Dados
Campos numricos (padro API Java)
O PDI tenta interpretar dados numricos
# 0
. %
Tipos de Dados
Campos numricos (padro API Java)
Exemplos - campo com valor 99.55
Formato Resultado
# 0
#.# #.## #.000 000.000
Janeiro de 2010
Tipos de Dados
Campos numricos (padro API Java)
Algumas consideraes: Se no especificar o formato -> informar tamanho e preciso Por padro, o PDI tenta interpretar o nmero e repassa pelo hop sem aplicar nenhum formato.
Janeiro de 2010
Exerccio 9
Aplicando formatos para datas e nmeros do
Exerccio 8
Janeiro de 2010
Arquivos XML
Arquivos (ou documentos) XML so utilizados
para:
Armazenar dados Troca de dados entre sistemas heterogneos
Arquivos XML
Como o PDI trata arquivos XML?
<?xml version="1.0" encoding="UTF-8"?> <world> ... <country> <name>Argentina</name> <capital>Buenos Aires</capital> <language isofficial="T"> <name>Spanish</name> <percentage>96.8</percentage> </language> <language isofficial="F"> <name>Italian</name> <percentage>1.7</percentage> </language> <language isofficial="F"> <name>Indian Languages</name> <percentage>0.3</percentage> </language> </country> ... </world>
elemento atributo
Janeiro de 2010
Arquivos XML
Como o PDI trata arquivos XML?
Step Get data from XML Notao Xpath: Conjunto de regras para recuperar informao de um documento XML Documento XML tratado como uma rvore formada por ns. Tipos de ns:
Elementos; Atributos; Texto
Janeiro de 2010
Arquivos XML
Como o PDI trata arquivos XML?
Relacionamento entre os ns Um n tem um pai Um n tem zero ou mais filhos, irmos, ancestrais ou descendentes
Arquivo de exemplo: country o pai dos elementos name, capital e language. Os trs elementos so filhos de country.
Janeiro de 2010
Arquivos XML
Como o PDI trata arquivos XML?
Para acessar um n Usar uma expresso no formato XPath relativa ao n corrente.
Janeiro de 2010
Arquivos XML
Exemplos XPath
Expresso node_name . .. @ Descrio Seleciona todos os ns filhos do n node_name. Seleciona o n corrente Seleciona o pai do n corrente Seleciona um atributo
Janeiro de 2010
Exerccio 10
Extraindo uma lista com dados de pases em
Janeiro de 2010
Resumo da Semana 1
Arquitetura do Pentaho BI server Instalao do PDI Arquitetura do PDI Extrao de dados em arquivos texto (plain e XML) Carregamento de dados em arquivos texto e planilhas Extrao de informao a partir de informaes do ambiente Tipos de dados suportados pelo PDI Operaes bsicas de transformaes
IN1177 - Banco de Dados para Suporte Deciso Janeiro de 2010
Bibliografia