Anda di halaman 1dari 62

MODELAGEM DIMENSIONAL

CONCEITOS BÁSICOS
VAMOS COMEÇAR ...
• Modelos multidimensionais tiram proveito dos relacionamentos
inerentes nos dados para preencher os dados em matrizes
multidimensionais, chamadas de cubos de dados agregados (ou
hipercubos, quando possuem mais de três dimensões).
TESSERACT

Um tesserato é um cubo no espaço de 4


dimensões. Você também pode dizer que é o
análogo 4D de um cubo. É uma forma 4D onde
cada rosto é um cubo.
COMPLEMENTANDO ...

• Assim como um cubo pode ser desdobrado em 6


quadrados no espaço 2D, um tesserato pode ser
desdobrado em 8 cubos no espaço 3D.
CONCEITOS BÁSICOS
O QUE O USUÁRIO VÊ?
MODELAGEM DIMENSIONAL
CONCEITOS BÁSICOS
MODELAGEM DIMENSIONAL
TABELAS FATOS E DIMENSÕES
DIMENSÕES E FATOS
TABELA FATO E DIMENSÕES
TABELA FATO

CARACTERÍSTICAS DE TABELAS FATO


▪ Armazenam ocorrências, eventos ou fatos de um processo de negócio da organização.
▪ Possuem geralmente uma grande quantidade armazenada de registros ou tuplas.
▪ São normalizadas e sem hierarquia (decomposições em outras tabelas).
▪ São tabelas que geralmente crescem verticalmente: mais registros ou linhas.
▪ Armazenam medidas/métricas quantitativas (valores ou indicadores).
▪ Podem ser medidas de desempenho, métricas operacionais, medidas agregadas, etc.
▪ Contêm chaves estrangeiras que correspondem às chaves primárias das Tabelas Dimensão.
▪ Apresentam uma chave primária composta em que a dimensão tempo sempre é parte integrante.
▪ Expressam, em geral, relacionamentos de 1:N entre as Tabelas Periféricas (Dimensão).
▪ São efetivamente criadas apenas após a criação de tabelas dimensionais.
▪ Respondem à pergunta: “O que está sendo medido nesse processo de negócio?”.
▪ Exemplos: Quantidade, Valor, Lucro, Margem, Perda, entre outros.
MÉTRICAS/MEDIDAS/FATOS

Aditivos Semiaditivos Não aditivos

• Podem ser agrupadas • Podem ser agrupadas • Nunca podem ser


em uma qualquer das em algumas adicionados ou
dimensões associadas dimensões, mas não somados
à tabela de fatos todas. • Taxas e percentuais
• Os fatos mais flexíveis e • Ex.: Saldo em conta -
úteis. não podem ser
• Lucro líquido resumidos por meio da
dimensão de tempo
QUESTÃO.

• Ano: 2018 Órgão: LIQUIGÁS Prova: Analista de Sistemas


• Em um banco de dados multidimensional, os fatos aditivos
• A não podem ser somados em nenhuma dimensão.
• B podem ser somados apenas para um nível superior de
uma dimensão, caso haja hierarquia na dimensão.
• C podem ser somados em apenas algumas dimensões.
• D podem ser somados em todas as dimensões.
• E só não podem ser somados na dimensão temporal.
SOBRE CHAVES ENTRE FATOS E DIMENSÕES

Chave primária da tabela


fato:
Composta pelos atributos
que “apontam” para as
chaves primárias das
tabelas dimensão.
No exemplo temos:
ITEM_KEY, BRANCH_ID,
Location_ID e Time_ID
TABELA DIMENSÃO

CARACTERÍSTICAS DE TABELAS DIMENSÃO

▪ Armazenam atributos ou dimensões que descrevem medidas de uma Tabela Fato;


▪ Possuem geralmente menos linhas e mais colunas que Tabelas Fato;
▪ São desnormalizadas e com hierarquia (decomposições em outras tabelas).
▪ Possuem uma chave primária que identificam unicamente seus registros;
▪ As chaves primárias das Tabelas Dimensão compõem a chave primária da Tabela Fato;
▪ São tabelas que geralmente crescem horizontalmente: mais atributos ou colunas;
▪ Apresentam atributos qualitativos ou textuais (Ex: Nome, Sexo, Data de Nascimento);
▪ Permitem a visualização de fatos por meio de diversas perspectivas diferentes;
▪ Atributos devem ser verbosos, descritivos, completos, discretos e corretos;
▪ Respondem à pergunta: "Quando?", "O que?", "Onde?" e "Quem?";
▪ Exemplos: Pessoas, Produtos, Lugares, Tempo, entre outros.
QUESTÃO.

• Ano: 2018 Órgão: EBSERH Prova Analista de Tecnologia


da Informação
• Com relação a banco de dados, julgue o item seguinte.
• Diferentemente dos bancos de dados transacionais, a
modelagem de bancos de dados multidimensionais é
caracterizada pelo uso de tabelas fato e tabelas
periféricas, que armazenam, respectivamente, a
transação e as dimensões.
MODELAGEM DIMENSIONAL
TABELAS FATOS E DIMENSÕES
MODELAGEM DIMENSIONAL
TIPOS DE TABELAS FATOS
SEIS TIPOS DE FATOS

1. Fato transacional
2. Fato agregada
3. Fato consolidada
4. Fato snapshot periódico
5. Fato de snapshot acumulado
6. Fato sem fato
TABELA FATO TRANSACIONAL

A linha em uma tabela de fatos de transações


corresponde a um evento de medição em um
ponto no espaço e no tempo
TABELA FATO AGREGADA

• A tabela fato agregada tem a função de acelerar o


desempenho das consultas. Ela sumariza os dados de
outra tabela fato.
• Geralmente é construída para armazenar o resultado
de consultas agregadas muito utilizadas.
• Por exemplo, se você consulta todos os dias o valor de
vendas nos meses anteriores esse pode ser um bom
dado para ser armazenado em uma tabela agregada.
TABELA FATO CONSOLIDADA

• Muitas vezes é conveniente combinar fatos de vários


processos em uma única tabela fato consolidada caso
possam ser expressos na mesma granularidade.
• Por exemplo, os valores reais de vendas podem ser
consolidados com as previsões de vendas em uma
única tabela fato para tornar a tarefa de analisar os
valores reais contra previsões simples e rápida
FATO SNAPSHOT PERIÓDICO
DIM_DATA DIM_HORA DIM_CANAL DIM_SITE QTD_PAGE_VIEW
22/07/2019 05:00 Instagram estrategia.com.br 65
22/07/2019 06:00 Instagram estrategia.com.br 172
22/07/2019 07:00 Instagram estrategia.com.br 162
22/07/2019 08:00 Instagram estrategia.com.br 72
22/07/2019 09:00 Instagram estrategia.com.br 69
22/07/2019 10:00 Instagram estrategia.com.br 194
22/07/2019 11:00 Instagram estrategia.com.br 166
22/07/2019 12:00 Instagram estrategia.com.br 151
22/07/2019 13:00 Instagram estrategia.com.br 23
22/07/2019 14:00 Instagram estrategia.com.br 69
22/07/2019 15:00 Instagram estrategia.com.br 36
22/07/2019 16:00 Instagram estrategia.com.br 61
22/07/2019 17:00 Instagram estrategia.com.br 153
22/07/2019 18:00 Instagram estrategia.com.br 174
22/07/2019 19:00 Instagram estrategia.com.br 50
22/07/2019 20:00 Instagram estrategia.com.br 165
22/07/2019 21:00 Instagram estrategia.com.br 196
22/07/2019 22:00 Instagram estrategia.com.br 193
22/07/2019 23:00 Instagram estrategia.com.br 69
23/07/2019 00:00 Instagram estrategia.com.br 163
23/07/2019 01:00 Instagram estrategia.com.br 143
23/07/2019 02:00 Instagram estrategia.com.br 171
23/07/2019 03:00 Instagram estrategia.com.br 163
23/07/2019 04:00 Instagram estrategia.com.br 98
23/07/2019 05:00 Instagram estrategia.com.br 25
23/07/2019 06:00 Instagram estrategia.com.br 153
23/07/2019 07:00 Instagram estrategia.com.br 111
TABELA FATO SNAPSHOT ACUMULADO
TABELA FATO SEM FATO
QUESTÃO.
• Ano: 2018 Órgão: TCM-BA Provas Auditor Estadual de Controle Externo
• Acerca de modelagem dimensional, assinale a opção correta.
• A As granularidades fundamentais para classificar todas as tabelas fato de um modelo dimensional
são: transacional, snapshot periódico e snapshot acumulado.
• B Os fatos e dimensões não são tabelas do banco de dados, pois, no modelo dimensional, são
componentes do cubo de um data warehouse.
• C No modelo estrela, as dimensões são normalizadas para tornar mais ágeis as consultas analíticas.
• D O modelo floco de neve (SnowFlake) aumenta o espaço de armazenamento dos dados
dimensionais, pois acrescenta várias tabelas ao modelo, todavia torna mais simples a navegação
por software que utilizarão o banco de dados.
• E Os códigos e as descrições associadas, usadas como nomes de colunas em relatórios e como
filtros em consultas, não devem ser gravados em tabelas dimensionais.
MODELAGEM DIMENSIONAL
TIPOS DE TABELAS FATOS
MODELAGEM DIMENSIONAL
TABELAS DIMENSÃO
CONCEITOS
• Cada tabela de dimensão tem uma única coluna de chave primária.
– Esta chave primária é incorporada como uma chave estrangeira em
qualquer tabela de fatos onde a descrição textual presente na linha da
dimensão é exatamente a correta para a linha da tabela de fatos.
• Granularidade consistente! ☺
– Tabelas de dimensão são geralmente grandes, desnormalizadas, com
muitos atributos de texto de baixa cardinalidade.
– Embora os códigos operacionais e os indicadores possam ser tratados
como atributos, os atributos de dimensão mais poderosos são
preenchidos com descrições verbais.
TABELA DIMENSÃO
• A tabela de dimensão é projetado com uma coluna que funciona como uma chave primária
única.
• Esta chave primária não pode ser a chave natural do sistema operacional, pois haverá várias
linhas de dimensão para cada chave natural (quando as alterações forem feitas ao longo do
tempo).
• Chaves naturais para uma dimensão podem ser criada por mais de um sistema, e estas
chaves naturais pode ser incompatível ou mal administradas.
• O sistema de DW/BI precisa reivindicar o controle das chaves primárias de todas as
dimensões , ao invés de usar chaves naturais explícitas ou chaves naturais com datas
concatenadas, você deve criar as chaves primárias inteiras(numéricas) anônimas para cada
dimensão.
• Estas chaves substituta para dimensão são números inteiros simples, atribuídos em
sequência, começando com o valor 1, a cada vez que uma nova chave é necessária.

OBS: A dimensão data é isenta da regra fundamental da chave substituta; esta dimensão
altamente previsível e estável pode usar uma chave primária mais significativo.
TÉCNICAS BÁSICAS PARA TABELAS DIMENSÃO

• Estrutura da tabela dimensão


– Chaves:
• Chave artificial (substituta) da dimensão (Surrogate
Keys)
• Chave natural, durável e supernatural
Chave Natural Chave Durável
Chave de Substituição
S. Oper. de Origem. Sobrenatural durável

Sujeito às regras Não estão sujeitas Um funcionário pode


de negócio às regras de negócio ter várias chave no tempo
DIMENSÃO DEGENERADA
• Às vezes uma dimensão é definida e não tem
conteúdo, exceto a sua chave primária.
– Por exemplo, quando uma nota fiscal tem vários itens de
linha, cada linha da tabela fato herda dados de todas as
dimensões descritivas por meio da chaves estrangeiras da
nota fiscal, e nota fica, portanto, sem conteúdo exclusivo.
– Mas o número de fatura continua a ser uma chave de
dimensão válida para as tabelas fatos no nível de item de
linha.
• Esta dimensão é degenerada colocado na tabela fato,
com o reconhecimento explícito que não há tabela de
dimensão associada.
• Dimensões degenerados são mais comuns com tabelas
fato de snapshots de transação e tabelas fato de
acumulação.
TABELAS DIMENSÕES

• Desnormalização
– Dimensões achatadas (Denormalized
Flattened Dimensions)
– Apoia os objetivos individuais de
modelagem dimensional de
simplicidade e velocidade
• Múltiplas hierarquias nas dimensões
(Multiple Hierarchies in Dimensions)
– Hierarquias separadas podem coexistir
na mesma tabela dimensão

Prof. Thiago Cavalcanti


QUESTÃO.

• Ano: 2017 Órgão: SEDF Prova: Analista de Gestão


Educacional - Tecnologia da Informação
• Com relação aos conceitos de modelagem
multidimensional de dados para inteligência
computacional, julgue o seguinte item.
• Diferentemente da estrutura relacional, a estrutura
multidimensional oferece baixa redundância de dados
e suporte a normalização até a segunda forma normal.
FLAGS E INDICADORES COMO ATRIBUTO TEXTUAIS

• Abreviaturas, flags de verdadeiro/falso, e indicadores


operacionais devem ser complementadas nas tabelas
de dimensão com palavras de texto que têm
significado quando vistos de forma independente.
• Códigos operacionais com significado embutido no
valor do código deve ser dividido e cada parte do
código deve possuir uma dimensão descritiva separada
para seu próprio atributo (significado).
– Pense Código: 101.2012.1342.23-1
DIMENSÃO JUNK
• Processos de negócios transacionais normalmente produzem
números variados, e uma baixa cardinalidade de bandeiras e
indicadores.
• Ao invés de fazer dimensões diferentes para cada bandeira (flag) e
atributo, você pode criar uma única dimensão junk e combiná-las.
• Esta dimensão, muitas vezes são rotuladas como uma dimensão de
perfil de transação em um esquema, não precisa ser o produto
cartesiano de todos os valores possíveis dos atributos, mas deve
conter apenas a combinação de valores que ocorrem realmente nos
dados de origem.
VALORES NULOS

• Valores nulos nos atributos da dimensão é resultado de


uma determinada linha de dimensão que não foi
totalmente preenchida, ou quando existem atributos que
não são aplicáveis ​a todas as linhas da dimensão.
• Em ambos os casos, recomenda-se uma substituição de
uma sequência descritiva, colocando algo como
“Desconhecido” ou “não se aplica” no lugar do valor nulo.
• Nulos em atributos de dimensão devem ser evitado porque
lidar com agrupamentos em bancos de dados utilizando
nulos pode gerar resultados inconsistentes.
DIMENSÕES DATA E CALENDÁRIOS

• (PK:AAAAMMDD)
• Dimensões calendário ou data estão ligados a
praticamente todas as tabela de fatos para
permitir a navegação da tabela de fatos
através de datas familiares, meses, períodos
fiscais, e dias especiais no calendário.
TÉCNICAS BÁSICAS PARA TABELAS DIMENSÃO

D
• Dimensão Snowflake D
F D

• Dimensão Outrigger
D D
F
QUESTÃO 24.
• Ano: 2017 Banca: FGV Órgão: ALERJ Prova: Especialista Legislativo -
Tecnologia da Informação
• Observe o seguinte Modelo Multidimensional de Dados.
• A técnica de modelagem multidimensional utilizada para normalizar a
dimensão, movendo os campos de baixa cardinalidade para tabelas
separadas e ligadas à tabela original através de chaves artificiais, é:
• a) Slowly Changing Dimension;
• b) Conformed Dimension;
• c) Degenerated Dimension;
• d) Snowflaked Dimension;
• e) Role-Playing Dimension.
SLOWLY CHANGING DIMENSION

• Uma técnica para atualizar a tabela dimensão


• Todas as dimensões são SCD, porque elas vão
precisar atualizar para se manterem sincronizadas
com o transacional.
• Diferentes tipos:
– Tipo 0: (dim. tempo) os dados são inseridos e não
precisam de atualização.
– Tipo 1, Tipo 2, Tipo 3, Tipo 4 e Tipo 6*

*Não existem SCD Tipo 5


SCD – TIPO 1.

• A alteração que não armazena histórico na dimensão, ou


seja, não é feito o versionamento do registro modificado.
• Trata-se do tipo mais simples, pois não há nenhum controle
específico para a atualização dos dados, havendo apenas a
sobreposição.

SUBSTITUIÇÃO
SCD – TIPO 2
• O SCD Tipo 2 é a técnica mais utilizada para atualizações de
dimensões.
• Nesse tipo de SCD é adicionado um novo registro com as mudanças,
preservando sempre os dados anteriores.
• Dessa forma, os registros da tabela fato vão apontar para a versão
correspondente nas dimensões de acordo com a data de referência.

DUAS
FORMAS!
SDC – TIPO 3, 4 E 6
• Tipo 3 - permite manter as modificações no mesmo
registro. Essa técnica funciona com a adição de uma nova
coluna na tabela de dimensão, onde é armazenada a
atualização, mantendo na antiga coluna o valor anterior.
• O método Tipo 4 geralmente é chamado de "tabelas de
histórico", em que uma tabela mantém os dados atuais e
uma tabela adicional é usada para manter um registro de
algumas ou de todas as alterações.
• O SCD Híbrido (conhecido também como SCD Tipo 6),
combina todas os SCD anteriores. Isso o torna bastante
flexível para as atualizações das dimensões, porém com um
grande custo de complexidade.
QUESTÃO. 2012 - TCE-ES - AUDITOR DE CONTROLE
EXTERNO - TECNOLOGIA DA INFORMAÇÃO

Acerca de data warehousing e OLAP, julgue os


itens seguintes.
[134] Na modelagem multidimensional da
tabela fato, a chave da dimensão tempo deve
ser sempre representada como parte da chave
primária
As 10 Regras Essenciais para a Modelagem de Dados Dimensional

Prof. Thiago Cavalcanti


QUESTÃO. 2010 - TRT - 21ª REGIÃO (RN) - AJ -
TECNOLOGIA DA INFORMAÇÃO

Acerca de sistemas de suporte a decisão e data


warehousing, julgue os itens a seguir.
[1] Em um data warehouse, cada linha em uma
tabela fato corresponde a uma medida,
representada por um valor aditivo, em que
necessariamente essas medidas não
compartilham a mesma granularidade.
Prof. Thiago Cavalcanti
MODELAGEM DIMENSIONAL
TABELAS DIMENSÃO
MODELAGEM DIMENSIONAL
ESQUEMA ESTRELA E FLOCO DE NEVE
MODELO ESTRELA
MODELO ESTRELA

• O Esquema Estrela é basicamente uma Tabela de Fatos


central conectada a várias Tabelas de Dimensão em um
relacionamento 1:N, sendo uma única tabela para cada
dimensão.
• Uma característica importante desse modelo é que as
Tabelas de Dimensão são desnormalizadas, isto é,
possuem dados redundantes.
– Ajuda a melhorar o desempenho de consultas.
DÚVIDA RÁPIDA

• Professor, as tabelas de fato também são


desnormalizadas? Negativo!
ID_LOC ID_PROD ID_TEMPO MEDIDA_1 MEDIDA_2
1 1 06-05 10 20
1 2 07-05 12 21
1 3 08-05 15 25
As medidas descrevem algo
sobre o fato! O fato é único
para cada combinação das FKs
FLOCO DE NEVE
MODELO FLOCO DE NEVE

• O Esquema Flocos de Neve (Snowflake Schema) é


basicamente uma Tabela de Fatos central
conectada a várias Tabelas de Dimensão, sendo
possível haver várias tabelas para cada dimensão.
DIM_PERÍODO PK Dia Semana Mês Trimestre Semestre Ano
[PK] PERIODO
DIÁRIO
SEMANAL 12-02-1983 12-02-1983 7ª Fevereiro 1º 1º 1983
MENSAL 8:30
TRIMESTRAL
SEMESTRAL 11-12-1984 11-12-1984 50ª Dezembro 4º 2º 1984
ANUAL
10:50
CRIANDO A HIERARQUIA
PK Dia Semana Ano Mês Trimestre
Janeiro 1º
12-02-1983 12-02-1983 7ª 1983
8:30 Fevereiro 1º

11-12-1984 11-12-1984 50ª 1984 Março 1º


10:50 Abril 2º Trimestre Semestre
Maio 2º 1º 1º
Junho 2º 2º 1º
Julho 3º 3º 2º
Agosto 3º 4º 2º
Setembro 3º
Outubro 4º
Novembro 4º
Dezembro 4º
MODELO FLOCO DE NEVE

• Resultado da decomposição de uma ou mais


tabelas de dimensões normalizadas até a 3ª
Forma Normal (3FN).
• Em contraste com o esquema estrela,
apresenta consultas mais complexas, mais
lentas, mas com manutenção mais fácil.
– Ocupa menos espaço (para armazenamento)
CONSTELAÇÃO/MULTIESTRELA
RESUMINDO

Esquema Esquema Esquema floco


estrela constelação de neve
Em um banco de dados
Em um banco de dados relacional, o esquema floco
Em um banco de dados relacional, um esquema de neve tem níveis
relacional, um esquema constelação contém várias múltiplos de tabela de
estrela tem uma tabela de tabelas de fatos no centro dimensão relacionados
fatos no centro relacionado a tabelas com uma ou mais tabelas
relacionada às várias dimensão. Em geral, as de fatos. Tabelas de
tabelas dimensão nos tabelas de fatos dimensão (em geral
relacionamentos 1-N. compartilham algumas pequenas) são
tabelas dimensão. normalizadas à terceira
forma normal (3FN).
QUESTÃO.
• FCC - Auditor Fiscal (SEFAZ BA)/Tecnologia da Informação/2019
• Suponha que uma Auditora Fiscal da área de TI tenha proposto a seguinte
modelagem multidimensional para a SEFAZ−BA:
• Fato central: Controle de Receitas e Despesas
• A partir do Fato Controle de Receitas e Despesas:

• Dimensão Tempo
• Dimensão Receitas
– Dentro da dimensão Receitas: Dimensão Receitas de Impostos
– Dentro da dimensão Receitas: Dimensão Receitas de Taxas
• Dimensão Despesas
– Dentro da dimensão Despesas: Dimensão Tipo de Despesa
• Dimensão Cidade
– Dentro da dimensão Cidade: Dimensão NF-e
QUESTÃO.
• FCC - Auditor Fiscal (SEFAZ BA)/Tecnologia da Informação/2019
• Suponha que uma Auditora Fiscal da área de TI tenha proposto a seguinte modelagem
multidimensional para a SEFAZ−BA:
• A modelagem multidimensional proposta
• a) é o resultado da decomposição de mais de uma dimensão que possui hierarquias entre seus
membros, caracterizando o modelo snowflake, a partir de um fato central.
• b) tem como característica um fato central, a partir do qual estão dispostas as dimensões que dele
participam, em um formato simétrico, característico do modelo star.
• c) parte de um elemento central, denominado pivot, a partir do qual são realizadas operações OLAP
como roll up, em que busca-se aumentar o nível de detalhe ou diminuir a granularidade da
consulta.
• d) possui um fato central, a partir do qual estão dispostas as dimensões que dele participam e seus
membros, sob uma única estrutura hierárquica, facilitando a inclusão de dados por digitação nas
tabelas do DW.
• e) não é um modelo normalizado, por isso evita a redundância de valores textuais em cada uma das
tabelas, representadas pelas dimensões denominadas dimension tables.
QUESTÃO.
• Ano: 2018 Órgão: CGM de João Pessoa - PB Prova: - Auditor
Municipal de Controle Interno
• Com relação à modelagem dimensional e à otimização de bases de
dados para business intelligence, julgue o item subsequente.
• O modelo snowflake acrescenta graus de normalização às tabelas
de dimensões, eliminando redundâncias; em termos de eficiência
na obtenção de informações, seu desempenho é melhor que o do
modelo estrela, o qual, apesar de possuir um único fato, possui
tamanho maior que o do snowflake, considerando-se a
desnormalização das tabelas de dimensões.
QUESTÃO.

• Técnico Judiciário (TRE PR)/Apoio Especializado/2009


• Com relação à modelagem dimensional, julgue o item
que se segue.
• Snowflaking, uma técnica de modelagem dimensional
utilizada para salvar espaço em disco, não é
recomendada para ambientes de data warehouse, pois
torna a sua apresentação mais complexa ao aumentar
o número de tabelas no banco de dados.
MODELAGEM DIMENSIONAL
ESQUEMA ESTRELA E FLOCO DE NEVE

Anda mungkin juga menyukai