Anda di halaman 1dari 48

Introdução às Técnicas de

Data Mining

Alexandre G. Evsukoff
evsukoff@coc.ufrj.br

http://www.ntt.ufrj.br

COPPE/UFRJ Programa de Engenharia Civil

Data Mining: Concepts and Techniques

Jiawei Han and Micheline Kamber

Data Mining: Concepts and


Techniques,

The Morgan Kaufmann Series in Data


Management Systems, Jim Gray,
Series Editor
Morgan Kaufmann Publishers,
August 2000. 550 pages. ISBN 1-
55860-489-8

http://www.cs.sfu.ca/~han/dmbook
Sistemas Inteligentes: Fundamentos e Aplicações

Organizadora: Solange Oliveira Rezende


ISBN 1683-7, ano 2002.
Editora Manole

Sistemas Baseados em Conhecimento


Aquisição de Conhecimento
Conceitos sobre Aprendizado de Máquina
Indução de Regras e Árvores de Decisão
Redes Neurais Artificiais
Sistemas Fuzzy
Sistemas Neuro Fuzzy
Computação Evolutiva
Sistemas Inteligentes Híbridos
Agentes e Multiagentes
Mineração de Dados
Mineração de Texto

Programa:

• Segunda-feira 31/01
9 Introdução
9 Caracterização e Pré-Processamento
9 Classificação Supervisionada

• Terça-feira 01/02
9 Classificação Não Supervisionada
9 Modelos de Regressão Linear

• Quarta-feira 02/02 (Prof. Custódio)


9 Classificação Bayesiana
• Quinta-feira 03/02 (Prof. Custódio)
9 Redes Neurais
Extração de Conhecimento em Bases de Dados

A Extração de Conhecimento em Bases de Dados (ou Knowledge Discovery in Databases) é o


processo de extrair informação válida, previamente desconhecida e de máxima abrangência a partir
de grandes bases de dados. Devido a essas características incomuns, todo o processo de Extração
de Conhecimento depende de uma nova geração de ferramentas e técnicas de análise de dados, e
envolve diversas etapas: Definição do Problema, Pré-processamento de dados; Mineração (Análise)
de Dados e Interpretação

Data Mining e Business Intelligence

Increasing potential
to support
business decisions End User
Making
Decisions

Data Presentation Business


Analyst
Visualization Techniques

Data Mining Data


Information Discovery Analyst

Data Exploration
Statistical Analysis, Querying and Reporting

Data Warehouses / Data Marts


OLAP, MDA DBA

Data Sources
Paper, Files, Information Providers, Database Systems, OLTP
Data Mining e Business Intelligence

Aplicações

• Classificação de Imagens de Sensoriamento Remoto


• Classificação de Imagens Médicas
• Caracterização de reservatórios de Petróleo
• Classificação de seqüências de DNA (bioinformática)
• Marketing Direcionado (CRM)
• Detecção de Fraudes
• Modelos de chuva-vazão
• Modelos de previsão de carga
• Diagnóstico de processos
•...
Mineração de tipos de dados complexos

ƒ Dados espaciais:
ƒ Agrupamento de pontos geograficos de acordo com a utilização do terreno
ƒ Integração com Sistemas de Informação Geográfica (GIS)

ƒ Imagens:
ƒ Classificaçãi de imagens através de contexto
ƒ Utiliza o tamanho, cor, forma, textura e posições relativas na imagem como atributos
para os algoritmos de classificação

ƒ Bioinformática:
ƒ Identificação e classificação de gens e proteinas
ƒ Classificação de sequencias de DNA: Projeto Genoma

ƒ Text & Web Mining


ƒ Grandes coleções de documentos de diversas fontem: artigos de jornais, pesquisa,
livros, bibliotecas digitais, e-mails, páginas Web, etc…
ƒ Dados geralmente não estruturados ou semi estruturados

Softwares de Data Mining

Weka

Weka é um software de domínio público, desenvolvido em Java pela universidade de Waikato, que
implementa uma série de algoritmos de Data Mining.

Intelligent Miner

O Intelligent Miner, desenvolvido pela IBM, é uma ferramenta de Mineração de Dados que possui
interligação direta com o banco de dados DB2, também da IBM.

Oracle Data Miner

Sistema de mineração de dados desenvolvido pela Oracle que permite interligação direta com o Banco de
Dados Oracle Enterprise 9i.

Enterprise Miner

A nova versão do SAS Enterprise Miner, para Data Mining tradicionalmente utilizado na área de negócios,
marketing e inteligência competitiva

Statistica Data Miner

Este software acrescenta as facilidades de mineração de dados ao tradicional pacote utilizado em


aplicações de estatística. Além do módulo de estatítica básica, modelos não-lineares e técnicas de análise
multivariada,
Data Mining

Data Mining é uma atividade multidisciplinar que envolve diversas áreas. Fornece as ferramentas
para a descoberta de conhecimento em grandes massas de dados. Data Mining não é uma
tecnologia nova, mas um campo de pesquisa multidisciplinar, envolvendo estatística, aprendizado
de máquinas, banco de dados, sistemas especialistas, técnicas de visualização de dados e
computação de alto desempenho de forma fortemente acoplada.

Banco de Dados
Data Warehouse
Métodos Estatísticos Arquiteturas Paralelas
Análise Multivariada Grid Computing

Data Mining
Lógica Fuzzy
Visualização de Dados
Redes Neurais
Métodos Qualitativos
Algoritmos Genéticos

Aprendizado de Máquina
Sistemas Especialistas

Tarefas de Data Mining

DATA MINING

ATIVIDADES ATIVIDADES
PREDITIVAS DESCRITIVAS

REGRAS DE
CLASSIFICAÇÃO PREDIÇÃO CLUSTERING SUMARIZAÇÃO
ASSOCIAÇÃO
Visualização de Dados: OLAP

Visualização de Dados: Starview


Visualização de Dados: MineSet

Visualização de Dados: Data Image

14

12
50

10
100

150

200
4

250
2

50 100 150 200 250


Caracterização e Pre-processamento: Histogramas

As características de um conjunto de dados experimentais podem ser dispostas graficamente na


forma de um histograma ou diagrama de freqüência. O histograma é uma descrição gráfica
empírica da variabilidade da informação experimental.

60 60

50 50

40 40

30 30

20 20

10 10

0 0
5 10 15 20 25 30 35 40 10 15 20 25 30 35 40

Caracterização e Pre-processamento: Gráficos de distribuição

Um gráfico de distribuição permite verificar visualmente se uma determinada amostra foi gerada
com uma determinada distribuição de probabilidades. O gráfico de distribuição realiza uma
mudança de coordenadas de forma que se os pontos da amostras aparecerem dispostos numa
linha, indica que a amostra foi gerada pela distribuição de probabilidades associada ao gráfico. O
gráfico de distribuição normal (abaixo) permite verificar se uma amostra foi gerada por uma
distribuição de probabilidades normal

Grafico de Distribuiçao Normal


0.99
0.98

0.95
0.90

0.75
Probability

0.50

0.25

0.10

0.05

0.02
0.01
8.5 9 9.5 10 10.5 11 11.5 12
Data
Caracterização e Pre-processamento: Gráficos de distribuição

O gráfico de distribuição quantil-quantil permite verificar se duas amostras foram geradas com a
mesma distribuição (normal ou não).

12 7

10 6

5
8

4
Y Quantiles

Y Quantiles
6
3
4
2

2
1

0 0

-2 -1
2 4 6 8 10 12 14 16 18 20 2.5 3 3.5 4 4.5 5 5.5 6 6.5 7
X Quantiles X Quantiles

Amostras geradas com a mesma distribuição Amostras geradas com distribuição diferentes

Box Plots
Caracterização e Pre-processamento: Box Plots
WOIL Treino

0.9

0.8

0.7

0.6
Values

0.5

0.4

0.3

0.2

0.1

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36
Column Number
Detecção de valores aberrantes (outliers)

Valores aberrantes (outliers) são valores de registros muito distantes da média de uma variável
aleatória. Esta distância normalmente é medida em relação ao desvio padrão da amostra.
Supondo a distribuição normal, 95% dos valores estão distantes da média de duas vezes o desvio
padrão, enquanto três vezes o desvio padrão cobrem que 99% dos valores

0.4

0.35

0.3

0.25

0.2

0.15
99%

0.1
95%

0.05

0
-4 -3 -2 -1 0 1 2 3 4

Caracterização e Pre-processamento: Análise de Correlação

Se as variáveis X e Y não são independentes, a correlação entre estas variáveis é calculada


como:

Cov( X , Y )
Corr ( X , Y ) =
σ ( X )σ (Y )

4 3

3
2

1
1

0 0

-1
-1

-2

-2
-3

-4 -3
-3 -2 -1 0 1 2 3 -3 -2 -1 0 1 2 3

Variáveis independentes Variáveis correlacionadas


Análise de Componentes Principais

A Análise dos Componentes Principais (ACP) é um método quantitativo para obter essa redução
de dimensionalidade. O método gera uma transformação linear da base de dados original, cujas
componentes são chamadas componentes principais. Cada componente principal é uma
combinação linear das variáveis originais. Todos os componentes principais são ortogonais entre
si, formando uma base de um outro espaço vetorial, geralmente de menor dimensão, na qual a
projeção da base de dados original neste espaço não contém nenhuma informação redundante.

Considere uma amostra de variáveis multidimensional X = [ X 1,K, X n ] com os registros


organizados por linha. O objetivo da ACP é gerar um novo conjunto de variáveis Y = [Y1,K, Yn ] não
correlacionadas, tal que:

Y = XP

onde as colunas da matriz P , de dimensão n × n , são os componentes principais de X . O


conjunto de variáveis Y é assim uma projeção do conjunto X , ou seja, os mesmos dados escritos
em num novo sistema de coordenadas.

Análise de Componentes Principais

A Análise de Componentes Principais é apresentada é representada abaixo para um conjunto


de dados de distribuição normal no domínio das variáveis X = [ X 1, X 2 ]. A elipse representa uma
curva de densidades de probabilidades constantes. Os componentes principais são
representados pelos autovetores e1 e e 2 . A partir da ACP o conjunto de dados originais será
projetado nas direções de máxima variância, definidos pelos autovetores e1 e e 2 para formar o
conjunto de dados projetados Y = [Y1,Y2 ] X2
e1

e2

X1
Análise de Componentes Principais

Em problemas de classificação, a redução de dimensionalidade realizada pela ACP pode não ser
necessariamente interessante. Observe que a projeção dos dados na direção da máxima
variância (componente principal e1 ) faz as duas classes quase coincidirem, enquanto que a
projeção na outra direção (componente principal e 2 ) tem melhor efeito para separação das
classes. X2
e1

e2

X1

Classificação Supervisionada

O objetivo da Classificação Supervisionada é o desenvolvimento de um modelo, chamado


classificador, capaz de classificar um determinada objeto em uma classe previamente conhecida.
O modelo é normalemente ajustado a partir de um conjunto de dados chamado “Conjunto de
Treinamento”, onde a classificação de cada registro é conhecida. O classificador é avaliado por
seu desempenho em classificar corretamente um conjunto de dados cuja classificação de cada
registro não é conhecida. O conjunto de avaliação é chamado de “Conjunto de Teste”.

Conjunto de Treinamento Conjunto de Teste


2.5
3

classe 1 classe 2 2
classe 1 classe 2
2 1.5

1
0.5

0
0

-0.5

-1
-1

-1.5
-2

-2

-3 -2.5
-5 -4 -3 -2 -1 0 1 2 3 4 5 -5 -4 -3 -2 -1 0 1 2 3 4
Classificação Supervisionada

Num problema de classificação ou reconhecimento de padrões, as soluções possíveis são

{ }
representadas pelo conjunto de classes Ω = ω j , j = 1...m . O problema consiste em identificar a

classe correta de um conjunto de observações, representadas pelo vetor de atributos


x = ( x1,K, xn ) .

p( x | ωi )

p( x | ω 2 )
p( x | ω1 )

x0
R1 R2

Classificação Supervisionada: Análise de Discriminante

O objetivo da Análise de Discriminante Linear (ADL) é calcular as superfícies de decisão


lineares diretamente a partir do conjunto de treinamento, independentemente das distribuições
de probabilidade associadas.

Conjunto de Terinamento Discriminante Linear


25 25

20 20

15 15

10 10

5 5
x2

x2

0 0

-5 -5

-10 -10

-15 -15

-20 -20
-80 -60 -40 -20 0 20 40 60 80 -80 -60 -40 -20 0 20 40 60 80
x1 x1
Árvores de Decisão:

Uma Árvore de Decisão (AD) é uma estrutura de dados definida recursivamente como:

• Um nó folha corresponde a uma classe ou

• Um nó decisão que contém um teste sobre algum atributo. Para cada resultado do teste existe
uma aresta para uma subárvore. Cada subárvore tem a mesma estrutura que a árvore.

Aparência

Sol Nublado Chuva

Umidade SIM Vento

≤ 78 > 78 Fraco Forte

SIM NÃO SIM NÃO

Árvores de Decisão:

Uma AD pode ser representada como um conjunto de regras. Cada regra tem seu início na raiz da
árvore e caminha até suas folhas:
Aparência
se Aparência = Sol então
se Umidade ≤ 78
Viajar = SIM Sol Nublado Chuva

senão se Umidade > 78


Viajar = NÃO Umidade SIM Vento
fim
≤ 78 > 78 Fraco Forte
senão se Aparência = Nublado então
Viajar = SIM
SIM NÃO SIM NÃO
fim
senão se Aparência = Chuva então
se Vento = Fraco
Viajar = SIM
senão se Vento = Forte
Viajar = NÃO
Fim
fim
Algoritmo de Construção

Dado um conjunto de treinamento T , o algoritmo para um gerar uma AD para separar um conjunto
de classes Ω = {ω1 , ω2 , K , ωm } é constituído dos seguintes passos:

1. O conjunto T contém um ou mais exemplos, todos pertencentes à classe ω j . Neste caso a

AD é um nó folha identificando a classe ω j

2. O conjunto T contém exemplos pertencentes a várias classes. Neste caso, o conjunto T deve
ser particionado em subconjuntos que são (ou aparentam ser) conjunto de exemplos da
mesma classe.

O particionamento é feito escolhendo-se um atributo xi , cujos valores possíveis são

{
denotados Ai1 , Ai 2 , K , Aini } , para selecionar subconjuntos {T1 , T2 , K , Tn } , onde cada
i

subconjunto T j é o resultado do particionamento de T com xi = Aij

3. Para cada subconjunto T j ≠ ∅ , execute recurcivamente o algoritmo

4. Após a construção da AD realizar a poda para melhorar sua capacidade de generalização.

Interpretação Geométrica

No caso em que os atributos têm valores contínuos, cada registro do conjunto de treinamento
como um ponto em um espaço n-multidimensional dos atributos. Neste caso, o classificador obtido
por uma AD deverá particionar o o espaço dos atributos em regiões e associar cada região a uma
classe.

Cada teste realizado em um nó decisão particiona o espaço em um hiperplano orthogonal ao eixo


do atributo testado. A medida que a AD é construida, mais e mais regiões são adicionadas .
Interpretação Geométrica

Os algoritmos de construção de AD vão


funcionar melhor a partir de uma escolha
apropriada. Combinações lineares de
atributos resultam em decisões obliquas,
que produzem hiperplanos não
ortogonais, reduzindo drasticamente o
tamanho da árvore.

Softwares para Árvore de Decisão

http://www.kdnuggets.com/software/classification.html

Comerciais
ƒ C5.0/See5 (http://www.rulequest.com/)
ƒ CART 5.0 (http://www.salford-systems.com/)
ƒ DTREG (http://www.dtreg.com/)
ƒ KnowledgeSEEKER (http://www.angoss.com/) .
ƒ PolyAnalyst (http://www.megaputer.com/)
ƒ SPSS AnswerTree (http://www.spss.com/)
ƒ XpertRule Miner (http://www.attar.com/)

Free ware
ƒ C4.5 (http://www.cse.unsw.edu.au/~quinlan/)
ƒ Classification Tree in Excel (http://www.geocities.com/adotsaha/CTree/CtreeinExcel.html)
ƒ IND (http://ic.arc.nasa.gov/projects/bayes-group/ind/IND-program.html).
ƒ ODBCMINE (http://www.intsysr.com/odbcmine.htm)
ƒ PC4.5 (http://cs1.cs.nyu.edu/~binli/pc4.5/)
ƒ SMILES (http://www.dsic.upv.es/~flip/smiles/)
Estudo de Caso: A Base Iris

Iris Setosa Iris Versicolor Iris Virginica

•150 exemplos
•4(quatro) atributos contínuos
•3(três) classes
•50 exemplos pertencentes a cada classe

Estudo de Caso: A Base Iris

50 50
Classe 1 Classe 1
Classe 2 Classe 2
40 40
Classe 3 Classe 3
Frequencia (%)

Frequencia (%)

30 30

20 20

10 10

0 0
-0.5 0 0.5 -0.5 0 0.5 1
x1 x2

50 50
Classe 1 Classe 1
Classe 2 Classe 2
40 40
Classe 3 Classe 3
Frequencia (%)

Frequencia (%)

30 30

20 20

10 10

0 0
-0.5 0 0.5 -0.4 -0.2 0 0.2 0.4
x3 x4
Estudo de Caso: A Base Iris

2 1

0.5
1

x2

x3
0
0
-0.5

-1 -1
-1 -0.5 0 0.5 1 -1 -0.5 0 0.5 1
x1 x1
1 1

0.5
0.5
x4

x3
0
0
-0.5

-0.5 -1
-1 -0.5 0 0.5 1 -1 -0.5 0 0.5 1 1.5
x1 Graficos de projeçao:
x2 variaveis originais
1 1

0.5 0.5
x4

x4
0 0

-0.5 -0.5
-1 -0.5 0 0.5 1 1.5 -1 -0.5 0 0.5 1
x2 x3

O Software Weka: (http://www.cs.waikato.ac.nz/ml/weka/)


O Software Weka: (http://www.cs.waikato.ac.nz/ml/weka/)

Classificação Não-Supervisionada

O objetivo da Classificação Não – Supervisionada, ou Análise de Agrupamentos é o


desenvolvimento de um modelo para agrupar um conjunto de dados em classes. Na classificação
não supervisionada não existe, portanto, o conceito de conjunto de treino e de teste, o resultado
da análise são grupos formados sobre o conjunto de dados disponíveis.

2.5 2.5

2 2

1.5 1.5

1 1

0.5 0.5

0 0

-0.5 -0 .5

-1 -1

-1.5 -1 .5

-2 -2

-2.5 -2 .5
-5 -4 -3 -2 -1 0 1 2 3 4 -5 -4 -3 -2 -1 0 1 2 3 4
Métodos de Particionamento:

Neste capítulo serão abordados apenas os métodos de particionamento, cujo objetivo é


encontrar a matriz de coordenadas dos centros de agrupamentos W = [w1,K, w K ] , onde cada

coluna w i ∈ X p define as coordenadas do centro do agrupamento representativo da classe


ωi , i = 1..K .

Os métodos de particionamento visam a otimização de um critério de custo definido em função da


distância dos registros do conjunto de treinamento em relação aos centros de agrupamento:

1
J (W) = ∑ ∑ d (x(t ), w i )
2
N t =1.. N x (t )∈ωi

onde d (x(t ), w i ) é, geralmente, a distância Euclideana, embora outras métricas de distância


podem ser definidas.

Normalização das Variáveis:

Os métodos baseados em distância são afetados pela diferença de escala entre os valores dos
atributos, sendo necessário normalizar os atributos.

Uma expresão de normalização de atributos no intervalo [− 1,1] e que é menos sensível aos
outliers pode ser calculada como:

x(t ) − med (x)


xˆ (t ) =
α sdv (x)

onde med(x) é o vetor com as médias dos atributos; sdv (x) representa os desvios-padrão e α

uma constante que reflete a percentagem de dados no interior do intervalo [− 1,1] . Geralmente

α = 3 o que resulta em 99% dos valores no interior do intervalo [− 1,1] (considerando a


distribuição normal). Valores aberantes estarão fora do intevalo.
O Algoritmo K-means:

O k-means é um método clássico da literatura que busca os centros de agrupamentos pela


minimização direta do critério de erro calculado em função da distância. Como a maioria dos
métodos de classificação não-supervisionada, o algoritmo k-means necessita da definição a priori
número de agrupamentos K (do nome k-means).

O Algoritmo K-means:

O k-means é um método clássico da literatura que busca os centros de agrupamentos pela


minimização direta do critério de erro calculado em função da distância. Como a maioria dos
métodos de classificação não-supervisionada, o algoritmo k-means necessita da definição a priori
número de agrupamentos K (do nome k-means).
kmeans
2
A partir de uma estimativa
inicial das coordenadas dos
1.5
centros de agrupamento, o

1
algoritmo calcula a distância
de cada ponto do conjunto
de treinamento às
x2

0.5

coordenadas das
0 estimativas de centro de
agrupamento
-0.5

-1
-1.5 -1 -0.5 0 0.5 1 1.5
x1
O Algoritmo K-means:

A seguir, o algoritmo aloca cada registro do conjunto de treinamento em um grupo, de acordo com
a menor distância ao centro correspondente.

kmeans
2

1.5

1
x2

0.5

-0.5

-1
-1.5 -1 -0.5 0 0.5 1 1.5
x1

O Algoritmo K-means:

A nova estimativa das coordenadas dos centros dos agrupamentos é calculada pela média
aritimética das coordenadas dos pontos associados a cada grupo.

kmeans
2

1.5

1
x2

0.5

-0.5

-1
-1.5 -1 -0.5 0 0.5 1 1.5
x1
O Algoritmo K-means:

0) Inicialização: normalizar os registros do conjunto de treinamento; definir o número K de


agrupamentos e escolher uma estimativa inicial para os centros de agrupamentos W .

1) Enquanto o critério de parada não for alcançado, repita:

2) (Re)agrupar cada registro x(t ) do conjunto de treinamento no agrupamento ωi , de acordo


com a menor distância d (x(t ), w i ) ao centro de agrupamento da iteração corrente:

x(t ) ∈ ωi ↔ d (x(t ), w i ) ≤ d (x(t ), w j ), ∀j ≠ i

3) Atualizar a matriz dos centros de agrupamentos pela média das coordenadas dos pontos em
cada agrupamento:

∑ χ i (x(t )).x(t )
w i = t =1.. N
∑ χ i (x(t ))
t =1.. N

4) FIM

O Algoritmo K-means:

A função χ i (x(t )) é a função característica do agrupamento ωi , definida no passo 2) do algoritmo


como:

⎧1, se x(t ) ∈ ωi
χ i (x(t )) = ⎨
⎩0, se x(t ) ∉ ωi

O algoritmo é interrompido quando a norma da diferença entre os valores da matriz de centros de


agrupamentos em duas iterações sucessivas é menor que uma tolerância especificada:

ε = Wκ − Wκ −1 < δ

onde . representa a norma de uma matriz e κ representa a iteração corrente.


O Algoritmo K-means:

Aplicação sobre a base de dados Iris

Nesta análise existe o conhecimento prévio sobre a estrutura nos dados de treinamento de que
existem, na verdade, 3 agrupamentos. O problema tem n = 4 atributos, mas para permitir a
visualização da posição dos centros de agrupamento, os pontos serão apresentados no espaço
2D formado pelas variáveis transformadas pela Análise de Componentes Principais.

kmeans kmeans
1 1

0.8 0.8

0.6 0.6

0.4 0.4

0.2 0.2
x2

x2
0 0

-0.2 -0.2

-0.4 -0.4

-0.6 -0.6

-0.8 -0.8

-1 -1
-1 -0.5 0 0.5 1 1.5 -1 -0.5 0 0.5 1 1.5
x1 x1

O Algoritmo Fuzzy c-means:

A particularidade do algoritmo FCM é a possibilidade de cada registro ser alocado em mais de


uma classe. Os resultados do algoritmo FCM dependem do valor escolhido para o parâmetro m .
Para m = 1 o resultado do FCM é praticamente idêntico ao resultado do k-means clássico. Quanto
maior o valor do parâmetro m , maior o suporte das funções de pertinência definidas pelo
algoritmo, ou seja, as classes tornam-se mais abrangentes.
fcmeans: iris.dat fcmeans: iris.dat

1 1

0.8 0.8

0.6 0.6

0.4 0.4

0.2 0.2

0 0
1 1

0.5 0.5

1.5 1.5
0 0
1 1
0.5 0.5
-0.5 -0.5
0 0
-0.5 -0.5
-1 -1 -1
-1

(a) m = 1.2 (b) m = 2.0


O Algoritmo Fuzzy c-means:

O particionamento realizado pelo classificador FCM também sofre a influência do fator de forma
m . A figura abaixo mostra o particionamento fuzzy para os dois valores estudados de m . As
cores primárias representam a região de pertinência total do registro à classe, enquanto que as
cores secundárias representam pertinências parciais.

fcmeans: iris.dat fcmeans: iris.dat


1
0.8 0.8
0.9 0.9

0.6 0.6
0.8 0.8

0.4 0.4
0.7 0.7

0.2 0.2
0.6 0.6

0 0.5 0 0.5

0.2 0.4 -0.2 0.4

0.3 0.3
0.4 -0.4

0.2 0.2
0.6 -0.6

0.1 0.1
0.8 -0.8

0 0
-0.8 -0.6 -0.4 -0.2 0 0.2 0.4 0.6 0.8 1 -0.8 -0.6 -0.4 -0.2 0 0.2 0.4 0.6 0.8 1
x2 x2

(a) m = 1.2 (b) m = 2.0

Métricas de Validação de Cluster:

Nos últimos anos, diversas métricas de validação de clusters têm sido propostas na literatura
(Xie e Beni, 1991; Bezdek e Pal, 1998; Pakhira et al., 2004). O objetivo dos índices de
validação é, em geral, obter respostas para duas questões:

i. Quantos clusters estão presentes nos dados

ii. Qual a qualidade da partição encontrada.

A idéia geral presente na maioria dos índices de validação de clusters é baseada em uma
visão geométrica da partição, de forma que uma boa partição dos dados apresenta grupos
compactos e clusters diferentes devem estar separados. No caso da análise de clusters fuzzy,
em que um valor de pertinência é associado a cada registro, o grau de superposição entre os
grupos também deve ser levada em conta, de forma que a melhor partição é aquela que
apresentar menor superposição.

Recentemente (Pakhira et al., 2004) o índice de validação de clusters PBM (devido ao nome
dos autores) tem obtido um bom resultado em um grande número de aplicações. O índice PBM
é definido como o produto de três fatores, cuja maximização garante uma partição formada por
um número pequeno de clusters compactos e separados.
O índice PBM:

Matematicamente, o índice PBM é definido como:


2
⎛1 E ⎞
PBM ( K ) = ⎜⎜ . 0 .DK ⎟⎟
⎝ K EK ⎠

onde K é p número de clusters; E0 é a soma das distâncias de cada registro ao centro


geométrico do conjunto de dados w 0 como:

E0 = ∑ d (x(t ), w 0 ).
t =1.. N

E K é a soma das distancias “intra-cluster” K clusters, ou seja, para cada cluster, a soma das
distâncias dos registros ao centro do cluster correspondente, ponderada pelo valor de
pertinência do registro ao cluster (no caso de análise de clusters fuzzy):

EK = ∑ ∑ ui (t )d (x(t ), w i ) 2
t =1.. N i =1.. K

O valor DK representa a máxima separação entre clusters:

DK = max
i , j =1.. K
( d (w i , w j ) ) .

O índice PBM:

Quanto maior o índice PBM, melhor a partição. Assim como outros índices, o índice PBM é um
índice de otimização, de forma que para se obter a melhor partição, deve-se executar o
algoritmo de agrupamento para diversos valores de K e escolher aquele que resultar no maior
valor de índice PBM.

PBM Validation Index PBM Validation Index


0.055 0.4

0.05
0.35

0.045

0.3
0.04

0.035
0.25
PBM
PBM

0.03

0.2
0.025

0.02 0.15

0.015
0.1

0.01

0.05
0.005 2 4 6 8 10 12 14 16
2 4 6 8 10 12 14 16
no. of clusters
no. of clusters

É importante observar que, devido à inicialização aleatória dos algoritmos de clusterização, o


procedimento deve ser repetido diversas vezes para garantir que o resultado não depende da
inicialização.
Previsão de Inadimplência no Setor de Telefonia

Variáveis utilizadas
Qtd de débitos
Qtd de dias em atraso
Valor médio da fatura
Qtd média de pulsos
Qtd de acessos
Tempo de instalação
Valor de inadimplência
Qtd minutos de tráfego
Local
Intra Setor
Intra Região
Inter Região
Internacional
VC1
VC2
VC3

Previsão de Inadimplência no Setor de Telefonia

6,50
10,27
29,18% 30,32%
11,56
Grupo 0
3,49%
15,83 Grupo 1
21,33%
24,82% Grupo 2
20,73 Grupo 4
14,79%
Grupo 3
6,66% Grupo 5
30,46%
15,63%
35,10

12,41% 4,94%
5,97%

• O grupo 5 possui a maior taxa populacional com uma das menores faixa de inadimplência.
• O grupo 3 possui alta taxa populacional com faturamento médio e baixa inadimplência.
• O grupo 4 possui a menor faixa de fatura com a maior faixa de inadimplência.
• O grupo 2 possui média taxa populacional com médio faturamento e alta inadimplência.
• O grupo 1 possui média taxa populacional, alta faixa de fatura e a menor de inadimplência.
• O grupo 0 possui a menor população com as maiores faixas de fatura e inadimplência.
Outros Algoritmos de Agrupamento: Algoritmo Incremental

Parâmetros de entrada:

δ 1 ∈ [0,1] : Limite de similaridade

δ 2 ∈ [0,1] : Limite de confiabilidade

0) Inicio
1) Atribui o primeiro registro ao primeiro cluster
2) Para cada registro t
3) Para cada cluster i
4) Calcula o índice de similaridade entre o registro t e os
elementos do cluster i.
5) Calcula o índice de confiabilidade entre o registro t e os
elementos do cluster i.
6) Se o critério de agrupamento é satisfeito:
7) Inclui o registro t no cluster i
8) Senão
9) Cria novo cluster
10) Fim

Métodos Hierárquicos:

Métodos de agrupamento hierárquico visam agrupar dados, simultaneamente, em diversas


escalas, criando uma árvore do grupos. A árvore uma hierarquia de múltiplos níveis, onde os
grupos em um nível podem ser agrupados como itens dos grupos de níveis mais elevados. Os
métodos hierárquicos permitem que se decida sobre o nível ou escala para realizar o
agrupamento em uma determinada aplicação.

1.2 1.2

1.1
1

0.8
0.9

0.8
0.6

0.7

0.4
0.6

0.2 0.5

0.4
0
10
35
38
3113
446
22648
330
36
4314
93941
118
2821
544
32
37725
812
50
27
29
40
24
2317
619
11
22
49
45
20
47
15
34
33
16
42
51
111
53
116
138
78
117
148
125
137
149
101
121
144
126
145
105
113
146
130
140
142
141
103
108
131
106
136
123
119
110
118
132
52
66
71
87
57
86
127
55
134
104
77
139
59
150
128
76
62
67
64
79
98
75
92
72
74
65
85
97
89
96
120
6988
114
73
147
122
84
102
143
135
109
112
115
124
129
133
54
107
6381
82
100
5668
83
95
60
80
70
90
91
93
58
94
99
61 6 8 7 5 9 10 1 2 3 4
Sowtware CLUTO: (http://www-users.cs.umn.edu/~karypis/cluto/)

Aproximação de Funções

Regressão (ou aproximação de funções) é o processo de determinar um modelo de um sistema


real que produz uma resposta ou variável de saída y quando acionado por um conjunto de
variáveis de entrada u = (u1 ,K, u n ) , como mostra a Figura.

Entradas Saídas
Sistema

Supondo que a saída do sistema real pode se representada por uma função matemática das
entradas, na forma y = f (u) , o objetivo da regressão é a construção de um modelo yˆ = fˆ (u) que
corresponda à melhor aproximação do sistema real.
Taxonomia de Modelos

Existem várias representações de sistemas reais de acordo com algumas características do modelo.
Algumas categorizações de modelos são apresentadas a seguir.

Segundo o número de entradas e saídas os modelos são classificados em:

ƒ SISO (Single Input Single Output): modelos com entrada e saída simples (monvariável).

ƒ MISO (Mutiple Input Single Output): modelos com entrada múltipla e saída simples.

ƒ SIMO (Single Input Multiple Output): modelos com entrada simples e saída múltipla.

ƒ MIMO (Mltiple Input Multiple Output): modelos com entrada múltipla e saída múltipla.

Taxonomia de Modelos

Segundo a natureza de conhecimento empregado para a construção do modelo, pode-se classificar os


modelos em:

ƒ modelos de conhecimento (ou analíticos) nos quais as relações que descrevem o comportamento
do sistema são escritas a partir das leis fundamentais da física;

ƒ modelos de comportamento (ou de entrada/saída) nos quais as relações que descrevem o


comportamento do sistema são obtidos diretamente através da observação dos dados de entrada
e saída.

Segundo a natureza da informação tratada pelo modelo, podemos classificar os modelos em:

ƒ modelos determinísticos nos quais a saída correspondente a uma determinada entrada pode ser
reproduzida;

ƒ modelos estocásticos nos quais o comportamento do sistema depende de fenômenos aleatórios


que podem ocorrer tanto na entrada como na saída ou internamente ao sistema.
Taxonomia de Modelos

Segundo a representação do tempo pelas relações do modelo, pode-se classificar os


modelos em:

ƒ modelos estáticos nos quais a saída depende apenas do valor de entrada num
determinado instante;

ƒ modelos dinâmicos nos quais a saída num determinado instante depende de relações
temporais entre as variáveis do sistema. Em equilíbrio (regime permanente) um
sistema dinâmico pode ser descrito por um modelo estático.

Taxonomia de Modelos

Segundo ao tipo de relações, pode-se classificar os modelos em:

ƒ modelos lineares nos quais as relações presentes no modelo são lineares. Os modelos
lineares permitem que seja aplicado o princípio da superposição, de forma que dada uma
entrada u (t ) formada pela combinação u (t ) = u1 (t ) + u2 (t ) , a saída y (t ) do sistema pode ser
escrita como y (t ) = y1 (t ) + y2 (t ) , onde y1 (t ) é a resposta do sistema à entrada u1 (t ) e y2 (t ) é
a resposta à entrada u1 (t ) .

ƒ modelos não-lineares nos quais as relações presentes no modelo são não-lineares.


Geralmente, a maior parte dos sistemas não-lineares permite uma aproximação linear nas
vizinhanças de um ponto de funcionamento.
Identificação de Modelos

No modelo de comportamento, ou caixa preta, o modelo é identificado a partir de um conjunto de


dados de treinamento T = {(u(t ), y (t ) ), t = 1,K N }, onde cada registro t = 1,K N , a saída y (t )
correspondente à entrada u(t ) = (u1 (t ),K, un (t ) )

De uma forma geral, a identificação de um modelo é realizada em três etapas:

1. Identificação da estrutura do modelo, desenvolvida em três etapas:

ƒ Escolha do tipo de modelo,

ƒ Escolha do tamanho do modelo, pela seleção das variáveis de entrada e saída, além
da ordem e eventualmente do retardo do sistema,

ƒ Escolha de uma parametrização do modelo (a partir da definição do tipo e do


tamanho) que permita a sua identificação.

2. Determinação dos parâmetros do modelo a partir de um conjunto de dados de treinamento,


representativo do sistema,

3. Validação do modelo, considerando-se os objetivos do modelo, se para predição,


simulação, controle, diagnóstico, etc.

O Modelo Linear Generalizado

No modelo linear com parâmetros lineares, a saída predita pelo modelo é calculada como:

yˆ (t ) = θ 0 + θ1u1 (t ) + θ 2u2 (t ) + K + θ M uM (t )

A equação acima pode ser rescrita vetorialmente como:

yˆ (t ) = xˆ (t )θ

onde θ = [θ1, K, θ M ]T é o vetor de parâmetros e xˆ (t ) = [1, u1 (t ), K, uM (t )] são chamados de


regressores.

Existem uma série de modelos, com estruturas diferentes, que podem ser escritos sob a forma da
equação vetorial acima.

O modelo linear generalizado pode ser escrito para o caso monovariável como:

M
yˆ (t ) = ∑θ i f i (u (t ) )
i =0
O Modelo Linear Generalizado

Seja qual for a estrutura do modelo, a saída real do sistema pode ser escrita em função da
predição do modelo como:

y ( k ) = yˆ (k ) + e(k )

onde e(k ) = y (k ) − yˆ (k ) é o erro de estimação ou resíduo.

Os parâmetros do modelo são calculados pela minimização do Erro Quadrático Médio de N


amostras no conjunto de treinamento, calculado como:

J (θ) =
1
N N
[ ][
[y − yˆ ]T [y − yˆ ] = 1 y − Xˆ θ T y − Xˆ θ ]
onde y = [ y (1),K, y ( N )] T
é a saída real do sistema para as amostras do conjunto de

treinamento, yˆ = [ yˆ (1),K, yˆ ( N )]T são as predições correspondentes do modelo;


ˆ = [xˆ (1),K, xˆ ( N )]T é a matriz de regressores e θ é o vetor de parâmetros cujos componentes
X
dependem da estrutura escolhida para o modelo.

Redes neurais para modelagem da elevação de temperatura concreto:

Determinação da elevação adiabática de temperatura:

60

50
Adiabatic Temperature Rise (ºC)

40

30

20

10

0
0 5 10 15 20 25 30
t (days)
Redes neurais para modelagem da elevação de temperatura concreto:

Elevação Adiabática de Temperatura (ºC)

Elevação Adiabática de Temperatura (ºC)


60 60

50 50

40 40

30 30

20 20

10 10
Ensaio E-4809 Ensaio E-2081
0 Modelo 0 Modelo
0 5 10 15 20 25 30 0 5 10 15 20 25 30
t (dias) t (dias)
Elevação Adiabática de Temperatura (ºC)

Elevação Adiabática de Temperatura (ºC)


60 60

50 50

40 40

30 30

20 20

10 10
Ensaio E-4995R
Ensaio E-2057
0 Modelo
0 Modelo
0 5 10 15 20 25 30
0 5 10 15 20 25 30
t (dias) t (dias)

Sistemas Dinâmicos

A saída de um sistema dinâmico não-determinístico é uma variável aleatória X (t ) . Uma saída


particular do sistema, X k (t ) é chamada uma realização da variável aleatória X (t ) . O conjunto de
todas as realizações possíveis de uma variável aleatória é chamado processo estocástico, denotado
{X (t )} . Os gráficos abaixo ilustram 4 realizações abaixo da variável aleatória X (t ) :

-5
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
5

-5
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
5

-5
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
5

-5
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
Sistemas Dinâmicos

Dado uma realização X K (t ) do processo estocástico {X (t )} , o valor médio da variável é calculado por:

1 T /2
µ X k = lim ∫ X k (τ )dτ
T → ∞ T −T / 2

A função de autocorrelação da variável X k (t ) é calculada pela expressão:

1 T /2
RX k (∆t ) = lim ∫ X k (τ ) X k (τ + ∆t )dτ
T →∞ T −T / 2

Num dado processo estocástico, se o valor médio e a função de autocorrelação forem constantes e
independentes da realização do processo estocástico o processo é dito estacionário e ergótico

Num processo ergótico, as propriedades estatísticas podem ser levantadas a partir de uma única
realização da variável aleatória.

Modelos de Sistemas Dinâmicos

Existem diversos modelos de sistemas dinâmicos. Em modelos monovariáveis, a estrutura mais


simples possível é obtida no modelo Auto Regressivo (AR).

yˆ (t ) = θ 0 + θ1 y (t − 1) + L + θ M y (t − M )

A equação acima pode ser escrita na forma do modelo linear generalizado yˆ (t ) = xˆ (t ) θ , onde o

vetor de regressores xˆ (t ) = [1, y (t − 1), K, y (t − M )] .

Este modelo considera apenas os valores das saídas nos instantes anteriores e uma estimativa
da saída é calculada como a figura abaixo:

u(t) y(t)
Processo
ε(t)

y(t-1) ^y(t)
Modelo
Modelos de Sistemas Dinâmicos

No modelo Auto Regressivo com entrada eXógena (ARX) monovariável de ordem M para saída
e K para a entrada (ARX M : K ), a saída do modelo é escrita como:

yˆ (t ) = θ 0 + θ1 y (t − 1) + L + θ M y (t − M ) + θ M +1u (t − 1) + L + θ M + K u (t − K )

ou na forma geral yˆ (t ) = x(t ) θ , onde θ = [θ 0 ,θ1, K, θ M ,θ M +1, K, θ M + K ]T é o vetor de parâmetros e

xˆ (t ) = [1, y (t − 1), K, y (t − M ), u (t − 1), K, u (t − K )] os regressores.

A estrutura do modelo ARX é mostrada na figura abaixo:

u(t) y(t)
Processo

y(t-1) ε(t)

u(t) ^y(t)
Modelo

Modelos de Sistemas Dinâmicos

Nos modelos de simulação, a saída do modelo é utilizada para predição:

yˆ (t ) = θ 0 + θ1 yˆ (t − 1) + L + θ M yˆ (t − M ) + θ M +1u (t − 1) + L + θ M + K u (t − K )

Nos modelos de simulação, os parâmetros ocorrem não linearmente e o modelo não pode ser
escrito na forma geral yˆ (t ) = x(t ) θ . Desta forma o ajuste de parametros de um modelo de
simulação deve ser feito a partir de um algoritmo de otimização não linear.

A estrutura do de simulação é mostrada na figura abaixo:

u(t) y(t)
Processo

ε(t)

u(t) ^y(t)
Modelo
^y(t-1)
O Método dos Mínimos Quadrados

Os parâmetros θi que definem o modelo podem ser obtidos pela minimização de um critério de
erro entre a saída desejada, imposta pelo conjunto de treinamento, e a saída calculada pela
função discriminante linear. O critério mais utilizado é o critério de Erro Médio Quadrático
(EMQ), definido como:

1 N
J (Θ) = ∑ [y (t ) − xˆ (t )Θ][y (t ) − xˆ (t )Θ]
T
N t =1

onde Θ = [θ1,K, θ m ] são os parâmetros e xˆ (t ) é o vetor de regressores.

O critério EMQ é uma função quadrática dos parâmetros Θ e a solução ótima pode ser obtida
analiticamente igualando o seu gradiente a zero:

1 N
∇J (Θ) = ∑ 2xˆ (t )T (y (t ) − xˆ (t )Θ ) = 0
N t =1

O Método dos Mínimos Quadrados

A solução é obtida resolvendo-se o seguinte sistema de equações:


N N
∑ xˆ (t )T y (t ) − ∑ xˆ (t )T xˆ (t )Θ = 0
t =1 t =1

N N
ˆ = ∑ xˆ (t )T xˆ (t ) e X
ˆ TX
Escrevendo X ˆ T Y = ∑ xˆ (t )T y (t ) onde:
t =1 t =1

⎡ xˆ1 (1) K xˆn (1) ⎤ ⎡ y1 (1) K ym (1) ⎤


ˆ =⎢ M
X O M ⎥ e Y=⎢ M O M ⎥
⎢ ⎥ ⎢ ⎥
⎢⎣ xˆ1 ( N ) K xˆn ( N )⎥⎦ ⎢⎣ y1 ( N ) K ym ( N ) ⎥⎦

O sistema de equações é reescrito como:

X ˆΘ=X
ˆ TX ˆ TY

cuja solução Θ∗ é obtida como:

Θ∗ = X [
ˆ −1 X
ˆ TX ˆ TY ]
O Método dos Mínimos Quadrados Recursivo

Em certas aplicações, é interessante que o modelo seja recalculado a cada instante. Desta
forma, o sistema de equações deve ser calculado recursivamente, pela versão recursiva do
algoritmo de mínimos quadrados, como:

( )
θˆ (t ) = θˆ (t − 1) + K y (t ) − xˆ (t )θˆ (t − 1) .

Q(t − 1)xˆ (t )
K=
λ + xˆ (t )Q(t − 1)xˆ (t )T

1⎡ Q(t − 1)xˆ (t )xˆ (t )T Q(t − 1) ⎤


Q(t ) = ⎢R (t − 1) − ⎥
λ⎣ λ + xˆ (t )T Q(t − 1)xˆ (t ) ⎦

O parâmetro λ é chamado “fator de esquecimento”. Para λ = 1 , todos os pontos de treinamento


são considerados com mesmo peso na estimativa dos parâmetros. Para λ < 1 , o estimador de
parâmetros atribui um peso menor aos pontos de treinamento distantes do instante considerado.
O valor de λ geralmente é escolhido como 0.98 ≤ λ ≤ 1.

Modelos de Sistemas Dinâmicos

A figura abaixo apresenta um exemplo de aplicação de modelos ARX de diferentes ordens a um


conjunto de dados que representa um sistema dinâmico. A figura da esquerda apresenta as
aproximações obtidas por modelos ARX 0:1, ARX 1:1 e ARX 1:3. A figura da direita apresenta os
erros obtidos pelos diversos modelos.

Aproximaçao Erro
62 6
ARX 0:1
60 5 ARX 1:1
ARX 1:3
4
58
3
56
2
54
1
52
0
50
-1

48 dados -2
ARX 0:1
46 ARX 1:1 -3
ARX 1:3
44 -4
0 50 100 150 200 250 300 0 50 100 150 200 250 300
Monitoração ambiental

Modelo de Previsão de Clorofila


7

-1
0 50 100 150 200 250 300 350

Estudo de Caso: Série Histórica do Rio Solimões

Os dados foram apresentados na forma de uma planilha Excel informando as médias


diárias do rio medidos em cada mês entre 1902 e 2002. Tendo em vista a existência de
valores ausentes no ano de 1902 e 1999, foram utilizados apenas os dados entre 1903 e
1998, resultando o registro correspondente a 96 anos e, portanto, 1152 registros

3000

2800

2600

2400
Nivel (m)

2200

2000

1800

1600

1400
1900 1910 1920 1930 1940 1950 1960 1970 1980 1990 2000
Anos
Estudo de Caso: Série Histórica do Rio Solimões

Medias, Máximos e Mínimos Mensais

Inicialmente, os dados foram analizados por colunas, ou seja, os mesem ao longo dos
anos. Pode ser observado que há uma maior dispersão entre os meses de março e julho
que os demais meses.

3000
Medias
2800 Minimos
Maximos
2600

2400
Nivel (m)

2200

2000

1800

1600

1400
0 2 4 6 8 10 12
Meses
Medias, Máximos e Mínimos Mensais

A figura mostra mostra a distribuição dos meses de ocorrência dos níveis mínimo e
máximo. Pode-se observar que na maioria dos anos, o mínimo ocorre nos meses de junho
e julho, enquanto que o máximo ocorre entre os meses de outubro e janeiro.

Ocorrencia de Minimos e Maximos


100
Maximos
Minimos
80

60
%

40

20

0
1 2 3 4 5 6 7 8 9 10 11 12
Meses

Box-Plot

O Box-Plot apresenta em cada “caixa” os percentis 25 e 75 e a mediana (percentil 50).


Os limites exteriores da caixa, correspondem aos valores µ ± 3σ , onde µ é a média e
σ o desvio padrão. Os pontos fora destes limites podem ser considerados aberrantes.

Box-Plot
3000

2800

2600

2400
Nivel (m)

2200

2000

1800

1600

1400
1 2 3 4 5 6 7 8 9 10 11 12
Meses
Histogramas dos Dados por Mês

Janeiro Fevereiro Março Abril


100 100 100 100

50 50 50 50

0 0 0 0
1500 2000 2500 3000 1500 2000 2500 3000 1500 2000 2500 3000 1500 2000 2500 3000
Maio Junho Julho Agosto
100 100 100 100

50 50 50 50

0 0 0 0
1500 2000 2500 3000 1500 2000 2500 3000 1500 2000 2500 3000 1500 2000 2500 3000
Setembro Outubro Novembro Dezembro
100 100 100 100

50 50 50 50

0 0 0 0
1500 2000 2500 3000 1500 2000 2500 3000 1500 2000 2500 3000 1500 2000 2500 3000

Matriz de Correlação

Jan Fev Mar Abr Mai Jun Jul Ago Set Out Nov Dez
Jan 1.0000 0.7496 0.4637 0.3267 0.2914 0.3011 0.3048 0.2541 0.2522 0.2610 0.2490 0.1545
Fev 0.7496 1.0000 0.8448 0.6818 0.6049 0.5981 0.5899 0.5283 0.4401 0.3430 0.2643 0.1171
Mar 0.4637 0.8448 1.0000 0.9012 0.7936 0.7745 0.7444 0.6673 0.5379 0.3417 0.2211 0.1086
Abr 0.3267 0.6818 0.9012 1.0000 0.9579 0.9218 0.8521 0.7434 0.5715 0.3314 0.1515 0.0659
Mai 0.2914 0.6049 0.7936 0.9579 1.0000 0.9662 0.8769 0.7534 0.5642 0.3241 0.1364 0.0661
Jun 0.3011 0.5981 0.7745 0.9218 0.9662 1.0000 0.9558 0.8458 0.6482 0.3902 0.1898 0.1223
Jul 0.3048 0.5899 0.7444 0.8521 0.8769 0.9558 1.0000 0.9479 0.7502 0.4885 0.3076 0.2224
Ago 0.2541 0.5283 0.6673 0.7434 0.7534 0.8458 0.9479 1.0000 0.8778 0.6311 0.4306 0.3246
Set 0.2522 0.4401 0.5379 0.5715 0.5642 0.6482 0.7502 0.8778 1.0000 0.8610 0.6202 0.4774
Out 0.2610 0.3430 0.3417 0.3314 0.3241 0.3902 0.4885 0.6311 0.8610 1.0000 0.8363 0.6172
Nov 0.2490 0.2643 0.2211 0.1515 0.1364 0.1898 0.3076 0.4306 0.6202 0.8363 1.0000 0.8042
Dez 0.1545 0.1171 0.1086 0.0659 0.0661 0.1223 0.2224 0.3246 0.4774 0.6172 0.8042 1.0000
Gráficos de Projeção (Mês de Junho)

3000 3000 3000

Fevereiro
Janeiro
2500 2500 2500

Março
2000 2000 2000

1500 1500 1500


2000 2500 3000 2000 2500 3000 2000 2500 3000
3000 3000 3000

2500 2500 2500

Junho
Maio
Abril

2000 2000 2000

1500 1500 1500


2000 2500 3000 2000 2500 3000 2000 2500 3000
3000 3000 3000

Setembro
2500 2500 2500
Agosto
Julho

2000 2000 2000

1500 1500 1500


2000 2500 3000 2000 2500 3000 2000 2500 3000
3000 3000 3000
Novembro

Dezembro
Outubro

2500 2500 2500

2000 2000 2000

1500 1500 1500


2000 2500 3000 2000 2500 3000 2000 2500 3000

Análise de Autocorrelação

A série foi transformada em um único vetor de 1152 elementos e foi calculada a sua
autocorrelação. O resultado é apresentado na figura abaixo.

Sample Autocorrelation Function (ACF)


1

0.8

0.6
Sample Autocorrelation

0.4

0.2

-0.2

-0.4

-0.6

-0.8
0 2 4 6 8 10 12 14 16 18 20
Lag
Modelos AutoRegressivos: Resultados

M=6
3000

2500
EMQ = 1.6978
2000
Real
Modelo
1500
1970 1975 1980 1985 1990 1995
M=8
3000

2500
EMQ = 1.6195
2000
Real
Modelo
1500
1970 1975 1980 1985 1990 1995
M = 12
3000

2500
EMQ = 1.4193
2000
Real
Modelo
1500
1970 1975 1980 1985 1990 1995
Text Mining

ƒ Text databases (document databases)


ƒ Grandes coleções de documentos de diversas fontem: artigos de jornais,
pesquisa, livros, bibliotecas digitais, e-mails, páginas Web, etc…
ƒ Dados geralmente não estruturados ou semi estruturados
ƒ O Objetivo do Text Mining é a extração de conhecimento em bases de
documentos, diferente dos objetivos da área de recuperação da informação.

ƒ Recuperação da informação
ƒ Um campo desenvolvido em paralelo com os sistemas de banco de dados
ƒ O objetivo da recuperação da informação é a localização de documentos em
uma base de documentos a partir de entradas como palavras-chave,
assunto, titulo, autor, etc.

Tarefas de Text Mining

ƒ Análise de associação de textos e keywords


ƒ Classificação automática de documentos
ƒ Detecção de similaridades
ƒ Agrupamento de documentos do mesmo autor
ƒ Agrupamento de documentos sobre o mesmo assunto
ƒ Análise de sequencias: previsão de eventos recorrentes
ƒ Detecção de anomalias em documentos
ƒ Análise de hiperdocumentos
Etapas de Text Mining

ƒ Pré-processamento

ƒ stop words, stemming

ƒ Indexação de documentos

ƒ Redução de dimensionalidade

ƒ Seleção de Termos, Extração de Termos

ƒ Aplicação do algoritmo

ƒ Avaliação do modelo

Text Mining: Agrupamento e Classificação de Documentos

Classificação: categorias temáticas previamente definidas.


Agrupamento: categorias não são conhecidas previamente

Categoria 1

Categoria 2

...
Categoria n
Web Mining

ƒ A WWW é muito grange, altamente distribuída e contém diversos tipos de


informação:

ƒ Noticias, anúncios, informação para consumidores, informações


financeiras, ed~ucação, pesquisa, governo, etc…

ƒ Informações sobre links entre páginas

ƒ Informações sobre o acesso de usuários

ƒ Particularidades

ƒ Muito grande para data warehousing e data mining

ƒ Heterogeneirade: informação não estruturada

Web Mining: Taxonomia

Web Mining

Web Content Web Structure Web Usage


Mining Mining Mining

Web Page Search Result General Access Customized


Content Mining Mining Pattern Tracking Usage Tracking

Anda mungkin juga menyukai