1538089113959172

Introdução às Técnicas de
Data Mining
Alexandre G. Evsukoff
evsukoff@coc.ufrj.br
http://www.ntt.ufrj.br
COPPE/UFRJ Programa de Engenharia Civil
Data Mining: Concepts and Techniques
Jiawei Han and Micheline Kamber
Data Mining: Concepts and

Techniques,
The Morgan Kaufmann Series in Data

Management Systems, Jim Gray,
Series Editor
Morgan Kaufmann Publishers,
August 2000. 550 pages. ISBN 1-
55860-489-8
http://www.cs.sfu.ca/~han/dmbook
Sistemas Inteligentes: Fundamentos e Aplicações
Organizadora: Solange Oliveira Rezende

ISBN 1683-7, ano 2002.
Editora Manole
Sistemas Baseados em Conhecimento

Aquisição de Conhecimento
Conceitos sobre Aprendizado de Máquina
Indução de Regras e Árvores de Decisão
Redes Neurais Artificiais
Sistemas Fuzzy
Sistemas Neuro Fuzzy
Computação Evolutiva
Sistemas Inteligentes Híbridos
Agentes e Multiagentes
Mineração de Dados
Mineração de Texto
Programa:
• Segunda-feira 31/01
9 Introdução
9 Caracterização e Pré-Processamento
9 Classificação Supervisionada
• Terça-feira 01/02
9 Classificação Não Supervisionada
9 Modelos de Regressão Linear
• Quarta-feira 02/02 (Prof. Custódio)

9 Classificação Bayesiana
• Quinta-feira 03/02 (Prof. Custódio)
9 Redes Neurais
Extração de Conhecimento em Bases de Dados
A Extração de Conhecimento em Bases de Dados (ou Knowledge Discovery in Databases) é o

processo de extrair informação válida, previamente desconhecida e de máxima abrangência a partir
de grandes bases de dados. Devido a essas características incomuns, todo o processo de Extração
de Conhecimento depende de uma nova geração de ferramentas e técnicas de análise de dados, e
envolve diversas etapas: Definição do Problema, Pré-processamento de dados; Mineração (Análise)
de Dados e Interpretação
Data Mining e Business Intelligence
Increasing potential
to support
business decisions End User
Making
Decisions
Data Presentation Business

Analyst
Visualization Techniques
Data Mining Data

Information Discovery Analyst
Data Exploration
Statistical Analysis, Querying and Reporting
Data Warehouses / Data Marts

OLAP, MDA DBA
Data Sources
Paper, Files, Information Providers, Database Systems, OLTP
Data Mining e Business Intelligence
Aplicações
• Classificação de Imagens de Sensoriamento Remoto

• Classificação de Imagens Médicas
• Caracterização de reservatórios de Petróleo
• Classificação de seqüências de DNA (bioinformática)
• Marketing Direcionado (CRM)
• Detecção de Fraudes
• Modelos de chuva-vazão
• Modelos de previsão de carga
• Diagnóstico de processos
•...
Mineração de tipos de dados complexos
Dados espaciais:
Agrupamento de pontos geograficos de acordo com a utilização do terreno
Integração com Sistemas de Informação Geográfica (GIS)
Imagens:
Classificaçãi de imagens através de contexto
Utiliza o tamanho, cor, forma, textura e posições relativas na imagem como atributos
para os algoritmos de classificação
Bioinformática:
Identificação e classificação de gens e proteinas
Classificação de sequencias de DNA: Projeto Genoma
Text & Web Mining

Grandes coleções de documentos de diversas fontem: artigos de jornais, pesquisa,
livros, bibliotecas digitais, e-mails, páginas Web, etc…
Dados geralmente não estruturados ou semi estruturados
Softwares de Data Mining
Weka
Weka é um software de domínio público, desenvolvido em Java pela universidade de Waikato, que
implementa uma série de algoritmos de Data Mining.
Intelligent Miner
O Intelligent Miner, desenvolvido pela IBM, é uma ferramenta de Mineração de Dados que possui
interligação direta com o banco de dados DB2, também da IBM.
Oracle Data Miner
Sistema de mineração de dados desenvolvido pela Oracle que permite interligação direta com o Banco de
Dados Oracle Enterprise 9i.
Enterprise Miner
A nova versão do SAS Enterprise Miner, para Data Mining tradicionalmente utilizado na área de negócios,
marketing e inteligência competitiva
Statistica Data Miner
Este software acrescenta as facilidades de mineração de dados ao tradicional pacote utilizado em

aplicações de estatística. Além do módulo de estatítica básica, modelos não-lineares e técnicas de análise
multivariada,
Data Mining
Data Mining é uma atividade multidisciplinar que envolve diversas áreas. Fornece as ferramentas
para a descoberta de conhecimento em grandes massas de dados. Data Mining não é uma
tecnologia nova, mas um campo de pesquisa multidisciplinar, envolvendo estatística, aprendizado
de máquinas, banco de dados, sistemas especialistas, técnicas de visualização de dados e
computação de alto desempenho de forma fortemente acoplada.
Banco de Dados
Data Warehouse
Métodos Estatísticos Arquiteturas Paralelas
Análise Multivariada Grid Computing
Data Mining
Lógica Fuzzy
Visualização de Dados
Redes Neurais
Métodos Qualitativos
Algoritmos Genéticos
Aprendizado de Máquina
Sistemas Especialistas
Tarefas de Data Mining
DATA MINING
ATIVIDADES ATIVIDADES
PREDITIVAS DESCRITIVAS
REGRAS DE
CLASSIFICAÇÃO PREDIÇÃO CLUSTERING SUMARIZAÇÃO
ASSOCIAÇÃO
Visualização de Dados: OLAP
Visualização de Dados: Starview

Visualização de Dados: MineSet
Visualização de Dados: Data Image
14
12
50
10
100
150
200
4
250
2
50 100 150 200 250

Caracterização e Pre-processamento: Histogramas
As características de um conjunto de dados experimentais podem ser dispostas graficamente na

forma de um histograma ou diagrama de freqüência. O histograma é uma descrição gráfica
empírica da variabilidade da informação experimental.
60 60
50 50
40 40
30 30
20 20
10 10
0 0
5 10 15 20 25 30 35 40 10 15 20 25 30 35 40
Caracterização e Pre-processamento: Gráficos de distribuição
Um gráfico de distribuição permite verificar visualmente se uma determinada amostra foi gerada
com uma determinada distribuição de probabilidades. O gráfico de distribuição realiza uma
mudança de coordenadas de forma que se os pontos da amostras aparecerem dispostos numa
linha, indica que a amostra foi gerada pela distribuição de probabilidades associada ao gráfico. O
gráfico de distribuição normal (abaixo) permite verificar se uma amostra foi gerada por uma
distribuição de probabilidades normal
Grafico de Distribuiçao Normal

0.99
0.98
0.95
0.90
0.75
Probability
0.50
0.25
0.10
0.05
0.02
0.01
8.5 9 9.5 10 10.5 11 11.5 12
Data
Caracterização e Pre-processamento: Gráficos de distribuição
O gráfico de distribuição quantil-quantil permite verificar se duas amostras foram geradas com a
mesma distribuição (normal ou não).
12 7
10 6
5
8
4
Y Quantiles
Y Quantiles
6
3
4
2
2
1
0 0
-2 -1
2 4 6 8 10 12 14 16 18 20 2.5 3 3.5 4 4.5 5 5.5 6 6.5 7
X Quantiles X Quantiles
Amostras geradas com a mesma distribuição Amostras geradas com distribuição diferentes
Box Plots
Caracterização e Pre-processamento: Box Plots
WOIL Treino
0.9
0.8
0.7
0.6
Values
0.5
0.4
0.3
0.2
0.1
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36
Column Number
Detecção de valores aberrantes (outliers)
Valores aberrantes (outliers) são valores de registros muito distantes da média de uma variável
aleatória. Esta distância normalmente é medida em relação ao desvio padrão da amostra.
Supondo a distribuição normal, 95% dos valores estão distantes da média de duas vezes o desvio
padrão, enquanto três vezes o desvio padrão cobrem que 99% dos valores
0.4
0.35
0.3
0.25
0.2
0.15
99%
0.1
95%
0.05
0
-4 -3 -2 -1 0 1 2 3 4
Caracterização e Pre-processamento: Análise de Correlação
Se as variáveis X e Y não são independentes, a correlação entre estas variáveis é calculada

como:
Cov( X , Y )
Corr ( X , Y ) =
σ ( X )σ (Y )
4 3
3
2
1
1
0 0
-1
-1
-2
-2
-3
-4 -3
-3 -2 -1 0 1 2 3 -3 -2 -1 0 1 2 3
Variáveis independentes Variáveis correlacionadas

Análise de Componentes Principais
A Análise dos Componentes Principais (ACP) é um método quantitativo para obter essa redução
de dimensionalidade. O método gera uma transformação linear da base de dados original, cujas
componentes são chamadas componentes principais. Cada componente principal é uma
combinação linear das variáveis originais. Todos os componentes principais são ortogonais entre
si, formando uma base de um outro espaço vetorial, geralmente de menor dimensão, na qual a
projeção da base de dados original neste espaço não contém nenhuma informação redundante.
Considere uma amostra de variáveis multidimensional X = [ X 1,K, X n ] com os registros

organizados por linha. O objetivo da ACP é gerar um novo conjunto de variáveis Y = [Y1,K, Yn ] não
correlacionadas, tal que:
Y = XP
onde as colunas da matriz P , de dimensão n × n , são os componentes principais de X . O

conjunto de variáveis Y é assim uma projeção do conjunto X , ou seja, os mesmos dados escritos
em num novo sistema de coordenadas.
A Análise de Componentes Principais é apresentada é representada abaixo para um conjunto

de dados de distribuição normal no domínio das variáveis X = [ X 1, X 2 ]. A elipse representa uma
curva de densidades de probabilidades constantes. Os componentes principais são
representados pelos autovetores e1 e e 2 . A partir da ACP o conjunto de dados originais será
projetado nas direções de máxima variância, definidos pelos autovetores e1 e e 2 para formar o
conjunto de dados projetados Y = [Y1,Y2 ] X2
e1
e2
X1
Em problemas de classificação, a redução de dimensionalidade realizada pela ACP pode não ser
necessariamente interessante. Observe que a projeção dos dados na direção da máxima
variância (componente principal e1 ) faz as duas classes quase coincidirem, enquanto que a
projeção na outra direção (componente principal e 2 ) tem melhor efeito para separação das
classes. X2
e1
e2
X1
Classificação Supervisionada
O objetivo da Classificação Supervisionada é o desenvolvimento de um modelo, chamado

classificador, capaz de classificar um determinada objeto em uma classe previamente conhecida.
O modelo é normalemente ajustado a partir de um conjunto de dados chamado “Conjunto de
Treinamento”, onde a classificação de cada registro é conhecida. O classificador é avaliado por
seu desempenho em classificar corretamente um conjunto de dados cuja classificação de cada
registro não é conhecida. O conjunto de avaliação é chamado de “Conjunto de Teste”.
Conjunto de Treinamento Conjunto de Teste

2.5
3
classe 1 classe 2 2
classe 1 classe 2
2 1.5
1
0.5
0
0
-0.5
-1
-1
-1.5
-2
-2
-3 -2.5
-5 -4 -3 -2 -1 0 1 2 3 4 5 -5 -4 -3 -2 -1 0 1 2 3 4
Classificação Supervisionada
Num problema de classificação ou reconhecimento de padrões, as soluções possíveis são
{ }
representadas pelo conjunto de classes Ω = ω j , j = 1...m . O problema consiste em identificar a
classe correta de um conjunto de observações, representadas pelo vetor de atributos

x = ( x1,K, xn ) .
p( x | ωi )
p( x | ω 2 )
p( x | ω1 )
x0
R1 R2
Classificação Supervisionada: Análise de Discriminante
O objetivo da Análise de Discriminante Linear (ADL) é calcular as superfícies de decisão

lineares diretamente a partir do conjunto de treinamento, independentemente das distribuições
de probabilidade associadas.
Conjunto de Terinamento Discriminante Linear

25 25
20 20
15 15
10 10
5 5
x2
x2
0 0
-5 -5
-10 -10
-15 -15
-20 -20
-80 -60 -40 -20 0 20 40 60 80 -80 -60 -40 -20 0 20 40 60 80
x1 x1
Árvores de Decisão:
Uma Árvore de Decisão (AD) é uma estrutura de dados definida recursivamente como:
• Um nó folha corresponde a uma classe ou
• Um nó decisão que contém um teste sobre algum atributo. Para cada resultado do teste existe
uma aresta para uma subárvore. Cada subárvore tem a mesma estrutura que a árvore.
Aparência
Sol Nublado Chuva
Umidade SIM Vento
≤ 78 > 78 Fraco Forte
SIM NÃO SIM NÃO
Árvores de Decisão:
Uma AD pode ser representada como um conjunto de regras. Cada regra tem seu início na raiz da
árvore e caminha até suas folhas:
Aparência
se Aparência = Sol então
se Umidade ≤ 78
Viajar = SIM Sol Nublado Chuva
senão se Umidade > 78

Viajar = NÃO Umidade SIM Vento
fim
≤ 78 > 78 Fraco Forte
senão se Aparência = Nublado então
Viajar = SIM
SIM NÃO SIM NÃO
fim
senão se Aparência = Chuva então
se Vento = Fraco
Viajar = SIM
senão se Vento = Forte
Viajar = NÃO
Fim
fim
Algoritmo de Construção
Dado um conjunto de treinamento T , o algoritmo para um gerar uma AD para separar um conjunto
de classes Ω = {ω1 , ω2 , K , ωm } é constituído dos seguintes passos:
1. O conjunto T contém um ou mais exemplos, todos pertencentes à classe ω j . Neste caso a
AD é um nó folha identificando a classe ω j
2. O conjunto T contém exemplos pertencentes a várias classes. Neste caso, o conjunto T deve
ser particionado em subconjuntos que são (ou aparentam ser) conjunto de exemplos da
mesma classe.
O particionamento é feito escolhendo-se um atributo xi , cujos valores possíveis são
{
denotados Ai1 , Ai 2 , K , Aini } , para selecionar subconjuntos {T1 , T2 , K , Tn } , onde cada
i
subconjunto T j é o resultado do particionamento de T com xi = Aij
3. Para cada subconjunto T j ≠ ∅ , execute recurcivamente o algoritmo
4. Após a construção da AD realizar a poda para melhorar sua capacidade de generalização.
Interpretação Geométrica
No caso em que os atributos têm valores contínuos, cada registro do conjunto de treinamento
como um ponto em um espaço n-multidimensional dos atributos. Neste caso, o classificador obtido
por uma AD deverá particionar o o espaço dos atributos em regiões e associar cada região a uma
classe.
Cada teste realizado em um nó decisão particiona o espaço em um hiperplano orthogonal ao eixo

do atributo testado. A medida que a AD é construida, mais e mais regiões são adicionadas .
Interpretação Geométrica
Os algoritmos de construção de AD vão

funcionar melhor a partir de uma escolha
apropriada. Combinações lineares de
atributos resultam em decisões obliquas,
que produzem hiperplanos não
ortogonais, reduzindo drasticamente o
tamanho da árvore.
Softwares para Árvore de Decisão
http://www.kdnuggets.com/software/classification.html
Comerciais
C5.0/See5 (http://www.rulequest.com/)
CART 5.0 (http://www.salford-systems.com/)
DTREG (http://www.dtreg.com/)
KnowledgeSEEKER (http://www.angoss.com/) .
PolyAnalyst (http://www.megaputer.com/)
SPSS AnswerTree (http://www.spss.com/)
XpertRule Miner (http://www.attar.com/)
Free ware
C4.5 (http://www.cse.unsw.edu.au/~quinlan/)
Classification Tree in Excel (http://www.geocities.com/adotsaha/CTree/CtreeinExcel.html)
IND (http://ic.arc.nasa.gov/projects/bayes-group/ind/IND-program.html).
ODBCMINE (http://www.intsysr.com/odbcmine.htm)
PC4.5 (http://cs1.cs.nyu.edu/~binli/pc4.5/)
SMILES (http://www.dsic.upv.es/~flip/smiles/)
Estudo de Caso: A Base Iris
Iris Setosa Iris Versicolor Iris Virginica
•150 exemplos
•4(quatro) atributos contínuos
•3(três) classes
•50 exemplos pertencentes a cada classe
50 50
Classe 1 Classe 1
Classe 2 Classe 2
40 40
Classe 3 Classe 3
Frequencia (%)
Frequencia (%)
30 30
20 20
10 10
0 0
-0.5 0 0.5 -0.5 0 0.5 1
x1 x2
50 50
Classe 1 Classe 1
Classe 2 Classe 2
40 40
Classe 3 Classe 3
Frequencia (%)
Frequencia (%)
30 30
20 20
10 10
0 0
-0.5 0 0.5 -0.4 -0.2 0 0.2 0.4
x3 x4
2 1
0.5
1
x2
x3
0
0
-0.5
-1 -1
-1 -0.5 0 0.5 1 -1 -0.5 0 0.5 1
x1 x1
1 1
0.5
0.5
x4
x3
0
0
-0.5
-0.5 -1
-1 -0.5 0 0.5 1 -1 -0.5 0 0.5 1 1.5
x1 Graficos de projeçao:
x2 variaveis originais
1 1
0.5 0.5
x4
x4
0 0
-0.5 -0.5
-1 -0.5 0 0.5 1 1.5 -1 -0.5 0 0.5 1
x2 x3
O Software Weka: (http://www.cs.waikato.ac.nz/ml/weka/)

O Software Weka: (http://www.cs.waikato.ac.nz/ml/weka/)
Classificação Não-Supervisionada
O objetivo da Classificação Não – Supervisionada, ou Análise de Agrupamentos é o

desenvolvimento de um modelo para agrupar um conjunto de dados em classes. Na classificação
não supervisionada não existe, portanto, o conceito de conjunto de treino e de teste, o resultado
da análise são grupos formados sobre o conjunto de dados disponíveis.
2.5 2.5
2 2
1.5 1.5
1 1
0.5 0.5
0 0
-0.5 -0 .5
-1 -1
-1.5 -1 .5
-2 -2
-2.5 -2 .5
-5 -4 -3 -2 -1 0 1 2 3 4 -5 -4 -3 -2 -1 0 1 2 3 4
Métodos de Particionamento:
Neste capítulo serão abordados apenas os métodos de particionamento, cujo objetivo é

encontrar a matriz de coordenadas dos centros de agrupamentos W = [w1,K, w K ] , onde cada
coluna w i ∈ X p define as coordenadas do centro do agrupamento representativo da classe

ωi , i = 1..K .
Os métodos de particionamento visam a otimização de um critério de custo definido em função da

distância dos registros do conjunto de treinamento em relação aos centros de agrupamento:
1
J (W) = ∑ ∑ d (x(t ), w i )
2
N t =1.. N x (t )∈ωi
onde d (x(t ), w i ) é, geralmente, a distância Euclideana, embora outras métricas de distância

podem ser definidas.
Normalização das Variáveis:
Os métodos baseados em distância são afetados pela diferença de escala entre os valores dos
atributos, sendo necessário normalizar os atributos.
Uma expresão de normalização de atributos no intervalo [− 1,1] e que é menos sensível aos
outliers pode ser calculada como:
x(t ) − med (x)

xˆ (t ) =
α sdv (x)
onde med(x) é o vetor com as médias dos atributos; sdv (x) representa os desvios-padrão e α
uma constante que reflete a percentagem de dados no interior do intervalo [− 1,1] . Geralmente
α = 3 o que resulta em 99% dos valores no interior do intervalo [− 1,1] (considerando a

distribuição normal). Valores aberantes estarão fora do intevalo.
O Algoritmo K-means:
O k-means é um método clássico da literatura que busca os centros de agrupamentos pela

minimização direta do critério de erro calculado em função da distância. Como a maioria dos
métodos de classificação não-supervisionada, o algoritmo k-means necessita da definição a priori
número de agrupamentos K (do nome k-means).
O k-means é um método clássico da literatura que busca os centros de agrupamentos pela

minimização direta do critério de erro calculado em função da distância. Como a maioria dos
métodos de classificação não-supervisionada, o algoritmo k-means necessita da definição a priori
número de agrupamentos K (do nome k-means).
kmeans
2
A partir de uma estimativa
inicial das coordenadas dos
1.5
centros de agrupamento, o
1
algoritmo calcula a distância
de cada ponto do conjunto
de treinamento às
x2
0.5
coordenadas das
0 estimativas de centro de
agrupamento
-0.5
-1
-1.5 -1 -0.5 0 0.5 1 1.5
x1
A seguir, o algoritmo aloca cada registro do conjunto de treinamento em um grupo, de acordo com
a menor distância ao centro correspondente.
kmeans
2
1.5
1
x2
0.5
-0.5
-1
-1.5 -1 -0.5 0 0.5 1 1.5
x1
A nova estimativa das coordenadas dos centros dos agrupamentos é calculada pela média
aritimética das coordenadas dos pontos associados a cada grupo.
kmeans
2
1.5
1
x2
0.5
-0.5
-1
-1.5 -1 -0.5 0 0.5 1 1.5
x1
0) Inicialização: normalizar os registros do conjunto de treinamento; definir o número K de

agrupamentos e escolher uma estimativa inicial para os centros de agrupamentos W .
1) Enquanto o critério de parada não for alcançado, repita:
2) (Re)agrupar cada registro x(t ) do conjunto de treinamento no agrupamento ωi , de acordo

com a menor distância d (x(t ), w i ) ao centro de agrupamento da iteração corrente:
x(t ) ∈ ωi ↔ d (x(t ), w i ) ≤ d (x(t ), w j ), ∀j ≠ i
3) Atualizar a matriz dos centros de agrupamentos pela média das coordenadas dos pontos em
cada agrupamento:
∑ χ i (x(t )).x(t )
w i = t =1.. N
∑ χ i (x(t ))
t =1.. N
4) FIM
A função χ i (x(t )) é a função característica do agrupamento ωi , definida no passo 2) do algoritmo

como:
⎧1, se x(t ) ∈ ωi
χ i (x(t )) = ⎨
⎩0, se x(t ) ∉ ωi
O algoritmo é interrompido quando a norma da diferença entre os valores da matriz de centros de

agrupamentos em duas iterações sucessivas é menor que uma tolerância especificada:
ε = Wκ − Wκ −1 < δ
onde . representa a norma de uma matriz e κ representa a iteração corrente.

Aplicação sobre a base de dados Iris
Nesta análise existe o conhecimento prévio sobre a estrutura nos dados de treinamento de que
existem, na verdade, 3 agrupamentos. O problema tem n = 4 atributos, mas para permitir a
visualização da posição dos centros de agrupamento, os pontos serão apresentados no espaço
2D formado pelas variáveis transformadas pela Análise de Componentes Principais.
kmeans kmeans
1 1
0.8 0.8
0.6 0.6
0.4 0.4
0.2 0.2
x2
x2
0 0
-0.2 -0.2
-0.4 -0.4
-0.6 -0.6
-0.8 -0.8
-1 -1
-1 -0.5 0 0.5 1 1.5 -1 -0.5 0 0.5 1 1.5
x1 x1
O Algoritmo Fuzzy c-means:
A particularidade do algoritmo FCM é a possibilidade de cada registro ser alocado em mais de

uma classe. Os resultados do algoritmo FCM dependem do valor escolhido para o parâmetro m .
Para m = 1 o resultado do FCM é praticamente idêntico ao resultado do k-means clássico. Quanto
maior o valor do parâmetro m , maior o suporte das funções de pertinência definidas pelo
algoritmo, ou seja, as classes tornam-se mais abrangentes.
fcmeans: iris.dat fcmeans: iris.dat
1 1
0.8 0.8
0.6 0.6
0.4 0.4
0.2 0.2
0 0
1 1
0.5 0.5
1.5 1.5
0 0
1 1
0.5 0.5
-0.5 -0.5
0 0
-0.5 -0.5
-1 -1 -1
-1
(a) m = 1.2 (b) m = 2.0

O Algoritmo Fuzzy c-means:
O particionamento realizado pelo classificador FCM também sofre a influência do fator de forma
m . A figura abaixo mostra o particionamento fuzzy para os dois valores estudados de m . As
cores primárias representam a região de pertinência total do registro à classe, enquanto que as
cores secundárias representam pertinências parciais.
fcmeans: iris.dat fcmeans: iris.dat

1
0.8 0.8
0.9 0.9
0.6 0.6
0.8 0.8
0.4 0.4
0.7 0.7
0.2 0.2
0.6 0.6
0 0.5 0 0.5
0.2 0.4 -0.2 0.4
0.3 0.3
0.4 -0.4
0.2 0.2
0.6 -0.6
0.1 0.1
0.8 -0.8
0 0
-0.8 -0.6 -0.4 -0.2 0 0.2 0.4 0.6 0.8 1 -0.8 -0.6 -0.4 -0.2 0 0.2 0.4 0.6 0.8 1
x2 x2
(a) m = 1.2 (b) m = 2.0
Métricas de Validação de Cluster:
Nos últimos anos, diversas métricas de validação de clusters têm sido propostas na literatura
(Xie e Beni, 1991; Bezdek e Pal, 1998; Pakhira et al., 2004). O objetivo dos índices de
validação é, em geral, obter respostas para duas questões:
i. Quantos clusters estão presentes nos dados
ii. Qual a qualidade da partição encontrada.
A idéia geral presente na maioria dos índices de validação de clusters é baseada em uma
visão geométrica da partição, de forma que uma boa partição dos dados apresenta grupos
compactos e clusters diferentes devem estar separados. No caso da análise de clusters fuzzy,
em que um valor de pertinência é associado a cada registro, o grau de superposição entre os
grupos também deve ser levada em conta, de forma que a melhor partição é aquela que
apresentar menor superposição.
Recentemente (Pakhira et al., 2004) o índice de validação de clusters PBM (devido ao nome
dos autores) tem obtido um bom resultado em um grande número de aplicações. O índice PBM
é definido como o produto de três fatores, cuja maximização garante uma partição formada por
um número pequeno de clusters compactos e separados.
O índice PBM:
Matematicamente, o índice PBM é definido como:

2
⎛1 E ⎞
PBM ( K ) = ⎜⎜ . 0 .DK ⎟⎟
⎝ K EK ⎠
onde K é p número de clusters; E0 é a soma das distâncias de cada registro ao centro

geométrico do conjunto de dados w 0 como:
E0 = ∑ d (x(t ), w 0 ).
t =1.. N
E K é a soma das distancias “intra-cluster” K clusters, ou seja, para cada cluster, a soma das
distâncias dos registros ao centro do cluster correspondente, ponderada pelo valor de
pertinência do registro ao cluster (no caso de análise de clusters fuzzy):
EK = ∑ ∑ ui (t )d (x(t ), w i ) 2
t =1.. N i =1.. K
O valor DK representa a máxima separação entre clusters:
DK = max
i , j =1.. K
( d (w i , w j ) ) .
O índice PBM:
Quanto maior o índice PBM, melhor a partição. Assim como outros índices, o índice PBM é um
índice de otimização, de forma que para se obter a melhor partição, deve-se executar o
algoritmo de agrupamento para diversos valores de K e escolher aquele que resultar no maior
valor de índice PBM.
PBM Validation Index PBM Validation Index

0.055 0.4
0.05
0.35
0.045
0.3
0.04
0.035
0.25
PBM
PBM
0.03
0.2
0.025
0.02 0.15
0.015
0.1
0.01
0.05
0.005 2 4 6 8 10 12 14 16
2 4 6 8 10 12 14 16
no. of clusters
no. of clusters
É importante observar que, devido à inicialização aleatória dos algoritmos de clusterização, o

procedimento deve ser repetido diversas vezes para garantir que o resultado não depende da
inicialização.
Previsão de Inadimplência no Setor de Telefonia
Variáveis utilizadas
Qtd de débitos
Qtd de dias em atraso
Valor médio da fatura
Qtd média de pulsos
Qtd de acessos
Tempo de instalação
Valor de inadimplência
Qtd minutos de tráfego
Local
Intra Setor
Intra Região
Inter Região
Internacional
VC1
VC2
VC3
Previsão de Inadimplência no Setor de Telefonia
6,50
10,27
29,18% 30,32%
11,56
Grupo 0
3,49%
15,83 Grupo 1
21,33%
24,82% Grupo 2
20,73 Grupo 4
14,79%
Grupo 3
6,66% Grupo 5
30,46%
15,63%
35,10
12,41% 4,94%
5,97%
• O grupo 5 possui a maior taxa populacional com uma das menores faixa de inadimplência.
• O grupo 3 possui alta taxa populacional com faturamento médio e baixa inadimplência.
• O grupo 4 possui a menor faixa de fatura com a maior faixa de inadimplência.
• O grupo 2 possui média taxa populacional com médio faturamento e alta inadimplência.
• O grupo 1 possui média taxa populacional, alta faixa de fatura e a menor de inadimplência.
• O grupo 0 possui a menor população com as maiores faixas de fatura e inadimplência.
Outros Algoritmos de Agrupamento: Algoritmo Incremental
Parâmetros de entrada:
δ 1 ∈ [0,1] : Limite de similaridade
δ 2 ∈ [0,1] : Limite de confiabilidade
0) Inicio
1) Atribui o primeiro registro ao primeiro cluster
2) Para cada registro t
3) Para cada cluster i
4) Calcula o índice de similaridade entre o registro t e os
elementos do cluster i.
5) Calcula o índice de confiabilidade entre o registro t e os
elementos do cluster i.
6) Se o critério de agrupamento é satisfeito:
7) Inclui o registro t no cluster i
8) Senão
9) Cria novo cluster
10) Fim
Métodos Hierárquicos:
Métodos de agrupamento hierárquico visam agrupar dados, simultaneamente, em diversas

escalas, criando uma árvore do grupos. A árvore uma hierarquia de múltiplos níveis, onde os
grupos em um nível podem ser agrupados como itens dos grupos de níveis mais elevados. Os
métodos hierárquicos permitem que se decida sobre o nível ou escala para realizar o
agrupamento em uma determinada aplicação.
1.2 1.2
1.1
1
0.8
0.9
0.8
0.6
0.7
0.4
0.6
0.2 0.5
0.4
0
10
35
38
3113
446
22648
330
36
4314
93941
118
2821
544
32
37725
812
50
27
29
40
24
2317
619
11
22
49
45
20
47
15
34
33
16
42
51
111
53
116
138
78
117
148
125
137
149
101
121
144
126
145
105
113
146
130
140
142
141
103
108
131
106
136
123
119
110
118
132
52
66
71
87
57
86
127
55
134
104
77
139
59
150
128
76
62
67
64
79
98
75
92
72
74
65
85
97
89
96
120
6988
114
73
147
122
84
102
143
135
109
112
115
124
129
133
54
107
6381
82
100
5668
83
95
60
80
70
90
91
93
58
94
99
61 6 8 7 5 9 10 1 2 3 4
Sowtware CLUTO: (http://www-users.cs.umn.edu/~karypis/cluto/)
Aproximação de Funções
Regressão (ou aproximação de funções) é o processo de determinar um modelo de um sistema

real que produz uma resposta ou variável de saída y quando acionado por um conjunto de
variáveis de entrada u = (u1 ,K, u n ) , como mostra a Figura.
Entradas Saídas
Sistema
Supondo que a saída do sistema real pode se representada por uma função matemática das
entradas, na forma y = f (u) , o objetivo da regressão é a construção de um modelo yˆ = fˆ (u) que
corresponda à melhor aproximação do sistema real.
Taxonomia de Modelos
Existem várias representações de sistemas reais de acordo com algumas características do modelo.
Algumas categorizações de modelos são apresentadas a seguir.
Segundo o número de entradas e saídas os modelos são classificados em:
SISO (Single Input Single Output): modelos com entrada e saída simples (monvariável).
MISO (Mutiple Input Single Output): modelos com entrada múltipla e saída simples.
SIMO (Single Input Multiple Output): modelos com entrada simples e saída múltipla.
MIMO (Mltiple Input Multiple Output): modelos com entrada múltipla e saída múltipla.
Segundo a natureza de conhecimento empregado para a construção do modelo, pode-se classificar os

modelos em:
modelos de conhecimento (ou analíticos) nos quais as relações que descrevem o comportamento
do sistema são escritas a partir das leis fundamentais da física;
modelos de comportamento (ou de entrada/saída) nos quais as relações que descrevem o

comportamento do sistema são obtidos diretamente através da observação dos dados de entrada
e saída.
Segundo a natureza da informação tratada pelo modelo, podemos classificar os modelos em:
modelos determinísticos nos quais a saída correspondente a uma determinada entrada pode ser
reproduzida;
modelos estocásticos nos quais o comportamento do sistema depende de fenômenos aleatórios

que podem ocorrer tanto na entrada como na saída ou internamente ao sistema.
Segundo a representação do tempo pelas relações do modelo, pode-se classificar os

modelos em:
modelos estáticos nos quais a saída depende apenas do valor de entrada num
determinado instante;
modelos dinâmicos nos quais a saída num determinado instante depende de relações
temporais entre as variáveis do sistema. Em equilíbrio (regime permanente) um
sistema dinâmico pode ser descrito por um modelo estático.
Segundo ao tipo de relações, pode-se classificar os modelos em:
modelos lineares nos quais as relações presentes no modelo são lineares. Os modelos
lineares permitem que seja aplicado o princípio da superposição, de forma que dada uma
entrada u (t ) formada pela combinação u (t ) = u1 (t ) + u2 (t ) , a saída y (t ) do sistema pode ser
escrita como y (t ) = y1 (t ) + y2 (t ) , onde y1 (t ) é a resposta do sistema à entrada u1 (t ) e y2 (t ) é
a resposta à entrada u1 (t ) .
modelos não-lineares nos quais as relações presentes no modelo são não-lineares.

Geralmente, a maior parte dos sistemas não-lineares permite uma aproximação linear nas
vizinhanças de um ponto de funcionamento.
Identificação de Modelos
No modelo de comportamento, ou caixa preta, o modelo é identificado a partir de um conjunto de

dados de treinamento T = {(u(t ), y (t ) ), t = 1,K N }, onde cada registro t = 1,K N , a saída y (t )
correspondente à entrada u(t ) = (u1 (t ),K, un (t ) )
De uma forma geral, a identificação de um modelo é realizada em três etapas:
1. Identificação da estrutura do modelo, desenvolvida em três etapas:
Escolha do tipo de modelo,
Escolha do tamanho do modelo, pela seleção das variáveis de entrada e saída, além
da ordem e eventualmente do retardo do sistema,
Escolha de uma parametrização do modelo (a partir da definição do tipo e do

tamanho) que permita a sua identificação.
2. Determinação dos parâmetros do modelo a partir de um conjunto de dados de treinamento,

representativo do sistema,
3. Validação do modelo, considerando-se os objetivos do modelo, se para predição,

simulação, controle, diagnóstico, etc.
O Modelo Linear Generalizado
No modelo linear com parâmetros lineares, a saída predita pelo modelo é calculada como:
yˆ (t ) = θ 0 + θ1u1 (t ) + θ 2u2 (t ) + K + θ M uM (t )
A equação acima pode ser rescrita vetorialmente como:
yˆ (t ) = xˆ (t )θ
onde θ = [θ1, K, θ M ]T é o vetor de parâmetros e xˆ (t ) = [1, u1 (t ), K, uM (t )] são chamados de

regressores.
Existem uma série de modelos, com estruturas diferentes, que podem ser escritos sob a forma da
equação vetorial acima.
O modelo linear generalizado pode ser escrito para o caso monovariável como:
M
yˆ (t ) = ∑θ i f i (u (t ) )
i =0
O Modelo Linear Generalizado
Seja qual for a estrutura do modelo, a saída real do sistema pode ser escrita em função da
predição do modelo como:
y ( k ) = yˆ (k ) + e(k )
onde e(k ) = y (k ) − yˆ (k ) é o erro de estimação ou resíduo.
Os parâmetros do modelo são calculados pela minimização do Erro Quadrático Médio de N

amostras no conjunto de treinamento, calculado como:
J (θ) =
1
N N
[ ][
[y − yˆ ]T [y − yˆ ] = 1 y − Xˆ θ T y − Xˆ θ ]
onde y = [ y (1),K, y ( N )] T
é a saída real do sistema para as amostras do conjunto de
treinamento, yˆ = [ yˆ (1),K, yˆ ( N )]T são as predições correspondentes do modelo;

ˆ = [xˆ (1),K, xˆ ( N )]T é a matriz de regressores e θ é o vetor de parâmetros cujos componentes
X
dependem da estrutura escolhida para o modelo.
Redes neurais para modelagem da elevação de temperatura concreto:
Determinação da elevação adiabática de temperatura:
60
50
Adiabatic Temperature Rise (ºC)
40
30
20
10
0
0 5 10 15 20 25 30
t (days)
Redes neurais para modelagem da elevação de temperatura concreto:
Elevação Adiabática de Temperatura (ºC)

60 60
50 50
40 40
30 30
20 20
10 10
Ensaio E-4809 Ensaio E-2081
0 Modelo 0 Modelo
0 5 10 15 20 25 30 0 5 10 15 20 25 30
t (dias) t (dias)

60 60
50 50
40 40
30 30
20 20
10 10
Ensaio E-4995R
Ensaio E-2057
0 Modelo
0 Modelo
0 5 10 15 20 25 30
0 5 10 15 20 25 30
t (dias) t (dias)
Sistemas Dinâmicos
A saída de um sistema dinâmico não-determinístico é uma variável aleatória X (t ) . Uma saída

particular do sistema, X k (t ) é chamada uma realização da variável aleatória X (t ) . O conjunto de
todas as realizações possíveis de uma variável aleatória é chamado processo estocástico, denotado
{X (t )} . Os gráficos abaixo ilustram 4 realizações abaixo da variável aleatória X (t ) :
-5
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
5
-5
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
5
-5
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
5
-5
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
Sistemas Dinâmicos
Dado uma realização X K (t ) do processo estocástico {X (t )} , o valor médio da variável é calculado por:
1 T /2
µ X k = lim ∫ X k (τ )dτ
T → ∞ T −T / 2
A função de autocorrelação da variável X k (t ) é calculada pela expressão:
1 T /2
RX k (∆t ) = lim ∫ X k (τ ) X k (τ + ∆t )dτ
T →∞ T −T / 2
Num dado processo estocástico, se o valor médio e a função de autocorrelação forem constantes e
independentes da realização do processo estocástico o processo é dito estacionário e ergótico
Num processo ergótico, as propriedades estatísticas podem ser levantadas a partir de uma única
realização da variável aleatória.
Modelos de Sistemas Dinâmicos
Existem diversos modelos de sistemas dinâmicos. Em modelos monovariáveis, a estrutura mais

simples possível é obtida no modelo Auto Regressivo (AR).
yˆ (t ) = θ 0 + θ1 y (t − 1) + L + θ M y (t − M )
A equação acima pode ser escrita na forma do modelo linear generalizado yˆ (t ) = xˆ (t ) θ , onde o
vetor de regressores xˆ (t ) = [1, y (t − 1), K, y (t − M )] .
Este modelo considera apenas os valores das saídas nos instantes anteriores e uma estimativa
da saída é calculada como a figura abaixo:
u(t) y(t)
Processo
ε(t)
y(t-1) ^y(t)
Modelo
No modelo Auto Regressivo com entrada eXógena (ARX) monovariável de ordem M para saída
e K para a entrada (ARX M : K ), a saída do modelo é escrita como:
yˆ (t ) = θ 0 + θ1 y (t − 1) + L + θ M y (t − M ) + θ M +1u (t − 1) + L + θ M + K u (t − K )
ou na forma geral yˆ (t ) = x(t ) θ , onde θ = [θ 0 ,θ1, K, θ M ,θ M +1, K, θ M + K ]T é o vetor de parâmetros e
xˆ (t ) = [1, y (t − 1), K, y (t − M ), u (t − 1), K, u (t − K )] os regressores.
A estrutura do modelo ARX é mostrada na figura abaixo:
u(t) y(t)
Processo
y(t-1) ε(t)
u(t) ^y(t)
Modelo
Nos modelos de simulação, a saída do modelo é utilizada para predição:
yˆ (t ) = θ 0 + θ1 yˆ (t − 1) + L + θ M yˆ (t − M ) + θ M +1u (t − 1) + L + θ M + K u (t − K )
Nos modelos de simulação, os parâmetros ocorrem não linearmente e o modelo não pode ser
escrito na forma geral yˆ (t ) = x(t ) θ . Desta forma o ajuste de parametros de um modelo de
simulação deve ser feito a partir de um algoritmo de otimização não linear.
A estrutura do de simulação é mostrada na figura abaixo:
u(t) y(t)
Processo
ε(t)
u(t) ^y(t)
Modelo
^y(t-1)
O Método dos Mínimos Quadrados
Os parâmetros θi que definem o modelo podem ser obtidos pela minimização de um critério de
erro entre a saída desejada, imposta pelo conjunto de treinamento, e a saída calculada pela
função discriminante linear. O critério mais utilizado é o critério de Erro Médio Quadrático
(EMQ), definido como:
1 N
J (Θ) = ∑ [y (t ) − xˆ (t )Θ][y (t ) − xˆ (t )Θ]
T
N t =1
onde Θ = [θ1,K, θ m ] são os parâmetros e xˆ (t ) é o vetor de regressores.
O critério EMQ é uma função quadrática dos parâmetros Θ e a solução ótima pode ser obtida
analiticamente igualando o seu gradiente a zero:
1 N
∇J (Θ) = ∑ 2xˆ (t )T (y (t ) − xˆ (t )Θ ) = 0
N t =1
O Método dos Mínimos Quadrados
A solução é obtida resolvendo-se o seguinte sistema de equações:

N N
∑ xˆ (t )T y (t ) − ∑ xˆ (t )T xˆ (t )Θ = 0
t =1 t =1
N N
ˆ = ∑ xˆ (t )T xˆ (t ) e X
ˆ TX
Escrevendo X ˆ T Y = ∑ xˆ (t )T y (t ) onde:
t =1 t =1
⎡ xˆ1 (1) K xˆn (1) ⎤ ⎡ y1 (1) K ym (1) ⎤

ˆ =⎢ M
X O M ⎥ e Y=⎢ M O M ⎥
⎢ ⎥ ⎢ ⎥
⎢⎣ xˆ1 ( N ) K xˆn ( N )⎥⎦ ⎢⎣ y1 ( N ) K ym ( N ) ⎥⎦
O sistema de equações é reescrito como:
X ˆΘ=X
ˆ TX ˆ TY
cuja solução Θ∗ é obtida como:
Θ∗ = X [
ˆ −1 X
ˆ TX ˆ TY ]
O Método dos Mínimos Quadrados Recursivo
Em certas aplicações, é interessante que o modelo seja recalculado a cada instante. Desta
forma, o sistema de equações deve ser calculado recursivamente, pela versão recursiva do
algoritmo de mínimos quadrados, como:
( )
θˆ (t ) = θˆ (t − 1) + K y (t ) − xˆ (t )θˆ (t − 1) .
Q(t − 1)xˆ (t )
K=
λ + xˆ (t )Q(t − 1)xˆ (t )T
1⎡ Q(t − 1)xˆ (t )xˆ (t )T Q(t − 1) ⎤

Q(t ) = ⎢R (t − 1) − ⎥
λ⎣ λ + xˆ (t )T Q(t − 1)xˆ (t ) ⎦
O parâmetro λ é chamado “fator de esquecimento”. Para λ = 1 , todos os pontos de treinamento

são considerados com mesmo peso na estimativa dos parâmetros. Para λ < 1 , o estimador de
parâmetros atribui um peso menor aos pontos de treinamento distantes do instante considerado.
O valor de λ geralmente é escolhido como 0.98 ≤ λ ≤ 1.
A figura abaixo apresenta um exemplo de aplicação de modelos ARX de diferentes ordens a um

conjunto de dados que representa um sistema dinâmico. A figura da esquerda apresenta as
aproximações obtidas por modelos ARX 0:1, ARX 1:1 e ARX 1:3. A figura da direita apresenta os
erros obtidos pelos diversos modelos.
Aproximaçao Erro
62 6
ARX 0:1
60 5 ARX 1:1
ARX 1:3
4
58
3
56
2
54
1
52
0
50
-1
48 dados -2
ARX 0:1
46 ARX 1:1 -3
ARX 1:3
44 -4
0 50 100 150 200 250 300 0 50 100 150 200 250 300
Monitoração ambiental
Modelo de Previsão de Clorofila

7
-1
0 50 100 150 200 250 300 350
Estudo de Caso: Série Histórica do Rio Solimões
Os dados foram apresentados na forma de uma planilha Excel informando as médias

diárias do rio medidos em cada mês entre 1902 e 2002. Tendo em vista a existência de
valores ausentes no ano de 1902 e 1999, foram utilizados apenas os dados entre 1903 e
1998, resultando o registro correspondente a 96 anos e, portanto, 1152 registros
3000
2800
2600
2400
Nivel (m)
2200
2000
1800
1600
1400
1900 1910 1920 1930 1940 1950 1960 1970 1980 1990 2000
Anos
Estudo de Caso: Série Histórica do Rio Solimões
Medias, Máximos e Mínimos Mensais
Inicialmente, os dados foram analizados por colunas, ou seja, os mesem ao longo dos
anos. Pode ser observado que há uma maior dispersão entre os meses de março e julho
que os demais meses.
3000
Medias
2800 Minimos
Maximos
2600
2400
Nivel (m)
2200
2000
1800
1600
1400
0 2 4 6 8 10 12
Meses
Medias, Máximos e Mínimos Mensais
A figura mostra mostra a distribuição dos meses de ocorrência dos níveis mínimo e
máximo. Pode-se observar que na maioria dos anos, o mínimo ocorre nos meses de junho
e julho, enquanto que o máximo ocorre entre os meses de outubro e janeiro.
Ocorrencia de Minimos e Maximos

100
Maximos
Minimos
80
60
%
40
20
0
1 2 3 4 5 6 7 8 9 10 11 12
Meses
Box-Plot
O Box-Plot apresenta em cada “caixa” os percentis 25 e 75 e a mediana (percentil 50).

Os limites exteriores da caixa, correspondem aos valores µ ± 3σ , onde µ é a média e
σ o desvio padrão. Os pontos fora destes limites podem ser considerados aberrantes.
Box-Plot
3000
2800
2600
2400
Nivel (m)
2200
2000
1800
1600
1400
1 2 3 4 5 6 7 8 9 10 11 12
Meses
Histogramas dos Dados por Mês
Janeiro Fevereiro Março Abril

100 100 100 100
50 50 50 50
0 0 0 0
1500 2000 2500 3000 1500 2000 2500 3000 1500 2000 2500 3000 1500 2000 2500 3000
Maio Junho Julho Agosto
100 100 100 100
50 50 50 50
0 0 0 0
1500 2000 2500 3000 1500 2000 2500 3000 1500 2000 2500 3000 1500 2000 2500 3000
Setembro Outubro Novembro Dezembro
100 100 100 100
50 50 50 50
0 0 0 0
1500 2000 2500 3000 1500 2000 2500 3000 1500 2000 2500 3000 1500 2000 2500 3000
Matriz de Correlação
Jan Fev Mar Abr Mai Jun Jul Ago Set Out Nov Dez
Jan 1.0000 0.7496 0.4637 0.3267 0.2914 0.3011 0.3048 0.2541 0.2522 0.2610 0.2490 0.1545
Fev 0.7496 1.0000 0.8448 0.6818 0.6049 0.5981 0.5899 0.5283 0.4401 0.3430 0.2643 0.1171
Mar 0.4637 0.8448 1.0000 0.9012 0.7936 0.7745 0.7444 0.6673 0.5379 0.3417 0.2211 0.1086
Abr 0.3267 0.6818 0.9012 1.0000 0.9579 0.9218 0.8521 0.7434 0.5715 0.3314 0.1515 0.0659
Mai 0.2914 0.6049 0.7936 0.9579 1.0000 0.9662 0.8769 0.7534 0.5642 0.3241 0.1364 0.0661
Jun 0.3011 0.5981 0.7745 0.9218 0.9662 1.0000 0.9558 0.8458 0.6482 0.3902 0.1898 0.1223
Jul 0.3048 0.5899 0.7444 0.8521 0.8769 0.9558 1.0000 0.9479 0.7502 0.4885 0.3076 0.2224
Ago 0.2541 0.5283 0.6673 0.7434 0.7534 0.8458 0.9479 1.0000 0.8778 0.6311 0.4306 0.3246
Set 0.2522 0.4401 0.5379 0.5715 0.5642 0.6482 0.7502 0.8778 1.0000 0.8610 0.6202 0.4774
Out 0.2610 0.3430 0.3417 0.3314 0.3241 0.3902 0.4885 0.6311 0.8610 1.0000 0.8363 0.6172
Nov 0.2490 0.2643 0.2211 0.1515 0.1364 0.1898 0.3076 0.4306 0.6202 0.8363 1.0000 0.8042
Dez 0.1545 0.1171 0.1086 0.0659 0.0661 0.1223 0.2224 0.3246 0.4774 0.6172 0.8042 1.0000
Gráficos de Projeção (Mês de Junho)
3000 3000 3000
Fevereiro
Janeiro
2500 2500 2500
Março
2000 2000 2000
1500 1500 1500

2000 2500 3000 2000 2500 3000 2000 2500 3000
3000 3000 3000
2500 2500 2500
Junho
Maio
Abril
2000 2000 2000
1500 1500 1500

2000 2500 3000 2000 2500 3000 2000 2500 3000
3000 3000 3000
Setembro
2500 2500 2500
Agosto
Julho
2000 2000 2000
1500 1500 1500

2000 2500 3000 2000 2500 3000 2000 2500 3000
3000 3000 3000
Novembro
Dezembro
Outubro
2500 2500 2500
2000 2000 2000
1500 1500 1500

2000 2500 3000 2000 2500 3000 2000 2500 3000
Análise de Autocorrelação
A série foi transformada em um único vetor de 1152 elementos e foi calculada a sua
autocorrelação. O resultado é apresentado na figura abaixo.
Sample Autocorrelation Function (ACF)

1
0.8
0.6
Sample Autocorrelation
0.4
0.2
-0.2
-0.4
-0.6
-0.8
0 2 4 6 8 10 12 14 16 18 20
Lag
Modelos AutoRegressivos: Resultados
M=6
3000
2500
EMQ = 1.6978
2000
Real
Modelo
1500
1970 1975 1980 1985 1990 1995
M=8
3000
2500
EMQ = 1.6195
2000
Real
Modelo
1500
1970 1975 1980 1985 1990 1995
M = 12
3000
2500
EMQ = 1.4193
2000
Real
Modelo
1500
1970 1975 1980 1985 1990 1995
Text Mining
Text databases (document databases)

Grandes coleções de documentos de diversas fontem: artigos de jornais,
pesquisa, livros, bibliotecas digitais, e-mails, páginas Web, etc…
Dados geralmente não estruturados ou semi estruturados
O Objetivo do Text Mining é a extração de conhecimento em bases de
documentos, diferente dos objetivos da área de recuperação da informação.
Recuperação da informação
Um campo desenvolvido em paralelo com os sistemas de banco de dados
O objetivo da recuperação da informação é a localização de documentos em
uma base de documentos a partir de entradas como palavras-chave,
assunto, titulo, autor, etc.
Tarefas de Text Mining
Análise de associação de textos e keywords

Classificação automática de documentos
Detecção de similaridades
Agrupamento de documentos do mesmo autor
Agrupamento de documentos sobre o mesmo assunto
Análise de sequencias: previsão de eventos recorrentes
Detecção de anomalias em documentos
Análise de hiperdocumentos
Etapas de Text Mining
Pré-processamento
stop words, stemming
Indexação de documentos
Redução de dimensionalidade
Seleção de Termos, Extração de Termos
Aplicação do algoritmo
Avaliação do modelo
Text Mining: Agrupamento e Classificação de Documentos
Classificação: categorias temáticas previamente definidas.

Agrupamento: categorias não são conhecidas previamente
Categoria 1
Categoria 2
...
Categoria n
Web Mining
A WWW é muito grange, altamente distribuída e contém diversos tipos de

informação:
Noticias, anúncios, informação para consumidores, informações

financeiras, ed~ucação, pesquisa, governo, etc…
Informações sobre links entre páginas
Informações sobre o acesso de usuários
Particularidades
Muito grande para data warehousing e data mining
Heterogeneirade: informação não estruturada
Web Mining: Taxonomia
Web Mining
Web Content Web Structure Web Usage

Mining Mining Mining
Web Page Search Result General Access Customized

Content Mining Mining Pattern Tracking Usage Tracking

1538089113959172

Diunggah oleh

Informasi Dokumen

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

1538089113959172

Diunggah oleh

Hak Cipta:

Format Tersedia

Introdução às Técnicas de

COPPE/UFRJ Programa de Engenharia Civil

Data Mining: Concepts and Techniques

Jiawei Han and Micheline Kamber

Data Mining: Concepts and

The Morgan Kaufmann Series in Data

Organizadora: Solange Oliveira Rezende

Sistemas Baseados em Conhecimento

• Quarta-feira 02/02 (Prof. Custódio)

A Extração de Conhecimento em Bases de Dados (ou Knowledge Discovery in Databases) é o

Data Mining e Business Intelligence

Data Presentation Business

Data Mining Data

Data Warehouses / Data Marts

• Classificação de Imagens de Sensoriamento Remoto

 Text & Web Mining

Softwares de Data Mining

Oracle Data Miner

Statistica Data Miner

Este software acrescenta as facilidades de mineração de dados ao tradicional pacote utilizado em

Tarefas de Data Mining

Visualização de Dados: Starview

Visualização de Dados: Data Image

50 100 150 200 250

As características de um conjunto de dados experimentais podem ser dispostas graficamente na

Caracterização e Pre-processamento: Gráficos de distribuição

Grafico de Distribuiçao Normal

Caracterização e Pre-processamento: Análise de Correlação

Se as variáveis X e Y não são independentes, a correlação entre estas variáveis é calculada

Variáveis independentes Variáveis correlacionadas

Considere uma amostra de variáveis multidimensional X = [ X 1,K, X n ] com os registros

onde as colunas da matriz P , de dimensão n × n , são os componentes principais de X . O

Análise de Componentes Principais

A Análise de Componentes Principais é apresentada é representada abaixo para um conjunto

O objetivo da Classificação Supervisionada é o desenvolvimento de um modelo, chamado

Conjunto de Treinamento Conjunto de Teste

Num problema de classificação ou reconhecimento de padrões, as soluções possíveis são

classe correta de um conjunto de observações, representadas pelo vetor de atributos

Classificação Supervisionada: Análise de Discriminante

O objetivo da Análise de Discriminante Linear (ADL) é calcular as superfícies de decisão

Conjunto de Terinamento Discriminante Linear

• Um nó folha corresponde a uma classe ou

Sol Nublado Chuva

Umidade SIM Vento

≤ 78 > 78 Fraco Forte

SIM NÃO SIM NÃO

senão se Umidade > 78

1. O conjunto T contém um ou mais exemplos, todos pertencentes à classe ω j . Neste caso a

AD é um nó folha identificando a classe ω j

O particionamento é feito escolhendo-se um atributo xi , cujos valores possíveis são

subconjunto T j é o resultado do particionamento de T com xi = Aij

3. Para cada subconjunto T j ≠ ∅ , execute recurcivamente o algoritmo

4. Após a construção da AD realizar a poda para melhorar sua capacidade de generalização.

Cada teste realizado em um nó decisão particiona o espaço em um hiperplano orthogonal ao eixo

Os algoritmos de construção de AD vão

Softwares para Árvore de Decisão

Iris Setosa Iris Versicolor Iris Virginica

Estudo de Caso: A Base Iris

O Software Weka: (http://www.cs.waikato.ac.nz/ml/weka/)

O objetivo da Classificação Não – Supervisionada, ou Análise de Agrupamentos é o

Neste capítulo serão abordados apenas os métodos de particionamento, cujo objetivo é

coluna w i ∈ X p define as coordenadas do centro do agrupamento representativo da classe

Os métodos de particionamento visam a otimização de um critério de custo definido em função da

onde d (x(t ), w i ) é, geralmente, a distância Euclideana, embora outras métricas de distância

Text & Web Mining

modelos de comportamento (ou de entrada/saída) nos quais as relações que descrevem o

modelos estocásticos nos quais o comportamento do sistema depende de fenômenos aleatórios

modelos não-lineares nos quais as relações presentes no modelo são não-lineares.

Escolha do tipo de modelo,

Escolha de uma parametrização do modelo (a partir da definição do tipo e do