Apresentao do Curso
Apresentao de algoritmos e tcnicas de Machine Learning e
Anlise Preditiva, com nfase na sua aplicao ao ambiente de
negcios.
Apresentao de conceitos, aplicao dos conceitos a casos
simples, aplicao de conceitos a casos reais.
Do conceito aplicao, sem desenvolvimento matemtico
(ou o mnimo possvel!) modelo caixa preta ...
... porm com nfase em como usar e ajustar os modelos e em
como interpretrar os resultados e no em como por dentro.
nfase na avaliao do desempenho.
Dever de casa entre os encontros.
Avaliao: os deveres de casa.
Machine Learning
Conjunto de algoritmos e
programas que tm a
capacidade de aprender, de
forma automtica, a partir de
exemplos (dados).
Data Mining
Conjunto de tcnicas e
programas, geralmente oriundos
de Machine Learning, cujo
objetivo descobrir relaes
e/ou padres em conjuntos de
dados. Em geral, aplicadas a
negcios.
Cloud (nuvem)
Infraestrutura remota utilizada
para armazenamento e/ou
processamento de dados (cloud
computing).
Processamento Distribudo
Infraestrutura fsica (hardware) e
lgica (software) de
processamento concorrente. Em
geral, possuem mecanismos de
redundncia da informao e de
tolerncia a falhas.
Atributos (entrada)
Nome
Luis Jnior
Thiago Grecco Romano
Paulo Sergio Azevedo Rocha
Luis Cavalcante Filho
Vilma Lopes
Emilia Mendes
Thiago Antnio Oliveira
Aricelia Carmona Gomes
Sueli Xavier Pretel
Monica Leme do Amaral
Isis de Araujo Correa
Marcia Valiceli
Neusa Maria Pampolini
Farlei Miranda dos Santos
Lara Ferreira
Sonia Maria Ferreira
Vernica Marques
Elizabeth Cristina Mendes
Vernica Oliveira
Sexo
M
M
M
M
F
F
M
F
F
F
F
F
F
M
F
F
F
F
F
Idade
39
54
45
59
54
53
64
64
66
59
59
63
60
53
58
52
65
57
49
E. Civil
Solteiro
Casado
Casado
Divorciado
Casado
Divorciado
Solteiro
Solteiro
Solteiro
Casado
Solteiro
Divorciado
Solteiro
Casado
Divorciado
Divorciado
Vivo
Casado
Vivo
Renda
> 20
> 20
> 15
> 20
> 15
> 30
> 20
> 15
> 10
> 20
> 10
> 15
> 30
> 20
> 15
> 20
> 15
> 20
> 20
Diabetes D. Cardaca
S
S
N
S
N
N
N
N
N
N
S
N
S
S
N
N
N
N
N
N
N
N
N
N
N
S
S
N
N
N
N
N
S
N
N
N
N
N
Idade Pai
57
Idade Me
68
76
68
83
74
81
64
71
66
75
Sinistro
N
S
N
N
N
N
S
N
S
N
N
N
N
N
N
N
S
N
N
Cerveja
Salgado
Iogurte
Luis Jnior
Thiago Grecco Romano
Paulo Sergio Azevedo Rocha
Luis Cavalcante Filho
Vilma Lopes
Emilia Mendes
Thiago Antnio Oliveira
Aricelia Carmona Gomes
Sueli Xavier Pretel
Monica Leme do Amaral
Isis de Araujo Correa
Marcia Valiceli
Neusa Maria Pampolini
Farlei Miranda dos Santos
Lara Ferreira
Sonia Maria Ferreira
Vernica Marques
Elizabeth Cristina Mendes
Vernica Oliveira
S
S
S
S
N
N
N
N
N
S
N
N
N
N
N
N
S
N
S
S
N
S
S
S
S
N
N
S
S
S
S
N
N
N
S
S
S
S
N
N
N
N
N
S
N
N
N
N
S
N
N
N
S
S
S
N
N
Comida
Congelada
S
S
S
S
N
N
N
S
N
S
N
N
N
N
N
S
N
N
N
Refri
Carne
Frango
Arroz
Feijo
S
S
S
S
S
S
N
N
N
N
N
N
N
N
N
N
N
S
S
S
N
N
N
N
N
S
S
S
S
N
N
N
N
N
N
N
S
S
S
S
S
S
N
N
N
N
N
N
N
S
S
S
S
N
S
N
S
N
N
S
S
S
S
N
N
N
S
S
S
S
S
S
N
N
N
N
S
S
S
S
N
N
N
N
N
S
S
S
S
S
N
S
N
N
S
Regresso /
Previso
Prever o valor de uma
varivel (geralmente
numrica).
Ex.: previso de
vendas.
Associao e
Correlao
Agrupamento
(clustering)
Identificar grupos
homogneos.
Ex.: segmentao de
clientes.
Determinar se h
correlao entre dois
ou mais atributos.
Ex.: market basket
analysis (anlise da
cesta de compras).
x?
V
1
Classe 1
Classe 2
Classe 3
V
2
V
3
V
4
V
5
V
6
V
7
Inteiras
Reais
Binrias
Categricos
So atributos que representam
caractersticas ou categorias.
No faz sentido aplicar
operaes matemticas.
Ordinais
a soma ponderada (pesos) dos atributos. S pode ser utilizado quando todos os
atributos so numricos. Podem ser utilizados em anlises preditivas (projees)
e em classificao.
rvores de
Deciso
Regras de
Classificao
Regras de
Associao
Agrupamentos
(clusters)
Algoritmos de Classificao
Aspecto
Temperatura
Humidade
Vento?
Jogo?
Ensolarado
Ensolarado
Nublado
Chuvoso
Chuvoso
Chuvoso
Nublado
Ensolarado
Ensolarado
Chuvoso
Ensolarado
Nublado
Nublado
Chuvoso
Calor
Calor
Calor
Amena
Frio
Frio
Frio
Amena
Frio
Amena
Amena
Amena
Calor
Amena
Alta
Alta
Alta
Alta
Normal
Normal
Normal
Alta
Normal
Normal
Normal
Alta
Normal
Alta
No
Sim
No
No
No
Sim
Sim
No
No
No
Sim
Sim
No
Sim
No
No
Sim
Sim
Sim
No
Sim
No
Sim
Sim
Sim
Sim
Sim
No
Atributo
Aspecto
Temperatura
Humidade
Vento?
Valor
Classe
Jogo?
Sim
No
Ensolarado
2/5
3/5
Nublado
4/4
0/4
Chuvoso
3/5
2/5
Calor
2/4
2/4
Amena
4/6
2/6
Frio
3/4
1/4
Alta
3/7
4/7
Normal
6/7
1/7
No
6/8
2/8
Sim
3/6
3/6
Aspecto
Temperatura
Humidade
Vento?
Regra: Aspecto =
Valor
Classe
Jogo?
Sim
No
Ensolarado
2/5
3/5
Nublado
4/4
0/4
Chuvoso
3/5
2/5
Calor
2/4
2/4
Amena
4/6
2/6
Frio
3/4
1/4
Alta
3/7
4/7
Normal
6/7
1/7
No
6/8
2/8
Sim
3/6
3/6
Ensolarado No
Nublado Sim
Chuvoso Sim
Taxa de
Erro
4/14
5/14
4/14
5/14
Ensolarado
I = 0,693
I = 0,911
I = 0,788
I = 0,892
Aspecto
Temp.
Humid.
Vento?
Nublado
sim
sim
no
no
no
I = 0,971
Chuvoso
sim
sim
sim
sim
I = 0,0
sim
sim
sim
no
no
I = 0,971
Quente
sim
sim
no
no
Ameno
sim
sim
sim
sim
no
no
Frio
sim
sim
sim
no
Alta
sim
sim
sim
no
no
no
no
Normal
No
sim
sim
sim
sim
sim
sim
no
sim
sim
sim
sim
sim
sim
no
no
Folhas mais puras: mais fcil discriminar a classe de uma nova instncia.
Pureza mxima: folhas com apenas uma classe.
Melhores atributos: em mdia, folhas mais puras.
Medida de pureza: informao.
Melhor atributo: maior ganho de informao.
Sim
sim
sim
sim
no
no
no
Ensolarado
Ensolarado
no
no
Ameno
sim
no
Ensolarado
Humid.
Temp.
Quente
Aspecto
Aspecto
Aspecto
Frio
sim
Alta
no
no
no
Vento?
Normal
No
sim
sim
sim
no
no
Sim
sim
no
Aspecto
Ensolarado
Ensolarado
Nublado
sim
Vento?
Humid.
Alta
no
Normal
No
sim
sim
Sim
no
Total
Positivo
442
3.050
3.491
Negativo
28
6.480
6.509
470
9.530
10.000
Sesibilidade: 94%
Teste
Especificidade: 68%
Total
Prevalncia: 4,7%
Probabilidade a priori
Antes do conhecimento de
qualquer evidncia.
P(H | E1, E2, E3, ...) = P(E1 | H) x P(E1 | H) x P(E2 | H) x P(E3 | H) x ... x P(H)
P(E1) x P(E1) x P(E1) x ...
Temperatura
Sim
No
Ensolarado
Nublado
Chuvoso
Humidade
Sim
No
Quente
Ameno
Frio
Ensolarado
2/9
3/5
Quente
2/9
2/5
Nublado
4/9
0/5
Ameno
4/9
2/5
Chuvoso
3/9
2/5
Frio
3/9
1/5
Vento
Sim
No
Alta
Normal
Alta
Normal
Jogo?
Sim
No
Sim
No
No
Sim
3/9
4/5
No
6/9
2/5
6/9
1/5
Sim
3/9
3/5
9/14 5/14
Nova instncia: Aspecto = ensolarado, Temperatura = frio, Humidade = alta, Vento = sim
Jogo = ?
Nova instncia: Aspecto = nublado, Temperatura = ameno, Humidade = baixa, Vento = no
Jogo = ?
O Weka
Weikato Environment for Knowledge Analysis.
IDE (ambiente integrado de desenvolvimento) para
implementao e anlise de algoritmos e tcnicas de machine
learning e de data mining.
Fcil de usar e bastante intuitivo.
Permite a parametrizao dos algoritmos.
gratuito para aplicaes no comerciais.
Permite expor a sua hierarquia de objetos (pode ser controlado
externamente).
Informaes do
atributo selecionado
Seleo do dataset
Informaes do
dataset
Relao de atributos
Seleo de classe
Histograma do atributo
selecionado
Seleo do algoritmo
de classificao
Opes de
processamento
Classe selecionada
Relao dos
classificadores
executados
Relatrio de sada da
execuo selecionada
14
0
100
0
%
%
1
0
0
0%
0%
14
b <-- classified as
0 | a = Sim
5 | b = No