Anda di halaman 1dari 17

Análise Inteligente de Dados

2. Dados de Entrada

Preparação para o processo de AID

 O que constitui os dados de entrada:


 Conceitos: tipos de coisas que podem ser aprendidas
 Objectivo: uma descrição inteligível e operacional do
conceito
 Instâncias: exemplos independentes e individuais do
conceito
 Nota: são possíveis formas mais complexas de dados de
entrada
 Atributos: aspectos mesuráveis de uma instância
 Vamos concentra-nos nos atributos numéricos e nominais
 Um aspecto prático
 Torna-se necessário definir um formato adequado para
o ficheiro que deverá conter os dados de entrada

Análise Inteligente de Dados

1
O que é um conceito?

 Estilos de aprendizagem:
 Aprendizagem de classificações: predição de
uma classe discreta
 Aprendizagem de associações: detecção de
associações entre características
 Agrupamento: consiste no agrupamento de
instâncias semelhantes
 Conceito: aquilo que queremos aprender
 Descrição do conceito: deve resultar do
método de aprendizagem

Análise Inteligente de Dados

Aprendizagem de classificações

 Exemplos de problemas: dados atmosféricos,


lentes de contacto, iris, negociações laborais...
 A aprendizagem de classificações é uma forma
de aprendizagem supervisionada
 Cada instância é já fornecida com uma apreciação
 Esta apreciação é chamada
 a classe do exemplo (ou instância)
 O sucesso do processo de aprendizagem pode
ser medido facilmente
 Utiliza-se um novo conjunto de exemplos com
classificação conhecida

Análise Inteligente de Dados

2
Aprendizagem de associações

 Pode ser aplicado se não for especificada


nenhuma classe e qualquer estrutura for
considerada interessante
 Diferenças em relação à aprendizagem de
classificações:
 Pode predizer o valor de qualquer atributo, não apenas
a classe, e mesmo vários atributos simultaneamente
 Logo vamos ter muitas mais regras de associação do
que de classificação
 Assim torna-se necessário impor restrições
 Cobertura mínima
 Precisão mínima

Análise Inteligente de Dados

Agrupamento

 Consiste em encontrar grupos de itens


similares
 A aprendizagem por agrupamento é não
supervisionada
 A classe do exemplo é desconhecida
 O sucesso da aprendizagem por
agrupamento é frequentemente medido
de forma subjectiva
 Exemplo: problema das íris não sendo
fornecida a classe:
Análise Inteligente de Dados

3
Agrupamento

 Exemplo:
 problema das íris não sendo fornecida a
classe:

Análise Inteligente de Dados

Predição numérica

 Semelhante à aprendizagem de
classificações mas a “classe” é numérica
 Forma de aprendizagem supervisionada
 A cada exemplo é associado um valor alvo
 O sucesso da aprendizagem é medido
utilizando exemplos de teste…
 ou subjectivamente se o conceito for
inteligível

Análise Inteligente de Dados

4
Predição numérica

 Exemplo:
 dados atmosféricos com modificações

Análise Inteligente de Dados

O que é um exemplo?

 Instância: tipo específico de exemplo


 Aquilo que pretendemos classificar, associar ou
agrupar
 Exemplo individual e independente do conceito alvo
 Entradas para o processo de aprendizagem
 Conjunto de instâncias
 Representado como uma relação única num ficheiro
plano
 Constitui um forma de dados de entrada um
tanto limitada
 Não permite relações entre objectos
 Constitui, no entanto, a forma mais comum de entrada
em aplicações práticas de AID
Análise Inteligente de Dados

5
Uma árvore genealógica

Análise Inteligente de Dados

A árvore sob a forma de tabela

Análise Inteligente de Dados

6
A relação “irmã de…“

Análise Inteligente de Dados

A mesma relação numa única tabela

Análise Inteligente de Dados

7
Geração de um ficheiro plano

 Processo de “achatamento” chamado


desnormalização
 Várias relações são juntas de maneira formar uma
única
 Possível com qualquer conjunto finito de relações
finitas
 Problema: relações sem número fixo de
elementos
 A desnormalização pode produzir regularidades
espúrias que reflectem a estrutura da base de
dados
 Exemplo: “fornecedor” permite predizer “morada do
fornecedor”
Análise Inteligente de Dados

A relação “antepassado de”

Análise Inteligente de Dados

8
Recursividade

 Técnicas apropriadas: programação


lógica inductiva
 Exemplo: FOIL (Quinlan)
 Problemas
 Ruído
 Complexidade computacional

Análise Inteligente de Dados

O que é um atributo?

 Cada instância é descrita por um número


fixo de características: os seus atributos
 Na prática o número de atributos pode
variar
 Possível solução: flag de “valor irrelevante”
 Problema relacionado:
 A existência de um atributo pode depender do
valor de outro atributo
 Tipos de atributos possíveis (“níveis de
medição”)
 Nominal, Ordinal, Intervalo, Ratio

Análise Inteligente de Dados

9
Quantidades nominais

 Os valores possíveis são símbolos


distintos
 Os valores propriamente ditos servem apenas
como etiquetas ou nomes
 Exemplo: o atributo “outlook” dos dados
meteorológicos
 Valores: “sunny”, “overcast”, “rainy”
 Não existe nenhuma relação implícita
entre valores nominais
 Não é possível ordenar nem medir a distância
 Apenas são possíveis testes de igualdade

Análise Inteligente de Dados

Quantidades ordinais

 É imposta uma ordem aos valores


 Continua a não haver distância definida entre
eles
 Exemplo: atributo “temperature” dos
dados meteorológicos
 Valores: “hot” > “mild” > “cool”
 Operações como adição e subtracção não
fazem sentido
 Exemplo de regra:
 temperature < hot => play = yes

Análise Inteligente de Dados

10
Ratios

 São as quantidades para as quais o


sistema de medida define um ponto 0
 Exemplo: atributo “distância”
 A distância entre um objecto e ele próprio é 0
 Os ratios são tratados como números
reais
 Todas as operações matemáticas são
permitidas

Análise Inteligente de Dados

Tipos de atributo utilizados na prática

 A generalidade dos esquemas acomodam


apenas dois níveis de medição: nominal e
ordinal
 Os atributos nominais são também
chamados
 categóricos, enumerados ou discretos
 Estes dois últimos implicam ordem
 Caso especial: dicotomia (atributo
booleano)
 Os atributos ordinais são também
chamados numéricos
Análise Inteligente de Dados

11
Metadados

 Informação sobre os dados que codifica


conhecimento sobre o contexto
 Pode ser utilizada para restringir o
espaço de procura
 Exemplos:
 Considerações dimensionais (i.e. as
expressões devem ser dimensionalmente
correctas)
 Ordenamentos circulares (e.g. graus num
compasso)
 Ordenamentos parciais (e.g. relações de
generalização/especialização)
Análise Inteligente de Dados

Preparação dos dados de entrada

 A desnormalização não é o único aspecto


relevante
 Problema: diferentes origens dos dados
 Por exemplo: departamento de vendas,
contabilidade...
 Diferenças: estilo dos registros, convenções,
períodos de tempo, agregação dos dados,
chaves primárias, tipos de erro
 Torna-se necessário agrupar, integrar e
limpar os dados
 “Data Warehouse”: ponto de acesso
consistente

Análise Inteligente de Dados

12
Formato ARFF

Análise Inteligente de Dados

Tipos de atributo no formato ARFF

 O formato ARFF suporta atributos


numéricos e nominais
 A interpretação depende do esquema de
aprendizagem
 Os atributos numéricos são interpretados
como
 Escalas ordinais se as relações menor e maior
forem utilizadas
 Ratios se forem executadas computações de
distâncias
 Esquemas baseados em instâncias podem
definir distâncias entre valores nominais
Análise Inteligente de Dados

13
Nominal vs. ordinal

 Atributo “age” nominal

 Atributo “age” ordinal


 E.g. “young” < “pre-presbyopic” <
“presbyopic

Análise Inteligente de Dados

Valores em falta

 Indicados frequentemente por entradas fora do


domínio do atributo
 Tipos: desconhecido, não guardado, irrelevante
 Razões: Equipamento defeituosos, alterações num
projecto experimental, medição impossível, agregação
de várias bases de dados
 A falta do atributo pode ter valor em si mesma
 E.g. teste que falta num exame médico
 A generalidade dos esquemas de aprendizagem
assume que este não é o caso
 Pode ser necessário codificar “desconhecido” como um
valor adicional

Análise Inteligente de Dados

14
Valores incorrectos

 Razão:
 Os dados não foram recolhidos a pensar em
AID
 Resultado
 Erros e omissões que não afectam o propósito
original dos dados
 E.g., a idade de um cliente
 Erros tipográficos em atributos nominais
 A consistência dos valores deve ser verificada

Análise Inteligente de Dados

Valores incorrectos

 Erros tipográficos e de medida em


atributos numéricos
 Necessário identificar valores fora dos limites
 Os erros podem ser propositados
 E.g., moradas erradas
 Outros problemas
 Dados duplicados
 Dados estagnados

Análise Inteligente de Dados

15
Conhecer os dados

 A simples visualização pode permitir a


identificação de problemas
 Atributos nominais: histogramas
 A distribuição é consistente com o conhecimento
existente sobre o contexto?
 Atributos numéricos: gráficos
 Existem valores significativamente fora dos limites?
 Exemplos
 9999 na codificação dum ano em falta
 -1 kg na falta do peso
 Visualizações em 2D e 3D podem ser utilizadas
para mostrar dependências entre os dados

Análise Inteligente de Dados

Conhecer os dados

 Peritos no domínio devem ser consultados para


explicar
 anomalias,
 valores em falta,
 o significado de inteiros que representam categorias,
etc
 A análise gráfica entre dois atributos ou entre
um atributo e o valor da classe pode ser muito
reveladora
 E o conjunto de dados for demasiado grande
para visualizar na sua totalidade?
 Recolha de uma amostra!
 Técnicas de amostragem...

Análise Inteligente de Dados

16
Limpeza de dados

 A limpeza dos dados é um processo que


 consome muito tempo,
 é intensivo em termos de trabalho,
 é essencial para uma análise inteligente
de dados com sucesso

Análise Inteligente de Dados

17

Anda mungkin juga menyukai