Anda di halaman 1dari 19

FACIT

FEMC

ncia e tecnologia
faculdade de cie
de montes claros

rio trabalho 1
relato
topicos especiais I

Minera
c
ao de dados

Autores:
Renan Phillipe Duarte Ferreira
Wiliam Francisco Rocha

Eng. de Controle e Automa


c
ao

9 de maio de 2016
Montes Claros - MG

Eng. de Controle e Automac


ao

Topicos Especiais

FACIT

FEMC

Sum
ario
1 Introduc
ao
1.1 Pre-tratamento . . . .
1.2 Agrupamento . . . . .
1.3 k-means . . . . . . . .
1.4 k-means ++ . . . . .
1.5 Silhouette . . . . . . .
1.6 ARI . . . . . . . . . .
1.7 Teste de normalizacao
1.8 Teste Mann-Whitney

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

3
3
3
3
4
4
4
4
4

2 Objetivo

3 Desenvolvimento
3.1 Dataset 1 do Adult
3.2 Dataset 2 do Adult
3.3 Dataset 3 do Adult
3.4 Dataset 1 Iris . . .
3.5 Dataset 2 Iris . . .
3.6 Dataset 3 Iris . . .

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

5
5
5
6
6
6
6

4 Resultados e Discuc
oes
4.1 Resultados Dataset 1 Iris . .
4.2 Resultados Dataset 2 Iris . .
4.3 Resultados Dataset 3 Iris . .
4.4 Resultados Dataset 1 Adult
4.5 Resultados Dataset 2 Adult
4.6 Resultados Dataset 3 Adult

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

6
7
9
11
13
15
17

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

5 Conclus
ao

Eng. de Controle e Automac


ao

19

Topicos Especiais

FACIT

FEMC

Introduc
ao

A mineracao de dados combina metodos e ferramentas de aprendizagem de maquina,


estatstica, banco de dados, sistemas especialistas e visualizacao de dados. Algoritmos
de aprendizagem tais como redes neurais ou metodos estatsticos sao capazes de explorar um conjunto de dados, extraindo ou ajudando a evidenciar padroes nestes dados,
o conhecimento gerado pode ser apresentado por ferramentas agrupamento, hipoteses e
comparacao.

1.1

Pr
e-tratamento

Devido `as diversas origens possveis, e comum que os dados nao estejam preparados para que os metodos de Mineracao de Dados sejam aplicados, utilizaremos o pretratamento que e um processo de limpeza dos dados geralmente envolve filtrar, combinar
importante conhecer os dados para que o pre-tratamento
e preencher valores vazios. E
seja eficaz, e preciso categorizar os dados em quantitativos ou qualitativos, antes de se
aplicar os algoritmos de mineracao e necessario explorar, conhecer e preparar os dados.
A classificacao visa identificar a qual classe um determinado registro pertence, a etapa
de limpeza dos dados visa eliminar estes problemas de modo que eles nao influam no
resultado dos algoritmos usados. As tecnicas usadas nesta etapa vao desde a remocao do
registro com problemas, passando pela atribuicao de valores padroes, ate a aplicacao de
tecnicas de agrupamento para auxiliar na descoberta dos melhores valores.
O volume de dados usado na mineracao costuma ser alto. Em alguns casos, este
volume e tao grande que torna o processo de analise dos dados e da propria mineracao
impraticavel. Nestes casos, as tecnicas de reducao de dados podem ser aplicadas para
que a massa de dados original seja convertida em uma massa de dados menor, porem,
sem perder a representatividade dos dados originais. Isto permite que os algoritmos de
mineracao sejam executados com mais eficiencia, mantendo a qualidade do resultado. As
estrategias adotadas nesta etapa sao a selecao de um subconjunto dos atributos ou a
reducao da dimensionalidade.

1.2

Agrupamento

A tarefa de agrupamento visa identificar e aproximar os registros similares. Um agrupamento ou cluster e uma colecao de registros similares entre si, porem diferentes dos
outros registros nos demais agrupamentos. Esta tarefa difere da classificacao, pois nao
necessita que os registros sejam previamente categorizados. Alem disso, ela nao tem a
pretensao de classificar, estimar ou predizer o valor de uma variavel, ela apenas identifica
os grupos de dados similares.

1.3

k-means

O algoritmo K-Means fornece uma classificacao de informacoes de acordo com os


proprios dados. Esta classificacao, como sera vista a seguir, e baseada em analise e
comparacoes entre os valores numericos dos dados. Desta maneira, o algoritmo automaticamente vai fornecer uma classificacao automatica sem a necessidade de nenhuma
Eng. de Controle e Automac
ao

Topicos Especiais

FACIT

FEMC

supervisao humana, ou seja, sem nenhuma pre-classificacao existente. Por causa desta
caracterstica, o K-Means e considerado como um algoritmo de mineracao de dados nao
supervisionado.
Para entender como o algoritmo funciona, vamos imaginar que temos uma tabela com
linhas e colunas que contem os dados a serem classificados. Nesta tabela, cada coluna e
chamada de dimensao e cada linha contem informacoes para cada dimensao, que tambem
sao chamadas de ocorrencias ou pontos. Geralmente, trabalha-se com dados contnuos
neste algoritmo, mas nada impede que dados discretos sejam utilizados, deste que eles
sejam mapeados para valores numericos correspondentes.
Para gerar as classes e classificar as ocorrencias, o algoritmo faz uma comparacao
entre cada valor de cada linha por meio da distancia. Geralmente utiliza-se a distancia
euclidiana para calcular o quao longe uma ocorrencia esta da outra. A maneira de
calcular esta distancia vai depender da quantidade de atributos da tabela fornecida. Apos
o calculo das distancias o algoritmo calcula centroides para cada uma das classes. O valor
de cada centroide e refinado pela media dos valores de cada atributo de cada ocorrencia que
pertence a este centroide. Com isso, o algoritmo gera k centroides e coloca as ocorrencias
da tabela de acordo com sua distancia dos centroides.

1.4

k-means ++

A inicializacao dos centroides e de uma maneira mais rapida do que o kmeans normal,
isso proporciona uma escolha melhor dos clusters iniciais.

1.5

Silhouette

Tem como objetivo analisar a distancia de separacao entre os aglomerados resultantes.


O silhuete exibe uma medida de quao perto cada ponto em um cluster e para pontos nos
clusters vizinhos. Fornece uma maneira de avaliar parametros como n
umero de clusters
que sera comparado.

1.6

ARI

Medida de desempenho para que voce possa analisar um conjunto de dados e fazer a
comparacao entre eles.

1.7

Teste de normaliza
c
ao

Os testes de normalidade sao utilizados para verificar se a distribuicao de probabilidade


associada a um conjunto de dados pode ser aproximada pela distribuicao normal. Com
os resultados obtidos nos testes nos permite fazer afirmacoes sobre um conjunto de dados

1.8

Teste Mann-Whitney

O Teste de Mann-Whitney podemos abordar o caso de variaveis aleatorias qualitativas


ordinais ou quantitativas.O teste tem como objetivo testar se as distribuicoes sao iguais

Eng. de Controle e Automac


ao

Topicos Especiais

FACIT

FEMC

em localizacao, isto e, saber se uma populacao tende a ter valores maiores do que a outra,
ou se elas tem a mesma mediana.
O teste e baseado nos postos dos valores obtidos combinando-se as duas amostras. Isso
e feito ordenando-se esses valores, do menor para o maior, independentemente do fato de
qual populacao cada valor provem.

Objetivo

Avaliar qual o melhor metodo de agrupamento utilizando de ndices de desempenho e


validando com testes estatsticos.

Desenvolvimento

Atraves de analise das bases de dados Adult e Iris foram criados dataset com seus
respectivos atributos.

3.1

Dataset 1 do Adult

O dataset permite uma analise de quem ganha acima de 50k e igual ou menos 50k,
considerando pessoas com idade de 20 a 25: Relacionando ainda a sua classe de trabalho,
formacao e sexo. Nessa base foram tirados alguns valores ausentes do atributo idade.
No primeiro momento selecionou-se na base bruta do adult para essa analise os atributos
acimas citados (idade, classe de trabalho...), selecionando assim apenas dados relevantes
para a analise de interesse. Apos isso se verificou que tinha valores ausente do atributo
idade com smbolo ?, e considerando a pouca ocorrencia dessa ausencia optou-se pela
exclusao dos dados, ja que a ausencia desses dados na base apresenta menor impacto na
qualidade dos dados finais.
Os dados que eram string foram convertidos para valores numericos e apos isso todos os
valores do dataset normalizados para diminuir redundancia e chance dos dados tornaremse inconsistentes.

3.2

Dataset 2 do Adult

No segundo DataSet fizemos uma analise de quem ganhos considerando 50k como
referencia. Considerando apenas a cor negra. Observando atributos como formacao,
ocupacao, raca, sexo e pais de origem. Os demais dados foram excludos, pois eram
irrelevantes para a analise supracitada.
Utilizou-se do atributo numero-formacao, pois ja fornecia um valor numerico facilitando a conversao. Foram retirados da base todos os valore indefinidos (com smbolo
(?) ou vazios), visto que tais dados impactariam negativamente na qualidade. Apos os
dados foram convertido para valores numericos, e visando uma reducao de redundancia e
inconsistencia optou-se por normalizar os dados.

Eng. de Controle e Automac


ao

Topicos Especiais

FACIT

3.3

FEMC

Dataset 3 do Adult

No terceiro dataset fazemos uma analise da base relacionando idade, formacao, raca,
sexo e tempo de trabalho. Considerando apenas o sexo feminino para nosso objeto de
analise.
Para uma maior eficiencia de analise considerando que o impacto final e menor, optouse pela exclusao de dados com valores indefinido(?) e vazios atraves de um filtro nos dados.
Alem disso, para execucao confiavel no software python todas as string presentes foram
convertidas em valores numericos apos normalizado.
Ainda optou-se por usar apenas o intervalo de 25 a 30 anos visto que a analise busca informacoes num perodo especifico onde pode observar uma maior preocupacao de entrada
no mercado de trabalho.

3.4

Dataset 1 Iris

Base Iris original.

3.5

Dataset 2 Iris

Por nao jugarmos necessario o atributo largura da petala, criamos um dataset tal
atributo.

3.6

Dataset 3 Iris

Por nao jugarmos necessario o atributo largura da setala, criamos um dataset tal
atributo.

Resultados e Discu
co
es
Resultados dataset Iris e Adult.

Eng. de Controle e Automac


ao

Topicos Especiais

FACIT

4.1

FEMC

Resultados Dataset 1 Iris

Figura 1: Tabela contendo os valores de SILHOUETTE na coluna 1 e ARI na coluna 2

Eng. de Controle e Automac


ao

Topicos Especiais

FACIT

Eng. de Controle e Automac


ao

FEMC

Topicos Especiais

FACIT

4.2

FEMC

Resultados Dataset 2 Iris

Figura 2: Tabela contendo os valores de SILHOUETTE na coluna 1 e ARI na coluna 2

Eng. de Controle e Automac


ao

Topicos Especiais

FACIT

Eng. de Controle e Automac


ao

FEMC

10

Topicos Especiais

FACIT

4.3

FEMC

Resultados Dataset 3 Iris

Figura 3: Tabela contendo os valores de SILHOUETTE na coluna 1 e ARI na coluna 2

Eng. de Controle e Automac


ao

11

Topicos Especiais

FACIT

Eng. de Controle e Automac


ao

FEMC

12

Topicos Especiais

FACIT

4.4

FEMC

Resultados Dataset 1 Adult

Eng. de Controle e Automac


ao

13

Topicos Especiais

FACIT

Eng. de Controle e Automac


ao

FEMC

14

Topicos Especiais

FACIT

4.5

FEMC

Resultados Dataset 2 Adult

Eng. de Controle e Automac


ao

15

Topicos Especiais

FACIT

Eng. de Controle e Automac


ao

FEMC

16

Topicos Especiais

FACIT

4.6

FEMC

Resultados Dataset 3 Adult

Eng. de Controle e Automac


ao

17

Topicos Especiais

FACIT

Eng. de Controle e Automac


ao

FEMC

18

Topicos Especiais

FACIT

FEMC

Conclus
ao

Na base Iris e Adult nos 3 dataset gerados apos o pre-tratamento foram feitos as
avaliacoes atraves dos indicadores ARI e Silhouete e validacao atraves de teste estatsticos,
no caso teste de normalidade ou de Mann Whithey, comparando as medias dos indicadores
gerados para inferir qual o melhor metodo de agrupamento.
Considerando tais fatores nas bases citadas o melhor metodo constatado foi o kmans++
que satisfez teste de Mann Whithey imputando em um resultado estatisticamente melhor,
ja que a media encontrada nos dois indicadores do Kmeans++ foram maiores.
Considerando tais fatores na base Adult o melhor metodo foi kmeans++, visto que
tambem satisfez teste de Mann Whithey estatisticamente ele e melhor. Exceto na base 2
que observa a ocorrencia do oposto onde o kmeans tem melhor desempenho, considerando
as medias de seus respectivos indicadores.

Eng. de Controle e Automac


ao

19

Topicos Especiais

Anda mungkin juga menyukai