Anda di halaman 1dari 66

Enriquecimento

Semântico de
Dicionários
Edson Barboza de Lima
Toponímicos
Clodoveu A. Davis Usando Textos em
Júnior
Linguagem Natural
Introdução
Qual dos conjuntos de
documentos contém mais
propriedades sobre lugares?
▸ Como aproveitar o
conteúdo de textos e
documentos?
▸ Ampliar a informação
Problema semântica em bases de
dados ligados
▸ Avaliar os documentos
contendo nomes de lugares
▹ Relacionamentos extraídos
dos textos
Problema
▸ Analisar a correspondência de
relacionamento em documentos com a
base de dados ligados Linked
OntoGazetteer (LoG)
Objetivos

▸ Classificar documentos a partir de


características geográficas
Banco de Dados
Geográfico
Entrada Saída

Keyword

Localização
geográfica
▸ Identificar entidades no texto e os
relacionamentos semânticos entre
elas
▸ Extrair relacionamento entre essas
Tarefas
entidades nos textos através de
Processamento de Linguagem Natural
Entidades
PESSOA LOCAL

Barack Obama was born in Honolulu


Rótulos em
entidades
▸ Reconhecer entidades
através de características
encontradas em texto
Reconhecimento
de entidades
▸ Parâmetros são obtidos
nomeadas usando partes de fala (Part of
Speech)
VBZ

Is Elvis alive?
Exemplos
(funções de
características) ADJ NOUN

Alice is an excellent manager


Minerando o Twitter:
O que as pessoas no Twitter queriam para o Natal e o que receberam

Fonte: https://twitter.com/echen/status/153683967315419136
Minerando o Twitter:
O que as pessoas no Twitter queriam DE PRESENTE para o Natal?

Fonte: https://twitter.com/echen/status/153683967315419136
Reconhecimento de entidades nomeadas

Named Entity
Sentence
Tokenization
Recognition
Word
Tokenization
Part of Speech Chunks

NER
Reconhecimento de entidades nomeadas

Named
Entity
Recognition
Sentence Word
Part of Speech Chunks
Tokenization Tokenization

NER
Reconhecimento de entidades nomeadas

Named
Entity
Recognition
Sentence Word
Part of Speech Chunks
Tokenization Tokenization

NER
Reconhecimento de entidades nomeadas

Named
Entity
Recognition
Sentence Word
Part of Speech Chunks
Tokenization Tokenization

NER
Reconhecimento de entidades nomeadas

Named
Entity
Recognition
Sentence Word
Part of Speech Chunks
Tokenization Tokenization

NER
Tokenization

Sentence Splitting
Stanford Texto
Part-of-speech
CoreNLP Tagging
puro
Fluxo de Execução
Morphological
Analysis
Annotation
Named Entity Object
Recognition

Syntactic Parsing
Texto
Coreference Anotado
Resolution

Other Annotators
LOCATION LOCATION

New York City is also a city in the United States


▸ Open Information
Extraction (CoreNLP)
Extração de
▸ Inferência em lógica
relacionamentos natural
▸ Simplificar a
representação de
relacionamentos
(triplas)
verb trans
suj nom
mod adj

she was Born in a small town


Exemplo (cláusula extraída)
Tripla: (sujeito, predicado, objeto)

she be Born in small town


she be Born in a town
she be Born in town

(she; be born in; small town)


(she; be born in; town)
▸ Dados
diversificados ou
informação
relevante?
Conteúdo ▸ Como ampliar a
relevante qualidade dos
relacionamentos
em Linked Data?
Trabalhos
Relacionados
Estado da arte
2001 2012 2016
Bases de Conhecimento de Hoje

J. Hoffart et. al.


2018
Bases de Conhecimento de Hoje

J. Hoffart et. al.


2018
▸ Gazetteer
▸ Modelagem em grafo
▸ Relacionamentos entre entidades lugar e
não-lugar
▸ Fontes de dados abertos (diversificados)
Linked ▸ Linked Data
OntoGazetteer
(LoG)
LoG
(esquema)
RELOG (Relationship Extraction for LoG)

LoG
Modelagem
Como foi planejada a extração de
relacionamentos?
Arg1 relationship Arg2
Modelagem

Relacionamento

<s, p, o> | s = sujeito, p = predicado, o = objeto

arg1 = s, relationship = p, arg2 = o


Esquema do
banco de
dados
LOCATION LOCATION

New York City is also a city in the United States

sujeito (arg1) predicado objeto (arg2)


ORGANIZATION LOCATION
Extração de
relacionamentos
(tipos)

LOCATION LOCATION

PERSON LOCATION
Lugar 1

LoG
Classes de
características
Lugar 2
LoG access

Lugar n

Conjunto
de Triplas

Entidade Entidade Nome de Lugar


ID Classe de Característica Descrição

1 A Administrative Boundary

2 P Populated Place

3 L Area
Classes e 4 H Hydrographic
subclasses de
características
do GeoNames ID Código de Característica Descrição

1 ADM1 First Adm. Division

2 ADM2 Second Adm. Division

3 PPL Populated Place Code

4 PPLA Seat of First Adm. Code


Correspondência
com o LoG
Experimentos
Como foi feita a coleta de dados?
▸ Requisições Web para obter
conjuntos de documentos da
Wikipédia
Extração de ▸ Documentos formatados com
conteúdo
por
apenas os parágrafos dos artigos
documentos
Conjunto de Documentos Documentos
documentos recuperados processados
Extração de
documentos Lista de cidades dos 399 399
EUA (URLs)

Lista de artigos 267 110


sobre redes sociais

Lista de artigos 32 32
sobre Chat websites
Extração
Extração
(71,72%)

(61,72%)
(25,54%)
Resultados
Triplas selecionadas de forma aleatória para
cada conjunto de documento
1009 triplas
Cidades dos
EUA (Docs)
Redes
Sociais
Chat
Websites
Cidades dos EUA
Chat Websites

Redes Sociais
Correspondência de triplas com o LoG

Correspondência com o
LoG
Correspondência de triplas com o LoG (locais)

Results -
LoG
Matching
▸ Grande número de
relacionamentos em textos a
enriquecer o LoG
Conclusões
▸ Textos não estruturados
podem ser explorados na
extração de relacionamentos
▸ Alguns conjuntos de
documentos contém mais
informações sobre lugares
▸ Realizar associação entre
documento e conjunto de lugares
(indexação em buscas)
Trabalhos ▸ Utilizar a desambiguação para
futuros
nomes de lugares
▸ Ampliar o enriquecimento
semântico em linked data (LoG)
▸ Lima, E. B. & Davis, C. A. (2017). Geographic Information
Extraction Using NLP in Wikipedia Texts. Em XVIII
Brazilian Symposium on Geoinformatics, Salvador-BA,
Brazil.

Publicação
Obrigado!
edbdelima@gmail.com & edson@dcc.ufmg.br
Open source code: www.github.com/ebl4/RELOG

Anda mungkin juga menyukai