Semântico de
Dicionários
Edson Barboza de Lima
Toponímicos
Clodoveu A. Davis Usando Textos em
Júnior
Linguagem Natural
Introdução
Qual dos conjuntos de
documentos contém mais
propriedades sobre lugares?
▸ Como aproveitar o
conteúdo de textos e
documentos?
▸ Ampliar a informação
Problema semântica em bases de
dados ligados
▸ Avaliar os documentos
contendo nomes de lugares
▹ Relacionamentos extraídos
dos textos
Problema
▸ Analisar a correspondência de
relacionamento em documentos com a
base de dados ligados Linked
OntoGazetteer (LoG)
Objetivos
Keyword
Localização
geográfica
▸ Identificar entidades no texto e os
relacionamentos semânticos entre
elas
▸ Extrair relacionamento entre essas
Tarefas
entidades nos textos através de
Processamento de Linguagem Natural
Entidades
PESSOA LOCAL
Is Elvis alive?
Exemplos
(funções de
características) ADJ NOUN
Fonte: https://twitter.com/echen/status/153683967315419136
Minerando o Twitter:
O que as pessoas no Twitter queriam DE PRESENTE para o Natal?
Fonte: https://twitter.com/echen/status/153683967315419136
Reconhecimento de entidades nomeadas
Named Entity
Sentence
Tokenization
Recognition
Word
Tokenization
Part of Speech Chunks
NER
Reconhecimento de entidades nomeadas
Named
Entity
Recognition
Sentence Word
Part of Speech Chunks
Tokenization Tokenization
NER
Reconhecimento de entidades nomeadas
Named
Entity
Recognition
Sentence Word
Part of Speech Chunks
Tokenization Tokenization
NER
Reconhecimento de entidades nomeadas
Named
Entity
Recognition
Sentence Word
Part of Speech Chunks
Tokenization Tokenization
NER
Reconhecimento de entidades nomeadas
Named
Entity
Recognition
Sentence Word
Part of Speech Chunks
Tokenization Tokenization
NER
Tokenization
Sentence Splitting
Stanford Texto
Part-of-speech
CoreNLP Tagging
puro
Fluxo de Execução
Morphological
Analysis
Annotation
Named Entity Object
Recognition
Syntactic Parsing
Texto
Coreference Anotado
Resolution
Other Annotators
LOCATION LOCATION
LoG
Modelagem
Como foi planejada a extração de
relacionamentos?
Arg1 relationship Arg2
Modelagem
Relacionamento
LOCATION LOCATION
PERSON LOCATION
Lugar 1
LoG
Classes de
características
Lugar 2
LoG access
Lugar n
Conjunto
de Triplas
1 A Administrative Boundary
2 P Populated Place
3 L Area
Classes e 4 H Hydrographic
subclasses de
características
do GeoNames ID Código de Característica Descrição
Lista de artigos 32 32
sobre Chat websites
Extração
Extração
(71,72%)
(61,72%)
(25,54%)
Resultados
Triplas selecionadas de forma aleatória para
cada conjunto de documento
1009 triplas
Cidades dos
EUA (Docs)
Redes
Sociais
Chat
Websites
Cidades dos EUA
Chat Websites
Redes Sociais
Correspondência de triplas com o LoG
Correspondência com o
LoG
Correspondência de triplas com o LoG (locais)
Results -
LoG
Matching
▸ Grande número de
relacionamentos em textos a
enriquecer o LoG
Conclusões
▸ Textos não estruturados
podem ser explorados na
extração de relacionamentos
▸ Alguns conjuntos de
documentos contém mais
informações sobre lugares
▸ Realizar associação entre
documento e conjunto de lugares
(indexação em buscas)
Trabalhos ▸ Utilizar a desambiguação para
futuros
nomes de lugares
▸ Ampliar o enriquecimento
semântico em linked data (LoG)
▸ Lima, E. B. & Davis, C. A. (2017). Geographic Information
Extraction Using NLP in Wikipedia Texts. Em XVIII
Brazilian Symposium on Geoinformatics, Salvador-BA,
Brazil.
Publicação
Obrigado!
edbdelima@gmail.com & edson@dcc.ufmg.br
Open source code: www.github.com/ebl4/RELOG