Named entity recognition on the Web
Carregando...
Data
Autor(es)
Título da Revista
ISSN da Revista
Título de Volume
Editor
Universidade Federal de Minas Gerais
Descrição
Tipo
Dissertação de mestrado
Título alternativo
Reconhecimento de entidades nomeadas na Web
Primeiro orientador
Membros da banca
Adriano Alonso Veloso
Renato Martins Assunção
Renato Martins Assunção
Resumo
Web Data Extraction methods often rely on hand-coded rules to identify and extract
data from webpages. These methods are suited for extracting information from pages
within the same website, however they perform poorly on extraction tasks across dif-
ferent websites. Alternatively, statistical and machine-learning-based Named Entity
Recognition (NER) methods provide a more flexible approach to Web Data Extraction.
This is important, because sentences in HTML pages are often too short to provide
adequate context for conventional NER methods to work properly. Nonetheless, the
HTML structure also encodes useful information that can be used by NER models to
achieve a better performance. We propose two methods to use this information: the
self-training strategy for Hidden Markov Models and the hard attention mechanism
for Bi-LSTM-CRFs, a type of neural network. Also, in this dissertation we evaluate
the performance of different methods of NER in the task of Web Data Extraction. In
particular, we introduce a novel dataset consisting of faculty listings from university
webpages across the world in multiple languages and test different NER models in the
task of extracting researcher names from these listings. We found that a neural network
architecture that combines a bidirectional LSTM with a Conditional Random Fields
output layer, LSTM-based character representations and a Hard Attention mechanism
for HTML features outperforms other methods achieving 90.7 F1-score in the task.
But, with the aid of clever strategies such as self-training, we can get a much simpler
model, the second-order Hidden Markov Model, to achieve a 87.9 F1-score.
Abstract
Métodos tradicionais de extração de informação na web normalmente utilizam regras
rígidas para extrair dados relevantes de páginas da internet. Estes métodos são ade-
quados para resolver tarefas de extração dentro de um mesmo website, mas eles são
bem menos eficientes quando a tarefa compreende um conjunto heterogêneo de web-
sites. Por outro lado, modelos de Reconhecimento de Entidades Nomeadas (NER)
baseados em aprendizado de máquina oferecem uma alternativa mais flexível para re-
solver o problema. No entanto, na maior parte das vezes, páginas HTML tem uma
organização substancialmente diferente do texto em prosa, porque as frases são muito
curtas, o que piora o desempenho dos modelos tradicionais de NER. Em contrapartida,
a estrutura do HTML contém informação valiosa que pode ser utilizada para melhorar
o desempenho dos modelos de NER. Nós propomos duas formas de utilizar esta infor-
mação: a estratégia de auto-treinamento para Hidden Markov Models e o mecanismo
de atenção para a Bi-LSTM-CRF, um tipo de rede neural. Além disso, nesta disser-
tação, nós avaliamos o desempenho de diversos métodos de NER na tarefa de extração
de informação na web. Em particular, introduzimos um dataset novo que consiste em
páginas de departamentos de pesquisa extraídas dos sites de múltiplas universidades
ao redor do mundo e testamos os modelos de NER na tarefa de extração de nomes
de pesquisadores. Uma arquitetura de redes neurais que combina uma Bi-LSTM-CRF
com representações de caracteres baseadas em LSTMs e o mecanismo rígido de atenção
tem um desempenho superior aos demais métodos, alcançando um F1 de 90,2 na tarefa.
Contudo, por meio da aplicação de estratégias como o auto-treinamento, conseguimos
obter um modelo muito mais simples, o Hidden Markov Model de segunda ordem, que
alcança um F1 de 87,9 na mesma tarefa.
Assunto
Recuperação da informação, Aprendizado do computador, Resolução de entidades, Sites da Web
Palavras-chave
Named entity recognition, Web data extraction, Researcher name extraction
Citação
Departamento
Endereço externo
Avaliação
Revisão
Suplementado Por
Referenciado Por
Licença Creative Commons
Exceto quando indicado de outra forma, a licença deste item é descrita como Acesso Aberto
