Named entity recognition on the Web

dc.creatorJoao Mateus de Freitas Veneroso
dc.date.accessioned2020-01-07T18:06:03Z
dc.date.accessioned2025-09-09T00:52:24Z
dc.date.available2020-01-07T18:06:03Z
dc.date.issued2019-08-09
dc.description.abstractMétodos tradicionais de extração de informação na web normalmente utilizam regras rígidas para extrair dados relevantes de páginas da internet. Estes métodos são ade- quados para resolver tarefas de extração dentro de um mesmo website, mas eles são bem menos eficientes quando a tarefa compreende um conjunto heterogêneo de web- sites. Por outro lado, modelos de Reconhecimento de Entidades Nomeadas (NER) baseados em aprendizado de máquina oferecem uma alternativa mais flexível para re- solver o problema. No entanto, na maior parte das vezes, páginas HTML tem uma organização substancialmente diferente do texto em prosa, porque as frases são muito curtas, o que piora o desempenho dos modelos tradicionais de NER. Em contrapartida, a estrutura do HTML contém informação valiosa que pode ser utilizada para melhorar o desempenho dos modelos de NER. Nós propomos duas formas de utilizar esta infor- mação: a estratégia de auto-treinamento para Hidden Markov Models e o mecanismo de atenção para a Bi-LSTM-CRF, um tipo de rede neural. Além disso, nesta disser- tação, nós avaliamos o desempenho de diversos métodos de NER na tarefa de extração de informação na web. Em particular, introduzimos um dataset novo que consiste em páginas de departamentos de pesquisa extraídas dos sites de múltiplas universidades ao redor do mundo e testamos os modelos de NER na tarefa de extração de nomes de pesquisadores. Uma arquitetura de redes neurais que combina uma Bi-LSTM-CRF com representações de caracteres baseadas em LSTMs e o mecanismo rígido de atenção tem um desempenho superior aos demais métodos, alcançando um F1 de 90,2 na tarefa. Contudo, por meio da aplicação de estratégias como o auto-treinamento, conseguimos obter um modelo muito mais simples, o Hidden Markov Model de segunda ordem, que alcança um F1 de 87,9 na mesma tarefa.
dc.description.sponsorshipCAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível Superior
dc.identifier.urihttps://hdl.handle.net/1843/31732
dc.languageeng
dc.publisherUniversidade Federal de Minas Gerais
dc.rightsAcesso Aberto
dc.rights.urihttp://creativecommons.org/licenses/by/3.0/pt/
dc.subjectRecuperação da informação
dc.subjectAprendizado do computador
dc.subjectResolução de entidades
dc.subjectSites da Web
dc.subject.otherNamed entity recognition
dc.subject.otherWeb data extraction
dc.subject.otherResearcher name extraction
dc.titleNamed entity recognition on the Web
dc.title.alternativeReconhecimento de entidades nomeadas na Web
dc.typeDissertação de mestrado
local.contributor.advisor1Berthier Ribeiro de Araújo Neto
local.contributor.advisor1Latteshttp://lattes.cnpq.br/5461069167314414
local.contributor.referee1Adriano Alonso Veloso
local.contributor.referee1Renato Martins Assunção
local.creator.Latteshttp://lattes.cnpq.br/6120498964394054
local.description.resumoWeb Data Extraction methods often rely on hand-coded rules to identify and extract data from webpages. These methods are suited for extracting information from pages within the same website, however they perform poorly on extraction tasks across dif- ferent websites. Alternatively, statistical and machine-learning-based Named Entity Recognition (NER) methods provide a more flexible approach to Web Data Extraction. This is important, because sentences in HTML pages are often too short to provide adequate context for conventional NER methods to work properly. Nonetheless, the HTML structure also encodes useful information that can be used by NER models to achieve a better performance. We propose two methods to use this information: the self-training strategy for Hidden Markov Models and the hard attention mechanism for Bi-LSTM-CRFs, a type of neural network. Also, in this dissertation we evaluate the performance of different methods of NER in the task of Web Data Extraction. In particular, we introduce a novel dataset consisting of faculty listings from university webpages across the world in multiple languages and test different NER models in the task of extracting researcher names from these listings. We found that a neural network architecture that combines a bidirectional LSTM with a Conditional Random Fields output layer, LSTM-based character representations and a Hard Attention mechanism for HTML features outperforms other methods achieving 90.7 F1-score in the task. But, with the aid of clever strategies such as self-training, we can get a much simpler model, the second-order Hidden Markov Model, to achieve a 87.9 F1-score.
local.identifier.orcidhttps://orcid.org/0000-0001-5637-6654
local.publisher.countryBrasil
local.publisher.departmentICX - DEPARTAMENTO DE CIÊNCIA DA COMPUTAÇÃO
local.publisher.initialsUFMG
local.publisher.programPrograma de Pós-Graduação em Ciência da Computação

Arquivos

Pacote original

Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
joao_dissertation_final.pdf
Tamanho:
1.17 MB
Formato:
Adobe Portable Document Format

Licença do pacote

Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
license.txt
Tamanho:
2.07 KB
Formato:
Plain Text
Descrição: