Named entity recognition on the Web

Joao Mateus de Freitas Veneroso

Please use this identifier to cite or link to this item: http://hdl.handle.net/1843/31732

Full metadata record

DC Field	Value	Language
dc.contributor.advisor1	Berthier Ribeiro de Araújo Neto	pt_BR
dc.contributor.advisor1Lattes	http://lattes.cnpq.br/5461069167314414	pt_BR
dc.contributor.referee1	Adriano Alonso Veloso	pt_BR
dc.contributor.referee2	Renato Martins Assunção	pt_BR
dc.creator	Joao Mateus de Freitas Veneroso	pt_BR
dc.creator.Lattes	http://lattes.cnpq.br/6120498964394054	pt_BR
dc.date.accessioned	2020-01-07T18:06:03Z	-
dc.date.available	2020-01-07T18:06:03Z	-
dc.date.issued	2019-08-09	-
dc.identifier.uri	http://hdl.handle.net/1843/31732	-
dc.description.abstract	Métodos tradicionais de extração de informação na web normalmente utilizam regras rígidas para extrair dados relevantes de páginas da internet. Estes métodos são ade- quados para resolver tarefas de extração dentro de um mesmo website, mas eles são bem menos eficientes quando a tarefa compreende um conjunto heterogêneo de web- sites. Por outro lado, modelos de Reconhecimento de Entidades Nomeadas (NER) baseados em aprendizado de máquina oferecem uma alternativa mais flexível para re- solver o problema. No entanto, na maior parte das vezes, páginas HTML tem uma organização substancialmente diferente do texto em prosa, porque as frases são muito curtas, o que piora o desempenho dos modelos tradicionais de NER. Em contrapartida, a estrutura do HTML contém informação valiosa que pode ser utilizada para melhorar o desempenho dos modelos de NER. Nós propomos duas formas de utilizar esta infor- mação: a estratégia de auto-treinamento para Hidden Markov Models e o mecanismo de atenção para a Bi-LSTM-CRF, um tipo de rede neural. Além disso, nesta disser- tação, nós avaliamos o desempenho de diversos métodos de NER na tarefa de extração de informação na web. Em particular, introduzimos um dataset novo que consiste em páginas de departamentos de pesquisa extraídas dos sites de múltiplas universidades ao redor do mundo e testamos os modelos de NER na tarefa de extração de nomes de pesquisadores. Uma arquitetura de redes neurais que combina uma Bi-LSTM-CRF com representações de caracteres baseadas em LSTMs e o mecanismo rígido de atenção tem um desempenho superior aos demais métodos, alcançando um F1 de 90,2 na tarefa. Contudo, por meio da aplicação de estratégias como o auto-treinamento, conseguimos obter um modelo muito mais simples, o Hidden Markov Model de segunda ordem, que alcança um F1 de 87,9 na mesma tarefa.	pt_BR
dc.description.resumo	Web Data Extraction methods often rely on hand-coded rules to identify and extract data from webpages. These methods are suited for extracting information from pages within the same website, however they perform poorly on extraction tasks across dif- ferent websites. Alternatively, statistical and machine-learning-based Named Entity Recognition (NER) methods provide a more flexible approach to Web Data Extraction. This is important, because sentences in HTML pages are often too short to provide adequate context for conventional NER methods to work properly. Nonetheless, the HTML structure also encodes useful information that can be used by NER models to achieve a better performance. We propose two methods to use this information: the self-training strategy for Hidden Markov Models and the hard attention mechanism for Bi-LSTM-CRFs, a type of neural network. Also, in this dissertation we evaluate the performance of different methods of NER in the task of Web Data Extraction. In particular, we introduce a novel dataset consisting of faculty listings from university webpages across the world in multiple languages and test different NER models in the task of extracting researcher names from these listings. We found that a neural network architecture that combines a bidirectional LSTM with a Conditional Random Fields output layer, LSTM-based character representations and a Hard Attention mechanism for HTML features outperforms other methods achieving 90.7 F1-score in the task. But, with the aid of clever strategies such as self-training, we can get a much simpler model, the second-order Hidden Markov Model, to achieve a 87.9 F1-score.	pt_BR
dc.description.sponsorship	CAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível Superior	pt_BR
dc.language	eng	pt_BR
dc.publisher	Universidade Federal de Minas Gerais	pt_BR
dc.publisher.country	Brasil	pt_BR
dc.publisher.department	ICX - DEPARTAMENTO DE CIÊNCIA DA COMPUTAÇÃO	pt_BR
dc.publisher.program	Programa de Pós-Graduação em Ciência da Computação	pt_BR
dc.publisher.initials	UFMG	pt_BR
dc.rights	Acesso Aberto	pt_BR
dc.rights.uri	http://creativecommons.org/licenses/by/3.0/pt/	*
dc.subject	Named entity recognition	pt_BR
dc.subject	Web data extraction	pt_BR
dc.subject	Researcher name extraction	pt_BR
dc.subject.other	Recuperação da informação	pt_BR
dc.subject.other	Aprendizado do computador	pt_BR
dc.subject.other	Resolução de entidades	pt_BR
dc.subject.other	Sites da Web	pt_BR
dc.title	Named entity recognition on the Web	pt_BR
dc.title.alternative	Reconhecimento de entidades nomeadas na Web	pt_BR
dc.type	Dissertação	pt_BR
dc.identifier.orcid	https://orcid.org/0000-0001-5637-6654	pt_BR
Appears in Collections:	Dissertações de Mestrado

Files in This Item:

File	Description	Size	Format
joao_dissertation_final.pdf		1.2 MB	Adobe PDF	View/Open

Show simple item record

This item is licensed under a Creative Commons License