A flexible compositional approach to word sense disambiguation

Alex de Paula Barros

Please use this identifier to cite or link to this item: http://hdl.handle.net/1843/SLSC-BBKGTM

Type:	Dissertação de Mestrado
Title:	A flexible compositional approach to word sense disambiguation
Authors:	Alex de Paula Barros
First Advisor:	Nivio Ziviani
First Co-advisor:	Adriano Alonso Veloso
First Referee:	Flavio Vinicius Diniz de Figueiredo
Second Referee:	Renato Antonio Celso Ferreira
Third Referee:	Wladmir Cardoso Brandão
Abstract:	Word sense disambiguation é a tarefa de identificar qual o significado de uma palavra é utilizado em uma sentença quando a palavra possui múltiplos sentidos. Métodos supervisionados de aprendizado de máquina em que um classificador é treinado para cada palavra distinta em um corpus com o significados das palavras manualmente anotados têm obtido os melhores resultados. Uma possível desvantagem destes métodos é a falta de flexibilidade devido à necessidade de exemplos anotados para cada palavra no vocabulário. Em contraste, os métodos baseados em conhecimento não requerem um classificador para cada palavra distinta e são frequentemente construídos sobre recursos léxico-semânticos como ontologias ou tesauros. Neste trabalho, propomos um algoritmo composicional flexível baseado em comparações entre contexto e glosa, que compara o contexto local de uma palavra, representada por suas palavras vizinhas, com glosas dos possíveis sentidos que uma palavra pode assumir usando uma medida de distância semântica. O algoritmo possui três componentes, cada um baseado em uma fonte de informação diferente: (i) frequência de sentido, obtida pela contagem do número de vezes que uma palavra ocorre com cada significado em um corpus anotado, (ii) glosa estendida, expansão da definição de palavras no dicionário usando palavras relacionadas em uma ontologia (por exemplo, carro e automóvel), e (iii) exemplos de uso de sentido, obtidos de dicionários que fornecem frases com exemplos de uso para os sentidos das palavras. Nossa abordagem composicional é flexível no sentido de que não depende de exemplos anotados e funciona bem, mesmo quando algumas ou todas as três fontes de conhecimento mencionadas acima não estão disponíveis. Avaliamos o desempenho de nosso algoritmo para todas as combinações possíveis dos três componentes, simulando diferentes cenários de disponibilidade de fontes de conhecimento. O algoritmo alcança um F1 score de 67,5 quando todos os componentes estão disponíveis, apresentando um resultado favorável quando comparado com o estado da arte em sistemas baseado em conhecimento que atinge um F1 score de 66,4.
Abstract:	Word sense disambiguation is identifying which sense of a word is used in a sentence when the word has multiple meanings. Supervised machine learning methods in which a classifier is trained for each distinct word on a corpus of manually sense-annotated examples have been the most successful algorithms to date. One possible drawback is their lack of flexibility due to requiring annotated examples for every word in the vocabulary. In contrast, knowledge-based methods do not require a classifier for each distinct word and are often built over lexico-semantic resources like ontologies, thesaurus or machine-readable dictionaries. In this work, we propose a flexible compositional algorithm based on context-gloss comparisons, that compares local context of a word represented by its neighbor words with glosses of the possible senses a word can assume using a semantic distance measure. The algorithm has three components, each based on a different information source: (i) sense frequency, obtained by counting the number of times a word occurs with each meaning in an annotated corpus, (ii) extended gloss, obtained by expanding a word dictionary definition using related words in an ontology (e.g., car and automobile), and (iii) sense usage examples, obtained from inventories that provide sentences with usage examples for some senses. Our compositional approach is flexible in the sense that it is not dependent on annotated examples and works well even when some or all of the three aforementioned knowledge sources are not available. We evaluated the performance of our algorithm for all possible combinations of the three components, simulating different scenarios of knowledge sources availability. The algorithm achieves an F1 score of 67.5 when all components are available, presenting a favorable result when compared with a state-of-the-art knowledge-based system that achieves an F1 score of 66.4
Subject:	Recuperação da informação Computação Processamento de linguagem natural (Computação)
language:	Português
Publisher:	Universidade Federal de Minas Gerais
Publisher Initials:	UFMG
Rights:	Acesso Aberto
URI:	http://hdl.handle.net/1843/SLSC-BBKGTM
Issue Date:	27-Jul-2018
Appears in Collections:	Dissertações de Mestrado

Files in This Item:

File	Description	Size	Format
alexdepaulabarros.pdf		1.4 MB	Adobe PDF	View/Open

Show full item record