A flexible compositional approach to word sense disambiguation

Alex de Paula Barros

Please use this identifier to cite or link to this item: http://hdl.handle.net/1843/SLSC-BBKGTM

Full metadata record

DC Field	Value	Language
dc.contributor.advisor1	Nivio Ziviani	pt_BR
dc.contributor.advisor-co1	Adriano Alonso Veloso	pt_BR
dc.contributor.referee1	Flavio Vinicius Diniz de Figueiredo	pt_BR
dc.contributor.referee2	Renato Antonio Celso Ferreira	pt_BR
dc.contributor.referee3	Wladmir Cardoso Brandão	pt_BR
dc.creator	Alex de Paula Barros	pt_BR
dc.date.accessioned	2019-08-10T12:28:57Z	-
dc.date.available	2019-08-10T12:28:57Z	-
dc.date.issued	2018-07-27	pt_BR
dc.identifier.uri	http://hdl.handle.net/1843/SLSC-BBKGTM	-
dc.description.abstract	Word sense disambiguation is identifying which sense of a word is used in a sentence when the word has multiple meanings. Supervised machine learning methods in which a classifier is trained for each distinct word on a corpus of manually sense-annotated examples have been the most successful algorithms to date. One possible drawback is their lack of flexibility due to requiring annotated examples for every word in the vocabulary. In contrast, knowledge-based methods do not require a classifier for each distinct word and are often built over lexico-semantic resources like ontologies, thesaurus or machine-readable dictionaries. In this work, we propose a flexible compositional algorithm based on context-gloss comparisons, that compares local context of a word represented by its neighbor words with glosses of the possible senses a word can assume using a semantic distance measure. The algorithm has three components, each based on a different information source: (i) sense frequency, obtained by counting the number of times a word occurs with each meaning in an annotated corpus, (ii) extended gloss, obtained by expanding a word dictionary definition using related words in an ontology (e.g., car and automobile), and (iii) sense usage examples, obtained from inventories that provide sentences with usage examples for some senses. Our compositional approach is flexible in the sense that it is not dependent on annotated examples and works well even when some or all of the three aforementioned knowledge sources are not available. We evaluated the performance of our algorithm for all possible combinations of the three components, simulating different scenarios of knowledge sources availability. The algorithm achieves an F1 score of 67.5 when all components are available, presenting a favorable result when compared with a state-of-the-art knowledge-based system that achieves an F1 score of 66.4	pt_BR
dc.description.resumo	Word sense disambiguation é a tarefa de identificar qual o significado de uma palavra é utilizado em uma sentença quando a palavra possui múltiplos sentidos. Métodos supervisionados de aprendizado de máquina em que um classificador é treinado para cada palavra distinta em um corpus com o significados das palavras manualmente anotados têm obtido os melhores resultados. Uma possível desvantagem destes métodos é a falta de flexibilidade devido à necessidade de exemplos anotados para cada palavra no vocabulário. Em contraste, os métodos baseados em conhecimento não requerem um classificador para cada palavra distinta e são frequentemente construídos sobre recursos léxico-semânticos como ontologias ou tesauros. Neste trabalho, propomos um algoritmo composicional flexível baseado em comparações entre contexto e glosa, que compara o contexto local de uma palavra, representada por suas palavras vizinhas, com glosas dos possíveis sentidos que uma palavra pode assumir usando uma medida de distância semântica. O algoritmo possui três componentes, cada um baseado em uma fonte de informação diferente: (i) frequência de sentido, obtida pela contagem do número de vezes que uma palavra ocorre com cada significado em um corpus anotado, (ii) glosa estendida, expansão da definição de palavras no dicionário usando palavras relacionadas em uma ontologia (por exemplo, carro e automóvel), e (iii) exemplos de uso de sentido, obtidos de dicionários que fornecem frases com exemplos de uso para os sentidos das palavras. Nossa abordagem composicional é flexível no sentido de que não depende de exemplos anotados e funciona bem, mesmo quando algumas ou todas as três fontes de conhecimento mencionadas acima não estão disponíveis. Avaliamos o desempenho de nosso algoritmo para todas as combinações possíveis dos três componentes, simulando diferentes cenários de disponibilidade de fontes de conhecimento. O algoritmo alcança um F1 score de 67,5 quando todos os componentes estão disponíveis, apresentando um resultado favorável quando comparado com o estado da arte em sistemas baseado em conhecimento que atinge um F1 score de 66,4.	pt_BR
dc.language	Português	pt_BR
dc.publisher	Universidade Federal de Minas Gerais	pt_BR
dc.publisher.initials	UFMG	pt_BR
dc.rights	Acesso Aberto	pt_BR
dc.subject	Natural Language Processing	pt_BR
dc.subject	Word Sense Disambiguation	pt_BR
dc.subject.other	Recuperação da informação	pt_BR
dc.subject.other	Computação	pt_BR
dc.subject.other	Processamento de linguagem natural (Computação)	pt_BR
dc.title	A flexible compositional approach to word sense disambiguation	pt_BR
dc.type	Dissertação de Mestrado	pt_BR
Appears in Collections:	Dissertações de Mestrado

Files in This Item:

File	Description	Size	Format
alexdepaulabarros.pdf		1.4 MB	Adobe PDF	View/Open

Show simple item record