Please use this identifier to cite or link to this item: http://hdl.handle.net/1843/SLSC-BBKGTM
Full metadata record
DC FieldValueLanguage
dc.contributor.advisor1Nivio Zivianipt_BR
dc.contributor.advisor-co1Adriano Alonso Velosopt_BR
dc.contributor.referee1Flavio Vinicius Diniz de Figueiredopt_BR
dc.contributor.referee2Renato Antonio Celso Ferreirapt_BR
dc.contributor.referee3Wladmir Cardoso Brandãopt_BR
dc.creatorAlex de Paula Barrospt_BR
dc.date.accessioned2019-08-10T12:28:57Z-
dc.date.available2019-08-10T12:28:57Z-
dc.date.issued2018-07-27pt_BR
dc.identifier.urihttp://hdl.handle.net/1843/SLSC-BBKGTM-
dc.description.abstractWord sense disambiguation is identifying which sense of a word is used in a sentence when the word has multiple meanings. Supervised machine learning methods in which a classifier is trained for each distinct word on a corpus of manually sense-annotated examples have been the most successful algorithms to date. One possible drawback is their lack of flexibility due to requiring annotated examples for every word in the vocabulary. In contrast, knowledge-based methods do not require a classifier for each distinct word and are often built over lexico-semantic resources like ontologies, thesaurus or machine-readable dictionaries. In this work, we propose a flexible compositional algorithm based on context-gloss comparisons, that compares local context of a word represented by its neighbor words with glosses of the possible senses a word can assume using a semantic distance measure. The algorithm has three components, each based on a different information source: (i) sense frequency, obtained by counting the number of times a word occurs with each meaning in an annotated corpus, (ii) extended gloss, obtained by expanding a word dictionary definition using related words in an ontology (e.g., car and automobile), and (iii) sense usage examples, obtained from inventories that provide sentences with usage examples for some senses. Our compositional approach is flexible in the sense that it is not dependent on annotated examples and works well even when some or all of the three aforementioned knowledge sources are not available. We evaluated the performance of our algorithm for all possible combinations of the three components, simulating different scenarios of knowledge sources availability. The algorithm achieves an F1 score of 67.5 when all components are available, presenting a favorable result when compared with a state-of-the-art knowledge-based system that achieves an F1 score of 66.4pt_BR
dc.description.resumoWord sense disambiguation é a tarefa de identificar qual o significado de uma palavra é utilizado em uma sentença quando a palavra possui múltiplos sentidos. Métodos supervisionados de aprendizado de máquina em que um classificador é treinado para cada palavra distinta em um corpus com o significados das palavras manualmente anotados têm obtido os melhores resultados. Uma possível desvantagem destes métodos é a falta de flexibilidade devido à necessidade de exemplos anotados para cada palavra no vocabulário. Em contraste, os métodos baseados em conhecimento não requerem um classificador para cada palavra distinta e são frequentemente construídos sobre recursos léxico-semânticos como ontologias ou tesauros. Neste trabalho, propomos um algoritmo composicional flexível baseado em comparações entre contexto e glosa, que compara o contexto local de uma palavra, representada por suas palavras vizinhas, com glosas dos possíveis sentidos que uma palavra pode assumir usando uma medida de distância semântica. O algoritmo possui três componentes, cada um baseado em uma fonte de informação diferente: (i) frequência de sentido, obtida pela contagem do número de vezes que uma palavra ocorre com cada significado em um corpus anotado, (ii) glosa estendida, expansão da definição de palavras no dicionário usando palavras relacionadas em uma ontologia (por exemplo, carro e automóvel), e (iii) exemplos de uso de sentido, obtidos de dicionários que fornecem frases com exemplos de uso para os sentidos das palavras. Nossa abordagem composicional é flexível no sentido de que não depende de exemplos anotados e funciona bem, mesmo quando algumas ou todas as três fontes de conhecimento mencionadas acima não estão disponíveis. Avaliamos o desempenho de nosso algoritmo para todas as combinações possíveis dos três componentes, simulando diferentes cenários de disponibilidade de fontes de conhecimento. O algoritmo alcança um F1 score de 67,5 quando todos os componentes estão disponíveis, apresentando um resultado favorável quando comparado com o estado da arte em sistemas baseado em conhecimento que atinge um F1 score de 66,4.pt_BR
dc.languagePortuguêspt_BR
dc.publisherUniversidade Federal de Minas Geraispt_BR
dc.publisher.initialsUFMGpt_BR
dc.rightsAcesso Abertopt_BR
dc.subjectNatural Language Processingpt_BR
dc.subjectWord Sense Disambiguationpt_BR
dc.subject.otherRecuperação da informaçãopt_BR
dc.subject.otherComputaçãopt_BR
dc.subject.otherProcessamento de linguagem natural (Computação)pt_BR
dc.titleA flexible compositional approach to word sense disambiguationpt_BR
dc.typeDissertação de Mestradopt_BR
Appears in Collections:Dissertações de Mestrado

Files in This Item:
File Description SizeFormat 
alexdepaulabarros.pdf1.4 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.