Please use this identifier to cite or link to this item: http://hdl.handle.net/1843/70320
Type: Tese
Title: On the role of semantic word clusters — CluWords — in natural language processing (NLP) tasks
Other Titles: Um estudo aprofundado sobre grupos semânticos de palavras - CluWords - em tarefas de processamento de linguagem natural (PLN)
Authors: Felipe Augusto Resende Viegas
First Advisor: Marcos André Gonçalves
metadata.dc.contributor.advisor2: Leonardo Chaves Dutra da Rocha
First Referee: Pedro Olmo Stancioli Vaz de Melo
Second Referee: Rodrygo Luis Teodoro Santos
Third Referee: Viviane Pereira Moreira
metadata.dc.contributor.referee4: Renata Vieira
Abstract: The ability to represent data in meaningful and tractable (i.e., efficient) ways is crucial for Natural Language Processing (NLP) applications since it drastically impacts the outcome of machine learning methods. In this context, this Ph.D. thesis focuses on designing a new document representation that groups semantically related words coupled with task-specific filtering and weighting schemes called \textbf{CluWords}. Conceptually, CluWords correspond to clusters of semantically related word embedding built through distance functions and filtering mechanisms. More than simple groups of (filtered) related words, the CluWords are coupled with specific weighting schemes used to capture their importance to a specific task. Our main hypothesis is that the CluWords representation may improve the effectiveness of NLP applications by enhancing the document representation and enabling it to deal with issues such as noise and lack of information. The CluWords framework is decomposed into three well-defined and flexible steps, and it can be applied to overcome specific-task applications. This Ph.D. thesis explores four NLP applications: topic modeling, hierarchical topic modeling, sentiment lexicons, and sentiment analysis. The expected novel contributions of this thesis include (i) the introduction of a new data representation composed of three general steps (clustering, filtering, and weighting). These steps are specially designed to overcome task-specific challenges related to noise and lack of information; (ii) the design of CluWords' components capable of improving the effectiveness in detecting relevant topics for Topic Modeling, Hierarchical Topic Modeling applications, and Sentiment Analysis; (iii) the proposal of a set of empirical, experimental evidence to show that semantic relationships can be effective for Sentiment Lexicons; (iv) proposal of two new topic quality metrics to assess the topical quality of the hierarchical structures. In this Ph.D. thesis, our experiments show that CluWords is state-of-the-art in topic modeling and hierarchical topic modeling. In the context of sentiment lexicons, our experiment results show that semantic relationships provided by word embedding can be effective for the respective context. In the context of sentiment analysis, our experiments show that CluWords filtering and weighting can mitigate semantic noise.
Abstract: A capacidade de representar dados de maneira significativa e eficiente ´e crucial para as aplicações de Processamento de Linguagem Natural (PLN), pois isso afeta drasticamente o resultado dos métodos de aprendizado de máquina. Nesse contexto, esta tese de doutorado se concentra em projetar uma nova representação de documentos que agrupa palavras semanticamente relacionadas, combinadas com filtragem específica para a tarefa e esquemas de ponderação, chamada CluWords. Conceitualmente, as CluWords correspondem a grupos que incorporam palavras semanticamente relacionadas, construídas por meio de funções de distância e mecanismos de filtragem. Mais do que simples grupos de palavras relacionadas (filtradas), as CluWords são combinadas com esquemas de ponderação específicos usados para capturar sua importância em uma tarefa específica. Nossa principal hipótese é que a representação das CluWords pode melhorar a eficácia das aplicações de PLN, aprimorando a representação do documento e permitindo lidar com problemas como ruído e falta de informação. O framework das CluWords é decomposto em três etapas bem definidas e flexíveis, e pode ser aplicado em aplicações específicas. Foi explorado quatro aplicações de PLN: modelagem de tópicos, modelagem de tópicos hierárquica, léxicos de sentimento e análise de sentimento. As contribuições incluem: (i) a introdução de uma nova representação de dados, composta por três etapas gerais (agrupamento, filtragem e ponderação). Essas etapas são especialmente projetadas para superar desafios específicos relacionados a ruído e falta de informação em cada tarefa; (ii) o design dos componentes das CluWords capazes de melhorar a eficácia na detecção de tópicos relevantes para modelagem de tópicos, modelagem de tópicos hierárquica e análise de sentimento; (iii) a proposição de um conjunto de evidências experimentais empíricas para demonstrar que as relações semânticas podem ser eficazes para léxicos de sentimento; (iv) proposta de duas novas métricas de qualidade de tópico para avaliar a qualidade tópica das estruturas hierárquicas. Nossos experimentos mostram que as CluWords são o estado da arte em modelagem de tópicos e modelagem de tópicos hierárquica. No contexto de léxicos de sentimento, nossos resultados experimentais mostram que as relações semânticas fornecidas pela incorporação de palavras podem ser eficazes para o respectivo contexto. No contexto da análise de sentimento, nossos experimentos mostram que a filtragem e a ponderação dos CluWords são capazes de mitigar o ruído semântico.
Subject: Computação – Teses
Processamento de linguagem natural (Computação) – Teses
Processamento de textos (Computação) – Teses
language: eng
metadata.dc.publisher.country: Brasil
Publisher: Universidade Federal de Minas Gerais
Publisher Initials: UFMG
metadata.dc.publisher.department: ICX - DEPARTAMENTO DE CIÊNCIA DA COMPUTAÇÃO
metadata.dc.publisher.program: Programa de Pós-Graduação em Ciência da Computação
Rights: Acesso Aberto
metadata.dc.rights.uri: http://creativecommons.org/licenses/by-nc-nd/3.0/pt/
URI: http://hdl.handle.net/1843/70320
Issue Date: 10-Jul-2023
Appears in Collections:Teses de Doutorado

Files in This Item:
File Description SizeFormat 
Tese_Doutorado_versao_final.pdf5.67 MBAdobe PDFView/Open


This item is licensed under a Creative Commons License Creative Commons