An unsupervised approach based on self-learning for the combination of sentiment analysis methods

Carregando...
Imagem de Miniatura

Título da Revista

ISSN da Revista

Título de Volume

Editor

Universidade Federal de Minas Gerais

Descrição

Tipo

Dissertação de mestrado

Título alternativo

Primeiro orientador

Membros da banca

Daniel Hasan Dalip
Marco Antonio Pinheiro de Cristo
Marcos Andre Goncalves

Resumo

A análise de sentimentos se tornou uma ferramenta muito importante para análise de dados de mídia social. Existem vários métodos desenvolvidos para este campo de pesquisa, vários deles trabalhando muito diferentes uns dos outros, cobrindo aspectos distintos do problema e estratégias diversas. Apesar do grande número de técnicas existentes, não existe uma única que se encaixe bem em todos os casos e origem de dados. Além disso, no caso de abordagens supervisionadas, pode ser muito difícil obter dados rotulados para estratégias que exigem treinamento, principalmente para novas aplicações. Neste trabalho, propomos combinar vários métodos populares de análise de sentimento do atual estado-da-arte e eficazes, por meio de uma estratégia não-supervisionada com uso de bootstrapping para classificação de polaridade. Nossa solução foi completamente testada considerando treze diferente conjuntos de dados em vários domínios, como opiniões de produtos, comentários e mídias sociais. Os resultados experimentais demonstram que o nosso método combinado (conhecido como 10SENT) melhora a eficácia da tarefa de classificação, mas mais importante, ele resolve um problema-chave no campo. Nosso método aparece consistentemente entre os melhores métodos em vários tipos de bases de dados, o que significa que ele pode produzir os melhores resultados (ou perto de melhor) em quase todos os contextos considerados, sem quaisquer custos adicionais. A nossa abordagem de auto-aprendizagem é também muito independente dos métodos base, o que significa que é altamente extensível incorporar qualquer novo método adicional que possa ser desenvolvido no futuro. Finalmente, investigamos duas abordagens de transfer learning e active learning para a análise de sentimento e mostramos o potencial dessas técnicas para melhorar nossos resultados.

Abstract

Sentiment analysis has become a very important tool for analysis of social media data. There are several methods developed for this research field, many of them working very differently from each other, covering distinct aspects of the problem and distinct strategies. Despite the large number of existent techniques, there is no single one which fits well in all cases and data sources. Moreover, in case of supervised approaches, it may be very hard to get labeled data for strategies that demand training, mainly for a new application. In this dissertation, we propose to combine several very popular and effective state-of-the-practice sentiment analysis methods, by means of an unsupervised bootstrapped strategy for classification of polarity. Our solution was thoroughly tested considering thirteen different datasets in several domains such as opinions, comments, and social media. The experimental results demonstrate that our combined method (aka, 10SENT) improves the effectiveness of the classification task, but more important, it solves a key problem in the field. It is consistently among the best methods in many data types, meaning that it can produce the best (or close to best) results in almost all considered contexts, without any additional costs. Our self-learning approach is also very independent of the base methods, which means that it is highly extensible to incorporate any new additional method that can be envisioned in the future. Finally, we investigate a transfer learning and active learning approach for sentiment analysis and show the potential of this technique to improve our results.

Assunto

Bootstrap (Estatística), Processamento de linguagem natural, Análise de sentimento, Mineração de opinião, Computação

Palavras-chave

Bootstrapping, Análise de Sentimento, Aprendizado de Máquina, Mineração de Opinião, Classificação Combinada, Aprendizado Não-supervisionado, Processamento de Linguagem Natural

Citação

Departamento

Curso

Endereço externo

Avaliação

Revisão

Suplementado Por

Referenciado Por