Um benchmark para comparação de métodos para análise de sentimentos

Pollyanna de Oliveira Gonçalves

Please use this identifier to cite or link to this item: http://hdl.handle.net/1843/ESBF-A2FJV4

Type:	Dissertação de Mestrado
Title:	Um benchmark para comparação de métodos para análise de sentimentos
Authors:	Pollyanna de Oliveira Gonçalves
First Advisor:	Fabricio Benevenuto de Souza
First Referee:	Adriano César Machado Pereira
Second Referee:	Alexandre Plastino de Carvalho
Third Referee:	Marcos Andre Goncalves
Abstract:	Nos últimos anos, milhares de artigos científicos vêm explorando análise de sentimentos, várias startups que medem opiniões em tempo real também surgiram, assim como um número de produtos inovadores que vêm sendo desenvolvidos na área. Existem diversos métodos para medir sentimentos, incluindo abordagens léxicas e métodos deaprendizado de máquina. Apesar do grande interesse no tema e da alta popularidade de alguns desses métodos, ainda não está claro qual deles possui melhor performance na identificação de polaridade (positivo, negativo ou neutro) de uma mensagem. Tal comparação é crucial para o entendimento de potenciais limitações, vantagens e desvantagens de métodos populares. Esse estudo tem como objetivo preencher essa lacuna apresentando um benchmark de comparação de 21 métodos e ferramentas muito utilizados na análise de sentimentos para melhor entender suas performances. Nossa avaliação é baseada em um benchmark que consiste em 21 datasets rotulados, abrangendo mensagens compartilhadas em redes sociais online, reviews de filmes e produtos, assim como opiniões e comentários em notícias. Nossos resultados realçam limitações, vantagens e desvantagens dos métodos existentes, mostrando que suas performances variam através das bases de dados. Por fim, propomos um esforço inicial na combinação desses métodos com o objetivo de maximizar os resultados de classificação de sentimentos. Apesar da tentativa introdutória, mostramos que essa é uma estratégia promissora e que precisa de maiores investigações.
Abstract:	In the last few years thousands of scientific papers have explored sentiment analysis, several startups that measures opinions on real data have emerged, and a number of innovative products related to this theme have been developed. There are multiple methods for measuring sentiments, including lexical-based approaches and supervisedmachine learning methods. Despite the vast interest on the theme and wide popularity of some methods, it is unclear which method is better for identifying the polarity (i.e., positive, negative or neutral) of a message. Such a comparison is key for understanding the potential limitations, advantages, and disadvantages of popular methods. This study aims at filling this gap by presenting a benchmark comparison of 21 widelyused sentiment analysis methods and tools to better understand their strengths and weaknesses. Our evaluation is based on a benchmark of 21 labeled datasets, covering messages posted on social networks, movie and product reviews, as well as opinions and comments in news articles. Our results highlight limitations, advantages, and disadvantagesof existing methods, showing that their performances varied widely across datasets. Finally, we propose initial efforts in combining these methods with the aim of maximize the results of sentiment classification. Despite of this introductory attempt, we show that this is a promising strategy that needs further investigation.
Subject:	Computação Redes sociais on-line Mineração de dados (Computação)
language:	Inglês
Publisher:	Universidade Federal de Minas Gerais
Publisher Initials:	UFMG
Rights:	Acesso Aberto
URI:	http://hdl.handle.net/1843/ESBF-A2FJV4
Issue Date:	14-Aug-2015
Appears in Collections:	Dissertações de Mestrado

Files in This Item:

File	Description	Size	Format
pollyannagoncalves.pdf		3.82 MB	Adobe PDF	View/Open

Show full item record