Please use this identifier to cite or link to this item: http://hdl.handle.net/1843/ESBF-9WXR5Q
Type: Dissertação de Mestrado
Title: Explorando estratégias bayesianas eficientes e eficazes para classificação de texto
Authors: Felipe Augusto Resende Viegas
First Advisor: Marcos Andre Goncalves
First Co-advisor: Leonardo Chaves Dutra Rocha
First Referee: Leonardo Chaves Dutra Rocha
Second Referee: Fernando Henrique de Jesus Mourão
Third Referee: Renato Martins Assuncao
metadata.dc.contributor.referee4: Wellington Santos Martins
Abstract: Classificação automática de documentos (CAD) é a base de muitas aplicações importantes, tais como filtragem de spam, a mineração de opinião, organizadores de conteúdo e identificação de autoria. As abordagens Naive Bayes (NB) são amplamente utilizadas como paradigmas de classificação, devido à sua simplicidade, eficiência, ausência de parâmetros e eficácia em diversos cenários. Contudo, estas abordagens não apresentam eficácia competitiva quando comparada a outros métodos de aprendizagem estatísticos modernos, como SVMs, em tarefas de CAD. Isto está relacionado com algumas características das coleções reais de documentos, como desbalanceamento de classes e esparsidade dos dados. Nesta dissertação, investigamos se a combinação de alguns modelos de aprendizagem NB com diferentes propostas de ponderação de atributos pode melhorar a eficácia do NB em tarefas CAD, considerando várias coleções de dados do mundo real. Demonstramos que uma combinação adequada destas estratégias pode produzir resultados equivalentes ou mesmo superiores quando comparado com SVM. Além disso, apresentamos também uma investigação sobre o relaxamento da suposição de independência dos atributos do Naive Bayes (também conhecido como abordagens Semi-Naive Bayes) em grandes coleções textuais. Dados os elevados custos computacionais dessas investigações, aproveitamos as arquiteturas das GPUs para apresentarmos uma versão massivamente paralela da abordagem NB. Além disso, com esta solução paralela, propomos quatro novas abordagens Semi-NB lazy. Em nossos experimentos, nossas novas soluções lazy, não só superam as abordagens Semi-NB já existentes, assim como superam nossas estratégias NB incrementadas que já tiveram um desempenho melhor do que o SVM.
Abstract: Automatic Document Classification (ADC) is the basis of many important applications such as spam filtering, opinion mining, content organizers and authorship identification. Naive Bayes (NB) approaches are widely used as a classification paradigm, due to their simplicity, efficiency and effectiveness in several scenarios. However, NB solutions do not present competitive effectiveness in Automatic Document Classification (ADC) tasks when compared to other modern statistical learning methods. In this dissertation, we investigate whether the combination of some alternative NB learning models with different feature weighting techniques can improve the NB effectiveness in ADC. We also present an investigation on the relaxation of the NB feature independence assumption (aka, Semi-Naive approaches) in large text collections. Given the high computational costs of these investigations, we present a massively GPU-based parallelized version of the NB. Moreover, supported by the parallel implementations, we propose four novel Lazy Semi-NB approaches. In our experiments, our solutions not only outperform existing Semi-NB approaches, but also surpass our improved NB solutions in terms of effectiveness that had already outperformed SVMs.
Subject: Indexação automatica
Computação
Teoria bayesiana de decisão estatistica
language: Inglês
Publisher: Universidade Federal de Minas Gerais
Publisher Initials: UFMG
Rights: Acesso Aberto
URI: http://hdl.handle.net/1843/ESBF-9WXR5Q
Issue Date: 22-May-2015
Appears in Collections:Dissertações de Mestrado

Files in This Item:
File Description SizeFormat 
felipeviegas.pdf1.47 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.