Explorando estratégias bayesianas eficientes e eficazes para classificação de texto

Felipe Augusto Resende Viegas

Use este identificador para citar ou linkar para este item: http://hdl.handle.net/1843/ESBF-9WXR5Q

Tipo:	Dissertação de Mestrado
Título:	Explorando estratégias bayesianas eficientes e eficazes para classificação de texto
Autor(es):	Felipe Augusto Resende Viegas
Primeiro Orientador:	Marcos Andre Goncalves
Primeiro Coorientador:	Leonardo Chaves Dutra Rocha
Primeiro membro da banca :	Leonardo Chaves Dutra Rocha
Segundo membro da banca:	Fernando Henrique de Jesus Mourão
Terceiro membro da banca:	Renato Martins Assuncao
Quarto membro da banca:	Wellington Santos Martins
Resumo:	Classificação automática de documentos (CAD) é a base de muitas aplicações importantes, tais como filtragem de spam, a mineração de opinião, organizadores de conteúdo e identificação de autoria. As abordagens Naive Bayes (NB) são amplamente utilizadas como paradigmas de classificação, devido à sua simplicidade, eficiência, ausência de parâmetros e eficácia em diversos cenários. Contudo, estas abordagens não apresentam eficácia competitiva quando comparada a outros métodos de aprendizagem estatísticos modernos, como SVMs, em tarefas de CAD. Isto está relacionado com algumas características das coleções reais de documentos, como desbalanceamento de classes e esparsidade dos dados. Nesta dissertação, investigamos se a combinação de alguns modelos de aprendizagem NB com diferentes propostas de ponderação de atributos pode melhorar a eficácia do NB em tarefas CAD, considerando várias coleções de dados do mundo real. Demonstramos que uma combinação adequada destas estratégias pode produzir resultados equivalentes ou mesmo superiores quando comparado com SVM. Além disso, apresentamos também uma investigação sobre o relaxamento da suposição de independência dos atributos do Naive Bayes (também conhecido como abordagens Semi-Naive Bayes) em grandes coleções textuais. Dados os elevados custos computacionais dessas investigações, aproveitamos as arquiteturas das GPUs para apresentarmos uma versão massivamente paralela da abordagem NB. Além disso, com esta solução paralela, propomos quatro novas abordagens Semi-NB lazy. Em nossos experimentos, nossas novas soluções lazy, não só superam as abordagens Semi-NB já existentes, assim como superam nossas estratégias NB incrementadas que já tiveram um desempenho melhor do que o SVM.
Abstract:	Automatic Document Classification (ADC) is the basis of many important applications such as spam filtering, opinion mining, content organizers and authorship identification. Naive Bayes (NB) approaches are widely used as a classification paradigm, due to their simplicity, efficiency and effectiveness in several scenarios. However, NB solutions do not present competitive effectiveness in Automatic Document Classification (ADC) tasks when compared to other modern statistical learning methods. In this dissertation, we investigate whether the combination of some alternative NB learning models with different feature weighting techniques can improve the NB effectiveness in ADC. We also present an investigation on the relaxation of the NB feature independence assumption (aka, Semi-Naive approaches) in large text collections. Given the high computational costs of these investigations, we present a massively GPU-based parallelized version of the NB. Moreover, supported by the parallel implementations, we propose four novel Lazy Semi-NB approaches. In our experiments, our solutions not only outperform existing Semi-NB approaches, but also surpass our improved NB solutions in terms of effectiveness that had already outperformed SVMs.
Assunto:	Indexação automatica Computação Teoria bayesiana de decisão estatistica
Idioma:	Inglês
Editor:	Universidade Federal de Minas Gerais
Sigla da Instituição:	UFMG
Tipo de Acesso:	Acesso Aberto
URI:	http://hdl.handle.net/1843/ESBF-9WXR5Q
Data do documento:	22-Mai-2015
Aparece nas coleções:	Dissertações de Mestrado

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
felipeviegas.pdf		1.47 MB	Adobe PDF	Visualizar/Abrir

Mostrar registro completo do item Visualizar estatísticas