Explorando estratégias bayesianas eficientes e eficazes para classificação de texto

Felipe Augusto Resende Viegas

Please use this identifier to cite or link to this item: http://hdl.handle.net/1843/ESBF-9WXR5Q

Full metadata record

DC Field	Value	Language
dc.contributor.advisor1	Marcos Andre Goncalves	pt_BR
dc.contributor.advisor-co1	Leonardo Chaves Dutra Rocha	pt_BR
dc.contributor.referee1	Leonardo Chaves Dutra Rocha	pt_BR
dc.contributor.referee2	Fernando Henrique de Jesus Mourão	pt_BR
dc.contributor.referee3	Renato Martins Assuncao	pt_BR
dc.contributor.referee4	Wellington Santos Martins	pt_BR
dc.creator	Felipe Augusto Resende Viegas	pt_BR
dc.date.accessioned	2019-08-12T14:39:36Z	-
dc.date.available	2019-08-12T14:39:36Z	-
dc.date.issued	2015-05-22	pt_BR
dc.identifier.uri	http://hdl.handle.net/1843/ESBF-9WXR5Q	-
dc.description.abstract	Automatic Document Classification (ADC) is the basis of many important applications such as spam filtering, opinion mining, content organizers and authorship identification. Naive Bayes (NB) approaches are widely used as a classification paradigm, due to their simplicity, efficiency and effectiveness in several scenarios. However, NB solutions do not present competitive effectiveness in Automatic Document Classification (ADC) tasks when compared to other modern statistical learning methods. In this dissertation, we investigate whether the combination of some alternative NB learning models with different feature weighting techniques can improve the NB effectiveness in ADC. We also present an investigation on the relaxation of the NB feature independence assumption (aka, Semi-Naive approaches) in large text collections. Given the high computational costs of these investigations, we present a massively GPU-based parallelized version of the NB. Moreover, supported by the parallel implementations, we propose four novel Lazy Semi-NB approaches. In our experiments, our solutions not only outperform existing Semi-NB approaches, but also surpass our improved NB solutions in terms of effectiveness that had already outperformed SVMs.	pt_BR
dc.description.resumo	Classificação automática de documentos (CAD) é a base de muitas aplicações importantes, tais como filtragem de spam, a mineração de opinião, organizadores de conteúdo e identificação de autoria. As abordagens Naive Bayes (NB) são amplamente utilizadas como paradigmas de classificação, devido à sua simplicidade, eficiência, ausência de parâmetros e eficácia em diversos cenários. Contudo, estas abordagens não apresentam eficácia competitiva quando comparada a outros métodos de aprendizagem estatísticos modernos, como SVMs, em tarefas de CAD. Isto está relacionado com algumas características das coleções reais de documentos, como desbalanceamento de classes e esparsidade dos dados. Nesta dissertação, investigamos se a combinação de alguns modelos de aprendizagem NB com diferentes propostas de ponderação de atributos pode melhorar a eficácia do NB em tarefas CAD, considerando várias coleções de dados do mundo real. Demonstramos que uma combinação adequada destas estratégias pode produzir resultados equivalentes ou mesmo superiores quando comparado com SVM. Além disso, apresentamos também uma investigação sobre o relaxamento da suposição de independência dos atributos do Naive Bayes (também conhecido como abordagens Semi-Naive Bayes) em grandes coleções textuais. Dados os elevados custos computacionais dessas investigações, aproveitamos as arquiteturas das GPUs para apresentarmos uma versão massivamente paralela da abordagem NB. Além disso, com esta solução paralela, propomos quatro novas abordagens Semi-NB lazy. Em nossos experimentos, nossas novas soluções lazy, não só superam as abordagens Semi-NB já existentes, assim como superam nossas estratégias NB incrementadas que já tiveram um desempenho melhor do que o SVM.	pt_BR
dc.language	Inglês	pt_BR
dc.publisher	Universidade Federal de Minas Gerais	pt_BR
dc.publisher.initials	UFMG	pt_BR
dc.rights	Acesso Aberto	pt_BR
dc.subject	Paralelização	pt_BR
dc.subject	Naive Bayes	pt_BR
dc.subject	Ponderação de atributos	pt_BR
dc.subject	Classificação automática de documentos	pt_BR
dc.subject	Semi-Naive Bayes	pt_BR
dc.subject.other	Indexação automatica	pt_BR
dc.subject.other	Computação	pt_BR
dc.subject.other	Teoria bayesiana de decisão estatistica	pt_BR
dc.title	Explorando estratégias bayesianas eficientes e eficazes para classificação de texto	pt_BR
dc.type	Dissertação de Mestrado	pt_BR
Appears in Collections:	Dissertações de Mestrado

Files in This Item:

File	Description	Size	Format
felipeviegas.pdf		1.47 MB	Adobe PDF	View/Open

Show simple item record