Please use this identifier to cite or link to this item:
http://hdl.handle.net/1843/ESBF-9WXR5Q
Full metadata record
DC Field | Value | Language |
---|---|---|
dc.contributor.advisor1 | Marcos Andre Goncalves | pt_BR |
dc.contributor.advisor-co1 | Leonardo Chaves Dutra Rocha | pt_BR |
dc.contributor.referee1 | Leonardo Chaves Dutra Rocha | pt_BR |
dc.contributor.referee2 | Fernando Henrique de Jesus Mourão | pt_BR |
dc.contributor.referee3 | Renato Martins Assuncao | pt_BR |
dc.contributor.referee4 | Wellington Santos Martins | pt_BR |
dc.creator | Felipe Augusto Resende Viegas | pt_BR |
dc.date.accessioned | 2019-08-12T14:39:36Z | - |
dc.date.available | 2019-08-12T14:39:36Z | - |
dc.date.issued | 2015-05-22 | pt_BR |
dc.identifier.uri | http://hdl.handle.net/1843/ESBF-9WXR5Q | - |
dc.description.abstract | Automatic Document Classification (ADC) is the basis of many important applications such as spam filtering, opinion mining, content organizers and authorship identification. Naive Bayes (NB) approaches are widely used as a classification paradigm, due to their simplicity, efficiency and effectiveness in several scenarios. However, NB solutions do not present competitive effectiveness in Automatic Document Classification (ADC) tasks when compared to other modern statistical learning methods. In this dissertation, we investigate whether the combination of some alternative NB learning models with different feature weighting techniques can improve the NB effectiveness in ADC. We also present an investigation on the relaxation of the NB feature independence assumption (aka, Semi-Naive approaches) in large text collections. Given the high computational costs of these investigations, we present a massively GPU-based parallelized version of the NB. Moreover, supported by the parallel implementations, we propose four novel Lazy Semi-NB approaches. In our experiments, our solutions not only outperform existing Semi-NB approaches, but also surpass our improved NB solutions in terms of effectiveness that had already outperformed SVMs. | pt_BR |
dc.description.resumo | Classificação automática de documentos (CAD) é a base de muitas aplicações importantes, tais como filtragem de spam, a mineração de opinião, organizadores de conteúdo e identificação de autoria. As abordagens Naive Bayes (NB) são amplamente utilizadas como paradigmas de classificação, devido à sua simplicidade, eficiência, ausência de parâmetros e eficácia em diversos cenários. Contudo, estas abordagens não apresentam eficácia competitiva quando comparada a outros métodos de aprendizagem estatísticos modernos, como SVMs, em tarefas de CAD. Isto está relacionado com algumas características das coleções reais de documentos, como desbalanceamento de classes e esparsidade dos dados. Nesta dissertação, investigamos se a combinação de alguns modelos de aprendizagem NB com diferentes propostas de ponderação de atributos pode melhorar a eficácia do NB em tarefas CAD, considerando várias coleções de dados do mundo real. Demonstramos que uma combinação adequada destas estratégias pode produzir resultados equivalentes ou mesmo superiores quando comparado com SVM. Além disso, apresentamos também uma investigação sobre o relaxamento da suposição de independência dos atributos do Naive Bayes (também conhecido como abordagens Semi-Naive Bayes) em grandes coleções textuais. Dados os elevados custos computacionais dessas investigações, aproveitamos as arquiteturas das GPUs para apresentarmos uma versão massivamente paralela da abordagem NB. Além disso, com esta solução paralela, propomos quatro novas abordagens Semi-NB lazy. Em nossos experimentos, nossas novas soluções lazy, não só superam as abordagens Semi-NB já existentes, assim como superam nossas estratégias NB incrementadas que já tiveram um desempenho melhor do que o SVM. | pt_BR |
dc.language | Inglês | pt_BR |
dc.publisher | Universidade Federal de Minas Gerais | pt_BR |
dc.publisher.initials | UFMG | pt_BR |
dc.rights | Acesso Aberto | pt_BR |
dc.subject | Paralelização | pt_BR |
dc.subject | Naive Bayes | pt_BR |
dc.subject | Ponderação de atributos | pt_BR |
dc.subject | Classificação automática de documentos | pt_BR |
dc.subject | Semi-Naive Bayes | pt_BR |
dc.subject.other | Indexação automatica | pt_BR |
dc.subject.other | Computação | pt_BR |
dc.subject.other | Teoria bayesiana de decisão estatistica | pt_BR |
dc.title | Explorando estratégias bayesianas eficientes e eficazes para classificação de texto | pt_BR |
dc.type | Dissertação de Mestrado | pt_BR |
Appears in Collections: | Dissertações de Mestrado |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
felipeviegas.pdf | 1.47 MB | Adobe PDF | View/Open |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.