Explorando estratégias bayesianas eficientes e eficazes para classificação de texto

dc.creatorFelipe Augusto Resende Viegas
dc.date.accessioned2019-08-12T14:39:36Z
dc.date.accessioned2025-09-09T01:04:58Z
dc.date.available2019-08-12T14:39:36Z
dc.date.issued2015-05-22
dc.description.abstractAutomatic Document Classification (ADC) is the basis of many important applications such as spam filtering, opinion mining, content organizers and authorship identification. Naive Bayes (NB) approaches are widely used as a classification paradigm, due to their simplicity, efficiency and effectiveness in several scenarios. However, NB solutions do not present competitive effectiveness in Automatic Document Classification (ADC) tasks when compared to other modern statistical learning methods. In this dissertation, we investigate whether the combination of some alternative NB learning models with different feature weighting techniques can improve the NB effectiveness in ADC. We also present an investigation on the relaxation of the NB feature independence assumption (aka, Semi-Naive approaches) in large text collections. Given the high computational costs of these investigations, we present a massively GPU-based parallelized version of the NB. Moreover, supported by the parallel implementations, we propose four novel Lazy Semi-NB approaches. In our experiments, our solutions not only outperform existing Semi-NB approaches, but also surpass our improved NB solutions in terms of effectiveness that had already outperformed SVMs.
dc.identifier.urihttps://hdl.handle.net/1843/ESBF-9WXR5Q
dc.languageInglês
dc.publisherUniversidade Federal de Minas Gerais
dc.rightsAcesso Aberto
dc.subjectIndexação automatica
dc.subjectComputação
dc.subjectTeoria bayesiana de decisão estatistica
dc.subject.otherParalelização
dc.subject.otherNaive Bayes
dc.subject.otherPonderação de atributos
dc.subject.otherClassificação automática de documentos
dc.subject.otherSemi-Naive Bayes
dc.titleExplorando estratégias bayesianas eficientes e eficazes para classificação de texto
dc.typeDissertação de mestrado
local.contributor.advisor-co1Leonardo Chaves Dutra Rocha
local.contributor.advisor1Marcos Andre Goncalves
local.contributor.referee1Leonardo Chaves Dutra Rocha
local.contributor.referee1Fernando Henrique de Jesus Mourão
local.contributor.referee1Renato Martins Assuncao
local.contributor.referee1Wellington Santos Martins
local.description.resumoClassificação automática de documentos (CAD) é a base de muitas aplicações importantes, tais como filtragem de spam, a mineração de opinião, organizadores de conteúdo e identificação de autoria. As abordagens Naive Bayes (NB) são amplamente utilizadas como paradigmas de classificação, devido à sua simplicidade, eficiência, ausência de parâmetros e eficácia em diversos cenários. Contudo, estas abordagens não apresentam eficácia competitiva quando comparada a outros métodos de aprendizagem estatísticos modernos, como SVMs, em tarefas de CAD. Isto está relacionado com algumas características das coleções reais de documentos, como desbalanceamento de classes e esparsidade dos dados. Nesta dissertação, investigamos se a combinação de alguns modelos de aprendizagem NB com diferentes propostas de ponderação de atributos pode melhorar a eficácia do NB em tarefas CAD, considerando várias coleções de dados do mundo real. Demonstramos que uma combinação adequada destas estratégias pode produzir resultados equivalentes ou mesmo superiores quando comparado com SVM. Além disso, apresentamos também uma investigação sobre o relaxamento da suposição de independência dos atributos do Naive Bayes (também conhecido como abordagens Semi-Naive Bayes) em grandes coleções textuais. Dados os elevados custos computacionais dessas investigações, aproveitamos as arquiteturas das GPUs para apresentarmos uma versão massivamente paralela da abordagem NB. Além disso, com esta solução paralela, propomos quatro novas abordagens Semi-NB lazy. Em nossos experimentos, nossas novas soluções lazy, não só superam as abordagens Semi-NB já existentes, assim como superam nossas estratégias NB incrementadas que já tiveram um desempenho melhor do que o SVM.
local.publisher.initialsUFMG

Arquivos

Pacote original

Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
felipeviegas.pdf
Tamanho:
1.44 MB
Formato:
Adobe Portable Document Format