Um estudo comparativo de redes neurais profundas para classificação automática de texto

dc.creatorElaine Cristina Resende Cândido
dc.date.accessioned2023-03-01T12:01:19Z
dc.date.accessioned2025-09-08T23:36:30Z
dc.date.available2023-03-01T12:01:19Z
dc.date.issued2020-02-14
dc.description.abstractClassificação Automática de Texto (ATC), também conhecida como Classificação de Documentos ou Categorização de Texto, é uma tarefa desafiante em processamento de linguagem natural que envolve classificar textos em categorias baseando-se nas propriedades e atributos textuais de cada documento. Recentemente, metodologias de aprendizado profundo têm transformado ATC através de novas estratégias de classificação e criação de novas técnicas de vetorização de palavras, que nada mais é do que a representação de palavras em forma de vetor numérico. Contudo, a maioria dos métodos de redes neurais mostram diversos problemas, incluindo a falta de comparações rigorosas de benchmarks com outros algoritmos tradicionais mais bem estabelecidos (onde a avaliação é feita partir de conjuntos de dados e procedimentos de preprocessamento padronizados). Nesta dissertação, avaliamos diversas métodos, incluindo diferentes arquiteturas de redes neurais como redes neurais de convolução, de atenção, e transformadores bidirecionais e as comparamos com um dos algoritmos de aprendizado de máquina mais tradicionais, denominado Máquinas de Vetor de Suporte (mais conhecido como SVM). Nossos resultados experimentais indicam que, para conjuntos de dados menores, o método de referência mais tradicional e barata (TFIDF com máquinas de vetor de suporte) está entre os melhores desempenhos no geral, superando significativamente abordagens neurais muito mais sofisticadas e caras quando o custo-benefício é considerado. Nos conjuntos de dados maiores, a abordagem neural mais recente que utiliza transform
dc.identifier.urihttps://hdl.handle.net/1843/50545
dc.languageeng
dc.publisherUniversidade Federal de Minas Gerais
dc.rightsAcesso Aberto
dc.subjectComputação — Teses
dc.subjectBanco de Dados — Teses
dc.subjectMachine Learning — Teses
dc.subject.otherText Classification
dc.subject.otherDeep Learning
dc.subject.otherSVM
dc.titleUm estudo comparativo de redes neurais profundas para classificação automática de texto
dc.typeDissertação de mestrado
local.contributor.advisor1Marcos André Gonçalves
local.contributor.advisor1Latteshttp://lattes.cnpq.br/3457219624656691
local.contributor.referee1Jussara Marques de Almeida Gonçalves
local.contributor.referee1Leonardo Chaves Dutra da Rocha
local.creator.Latteshttp://lattes.cnpq.br/9002404231413270
local.description.resumoAutomatic Text Classification (ATC), also known as Document Classification or Text Categorization, is a challenging Natural Language Preprocessing task that involves classifying texts into various categories based on inherent properties or attributes of each text document. Recently, deep learning methodologies have been transforming ATC through new strategies of classification and creation of new word embedding approaches. However, most neural networks methods show several issues, including the lack of rigorous benchmark comparisons with other more well established traditional algorithms (where the evaluation is based on standard datasets and pre-processing procedures). In this master thesis we evaluate several methodologies including different neural networks architectures such as Convolution Neural Networks, Attention Networks and Bidirectional Transformers and compare them to one of the most traditional known machine learning algorithms called Support Vector Machines. Our experimental results, indicate that for the smaller datasets, the simplest and cheaper baseline (TFIDF with Support Vector Machines) is among the best overall performers, clearly beating much more sophisticated and costly neural approaches when a trade-off effectiveness-cost is considered. In the larger datasets, the recently proposed neural approaches based on Transformers do excel, beating (tied) other neural architectures with statistical significance.
local.publisher.countryBrasil
local.publisher.departmentICX - DEPARTAMENTO DE CIÊNCIA DA COMPUTAÇÃO
local.publisher.initialsUFMG
local.publisher.programPrograma de Pós-Graduação em Ciência da Computação

Arquivos

Pacote original

Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
Disserta__o_corrigida_biblioteca (1).pdf
Tamanho:
2.39 MB
Formato:
Adobe Portable Document Format

Licença do pacote

Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
license.txt
Tamanho:
2.07 KB
Formato:
Plain Text
Descrição: