Um estudo comparativo de redes neurais profundas para classificação automática de texto
Carregando...
Data
Autor(es)
Título da Revista
ISSN da Revista
Título de Volume
Editor
Universidade Federal de Minas Gerais
Descrição
Tipo
Dissertação de mestrado
Título alternativo
Primeiro orientador
Membros da banca
Jussara Marques de Almeida Gonçalves
Leonardo Chaves Dutra da Rocha
Leonardo Chaves Dutra da Rocha
Resumo
Automatic Text Classification (ATC), also known as Document Classification or Text Categorization, is a challenging Natural Language Preprocessing task that involves classifying texts into various categories based on inherent properties or attributes of each text document. Recently, deep learning methodologies have been transforming ATC through new strategies of classification and creation of new word embedding approaches. However, most neural networks methods show several issues, including the lack of rigorous benchmark comparisons with other more well established traditional algorithms (where the evaluation is based on standard datasets and pre-processing procedures). In this master thesis we evaluate several methodologies including different neural networks architectures such as Convolution Neural Networks, Attention Networks and Bidirectional Transformers and compare them to one of the most traditional known machine learning algorithms called Support Vector Machines. Our experimental results, indicate that for the smaller datasets, the simplest and cheaper baseline (TFIDF with Support Vector Machines) is among the best overall performers, clearly beating much more sophisticated and costly neural approaches when a trade-off effectiveness-cost is considered. In the larger datasets, the recently proposed neural approaches based on Transformers do excel, beating (tied) other neural architectures with statistical significance.
Abstract
Classificação Automática de Texto (ATC), também conhecida como Classificação de Documentos ou Categorização de Texto, é uma tarefa desafiante em processamento de linguagem natural que envolve classificar textos em categorias baseando-se nas propriedades e atributos textuais de cada documento. Recentemente, metodologias de aprendizado profundo têm transformado ATC através de novas estratégias de classificação e criação de novas técnicas de vetorização de palavras, que nada mais é do que a representação de palavras em forma de vetor numérico. Contudo, a maioria dos métodos de redes neurais mostram diversos problemas, incluindo a falta de comparações rigorosas de benchmarks com outros algoritmos tradicionais mais bem estabelecidos (onde a avaliação é feita partir de conjuntos de dados e procedimentos de preprocessamento padronizados). Nesta dissertação, avaliamos diversas métodos, incluindo diferentes arquiteturas de redes neurais como redes neurais de convolução, de atenção, e transformadores bidirecionais e as comparamos com um dos algoritmos de aprendizado de máquina mais tradicionais, denominado Máquinas de Vetor de Suporte (mais conhecido como SVM). Nossos resultados experimentais indicam que, para conjuntos de dados menores, o método de referência mais tradicional e barata (TFIDF com máquinas de vetor de suporte) está entre os melhores desempenhos no geral, superando significativamente abordagens neurais muito mais sofisticadas e caras quando o custo-benefício é considerado. Nos conjuntos de dados maiores, a abordagem neural mais recente que utiliza transform
Assunto
Computação — Teses, Banco de Dados — Teses, Machine Learning — Teses
Palavras-chave
Text Classification, Deep Learning, SVM