Please use this identifier to cite or link to this item: http://hdl.handle.net/1843/50545
Type: Dissertação
Title: Um estudo comparativo de redes neurais profundas para classificação automática de texto
Authors: Elaine Cristina Resende Cândido
First Advisor: Marcos André Gonçalves
First Referee: Jussara Marques de Almeida Gonçalves
Second Referee: Leonardo Chaves Dutra da Rocha
Abstract: Automatic Text Classification (ATC), also known as Document Classification or Text Categorization, is a challenging Natural Language Preprocessing task that involves classifying texts into various categories based on inherent properties or attributes of each text document. Recently, deep learning methodologies have been transforming ATC through new strategies of classification and creation of new word embedding approaches. However, most neural networks methods show several issues, including the lack of rigorous benchmark comparisons with other more well established traditional algorithms (where the evaluation is based on standard datasets and pre-processing procedures). In this master thesis we evaluate several methodologies including different neural networks architectures such as Convolution Neural Networks, Attention Networks and Bidirectional Transformers and compare them to one of the most traditional known machine learning algorithms called Support Vector Machines. Our experimental results, indicate that for the smaller datasets, the simplest and cheaper baseline (TFIDF with Support Vector Machines) is among the best overall performers, clearly beating much more sophisticated and costly neural approaches when a trade-off effectiveness-cost is considered. In the larger datasets, the recently proposed neural approaches based on Transformers do excel, beating (tied) other neural architectures with statistical significance.
Abstract: Classificação Automática de Texto (ATC), também conhecida como Classificação de Documentos ou Categorização de Texto, é uma tarefa desafiante em processamento de linguagem natural que envolve classificar textos em categorias baseando-se nas propriedades e atributos textuais de cada documento. Recentemente, metodologias de aprendizado profundo têm transformado ATC através de novas estratégias de classificação e criação de novas técnicas de vetorização de palavras, que nada mais é do que a representação de palavras em forma de vetor numérico. Contudo, a maioria dos métodos de redes neurais mostram diversos problemas, incluindo a falta de comparações rigorosas de benchmarks com outros algoritmos tradicionais mais bem estabelecidos (onde a avaliação é feita partir de conjuntos de dados e procedimentos de preprocessamento padronizados). Nesta dissertação, avaliamos diversas métodos, incluindo diferentes arquiteturas de redes neurais como redes neurais de convolução, de atenção, e transformadores bidirecionais e as comparamos com um dos algoritmos de aprendizado de máquina mais tradicionais, denominado Máquinas de Vetor de Suporte (mais conhecido como SVM). Nossos resultados experimentais indicam que, para conjuntos de dados menores, o método de referência mais tradicional e barata (TFIDF com máquinas de vetor de suporte) está entre os melhores desempenhos no geral, superando significativamente abordagens neurais muito mais sofisticadas e caras quando o custo-benefício é considerado. Nos conjuntos de dados maiores, a abordagem neural mais recente que utiliza transform
Subject: Computação — Teses
Banco de Dados — Teses
Machine Learning — Teses
language: eng
metadata.dc.publisher.country: Brasil
Publisher: Universidade Federal de Minas Gerais
Publisher Initials: UFMG
metadata.dc.publisher.department: ICX - DEPARTAMENTO DE CIÊNCIA DA COMPUTAÇÃO
metadata.dc.publisher.program: Programa de Pós-Graduação em Ciência da Computação
Rights: Acesso Aberto
URI: http://hdl.handle.net/1843/50545
Issue Date: 14-Feb-2020
Appears in Collections:Dissertações de Mestrado

Files in This Item:
File Description SizeFormat 
Disserta__o_corrigida_biblioteca (1).pdf2.45 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.