A robust deep convolutional neural network model for text categorization

Edgard de Freitas Junior

Please use this identifier to cite or link to this item: http://hdl.handle.net/1843/ESBF-A9UMEU

Type:	Dissertação de Mestrado
Title:	A robust deep convolutional neural network model for text categorization
Authors:	Edgard de Freitas Junior
First Advisor:	Adriano Alonso Veloso
First Referee:	Marco Antonio Pinheiro de Cristo
Second Referee:	Nivio Ziviani
Third Referee:	Renato Antonio Celso Ferreira
metadata.dc.contributor.referee4:	Wagner Meira Junior
Abstract:	Categorização de textos é uma das tarefas mais importantes nas aplicações do domínio do Processamento de Linguagem Natural (PLN), a qual consiste em associar automaticamente categorias pré-definidas a documentos escritos em linguagem natural. Técnicas tradicionais de aprendizado de máquina utilizam características elaboradas manualmente para a construção dos modelos, tais como, n-gramas, palavras de negação, sinais de pontuação, símbolos representando emoções, palavras alongadas e dicionários léxicos. Esta abordagem, chamada de engenharia de características, além de requerer um trabalho árduo, resulta geralmente em modelos que apresentam uma performance ruim em tarefas para os quais não foram especificamente criados. Neste trabalho, propomos um modelo robusto baseado em uma Rede Neural de Convolução (RNC) profunda para aprendizado chamado de PLN profundo. Nosso modelo utiliza uma abordagem composicional, na qual o projeto da arquitetura da RNC profunda induz a criação de uma representação hierárquica para o texto através da descoberta de representações intermediárias para as palavras e sentenças do texto. As representações iniciais para as palavras, chamadas de incorporação de palavras, são obtidas de um modelo de linguagem neural treinado previamente de forma não supervisionada, as quais são ajustadas para o contexto da tarefa para o qual o modelo está sendo treinado. O nosso modelo foi avaliado comparando sua acurácia com os resultados publicados para alguns modelos tradicionais e de aprendizado profundo em tarefas de categorização de textos utilizando seis conjuntos de dados de larga escala. Os resultados mostram que nosso modelo é robusto no sentido de que, mesmo quando nós utilizamos os mesmos parâmetros globais, ele supera a acurácia dos modelos considerados estados da arte em diferentes tarefas de categorização de textos. Os resultados também mostram que a utilização de um dicionário de sinônimos semânticos juntamente com as representações iniciais de palavras ajuda na generalização das representações aprendidas pelo modelo, aumentando sua acurácia.
Abstract:	Text categorization is the task of automatically assigning pre-defined categories to documents written in natural languages and it is one of the most important tasks in Natural Language Processing (NLP) domain applications. Traditional machine learning techniques rely on handcrafted features such as ngrams, negation words, punctuation, emoticons, stop words, elongated words and lexicons to build their models. This approach, called feature engineering, in addition to being labor intensive, results in models that, in general, present poor performance on tasks for what they have not been specifically tailored.In this work, we propose a robust deep learning Convolutional Neural Network (CNN) model named Deep NLP. Our model adopts a compositional approach, in which the design of the deep CNN architecture induces the creation of a hierarchical representation for thetext, through the extraction of intermediate representations for the words and sentences of the text. The initial word representations, called word embeddings, are obtained from a pretrained unsupervised neural language model and they are adjusted for the context of the taskthat the model is being trained. We evaluated our model comparing its accuracy against the results reported by some traditional and deep learning models in text categorization tasks using six large-scale datasets. The results show that our model is robust in the sense that, even when we use the same hyperparameters, it surpasses the accuracy of the state-of-the-art models in different text categorization tasks. The results also show that the use of a semantic synonyms dictionarytogether with the word embeddings helps to generalize the representations learned by the model increasing its accuracy.
Subject:	Computação Aprendizado do computador Processamento da linguagem natural (Computação)
language:	Inglês
Publisher:	Universidade Federal de Minas Gerais
Publisher Initials:	UFMG
Rights:	Acesso Aberto
URI:	http://hdl.handle.net/1843/ESBF-A9UMEU
Issue Date:	30-Mar-2016
Appears in Collections:	Dissertações de Mestrado

Files in This Item:

File	Description	Size	Format
edgardfreitas.pdf		9.59 MB	Adobe PDF	View/Open

Show full item record