A robust deep convolutional neural network model for text categorization

Edgard de Freitas Junior

Use este identificador para citar ou linkar para este item: http://hdl.handle.net/1843/ESBF-A9UMEU

Tipo:	Dissertação de Mestrado
Título:	A robust deep convolutional neural network model for text categorization
Autor(es):	Edgard de Freitas Junior
Primeiro Orientador:	Adriano Alonso Veloso
Primeiro membro da banca :	Marco Antonio Pinheiro de Cristo
Segundo membro da banca:	Nivio Ziviani
Terceiro membro da banca:	Renato Antonio Celso Ferreira
Quarto membro da banca:	Wagner Meira Junior
Resumo:	Categorização de textos é uma das tarefas mais importantes nas aplicações do domínio do Processamento de Linguagem Natural (PLN), a qual consiste em associar automaticamente categorias pré-definidas a documentos escritos em linguagem natural. Técnicas tradicionais de aprendizado de máquina utilizam características elaboradas manualmente para a construção dos modelos, tais como, n-gramas, palavras de negação, sinais de pontuação, símbolos representando emoções, palavras alongadas e dicionários léxicos. Esta abordagem, chamada de engenharia de características, além de requerer um trabalho árduo, resulta geralmente em modelos que apresentam uma performance ruim em tarefas para os quais não foram especificamente criados. Neste trabalho, propomos um modelo robusto baseado em uma Rede Neural de Convolução (RNC) profunda para aprendizado chamado de PLN profundo. Nosso modelo utiliza uma abordagem composicional, na qual o projeto da arquitetura da RNC profunda induz a criação de uma representação hierárquica para o texto através da descoberta de representações intermediárias para as palavras e sentenças do texto. As representações iniciais para as palavras, chamadas de incorporação de palavras, são obtidas de um modelo de linguagem neural treinado previamente de forma não supervisionada, as quais são ajustadas para o contexto da tarefa para o qual o modelo está sendo treinado. O nosso modelo foi avaliado comparando sua acurácia com os resultados publicados para alguns modelos tradicionais e de aprendizado profundo em tarefas de categorização de textos utilizando seis conjuntos de dados de larga escala. Os resultados mostram que nosso modelo é robusto no sentido de que, mesmo quando nós utilizamos os mesmos parâmetros globais, ele supera a acurácia dos modelos considerados estados da arte em diferentes tarefas de categorização de textos. Os resultados também mostram que a utilização de um dicionário de sinônimos semânticos juntamente com as representações iniciais de palavras ajuda na generalização das representações aprendidas pelo modelo, aumentando sua acurácia.
Abstract:	Text categorization is the task of automatically assigning pre-defined categories to documents written in natural languages and it is one of the most important tasks in Natural Language Processing (NLP) domain applications. Traditional machine learning techniques rely on handcrafted features such as ngrams, negation words, punctuation, emoticons, stop words, elongated words and lexicons to build their models. This approach, called feature engineering, in addition to being labor intensive, results in models that, in general, present poor performance on tasks for what they have not been specifically tailored.In this work, we propose a robust deep learning Convolutional Neural Network (CNN) model named Deep NLP. Our model adopts a compositional approach, in which the design of the deep CNN architecture induces the creation of a hierarchical representation for thetext, through the extraction of intermediate representations for the words and sentences of the text. The initial word representations, called word embeddings, are obtained from a pretrained unsupervised neural language model and they are adjusted for the context of the taskthat the model is being trained. We evaluated our model comparing its accuracy against the results reported by some traditional and deep learning models in text categorization tasks using six large-scale datasets. The results show that our model is robust in the sense that, even when we use the same hyperparameters, it surpasses the accuracy of the state-of-the-art models in different text categorization tasks. The results also show that the use of a semantic synonyms dictionarytogether with the word embeddings helps to generalize the representations learned by the model increasing its accuracy.
Assunto:	Computação Aprendizado do computador Processamento da linguagem natural (Computação)
Idioma:	Inglês
Editor:	Universidade Federal de Minas Gerais
Sigla da Instituição:	UFMG
Tipo de Acesso:	Acesso Aberto
URI:	http://hdl.handle.net/1843/ESBF-A9UMEU
Data do documento:	30-Mar-2016
Aparece nas coleções:	Dissertações de Mestrado

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
edgardfreitas.pdf		9.59 MB	Adobe PDF	Visualizar/Abrir

Mostrar registro completo do item Visualizar estatísticas