O uso do sintagma nominal na recuperação de documentos: proposta de um mecanismo automático para classificação temática de textos digitais

Agnaldo Lopes Martins

O uso do sintagma nominal na recuperação de documentos: proposta de um mecanismo automático para classificação temática de textos digitais

Arquivos

tese_doutorado___entregue_no_cd_em_28112014.pdf (3.01 MB)

Data

2014-08-18

Autor(es)

Agnaldo Lopes Martins

Editor

Universidade Federal de Minas Gerais

Tipo

Tese de doutorado

Primeiro orientador

Renato Rocha Souza

Membros da banca

Flavio Codeco Coelho
Luiz Claudio Gomes Maia
Manoel Palhares Moreira
Heliana Ribeiro de Mello
Maria Aparecida Moura

Resumo

Esta tese objetivou avaliar o uso do sintagma nominal como fonte de dados para um sistema automático de classificação de documentos textuais armazenados no formato digital. Foram utilizadas diversas ferramentas tecnológicas que transformaram artigos científicos em uma lista de sintagmas nominais que foram utilizados para treinamento de um sistema classificador baseado em treinamento supervisionado. Dentre as ferramentas utilizadas o software Palavras foi o responsável pela identificação e remoção dos sintagmas nominais dos corporas utilizados. Para treinamento da máquina classificadora foi utilizado o aplicativo SVMLight. A metodologia foi desenvolvida em duas etapas; na primeira foi realizado um teste qualitativo na comparação entre os documentos do corpus; e na segunda etapa foi realizado o treinamento utilizando SVM com um número maior de documentos. Ao final, vários testes foram realizados sendo possível demonstrar que a metodologia proposta foi capaz de classificar documentos com alta precisão.

Abstract

This thesis aimed to evaluate the use of the noun phrase as a data source for an automatic classification of text documents stored in digital format. Various technological tools that have transformed scientific articles in a list of noun phrases that have been used for a classifier system based on supervised learning training. Among the tools used the words were responsible for the identification and removal of noun phrases of corporas. For training the classifier machine the application SVMLight was used. The methodology was developed in two stages; the first qualitative test was performed when comparing the documents of the corpus; and in the second stage SVM training was conducted using a larger number of documents. At the end, several tests were performed and it is possible to demonstrate that the proposed methodology was able to classify documents with high precision.

Assunto

Indexação automática, Sistemas de recuperação da informação, Ciência da informação, Processamento da linguagem natural (Computação)

Palavras-chave

Processamento da linguagem natural, Sintagmas nominais, Classificação de documentos, Sistemas de recuperação da informação

URI

https://hdl.handle.net/1843/BUOS-9RQHC6

Coleções

Pós-Graduação em Ciência da Informação - Teses

Página do item completo

O uso do sintagma nominal na recuperação de documentos: proposta de um mecanismo automático para classificação temática de textos digitais

Arquivos

Data

Autor(es)

Título da Revista

ISSN da Revista

Título de Volume

Editor

Descrição

Tipo

Título alternativo

Primeiro orientador

Membros da banca

Resumo

Abstract

Assunto

Palavras-chave

Citação

URI

Departamento

Curso

Endereço externo

Coleções

Avaliação

Revisão

Suplementado Por

Referenciado Por