O uso do sintagma nominal na recuperação de documentos: proposta de um mecanismo automático para classificação temática de textos digitais

Agnaldo Lopes Martins

Please use this identifier to cite or link to this item: http://hdl.handle.net/1843/BUOS-9RQHC6

Full metadata record

DC Field	Value	Language
dc.contributor.advisor1	Renato Rocha Souza	pt_BR
dc.contributor.referee1	Flavio Codeco Coelho	pt_BR
dc.contributor.referee2	Luiz Claudio Gomes Maia	pt_BR
dc.contributor.referee3	Manoel Palhares Moreira	pt_BR
dc.contributor.referee4	Heliana Ribeiro de Mello	pt_BR
dc.contributor.referee5	Maria Aparecida Moura	pt_BR
dc.creator	Agnaldo Lopes Martins	pt_BR
dc.date.accessioned	2019-08-10T01:18:50Z	-
dc.date.available	2019-08-10T01:18:50Z	-
dc.date.issued	2014-08-18	pt_BR
dc.identifier.uri	http://hdl.handle.net/1843/BUOS-9RQHC6	-
dc.description.abstract	This thesis aimed to evaluate the use of the noun phrase as a data source for an automatic classification of text documents stored in digital format. Various technological tools that have transformed scientific articles in a list of noun phrases that have been used for a classifier system based on supervised learning training. Among the tools used the words were responsible for the identification and removal of noun phrases of corporas. For training the classifier machine the application SVMLight was used. The methodology was developed in two stages; the first qualitative test was performed when comparing the documents of the corpus; and in the second stage SVM training was conducted using a larger number of documents. At the end, several tests were performed and it is possible to demonstrate that the proposed methodology was able to classify documents with high precision.	pt_BR
dc.description.resumo	Esta tese objetivou avaliar o uso do sintagma nominal como fonte de dados para um sistema automático de classificação de documentos textuais armazenados no formato digital. Foram utilizadas diversas ferramentas tecnológicas que transformaram artigos científicos em uma lista de sintagmas nominais que foram utilizados para treinamento de um sistema classificador baseado em treinamento supervisionado. Dentre as ferramentas utilizadas o software Palavras foi o responsável pela identificação e remoção dos sintagmas nominais dos corporas utilizados. Para treinamento da máquina classificadora foi utilizado o aplicativo SVMLight. A metodologia foi desenvolvida em duas etapas; na primeira foi realizado um teste qualitativo na comparação entre os documentos do corpus; e na segunda etapa foi realizado o treinamento utilizando SVM com um número maior de documentos. Ao final, vários testes foram realizados sendo possível demonstrar que a metodologia proposta foi capaz de classificar documentos com alta precisão.	pt_BR
dc.language	Português	pt_BR
dc.publisher	Universidade Federal de Minas Gerais	pt_BR
dc.publisher.initials	UFMG	pt_BR
dc.rights	Acesso Aberto	pt_BR
dc.subject	Processamento da linguagem natural	pt_BR
dc.subject	Sintagmas nominais	pt_BR
dc.subject	Classificação de documentos	pt_BR
dc.subject	Sistemas de recuperação da informação	pt_BR
dc.subject.other	Indexação automática	pt_BR
dc.subject.other	Sistemas de recuperação da informação	pt_BR
dc.subject.other	Ciência da informação	pt_BR
dc.subject.other	Processamento da linguagem natural (Computação)	pt_BR
dc.title	O uso do sintagma nominal na recuperação de documentos: proposta de um mecanismo automático para classificação temática de textos digitais	pt_BR
dc.type	Tese de Doutorado	pt_BR
Appears in Collections:	Teses de Doutorado

Files in This Item:

File	Description	Size	Format
tese_doutorado___entregue_no_cd_em_28112014.pdf		3.08 MB	Adobe PDF	View/Open

Show simple item record