Uso de sintagmas nominais na classificação automática de documentos eletrônicos

Luiz Claudio Gomes Maia

Please use this identifier to cite or link to this item: http://hdl.handle.net/1843/ECID-7NXJKZ

Full metadata record

DC Field	Value	Language
dc.contributor.advisor1	Renato Rocha Souza	pt_BR
dc.contributor.referee1	George Leal Jamil	pt_BR
dc.contributor.referee2	Marcello Peixoto Bax	pt_BR
dc.contributor.referee3	Beatriz Valadares Cendon	pt_BR
dc.contributor.referee4	Manoel Palhares Moreira	pt_BR
dc.creator	Luiz Claudio Gomes Maia	pt_BR
dc.date.accessioned	2019-08-13T18:47:13Z	-
dc.date.available	2019-08-13T18:47:13Z	-
dc.date.issued	2008-12-12	pt_BR
dc.identifier.uri	http://hdl.handle.net/1843/ECID-7NXJKZ	-
dc.description.abstract	This research work presents a proposal for the classification of electronic documents using techniques and algorithms based on natural language processing and noun phrases indexing along with plain keywords. Two tools, OGMA and Weka, were used for the experiments proposed. OGMA was developed by the author to automate the extraction of noun phrases and to perform the calculation of the weight of each termin the process of document indexing for each of the six proposed methods. The WEKA was used to analyze the OGMA results using the algorithms of clustering and classification "Simplekmeans" and "NaiveBayes", respectively. This process resulted in a percentage value indicating how many documents were classified correctly. The bestperforming methods were those with the terms without stopwords and the classified and scored noun phrases.	pt_BR
dc.description.resumo	Esta pesquisa verificou se ocorre aprimoramento na classificação de documentos eletrônicos com o uso de técnicas e algoritmos de mineração de texto (análise de texto) utilizando além das palavras, sintagmas nominais como indexadores. Utilizaram-se duas ferramentas nos experimentos propostos desta pesquisa o OGMA e a WEKA. O OGMA foi desenvolvido pelo autor para automatizar a extração dos sintagmas nominas e o cálculo do peso de cada termo na indexação dos documentos para cada um dos seis métodos propostos. A WEKA foi utilizada analisar os resultados encontrados pelo OGMA utilizando aos algoritmos de agrupamento e classificação, simplekmeans e NaiveBayes, respectivamente, obtendo um valor percentual indicando quantos documentos foram classificados corretamente. Os métodos com melhores resultados foram o de termos sem stopwords e o de sintagmas nominais classificados e pontuados como descritores.	pt_BR
dc.language	Português	pt_BR
dc.publisher	Universidade Federal de Minas Gerais	pt_BR
dc.publisher.initials	UFMG	pt_BR
dc.rights	Acesso Aberto	pt_BR
dc.subject	automática	pt_BR
dc.subject	Indexação	pt_BR
dc.subject	Sintagmas nominas	pt_BR
dc.subject	Análise de texto	pt_BR
dc.subject	Agrupamento automático de documentos	pt_BR
dc.subject.other	Indexação automatica	pt_BR
dc.subject.other	Ciência da informação	pt_BR
dc.subject.other	Sistemas de recuperação da informação	pt_BR
dc.subject.other	Processamento da linguagem natural (Computação)	pt_BR
dc.title	Uso de sintagmas nominais na classificação automática de documentos eletrônicos	pt_BR
dc.type	Tese de Doutorado	pt_BR
Appears in Collections:	Teses de Doutorado

Files in This Item:

File	Description	Size	Format
tesefinal.pdf		6.33 MB	Adobe PDF	View/Open

Show simple item record