Uso de sintagmas nominais na classificação automática de documentos eletrônicos

Luiz Claudio Gomes Maia

Use este identificador para citar o ir al link de este elemento: http://hdl.handle.net/1843/ECID-7NXJKZ

Tipo:	Tese de Doutorado
Título:	Uso de sintagmas nominais na classificação automática de documentos eletrônicos
Autor(es):	Luiz Claudio Gomes Maia
primer Tutor:	Renato Rocha Souza
primer miembro del tribunal :	George Leal Jamil
Segundo miembro del tribunal:	Marcello Peixoto Bax
Tercer miembro del tribunal:	Beatriz Valadares Cendon
Cuarto miembro del tribunal:	Manoel Palhares Moreira
Resumen:	Esta pesquisa verificou se ocorre aprimoramento na classificação de documentos eletrônicos com o uso de técnicas e algoritmos de mineração de texto (análise de texto) utilizando além das palavras, sintagmas nominais como indexadores. Utilizaram-se duas ferramentas nos experimentos propostos desta pesquisa o OGMA e a WEKA. O OGMA foi desenvolvido pelo autor para automatizar a extração dos sintagmas nominas e o cálculo do peso de cada termo na indexação dos documentos para cada um dos seis métodos propostos. A WEKA foi utilizada analisar os resultados encontrados pelo OGMA utilizando aos algoritmos de agrupamento e classificação, simplekmeans e NaiveBayes, respectivamente, obtendo um valor percentual indicando quantos documentos foram classificados corretamente. Os métodos com melhores resultados foram o de termos sem stopwords e o de sintagmas nominais classificados e pontuados como descritores.
Abstract:	This research work presents a proposal for the classification of electronic documents using techniques and algorithms based on natural language processing and noun phrases indexing along with plain keywords. Two tools, OGMA and Weka, were used for the experiments proposed. OGMA was developed by the author to automate the extraction of noun phrases and to perform the calculation of the weight of each termin the process of document indexing for each of the six proposed methods. The WEKA was used to analyze the OGMA results using the algorithms of clustering and classification "Simplekmeans" and "NaiveBayes", respectively. This process resulted in a percentage value indicating how many documents were classified correctly. The bestperforming methods were those with the terms without stopwords and the classified and scored noun phrases.
Asunto:	Indexação automatica Ciência da informação Sistemas de recuperação da informação Processamento da linguagem natural (Computação)
Idioma:	Português
Editor:	Universidade Federal de Minas Gerais
Sigla da Institución:	UFMG
Tipo de acceso:	Acesso Aberto
URI:	http://hdl.handle.net/1843/ECID-7NXJKZ
Fecha del documento:	12-dic-2008
Aparece en las colecciones:	Teses de Doutorado

archivos asociados a este elemento:

archivo	Descripción	Tamaño	Formato
tesefinal.pdf		6.33 MB	Adobe PDF	Visualizar/Abrir

Mostrar registro completo del elemento Visualizar estadísticas