Uso de sintagmas nominais na classificação automática de documentos eletrônicos

dc.creatorLuiz Claudio Gomes Maia
dc.date.accessioned2019-08-13T18:47:13Z
dc.date.accessioned2025-09-08T23:26:30Z
dc.date.available2019-08-13T18:47:13Z
dc.date.issued2008-12-12
dc.description.abstractThis research work presents a proposal for the classification of electronic documents using techniques and algorithms based on natural language processing and noun phrases indexing along with plain keywords. Two tools, OGMA and Weka, were used for the experiments proposed. OGMA was developed by the author to automate the extraction of noun phrases and to perform the calculation of the weight of each termin the process of document indexing for each of the six proposed methods. The WEKA was used to analyze the OGMA results using the algorithms of clustering and classification "Simplekmeans" and "NaiveBayes", respectively. This process resulted in a percentage value indicating how many documents were classified correctly. The bestperforming methods were those with the terms without stopwords and the classified and scored noun phrases.
dc.identifier.urihttps://hdl.handle.net/1843/ECID-7NXJKZ
dc.languagePortuguês
dc.publisherUniversidade Federal de Minas Gerais
dc.rightsAcesso Aberto
dc.subjectIndexação automatica
dc.subjectCiência da informação
dc.subjectSistemas de recuperação da informação
dc.subjectProcessamento da linguagem natural (Computação)
dc.subject.otherautomática
dc.subject.otherIndexação
dc.subject.otherSintagmas nominas
dc.subject.otherAnálise de texto
dc.subject.otherAgrupamento automático de documentos
dc.titleUso de sintagmas nominais na classificação automática de documentos eletrônicos
dc.typeTese de doutorado
local.contributor.advisor1Renato Rocha Souza
local.contributor.referee1George Leal Jamil
local.contributor.referee1Marcello Peixoto Bax
local.contributor.referee1Beatriz Valadares Cendon
local.contributor.referee1Manoel Palhares Moreira
local.description.resumoEsta pesquisa verificou se ocorre aprimoramento na classificação de documentos eletrônicos com o uso de técnicas e algoritmos de mineração de texto (análise de texto) utilizando além das palavras, sintagmas nominais como indexadores. Utilizaram-se duas ferramentas nos experimentos propostos desta pesquisa o OGMA e a WEKA. O OGMA foi desenvolvido pelo autor para automatizar a extração dos sintagmas nominas e o cálculo do peso de cada termo na indexação dos documentos para cada um dos seis métodos propostos. A WEKA foi utilizada analisar os resultados encontrados pelo OGMA utilizando aos algoritmos de agrupamento e classificação, simplekmeans e NaiveBayes, respectivamente, obtendo um valor percentual indicando quantos documentos foram classificados corretamente. Os métodos com melhores resultados foram o de termos sem stopwords e o de sintagmas nominais classificados e pontuados como descritores.
local.publisher.initialsUFMG

Arquivos

Pacote original

Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
tesefinal.pdf
Tamanho:
6.18 MB
Formato:
Adobe Portable Document Format