Uma proposta de metodologia para escolha automática de descritores utilizando sintagmas nominais

Renato Rocha Souza

Please use this identifier to cite or link to this item: http://hdl.handle.net/1843/RRSA-6GGGUF

Full metadata record

DC Field	Value	Language
dc.contributor.advisor1	Lidia Alvarenga	pt_BR
dc.contributor.referee1	Beatriz Valadares Cendon	pt_BR
dc.contributor.referee2	Maria Eugenia Albino Andrade	pt_BR
dc.contributor.referee3	Hélio Kuramoto	pt_BR
dc.contributor.referee4	Renata Vieira	pt_BR
dc.creator	Renato Rocha Souza	pt_BR
dc.date.accessioned	2019-08-14T05:20:57Z	-
dc.date.available	2019-08-14T05:20:57Z	-
dc.date.issued	2005-05-04	pt_BR
dc.identifier.uri	http://hdl.handle.net/1843/RRSA-6GGGUF	-
dc.description.abstract	Since manual indexing was found impossible for some document processing contexts, researchers seek alternatives to represent documents subjects automatically. The most common processes try to determine documents subjects through the analysis of words' frequencies. Searching for a better indexing process which analyses words and expressions within their linguistics contexts, three assumptions are made: (1) using noun phrases as descriptors is better than using keywords; (2) the extraction of the noun phrases from digitalized textual documents is possible and viable with the software tools available and (3) it is possible to establish an automated and functional process to choose good descriptors for documents using noun phrases. The aim of this research was to develop a methodology that would enable the indexation of digitalized documents through the extraction of the noun phrases and analysis of characteristics such as: (1) the frequency of occurrence of the noun phrases in the text of the document; (2) The frequency of occurrence in the whole set of documents; (3) the structure of the noun phrase; (4) the level of the noun phrase and (5) the occurrence of the noun phrase in a thesaurus of the subjects field. In order to reach this goal, the following pieces were analyzed (a) a corpus made of 15 documents from winch the noun phrases were extracted manually, to test the automatic extraction and (b) a corpus made of 60 documents coming from the field of information science. The methodology proposed was applied initially to part of the corpus for validation and calibration purposes, and then it was again applied, with some changes, to the whole corpus. The results presented showed a great deal of adequateness of the descriptors associated to the documents and this led to the conclusion that the methodology is unequivocally successful in the studied conditions.	pt_BR
dc.description.resumo	Desde que se tornaram inviáveis em alguns contextos os processos manuais de indexação de documentos, buscam-se alternativas eficazes que possibilitem a representação automática dos assuntos principais desses documentos. Os processos mais comuns de indexação automática descrevem os documentos através de uma lógica simplista advinda da análise de freqüência das palavras que neles ocorrem. Buscando propor processo de indexação mais eficaz, que analise as palavras e expressões no âmbito de seus contextos lingüísticos, três pressupostos são definidos: (1) a utilização de sintagmas nominais como descritores apresenta vantagens em relação ao uso de palavras-chave; (2) a extração de sintagmas nominais de textos de documentos digitalizados é possível e viável com ferramentas tecnológicas atualmente disponíveis e (3) é possível estabelecer processo automatizado e eficaz para escolha de descritores significativos para documentos digitalizados, utilizando sintagmas nominais. O objetivo da presente pesquisa é apresentar uma metodologia para viabilizar o processo de atribuição de descritores a textos digitalizados indexação através da extração de sintagmas nominais e da análise de fatores como a freqüência de ocorrência desses sintagmas nominais nos textos dos documentos, no conjunto dos documentos; a estrutura dos sintagmas nominais; o nível dos sintagmas nominais e a ocorrência desses em tesauro de um campo de conhecimento específico. Para atingir esse objetivo são analisados (a) um corpus de 15 documentos dos quais foram extraídos os sintagmas nominais manualmente, para testar o processo de extração automática e (b) um corpus de 60 documentos provenientes de publicações eletrônicas da área de ciência da informação. A metodologia proposta foi aplicada inicialmente a parte do corpus para validação e parametrização das variáveis do algoritmo, e então novamente aplicada, com alterações, à totalidade do corpus. Os resultados apresentados demonstraram grande pertinência dos descritores atribuídos aos documentos e permitiram concluir que a metodologia obtém sucesso inequívoco nas condições estudadas.	pt_BR
dc.language	Português	pt_BR
dc.publisher	Universidade Federal de Minas Gerais	pt_BR
dc.publisher.initials	UFMG	pt_BR
dc.rights	Acesso Aberto	pt_BR
dc.subject	Sistemas de Recuperação de Informações	pt_BR
dc.subject	Sintagmas Nominais	pt_BR
dc.subject	Indexação Automática	pt_BR
dc.subject.other	Ciência da informação	pt_BR
dc.subject.other	Sistemas de recuperação da informação	pt_BR
dc.subject.other	Indexação automática	pt_BR
dc.title	Uma proposta de metodologia para escolha automática de descritores utilizando sintagmas nominais	pt_BR
dc.type	Tese de Doutorado	pt_BR
Appears in Collections:	Teses de Doutorado

Files in This Item:

File	Size	Format
doutorado___renato_rocha_souza.pdf	3.67 MB	Adobe PDF	View/Open

Show simple item record