Please use this identifier to cite or link to this item: http://hdl.handle.net/1843/EARM-7HBND8
Type: Tese de Doutorado
Title: SIRILICO - Uma proposta para um Sistema de Recuperação de Informação baseado em Teorias da Lingüística computacional e Ontologia
Authors: Claudio Gottschalg Duque
First Advisor: Marlene de Oliveira
First Referee: Lidia Alvarenga
Second Referee: Rui Rothe-neves
Third Referee: Hélio Kuramoto
metadata.dc.contributor.referee4: Jose Wilson da Costa
Abstract: Este trabalho apresenta estudos para a administração de documentos eletrônicos através de um embasamento cognitivista. Propõe-se uma indexação de textos eletrônicos, disponibilizados em língua portuguesa, por meio da aplicação de teorias de lingüística computacional e utilização de ontologia. A técnica empregada para a indexação é baseada principalmente na teoria de Análise Proposicional proposta por Frederiksen (1975). É baseada na extração de etiquetas sintáticas das palavras que compõem os documentos para a geração de etiquetas semânticas dessas palavras, para então gerar uma ontologia leve automaticamente. Ao longo deste trabalho são sugeridas várias contribuições, que visam otimizar o desempenho de Sistemas de Recuperação de Informação, por meio da utilização de técnicas que permitam contextualizar as palavras dos textos a serem indexados. Tais contribuições incluem desde a otimização de analisadores sintáticos, até a geração automática de ontologias leves. Inicialmente um corpus, que é uma pequena coleção de documentos eletrônicos sobre Ciência da Informação, escritos em língua portuguesa e disponibilizados na Web, foi criada. Esta coleção foi utilizada para testar o protótipo construído. O protótipo, nomeado SiRILiCO (Sistema de Recuperação de Informação baseado em Teorias da Lingüística Computacional e Ontologia), foi utilizado em um experimento-piloto e posteriormente em outro experimento, com o intuito de verificar e validar a hipótese de que é possível desenvolver e implementar um Sistema de Recuperação de Informação totalmente baseado em teorias lingüísticas, teorias de lingüística computacional e ontologia. Os resultados de precisão e revocação dos experimentos realizados com o SiRILiCO são comparados com os resultados obtidos com a utilização de um modelo vetorial. A análise dos resultados sugere que não só é viável a hipótese defendida como também é muito promissora.
Abstract: This work presents studies for the administration of electronic documents using a cognitive approach. We propose an automatic index generation of eletronic texts write in Brazilian Portuguese using linguistic theories, theories of computacional linguistics and ontology. The technique used to create the index is based mainly on the theory of Proposicional Analysis proposed by Frederiksen (1975) and it is based on the extraction of syntactic labels of the words that compose the documents for the generation of semantic labels of those words, for then to generate a lightweight ontology automatically. We suggest, during this work, several contribuitions to improve the Information Retrieval Systems performance, using several techniques that allow context words of indexing texts. Such contributions include optimize syntactic parsers, as well as the automatic generation of lightweight ontologies. Initially a corpus, a small collection of electronic documents about Information Science, written in Brazilian Portuguese and available in the Web, was created. This collection was used to test the prototype. The prototype, nominated SiRILiCO (Information Retrieval System based on Computacional LinguisticTheories and Ontology), was used in a first experiment and later in an experiment to verify and to validate the hypothesis that is possible to develop and to implement an Information Retrieval System totally based on linguistic theories, theories of computacional linguistics and ontology. The SiRILiCOs experiments results of precision and recall are compared with the results obtained with the use of a vectorial model. The analysis of the results suggests that not only it is a possible hypothesis as well as it is very promising.
Subject: Ciência da informação
Sistemas de recuperação da informação
language: Português
Publisher: Universidade Federal de Minas Gerais
Publisher Initials: UFMG
Rights: Acesso Aberto
URI: http://hdl.handle.net/1843/EARM-7HBND8
Issue Date: 23-May-2005
Appears in Collections:Teses de Doutorado

Files in This Item:
File Description SizeFormat 
doutorado___claudio_gottschalg_duque___parcial.pdf3.16 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.