SIRILICO - Uma proposta para um Sistema de Recuperação de Informação baseado em Teorias da Lingüística computacional e Ontologia

dc.creatorClaudio Gottschalg Duque
dc.date.accessioned2019-08-11T05:36:30Z
dc.date.accessioned2025-09-09T00:59:44Z
dc.date.available2019-08-11T05:36:30Z
dc.date.issued2005-05-23
dc.description.abstractThis work presents studies for the administration of electronic documents using a cognitive approach. We propose an automatic index generation of eletronic texts write in Brazilian Portuguese using linguistic theories, theories of computacional linguistics and ontology. The technique used to create the index is based mainly on the theory of Proposicional Analysis proposed by Frederiksen (1975) and it is based on the extraction of syntactic labels of the words that compose the documents for the generation of semantic labels of those words, for then to generate a lightweight ontology automatically. We suggest, during this work, several contribuitions to improve the Information Retrieval Systems performance, using several techniques that allow context words of indexing texts. Such contributions include optimize syntactic parsers, as well as the automatic generation of lightweight ontologies. Initially a corpus, a small collection of electronic documents about Information Science, written in Brazilian Portuguese and available in the Web, was created. This collection was used to test the prototype. The prototype, nominated SiRILiCO (Information Retrieval System based on Computacional LinguisticTheories and Ontology), was used in a first experiment and later in an experiment to verify and to validate the hypothesis that is possible to develop and to implement an Information Retrieval System totally based on linguistic theories, theories of computacional linguistics and ontology. The SiRILiCOs experiments results of precision and recall are compared with the results obtained with the use of a vectorial model. The analysis of the results suggests that not only it is a possible hypothesis as well as it is very promising.
dc.identifier.urihttps://hdl.handle.net/1843/EARM-7HBND8
dc.languagePortuguês
dc.publisherUniversidade Federal de Minas Gerais
dc.rightsAcesso Aberto
dc.subjectCiência da informação
dc.subjectSistemas de recuperação da informação
dc.subject.otherSIRILICO
dc.subject.otherCiência da informação
dc.subject.otherAnálise proposicional
dc.subject.otherSistemas de recuperação de informação
dc.titleSIRILICO - Uma proposta para um Sistema de Recuperação de Informação baseado em Teorias da Lingüística computacional e Ontologia
dc.typeTese de doutorado
local.contributor.advisor1Marlene de Oliveira
local.contributor.referee1Lidia Alvarenga
local.contributor.referee1Rui Rothe-neves
local.contributor.referee1Hélio Kuramoto
local.contributor.referee1Jose Wilson da Costa
local.description.resumoEste trabalho apresenta estudos para a administração de documentos eletrônicos através de um embasamento cognitivista. Propõe-se uma indexação de textos eletrônicos, disponibilizados em língua portuguesa, por meio da aplicação de teorias de lingüística computacional e utilização de ontologia. A técnica empregada para a indexação é baseada principalmente na teoria de Análise Proposicional proposta por Frederiksen (1975). É baseada na extração de etiquetas sintáticas das palavras que compõem os documentos para a geração de etiquetas semânticas dessas palavras, para então gerar uma ontologia leve automaticamente. Ao longo deste trabalho são sugeridas várias contribuições, que visam otimizar o desempenho de Sistemas de Recuperação de Informação, por meio da utilização de técnicas que permitam contextualizar as palavras dos textos a serem indexados. Tais contribuições incluem desde a otimização de analisadores sintáticos, até a geração automática de ontologias leves. Inicialmente um corpus, que é uma pequena coleção de documentos eletrônicos sobre Ciência da Informação, escritos em língua portuguesa e disponibilizados na Web, foi criada. Esta coleção foi utilizada para testar o protótipo construído. O protótipo, nomeado SiRILiCO (Sistema de Recuperação de Informação baseado em Teorias da Lingüística Computacional e Ontologia), foi utilizado em um experimento-piloto e posteriormente em outro experimento, com o intuito de verificar e validar a hipótese de que é possível desenvolver e implementar um Sistema de Recuperação de Informação totalmente baseado em teorias lingüísticas, teorias de lingüística computacional e ontologia. Os resultados de precisão e revocação dos experimentos realizados com o SiRILiCO são comparados com os resultados obtidos com a utilização de um modelo vetorial. A análise dos resultados sugere que não só é viável a hipótese defendida como também é muito promissora.
local.publisher.initialsUFMG

Arquivos

Pacote original

Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
doutorado___claudio_gottschalg_duque___parcial.pdf
Tamanho:
3.09 MB
Formato:
Adobe Portable Document Format