Recuperação da informação através de busca comparada em domínio específico, baseado em expressões multipalavras

Carregando...
Imagem de Miniatura

Título da Revista

ISSN da Revista

Título de Volume

Editor

Universidade Federal de Minas Gerais

Descrição

Tipo

Tese de doutorado

Título alternativo

Primeiro orientador

Membros da banca

Manoel Palhares Moreira
Luiz Claudio Gomes Maia
Lidia Alvarenga
Mauricio Barcellos Almeida
Renata Maria Abrantes Baracho Porto

Resumo

Normalmente, as ferramentas de busca em bases de dados utilizam-se de palavras-chave fornecidas pelo usuário para realizar a identificação de documentos. Este trabalho visa propor uma alternativa adicional que possa seragregada aos Sistemas de Recuperação da Informação (SRI) para auxiliar o usuário em seu processo de busca pela informação em base de documentos. Essa alternativa possibilita a realização de uma busca automatizada baseada em um documento fornecido pelousuário que serve de referência. Nesse contexto, delimitou-se como objeto de estudo a extração de expressões multipalavras (EM) do documento para servir como descritores da busca em um corpus específico. As EM são obtidas através de um método determinístico proposto que considera as características da estrutura física do documento e compara o resultado com o obtido por treze diferentes medidas de associação estatísticas produzidas pelo software Ngram Statistics Package (NSP) que considera o texto como um conjunto de palavras do inglês bag of words. Os resultados demonstram que o método proposto possibilita uma melhor representação semântica do documento trazendo ganhos qualitativosno conjunto de EM extraídas e que contribui positivamente para o resultado da Busca Comparada. A partir desses experimentos propôs-se e implementou-se um protótipo de ferramenta de Busca Comparada e apresentam-se os resultados obtidos com o seu uso.

Abstract

Normally, the search engines in databases is performed using keywords provided by the user to perform the documents identification. This study aims to propose an additional alternative that can be aggregated to Information Retrieval Systems (IRS) to assist the user in the process of information search. This alternative allows the realization of an automated search based on a document supplied by the user which serves as a reference. In this context the object of study was the extraction of Multi Word Expressions (MWE) of the document to serve as descriptors of the search in aspecific corpus. The MWE are obtained by a deterministic method which proposed that considers the characteristics of the physical structure of the document and compares the result with that obtained for thirteen different measures of association statistics produced by Statistics Ngram Package (NSP), which considers the text as a set of bag of words. The results demonstrate that the proposed method provides a better semantic representation of the document bringing together qualitative gains in MWE extracted and that it contributes positively to the results of the search compared. From these experiments we have proposed and implemented a prototype of a compared search tool and it was present the results obtained with its use.

Assunto

Ciência da informação, Ferramentas de busca, Sistemas de recuperação da informação, Linguagem documentaria

Palavras-chave

Recuperação da informação, Busca comparada, Extração de expressões multipalavras, Medidas de associação estatísticas

Citação

Departamento

Curso

Endereço externo

Avaliação

Revisão

Suplementado Por

Referenciado Por