Please use this identifier to cite or link to this item: http://hdl.handle.net/1843/BUOS-97XFVY
Type: Tese de Doutorado
Title: Recuperação da informação através de busca comparada em domínio específico, baseado em expressões multipalavras
Authors: Edson Marchetti da Silva
First Advisor: Renato Rocha Souza
First Referee: Manoel Palhares Moreira
Second Referee: Luiz Claudio Gomes Maia
Third Referee: Lidia Alvarenga
metadata.dc.contributor.referee4: Mauricio Barcellos Almeida
metadata.dc.contributor.referee5: Renata Maria Abrantes Baracho Porto
Abstract: Normalmente, as ferramentas de busca em bases de dados utilizam-se de palavras-chave fornecidas pelo usuário para realizar a identificação de documentos. Este trabalho visa propor uma alternativa adicional que possa seragregada aos Sistemas de Recuperação da Informação (SRI) para auxiliar o usuário em seu processo de busca pela informação em base de documentos. Essa alternativa possibilita a realização de uma busca automatizada baseada em um documento fornecido pelousuário que serve de referência. Nesse contexto, delimitou-se como objeto de estudo a extração de expressões multipalavras (EM) do documento para servir como descritores da busca em um corpus específico. As EM são obtidas através de um método determinístico proposto que considera as características da estrutura física do documento e compara o resultado com o obtido por treze diferentes medidas de associação estatísticas produzidas pelo software Ngram Statistics Package (NSP) que considera o texto como um conjunto de palavras do inglês bag of words. Os resultados demonstram que o método proposto possibilita uma melhor representação semântica do documento trazendo ganhos qualitativosno conjunto de EM extraídas e que contribui positivamente para o resultado da Busca Comparada. A partir desses experimentos propôs-se e implementou-se um protótipo de ferramenta de Busca Comparada e apresentam-se os resultados obtidos com o seu uso.
Abstract: Normally, the search engines in databases is performed using keywords provided by the user to perform the documents identification. This study aims to propose an additional alternative that can be aggregated to Information Retrieval Systems (IRS) to assist the user in the process of information search. This alternative allows the realization of an automated search based on a document supplied by the user which serves as a reference. In this context the object of study was the extraction of Multi Word Expressions (MWE) of the document to serve as descriptors of the search in aspecific corpus. The MWE are obtained by a deterministic method which proposed that considers the characteristics of the physical structure of the document and compares the result with that obtained for thirteen different measures of association statistics produced by Statistics Ngram Package (NSP), which considers the text as a set of bag of words. The results demonstrate that the proposed method provides a better semantic representation of the document bringing together qualitative gains in MWE extracted and that it contributes positively to the results of the search compared. From these experiments we have proposed and implemented a prototype of a compared search tool and it was present the results obtained with its use.
Subject: Ciência da informação
Ferramentas de busca
Sistemas de recuperação da informação
Linguagem documentaria
language: Português
Publisher: Universidade Federal de Minas Gerais
Publisher Initials: UFMG
Rights: Acesso Aberto
URI: http://hdl.handle.net/1843/BUOS-97XFVY
Issue Date: 25-Apr-2013
Appears in Collections:Teses de Doutorado

Files in This Item:
File Description SizeFormat 
tesevers_ofinal.pdf1.81 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.