Recuperação da informação através de busca comparada em domínio específico, baseado em expressões multipalavras

dc.creatorEdson Marchetti da Silva
dc.date.accessioned2019-08-13T17:52:07Z
dc.date.accessioned2025-09-08T23:56:37Z
dc.date.available2019-08-13T17:52:07Z
dc.date.issued2013-04-25
dc.description.abstractNormally, the search engines in databases is performed using keywords provided by the user to perform the documents identification. This study aims to propose an additional alternative that can be aggregated to Information Retrieval Systems (IRS) to assist the user in the process of information search. This alternative allows the realization of an automated search based on a document supplied by the user which serves as a reference. In this context the object of study was the extraction of Multi Word Expressions (MWE) of the document to serve as descriptors of the search in aspecific corpus. The MWE are obtained by a deterministic method which proposed that considers the characteristics of the physical structure of the document and compares the result with that obtained for thirteen different measures of association statistics produced by Statistics Ngram Package (NSP), which considers the text as a set of bag of words. The results demonstrate that the proposed method provides a better semantic representation of the document bringing together qualitative gains in MWE extracted and that it contributes positively to the results of the search compared. From these experiments we have proposed and implemented a prototype of a compared search tool and it was present the results obtained with its use.
dc.identifier.urihttps://hdl.handle.net/1843/BUOS-97XFVY
dc.languagePortuguês
dc.publisherUniversidade Federal de Minas Gerais
dc.rightsAcesso Aberto
dc.subjectCiência da informação
dc.subjectFerramentas de busca
dc.subjectSistemas de recuperação da informação
dc.subjectLinguagem documentaria
dc.subject.otherRecuperação da informação
dc.subject.otherBusca comparada
dc.subject.otherExtração de expressões multipalavras
dc.subject.otherMedidas de associação estatísticas
dc.titleRecuperação da informação através de busca comparada em domínio específico, baseado em expressões multipalavras
dc.typeTese de doutorado
local.contributor.advisor1Renato Rocha Souza
local.contributor.referee1Manoel Palhares Moreira
local.contributor.referee1Luiz Claudio Gomes Maia
local.contributor.referee1Lidia Alvarenga
local.contributor.referee1Mauricio Barcellos Almeida
local.contributor.referee1Renata Maria Abrantes Baracho Porto
local.description.resumoNormalmente, as ferramentas de busca em bases de dados utilizam-se de palavras-chave fornecidas pelo usuário para realizar a identificação de documentos. Este trabalho visa propor uma alternativa adicional que possa seragregada aos Sistemas de Recuperação da Informação (SRI) para auxiliar o usuário em seu processo de busca pela informação em base de documentos. Essa alternativa possibilita a realização de uma busca automatizada baseada em um documento fornecido pelousuário que serve de referência. Nesse contexto, delimitou-se como objeto de estudo a extração de expressões multipalavras (EM) do documento para servir como descritores da busca em um corpus específico. As EM são obtidas através de um método determinístico proposto que considera as características da estrutura física do documento e compara o resultado com o obtido por treze diferentes medidas de associação estatísticas produzidas pelo software Ngram Statistics Package (NSP) que considera o texto como um conjunto de palavras do inglês bag of words. Os resultados demonstram que o método proposto possibilita uma melhor representação semântica do documento trazendo ganhos qualitativosno conjunto de EM extraídas e que contribui positivamente para o resultado da Busca Comparada. A partir desses experimentos propôs-se e implementou-se um protótipo de ferramenta de Busca Comparada e apresentam-se os resultados obtidos com o seu uso.
local.publisher.initialsUFMG

Arquivos

Pacote original

Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
tesevers_ofinal.pdf
Tamanho:
1.77 MB
Formato:
Adobe Portable Document Format