Please use this identifier to cite or link to this item: http://hdl.handle.net/1843/34313
Type: Tese
Title: A expansão de queries sobre terminologias biomédicas: uma comparação de artefatos de representação do conhecimento para Recuperação de Informações
Other Titles: The query expansion on biomedical terminologies: a comparison of knowledge representation artifacts for Information Retrieval
Authors: Eduardo Ribeiro Felipe
First Advisor: Maurício Barcellos Almeida
First Referee: Benildes Coura Moreira dos Santos Maculan
Second Referee: Daniela Lucas da Silva Lemos
Third Referee: Fabrício Martins Mendonça
metadata.dc.contributor.referee4: Fernanda Farinelli
metadata.dc.contributor.referee5: Marcus Vinícius Carvalho Guelpeli
Abstract: A expansão de queries, ou consultas, é uma técnica que permite ampliar a capacidade de representação da consulta original, adicionando termos relacionados, de forma a incrementar a correspondência sintática entre o documento e a consulta. A técnica pode ser aplicada em vocabulários controlados de todos os tipos. A presente tese se utiliza de terminologias clínicas para estudar as possibilidades de expansão de queries na Recuperação da Informação (RI) de artigos científicos. O objetivo geral é investigar a revocação de artigos científicos no processo de recuperação da informação utilizando dois artefatos de representação da área médica: SNOMED CT e MeSH. Ainda que certas terminologias possam pertencer ao mesmo domínio do conhecimento, suas estruturas correspondentes são organizadas em diferentes modelos. Enquanto a MeSH utiliza estruturas tradicionais de Organização do Conhecimento, no sentido de sua origem na Biblioteconomia; a SNOMED CT utiliza constructos formais, a saber, axiomas ontológicos para definir termos e relações. Embora muito da prática e da literatura atual apontem a RI baseada em técnicas estatísticas como a melhor solução, há também indicações que justificam o uso de terminologias especializadas. Essa percepção influenciou o presente trabalho na direção de evidenciar tais possibilidades a partir de um estudo de caso para comparar duas terminologias da área médica, na recuperação de artigos científicos. Algumas questões preliminares envolviam pensar se o uso de uma terminologia poderia ampliar a revocação de documentos, ou o quão diferente seria a aplicação de diferentes terminologias do mesmo domínio no mesmo conjunto de dados. Para responder a essas e outras questões, foi desenvolvido um software para aplicar queries e coletar os resultados qualitativos dos dois vocabulários já mencionados. Do ponto de vista da metodologia, o trabalho aborda, através de um estudo de caso, a captação e a estruturação de terminologias biomédicas, a aquisição e o pré-processamento de artigos científicos médicos, bem como a concepção de um algoritmo capaz realizar queries submetidas a partir de termos comuns em ambas terminologias. Em termos de resultados, os achados apontam maior revocação para a terminologia MeSH, onde a análise comparativa permitiu inferir princípios importantes como: a) a quantidade de palavras por termo, b) a representação sintática e c) as possibilidades de estruturação terminológica, como principais influências fim de sugerir boas práticas - no contexto da RI - para a comunidade científica que desenvolve e mantém tais artefatos. Como contribuições adicionais, além do software desenvolvido, as discussões são relevantes para a Ciência da Informação (CI), em um contexto onde a publicação de artigos científicos vem aumentando significativamente, e as terminologias - artefatos desenvolvidos na CI - podem proporcionar um modelo diferenciado na recuperação da informação.
Abstract: The expansion of queries is a technique that allows to expand the representation capacity of the original query, adding related terms, in order to increase a syntactic correspondence between the document and the query. The technique can be applied to controlled vocabularies of all types. This thesis uses clinical terminology to study the possibilities of expanding queries in the Information Retrieval (IR) of scientific articles. The general objective is to prove a comparison between knowledge representation artifacts for information retrieval. Although certain terminologies may belong to the same domain of knowledge, their features are organized in different models. While a MeSH uses traditional Knowledge Organization structures, in the sense of its origin in Librarianship; SNOMED CT uses formal constructs, namely, ontological axioms to define terms and relationships. However, much of current practice and literature points to IR based on statistical techniques as the best solution, there are also indications that justify the use of specialized terminology. This perception influenced the present work in the direction of evidencing such possibilities from a case study to compare two medical terminologies, in the retrieval of scientific articles. Some preliminary questions involved thinking about whether the use of terminology could extend document recall, or how different the application of different terminologies from the same domain to the same data could be set. To answer these and other questions, a software was built to apply queries and collect the qualitative results from the two vocabularies already mentioned. From the point of view of methodology, the work addresses, through a case study, the capture and structuring of biomedical terminologies, the acquisition and pre-processing of medical scientific articles, as well as the design of an algorithm capable of performing submitted queries from common terms in both terminologies. In terms of results, the findings point to a greater recall for the MeSH terminology, where the comparative analysis allowed to infer important principles such as: a) the number of words per term, b) the syntactic representation and c) the possibilities of terminological structuring, as main influences in order to suggest good practices - in the context of IR - for the scientific community that develops and maintains such artifacts. As additional contributions, beyond the software developed, the discussions are relevant to Information Science (IS), in a context where the publication of scientific articles has increased significantly, and the terminologies - artifacts developed at IS - can provide a differentiated model in information retrieval.
Subject: Ciência da informação
Recuperação da informação
Representação do conhecimento (Teoria da informação)
Medicina - Terminologia
Ontologias (Recuperação da informação)
Tesauros
language: por
metadata.dc.publisher.country: Brasil
Publisher: Universidade Federal de Minas Gerais
Publisher Initials: UFMG
metadata.dc.publisher.department: ECI - ESCOLA DE CIENCIA DA INFORMAÇÃO
metadata.dc.publisher.program: Programa de Pós-Graduação em Gestão e Organização do Conhecimento
Rights: Acesso Aberto
metadata.dc.rights.uri: http://creativecommons.org/licenses/by-nc-nd/3.0/pt/
URI: http://hdl.handle.net/1843/34313
Issue Date: 27-Aug-2020
Appears in Collections:Teses de Doutorado

Files in This Item:
File Description SizeFormat 
tese.eduardo.felipe.pdfA expansão de queries sobre terminologias biomédicas: uma comparação de artefatos de representação do conhecimento para Recuperação de Informações10.2 MBAdobe PDFView/Open


This item is licensed under a Creative Commons License Creative Commons