A expansão de queries sobre terminologias biomédicas: uma comparação de artefatos de representação do conhecimento para Recuperação de Informações

dc.creatorEduardo Ribeiro Felipe
dc.date.accessioned2020-10-27T16:37:28Z
dc.date.accessioned2025-09-09T00:55:49Z
dc.date.available2020-10-27T16:37:28Z
dc.date.issued2020-08-27
dc.description.abstractThe expansion of queries is a technique that allows to expand the representation capacity of the original query, adding related terms, in order to increase a syntactic correspondence between the document and the query. The technique can be applied to controlled vocabularies of all types. This thesis uses clinical terminology to study the possibilities of expanding queries in the Information Retrieval (IR) of scientific articles. The general objective is to prove a comparison between knowledge representation artifacts for information retrieval. Although certain terminologies may belong to the same domain of knowledge, their features are organized in different models. While a MeSH uses traditional Knowledge Organization structures, in the sense of its origin in Librarianship; SNOMED CT uses formal constructs, namely, ontological axioms to define terms and relationships. However, much of current practice and literature points to IR based on statistical techniques as the best solution, there are also indications that justify the use of specialized terminology. This perception influenced the present work in the direction of evidencing such possibilities from a case study to compare two medical terminologies, in the retrieval of scientific articles. Some preliminary questions involved thinking about whether the use of terminology could extend document recall, or how different the application of different terminologies from the same domain to the same data could be set. To answer these and other questions, a software was built to apply queries and collect the qualitative results from the two vocabularies already mentioned. From the point of view of methodology, the work addresses, through a case study, the capture and structuring of biomedical terminologies, the acquisition and pre-processing of medical scientific articles, as well as the design of an algorithm capable of performing submitted queries from common terms in both terminologies. In terms of results, the findings point to a greater recall for the MeSH terminology, where the comparative analysis allowed to infer important principles such as: a) the number of words per term, b) the syntactic representation and c) the possibilities of terminological structuring, as main influences in order to suggest good practices - in the context of IR - for the scientific community that develops and maintains such artifacts. As additional contributions, beyond the software developed, the discussions are relevant to Information Science (IS), in a context where the publication of scientific articles has increased significantly, and the terminologies - artifacts developed at IS - can provide a differentiated model in information retrieval.
dc.description.sponsorshipCAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível Superior
dc.identifier.urihttps://hdl.handle.net/1843/34313
dc.languagepor
dc.publisherUniversidade Federal de Minas Gerais
dc.rightsAcesso Aberto
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/pt/
dc.subjectCiência da informação
dc.subjectRecuperação da informação
dc.subjectRepresentação do conhecimento (Teoria da informação)
dc.subjectMedicina - Terminologia
dc.subjectOntologias (Recuperação da informação)
dc.subjectTesauros
dc.subject.otherRecuperação da Informação
dc.subject.otherArtefatos terminológicos
dc.subject.otherExpansão de query
dc.subject.otherCorrespondência textual
dc.titleA expansão de queries sobre terminologias biomédicas: uma comparação de artefatos de representação do conhecimento para Recuperação de Informações
dc.title.alternativeThe query expansion on biomedical terminologies: a comparison of knowledge representation artifacts for Information Retrieval
dc.typeTese de doutorado
local.contributor.advisor1Maurício Barcellos Almeida
local.contributor.advisor1Latteshttp://lattes.cnpq.br/5218069708058487
local.contributor.referee1Benildes Coura Moreira dos Santos Maculan
local.contributor.referee1Daniela Lucas da Silva Lemos
local.contributor.referee1Fabrício Martins Mendonça
local.contributor.referee1Fernanda Farinelli
local.contributor.referee1Marcus Vinícius Carvalho Guelpeli
local.creator.Latteshttp://lattes.cnpq.br/1010588591399870
local.description.resumoA expansão de queries, ou consultas, é uma técnica que permite ampliar a capacidade de representação da consulta original, adicionando termos relacionados, de forma a incrementar a correspondência sintática entre o documento e a consulta. A técnica pode ser aplicada em vocabulários controlados de todos os tipos. A presente tese se utiliza de terminologias clínicas para estudar as possibilidades de expansão de queries na Recuperação da Informação (RI) de artigos científicos. O objetivo geral é investigar a revocação de artigos científicos no processo de recuperação da informação utilizando dois artefatos de representação da área médica: SNOMED CT e MeSH. Ainda que certas terminologias possam pertencer ao mesmo domínio do conhecimento, suas estruturas correspondentes são organizadas em diferentes modelos. Enquanto a MeSH utiliza estruturas tradicionais de Organização do Conhecimento, no sentido de sua origem na Biblioteconomia; a SNOMED CT utiliza constructos formais, a saber, axiomas ontológicos para definir termos e relações. Embora muito da prática e da literatura atual apontem a RI baseada em técnicas estatísticas como a melhor solução, há também indicações que justificam o uso de terminologias especializadas. Essa percepção influenciou o presente trabalho na direção de evidenciar tais possibilidades a partir de um estudo de caso para comparar duas terminologias da área médica, na recuperação de artigos científicos. Algumas questões preliminares envolviam pensar se o uso de uma terminologia poderia ampliar a revocação de documentos, ou o quão diferente seria a aplicação de diferentes terminologias do mesmo domínio no mesmo conjunto de dados. Para responder a essas e outras questões, foi desenvolvido um software para aplicar queries e coletar os resultados qualitativos dos dois vocabulários já mencionados. Do ponto de vista da metodologia, o trabalho aborda, através de um estudo de caso, a captação e a estruturação de terminologias biomédicas, a aquisição e o pré-processamento de artigos científicos médicos, bem como a concepção de um algoritmo capaz realizar queries submetidas a partir de termos comuns em ambas terminologias. Em termos de resultados, os achados apontam maior revocação para a terminologia MeSH, onde a análise comparativa permitiu inferir princípios importantes como: a) a quantidade de palavras por termo, b) a representação sintática e c) as possibilidades de estruturação terminológica, como principais influências fim de sugerir boas práticas - no contexto da RI - para a comunidade científica que desenvolve e mantém tais artefatos. Como contribuições adicionais, além do software desenvolvido, as discussões são relevantes para a Ciência da Informação (CI), em um contexto onde a publicação de artigos científicos vem aumentando significativamente, e as terminologias - artefatos desenvolvidos na CI - podem proporcionar um modelo diferenciado na recuperação da informação.
local.identifier.orcidhttps://orcid.org/0000-0003-1690-2044
local.publisher.countryBrasil
local.publisher.departmentECI - ESCOLA DE CIENCIA DA INFORMAÇÃO
local.publisher.initialsUFMG
local.publisher.programPrograma de Pós-Graduação em Gestão e Organização do Conhecimento

Arquivos

Pacote original

Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
tese.eduardo.felipe.pdf
Tamanho:
9.96 MB
Formato:
Adobe Portable Document Format

Licença do pacote

Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
license.txt
Tamanho:
2.07 KB
Formato:
Plain Text
Descrição: