Please use this identifier to cite or link to this item: http://hdl.handle.net/1843/38044
Type: Tese
Title: O discurso na prática clínica e as terminologias de padronização: investigando a conexão
Authors: Amanda Damasceno de Souza
First Advisor: Maurício Barcellos Almeida
First Co-advisor: Fernanda Farinelli
First Referee: Zilma Silveira Nogueira Reis
Second Referee: Guilherme Ataíde Dias
Third Referee: Lívia Marangon Duffles Teixeira
metadata.dc.contributor.referee4: João Oscar de Almeida Falcão Júnior
metadata.dc.contributor.referee5: Eduardo Ribeiro Felipe
Abstract: O Prontuário Eletrônico do Paciente (PEP) representa uma importante fonte de informação real, em saúde. A maioria das informações em PEPs são disponibilizadas como dados não estruturados, ou seja, em formato de texto livre, extraído de amostras de linguagem natural. Os profissionais de saúde que preenchem PEPs, muitas vezes, se valem de jargão, siglas e expressões de seu cotidiano. Ainda que tais expressões sejam conhecidas na área médica e permitam agilidade na digitação da PEP, não são padronizadas e podem variar entre os diferentes profissionais. Os avanços das tecnologias de informação em saúde têm demonstrado ser essenciais padronizar terminologias em textos clínicos, com vistas a recuperação de informação e interoperabilidade. Os dados não estruturados do PEP, por sua variedade terminológica e idiossincrasia, não correspondem a terminologias clínicas padronizadas. Esse fato resulta em dificuldades na recuperação de informação e na integração entre sistemas de diversas unidades de saúde, até no âmbito de uma mesma unidade. Dentre outras providências, fazem-se necessárias melhorias na comunicação entre profissionais envolvidos no cuidado aos pacientes na descoberta e produção de conhecimento, em benefício da saúde e, consequentemente, da qualidade de vida dos pacientes. Isso exige algum tipo de harmonização entre os termos registrados, coloquialmente, pelos profissionais e as terminologias. Essa pesquisa busca preencher essas lacunas, ao abordar a falta de padronização terminológica dos PEPs que impacta sobremaneira a recuperação de informação. Para tal, o objetivo geral é definir um mecanismo de conexão de termos clínicos – linguagem natural versus linguagem padronizada – verificando a porcentagem de termos que se correspondem, em um conjunto de dados de uma especialidade médica, de forma a estabelecer a forma de conexão entre as terminologias clínicas. Em uma abordagem interdisciplinar, envolvendo a Biblioteconomia e Ciência da Informação, Tecnologia da Informação e áreas de saúde, desenvolve-se pesquisa aplicada, de abordagem qualitativa, quantitativa e descritiva. A metodologia inclui técnicas de Processamento de Linguagem Natural para extração e análise dos textos clínicos para, ao final, verificar o nível de conexão entre os recursos terminológicos de norma ABNT, para mapeamento de terminologias clínicas. Em termos de resultados, das 18.256 anamneses e 14.035 evoluções da amostra foram retirados 1.364.364 termos, e os resultados de mapeamento indicam que a conexão entre terminologias clínicas ainda precisa ser trabalhada, pois, com uma amostra pequena de termos, um número significativo não obteve equivalência nas terminologias de Referência e Agregação. Entretanto, essa amostra demonstrou a riqueza de termos da Terminologia de Interface, o que será útil no enriquecimento da Terminologia de Referência. Uma contribuição adicional da pesquisa é a criação de uma amostra léxico computacional (corpus em saúde) no idioma português, para delimitar algoritmo no domínio da Ginecologia. Os principais problemas encontrados no processamento automático foram: ambiguidade gramatical, sinonímias, abreviaturas, erros ortográficos ou expressões de negação. No mapeamento entre as terminologias, as principais dificuldades foram semânticas: termos diferentes com o mesmo significado, ausência de termos correspondentes e de sinônimos.
Abstract: The Electronic Healthcare Record (EHR) is an important source of real healthcare information. In general, information in EHRs is made available as unstructured data, that is, in free text format extracted from natural language samples. Healthcare professionals who fill EHRs often use jargon, acronyms and expressions of their routine. Although such expressions are known within the medical field and allow a quick typing of EHRs, they are not standardized and may vary between different professionals. Advances in healthcare information technologies have made it essential to standardize terminologies in clinical texts aiming improvements in information retrieval and interoperability. The unstructured data of EHRs, due to their variety of terminology and idiosyncrasy, do not correspond to standardized clinical terminologies. This fact results in difficulties in the information retrieval and in the integration between systems healthcare units, and even within the same unit. Improvements are needed in communication between professionals involved in care, mainly in the discovery and production of knowledge, to mention a few, for the benefit of healthcare and, consequently, better life quality of patients. This requires some kind of harmonization between the terms registered colloquially by professionals and terminologies. This research seeks to fill these gaps, by addressing the lack of terminological standardization of EHRs that greatly impacts information retrieval. To this end, our goal is to define a mechanism for connecting clinical terms - natural language versus standardized language - in verifying the percentage of terms that correspond to a set of data from a medical specialty, in order to establish the connection between clinical terminologies. Within an interdisciplinary approach - involving Librarianship and Information Science, information technology and healthcare fields - we developed an applied research, with a qualitative, quantitative and descriptive approach. The methodology includes Natural Language Processing techniques for the extraction and analysis of clinical texts to, ultimately, verify the level of connection between ABNT standard terminological resources for mapping clinical terminologies. Concerning the results, from 18,256 anamnesis and 14,035 patient evolution records in the sample, we obtain 1,364,364 terms and the results indicate that the connection between clinical terminologies is it still needs to be worked on, because even with a sample of terms a significant number has not obtained equivalence in the Reference and Aggregation terminologies. However, this sample demonstrated the richness of terms in Interface Terminology, which will be useful in enriching Reference Terminology. An additional contribution was the creation of a computational lexicon (corpus in healthcare) in Portuguese that can help to create algorithms for the domain of Gynecology. The main problems during the natural language processing were: grammatical ambiguity, synonyms, abbreviations, spelling errors or negation expressions. In the mapping between the terminologies, the main difficulties were related to semantics: different terms with the same meaning, absence of the corresponding terms, and synonyms not identified.
Subject: Ciência da informação
Ontologias (recuperação da informação)
Processamento da linguagem natural
Arquivos médicos
Mineração de dados (computação)
Sistemas de recuperação da informação (saúde pública)
language: por
metadata.dc.publisher.country: Brasil
Publisher: Universidade Federal de Minas Gerais
Publisher Initials: UFMG
metadata.dc.publisher.department: ECI - ESCOLA DE CIENCIA DA INFORMAÇÃO
metadata.dc.publisher.program: Programa de Pós-Graduação em Gestão e Organização do Conhecimento
Rights: Acesso Aberto
metadata.dc.rights.uri: http://creativecommons.org/licenses/by-nc-nd/3.0/pt/
URI: http://hdl.handle.net/1843/38044
Issue Date: 21-May-2021
Appears in Collections:Teses de Doutorado



This item is licensed under a Creative Commons License Creative Commons