Tratamento da informação de saúde para atendimento à necessidade de privacidade: desidentificação textual de documentos clínicos na língua portuguesa do Brasil

Guilherme Francis de Noronha

Please use this identifier to cite or link to this item: http://hdl.handle.net/1843/49136

Type:	Tese
Title:	Tratamento da informação de saúde para atendimento à necessidade de privacidade: desidentificação textual de documentos clínicos na língua portuguesa do Brasil
Other Titles:	Health data treatment for privacy needs: de-identification of clinical documents for the Brazilian Portuguese language.
Authors:	Guilherme Francis de Noronha
First Advisor:	Maurício Barcellos Almeida
First Referee:	Fernanda Farinelli
Second Referee:	Heliana Ribeiro de Mello
Third Referee:	Jeanne Louize Emygdio
metadata.dc.contributor.referee4:	Zilma Silveira Nogueira Reis
metadata.dc.contributor.referee5:	Eduardo Ribeiro Felipe
Abstract:	Introdução: A área de proteção à privacidade vem ganhando importância nos últimos anos. Iniciativas como a Lei Geral de Proteção de Dados, ou LGPD, surgem numa tentativa de proteger a privacidade individual e evitar mau uso de dados pessoais. A proteção se torna essencial no meio digital, em que vazamentos são impossíveis de serem revertidos. Na área de saúde, a adoção de prontuários eletrônicos de pacientes tornou possível a digitalização de dados sensíveis de milhões de pessoas. Uma forma de proteção é a desidentificação de dados sensíveis que garantem a privacidade individual. Além da proteção, na área da saúde a desidentificação permite que os documentos possam ser compartilhados para uso secundário da informação, permitindo que conhecimento seja adquirido por meio de pesquisa e análise de dados. Problema: Documentos clínicos possuem uma série de campos de textos livres que podem conter informação sensível que precisa ser protegida. O processo de desidentificação manual de documentos clínicos é custoso devido à quantidade de dados produzidos diariamente nas unidades de saúde. Uma alternativa para esse problema é a desidentificação automática usando técnicas de processamento de linguagem natural e aprendizado de máquina. Esses algoritmos devem ser treinados com uma base de dados no idioma ao qual ele será executado. Uma pesquisa preliminar indicou que não existem trabalhos de desidentificação, para a língua portuguesa, publicados na literatura e terem seus dados disponibilizados para a comunidade científica. Logo percebeu-se a necessidade de pavimentar essa área de estudo, desenvolvendo técnicas de tratamento da informação de saúde para atendimento à necessidade de privacidade para a língua portuguesa do Brasil. Metodologia: Para atacar o problema, o presente trabalho elaborou uma metodologia de desidentificação automática de documentos clínicos usando algoritmos de processamento de linguagem natural e aprendizado de máquina. Para isso, fez-se uma parceria com o Hospital das Clínicas da UFMG a fim de obter documentos clínicos. Esses documentos foram preprocessados e usados para o desenvolvimento de um algoritmo de desidentificação adaptado para textos na língua portuguesa. Resultados: O algoritmo de desidentificação desenvolvido obteve um F-Score (micro) de 97,94% e um F-Score (macro) de 39,83% dos dados. Apenas 37,09% dos dados foram corretamente desidentificados, portanto não permitem uma generalização do problema. O trabalho, no entanto, apresenta, como contribuição, a metodologia para desidentificação de documentos clínicos, com aplicação em quaisquer áreas onde há a necessidade de proteção à privacidade. Os códigos desenvolvidos e o modelo de aprendizado gerado durante o desenvolvimento do trabalho foram compartilhados publicamente e podem ser reusados por qualquer pessoa.
Abstract:	Introduction: the privacy protection is becoming relevant nowadays. Initiatives, such as General Data Privacy Regulation, or GDPR, emerged worldwide in an attempt to protect individual privacy and avoid bad use of personal data. The data protection becomes essential within digital context, where data leaks cannot be reverted. In the health area, the adoption of electronic health records led to the digitalization of millions of people sensitive data. A way to protect the data is the de-identification which assures the individual privacy. Besides the data protection, the de-identification also allows the clinical documents to be shared, allowing knowledge acquisition through research and data analysis. Problem: clinical documents have countless text fields that may have sensitive data to be protected. The manual de-identification in the health area is costly due to the amount of data created every day across several health facilities. An alternative to handle this situation is the automatic de-identification using techniques of machine learning and natural language processing. However, those algorithms should be trained using the local language where it will be validated. A preliminary research do not identified studies of de-identification for Brazilian Portuguese with available data. Therefore, was identified the opportunity to improve the field of study in de-identification for Brazilian Portuguese, developing research to privacy protection in clinical documents. Methodology: to handle the problem, the present thesis built a methodology to automatic de-identification data from clinical documents using natural language processing and machine learning algorithms. To achieve this, a partnership was made with the Hospital das Clínicas de Minas Gerais to obtain the clinical documents. These documents were preprocessed and used to the development of the de-identification algorithm adapted to Brazilian Portuguese language. Results: the deidentification algorithm obtained an F-Score (macro) of 97,94% and an F-Score (micro) of 39,83%. Only 37,09% of the data was correctly deidentified. Thus, the results were insufficient for a generalization. This thesis, however, presents as it contribution the methodology proposed to deidentify clinical documents. This methodology can be applied to any field, beyond the health, which has its needs on the privacy protection. Also, the source code developed during the methodology and the trained learning model is publicly available and can be used by everyone.
Subject:	Ciência da informação Registros médicos Proteção de dados Processamento de linguagem natural (Computação) Aprendizado do computador
language:	por
metadata.dc.publisher.country:	Brasil
Publisher:	Universidade Federal de Minas Gerais
Publisher Initials:	UFMG
metadata.dc.publisher.department:	ECI - ESCOLA DE CIENCIA DA INFORMAÇÃO
metadata.dc.publisher.program:	Programa de Pós-Graduação em Gestão e Organização do Conhecimento
Rights:	Acesso Aberto
metadata.dc.rights.uri:	http://creativecommons.org/licenses/by-sa/3.0/pt/
URI:	http://hdl.handle.net/1843/49136
Issue Date:	1-Jun-2022
Appears in Collections:	Teses de Doutorado

Files in This Item:

File	Description	Size	Format
Tese_PT.pdf		2.21 MB	Adobe PDF	View/Open

Show full item record

This item is licensed under a Creative Commons License