Tratamento da informação de saúde para atendimento à necessidade de privacidade: desidentificação textual de documentos clínicos na língua portuguesa do Brasil

Guilherme Francis de Noronha

Please use this identifier to cite or link to this item: http://hdl.handle.net/1843/49136

Full metadata record

DC Field	Value	Language
dc.contributor.advisor1	Maurício Barcellos Almeida	pt_BR
dc.contributor.advisor1Lattes	http://lattes.cnpq.br/5218069708058487	pt_BR
dc.contributor.referee1	Fernanda Farinelli	pt_BR
dc.contributor.referee2	Heliana Ribeiro de Mello	pt_BR
dc.contributor.referee3	Jeanne Louize Emygdio	pt_BR
dc.contributor.referee4	Zilma Silveira Nogueira Reis	pt_BR
dc.contributor.referee5	Eduardo Ribeiro Felipe	pt_BR
dc.creator	Guilherme Francis de Noronha	pt_BR
dc.creator.Lattes	http://lattes.cnpq.br/9884915193147340	pt_BR
dc.date.accessioned	2023-01-25T15:15:23Z	-
dc.date.available	2023-01-25T15:15:23Z	-
dc.date.issued	2022-06-01	-
dc.identifier.uri	http://hdl.handle.net/1843/49136	-
dc.description.abstract	Introduction: the privacy protection is becoming relevant nowadays. Initiatives, such as General Data Privacy Regulation, or GDPR, emerged worldwide in an attempt to protect individual privacy and avoid bad use of personal data. The data protection becomes essential within digital context, where data leaks cannot be reverted. In the health area, the adoption of electronic health records led to the digitalization of millions of people sensitive data. A way to protect the data is the de-identification which assures the individual privacy. Besides the data protection, the de-identification also allows the clinical documents to be shared, allowing knowledge acquisition through research and data analysis. Problem: clinical documents have countless text fields that may have sensitive data to be protected. The manual de-identification in the health area is costly due to the amount of data created every day across several health facilities. An alternative to handle this situation is the automatic de-identification using techniques of machine learning and natural language processing. However, those algorithms should be trained using the local language where it will be validated. A preliminary research do not identified studies of de-identification for Brazilian Portuguese with available data. Therefore, was identified the opportunity to improve the field of study in de-identification for Brazilian Portuguese, developing research to privacy protection in clinical documents. Methodology: to handle the problem, the present thesis built a methodology to automatic de-identification data from clinical documents using natural language processing and machine learning algorithms. To achieve this, a partnership was made with the Hospital das Clínicas de Minas Gerais to obtain the clinical documents. These documents were preprocessed and used to the development of the de-identification algorithm adapted to Brazilian Portuguese language. Results: the deidentification algorithm obtained an F-Score (macro) of 97,94% and an F-Score (micro) of 39,83%. Only 37,09% of the data was correctly deidentified. Thus, the results were insufficient for a generalization. This thesis, however, presents as it contribution the methodology proposed to deidentify clinical documents. This methodology can be applied to any field, beyond the health, which has its needs on the privacy protection. Also, the source code developed during the methodology and the trained learning model is publicly available and can be used by everyone.	pt_BR
dc.description.resumo	Introdução: A área de proteção à privacidade vem ganhando importância nos últimos anos. Iniciativas como a Lei Geral de Proteção de Dados, ou LGPD, surgem numa tentativa de proteger a privacidade individual e evitar mau uso de dados pessoais. A proteção se torna essencial no meio digital, em que vazamentos são impossíveis de serem revertidos. Na área de saúde, a adoção de prontuários eletrônicos de pacientes tornou possível a digitalização de dados sensíveis de milhões de pessoas. Uma forma de proteção é a desidentificação de dados sensíveis que garantem a privacidade individual. Além da proteção, na área da saúde a desidentificação permite que os documentos possam ser compartilhados para uso secundário da informação, permitindo que conhecimento seja adquirido por meio de pesquisa e análise de dados. Problema: Documentos clínicos possuem uma série de campos de textos livres que podem conter informação sensível que precisa ser protegida. O processo de desidentificação manual de documentos clínicos é custoso devido à quantidade de dados produzidos diariamente nas unidades de saúde. Uma alternativa para esse problema é a desidentificação automática usando técnicas de processamento de linguagem natural e aprendizado de máquina. Esses algoritmos devem ser treinados com uma base de dados no idioma ao qual ele será executado. Uma pesquisa preliminar indicou que não existem trabalhos de desidentificação, para a língua portuguesa, publicados na literatura e terem seus dados disponibilizados para a comunidade científica. Logo percebeu-se a necessidade de pavimentar essa área de estudo, desenvolvendo técnicas de tratamento da informação de saúde para atendimento à necessidade de privacidade para a língua portuguesa do Brasil. Metodologia: Para atacar o problema, o presente trabalho elaborou uma metodologia de desidentificação automática de documentos clínicos usando algoritmos de processamento de linguagem natural e aprendizado de máquina. Para isso, fez-se uma parceria com o Hospital das Clínicas da UFMG a fim de obter documentos clínicos. Esses documentos foram preprocessados e usados para o desenvolvimento de um algoritmo de desidentificação adaptado para textos na língua portuguesa. Resultados: O algoritmo de desidentificação desenvolvido obteve um F-Score (micro) de 97,94% e um F-Score (macro) de 39,83% dos dados. Apenas 37,09% dos dados foram corretamente desidentificados, portanto não permitem uma generalização do problema. O trabalho, no entanto, apresenta, como contribuição, a metodologia para desidentificação de documentos clínicos, com aplicação em quaisquer áreas onde há a necessidade de proteção à privacidade. Os códigos desenvolvidos e o modelo de aprendizado gerado durante o desenvolvimento do trabalho foram compartilhados publicamente e podem ser reusados por qualquer pessoa.	pt_BR
dc.description.sponsorship	CAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível Superior	pt_BR
dc.language	por	pt_BR
dc.publisher	Universidade Federal de Minas Gerais	pt_BR
dc.publisher.country	Brasil	pt_BR
dc.publisher.department	ECI - ESCOLA DE CIENCIA DA INFORMAÇÃO	pt_BR
dc.publisher.program	Programa de Pós-Graduação em Gestão e Organização do Conhecimento	pt_BR
dc.publisher.initials	UFMG	pt_BR
dc.rights	Acesso Aberto	pt_BR
dc.rights.uri	http://creativecommons.org/licenses/by-sa/3.0/pt/	*
dc.subject	Documentos clínicos	pt_BR
dc.subject	Desidentificação	pt_BR
dc.subject	Privacidade de dados	pt_BR
dc.subject.other	Ciência da informação	pt_BR
dc.subject.other	Registros médicos	pt_BR
dc.subject.other	Proteção de dados	pt_BR
dc.subject.other	Processamento de linguagem natural (Computação)	pt_BR
dc.subject.other	Aprendizado do computador	pt_BR
dc.title	Tratamento da informação de saúde para atendimento à necessidade de privacidade: desidentificação textual de documentos clínicos na língua portuguesa do Brasil	pt_BR
dc.title.alternative	Health data treatment for privacy needs: de-identification of clinical documents for the Brazilian Portuguese language.	pt_BR
dc.type	Tese	pt_BR
Appears in Collections:	Teses de Doutorado

Files in This Item:

File	Description	Size	Format
Tese_PT.pdf		2.21 MB	Adobe PDF	View/Open

Show simple item record

This item is licensed under a Creative Commons License