Please use this identifier to cite or link to this item: http://hdl.handle.net/1843/49136
Full metadata record
DC FieldValueLanguage
dc.contributor.advisor1Maurício Barcellos Almeidapt_BR
dc.contributor.advisor1Latteshttp://lattes.cnpq.br/5218069708058487pt_BR
dc.contributor.referee1Fernanda Farinellipt_BR
dc.contributor.referee2Heliana Ribeiro de Mellopt_BR
dc.contributor.referee3Jeanne Louize Emygdiopt_BR
dc.contributor.referee4Zilma Silveira Nogueira Reispt_BR
dc.contributor.referee5Eduardo Ribeiro Felipept_BR
dc.creatorGuilherme Francis de Noronhapt_BR
dc.creator.Latteshttp://lattes.cnpq.br/9884915193147340pt_BR
dc.date.accessioned2023-01-25T15:15:23Z-
dc.date.available2023-01-25T15:15:23Z-
dc.date.issued2022-06-01-
dc.identifier.urihttp://hdl.handle.net/1843/49136-
dc.description.abstractIntroduction: the privacy protection is becoming relevant nowadays. Initiatives, such as General Data Privacy Regulation, or GDPR, emerged worldwide in an attempt to protect individual privacy and avoid bad use of personal data. The data protection becomes essential within digital context, where data leaks cannot be reverted. In the health area, the adoption of electronic health records led to the digitalization of millions of people sensitive data. A way to protect the data is the de-identification which assures the individual privacy. Besides the data protection, the de-identification also allows the clinical documents to be shared, allowing knowledge acquisition through research and data analysis. Problem: clinical documents have countless text fields that may have sensitive data to be protected. The manual de-identification in the health area is costly due to the amount of data created every day across several health facilities. An alternative to handle this situation is the automatic de-identification using techniques of machine learning and natural language processing. However, those algorithms should be trained using the local language where it will be validated. A preliminary research do not identified studies of de-identification for Brazilian Portuguese with available data. Therefore, was identified the opportunity to improve the field of study in de-identification for Brazilian Portuguese, developing research to privacy protection in clinical documents. Methodology: to handle the problem, the present thesis built a methodology to automatic de-identification data from clinical documents using natural language processing and machine learning algorithms. To achieve this, a partnership was made with the Hospital das Clínicas de Minas Gerais to obtain the clinical documents. These documents were preprocessed and used to the development of the de-identification algorithm adapted to Brazilian Portuguese language. Results: the deidentification algorithm obtained an F-Score (macro) of 97,94% and an F-Score (micro) of 39,83%. Only 37,09% of the data was correctly deidentified. Thus, the results were insufficient for a generalization. This thesis, however, presents as it contribution the methodology proposed to deidentify clinical documents. This methodology can be applied to any field, beyond the health, which has its needs on the privacy protection. Also, the source code developed during the methodology and the trained learning model is publicly available and can be used by everyone.pt_BR
dc.description.resumoIntrodução: A área de proteção à privacidade vem ganhando importância nos últimos anos. Iniciativas como a Lei Geral de Proteção de Dados, ou LGPD, surgem numa tentativa de proteger a privacidade individual e evitar mau uso de dados pessoais. A proteção se torna essencial no meio digital, em que vazamentos são impossíveis de serem revertidos. Na área de saúde, a adoção de prontuários eletrônicos de pacientes tornou possível a digitalização de dados sensíveis de milhões de pessoas. Uma forma de proteção é a desidentificação de dados sensíveis que garantem a privacidade individual. Além da proteção, na área da saúde a desidentificação permite que os documentos possam ser compartilhados para uso secundário da informação, permitindo que conhecimento seja adquirido por meio de pesquisa e análise de dados. Problema: Documentos clínicos possuem uma série de campos de textos livres que podem conter informação sensível que precisa ser protegida. O processo de desidentificação manual de documentos clínicos é custoso devido à quantidade de dados produzidos diariamente nas unidades de saúde. Uma alternativa para esse problema é a desidentificação automática usando técnicas de processamento de linguagem natural e aprendizado de máquina. Esses algoritmos devem ser treinados com uma base de dados no idioma ao qual ele será executado. Uma pesquisa preliminar indicou que não existem trabalhos de desidentificação, para a língua portuguesa, publicados na literatura e terem seus dados disponibilizados para a comunidade científica. Logo percebeu-se a necessidade de pavimentar essa área de estudo, desenvolvendo técnicas de tratamento da informação de saúde para atendimento à necessidade de privacidade para a língua portuguesa do Brasil. Metodologia: Para atacar o problema, o presente trabalho elaborou uma metodologia de desidentificação automática de documentos clínicos usando algoritmos de processamento de linguagem natural e aprendizado de máquina. Para isso, fez-se uma parceria com o Hospital das Clínicas da UFMG a fim de obter documentos clínicos. Esses documentos foram preprocessados e usados para o desenvolvimento de um algoritmo de desidentificação adaptado para textos na língua portuguesa. Resultados: O algoritmo de desidentificação desenvolvido obteve um F-Score (micro) de 97,94% e um F-Score (macro) de 39,83% dos dados. Apenas 37,09% dos dados foram corretamente desidentificados, portanto não permitem uma generalização do problema. O trabalho, no entanto, apresenta, como contribuição, a metodologia para desidentificação de documentos clínicos, com aplicação em quaisquer áreas onde há a necessidade de proteção à privacidade. Os códigos desenvolvidos e o modelo de aprendizado gerado durante o desenvolvimento do trabalho foram compartilhados publicamente e podem ser reusados por qualquer pessoa.pt_BR
dc.description.sponsorshipCAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível Superiorpt_BR
dc.languageporpt_BR
dc.publisherUniversidade Federal de Minas Geraispt_BR
dc.publisher.countryBrasilpt_BR
dc.publisher.departmentECI - ESCOLA DE CIENCIA DA INFORMAÇÃOpt_BR
dc.publisher.programPrograma de Pós-Graduação em Gestão e Organização do Conhecimentopt_BR
dc.publisher.initialsUFMGpt_BR
dc.rightsAcesso Abertopt_BR
dc.rights.urihttp://creativecommons.org/licenses/by-sa/3.0/pt/*
dc.subjectDocumentos clínicospt_BR
dc.subjectDesidentificaçãopt_BR
dc.subjectPrivacidade de dadospt_BR
dc.subject.otherCiência da informaçãopt_BR
dc.subject.otherRegistros médicospt_BR
dc.subject.otherProteção de dadospt_BR
dc.subject.otherProcessamento de linguagem natural (Computação)pt_BR
dc.subject.otherAprendizado do computadorpt_BR
dc.titleTratamento da informação de saúde para atendimento à necessidade de privacidade: desidentificação textual de documentos clínicos na língua portuguesa do Brasilpt_BR
dc.title.alternativeHealth data treatment for privacy needs: de-identification of clinical documents for the Brazilian Portuguese language.pt_BR
dc.typeTesept_BR
Appears in Collections:Teses de Doutorado

Files in This Item:
File Description SizeFormat 
Tese_PT.pdf2.21 MBAdobe PDFView/Open


This item is licensed under a Creative Commons License Creative Commons