Developing a Transformer-based clinical part-of-speech tagger for Brazilian Portuguese

dc.creatorElisa Terumi Rubelschneider
dc.creatorYohan Bonescki Gumiel
dc.creatorLucas Ferro Antunes de Oliveira
dc.creatorCarolina de Oliveira Montenegro
dc.creatorLaura Rubel Barzotto
dc.creatorClaudia Moro
dc.creatorAdriana Silvina Pagano
dc.creatorEmerson Cabrera Paraiso
dc.date.accessioned2025-03-14T19:28:02Z
dc.date.accessioned2025-09-09T01:21:01Z
dc.date.available2025-03-14T19:28:02Z
dc.date.issued2023-07-20
dc.description.abstractO Prontuário Eletrônico do Paciente contém informações valiosas, passíveis de serem extraídas por meio de tarefas de processamento de língua natural (PLN), como o etiquetamento morfossintático de palavras. Embora grandes avanços em PLN no domínio da saúde tenham sido observados, como a arquitetura Transformer, línguas como o português ainda estão subrepresentadas. Neste artigo, apresentamos etiquetadores desenvolvidos para textos em português, refinados a partir dos modelos BioBERtpt (clínico/biomédico) e BERTimbau (genérico) em um corpus com anotações morfossintáticas. Atingimos 0.9826 em acurácia, estado-da-arte para o corpus utilizado. Além disso, realizamos uma avaliação por humanos dos modelos treinados e outros da literatura, utilizando narrativas clínicas autênticas. Nosso modelo clínico atingiu 0.8145 em acurácia comparado com 0.7656 do modelo genérico. Também apresentou resultados competitivos em relação a modelos treinados especificamente com textos clínicos, evidenciando o impacto do domínio no modelo de base em tarefas de PLN.
dc.format.mimetypepdf
dc.identifier.doihttps://doi.org/10.59681/2175-4411.v15.iEspecial.2023.1086
dc.identifier.issn2175-4411
dc.identifier.urihttps://hdl.handle.net/1843/80659
dc.languageeng
dc.publisherUniversidade Federal de Minas Gerais
dc.relation.ispartofJournal of Health Informatics
dc.rightsAcesso Aberto
dc.subjectProcessamento da linguagem natural (Computação)
dc.subjectDocumentos eletrônicos
dc.subjectDocumentos eletrônicos
dc.subject.otherNatural language processing
dc.subject.otherElectronic health records
dc.subject.otherDeep learning
dc.titleDeveloping a Transformer-based clinical part-of-speech tagger for Brazilian Portuguese
dc.title.alternativeDesenvolvimento de um etiquetador morfossintático baseado em Transformer para textos clínicos brasileiros
dc.typeArtigo de periódico
local.citation.issueEspecial
local.citation.volume15
local.description.resumoElectronic Health Records are a valuable source of information to be extracted by means of natural language processing (NLP) tasks, such as morphosyntactic word tagging. Although there have been significant advances in health NLP, such as the Transformer architecture, languages such as Portuguese are still underrepresented. This paper presents taggers developed for Portuguese texts, fine-tuned using BioBERtpt (clinical/biomedical) and BERTimbau (generic) models on a POS-tagged corpus. We achieved an accuracy of 0.9826, state-of-the-art for the corpus used. In addition, we performed a human-based evaluation of the trained models and others in the literature, using authentic clinical narratives. Our clinical model achieved 0.8145 in accuracy compared to 0.7656 for the generic model. It also showed competitive results compared to models trained specifically with clinical texts, evidencing domain impact on the base model in NLP tasks.
local.identifier.orcidhttps://orcid.org/0000-0001-7764-7249
local.identifier.orcidhttps://orcid.org/0000-0001-8239-2930
local.identifier.orcidhttps://orcid.org/0000-0003-4052-7993
local.identifier.orcidhttps://orcid.org/0009-0008-2751-3857
local.identifier.orcidhttps://orcid.org/0000-0003-2637-3086
local.identifier.orcidhttps://orcid.org/0000-0002-3150-3503
local.identifier.orcidhttps://orcid.org/0000-0002-6740-7855
local.publisher.countryBrasil
local.publisher.departmentFALE - FACULDADE DE LETRAS
local.publisher.initialsUFMG

Arquivos

Pacote original

Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
Developing a Transformer-based Clinical Part-of-Speech Tagger for Brazilian Portuguese.pdf
Tamanho:
486.09 KB
Formato:
Adobe Portable Document Format

Licença do pacote

Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
License.txt
Tamanho:
1.99 KB
Formato:
Plain Text
Descrição: