Developing a Transformer-based clinical part-of-speech tagger for Brazilian Portuguese

Elisa Terumi Rubelschneider; Yohan Bonescki Gumiel; Lucas Ferro Antunes de Oliveira; Carolina de Oliveira Montenegro; Laura Rubel Barzotto; Claudia Moro; Adriana Silvina Pagano; Emerson Cabrera Paraiso

doi:https://doi.org/10.59681/2175-4411.v15.iEspecial.2023.1086

Developing a Transformer-based clinical part-of-speech tagger for Brazilian Portuguese

dc.creator	Elisa Terumi Rubelschneider
dc.creator	Yohan Bonescki Gumiel
dc.creator	Lucas Ferro Antunes de Oliveira
dc.creator	Carolina de Oliveira Montenegro
dc.creator	Laura Rubel Barzotto
dc.creator	Claudia Moro
dc.creator	Adriana Silvina Pagano
dc.creator	Emerson Cabrera Paraiso
dc.date.accessioned	2025-03-14T19:28:02Z
dc.date.accessioned	2025-09-09T01:21:01Z
dc.date.available	2025-03-14T19:28:02Z
dc.date.issued	2023-07-20
dc.description.abstract	O Prontuário Eletrônico do Paciente contém informações valiosas, passíveis de serem extraídas por meio de tarefas de processamento de língua natural (PLN), como o etiquetamento morfossintático de palavras. Embora grandes avanços em PLN no domínio da saúde tenham sido observados, como a arquitetura Transformer, línguas como o português ainda estão subrepresentadas. Neste artigo, apresentamos etiquetadores desenvolvidos para textos em português, refinados a partir dos modelos BioBERtpt (clínico/biomédico) e BERTimbau (genérico) em um corpus com anotações morfossintáticas. Atingimos 0.9826 em acurácia, estado-da-arte para o corpus utilizado. Além disso, realizamos uma avaliação por humanos dos modelos treinados e outros da literatura, utilizando narrativas clínicas autênticas. Nosso modelo clínico atingiu 0.8145 em acurácia comparado com 0.7656 do modelo genérico. Também apresentou resultados competitivos em relação a modelos treinados especificamente com textos clínicos, evidenciando o impacto do domínio no modelo de base em tarefas de PLN.
dc.format.mimetype	pdf
dc.identifier.doi	https://doi.org/10.59681/2175-4411.v15.iEspecial.2023.1086
dc.identifier.issn	2175-4411
dc.identifier.uri	https://hdl.handle.net/1843/80659
dc.language	eng
dc.publisher	Universidade Federal de Minas Gerais
dc.relation.ispartof	Journal of Health Informatics
dc.rights	Acesso Aberto
dc.subject	Processamento da linguagem natural (Computação)
dc.subject	Documentos eletrônicos
dc.subject	Documentos eletrônicos
dc.subject.other	Natural language processing
dc.subject.other	Electronic health records
dc.subject.other	Deep learning
dc.title	Developing a Transformer-based clinical part-of-speech tagger for Brazilian Portuguese
dc.title.alternative	Desenvolvimento de um etiquetador morfossintático baseado em Transformer para textos clínicos brasileiros
dc.type	Artigo de periódico
local.citation.issue	Especial
local.citation.volume	15
local.description.resumo	Electronic Health Records are a valuable source of information to be extracted by means of natural language processing (NLP) tasks, such as morphosyntactic word tagging. Although there have been significant advances in health NLP, such as the Transformer architecture, languages such as Portuguese are still underrepresented. This paper presents taggers developed for Portuguese texts, fine-tuned using BioBERtpt (clinical/biomedical) and BERTimbau (generic) models on a POS-tagged corpus. We achieved an accuracy of 0.9826, state-of-the-art for the corpus used. In addition, we performed a human-based evaluation of the trained models and others in the literature, using authentic clinical narratives. Our clinical model achieved 0.8145 in accuracy compared to 0.7656 for the generic model. It also showed competitive results compared to models trained specifically with clinical texts, evidencing domain impact on the base model in NLP tasks.
local.identifier.orcid	https://orcid.org/0000-0001-7764-7249
local.identifier.orcid	https://orcid.org/0000-0001-8239-2930
local.identifier.orcid	https://orcid.org/0000-0003-4052-7993
local.identifier.orcid	https://orcid.org/0009-0008-2751-3857
local.identifier.orcid	https://orcid.org/0000-0003-2637-3086
local.identifier.orcid	https://orcid.org/0000-0002-3150-3503
local.identifier.orcid	https://orcid.org/0000-0002-6740-7855
local.publisher.country	Brasil
local.publisher.department	FALE - FACULDADE DE LETRAS
local.publisher.initials	UFMG

Arquivos

Pacote original

Agora exibindo 1 - 1 de 1

Nome:: Developing a Transformer-based Clinical Part-of-Speech Tagger for Brazilian Portuguese.pdf
Tamanho:: 486.09 KB
Formato:: Adobe Portable Document Format

Baixar

Licença do pacote

Agora exibindo 1 - 1 de 1

Nome:: License.txt
Tamanho:: 1.99 KB
Formato:: Plain Text
Descrição:

Baixar

Coleções

Artigo de Periódico