Developing a Transformer-based clinical part-of-speech tagger for Brazilian Portuguese
| dc.creator | Elisa Terumi Rubelschneider | |
| dc.creator | Yohan Bonescki Gumiel | |
| dc.creator | Lucas Ferro Antunes de Oliveira | |
| dc.creator | Carolina de Oliveira Montenegro | |
| dc.creator | Laura Rubel Barzotto | |
| dc.creator | Claudia Moro | |
| dc.creator | Adriana Silvina Pagano | |
| dc.creator | Emerson Cabrera Paraiso | |
| dc.date.accessioned | 2025-03-14T19:28:02Z | |
| dc.date.accessioned | 2025-09-09T01:21:01Z | |
| dc.date.available | 2025-03-14T19:28:02Z | |
| dc.date.issued | 2023-07-20 | |
| dc.description.abstract | O Prontuário Eletrônico do Paciente contém informações valiosas, passíveis de serem extraídas por meio de tarefas de processamento de língua natural (PLN), como o etiquetamento morfossintático de palavras. Embora grandes avanços em PLN no domínio da saúde tenham sido observados, como a arquitetura Transformer, línguas como o português ainda estão subrepresentadas. Neste artigo, apresentamos etiquetadores desenvolvidos para textos em português, refinados a partir dos modelos BioBERtpt (clínico/biomédico) e BERTimbau (genérico) em um corpus com anotações morfossintáticas. Atingimos 0.9826 em acurácia, estado-da-arte para o corpus utilizado. Além disso, realizamos uma avaliação por humanos dos modelos treinados e outros da literatura, utilizando narrativas clínicas autênticas. Nosso modelo clínico atingiu 0.8145 em acurácia comparado com 0.7656 do modelo genérico. Também apresentou resultados competitivos em relação a modelos treinados especificamente com textos clínicos, evidenciando o impacto do domínio no modelo de base em tarefas de PLN. | |
| dc.format.mimetype | ||
| dc.identifier.doi | https://doi.org/10.59681/2175-4411.v15.iEspecial.2023.1086 | |
| dc.identifier.issn | 2175-4411 | |
| dc.identifier.uri | https://hdl.handle.net/1843/80659 | |
| dc.language | eng | |
| dc.publisher | Universidade Federal de Minas Gerais | |
| dc.relation.ispartof | Journal of Health Informatics | |
| dc.rights | Acesso Aberto | |
| dc.subject | Processamento da linguagem natural (Computação) | |
| dc.subject | Documentos eletrônicos | |
| dc.subject | Documentos eletrônicos | |
| dc.subject.other | Natural language processing | |
| dc.subject.other | Electronic health records | |
| dc.subject.other | Deep learning | |
| dc.title | Developing a Transformer-based clinical part-of-speech tagger for Brazilian Portuguese | |
| dc.title.alternative | Desenvolvimento de um etiquetador morfossintático baseado em Transformer para textos clínicos brasileiros | |
| dc.type | Artigo de periódico | |
| local.citation.issue | Especial | |
| local.citation.volume | 15 | |
| local.description.resumo | Electronic Health Records are a valuable source of information to be extracted by means of natural language processing (NLP) tasks, such as morphosyntactic word tagging. Although there have been significant advances in health NLP, such as the Transformer architecture, languages such as Portuguese are still underrepresented. This paper presents taggers developed for Portuguese texts, fine-tuned using BioBERtpt (clinical/biomedical) and BERTimbau (generic) models on a POS-tagged corpus. We achieved an accuracy of 0.9826, state-of-the-art for the corpus used. In addition, we performed a human-based evaluation of the trained models and others in the literature, using authentic clinical narratives. Our clinical model achieved 0.8145 in accuracy compared to 0.7656 for the generic model. It also showed competitive results compared to models trained specifically with clinical texts, evidencing domain impact on the base model in NLP tasks. | |
| local.identifier.orcid | https://orcid.org/0000-0001-7764-7249 | |
| local.identifier.orcid | https://orcid.org/0000-0001-8239-2930 | |
| local.identifier.orcid | https://orcid.org/0000-0003-4052-7993 | |
| local.identifier.orcid | https://orcid.org/0009-0008-2751-3857 | |
| local.identifier.orcid | https://orcid.org/0000-0003-2637-3086 | |
| local.identifier.orcid | https://orcid.org/0000-0002-3150-3503 | |
| local.identifier.orcid | https://orcid.org/0000-0002-6740-7855 | |
| local.publisher.country | Brasil | |
| local.publisher.department | FALE - FACULDADE DE LETRAS | |
| local.publisher.initials | UFMG |
Arquivos
Pacote original
1 - 1 de 1
Carregando...
- Nome:
- Developing a Transformer-based Clinical Part-of-Speech Tagger for Brazilian Portuguese.pdf
- Tamanho:
- 486.09 KB
- Formato:
- Adobe Portable Document Format
Licença do pacote
1 - 1 de 1