Developing and evaluating a machine translation model for English-Brazilian Portuguese in the accounting domain

Antônio Artur de Souza

Please use this identifier to cite or link to this item: http://hdl.handle.net/1843/75576

Full metadata record

DC Field	Value	Language
dc.contributor.advisor1	Adriana Silvina Pagano	pt_BR
dc.contributor.advisor1Lattes	http://lattes.cnpq.br/9048531014341931	pt_BR
dc.contributor.referee1	Igor Antonio Lourenco da Silva	pt_BR
dc.contributor.referee2	Evandro Landulfo Teixeira Paradela Cunha	pt_BR
dc.creator	Antônio Artur de Souza	pt_BR
dc.creator.Lattes	http://lattes.cnpq.br/0597505816212353	pt_BR
dc.date.accessioned	2024-08-28T15:21:18Z	-
dc.date.available	2024-08-28T15:21:18Z	-
dc.date.issued	2024-03-22	-
dc.identifier.uri	http://hdl.handle.net/1843/75576	-
dc.description.abstract	This M.A. thesis reports on a study on machine translation (MT) aimed at investigating the performance of neural network-based machine translation (NMT) models, fine-tuned with domain information, compared with large language models (LLMs). To this end, a corpus of International Financial Reporting Standards (IFRS) written in English was compiled along with their human translation into Brazilian Portuguese (henceforth considered our gold standard) and used in experiments. Four experiments were carried out with such a corpus: (1) translation by a generic MT model for romance languages (opus-mt-en-romance) fine-tuned with domain data, developed by the Language Technology Research Group at the University of Helsinki; (2) translation by a generic MT model for Portuguese (opus-mt-tc-big-en-pt) fine-tuned with domain data, also developed by the Language Technology Research roup at the University of Helsinki; (3) translation by a LLM, namely GPT-3.5; and (4) translation by a LLM, namely GPT-4, carried out with the same prompt as task 3 and zero shot. The translation output was evaluated using the BLEU metric (Papineni et al., 2002), having as reference the gold-standard corpus of human translations. A sample of the output from the two models with the best BLEU scores was evaluated manually following a taxonomy of MT translation errors (Caseli; Inácio, 2020). The results of the BLEU metric showed that translation by the generic MT model en-pt (English to Portuguese) fine-tuned with domain data performed the best, with a BLEU value of 0,89. The second-best result was presented by the other fine-tuned model (for romance languages) with a BLEU value of 0,88. The third best performance was achieved by the LLM GPT-4 model translation (BLEU value of 0,83), closely followed by the generic MT model for en-pt translation (BLEU value of 0,79). The manual analysis of the output sample of the two of the best-performing models pointed out the categories of errors most frequently found (lexical and n-gram) when compared with the human gold standard. Overall, our study suggests that a generic MT model fine-tuned with domain data has a slightly better performance than a LLM, a finding that may impact decisions bearing in mind the processing costs of LLMs.	pt_BR
dc.description.resumo	Esta dissertação relata um estudo sobre tradução automática (MT), visando investigar como modelos de tradução automática baseados em redes neurais (NMT), ajustados com informações de domínio específico, se comparam com Modelos de Linguagem de Grande Escala (LLM) utilizados em tarefas de tradução semelhantes. Para isso, compilou-se um corpus das normas contábeis internacionais (chamadas IFRS) escritas em inglês, juntamente com suas traduções humanas para o português brasileiro (doravante consideradas nosso padrão-ouro), que foi utilizado em experimentos. Quatro experimentos foram realizados: (1) tradução por um modelo genérico de MT para línguas românicas (opus-mten- romance) ajustado com dados de domínio, desenvolvido pelo Grupo de Pesquisa em Tecnologia da Linguagem da Universidade de Helsinque; (2) tradução por um modelo genérico de MT para português (opus-mt-tc-big-en-pt) ajustado com dados de domínio, também do Grupo de Pesquisa em Tecnologia da Linguagem; (3) tradução por um LLM, nomeadamente GPT-3.5; e (4) tradução por um LLM, nomeadamente GPT-4, realizada, assim como a tarefa 3, com o mesmo prompt e sem preparação prévia. A saída da tradução foi avaliada usando a métrica BLEU (Papineni et al., 2002), tendo como referência o corpus padrão-ouro de traduções humanas. Uma amostra da saída dos dois modelos com as melhores pontuações BLEU foi avaliada manualmente, seguindo uma taxonomia de erros de tradução de TA (Caseli; Inácio, 2020). Os resultados da métrica BLEU mostraram que a tradução pelo modelo genérico de TA en-pt para tradução do inglês para o português, ajustado com dados de domínio, teve o melhor desempenho, com um valor BLEU de 0,89. O segundo melhor desempenho foi obtido pelo outro modelo ajustado (para línguas românicas), com um valor BLEU de 0,88. A terceira melhor tradução foi apresentada pelo modelo LLM GPT-4 (valor BLEU de 0,83), seguido de perto pela tradução pelo modelo genérico de TA para en-pt (valor BLEU de 0,79). Os resultados da análise manual da amostra de saída para os dois melhores modelos apontaram as categorias de erros mais frequentemente encontradas (lexical e n-grams) em comparação com o padrão-ouro humano. No geral, nosso estudo sugere que um modelo genérico de TA ajustado com dados de domínio tem um desempenho ligeiramente melhor que um LLM, uma descoberta que pode impactar decisões considerando os custos de processamento dos modelos LLM.	pt_BR
dc.language	eng	pt_BR
dc.publisher	Universidade Federal de Minas Gerais	pt_BR
dc.publisher.country	Brasil	pt_BR
dc.publisher.department	FALE - FACULDADE DE LETRAS	pt_BR
dc.publisher.program	Programa de Pós-Graduação em Estudos Linguísticos	pt_BR
dc.publisher.initials	UFMG	pt_BR
dc.rights	Acesso Aberto	pt_BR
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/3.0/pt/	*
dc.subject	tradução automática	pt_BR
dc.subject	modelos de linguagem de grande escala	pt_BR
dc.subject	análise de erros	pt_BR
dc.subject	domínio contábil	pt_BR
dc.subject	tradução automática neural	pt_BR
dc.subject.other	Tradução e intepretação	pt_BR
dc.subject.other	Traduções – Estudo e ensino	pt_BR
dc.subject.other	Agentes inteligentes (Software)	pt_BR
dc.subject.other	Linguística aplicada	pt_BR
dc.title	Developing and evaluating a machine translation model for English-Brazilian Portuguese in the accounting domain	pt_BR
dc.type	Dissertação	pt_BR
dc.identifier.orcid	https://orcid.org/0000-0002-4725-0758	pt_BR
Appears in Collections:	Dissertações de Mestrado

Files in This Item:

File	Description	Size	Format
Thesis AAS.pdf	Antônio Artur de Souza - Dissertação	1.62 MB	Adobe PDF	View/Open

Show simple item record

This item is licensed under a Creative Commons License