Use este identificador para citar ou linkar para este item: http://hdl.handle.net/1843/75576
Tipo: Dissertação
Título: Developing and evaluating a machine translation model for English-Brazilian Portuguese in the accounting domain
Autor(es): Antônio Artur de Souza
Primeiro Orientador: Adriana Silvina Pagano
Primeiro membro da banca : Igor Antonio Lourenco da Silva
Segundo membro da banca: Evandro Landulfo Teixeira Paradela Cunha
Resumo: Esta dissertação relata um estudo sobre tradução automática (MT), visando investigar como modelos de tradução automática baseados em redes neurais (NMT), ajustados com informações de domínio específico, se comparam com Modelos de Linguagem de Grande Escala (LLM) utilizados em tarefas de tradução semelhantes. Para isso, compilou-se um corpus das normas contábeis internacionais (chamadas IFRS) escritas em inglês, juntamente com suas traduções humanas para o português brasileiro (doravante consideradas nosso padrão-ouro), que foi utilizado em experimentos. Quatro experimentos foram realizados: (1) tradução por um modelo genérico de MT para línguas românicas (opus-mten- romance) ajustado com dados de domínio, desenvolvido pelo Grupo de Pesquisa em Tecnologia da Linguagem da Universidade de Helsinque; (2) tradução por um modelo genérico de MT para português (opus-mt-tc-big-en-pt) ajustado com dados de domínio, também do Grupo de Pesquisa em Tecnologia da Linguagem; (3) tradução por um LLM, nomeadamente GPT-3.5; e (4) tradução por um LLM, nomeadamente GPT-4, realizada, assim como a tarefa 3, com o mesmo prompt e sem preparação prévia. A saída da tradução foi avaliada usando a métrica BLEU (Papineni et al., 2002), tendo como referência o corpus padrão-ouro de traduções humanas. Uma amostra da saída dos dois modelos com as melhores pontuações BLEU foi avaliada manualmente, seguindo uma taxonomia de erros de tradução de TA (Caseli; Inácio, 2020). Os resultados da métrica BLEU mostraram que a tradução pelo modelo genérico de TA en-pt para tradução do inglês para o português, ajustado com dados de domínio, teve o melhor desempenho, com um valor BLEU de 0,89. O segundo melhor desempenho foi obtido pelo outro modelo ajustado (para línguas românicas), com um valor BLEU de 0,88. A terceira melhor tradução foi apresentada pelo modelo LLM GPT-4 (valor BLEU de 0,83), seguido de perto pela tradução pelo modelo genérico de TA para en-pt (valor BLEU de 0,79). Os resultados da análise manual da amostra de saída para os dois melhores modelos apontaram as categorias de erros mais frequentemente encontradas (lexical e n-grams) em comparação com o padrão-ouro humano. No geral, nosso estudo sugere que um modelo genérico de TA ajustado com dados de domínio tem um desempenho ligeiramente melhor que um LLM, uma descoberta que pode impactar decisões considerando os custos de processamento dos modelos LLM.
Abstract: This M.A. thesis reports on a study on machine translation (MT) aimed at investigating the performance of neural network-based machine translation (NMT) models, fine-tuned with domain information, compared with large language models (LLMs). To this end, a corpus of International Financial Reporting Standards (IFRS) written in English was compiled along with their human translation into Brazilian Portuguese (henceforth considered our gold standard) and used in experiments. Four experiments were carried out with such a corpus: (1) translation by a generic MT model for romance languages (opus-mt-en-romance) fine-tuned with domain data, developed by the Language Technology Research Group at the University of Helsinki; (2) translation by a generic MT model for Portuguese (opus-mt-tc-big-en-pt) fine-tuned with domain data, also developed by the Language Technology Research roup at the University of Helsinki; (3) translation by a LLM, namely GPT-3.5; and (4) translation by a LLM, namely GPT-4, carried out with the same prompt as task 3 and zero shot. The translation output was evaluated using the BLEU metric (Papineni et al., 2002), having as reference the gold-standard corpus of human translations. A sample of the output from the two models with the best BLEU scores was evaluated manually following a taxonomy of MT translation errors (Caseli; Inácio, 2020). The results of the BLEU metric showed that translation by the generic MT model en-pt (English to Portuguese) fine-tuned with domain data performed the best, with a BLEU value of 0,89. The second-best result was presented by the other fine-tuned model (for romance languages) with a BLEU value of 0,88. The third best performance was achieved by the LLM GPT-4 model translation (BLEU value of 0,83), closely followed by the generic MT model for en-pt translation (BLEU value of 0,79). The manual analysis of the output sample of the two of the best-performing models pointed out the categories of errors most frequently found (lexical and n-gram) when compared with the human gold standard. Overall, our study suggests that a generic MT model fine-tuned with domain data has a slightly better performance than a LLM, a finding that may impact decisions bearing in mind the processing costs of LLMs.
Assunto: Tradução e intepretação
Traduções – Estudo e ensino
Agentes inteligentes (Software)
Linguística aplicada
Idioma: eng
País: Brasil
Editor: Universidade Federal de Minas Gerais
Sigla da Instituição: UFMG
Departamento: FALE - FACULDADE DE LETRAS
Curso: Programa de Pós-Graduação em Estudos Linguísticos
Tipo de Acesso: Acesso Aberto
metadata.dc.rights.uri: http://creativecommons.org/licenses/by-nc-nd/3.0/pt/
URI: http://hdl.handle.net/1843/75576
Data do documento: 22-Mar-2024
Aparece nas coleções:Dissertações de Mestrado

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
Thesis AAS.pdfAntônio Artur de Souza - Dissertação1.62 MBAdobe PDFVisualizar/Abrir


Este item está licenciada sob uma Licença Creative Commons Creative Commons