Challenging formality style transfer models with progressively harder instances

dc.creatorFernanda Guimarães de Araújo
dc.date.accessioned2025-08-28T16:00:51Z
dc.date.accessioned2025-09-09T00:49:33Z
dc.date.available2025-08-28T16:00:51Z
dc.date.issued2024-12-17
dc.description.abstractTransferência de estilo de texto, também conhecida como TST, é uma tarefa de Processamento de Linguagem Natural que visa transferir o estilo de um texto, buscando preservar o significado no processo. Transferência de Estilo de Formalidade é uma subtarefa de TST focada no domínio informal →formal. Para esta tarefa, dados paralelos são escassos e difíceis de coletar, e as pesquisas iniciais se concentraram principalmente em abordagens não supervisionadas. Neste trabalho, propomos DEGRADE, um mecanismo para introduzir informalidade em conjuntos de dados existentes por meio de (1) criação de novos conjuntos de dados paralelos de FST a partir de textos formais e (2) adição de ainda mais informalidade nas sentenças informais dentro de conjuntos de dados paralelos existentes (por exemplo, GYAFC). DEGRADE pode ser visto como uma estratégia de perturbação de dados, pois perturba o texto com cinco modificações: D1 (abreviações), D2 (gírias), D3 (erros de ortografia), D4 (palavras maiúsculas) e D5 (emoji). As modi- ficações são aplicadas sequencialmente em ordem crescente do rótulo D(i). Para uma frase W, primeiro executamos D1, seguido por D2, D3, D4 e, finalmente, D5. Como resultado, DEGRADE pode aplicar múltiplas transformações as frases dentro de um texto. Nosso método introduz modificações em cinco níveis diferentes de informalidade: NONE, LOW, MODERATE, HEAVY e EXTREME. O nível NONE preserva o texto original inalterado, servindo como uma linha de base para avaliar o impacto dos níveis de modificação subsequentes. Por outro lado, o n´nível EXTREME aplica as modificações mais intensas, tornando o texto às vezes difícil até mesmo para pessoas compreenderem. Para avaliar o impacto dessas transformações, avaliamos vários Large Language Models (LLMs) existentes nos conjuntos de dados dentro da tarefa FST. Especificamente, experimentamos com o DeepSeek, LLama2, ChatGPT, Mistral e BART. Para a avaliação, fizemos o fine-tuning de LLama2 e Mistral e treinamos o BART do zero. O ChatGPT é utilizado em uma configuração zero-shot, sem nenhum tipo de fine-tuning. Esta avaliação é conduzida em dois conjuntos de dados: Grammarly’s Yahoo Answers Formality Corpus (GYAFC) e GPT-Dataset. GYAFC é um conjunto de dados existente e importante benchmark FST, composto por dados FST paralelos de alta qualidade. GPT-Dataset é um conjunto de dados criados a partir do ChatGPT e que usamos para criar novos dados paralelos formais →informais, expandindo o escopo de nossa avaliação. Os resultados demonstraram a eficácia do DEGRADE em aumentar a dificuldade das instâncias. Ao analisar as pontuações gerais, usando perplexidade, BLEU e acurácia de estilo, o desempenho da transferência de estilo de formalidade diminui significativamente à medida que o nível de informalidade do DEGRADE aumenta. Essa queda no desempenho ocorreu para todos os modelos, exceto o ChatGPT. Um modelo maior, como o ChatGPT, manteve resultados relativamente bons em todos os n´níveis de método, sugerindo que a escala do modelo é um fator mais determinante do que o fine-tuning ao lidar com variações extremas de estilo. Concluímos que modelos de linguagem grandes têm dificuldade em adaptar `a variabilidade da linguagem em cenários de alta informalidade, e que a escala do modelo é um fator determinante na performance.
dc.identifier.urihttps://hdl.handle.net/1843/84678
dc.languageeng
dc.publisherUniversidade Federal de Minas Gerais
dc.rightsAcesso Aberto
dc.subjectComputação - Teses
dc.subjectProcessamento da linguagem natural (Computação) - Teses
dc.subject.otherlanguage models
dc.subject.othertext style transfer
dc.subject.otherinformality
dc.titleChallenging formality style transfer models with progressively harder instances
dc.title.alternativeDesafiando modelos de transferência de estilo de formalidade com instâncias progressivamente mais difíceis
dc.typeDissertação de mestrado
local.contributor.advisor1Pedro Olmo Stancioli Vaz de Melo
local.contributor.advisor1Latteshttp://lattes.cnpq.br/3262926164579789
local.contributor.referee1Rodrygo Luis Teodoro Santos
local.contributor.referee1Ticiana Linhares Coelho da Silva
local.creator.Latteshttp://lattes.cnpq.br/9154135359556335
local.description.resumoText Style Transfer (TST) is a Natural Language Processing task that aims to transfer the style of a text, while looking to preserve the meaning in the process. Formality Style Transfer (FST) is a TST subtask focused on the informal →formal domain. For this task, parallel data is scarce and difficult to collect, and early research focused mostly on unsupervised approaches. In this work, we propose DEGRADE, a mechanism to introduce informality to existing datasets by (1) creating new parallel FST datasets from formal texts and (2) adding even more informality to the informal sentences within ex- isting parallel datasets (e.g., GYAFC). DEGRADE can be seen as a data perturbation strategy, as it perturbs the text with five modifications: D1 (abbreviations), D2 (slangs), D3 (spelling errors), D4 (uppercase) and D5 (emoji). The modifications are applied sequentially in ascending order of the label D(i). For a sentence W, we first perform D1, followed by D2, D3, D4, and finally D5. As a result, DEGRADE may apply multiple transformations to the sentences within a text. Our method introduces modifications at five different levels of informality: NONE, LOW, MODERATE, HEAVY, and EX- TREME. The NONE level preserves the original text unchanged, serving as a baseline for evaluating the impact of the subsequent modification levels. Conversely, the EX- TREME level applies the most intense modifications, making the text at times difficult for even humans to comprehend. To assess the impact of these transformations, we evalu- ate several existing Large Language Models (LLMs) on the datasets within the FST task. Specifically, we experiment with DeepSeek, LLama2, ChatGPT, Mistral, and BART. For the evaluation, we fine-tune LLama2 and Mistral, and retrain BART from scratch. Chat- GPT and DeepSeek are utilized on a zero-shot setting, without any kind of fine-tuning. This evaluation is conducted on two datasets: Grammarly’s Yahoo Answers Formality Corpus (GYAFC) and the GPT-Dataset. GYAFC is an existing dataset and important FST benchmark, comprised of high quality parallel FST data. The GPT-Dataset is a dataset that we use to create new formal →informal parallel data, expanding the scope of our evaluation. We analyze overall results and also analyze the impact of each model separately. All results demonstrated the effectiveness of DEGRADE in increasing the hardness of instances. When analyzing the evaluation metrics, the Formality Style Trans- fer performance decreases significantly as the informality level of DEGRADE increases. This drop in performance occurred for all models, except ChatGPT. Alarger model such as ChatGPT maintained relatively good scores across DEGRADE levels, suggesting that the model scale is a more determining factor than fine-tuning when handling extreme style variation. Our findings indicate that large language models have difficulty in adapting the language variability and high informality scenarios, and that model scale is a determining factor for extreme style variation.
local.publisher.countryBrasil
local.publisher.departmentICEX - INSTITUTO DE CIÊNCIAS EXATAS
local.publisher.initialsUFMG
local.publisher.programPrograma de Pós-Graduação em Ciência da Computação

Arquivos

Pacote original

Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
dissertacao_fernanda_final_aprovada.pdf
Tamanho:
1.11 MB
Formato:
Adobe Portable Document Format

Licença do pacote

Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
license.txt
Tamanho:
2.07 KB
Formato:
Plain Text
Descrição: