Challenging formality style transfer models with progressively harder instances
Carregando...
Data
Autor(es)
Título da Revista
ISSN da Revista
Título de Volume
Editor
Universidade Federal de Minas Gerais
Descrição
Tipo
Dissertação de mestrado
Título alternativo
Desafiando modelos de transferência de estilo de formalidade com instâncias progressivamente mais difíceis
Primeiro orientador
Membros da banca
Rodrygo Luis Teodoro Santos
Ticiana Linhares Coelho da Silva
Ticiana Linhares Coelho da Silva
Resumo
Text Style Transfer (TST) is a Natural Language Processing task that aims to transfer
the style of a text, while looking to preserve the meaning in the process. Formality Style
Transfer (FST) is a TST subtask focused on the informal →formal domain. For this
task, parallel data is scarce and difficult to collect, and early research focused mostly
on unsupervised approaches. In this work, we propose DEGRADE, a mechanism to
introduce informality to existing datasets by (1) creating new parallel FST datasets from
formal texts and (2) adding even more informality to the informal sentences within ex-
isting parallel datasets (e.g., GYAFC). DEGRADE can be seen as a data perturbation
strategy, as it perturbs the text with five modifications: D1 (abbreviations), D2 (slangs),
D3 (spelling errors), D4 (uppercase) and D5 (emoji). The modifications are applied
sequentially in ascending order of the label D(i). For a sentence W, we first perform D1,
followed by D2, D3, D4, and finally D5. As a result, DEGRADE may apply multiple
transformations to the sentences within a text. Our method introduces modifications at
five different levels of informality: NONE, LOW, MODERATE, HEAVY, and EX-
TREME. The NONE level preserves the original text unchanged, serving as a baseline
for evaluating the impact of the subsequent modification levels. Conversely, the EX-
TREME level applies the most intense modifications, making the text at times difficult
for even humans to comprehend. To assess the impact of these transformations, we evalu-
ate several existing Large Language Models (LLMs) on the datasets within the FST task.
Specifically, we experiment with DeepSeek, LLama2, ChatGPT, Mistral, and BART. For
the evaluation, we fine-tune LLama2 and Mistral, and retrain BART from scratch. Chat-
GPT and DeepSeek are utilized on a zero-shot setting, without any kind of fine-tuning.
This evaluation is conducted on two datasets: Grammarly’s Yahoo Answers Formality
Corpus (GYAFC) and the GPT-Dataset. GYAFC is an existing dataset and important
FST benchmark, comprised of high quality parallel FST data. The GPT-Dataset is a
dataset that we use to create new formal →informal parallel data, expanding the scope
of our evaluation. We analyze overall results and also analyze the impact of each model
separately. All results demonstrated the effectiveness of DEGRADE in increasing the
hardness of instances. When analyzing the evaluation metrics, the Formality Style Trans-
fer performance decreases significantly as the informality level of DEGRADE increases.
This drop in performance occurred for all models, except ChatGPT. Alarger model such
as ChatGPT maintained relatively good scores across DEGRADE levels, suggesting that
the model scale is a more determining factor than fine-tuning when handling extreme style
variation. Our findings indicate that large language models have difficulty in adapting the
language variability and high informality scenarios, and that model scale is a determining
factor for extreme style variation.
Abstract
Transferência de estilo de texto, também conhecida como TST, é uma tarefa de Processamento de Linguagem Natural que visa transferir o estilo de um texto, buscando preservar o significado no processo. Transferência de Estilo de Formalidade é uma subtarefa de TST focada no domínio informal →formal. Para esta tarefa, dados paralelos são escassos e difíceis de coletar, e as pesquisas iniciais se concentraram principalmente em abordagens não supervisionadas. Neste trabalho, propomos DEGRADE, um mecanismo para introduzir informalidade em conjuntos de dados existentes por meio de (1) criação de novos conjuntos de dados paralelos de FST a partir de textos formais e (2) adição de ainda mais informalidade nas sentenças informais dentro de conjuntos de dados paralelos existentes (por exemplo, GYAFC). DEGRADE pode ser visto como uma estratégia de perturbação de dados, pois perturba o texto com cinco modificações: D1 (abreviações), D2 (gírias), D3 (erros de ortografia), D4 (palavras maiúsculas) e D5 (emoji). As modi-
ficações são aplicadas sequencialmente em ordem crescente do rótulo D(i). Para uma frase W, primeiro executamos D1, seguido por D2, D3, D4 e, finalmente, D5. Como resultado, DEGRADE pode aplicar múltiplas transformações as frases dentro de um texto.
Nosso método introduz modificações em cinco níveis diferentes de informalidade: NONE, LOW, MODERATE, HEAVY e EXTREME. O nível NONE preserva o texto original inalterado, servindo como uma linha de base para avaliar o impacto dos níveis de
modificação subsequentes. Por outro lado, o n´nível EXTREME aplica as modificações mais intensas, tornando o texto às vezes difícil até mesmo para pessoas compreenderem. Para avaliar o impacto dessas transformações, avaliamos vários Large Language Models
(LLMs) existentes nos conjuntos de dados dentro da tarefa FST. Especificamente, experimentamos com o DeepSeek, LLama2, ChatGPT, Mistral e BART. Para a avaliação, fizemos o fine-tuning de LLama2 e Mistral e treinamos o BART do zero. O ChatGPT é
utilizado em uma configuração zero-shot, sem nenhum tipo de fine-tuning. Esta avaliação é conduzida em dois conjuntos de dados: Grammarly’s Yahoo Answers Formality Corpus (GYAFC) e GPT-Dataset. GYAFC é um conjunto de dados existente e importante
benchmark FST, composto por dados FST paralelos de alta qualidade. GPT-Dataset é um conjunto de dados criados a partir do ChatGPT e que usamos para criar novos dados paralelos formais →informais, expandindo o escopo de nossa avaliação. Os resultados demonstraram a eficácia do DEGRADE em aumentar a dificuldade das instâncias. Ao analisar as pontuações gerais, usando perplexidade, BLEU e acurácia de estilo, o desempenho da transferência de estilo de formalidade diminui significativamente à medida que o nível de informalidade do DEGRADE aumenta. Essa queda no desempenho ocorreu para todos os modelos, exceto o ChatGPT. Um modelo maior, como o ChatGPT, manteve resultados relativamente bons em todos os n´níveis de método, sugerindo que a escala do modelo é um fator mais determinante do que o fine-tuning ao lidar com variações extremas de estilo. Concluímos que modelos de linguagem grandes têm dificuldade em adaptar `a variabilidade da linguagem em cenários de alta informalidade, e que a escala do modelo é um fator determinante na performance.
Assunto
Computação - Teses, Processamento da linguagem natural (Computação) - Teses
Palavras-chave
language models, text style transfer, informality