Learning a discrete intermediate representation for continuous sign language production
Carregando...
Data
Autor(es)
Título da Revista
ISSN da Revista
Título de Volume
Editor
Universidade Federal de Minas Gerais
Descrição
Tipo
Dissertação de mestrado
Título alternativo
Aprendendo uma representação intermediária discreta para a produção contínua de linguagem de sinais
Primeiro orientador
Membros da banca
Frederico Gadelha Guimarães
Michel Melo da Silva
Michel Melo da Silva
Resumo
Hundreds of millions of people suffers from some form of hearing loss worldwide. The World Health Organization (WHO) estimates that this group comprises approximately 5% of the global population. Sign language is the primary means of communication for these individuals. Currently, there is a shortage of professional sign language interpreters worldwide, leading to poor integration of sign language users into society at large. Sign Language Production (SLP) is a task that can help address this issue through automatic sign language synthesis. The fields of Computer Vision and Natural Language Processing (NLP) have made significant advancements in gesture and language synthesis recently, offering new possibilities for SLP. However, existing models still struggle to accurately and comprehensibly represent sign language movements. This dissertation presents a new approach that uses an intermediate discrete-continuous representation to generate high-quality sign language sentences exclusively from text inputs. The method employs Transformers architecture, widely used in NLP, to extract textual representations from Large Language Models (LLMs). Unlike previous approaches that mainly focus on the use of continuous latent representations, our method explores the discrete nature of text and signs to better capture sign language nuances. The study investigates the benefits of using Residual Vector Quantization in an unsupervised learning scheme to optimize a model that synthesizes continuous signs from discrete tokens. Additionally, a Transformer Decoder architecture is employed to map textual representations to the discrete-continuous space. Our approach is evaluated on two datasets (in German and American English). The experiments demonstrate the effectiveness of the approach, surpassing state-of-the-art methods in language metrics (BLEU and ROUGE) and movement metrics (FGD and MAEJ). These results indicate that our model synthesizes signs closer to what is expected both spatially and semantically. The contributions of this dissertation include the introduction of a new discrete-continuous model for generating high-quality sign language sentences, a method that leverages the power of LLMs for text-to-sign production, a Transformer architecture that combines continuous and discrete representations to enhance sign language sentence generation, and an extensive experimental procedure and ablation study to validate the effectiveness of the proposed method.
Abstract
Centenas de milhões de pessoas sofrem de algum tipo de perda auditiva mundialmente. A Organização Mundial da Saúde (OMS) estima que esse grupo seja de aproximadamente 5% da população mundial. A Linguagem de Sinais é o principal meio de comunicação desses indivíduos. Atualmente, existe uma escassez de intérpretes profissionais de língua de sinais em todo o mundo, o que leva a uma má integração dos usuários de língua de sinais na sociedade em geral. A Produção de Linguagem de Sinais (PLS) é uma tarefa que pode ajudar nesse problema através da síntese automática de línguas de sinais. As áreas de Visão Computacional e Processamento de Linguagem Natural (PLN) fizeram avanços significativos na síntese de gestos e linguagem recentemente, proporcionando novas possibilidades para a PLS. No entanto, os modelos existentes ainda têm dificuldade em representar com precisão e compreensibilidade os movimentos da língua de sinais. Esta dissertação apresenta uma nova abordagem que utiliza uma representação intermediária discreta-contínua para gerar frases de língua de sinais de alta qualidade exclusivamente a partir de entradas de texto. O método utiliza a arquitetura Transformers, amplamente utilizada em PLN, para extrair representações textuais de Modelos de Linguagem de Larga-escala (MLL). Ao contrário das abordagens anteriores, que se concentram principalmente no uso de representações latentes contínuas, nosso método explora a natureza discreta do texto e dos sinais para capturar melhor as nuances da língua de sinais. O estudo investiga os benefícios do uso da Quantização Vetorial Residual em um esquema de aprendizado não-supervisionado para otimizar um modelo que sintetiza sinais contínuos a partir de tokens discretos. Além disso, uma arquitetura Transformer Decoder é empregada para mapear representações textuais para o espaço discreto-contínuo. Nossa abordagem é avaliada em dois conjuntos de dados (em língua alemã e inglês americano). Os experimentos demonstram a eficácia da abordagem, superando métodos estado da arte em métricas de linguagem (BLEU e ROUGE) e métricas de movimentos (FGD e MAEJ). Esses resultados indicam que o nosso modelo sintetiza sinais mais próximos do esperado tanto espacialmente quanto semanticamente. As contribuições desta dissertação incluem a introdução de um novo modelo discreto-contínuo para gerar frases de língua de sinais de alta qualidade, um método que aproveita o poder dos MLLs para produção de texto para sinais, uma arquitetura Transformer que combina representações contínuas e discretas para aprimorar a geração de frases de língua de sinais, e um procedimento experimental extenso e estudo de ablação para validar a eficácia do método proposto.
Assunto
Computação – Teses, Visão por computador – Teses, Processamento de Linguagem Natural – Teses, Linguagem e línguas - Teses, Linguagem de sinais – Teses
Palavras-chave
Sign language production, Residual Vector Quantization, Variational Auto-Encoder, Large Language Models, Generative models