Learning a discrete intermediate representation for continuous sign language production

Thiago Malta Coutinho

Learning a discrete intermediate representation for continuous sign language production

dc.creator	Thiago Malta Coutinho
dc.date.accessioned	2025-12-05T14:52:19Z
dc.date.issued	2023-12-22
dc.description.abstract	Centenas de milhões de pessoas sofrem de algum tipo de perda auditiva mundialmente. A Organização Mundial da Saúde (OMS) estima que esse grupo seja de aproximadamente 5% da população mundial. A Linguagem de Sinais é o principal meio de comunicação desses indivíduos. Atualmente, existe uma escassez de intérpretes profissionais de língua de sinais em todo o mundo, o que leva a uma má integração dos usuários de língua de sinais na sociedade em geral. A Produção de Linguagem de Sinais (PLS) é uma tarefa que pode ajudar nesse problema através da síntese automática de línguas de sinais. As áreas de Visão Computacional e Processamento de Linguagem Natural (PLN) fizeram avanços significativos na síntese de gestos e linguagem recentemente, proporcionando novas possibilidades para a PLS. No entanto, os modelos existentes ainda têm dificuldade em representar com precisão e compreensibilidade os movimentos da língua de sinais. Esta dissertação apresenta uma nova abordagem que utiliza uma representação intermediária discreta-contínua para gerar frases de língua de sinais de alta qualidade exclusivamente a partir de entradas de texto. O método utiliza a arquitetura Transformers, amplamente utilizada em PLN, para extrair representações textuais de Modelos de Linguagem de Larga-escala (MLL). Ao contrário das abordagens anteriores, que se concentram principalmente no uso de representações latentes contínuas, nosso método explora a natureza discreta do texto e dos sinais para capturar melhor as nuances da língua de sinais. O estudo investiga os benefícios do uso da Quantização Vetorial Residual em um esquema de aprendizado não-supervisionado para otimizar um modelo que sintetiza sinais contínuos a partir de tokens discretos. Além disso, uma arquitetura Transformer Decoder é empregada para mapear representações textuais para o espaço discreto-contínuo. Nossa abordagem é avaliada em dois conjuntos de dados (em língua alemã e inglês americano). Os experimentos demonstram a eficácia da abordagem, superando métodos estado da arte em métricas de linguagem (BLEU e ROUGE) e métricas de movimentos (FGD e MAEJ). Esses resultados indicam que o nosso modelo sintetiza sinais mais próximos do esperado tanto espacialmente quanto semanticamente. As contribuições desta dissertação incluem a introdução de um novo modelo discreto-contínuo para gerar frases de língua de sinais de alta qualidade, um método que aproveita o poder dos MLLs para produção de texto para sinais, uma arquitetura Transformer que combina representações contínuas e discretas para aprimorar a geração de frases de língua de sinais, e um procedimento experimental extenso e estudo de ablação para validar a eficácia do método proposto.
dc.description.sponsorship	CAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível Superior
dc.description.sponsorship	CNPq - Conselho Nacional de Desenvolvimento Científico e Tecnológico
dc.description.sponsorship	FAPEMIG - Fundação de Amparo à Pesquisa do Estado de Minas Gerais
dc.description.sponsorship	FINEP - Financiadora de Estudos e Projetos, Financiadora de Estudos e Projetos
dc.identifier.uri	https://hdl.handle.net/1843/1071
dc.language	eng
dc.publisher	Universidade Federal de Minas Gerais
dc.rights	Acesso aberto
dc.subject	Computação – Teses
dc.subject	Visão por computador – Teses
dc.subject	Processamento de Linguagem Natural – Teses
dc.subject	Linguagem e línguas - Teses
dc.subject	Linguagem de sinais – Teses
dc.subject.other	Sign language production
dc.subject.other	Residual Vector Quantization
dc.subject.other	Variational Auto-Encoder
dc.subject.other	Large Language Models
dc.subject.other	Generative models
dc.title	Learning a discrete intermediate representation for continuous sign language production
dc.title.alternative	Aprendendo uma representação intermediária discreta para a produção contínua de linguagem de sinais
dc.type	Dissertação de mestrado
local.contributor.advisor-co1	Thiago Luange Gomes
local.contributor.advisor-co1Lattes	http://lattes.cnpq.br/0871887999409454
local.contributor.advisor1	Erickson Rangel do Nascimento
local.contributor.advisor1Lattes	http://lattes.cnpq.br/6900352659470721
local.contributor.referee1	Frederico Gadelha Guimarães
local.contributor.referee1	Michel Melo da Silva
local.creator.Lattes	http://lattes.cnpq.br/9948989096719192
local.description.resumo	Hundreds of millions of people suffers from some form of hearing loss worldwide. The World Health Organization (WHO) estimates that this group comprises approximately 5% of the global population. Sign language is the primary means of communication for these individuals. Currently, there is a shortage of professional sign language interpreters worldwide, leading to poor integration of sign language users into society at large. Sign Language Production (SLP) is a task that can help address this issue through automatic sign language synthesis. The fields of Computer Vision and Natural Language Processing (NLP) have made significant advancements in gesture and language synthesis recently, offering new possibilities for SLP. However, existing models still struggle to accurately and comprehensibly represent sign language movements. This dissertation presents a new approach that uses an intermediate discrete-continuous representation to generate high-quality sign language sentences exclusively from text inputs. The method employs Transformers architecture, widely used in NLP, to extract textual representations from Large Language Models (LLMs). Unlike previous approaches that mainly focus on the use of continuous latent representations, our method explores the discrete nature of text and signs to better capture sign language nuances. The study investigates the benefits of using Residual Vector Quantization in an unsupervised learning scheme to optimize a model that synthesizes continuous signs from discrete tokens. Additionally, a Transformer Decoder architecture is employed to map textual representations to the discrete-continuous space. Our approach is evaluated on two datasets (in German and American English). The experiments demonstrate the effectiveness of the approach, surpassing state-of-the-art methods in language metrics (BLEU and ROUGE) and movement metrics (FGD and MAEJ). These results indicate that our model synthesizes signs closer to what is expected both spatially and semantically. The contributions of this dissertation include the introduction of a new discrete-continuous model for generating high-quality sign language sentences, a method that leverages the power of LLMs for text-to-sign production, a Transformer architecture that combines continuous and discrete representations to enhance sign language sentence generation, and an extensive experimental procedure and ablation study to validate the effectiveness of the proposed method.
local.identifier.orcid	https://orcid.org/my-orcid?orcid=0000-0002-2684-1030
local.publisher.country	Brasil
local.publisher.department	ICX - DEPARTAMENTO DE CIÊNCIA DA COMPUTAÇÃO
local.publisher.initials	UFMG
local.publisher.program	Programa de Pós-Graduação em Ciência da Computação
local.subject.cnpq	CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO::PROCESSAMENTO GRAFICO (GRAPHICS)

Arquivos

Pacote original

Agora exibindo 1 - 1 de 1

Nome:: dissertacao_thiago_coutinho_final.pdf
Tamanho:: 17.51 MB
Formato:: Adobe Portable Document Format

Baixar

Licença do pacote

Agora exibindo 1 - 1 de 1

Nome:: license.txt
Tamanho:: 2.07 KB
Formato:: Item-specific license agreed to upon submission
Descrição:

Baixar

Coleções

Pós-Graduação em Ciência da Computação - Dissertações