Learning a discrete intermediate representation for continuous sign language production

dc.creatorThiago Malta Coutinho
dc.date.accessioned2025-12-05T14:52:19Z
dc.date.issued2023-12-22
dc.description.abstractCentenas de milhões de pessoas sofrem de algum tipo de perda auditiva mundialmente. A Organização Mundial da Saúde (OMS) estima que esse grupo seja de aproximadamente 5% da população mundial. A Linguagem de Sinais é o principal meio de comunicação desses indivíduos. Atualmente, existe uma escassez de intérpretes profissionais de língua de sinais em todo o mundo, o que leva a uma má integração dos usuários de língua de sinais na sociedade em geral. A Produção de Linguagem de Sinais (PLS) é uma tarefa que pode ajudar nesse problema através da síntese automática de línguas de sinais. As áreas de Visão Computacional e Processamento de Linguagem Natural (PLN) fizeram avanços significativos na síntese de gestos e linguagem recentemente, proporcionando novas possibilidades para a PLS. No entanto, os modelos existentes ainda têm dificuldade em representar com precisão e compreensibilidade os movimentos da língua de sinais. Esta dissertação apresenta uma nova abordagem que utiliza uma representação intermediária discreta-contínua para gerar frases de língua de sinais de alta qualidade exclusivamente a partir de entradas de texto. O método utiliza a arquitetura Transformers, amplamente utilizada em PLN, para extrair representações textuais de Modelos de Linguagem de Larga-escala (MLL). Ao contrário das abordagens anteriores, que se concentram principalmente no uso de representações latentes contínuas, nosso método explora a natureza discreta do texto e dos sinais para capturar melhor as nuances da língua de sinais. O estudo investiga os benefícios do uso da Quantização Vetorial Residual em um esquema de aprendizado não-supervisionado para otimizar um modelo que sintetiza sinais contínuos a partir de tokens discretos. Além disso, uma arquitetura Transformer Decoder é empregada para mapear representações textuais para o espaço discreto-contínuo. Nossa abordagem é avaliada em dois conjuntos de dados (em língua alemã e inglês americano). Os experimentos demonstram a eficácia da abordagem, superando métodos estado da arte em métricas de linguagem (BLEU e ROUGE) e métricas de movimentos (FGD e MAEJ). Esses resultados indicam que o nosso modelo sintetiza sinais mais próximos do esperado tanto espacialmente quanto semanticamente. As contribuições desta dissertação incluem a introdução de um novo modelo discreto-contínuo para gerar frases de língua de sinais de alta qualidade, um método que aproveita o poder dos MLLs para produção de texto para sinais, uma arquitetura Transformer que combina representações contínuas e discretas para aprimorar a geração de frases de língua de sinais, e um procedimento experimental extenso e estudo de ablação para validar a eficácia do método proposto.
dc.description.sponsorshipCAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível Superior
dc.description.sponsorshipCNPq - Conselho Nacional de Desenvolvimento Científico e Tecnológico
dc.description.sponsorshipFAPEMIG - Fundação de Amparo à Pesquisa do Estado de Minas Gerais
dc.description.sponsorshipFINEP - Financiadora de Estudos e Projetos, Financiadora de Estudos e Projetos
dc.identifier.urihttps://hdl.handle.net/1843/1071
dc.languageeng
dc.publisherUniversidade Federal de Minas Gerais
dc.rightsAcesso aberto
dc.subjectComputação – Teses
dc.subjectVisão por computador – Teses
dc.subjectProcessamento de Linguagem Natural – Teses
dc.subjectLinguagem e línguas - Teses
dc.subjectLinguagem de sinais – Teses
dc.subject.otherSign language production
dc.subject.otherResidual Vector Quantization
dc.subject.otherVariational Auto-Encoder
dc.subject.otherLarge Language Models
dc.subject.otherGenerative models
dc.titleLearning a discrete intermediate representation for continuous sign language production
dc.title.alternativeAprendendo uma representação intermediária discreta para a produção contínua de linguagem de sinais
dc.typeDissertação de mestrado
local.contributor.advisor-co1Thiago Luange Gomes
local.contributor.advisor-co1Latteshttp://lattes.cnpq.br/0871887999409454
local.contributor.advisor1Erickson Rangel do Nascimento
local.contributor.advisor1Latteshttp://lattes.cnpq.br/6900352659470721
local.contributor.referee1Frederico Gadelha Guimarães
local.contributor.referee1Michel Melo da Silva
local.creator.Latteshttp://lattes.cnpq.br/9948989096719192
local.description.resumoHundreds of millions of people suffers from some form of hearing loss worldwide. The World Health Organization (WHO) estimates that this group comprises approximately 5% of the global population. Sign language is the primary means of communication for these individuals. Currently, there is a shortage of professional sign language interpreters worldwide, leading to poor integration of sign language users into society at large. Sign Language Production (SLP) is a task that can help address this issue through automatic sign language synthesis. The fields of Computer Vision and Natural Language Processing (NLP) have made significant advancements in gesture and language synthesis recently, offering new possibilities for SLP. However, existing models still struggle to accurately and comprehensibly represent sign language movements. This dissertation presents a new approach that uses an intermediate discrete-continuous representation to generate high-quality sign language sentences exclusively from text inputs. The method employs Transformers architecture, widely used in NLP, to extract textual representations from Large Language Models (LLMs). Unlike previous approaches that mainly focus on the use of continuous latent representations, our method explores the discrete nature of text and signs to better capture sign language nuances. The study investigates the benefits of using Residual Vector Quantization in an unsupervised learning scheme to optimize a model that synthesizes continuous signs from discrete tokens. Additionally, a Transformer Decoder architecture is employed to map textual representations to the discrete-continuous space. Our approach is evaluated on two datasets (in German and American English). The experiments demonstrate the effectiveness of the approach, surpassing state-of-the-art methods in language metrics (BLEU and ROUGE) and movement metrics (FGD and MAEJ). These results indicate that our model synthesizes signs closer to what is expected both spatially and semantically. The contributions of this dissertation include the introduction of a new discrete-continuous model for generating high-quality sign language sentences, a method that leverages the power of LLMs for text-to-sign production, a Transformer architecture that combines continuous and discrete representations to enhance sign language sentence generation, and an extensive experimental procedure and ablation study to validate the effectiveness of the proposed method.
local.identifier.orcidhttps://orcid.org/my-orcid?orcid=0000-0002-2684-1030
local.publisher.countryBrasil
local.publisher.departmentICX - DEPARTAMENTO DE CIÊNCIA DA COMPUTAÇÃO
local.publisher.initialsUFMG
local.publisher.programPrograma de Pós-Graduação em Ciência da Computação
local.subject.cnpqCIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO::PROCESSAMENTO GRAFICO (GRAPHICS)

Arquivos

Pacote original

Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
dissertacao_thiago_coutinho_final.pdf
Tamanho:
17.51 MB
Formato:
Adobe Portable Document Format

Licença do pacote

Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
license.txt
Tamanho:
2.07 KB
Formato:
Item-specific license agreed to upon submission
Descrição: