Explicit representation of note duration improves structural similarity in transformer models
Carregando...
Arquivos
Data
Autor(es)
Título da Revista
ISSN da Revista
Título de Volume
Editor
Universidade Federal de Minas Gerais
Descrição
Tipo
Dissertação de mestrado
Título alternativo
A representação explícita da duração da nota melhora a similaridade estrutural em modelos de transformadores
Primeiro orientador
Membros da banca
Pedro Olmo Stancioli Vaz de Melo
Diego Furtado Silva
Diego Furtado Silva
Resumo
Deep learning has recently demonstrated formidable results in creative computing even when dealing with complex data types. Some works are notorious for being able to create impressive high-resolution images from text prompts, while others are renowned for being able to write many paragraphs of coherent and concise text. But the same can't be said for creative computing applied to music composition, since even the best works can only convincingly create short musical pieces with adequate quality. While music may seem much simpler than high-resolution images or long stretches of text, it presents unique challenges due to the nature of its structure containing coherent repeated structures or motifs at varied timescales. With that said, transformer models have become the go-to approach for generating music. However, when training such models, one is faced with choosing from many options of architecture and input representation to use. More importantly, some models are only trained and tested on datasets with annotated structural information such as tempo, beats, bars, or phrases. This annotated information is usually used to improve the model's performance regarding structural similarity in generated musical pieces. In this work, we inquire if the off-the-shelf MusicTransformer models perform just as well using only MIDI information (that is, with no additional annotations). We show that a slight tweak to the representation most commonly used can yield small but significant improvements. Our experimental analysis focused on four datasets with different musical genres (Jazz, Maestro, SNES, and Pop) finds that generating musical pieces using the MusicTransformer architecture and a MIDI representation that encodes note duration explicitly presents improvements in structural similarity measures (a factor that is usually attributed to the exploitation of different annotations and architectures) and is corroborated by human evaluation of musical quality. Given that our approach is applicable to any plain MIDI dataset (with no external annotation), we argue that there is performance yet to be harnessed on music generation using transformers by using larger quantities of data without any extra annotations.
Abstract
Aprendizado profundo demonstrou, recentemente, resultados formidáveis em computação criativa, mesmo para dados complexos. Alguns trabalhos são notórios por criarem imagens de alta resolução impressionantes a partir de entradas de texto, enquanto outros são renomados por escreverem textos longos coerentes e concisos. Mas o mesmo não pode ser dito para criatividade computacional aplicada a composição musical, uma vez que mesmo os melhores trabalhos conseguem gerar resultados com qualidade aceitável apenas para obras curtas. Apesar de parecer mais simples se comparada a imagens de alta resolução ou textos longos, música apresenta desafios únicos devido à natureza de sua estrutura, que contém padrões de repetição (motifs) em escalas de tempo variadas. No cenário atual, modelos com arquitetura transformer são a melhor abordagem para gerar música e ao treinar estes modelos, é necessário escolher entre várias opções de arquitetura e estilos de representação de entrada. Alguns modelos são treinados e testados apenas em datasets com anotações adicionais de estrutura, como tempo, compassos ou frases, sendo que estas anotações são normalmente usadas para melhorar a performance do modelo para gerar tais estruturas. Neste trabalho, questionamos se a arquitetura padrão do MusicTransformer apresenta perda de performance mesmo usando apenas informações MIDI (isto é, sem anotações adicionais de estrutura). Mostramos que uma pequena mudança na representação mais comumente usada resulta em melhorias pequenas, mas significativas. Nossa análise experimental focada em quatro datasets com estilos musicais diferentes (Jazz, Maestro, SNES e Pop) conclui que gerar músicas usando o MusicTransformer e uma representação MIDI que codifica duração de nota explicitamente apresenta melhoria em métricas de estrutura (um fator comumente atribuído a anotações de estrutura ou melhorias em arquitetura) e é corroborada por avaliação humana de qualidade musical. Uma vez que nossa abordagem é aplicável a qualquer dataset MIDI, argumentamos que há mais ganho de performance potencial em geração de músicas usando grande quantidade de dados sem anotação, ao invés de menos dados com maior quantidade de informação.
Assunto
Computação – Teses, Aprendizado do computador – Teses, Aprendizado profundo – Teses, Inteligência computacional – Música – Teses
Palavras-chave
Music, Machine learning, Deep learning, Creative computing