Explicit representation of note duration improves structural similarity in transformer models

Carregando...
Imagem de Miniatura

Título da Revista

ISSN da Revista

Título de Volume

Editor

Universidade Federal de Minas Gerais

Descrição

Tipo

Dissertação de mestrado

Título alternativo

A representação explícita da duração da nota melhora a similaridade estrutural em modelos de transformadores

Membros da banca

Pedro Olmo Stancioli Vaz de Melo
Diego Furtado Silva

Resumo

Deep learning has recently demonstrated formidable results in creative computing even when dealing with complex data types. Some works are notorious for being able to create impressive high-resolution images from text prompts, while others are renowned for being able to write many paragraphs of coherent and concise text. But the same can't be said for creative computing applied to music composition, since even the best works can only convincingly create short musical pieces with adequate quality. While music may seem much simpler than high-resolution images or long stretches of text, it presents unique challenges due to the nature of its structure containing coherent repeated structures or motifs at varied timescales. With that said, transformer models have become the go-to approach for generating music. However, when training such models, one is faced with choosing from many options of architecture and input representation to use. More importantly, some models are only trained and tested on datasets with annotated structural information such as tempo, beats, bars, or phrases. This annotated information is usually used to improve the model's performance regarding structural similarity in generated musical pieces. In this work, we inquire if the off-the-shelf MusicTransformer models perform just as well using only MIDI information (that is, with no additional annotations). We show that a slight tweak to the representation most commonly used can yield small but significant improvements. Our experimental analysis focused on four datasets with different musical genres (Jazz, Maestro, SNES, and Pop) finds that generating musical pieces using the MusicTransformer architecture and a MIDI representation that encodes note duration explicitly presents improvements in structural similarity measures (a factor that is usually attributed to the exploitation of different annotations and architectures) and is corroborated by human evaluation of musical quality. Given that our approach is applicable to any plain MIDI dataset (with no external annotation), we argue that there is performance yet to be harnessed on music generation using transformers by using larger quantities of data without any extra annotations.

Abstract

Aprendizado profundo demonstrou, recentemente, resultados formidáveis em computação criativa, mesmo para dados complexos. Alguns trabalhos são notórios por criarem imagens de alta resolução impressionantes a partir de entradas de texto, enquanto outros são renomados por escreverem textos longos coerentes e concisos. Mas o mesmo não pode ser dito para criatividade computacional aplicada a composição musical, uma vez que mesmo os melhores trabalhos conseguem gerar resultados com qualidade aceitável apenas para obras curtas. Apesar de parecer mais simples se comparada a imagens de alta resolução ou textos longos, música apresenta desafios únicos devido à natureza de sua estrutura, que contém padrões de repetição (motifs) em escalas de tempo variadas. No cenário atual, modelos com arquitetura transformer são a melhor abordagem para gerar música e ao treinar estes modelos, é necessário escolher entre várias opções de arquitetura e estilos de representação de entrada. Alguns modelos são treinados e testados apenas em datasets com anotações adicionais de estrutura, como tempo, compassos ou frases, sendo que estas anotações são normalmente usadas para melhorar a performance do modelo para gerar tais estruturas. Neste trabalho, questionamos se a arquitetura padrão do MusicTransformer apresenta perda de performance mesmo usando apenas informações MIDI (isto é, sem anotações adicionais de estrutura). Mostramos que uma pequena mudança na representação mais comumente usada resulta em melhorias pequenas, mas significativas. Nossa análise experimental focada em quatro datasets com estilos musicais diferentes (Jazz, Maestro, SNES e Pop) conclui que gerar músicas usando o MusicTransformer e uma representação MIDI que codifica duração de nota explicitamente apresenta melhoria em métricas de estrutura (um fator comumente atribuído a anotações de estrutura ou melhorias em arquitetura) e é corroborada por avaliação humana de qualidade musical. Uma vez que nossa abordagem é aplicável a qualquer dataset MIDI, argumentamos que há mais ganho de performance potencial em geração de músicas usando grande quantidade de dados sem anotação, ao invés de menos dados com maior quantidade de informação.

Assunto

Computação – Teses, Aprendizado do computador – Teses, Aprendizado profundo – Teses, Inteligência computacional – Música – Teses

Palavras-chave

Music, Machine learning, Deep learning, Creative computing

Citação

Endereço externo

Avaliação

Revisão

Suplementado Por

Referenciado Por