An investigation of different state representations for learning to coordinate in swarm navigation

Carregando...
Imagem de Miniatura

Título da Revista

ISSN da Revista

Título de Volume

Editor

Universidade Federal de Minas Gerais

Descrição

Tipo

Dissertação de mestrado

Título alternativo

Uma investigação de diferentes representações de estado para aprender navegação coodenada de enxames de robôs

Primeiro orientador

Membros da banca

Luiz Chaimowicz
Leandro Soriano Marcolino
Douglas Guimarães Macharet
Armando Alves Neto

Resumo

Multi-agent systems have been a pivotal area of research for numerous applications in robotics, where robots interact and compete with each other, or in games where multiple agents have common or conflicting objectives. This field has seen significant advancements not only in deterministic algorithms addressing tasks such as collision-free robot navigation in controlled environments but also in machine learning techniques, including reinforcement learning. Recently, reinforcement learning methods leveraging neural networks and computational power have proven effective for complex tasks. A particularly challenging task within robot swarms is collision-free segregated navigation. This involves a group of homogeneous or heterogeneous robots navigating from a starting point to a final destination in a coordinated manner, avoiding collisions with other robots and environmental obstacles. Current state-of-the-art approaches rely on deterministic algorithms, which, while effective, do not scale well to large numbers of robots or multiple heterogeneous robot groups. Additionally, these methods require prior knowledge of the robots' characteristics and group attributes. To address these limitations, we propose two methodologies to apply deep reinforcement learning in the segregated navigation of heterogeneous robot groups. The first approach uses state representations from robot sensors to map the environment and the robots within a certain field of view. Here, the robot's actions are directly influenced by the number of robots detected within the sensor's range. Training is conducted in a controlled setup, exposing the robots to varying scenarios regarding the number of robots and groups. During testing, the learned policy is applied both within the training setup and in more complex extrapolated scenarios with a higher number of robots per group. The second approach employs an ellipse representation for the robot groups and a potential field strategy to avoid collisions. State representations are based on each group's ellipse parameters. We explore two potential field applications: one where the resultant vector serves as an input to the neural network and another where it is summed vectorially after the network response. The first methodology yields significant results when the testing setup mirrors the training environment. However, its performance declines in more challenging scenarios. Conversely, the second methodology, particularly the latter variant, demonstrates a higher success rate than the first and initial approaches within the same approach.

Abstract

Sistemas multiagentes têm sido um foco importante de pesquisas para diversas aplicações desde a robótica com robôs interagindo e competindo entre si ou em jogos em que diversos agentes possuem um objetivo comum ou conflitante. É notável não só a evolução dos algoritmos determinísticos que abordam tarefas como navegação de robôs evitando colisões em ambientes controlados, como também abordagens que envolvem técnicas de aprendizado de máquina incluindo aprendizado por reforço. Recentemente, estes métodos baseados em aprendizado por reforço se mostram eficazes ao aproveitar redes neurais e a capacidade de processamento para tarefas complexas. Dentre as tarefas de enxames ou grupo de robôs uma tarefa em específico se mostra desafiadora: Navegação segregada. Esta tarefa consiste em um grupo de robôs, do mesmo grupo ou não, navegarem pelo ambiente em que estão inseridos e possuem o objetivo de navegar em conjunto de um ponto inicial até um objetivo final de forma coordenada evitando colisões com os outros robôs no ambiente ou obstáculos. O estado da arte neste campo conta com algoritmos determinísticos que atendem a tarefa não apresentam uma escalabilidae adequada para um número grande de robôs ou vários grupos de robôs heterogêneos. Além disso, essas técnicas possuem algumas restrições como o conhecimento prévio de características dos robôs e atributos como o grupo que um determinado robô pertence. Para entender como o aprendizado por reforço pode auxiliar a comunidade a superar alguns destes desafios, propomos duas metodologias para aplicar aprendizado por reforço com redes neurais (Deep Reinforcement Learning) na tarefa de navegação segregada de grupos heterogêneos de robôs que pertencem a grupos distintos. A primeira abordagem utiliza uma representação dos estados a partir dos sensores dos robôs para mapear o ambiente e os robôs dentro de um determinado campo de visão. Nessa estratégia, a ação que o robô executa está diretamente ligada à quantidade de robôs na região de visão dos sensores. O treinamento é realizado em um determinado setup no qual o robô é exposto a diferentes cenários com relação ao número de robôs e número de grupos. Em tempo de teste, essa política aprendida é aplicada no mesmo setup de treinamento, mas também o que chamamos de extrapolação, no qual a política é aplicada em cenários mais complexos com mais robôs por grupo. Já a nossa segunda abordagem utiliza uma representação de elipse para representar o grupo de robôs além de uma estratégia de campos potenciais para evitar as colisões. Neste caso, a representação dos estados é feita pelos parâmetros da elipse de cada grupo e testamos duas formas de utilizar campos potênciais para evitar colisões: a primeira sendo o vetor resultado como uma entrada na rede neural a ser aprendida e a outra como soma vetorial após a resposta da rede. A primeira metodologia apresenta resultados relevantes para cenários em que o setup de teste é o mesmo de treinamento. Ao expandirmos o teste e aplicarmos a política em cenários mais desafiadores, os resultados não são tão bons. Já com a segunda abordagem, em especial a segunda metodologia, obtivemos uma taxa de sucesso expressiva em relação à primeira metodologia da mesma abordagem e mesmo ao compararmos com a primeira abordagem.

Assunto

Computação – Teses, Robótica – Teses, Aprendizado profundo – Teses, Sistemas multiagentes – Teses

Palavras-chave

robotics, swarms, reinforcement learning, mathematics

Citação

Endereço externo

Avaliação

Revisão

Suplementado Por

Referenciado Por