Please use this identifier to cite or link to this item: http://hdl.handle.net/1843/61092
Type: Artigo de Periódico
Title: A novel functional electrical stimulation-induced controller using reinforcement learning to optimize online muscle activation pattern
Other Titles: Um novo controlador funcional induzido por estimulação elétrica usando aprendizagem por reforço para otimizar o padrão de ativação muscular online
Authors: Tiago Coelho-Magalhães
Christine Azevedo Coste
Henrique Resende Martins
Abstract: This study introduces a novel controller based on a Reinforcement Learning (RL) algorithm for real-time adaptation of the stimulation pattern during FES-cycling. Core to our approach is the introduction of an RL agent that interacts with the cycling environment and learns through trial and error how to modulate the electrical charge applied to the stimulated muscle groups according to a predefined policy and while tracking a reference cadence. Instead of a static stimulation pattern to be modified by a control law, we hypothesized that a non-stationary baseline set of parameters would better adjust the amount of injected electrical charge to the time-varying characteristics of the musculature. Overground FES-assisted cycling sessions were performed by a subject with spinal cord injury (SCI AIS-A, T8). For tracking a predefined pedaling cadence, two closed-loop control laws were simultaneously used to modulate the pulse intensity of the stimulation channels responsible for evoking the muscle contractions. First, a Proportional-Integral (PI) controller was used to control the current amplitude of the stimulation channels over an initial parameter setting with predefined pulse amplitude, width and fixed frequency parameters. In parallel, an RL algorithm with a decayed-epsilon-greedy strategy was implemented to randomly explore nine different variations of pulse amplitude and width parameters over the same stimulation setting, aiming to adjust the injected electrical charge according to a predefined policy. The performance of this global control strategy was evaluated in two different RL settings and explored in two different cycling scenarios. The participant was able to pedal overground for distances over 3.5 km, and the results evidenced the RL agent learned to modify the stimulation pattern according to the predefined policy and was simultaneously able to track a predefined pedaling cadence. Despite the simplicity of our approach and the existence of more sophisticated RL algorithms, our method can be used to reduce the time needed to define stimulation patterns. Our results suggest interesting research possibilities to be explored in the future to improve cycling performance since more efficient stimulation cost dynamics can be explored and implemented for the agent to learn.
Abstract: Este estudo apresenta um novo controlador baseado em um algoritmo de aprendizagem por reforço (RL) para adaptação em tempo real do padrão de estimulação durante o ciclo FES. O núcleo da nossa abordagem é a introdução de um agente RL que interage com o ambiente do ciclismo e aprende através de tentativa e erro como modular a carga elétrica aplicada aos grupos musculares estimulados de acordo com uma política predefinida e enquanto rastreia uma cadência de referência. Em vez de um padrão de estimulação estática a ser modificado por uma lei de controle, levantamos a hipótese de que um conjunto de parâmetros de linha de base não estacionário ajustaria melhor a quantidade de carga elétrica injetada às características da musculatura que variam no tempo. Sessões de ciclismo assistidas por FES foram realizadas por um sujeito com lesão medular (SCI AIS-A, T8). Para rastrear uma cadência de pedalada predefinida, duas leis de controle de circuito fechado foram usadas simultaneamente para modular a intensidade do pulso dos canais de estimulação responsáveis ​​por evocar as contrações musculares. Primeiro, um controlador Proporcional-Integral (PI) foi usado para controlar a amplitude atual dos canais de estimulação sobre uma configuração de parâmetro inicial com amplitude de pulso predefinida, largura e parâmetros de frequência fixa. Paralelamente, um algoritmo RL com uma estratégia decaída épsilon gananciosa foi implementado para explorar aleatoriamente nove variações diferentes de parâmetros de amplitude e largura de pulso sobre a mesma configuração de estimulação, com o objetivo de ajustar a carga elétrica injetada de acordo com uma política predefinida. O desempenho desta estratégia de controle global foi avaliado em dois cenários diferentes de RL e explorado em dois cenários de ciclismo diferentes. O participante foi capaz de pedalar no solo por distâncias superiores a 3,5 km, e os resultados evidenciaram que o agente RL aprendeu a modificar o padrão de estimulação de acordo com a política predefinida e foi simultaneamente capaz de rastrear uma cadência de pedalada predefinida. Apesar da simplicidade da nossa abordagem e da existência de algoritmos RL mais sofisticados, o nosso método pode ser utilizado para reduzir o tempo necessário para definir padrões de estimulação. Nossos resultados sugerem possibilidades interessantes de pesquisa a serem exploradas no futuro para melhorar o desempenho do ciclismo, uma vez que dinâmicas de custo de estimulação mais eficientes podem ser exploradas e implementadas para o agente aprender.
Subject: Estimulação elétrica
Aprendizado por reforço
Engenharia elétrica
language: eng
metadata.dc.publisher.country: Brasil
Publisher: Universidade Federal de Minas Gerais
Publisher Initials: UFMG
metadata.dc.publisher.department: ENG - DEPARTAMENTO DE ENGENHARIA ELÉTRICA
ENG - DEPARTAMENTO DE ENGENHARIA ELETRÔNICA
Rights: Acesso Aberto
metadata.dc.identifier.doi: https://doi.org/10.3390/s22239126
URI: http://hdl.handle.net/1843/61092
Issue Date: 2022
metadata.dc.url.externa: https://www.mdpi.com/1424-8220/22/23/9126
metadata.dc.relation.ispartof: Sensors
Appears in Collections:Artigo de Periódico



Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.