Modelo computacional para controle do movimento de dedos de próteses robóticas baseado em aprendizado por reforço

Carregando...
Imagem de Miniatura

Título da Revista

ISSN da Revista

Título de Volume

Editor

Universidade Federal de Minas Gerais

Descrição

Tipo

Tese de doutorado

Título alternativo

Membros da banca

Alcimar Barbosa Soares
Antônio Augusto Torres Maia
Armando Alves Neto
Luciano Luporini Menegaldo

Resumo

As próteses robóticas vêm se aproximando das funcionalidades do membro fisiológico, entretanto, elas ainda carecem de sistemas de controle adaptados às necessidades do usuário. O uso da eletromiografia superficial (sEMG) melhora a integração do usuário com o dispositivo sendo utilizada em controladores que o traduzem em movimentos desejados pelo usuário. Apesar da alta acurácia, esses controladores não se adaptam às atividades de vida diária (ATVDs), pois o movimento do dispositivo é feito de forma padronizada, e não apresentam uma transição suave. Para melhorar esse sistema, tenta-se traduzir o sinal em ângulos de juntas, por meio de modelos de regressão, entretanto, dependem de inúmeros parâmetros que variam de usuário para usuário. Visando o desenvolvimento de controladores mioelétricos adaptados ao ambiente e ao usuário para execução das ATVDs, essa tese de doutorado apresentou uma avaliação do uso de técnicas de aprendizado por reforço (RL) para criação de um novo controlador mioelétrico que combina um classificador mioelétrico e um controlador de trajetórias, para execução de trajetórias fisiológicas pelo dispositivo. Inicialmente um teste piloto do controlador de trajetórias foi realizado, utilizando uma rede neural artificial (RNA) treinada RL utilizando o algoritmo Deep Deterministic Policy Gradient (DDPG). Nesse teste, o controlador realizou a flexão de um dedo, com dimensões fisiológicas, executando duas trajetórias pré-determinadas, senoidal e linear, controlando o torque de cada articulação. Avaliando a resposta do controlador foi observado que ele definiu estratégias distintas de atuação para cumprir as trajetórias esperadas obtendo um erro médio de 3,98±2,90 mm em relação com à trajetória senoidal alvo e 3,22±1,42 mm para a trajetória linear alvo. Além disso, com o uso de entradas de seleção de trajetórias proporcionais e de modelos com parâmetros distintos, foi observado que o controlador apresentou respostas distintas, indicando a adaptabilidade do controlador. Avaliando a aplicação da técnica de treinamento para uma prótese real, foi desenvolvido um controlador mioelétrico para a prótese HANDi Hand, modelada em um programa de elementos finitos (FEA). O classificador de movimentos, utilizado como seletor de trajetórias, foi treinado através do uso de técnicas de reconhecimento de padrões, utilizando uma RNA convolucional inspirada na arquitetura Inception. O controlador de trajetórias teve como objetivo executar trajetórias, com a prótese, dos movimentos de preensão de força, pinça trípode e bidigital. Para isso, foi utilizado o algoritmo de RL Twin Delayed Deep Deterministic Policy Gradient (TD3), e uma rede com células de LSTM convolucional. O classificador de sinais de sEMG foi capaz de apresentar uma acurácia superior a 96% com os dados de um voluntário amputado após a calibração. Em relação ao treinamento do controlador de trajetórias, foi observado que o elevado custo computacional em decorrência do modelo FEA utilizado no ambiente de treinamento, inviabilizou o treinamento para milhares de épocas, indicando que para o uso efetivo da metodologia proposta se faz necessário o estudo de modelos simplificados de atuadores subatuados. Apesar disso, com o controlador de melhor recompensa de treinamento, foi observado que foi utilizada estratégias distintas para execução dos movimentos, tanto com as entradas de treinamento como com os dados de indivíduos amputados.

Abstract

Robotic prostheses currently demonstrate an elevated level of functionality, similar to physiological limbs. However, they still lack control systems that are adapted to user needs. The use of surface electromyography (sEMG) has been demonstrated to enhance user integration with the device, with application in controllers that translate the signal into movements desired by the user. Despite their high level of accuracy, these controllers are not adapted to activities of daily living (ADLs), as the device's movement is standardized and does not provide a smooth transition. To enhance this system, researchers are exploring the potential of translating the signal into joint angles through regression models. However, variations in numerous parameters from user to user necessitate careful consideration when implementing these models. Aiming at the development of myoelectric controllers adapted to the environment and the user for the execution of ADLs, this doctoral thesis presented an evaluation of the use of reinforcement learning (RL) techniques to create a new myoelectric controller that combines a myoelectric classifier and a trajectory controller for the execution of physiological trajectories by the device. The pilot test of the trajectory controller was initiated using an artificial neural network (ANN) that had been trained using RL with the Deep Deterministic Policy Gradient (DDPG) algorithm. In this investigation, the controller was employed to flex a finger with physiological dimensions, executing two predetermined trajectories, sinusoidal and linear, controlling the torque of each joint. An evaluation of the controller's response revealed the presence of diverse strategies employed to fulfill the expected trajectories. The mean error observed was 3.98 mm ± 2.90 mm relative to the target sinusoidal trajectory and 3.22 mm ± 1.42 mm for the target linear trajectory. In addition, it was observed that the controller presented different responses when different proportional inputs for trajectory selection and models with different parameters were used. This indicates the controller's adaptability. An evaluation of the application of the training technique to a real prosthesis was conducted, resulting in the development of a myoelectric controller for the HANDi Hand prosthesis, which was modelled in a finite element analysis (FEA) program. The motion classifier, employed as a trajectory selector, was trained using pattern recognition techniques, with a convolutional ANN based on the Inception architecture. The trajectory controller was designed to execute trajectories with the prosthesis for force grasping, tripod pinch, and two-finger pinch movements. The RL Twin Delayed Deep Deterministic Policy Gradient (TD3) algorithm and a network comprising convolutional LSTM cells were utilized in this context. The sEMG signal classifier demonstrated an accuracy of over 96% with data from an amputee volunteer following calibration. The elevated computational cost of the FEA model employed in the training environment was impractical for extended training over thousands of episodes, suggesting that the effective utilization of the proposed methodology necessitates the investigation of simplified models of underactuated actuators. However, the controller with the highest training reward, it was observed that different strategies were employed to execute the movements, both with the training inputs and with the data from amputees.

Assunto

Engenharia mecânica, Próteses e implantes, Robótica, Aprendizado por reforço, Fisioterapia - Reabilitação

Palavras-chave

Eletromiografia de Superfície, Redes Neurais Artificiais, Aprendizado por Reforço, Controlador Mioelétrico, Prótese de Membro Superior

Citação

Endereço externo

Avaliação

Revisão

Suplementado Por

Referenciado Por