Deep-based recurrent approaches for gesture recognition

Igor Leonardo Oliveira Bastos

Please use this identifier to cite or link to this item: http://hdl.handle.net/1843/39110

Type:	Tese
Title:	Deep-based recurrent approaches for gesture recognition
Authors:	Igor Leonardo Oliveira Bastos
First Advisor:	William Robson Schwartz
First Referee:	Erickson Rangel do Nascimento
Second Referee:	Guillermo Camara Chávez
Third Referee:	Leandro Augusto Frata Fernandes
metadata.dc.contributor.referee4:	Ricardo da Silva Torres
Abstract:	O reconhecimento de gestos corresponde a uma interpretação matemática de um movimento humano por parte de uma máquina. Este movimento envolve diferentes aspectos e partes do corpo, tais como variações no posicionamento de mãos e braços, expressões faciais e corporais, posicionamento da cabeça, postura do tronco, entre outros. Por levar em consideração tanto a aparência (aparência das partes do corpo, por exemplo) quanto o movimento, o reconhecimento de gestos mostra-se relacionado a abordagens que contemplam a extração e uso de informação espaço-temporal em vídeos, tendo destaque em diferentes áreas e aplicações. Devido a esta alta aplicabilidade, diversas pesquisas têm se voltado para este tema, as quais variam em termos de características e algoritmos de aprendizado utilizados para a tarefa. No entanto, apesar da existência de uma grande gama de trabalhos relacionados ao reconhecimento de gestos, nota-se uma lacuna no tocante a elaboração de abordagens que levem em consideração aspectos como escalabilidade (em termos do número de gestos), capacidade de incorporar novos gestos com baixo custo de tempo, além de atuação em vídeos não-segmentados, ou seja, vídeos que contemplam múltiplos gestos e não possuem informação sobre o começo e fim de cada gesto. Desta forma, este trabalho visa apresentar estratégias que preenchem estas lacunas, dividindo-se em duas linhas:(i) criação de modelos escaláveis para aplicação incremental em grandes bases de dados; (ii) formulação de um modelo para realização concomitante da detecção temporal de gestos em vídeos não-segmentados e seu respectivo reconhecimento. Para uma eficiente atuação em vídeos que representam gestos, deve-se levar em consideração a estrutura temporal bem definida destes, a qual defende a existência de uma ordem de ocorrência de sub-eventos. Devido a isso, propõe-se a formulação de modelos não somente capazes de extrair informação espaço-temporal, mas também de atentar para esta estrutura temporal, ponderando a contribuição de entradas anteriores (trechos anteriores dos vídeos), para avaliar o que se apresenta a seguir. Assim, estes modelos correlacionam informação de diferentes partes dos vídeos, produzindo representações mais ricas dos gestos, as quais são usadas para um reconhecimento mais acurado. Por fim, de maneira a avaliar as abordagens propostas, os resultados da aplicação dos modelos descritos neste documento são apresentados. Estes foram obtidos considerando bases de dados amplamente utilizadas por trabalhos da área, assim como as métricas de avaliação empregadas para avaliar desempenho em cada uma destas bases. No ChaLearn Isolated Gestures (ChaLearn IsoGD) and Sheffield Kinect Gestures (SKIG), o método proposto neste documento alcançou valores de acurácia de69,44% e 99,53%, respectivamente. Já no ChaLearn Looking at People Multimodal Gesture Recognition (ChaLearn Montalbano) e ChaLearn Continuous Gestures (ChaLearn ConGD), o método contemplado neste documento obteve 0,919 e 0,623 de Jaccard Score, respectivamente. Comparações com abordagens da literatura evidenciam a boa performance dos métodos propostos, os quais rivalizam com as pesquisas que são o estado da arte em todas as bases de dados avaliadas.
Abstract:	The recognition of gestures corresponds to a mathematical interpretation of a human motion by a machine. It involves different aspects and parts of human body, such as variations in the positioning of hands and arms, facial and body expressions, head positioning and trunk posture. Since gesture recognition takes into account both appearance (appearance of body parts, for example) and movement, it is related to the extraction of spatiotemporal information in videos, leading to a wide range of applications. As a consequence, many approaches focus on this topic, presenting variations in terms of employed features and learning algorithms used on the task. However, despite the existence of a wide range of approaches related to the recognition of gestures, gaps are noticed regarding aspects such as scalability (in terms of the number of gestures), time to incorporate new gestures; and actuation over unsegmented videos, i.e., videos containing multiple gestures and no information about the start and end of these gestures. Thus, this work aims at presenting strategies that fill these gaps, addressed in two different lines: (i) creation of scalable models for incremental application in large databases; (ii) formulation of a model to detect and recognize gestures concomitantly, considering unsegmented videos. For an efficient performance on gesture videos, it is important to take into account the well-defined temporal structure of gestures, which preaches for the existence of ordered sub-events. To handle this order of sub-events, we propose models that are capable of extracting spatiotemporal information and also weigh this temporal structure, contemplating the contribution of previous inputs (previous videos snippets) to evaluate subsequent ones. Thereby, our models correlate information from different video parts, producing richer representations of gestures that are used for a more accurate recognition. Finally, to evaluate the proposed approach, we present the results obtained from the application of the models described in this document. These outcomes were obtained from tests on widely used databases, considering the metrics employed to evaluate performance on each of them. On ChaLearn LAP Isolated Gestures (ChaLearn IsoGD) and Sheffield Kinect Gestures (SKIG), the method proposed in this document achieved 69.44% and 99.53% of accuracy, respectively. On ChaLearn Multimodal Gesture Recognition (ChaLearn Montalbano) and ChaLearn Continuous Gestures (ChaLearn ConGD), the method contemplated in this document obtained 0.919 and 0.623 as Jaccard Score, respectively. Comparisons with literature approaches evidence the good performance of the proposed methods, rivaling with state-of-the-art researches on all evaluated databases.
Subject:	Computação - Teses, Redes eurais recorrentes - Teses. Reonhecimento de gestos - Teses. Reonhecimento de padrões - Teses.
language:	eng
metadata.dc.publisher.country:	Brasil
Publisher:	Universidade Federal de Minas Gerais
Publisher Initials:	UFMG
metadata.dc.publisher.department:	ICX - DEPARTAMENTO DE CIÊNCIA DA COMPUTAÇÃO
metadata.dc.publisher.program:	Programa de Pós-Graduação em Ciência da Computação
Rights:	Acesso Aberto
metadata.dc.rights.uri:	http://creativecommons.org/licenses/by-nc-sa/3.0/pt/
URI:	http://hdl.handle.net/1843/39110
Issue Date:	12-Jun-2020
Appears in Collections:	Teses de Doutorado

Files in This Item:

File	Description	Size	Format
Tese_Igor_Bastos.pdf	Arquivo referente à tese de doutorado de Igor Bastos	7.82 MB	Adobe PDF	View/Open

Show full item record

This item is licensed under a Creative Commons License