Please use this identifier to cite or link to this item: http://hdl.handle.net/1843/49244
Type: Dissertação
Title: Action recognition approaches with context and multi-scale motion awareness
Authors: Danilo Barros Cardoso
First Advisor: Erickson Rangel do Nascimento
First Referee: Mario Fernando Montenegro Campos
Second Referee: Renato José Martins
Abstract: Although computer vision approaches have provided remarkable advances in solving image -classification, object detection, and pose estimation, to name a few, activity recognition still remains one of the key challenges. A comprehensive method has to deal with several challenges such as background noise, occlusions, variations in scale, lighting, and aspect. Furthermore, when we consider learning-based methods, the construction of datasets tends to be expensive and complex, inducing the use of sequences captured in natural situations that brings new challenges such as imbalance between observed activities and labeling ambiguity. This dissertation proposes a learning framework to address the problem of recognizing activities when exposed to two of these challenges: imbalance and ambigu ity. Our approach is based on an architecture that combines graph convolution layers for Spatio-temporal agent poses analysis through a multi-scale approach and Transformers layers for context capture. Even though several methods have achieved high accuracy in benchmark datasets like NTU, their performance significantly decreases when tested in datasets with a high level of ambiguity among activities and an unbalanced number of samples for each class. We evaluated our architecture in the challenging BABEL dataset, where we achieved state of the art in terms of accuracy (65.4%) in action classification when considering both ambiguity and class unbalance. Furthermore, by observing acti vation profiles obtained by different models, we performed a qualitative analysis of how aspects of our approach contributed to the result obtained.
Abstract: Embora tenhamos testemunhado um progresso substancial feito por abordagens de visão computacional na solução de problemas de classificação de imagens, detecção de objetos e estimativa de pose, para citar alguns, o reconhecimento de ação continua sendo um dos seus principais desafios em visão computacional e reconhecimento de padrões. Um método abrangente deve lidar com uma série de desafios, como ruídos no plano de fundo, oclusões, variações de escala, iluminação e aspecto. Além disso, quando consideramos métodos baseados em aprendizagem de máquina, a construção de conjuntos de dados tende a ser cara e complexa, incentivando o aproveitamento de sequências capturadas em situações naturais que trazem, por sí mesmas, novos desafios como o desbalanceamento entre as atividades observadas e ambiguidade na classificação. Esta dissertação propõe uma estrutura de aprendizagem para endereçar o problema de reconhecimento de atividades quando exposta a dois destes desafios: desbalanceamento e ambiguidade. Nossa abordagem utiliza para análise de poses de agentes uma arquitetura que combina camadas de convolução em grafos acrescida de um mecanismo para captura de características multiescala espaço-temporais e camadas de Transformers para captura de contexto. Embora diversos métodos da literatura tenham alcançado elevados níveis de precisão quando testados em conjuntos de dados de referência como NTU, seu desempenho diminui significativamente quando testados em um conjunto de dados com alto grau de ambiguidade entre as atividades e um número desequilibrado de amostras para cada classe. Avaliamos nossa arquitetura no desafiador conjunto de dados BABEL, onde alcançamos o estado da arte em termos de precisão (65,4\%) na classificação de ações em métrica que considera tanto a ambiguidade quanto o desequilíbrio na representação entre classes. Além disso, por meio da observação dos perfis de ativação obtidos por diferentes modelos, realizamos uma análise qualitativa de como aspectos da nossa abordagem contribuíram para o resultado obtido.
Subject: Computação – Teses
Reconhecimento de ações humanas –Teses
Análise de movimento humano – Teses
language: eng
metadata.dc.publisher.country: Brasil
Publisher: Universidade Federal de Minas Gerais
Publisher Initials: UFMG
metadata.dc.publisher.department: ICX - DEPARTAMENTO DE CIÊNCIA DA COMPUTAÇÃO
metadata.dc.publisher.program: Programa de Pós-Graduação em Ciência da Computação
Rights: Acesso Aberto
URI: http://hdl.handle.net/1843/49244
Issue Date: 29-Jul-2022
Appears in Collections:Dissertações de Mestrado

Files in This Item:
File Description SizeFormat 
dissertacao_versao_final.pdf6.44 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.