Use este identificador para citar ou linkar para este item: http://hdl.handle.net/1843/49244
Tipo: Dissertação
Título: Action recognition approaches with context and multi-scale motion awareness
Autor(es): Danilo Barros Cardoso
Primeiro Orientador: Erickson Rangel do Nascimento
Primeiro membro da banca : Mario Fernando Montenegro Campos
Segundo membro da banca: Renato José Martins
Resumo: Although computer vision approaches have provided remarkable advances in solving image -classification, object detection, and pose estimation, to name a few, activity recognition still remains one of the key challenges. A comprehensive method has to deal with several challenges such as background noise, occlusions, variations in scale, lighting, and aspect. Furthermore, when we consider learning-based methods, the construction of datasets tends to be expensive and complex, inducing the use of sequences captured in natural situations that brings new challenges such as imbalance between observed activities and labeling ambiguity. This dissertation proposes a learning framework to address the problem of recognizing activities when exposed to two of these challenges: imbalance and ambigu ity. Our approach is based on an architecture that combines graph convolution layers for Spatio-temporal agent poses analysis through a multi-scale approach and Transformers layers for context capture. Even though several methods have achieved high accuracy in benchmark datasets like NTU, their performance significantly decreases when tested in datasets with a high level of ambiguity among activities and an unbalanced number of samples for each class. We evaluated our architecture in the challenging BABEL dataset, where we achieved state of the art in terms of accuracy (65.4%) in action classification when considering both ambiguity and class unbalance. Furthermore, by observing acti vation profiles obtained by different models, we performed a qualitative analysis of how aspects of our approach contributed to the result obtained.
Abstract: Embora tenhamos testemunhado um progresso substancial feito por abordagens de visão computacional na solução de problemas de classificação de imagens, detecção de objetos e estimativa de pose, para citar alguns, o reconhecimento de ação continua sendo um dos seus principais desafios em visão computacional e reconhecimento de padrões. Um método abrangente deve lidar com uma série de desafios, como ruídos no plano de fundo, oclusões, variações de escala, iluminação e aspecto. Além disso, quando consideramos métodos baseados em aprendizagem de máquina, a construção de conjuntos de dados tende a ser cara e complexa, incentivando o aproveitamento de sequências capturadas em situações naturais que trazem, por sí mesmas, novos desafios como o desbalanceamento entre as atividades observadas e ambiguidade na classificação. Esta dissertação propõe uma estrutura de aprendizagem para endereçar o problema de reconhecimento de atividades quando exposta a dois destes desafios: desbalanceamento e ambiguidade. Nossa abordagem utiliza para análise de poses de agentes uma arquitetura que combina camadas de convolução em grafos acrescida de um mecanismo para captura de características multiescala espaço-temporais e camadas de Transformers para captura de contexto. Embora diversos métodos da literatura tenham alcançado elevados níveis de precisão quando testados em conjuntos de dados de referência como NTU, seu desempenho diminui significativamente quando testados em um conjunto de dados com alto grau de ambiguidade entre as atividades e um número desequilibrado de amostras para cada classe. Avaliamos nossa arquitetura no desafiador conjunto de dados BABEL, onde alcançamos o estado da arte em termos de precisão (65,4\%) na classificação de ações em métrica que considera tanto a ambiguidade quanto o desequilíbrio na representação entre classes. Além disso, por meio da observação dos perfis de ativação obtidos por diferentes modelos, realizamos uma análise qualitativa de como aspectos da nossa abordagem contribuíram para o resultado obtido.
Assunto: Computação – Teses
Reconhecimento de ações humanas –Teses
Análise de movimento humano – Teses
Idioma: eng
País: Brasil
Editor: Universidade Federal de Minas Gerais
Sigla da Instituição: UFMG
Departamento: ICX - DEPARTAMENTO DE CIÊNCIA DA COMPUTAÇÃO
Curso: Programa de Pós-Graduação em Ciência da Computação
Tipo de Acesso: Acesso Aberto
URI: http://hdl.handle.net/1843/49244
Data do documento: 29-Jul-2022
Aparece nas coleções:Dissertações de Mestrado

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
dissertacao_versao_final.pdf6.44 MBAdobe PDFVisualizar/Abrir


Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.