Motion-based representations for activity recognition

dc.creatorCarlos Antônio Caetano Júnior
dc.date.accessioned2020-05-26T22:04:33Z
dc.date.accessioned2025-09-08T23:51:33Z
dc.date.available2020-05-26T22:04:33Z
dc.date.issued2020-01-27
dc.description.abstractNesta tese, quatro representações distintas baseadas em informações de movimento são propostas para o reconhecimento de atividades. A primeira é um descritor de características espaço-temporal que extrai um conjunto robusto de medidas estatísticas para descrever padrões de movimento medindo propriedades significativas em matrizes de co-ocorrência e capturando características espaço-temporais do movimento através da magnitude e orientação do fluxo ótico. A segunda é uma nova representação intermediária (mid-level) compacta baseada em matrizes de co-ocorrência de palavras visuais. Essa representação expressa a distribuição das características em um dado deslocamento utilizando um dicionário visual pré-calculado, codificando assim estruturas globais de várias características baseadas em regiões locais. A terceira representação é a proposta de um novo fluxo temporal para redes convolucionais de dois fluxos (two-stream) baseado em imagens calculadas a partir da magnitude e orientação do fluxo ótico. O método aplica transformações não lineares nos componentes vertical e horizontal do fluxo ótico para gerar imagens de entrada para o fluxo temporal. Por fim, a quarta é uma representação de esqueleto para ser usada como entrada para redes convolucionais. A abordagem codifica a dinâmica temporal calculando de forma explícita os valores de magnitude e orientação das articulações do esqueleto. Além disso, a representação tem a vantagem de combinar o uso de juntas de referência e um algoritmo de árvore de esqueleto, incorporando assim diferentes relações espaciais entre as juntas e preservando importantes relações espaciais. Os experimentos realizados em bases de dados desafiadoras e bastante conhecidas sobre reconhecimento de atividades (KTH, UCF Sports, HMDB51, UCF101 NTU RGB+D 60 e NTU RGB+D 120) demonstram que as representações propostas obtiveram resultados melhores ou similares em comparação ao estado da arte, indicando a adequação das abordagens para serem usadas como representações de vídeo.
dc.description.sponsorshipCNPq - Conselho Nacional de Desenvolvimento Científico e Tecnológico
dc.description.sponsorshipCAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível Superior
dc.identifier.urihttps://hdl.handle.net/1843/33550
dc.languageeng
dc.publisherUniversidade Federal de Minas Gerais
dc.rightsAcesso Aberto
dc.rights.urihttp://creativecommons.org/licenses/by-nd/3.0/pt/
dc.subjectComputação - Tese
dc.subjectRedes neurais convolucionais
dc.subjectReconhecimento de atividades humanas
dc.subjectinformação espaço-temporal
dc.subject.otherActivity recognition
dc.subject.otherConvolutional neural networks (CNNs)
dc.subject.otherSpatiotemporal information
dc.subject.otherOptical flow
dc.subject.otherTemporal stream
dc.titleMotion-based representations for activity recognition
dc.title.alternativeRepresentações baseadas em movimento para reconhecimento de atividades humanas
dc.typeTese de doutorado
local.contributor.advisor-co1Jefersson Alex dos Santos
local.contributor.advisor1William Robson Schwartz
local.contributor.advisor1Latteshttp://lattes.cnpq.br/0704592200063682
local.contributor.referee1Erickson Rangel do Nascimento
local.contributor.referee1João Paulo Papa
local.contributor.referee1David Menotti Gomes
local.contributor.referee1Anderson de Rezende Rocha
local.creator.Latteshttp://lattes.cnpq.br/5151501688902801
local.description.resumoIn this dissertation we propose four different representations based on motion information for activity recognition. The first is a spatiotemporal local feature descriptor that extracts a robust set of statistical measures to describe motion patterns. This descriptor measures meaningful properties of co-occurrence matrices and captures local space-time characteristics of the motion through the neighboring optical flow magnitude and orientation. The second, is the proposal of a compact novel mid-level representation based on co-occurrence matrices of codewords. This representation expresses the distribution of the features at a given offset over feature codewords from a pre-computed codebook and encodes global structures in various local region-based features. The third representation, is the proposal of a novel temporal stream for two-stream convolutional networks that employs images computed from the optical flow magnitude and orientation to learn the motion in a better and richer manner. The method applies simple non-linear transformations on the vertical and horizontal components of the optical flow to generate input images for the temporal stream. Finally, the forth is a novel skeleton image representation to be used as input of convolutional neural networks (CNNs). The proposed approach encodes the temporal dynamics by explicitly computing the magnitude and orientation values of the skeleton joints. Moreover, the representation has the advantage of combining the use of reference joints and a tree structure skeleton, incorporating different spatial relationships between the joints and preserving important spatial relations. The experimental evaluations carried out on challenging well-known activity recognition datasets (KTH, UCF Sports, HMDB51, UCF101, NTU RGB+D 60 and NTU RGB+D 120) demonstrated that the proposed representations achieved better or similar accuracy results in comparison to the state of the art, indicating the suitability of our approaches as video representations.
local.identifier.orcidhttps://orcid.org/0000-0002-1546-3740
local.publisher.countryBrasil
local.publisher.departmentICX - DEPARTAMENTO DE CIÊNCIA DA COMPUTAÇÃO
local.publisher.initialsUFMG
local.publisher.programPrograma de Pós-Graduação em Ciência da Computação

Arquivos

Pacote original

Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
Tese_CarlosCaetano.pdf
Tamanho:
19.22 MB
Formato:
Adobe Portable Document Format

Licença do pacote

Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
license.txt
Tamanho:
2.07 KB
Formato:
Plain Text
Descrição: