Gaze-based semantic hyperlapse
Carregando...
Data
Autor(es)
Título da Revista
ISSN da Revista
Título de Volume
Editor
Universidade Federal de Minas Gerais
Descrição
Tipo
Dissertação de mestrado
Título alternativo
Hyperlapse semântico baseado em gaze
Primeiro orientador
Membros da banca
Alexei Manso Correa Machado
Guillermo Cámara Chavez
Hélio Pedrini
Guillermo Cámara Chavez
Hélio Pedrini
Resumo
The growing data sharing and life-logging cultures are driving an unprecedented increase in the amount of unedited first-person videos. While wearable devices reduce the effort in the data acquisition, they make it challenging to retrieve information and browse through the collected data. In this thesis, we address the problem of accessing relevant information in first-person videos by emphasizing the important moments to the wearer/recorder. Unlike works of summarization, fast-forward, and hyperlapse that have semantics as a set of hard defined subjects, we propose an attention model based on gaze and visual scene analysis. Tracking the objects of the scene that interacts with the user’s gaze and evaluating their temporal and spatial characteristics, our model can infer the wearer interests dynamically. Moreover, employing a scene novelty strategy in our attention model, we avoid overly watching video segments in the accelerated video. The resulting attention model is used to compute the relevance of each frame of the input video. Several experimental evaluations were performed on two publicly available first-person video datasets that contain gaze data: the A*STAR Ego-Gaze, and Georgia Tech Egocentric Activity dataset. The evaluation shows that in the coverage of tasks that need user attention, our method shows a better average result of 9.6 percentage points to the best competitor. Also, considering the semantic load present on the accelerated video, our method captured 15% more objects in the gaze surroundings than the best competitor. Therefore, our methodology can automatically fast-forward videos emphasizing moments when the recorder visually interact with scene components while enforcing the diversity aspect of retrieved information.
Abstract
O crescente compartilhamento de dados e a cultura de registro de informações cotidianas têm conduzido a um aumento sem precedentes na quantidade de vídeos de primeira pessoa não editados. Enquanto dispositivos vestíveis reduzem o esforço na aquisição de dados, eles tornam desafiadora a tarefa de recuperar e acessar informações dos dados coletados. Nesta dissertação, buscamos resolver o problema de acessar informação relevante em vídeos de primeira pessoa, através da enfatização dos momentos considerados importantes pelo portador da câmera. Diferente de trabalhos de sumarização, aceleração de vídeos e hyperlapse que tem como semântica um conjunto definido de assuntos/objetos, propomos um modelo de atenção baseado em gaze e análise visual da cena. Rastreando os objetos da cena que interagem com o olhar do usuário, juntamente com a avaliação de suas características temporais e espaciais, nosso modelo pode inferir dinamicamente os interesses do usuário. Além disso, empregando uma estratégia de novidade de cena em nosso modelo de atenção, evitamos assistir excessivamente segmentos de vídeo no vídeo acelerado. O modelo de atenção resultante é usado para calcular a relevância de cada frame do vídeo de entrada. Foram realizadas diversas avaliações experimentais em dois conjuntos de dados de vídeos egocêntricos publicamente disponíveis: o A*STAR Ego-Gaze e Georgia Tech Egocentric Activity. As avaliações mostram que na cobertura de tarefas que necessitam de atenção do usuário, nosso método apresenta um resultado médio superior de 9,6 pontos percentuais em relação ao melhor competidor. Considerando a carga semântica presente no vídeo acelerado, nosso método capturou 15% mais objetos na vizinhança do gaze que o melhor competidor. Desta forma, nossa metodologia é capaz de acelerar vídeos egocêntricos de maneira automática quando o portador da câmera interage visualmente com os componentes da cena, reforçando o aspecto de diversidade das informações recuperadas.
Assunto
Computação – Teses, Visão por computador– Teses, Vídeos em primeira pessoa – Teses, Web semântica – Teses
Palavras-chave
Computer vision, Gaze, First-person videos, Egocentric videos, Fast-forwarding videos, Semantic information
Citação
Departamento
Endereço externo
Avaliação
Revisão
Suplementado Por
Referenciado Por
Licença Creative Commons
Exceto quando indicado de outra forma, a licença deste item é descrita como Acesso Aberto
