Gaze-based semantic hyperlapse
| dc.creator | Alan Carvalho Neves | |
| dc.date.accessioned | 2024-12-11T14:44:50Z | |
| dc.date.accessioned | 2025-09-09T00:35:44Z | |
| dc.date.available | 2024-12-11T14:44:50Z | |
| dc.date.issued | 2019-11-28 | |
| dc.description.abstract | O crescente compartilhamento de dados e a cultura de registro de informações cotidianas têm conduzido a um aumento sem precedentes na quantidade de vídeos de primeira pessoa não editados. Enquanto dispositivos vestíveis reduzem o esforço na aquisição de dados, eles tornam desafiadora a tarefa de recuperar e acessar informações dos dados coletados. Nesta dissertação, buscamos resolver o problema de acessar informação relevante em vídeos de primeira pessoa, através da enfatização dos momentos considerados importantes pelo portador da câmera. Diferente de trabalhos de sumarização, aceleração de vídeos e hyperlapse que tem como semântica um conjunto definido de assuntos/objetos, propomos um modelo de atenção baseado em gaze e análise visual da cena. Rastreando os objetos da cena que interagem com o olhar do usuário, juntamente com a avaliação de suas características temporais e espaciais, nosso modelo pode inferir dinamicamente os interesses do usuário. Além disso, empregando uma estratégia de novidade de cena em nosso modelo de atenção, evitamos assistir excessivamente segmentos de vídeo no vídeo acelerado. O modelo de atenção resultante é usado para calcular a relevância de cada frame do vídeo de entrada. Foram realizadas diversas avaliações experimentais em dois conjuntos de dados de vídeos egocêntricos publicamente disponíveis: o A*STAR Ego-Gaze e Georgia Tech Egocentric Activity. As avaliações mostram que na cobertura de tarefas que necessitam de atenção do usuário, nosso método apresenta um resultado médio superior de 9,6 pontos percentuais em relação ao melhor competidor. Considerando a carga semântica presente no vídeo acelerado, nosso método capturou 15% mais objetos na vizinhança do gaze que o melhor competidor. Desta forma, nossa metodologia é capaz de acelerar vídeos egocêntricos de maneira automática quando o portador da câmera interage visualmente com os componentes da cena, reforçando o aspecto de diversidade das informações recuperadas. | |
| dc.description.sponsorship | CNPq - Conselho Nacional de Desenvolvimento Científico e Tecnológico | |
| dc.description.sponsorship | FAPEMIG - Fundação de Amparo à Pesquisa do Estado de Minas Gerais | |
| dc.description.sponsorship | CAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível Superior | |
| dc.identifier.uri | https://hdl.handle.net/1843/78587 | |
| dc.language | eng | |
| dc.publisher | Universidade Federal de Minas Gerais | |
| dc.rights | Acesso Aberto | |
| dc.rights.uri | http://creativecommons.org/licenses/by-sa/3.0/pt/ | |
| dc.subject | Computação – Teses | |
| dc.subject | Visão por computador– Teses | |
| dc.subject | Vídeos em primeira pessoa – Teses | |
| dc.subject | Web semântica – Teses | |
| dc.subject.other | Computer vision | |
| dc.subject.other | Gaze | |
| dc.subject.other | First-person videos | |
| dc.subject.other | Egocentric videos | |
| dc.subject.other | Fast-forwarding videos | |
| dc.subject.other | Semantic information | |
| dc.title | Gaze-based semantic hyperlapse | |
| dc.title.alternative | Hyperlapse semântico baseado em gaze | |
| dc.type | Dissertação de mestrado | |
| local.contributor.advisor-co1 | Mário Fernando Montenegro Campos | |
| local.contributor.advisor-co1 | Michel Melo da Silva | |
| local.contributor.advisor1 | Erickson Rangel do Nascimento | |
| local.contributor.advisor1Lattes | http://lattes.cnpq.br/6900352659470721 | |
| local.contributor.referee1 | Alexei Manso Correa Machado | |
| local.contributor.referee1 | Guillermo Cámara Chavez | |
| local.contributor.referee1 | Hélio Pedrini | |
| local.creator.Lattes | http://lattes.cnpq.br/9717481318012545 | |
| local.description.resumo | The growing data sharing and life-logging cultures are driving an unprecedented increase in the amount of unedited first-person videos. While wearable devices reduce the effort in the data acquisition, they make it challenging to retrieve information and browse through the collected data. In this thesis, we address the problem of accessing relevant information in first-person videos by emphasizing the important moments to the wearer/recorder. Unlike works of summarization, fast-forward, and hyperlapse that have semantics as a set of hard defined subjects, we propose an attention model based on gaze and visual scene analysis. Tracking the objects of the scene that interacts with the user’s gaze and evaluating their temporal and spatial characteristics, our model can infer the wearer interests dynamically. Moreover, employing a scene novelty strategy in our attention model, we avoid overly watching video segments in the accelerated video. The resulting attention model is used to compute the relevance of each frame of the input video. Several experimental evaluations were performed on two publicly available first-person video datasets that contain gaze data: the A*STAR Ego-Gaze, and Georgia Tech Egocentric Activity dataset. The evaluation shows that in the coverage of tasks that need user attention, our method shows a better average result of 9.6 percentage points to the best competitor. Also, considering the semantic load present on the accelerated video, our method captured 15% more objects in the gaze surroundings than the best competitor. Therefore, our methodology can automatically fast-forward videos emphasizing moments when the recorder visually interact with scene components while enforcing the diversity aspect of retrieved information. | |
| local.publisher.country | Brasil | |
| local.publisher.department | ICX - DEPARTAMENTO DE CIÊNCIA DA COMPUTAÇÃO | |
| local.publisher.initials | UFMG | |
| local.publisher.program | Programa de Pós-Graduação em Ciência da Computação |