Use este identificador para citar ou linkar para este item:
http://hdl.handle.net/1843/ESBF-9WXGVZ
Tipo: | Dissertação de Mestrado |
Título: | Reconhecimento ativo de pequenos objetos pela fusão de dados audiovisuais |
Autor(es): | Samuel Sérvulo Jacinto de Oliveira |
Primeiro Orientador: | Mario Fernando Montenegro Campos |
Primeiro Coorientador: | Izabela Lyon Freire |
Primeiro membro da banca : | Hani Camille Yehia |
Segundo membro da banca: | Douglas Guimaraes Macharet |
Terceiro membro da banca: | Erickson Rangel do Nascimento |
Quarto membro da banca: | Izabela Lyon Freire |
Resumo: | Robôs frequentemente precisam reconhecer objetos de uso comum. Esta habilidade fundamentalmente requer que informações sensoriais sejam processadas e representadas da melhor forma possível, a fim de maximizar o desempenho do robô. Neste trabalho é apresentada uma abordagem de percepção ativa para reconhecimento de objetos de pequeno porte utilizando estímulos de áudio e vídeo, onde duas estratégias para fusão de sensores são avaliadas comparativamente: fusão de decisões, em uma abordagem de meta-aprendizado, e fusão de atributos. Para análise experimental, uma base de dados com amostras de poliedros simples com geometria e materiais variados foi construida, a partir da qual é mostrado que a fusão de decisões tem o melhor desempenho e destaca-se quando comparada ao uso do individual de áudio ou vídeo, melhorando o reconhecimento e proporcionando estabilidade em cenários de alta interferência.Para fins experimentais, um conjunto estruturado de pequenos objetos foi adotado, em que geometrias simples e composição de único material são adotadas a fim de facilitar a compreensão das assinaturas de audiovisual é desenvolvida em uma abordagem de aprendizado de máquina que implementa fusão de sensores. O desempenho do reconhecimento é avaliado para os sinais originais e níveis de ruídos decrescentes nos sinais de áudio e vídeo, onde duas estratégias para a fusão de sensores são avaliadas comparativamente: fusão de decisões, em uma abordagem de meta-aprendizado, e fusão de atributos. É mostrado que a fusão de decisões tem o melhor desempenho e destaca-se quando comparada ao uso do individual de áudio ou vídeo, com taxas de acerto de 99,4%, 96,2% e 91,6%, respectivamente, melhorando o reconhecimento e proporcionando estabilidade em cenários de alta interferência. Os descritores de áudio introduzidos são ordenados de acordo com o seu poder discriminatório. Contribuições deste trabalho incluem a avaliação de técnicas de representação de sinais impulsivos, um arcabouço para fusão audiovisual e a publicação da base de dados. |
Abstract: | Robots routinely face the need to recognize common use objects, be it for domestic use, search and rescue tasks or surveillance systems. This ability fundamentally requires them to process sensory information and best represent it, in order to maximize its performance. This work presents an active perception approach to object recognition using both audio and visual stimuli, acquired by sensors mounted on a robot, which uses an articulated rod to poke the object in order to actively generate audio signatures. The object domain consists of a structured set of small objects, in which simple geometries and single-material compositions are adopted in order to make it easier to achieve a comprehension of the make-up of audio signatures. For each combination of geometry and material composition, an audiovisual signature is developed in a machine learning approach that implements sensor fusion. Performance of classification is evaluated for the original signals and for decreasing signal-to-noise ratio of the audio signals, where two strategies for sensor fusion are comparatively evaluated: decision fusion in a meta-learning manner, and feature fusion. Decision fusion is shown to perform best and improves over audio- or video-only classification, with accuracies of 98.6%, 96.2%, and 95.1%, respectively, enhancing recognition and providing stability over high interference scenarios. The audio descriptors introduced are ranked according to their discriminatory power. Contributions of this work includes evaluation of techniques for representation of impulsive signals, a framework for audiovisual fusion and the release of the dataset. |
Assunto: | Visão por computador Computação Processamento de sinais |
Idioma: | Português |
Editor: | Universidade Federal de Minas Gerais |
Sigla da Instituição: | UFMG |
Tipo de Acesso: | Acesso Aberto |
URI: | http://hdl.handle.net/1843/ESBF-9WXGVZ |
Data do documento: | 24-Abr-2015 |
Aparece nas coleções: | Dissertações de Mestrado |
Arquivos associados a este item:
Arquivo | Descrição | Tamanho | Formato | |
---|---|---|---|---|
samuels_rvulo.pdf | 4.69 MB | Adobe PDF | Visualizar/Abrir |
Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.