Use este identificador para citar ou linkar para este item: http://hdl.handle.net/1843/BUOS-8CVHCU
Tipo: Tese de Doutorado
Título: Um estudo sobre as relações de padrões do movimento facial com a acústica da fala e com a identidade do locutor
Autor(es): Ketia Soares Moreira
Primeiro Orientador: Hani Camille Yehia
Primeiro Coorientador: Carmen Dea Moraes Pataro
Resumo: O estudo do acoplamento entre o movimento facial e a acústica da fala é importante para a compreensão do processo de produção da fala. Além disso, a relação do movimento facial com a identidade do locutor durante a fala é importante no processo de identificação com base em biometria. O objetivo deste trabalho é analisar movimentos faciais de forma a: (i) avaliar a variabilidade dos parâmetros relacionados ao movimento facial durante a produção da fala; (ii) verificar se tais parâmetros são dependentes ou independentes do contexto; e (iii) avaliar até que ponto tais movimentos são específicos de cada pessoa. Durante a produção da fala, a geometria do trato vocal determina suas freqüências de ressonância (formantes) e influencia no movimento da face ocorrido simultaneamente. Como resultado, padrões acústicos da fala e movimentos faciais são acoplados. A relação entre o movimento de partes da face pode ser modelada eficientemente por meio de Análise em Componentes Principais, enquanto o acoplamento entre a acústica da fala e o movimento facial pode ser modelado por meio de componentes do movimento facial alinhadas com parâmetros LSP extraídos da acústica da fala. Um dos objetivos deste estudo é avaliar como esse alinhamento varia com o tempo. Os resultados obtidos mostram que apenas a primeira componente do movimento facial é estável, independentemente do conteúdo acústico da fala, e concentrando até 55% da variância do movimento facial. Para a primeira componente acusticamente alinhada do movimento facial, esta estabilidade é menor. Entretanto, uma maior estabilidade é observada quando os parâmetros LSP, usados na representação acústica da fala, são ordenados em função de sua cavidade de afiliação, ao invés de simplesmente ordenados em ordem crescente. No estudo de padrões do movimento facial aplicados à identificação de indivíduos, utiliza- se o primeiro autovetor da matriz de covariância do movimento facial, pois este apresenta informações específicas de cada locutor. Neste sentido, foram realizados testes utilizando uma rede neural MLP na tarefa de identificação de locutores com base no autovetor associado ao maior autovalor da matriz de covariância do movimento facial. A taxa de acerto foi de 86,7%, indicando que apenas informações do movimento facial não são suficientes para um processo de identificação eficiente. Porém, tais informações podem ser usadas em conjunto com outras, tais como imagens estáticas ou a voz do indivíduo, tornando o processo de identificação mais robusto, especialmente em condições adversas.
Abstract: The study of the coupling between facial motion and speech acoustics is important for the comprehension of the speech production process. Moreover, the relation of facial motion with speaker identity during speech is important in the process of identification based on biometry. The ob jective of this work is to evaluate facial motion in order to: (i) evaluate the variability of parameters related to facial motion during speech production; (ii) verify whether such parameters are context dependent or independent; and (iii) evaluate to which degree facial motion is an individual characteristic. During speech, the geometry of the vocal tract determines its resonant frequencies (formants) and strongly influences the facial motion that occurs simultaneously. As a result, speech acoustic patterns and facial motion are coupled. The relation between regions of the face can be efficiently modeled by means of Principal Component Analysis, whereas the coupling between speech acoustics and facial motion can be modeled by facial motion components aligned with LSP parameters extracted from speech acoustics. One of the ob jectives of this study is to evaluate how that alignment varies with time. The results obtained show that only the first facial motion component is stable during speech, independently of the speech contents, and concentrates up to 55% of the facial motion variance. For the first acoustically aligned facial motion component, this stability is smaller. However, a larger stability is observed when LSP parameters, used to represent speech acoustically, are ordered based on their vocal tract cavity affiliation, rather than simply put in increasing order. In the study of facial motion patterns applied to person identification, the first eigenvector of the facial motion covariance matrix is used, as it exhibits speaker specific information. In this direction, tests using an MLP neural network were carried out for the task of person identification based on the eigenvector associated to the largest eigenvalue of the facial motion covariance matrix. An identification rate of 86,7% was attained, indicating that facial motion information alone is not enough for person identification. Nevertheless, this information can be used together with other pieces of information, such as static images or the speaker's voice, to improve the robustness of the identification process, specially under adverse conditions
Assunto: Engenharia elétrica
Idioma: Português
Editor: Universidade Federal de Minas Gerais
Sigla da Instituição: UFMG
Tipo de Acesso: Acesso Aberto
URI: http://hdl.handle.net/1843/BUOS-8CVHCU
Data do documento: 30-Mai-2008
Aparece nas coleções:Teses de Doutorado

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
k_tia_soares_moreira.pdf9.1 MBAdobe PDFVisualizar/Abrir


Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.