Use este identificador para citar ou linkar para este item: http://hdl.handle.net/1843/BUOS-8CZGJ3
Tipo: Dissertação de Mestrado
Título: Medida da relação harmônico/ruído em vozes disfônicas pelo processamento digital de imagens espectrográficas
Autor(es): Joao Pedro Hallack Sansao
Primeiro Orientador: Maurilio Nunes Vieira
Primeiro Coorientador: Hani Camille Yehia
Primeiro membro da banca : Ana Cristina Cortes Gama
Segundo membro da banca: Cristiano Rodrigues de Carvalho
Resumo: Este trabalho apresenta a S2NR, Spectrographic Signal-to-Noise Ratio, uma medida da relação sinal/ruído obtida através do processamento da imagem do espectrograma de uma vogal. O algoritmo utilizado baseia-se em ferramentas de identificação de impressões digitais, as quais apresentam traçados com linhas paralelas que se assemelham aos espectrogramas de vogais. Para validação do algoritmo, estabeleceu-se uma plataforma de testes que permite a síntese de diferentes vogais, com controle de freqüência fundamental, ruído branco aditivo e perturbações ciclo-a-ciclo na amplitude (shimmer) e no período fonatório (jitter). Para fins de comparação, geraram-se vogais com níveis conhecidos da relação sinal/ruído. Em seguida, para cada caso mediu-se a relação sinal/ruído utilizando a S2NR e um algoritmo baseado na demarcação da periodicidade da vogal. A S2NR mostrou-se, na maioria das situações com voz sintética, mais robusta a perturbações de jitter e de shimmer e com menor sensibilidade à vogal. Foram testadas freqüências fundamentais masculinas e femininas com tratos vocais para as vogais /a/, /i/ e /u/. O teste inicialmente foi feito variando, de forma independente, o nível de jitter e de shimmer desde a condição de inexistência até valores extremos (0% a 3% para jitter e 0% a 30% para shimmer). Sob jitter, com Fo = 120 Hz , os valores de desvio máximo em relação à referência foram de 2, 1 dB, 11, 5 dB e 2, 9 dB para as vogais /a/, /i/ e /u/, respectivamente. Já sob shimmer, estes valores foram de 2, 5 dB, 4, 4 dB e 3, 6 dB. Em seguida, aplicaram-se as perturbações simultaneamente, não ocorrendo perdas de desempenho diferentes das observadas com perturbações individuais. Finalmente, o algoritmo S2NR foi testado com vozes reais disfônicas predominantemente soprosas, resultando numa relação consistente com a classificação perceptiva de soprosidade. Em adição a estes testes, mostrou-se a utilização do algoritmo S2NR em fala encadeada.
Abstract: This work presents the S2NR, Spectrographic Signal-to-Noise Ratio, a signal-to-noise ratio measurement obtained from the processing of vowel spectrograms by using adaptations of fingerprint image enhancement algorithms. In order to validate the S2NR method, a test bench was set to generate synthetic vowels with controlled values of fundamental frequency, amplitude, additive white noise, and cycle-to-cycle perturbations in the waveform amplitude (shimmer) and phonatory period (jitter). For comparison purposes, vowels were synthesized with known signal-to-noise ratio values. Next, the signal-to-noise ratio was measured with the S2NR algorithm and a method based on time domain periodicity analysis. In most of the synthetic voices, the S2NR exhibited a behavior more robust to jitter and shimmer perturbations than the time based algorithm, having also a reduced sensitivity to the vowel type. Both male and female fundamental frequencies were tested with /a/, /i/, and /u/ vocal tract shapes. Initially, jitter and shimmer were assessed independently, the simulated perturbation values varying from inexistent to extreme conditions in the human voice (0% to 3% for jitter, and 0% to 30% for shimmer). With jitter and Fo = 120 Hz , the measured S2NR estimates deviated from the reference values by 2.1 dB, 11.5 dB, and 2.9 dB for /a/, /i/ and /u/ respectively. With shimmer, these differences were 2.5 dB, 4.4 dB, and 3.6 dB. Subsequently both perturbations were varied simultaneously within the same ranges, no performance degradation occurring other than those observed with separated perturbations. Finally, the S2NR algorithm was tested with real, dysphonic, and predominantly breathy voices. Results showed a consistent relation between S2NR values and perceptual ratings of breathiness. Additionally, the potential application of the S2NR algorithm in running speech was explored.
Assunto: Engenharia elétrica
Idioma: Português
Editor: Universidade Federal de Minas Gerais
Sigla da Instituição: UFMG
Tipo de Acesso: Acesso Aberto
URI: http://hdl.handle.net/1843/BUOS-8CZGJ3
Data do documento: 9-Jun-2009
Aparece nas coleções:Dissertações de Mestrado

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
255m.pdf4.66 MBAdobe PDFVisualizar/Abrir


Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.