Medida da relação harmônico/ruído em vozes disfônicas pelo processamento digital de imagens espectrográficas

Joao Pedro Hallack Sansao

Please use this identifier to cite or link to this item: http://hdl.handle.net/1843/BUOS-8CZGJ3

Full metadata record

DC Field	Value	Language
dc.contributor.advisor1	Maurilio Nunes Vieira	pt_BR
dc.contributor.advisor-co1	Hani Camille Yehia	pt_BR
dc.contributor.referee1	Ana Cristina Cortes Gama	pt_BR
dc.contributor.referee2	Cristiano Rodrigues de Carvalho	pt_BR
dc.creator	Joao Pedro Hallack Sansao	pt_BR
dc.date.accessioned	2019-08-11T02:07:38Z	-
dc.date.available	2019-08-11T02:07:38Z	-
dc.date.issued	2009-06-09	pt_BR
dc.identifier.uri	http://hdl.handle.net/1843/BUOS-8CZGJ3	-
dc.description.abstract	This work presents the S2NR, Spectrographic Signal-to-Noise Ratio, a signal-to-noise ratio measurement obtained from the processing of vowel spectrograms by using adaptations of fingerprint image enhancement algorithms. In order to validate the S2NR method, a test bench was set to generate synthetic vowels with controlled values of fundamental frequency, amplitude, additive white noise, and cycle-to-cycle perturbations in the waveform amplitude (shimmer) and phonatory period (jitter). For comparison purposes, vowels were synthesized with known signal-to-noise ratio values. Next, the signal-to-noise ratio was measured with the S2NR algorithm and a method based on time domain periodicity analysis. In most of the synthetic voices, the S2NR exhibited a behavior more robust to jitter and shimmer perturbations than the time based algorithm, having also a reduced sensitivity to the vowel type. Both male and female fundamental frequencies were tested with /a/, /i/, and /u/ vocal tract shapes. Initially, jitter and shimmer were assessed independently, the simulated perturbation values varying from inexistent to extreme conditions in the human voice (0% to 3% for jitter, and 0% to 30% for shimmer). With jitter and Fo = 120 Hz , the measured S2NR estimates deviated from the reference values by 2.1 dB, 11.5 dB, and 2.9 dB for /a/, /i/ and /u/ respectively. With shimmer, these differences were 2.5 dB, 4.4 dB, and 3.6 dB. Subsequently both perturbations were varied simultaneously within the same ranges, no performance degradation occurring other than those observed with separated perturbations. Finally, the S2NR algorithm was tested with real, dysphonic, and predominantly breathy voices. Results showed a consistent relation between S2NR values and perceptual ratings of breathiness. Additionally, the potential application of the S2NR algorithm in running speech was explored.	pt_BR
dc.description.resumo	Este trabalho apresenta a S2NR, Spectrographic Signal-to-Noise Ratio, uma medida da relação sinal/ruído obtida através do processamento da imagem do espectrograma de uma vogal. O algoritmo utilizado baseia-se em ferramentas de identificação de impressões digitais, as quais apresentam traçados com linhas paralelas que se assemelham aos espectrogramas de vogais. Para validação do algoritmo, estabeleceu-se uma plataforma de testes que permite a síntese de diferentes vogais, com controle de freqüência fundamental, ruído branco aditivo e perturbações ciclo-a-ciclo na amplitude (shimmer) e no período fonatório (jitter). Para fins de comparação, geraram-se vogais com níveis conhecidos da relação sinal/ruído. Em seguida, para cada caso mediu-se a relação sinal/ruído utilizando a S2NR e um algoritmo baseado na demarcação da periodicidade da vogal. A S2NR mostrou-se, na maioria das situações com voz sintética, mais robusta a perturbações de jitter e de shimmer e com menor sensibilidade à vogal. Foram testadas freqüências fundamentais masculinas e femininas com tratos vocais para as vogais /a/, /i/ e /u/. O teste inicialmente foi feito variando, de forma independente, o nível de jitter e de shimmer desde a condição de inexistência até valores extremos (0% a 3% para jitter e 0% a 30% para shimmer). Sob jitter, com Fo = 120 Hz , os valores de desvio máximo em relação à referência foram de 2, 1 dB, 11, 5 dB e 2, 9 dB para as vogais /a/, /i/ e /u/, respectivamente. Já sob shimmer, estes valores foram de 2, 5 dB, 4, 4 dB e 3, 6 dB. Em seguida, aplicaram-se as perturbações simultaneamente, não ocorrendo perdas de desempenho diferentes das observadas com perturbações individuais. Finalmente, o algoritmo S2NR foi testado com vozes reais disfônicas predominantemente soprosas, resultando numa relação consistente com a classificação perceptiva de soprosidade. Em adição a estes testes, mostrou-se a utilização do algoritmo S2NR em fala encadeada.	pt_BR
dc.language	Português	pt_BR
dc.publisher	Universidade Federal de Minas Gerais	pt_BR
dc.publisher.initials	UFMG	pt_BR
dc.rights	Acesso Aberto	pt_BR
dc.subject	sinal	pt_BR
dc.subject	Freqüência	pt_BR
dc.subject.other	Engenharia elétrica	pt_BR
dc.title	Medida da relação harmônico/ruído em vozes disfônicas pelo processamento digital de imagens espectrográficas	pt_BR
dc.type	Dissertação de Mestrado	pt_BR
Appears in Collections:	Dissertações de Mestrado

Files in This Item:

File	Description	Size	Format
255m.pdf		4.66 MB	Adobe PDF	View/Open

Show simple item record