Um estudo sobre limitações de técnicas de mascaramento espectral na separação cega de sinais de voz reverberados

Carregando...
Imagem de Miniatura

Título da Revista

ISSN da Revista

Título de Volume

Editor

Universidade Federal de Minas Gerais

Descrição

Tipo

Tese de doutorado

Título alternativo

Primeiro orientador

Membros da banca

Resumo

O objetivo deste trabalho é analisar e verificar as limitações de técnicas de mascaramento binário no domínio tempo-freqüência para o problema de separação cega de fontes (Blind Source Separation) a partir de misturas convoluídas. Tais técnicas baseiam-se na esparsidade dos sinais de voz e consideram que, em uma mistura de fontes independentes, é improvável encontrar sinais ativos em um mesmo instante de tempo e freqüência. Neste trabalho, inicialmente, é verificado o desempenho do algoritmo DUET para misturas convoluídas. A utilização da informação de fase para a separação de fontes é avaliada através da análise de desempenho de um algoritmo proposto que considera apenas a informação de amplitude relativa para a estimação das máscaras espectrais. Observa-se que, no caso específico da separação de dois sinais de voz, a utilização da informação de fase não influi no desempenho do algoritmo. No próximo passo, analisa-se as limitações da técnica de mascaramento espectral em função do tempo de reverberação dos sinais que formam a mistura a ser separada. Quando se conhece as máscaras ideais, obtém-se uma separação da ordem de 9 dB, para o caso de um ambiente com tempo de reverberação inferior a 300 ms. A partir daí, à medida que o tempo de reverberação aumenta, os sinais que formam as misturas analisadas espalham-se sobre o plano tempo-frequência, reduzindo progressivamente o desempenho do processo de separação. A seguir, dado que encontrar máscaras ideais com base em apenas uma mistura é ainda um problema em aberto, mede-se a queda de desempenho do processo de separação em função da distância entre a máscara ideal e a máscara efetivamente usada. Os resultados encontrados indicam uma queda de desempenho de 3 dB quando aproximadamente 10% dos bits da máscara ideal estão invertidos. Finalmente, são realizadas análises preliminares para encontrar a máscara ideal com base na negentropia, na curtose e na energia dos sinais separados.

Abstract

The objective of this study is to analyze the limitations of techniques for blind source separation (BSS) of convolved mixtures based on time-frequency domain binary masking. These techniques are based on the sparsity of speech signals and assume that, in a mixture of independent speech signals, for each time and frequency, it is unlikely to find more than one active source. In this study, initially, the performance of the DUET algorithm is analyzed for convolved mixtures. The use of phase information for source separation is evaluated through the analysis of performance of an algorithm proposed which uses only relative amplitude information for the estimation of spectral masks. It was verified that, for the specific case of the separation of two speech signals, the use of phase information does not affect the algorithm performance. In the next step, the limitations of the spectrum masking technique is analyzed as a function of the reverberation time of the signals that compose the mixture to be separated. When the ideal masks are known, a separation of about 9 dB is obtained for the case of an environment with reverberation time less than 300 ms. From this point on, as the reverberation time increases, the signals that compose the mixture spread over the time-frequency plane, progressively reducing the separation process performance. Next, given that finding ideal masks based on a single mixture is still an open problem, the performance loss of the separation process is measured as a function of the distance between the ideal mask and the mask effectively used. The results found show a performance loss of 3 dB when approximately 10% of the bits of the ideal mask are inverted. Finally, preliminary analyses are carried out to find the ideal mask based on negentropy, kurtosis and on the energy of the separated signals.

Assunto

Engenharia elétrica

Palavras-chave

Engenharia Elétrica

Citação

Departamento

Curso

Endereço externo

Avaliação

Revisão

Suplementado Por

Referenciado Por