Um estudo sobre a separação cega da fala em salas reverberantes
Carregando...
Data
Título da Revista
ISSN da Revista
Título de Volume
Editor
Universidade Federal de Minas Gerais
Descrição
Tipo
Dissertação de mestrado
Título alternativo
Primeiro orientador
Membros da banca
Eduardo Mazoni Andrade Marçal Mendes
Leandro Freitas de Abreu
Maurilio Nunes Vieira
Leandro Freitas de Abreu
Maurilio Nunes Vieira
Resumo
A separação de fontes é uma etapa fundamental para o processamento eficaz de sinais de fala em diversas aplicações, como: assistentes virtuais, sistemas de videoconferência e dispositivos de assistência auditiva. Nesses contextos, os sinais captados são frequentemente compostos por misturas de múltiplas fontes de fala e ruído ambiente, o que torna a recuperação dos sinais originais um desafio. Métodos de separação de sinais são usados para filtrar sinais de fala indesejados ou recuperá-los a partir de misturas. As tarefas de separação tornam-se desafiadoras no caso de sinais que foram misturados em salas reverberantes, devido à natureza convolutiva das misturas resultantes. As técnicas de separação comumente usadas nesses cenários incluem a Análise em Componentes Independentes no Domínio da Frequência (FDICA) e a Análise de Vetores Independentes (IVA), que utilizam diferentes métodos de otimização, como gradiente natural, iteração de ponto fixo ({\em fast}) e funções auxiliares. Fatores como o tipo de algoritmo e o posicionamento dos microfones podem afetar o desempenho da separação para diferentes cenários acústicos. O primeiro devido ao modelo e otimização adotados, e, o segundo, devido à diversidade da informação espacial. Este estudo visou investigar e comparar esses fatores para condições experimentais específicas. Para isso, seis métodos de separação cega de fala para misturas convolutivas (três FDICA e três IVA) foram aplicados às misturas de duas fontes, gravadas em quatro salas com diferentes tempos de reverberação. O desempenho dos métodos foi então comparado utilizando-se as seguintes métricas: Razão Sinal-Interferência (SIR), Razão Sinal-Distorção Invariante à Escala (SI-SDR) e Avaliação Perceptiva da Qualidade da Fala (PESQ). Nesse caso, foi realizada a análise com blocagem de todos os fatores, exceto do fator método. A SI-SDR e a PESQ, por terem resultados com menor variabilidade, também foram usadas para avaliar e comparar, em cada sala, como a distância entre os microfones (0 cm, 4 cm e 57 cm) e a distância média entre fontes e microfones (75 cm, 140 cm, 210 cm) afetaram o desempenho de cada um dos três métodos IVAs, escolhidos a partir da primeira análise. Para a comparação dos algoritmos, a SIR apresentou resultados inconclusivos. A comparação da SI-SDR e PESQ mostrou que o fastFDICA foi estatisticamente inferior aos outros métodos. Além disso, o IVAng superou as técnicas FDICA e não apresentou diferença estatística em relação a outros métodos IVA em um nível de significância de 5\%. Para a comparação do posicionamento, os resultados mostraram que o desempenho dependeu mais das informações espaciais do que dos algoritmos. Para cada sala, aumentar a distância entre os microfones melhorou o desempenho, embora esse efeito tenha diminuído com tempos de reverberação mais altos. Variações nas distâncias entre microfones e fontes não produziram efeitos estatisticamente significativos em nenhum tempo de reverberação específico.
Abstract
Source separation is a fundamental step for the effective processing of speech signals in various applications, such as virtual assistants, videoconferencing systems, and hearing-assistance devices. In these contexts, the captured signals are often composed of mixtures of multiple speech sources and ambient noise, which makes recovering the original signals challenging. Signal separation methods are used either to filter out undesired speech signals or to recover them from mixtures. Separation tasks become particularly difficult when signals have been mixed in reverberant rooms due to the convolutive nature of the resulting mixtures. Techniques commonly used in such scenarios include Frequency-Domain Independent Component Analysis (FDICA) and Independent Vector Analysis (IVA), which rely on different optimization approaches such as natural gradient, fixed-point iteration (fast), and auxiliary functions. Factors such as the type of algorithm and the placement of microphones can affect separation performance in different acoustic scenarios—the former due to the adopted model and optimization strategy, and the latter due to the diversity of spatial information. This study aimed to investigate and compare these factors under specific experimental conditions. To this end, six blind speech separation methods for convolutive mixtures (three FDICA and three IVA) were applied to two-source mixtures recorded in four rooms with different reverberation times. The performance of the methods was then compared using the following metrics: Signal-to-Interference Ratio (SIR), Scale-Invariant Signal-to-Distortion Ratio (SI-SDR), and Perceptual Evaluation of Speech Quality (PESQ). In this stage, all factors except the method factor were blocked. Because SI-SDR and PESQ exhibited lower variability, they were also used to evaluate and compare, within each room, how microphone spacing (0 cm, 4 cm, and 57 cm) and the average distance between sources and microphones (75 cm, 140 cm, 210 cm) affected the performance of each of the three IVA methods selected from the initial analysis. Regarding algorithm comparison, SIR results were inconclusive. The SI-SDR and PESQ comparisons showed that fastFDICA was statistically inferior to the other methods. Moreover, IVAng outperformed the FDICA techniques and showed no statistically significant difference from the other IVA methods at a 5\% significance level.As for the evaluation of microphone placement, the results indicated that performance depended more on spatial information than on the specific algorithms. For each room, increasing the distance between microphones improved performance, although this effect diminished at higher reverberation times. Variations in the distances between microphones and sources did not produce statistically significant effects at any specific reverberation time.
Assunto
Engenharia elétrica, Inteligência computacional, Fala, Microfone
Palavras-chave
Separação cega da fala, Reverberação, Análise em componentes independentes, Análise em vetores independentes, Arranjo de microfones
Citação
Departamento
Endereço externo
Avaliação
Revisão
Suplementado Por
Referenciado Por
Licença Creative Commons
Exceto quando indicado de outra forma, a licença deste item é descrita como Acesso aberto
