Um estudo sobre a separação cega da fala em salas reverberantes

Guilherme Márcio de Melo Campos Fonte Bôa

Um estudo sobre a separação cega da fala em salas reverberantes

dc.creator	Guilherme Márcio de Melo Campos Fonte Bôa
dc.date.accessioned	2026-01-28T13:34:08Z
dc.date.issued	2025-10-31
dc.description.abstract	Source separation is a fundamental step for the effective processing of speech signals in various applications, such as virtual assistants, videoconferencing systems, and hearing-assistance devices. In these contexts, the captured signals are often composed of mixtures of multiple speech sources and ambient noise, which makes recovering the original signals challenging. Signal separation methods are used either to filter out undesired speech signals or to recover them from mixtures. Separation tasks become particularly difficult when signals have been mixed in reverberant rooms due to the convolutive nature of the resulting mixtures. Techniques commonly used in such scenarios include Frequency-Domain Independent Component Analysis (FDICA) and Independent Vector Analysis (IVA), which rely on different optimization approaches such as natural gradient, fixed-point iteration (fast), and auxiliary functions. Factors such as the type of algorithm and the placement of microphones can affect separation performance in different acoustic scenarios—the former due to the adopted model and optimization strategy, and the latter due to the diversity of spatial information. This study aimed to investigate and compare these factors under specific experimental conditions. To this end, six blind speech separation methods for convolutive mixtures (three FDICA and three IVA) were applied to two-source mixtures recorded in four rooms with different reverberation times. The performance of the methods was then compared using the following metrics: Signal-to-Interference Ratio (SIR), Scale-Invariant Signal-to-Distortion Ratio (SI-SDR), and Perceptual Evaluation of Speech Quality (PESQ). In this stage, all factors except the method factor were blocked. Because SI-SDR and PESQ exhibited lower variability, they were also used to evaluate and compare, within each room, how microphone spacing (0 cm, 4 cm, and 57 cm) and the average distance between sources and microphones (75 cm, 140 cm, 210 cm) affected the performance of each of the three IVA methods selected from the initial analysis. Regarding algorithm comparison, SIR results were inconclusive. The SI-SDR and PESQ comparisons showed that fastFDICA was statistically inferior to the other methods. Moreover, IVAng outperformed the FDICA techniques and showed no statistically significant difference from the other IVA methods at a 5\% significance level.As for the evaluation of microphone placement, the results indicated that performance depended more on spatial information than on the specific algorithms. For each room, increasing the distance between microphones improved performance, although this effect diminished at higher reverberation times. Variations in the distances between microphones and sources did not produce statistically significant effects at any specific reverberation time.
dc.description.sponsorship	CAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível Superior
dc.description.sponsorship	CNPq - Conselho Nacional de Desenvolvimento Científico e Tecnológico
dc.identifier.uri	https://hdl.handle.net/1843/1501
dc.language	por
dc.publisher	Universidade Federal de Minas Gerais
dc.rights	Acesso aberto
dc.rights	Attribution-NonCommercial-NoDerivatives 4.0 International	en
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/4.0/
dc.subject	Engenharia elétrica
dc.subject	Inteligência computacional
dc.subject	Fala
dc.subject	Microfone
dc.subject.other	Separação cega da fala
dc.subject.other	Reverberação
dc.subject.other	Análise em componentes independentes
dc.subject.other	Análise em vetores independentes
dc.subject.other	Arranjo de microfones
dc.title	Um estudo sobre a separação cega da fala em salas reverberantes
dc.type	Dissertação de mestrado
local.contributor.advisor-co1	Hani Camille Yehia
local.contributor.advisor-co1Lattes	http://lattes.cnpq.br/5816909391153518
local.contributor.advisor1	Adriano Vilela Barbosa
local.contributor.advisor1Lattes	http://lattes.cnpq.br/9631335587847579
local.contributor.referee1	Eduardo Mazoni Andrade Marçal Mendes
local.contributor.referee1	Leandro Freitas de Abreu
local.contributor.referee1	Maurilio Nunes Vieira
local.creator.Lattes	http://lattes.cnpq.br/6867876472331114
local.description.resumo	A separação de fontes é uma etapa fundamental para o processamento eficaz de sinais de fala em diversas aplicações, como: assistentes virtuais, sistemas de videoconferência e dispositivos de assistência auditiva. Nesses contextos, os sinais captados são frequentemente compostos por misturas de múltiplas fontes de fala e ruído ambiente, o que torna a recuperação dos sinais originais um desafio. Métodos de separação de sinais são usados para filtrar sinais de fala indesejados ou recuperá-los a partir de misturas. As tarefas de separação tornam-se desafiadoras no caso de sinais que foram misturados em salas reverberantes, devido à natureza convolutiva das misturas resultantes. As técnicas de separação comumente usadas nesses cenários incluem a Análise em Componentes Independentes no Domínio da Frequência (FDICA) e a Análise de Vetores Independentes (IVA), que utilizam diferentes métodos de otimização, como gradiente natural, iteração de ponto fixo ({\em fast}) e funções auxiliares. Fatores como o tipo de algoritmo e o posicionamento dos microfones podem afetar o desempenho da separação para diferentes cenários acústicos. O primeiro devido ao modelo e otimização adotados, e, o segundo, devido à diversidade da informação espacial. Este estudo visou investigar e comparar esses fatores para condições experimentais específicas. Para isso, seis métodos de separação cega de fala para misturas convolutivas (três FDICA e três IVA) foram aplicados às misturas de duas fontes, gravadas em quatro salas com diferentes tempos de reverberação. O desempenho dos métodos foi então comparado utilizando-se as seguintes métricas: Razão Sinal-Interferência (SIR), Razão Sinal-Distorção Invariante à Escala (SI-SDR) e Avaliação Perceptiva da Qualidade da Fala (PESQ). Nesse caso, foi realizada a análise com blocagem de todos os fatores, exceto do fator método. A SI-SDR e a PESQ, por terem resultados com menor variabilidade, também foram usadas para avaliar e comparar, em cada sala, como a distância entre os microfones (0 cm, 4 cm e 57 cm) e a distância média entre fontes e microfones (75 cm, 140 cm, 210 cm) afetaram o desempenho de cada um dos três métodos IVAs, escolhidos a partir da primeira análise. Para a comparação dos algoritmos, a SIR apresentou resultados inconclusivos. A comparação da SI-SDR e PESQ mostrou que o fastFDICA foi estatisticamente inferior aos outros métodos. Além disso, o IVAng superou as técnicas FDICA e não apresentou diferença estatística em relação a outros métodos IVA em um nível de significância de 5\%. Para a comparação do posicionamento, os resultados mostraram que o desempenho dependeu mais das informações espaciais do que dos algoritmos. Para cada sala, aumentar a distância entre os microfones melhorou o desempenho, embora esse efeito tenha diminuído com tempos de reverberação mais altos. Variações nas distâncias entre microfones e fontes não produziram efeitos estatisticamente significativos em nenhum tempo de reverberação específico.
local.publisher.country	Brasil
local.publisher.department	ENGENHARIA - ESCOLA DE ENGENHARIA
local.publisher.initials	UFMG
local.publisher.program	Programa de Pós-Graduação em Engenharia Elétrica
local.subject.cnpq	ENGENHARIAS::ENGENHARIA ELETRICA

Arquivos

Pacote original

Agora exibindo 1 - 1 de 1

Nome:: Guilherme_Dissertação_corrigida.pdf
Tamanho:: 9.62 MB
Formato:: Adobe Portable Document Format

Baixar

Licença do pacote

Agora exibindo 1 - 1 de 1

Nome:: license.txt
Tamanho:: 2.07 KB
Formato:: Item-specific license agreed to upon submission
Descrição:

Baixar

Coleções

Pós-Graduação em Engenharia Elétrica - Dissertações